第31卷第1期 北京信息科技大学学报 Journal of BeOing Information Science&Technology University V01.31 No.1 Feb.20l6 2016年2月 文章编号:1674—6864(2016)01—0090—04 DOI:10.16508/j.cnki.11—5866/n.2016.O1.018 基于Excel的数据挖掘处理及应用分析 崇美英,曲梦琪,黄宏博,王遵刚 (北京信息科技大学计算中心,北京100192) 摘 要:通过对不同数据分析软件及其分析方法的比较,提出了Excel软件在数据挖掘、 处理及分析方法上的应用。运用Excel软件中数据筛选、排序、函数等数据处理功能及数据透视 图/表、数据分析包等数据分析功能,并通过对商业案例的分析,确定了Excel软件在数据分析领域 的应用的有效性,指出了熟练掌握Excel在数据分析领域的应用可以帮助企业的市场运营部门更 精准的了解客户行为,细分各产品目标客户群,调整企业现有营销策略,实现更精准的营销,从而 帮助企业实现其发展目标。 关键词:Excel软件应用;数据挖掘、处理及分析;精准营销 文献标志码:A 中图分类号:TP/39 Data mining processing and application based on Excel CHONG Meiying,Qu Mengqi,HUANG Hongbo,WANG Zungang (Computer Center,Beijing Information Science&Technology University,Beijing 100192,China) Abstract:Data mining,application processing and analysis methodology are proposed based on Excel software by comparing various types of software applied in the analysis field.Then the effectiveness of applying Excel software to data analysis is determined by using filters,sorts,functions,pivot tables, pivot charts,data analysis package and other data analysis functions in Exce1.It is proved that proficiency in Excel can help marketing operation department to find out a more accurate way to understand customers’behaviors,segment target customers for each product group,and adjust existing marketing strategies to achieve more precise marketing in terms of achieving their goals. Key words:Excel software application;data mining,processing and analysis;precision marketing 0 引言 近年来,随着企业之间竞争的加剧,越来越多的 企业了解并意识到了数据以及数据分析的潜在魅力 和益处,并希望通过数据分析提高企业竞争力,以较 高的投资回报率获得客户,占有市场进而扩大其市 场份额 。 目标,从而引导市场部门制定相应的营销策略 j。 目前,全球有着大量的应用于数据处理和分析 的软件,例如:Excel、SAS、SPSS、R、Stata、Minitab、 Knife等。但除Excel外,其他软件对数据分析人员 的专业技术能力要求相对较高,且软件购置费较昂 贵,通常适用于数据分析发展相对成熟的国家 。 我国对数据分析人员的需求日益增长,但由于缺乏 可使用上述专业软件的数据分析专业人员,且已有 的数据分析人员的专业技术水平尚不能完全满足市 场的需求,导致目前很多企业无法开展有效的数据 分析。因此,具有操作相对简单、便捷、易培训、花费 低、易满足发展初期的数据分析市场,并且基本可以 国际上发达国家和地区已将数据分析技术较熟 练地应用在了各种商业环境中,通过构建数据模型 评估各市场营销渠道的有效性,并结合消费者购买 行为信息及企业自身营销手段制定最有效的营销策 略;同时,还可通过模型的构建,帮助企业确定销售 收稿日期:2015.10.13 基金项目:北京信息科技大学校基金项目(5221510927) 作者简介:崇美英,女,副教授。 第1期 崇美英等:基于Excel的数据挖掘处理及应用分析 91 完成像SAS等专业统计软件所能完成的数据分析 等优势的Excel软件功能便凸显出来。 1 Excel数据处理及分析方法 目前常见的适用于企业数据分析的方法有:描 述性统计、概率统计、概率分布、均值推断、线性回 归、非线性回归、逻辑回归、多元回归、时间序列、F. test、T.test、Z.test等。其中描述性统计方法和概率 统计方法通常用于汇总数据,其与线性回归、非线性 回归、逻辑回归、多元回归、F.test、T—test和Z—test统 称为传统的统计分析方法,时间序列分析则为相对 非传统统计分析方法。Excel具有绝大部分传统统 计分析方法的功能,并且我国企业目前恰恰更多的 是使用这些传统的统计分析方法来进行数据 分析 ]。 1.1数据处理方法 通常利用Excel中的“筛选”、“排序”、“自动填 充”等功能以及“函数”功能处理数据,使数据达到 可进行分析的标准 j。 1.2数据分析方法 通常利用Excel中数据透视表、数据透视图、各 类图表(柱形图、条形图、折线图、饼图、散点图等)、 描述性统计、概率统计以及数据分析包中的Z—test 和回归模型功能分析数据,通过分析市场数据进而 探究市场活动规律、消费者行为规律、营销手段以及 营销策略缺陷等。 2 案例解析 2.1市场活动推广邮件筛选 2.1.1 实验设计 分析目的:针对某一市场活动,通过对接收到不 同邮件标题的推广邮件的客户进行其活动参与率等 相关信息的分析,挖掘客户对邮件特征的喜爱偏好, 最终挑选出最具有推广能力及价值的邮件以便应用 于今后的活动推广中。 分析过程:针对4封邮件标题不同的推广邮件, 分别在活动开始前5周发送和活动开始前1周发 送。因此基于邮件发送时间不同先将在活动开始前 5周发送的4封邮件定为邮件组1,4封标题不同的 邮件分别记为1A、1B、1C、1D;将在活动开始前1周 发送的4封邮件定为邮件组2,4封标题不同的邮件 分别记为2A、2B、2C、2D。然后分析每一封邮件的 效果。其步骤如下: 步骤1分别获取8封邮件的发送成功数量。 邮件组1发送成功数量记为:D 、D D 、D。。;邮 件组2的数量记为:D2 D2 D2c、D2D; 步骤2分别获取8封邮件的顾客注册活动人 数。邮件组1的人数记为:尺 、尺 、 、尺 。,邮件组 2的人数记为: 2A、R2H、R2c、R2D; 步骤3分别获取8封邮件的顾客参加活动人 数。邮件组l的人数记为:A 、A 、A 、A 。,邮件组 2的人数记为:42A、A2B、 2c、A2D; 步骤4针对8封邮件,分别计算注册活动人 数与邮件发送成功人数的比值。邮件组1的比值记 为:R1A/D1A、R1B/D1B、R1c/D1c、R1D/D1D,邮件组2的 比值记为:R2A/D2A、R2B/D2B、R2c/D2c、R2D/D2D; 步骤5针对8封邮件,分别计算参加活动人 数与邮件发送成功数量的比值。邮件组1的记为: A1A/D1A、AlB/D1B、A1c/D1c、AlD/D1D,邮件组2的记 为: 2A/D2A、A2B/D2B、A2c/D2c、A2D/D2D; 步骤6针对8封邮件,分别计算参加活动人 数与注册活动人数的比值。邮件组1的比值记为: A1A/R1A、A1B/尺lB、A1c/R1c、AlD/RlD,邮件组2的比值 记为: 2A/R2A、A2B/R2B、A2c/R2c、A2D/R2D; 步骤7 通过对R1A/D1A、RlB/D1B、Rlc/D1c、 R1D/D1D、R2A/D2A、R2B/D2B、R2c/D2c、R2D/D2D以及 A1A/R1A、A1B/R1B、A1c/R1c、A1D/R1D、A2A/R2A、A2B/ R2B、A2c/R2c、A2D/R2D值的观察,选择性的进行Z-test 检验; 步骤8通过Excel软件数据分析包中的“Z— test”检验各邮件之间的差异是否呈现显著性,进而 挑选出客户点击率高,推广效果好的邮件。 2.1.2实验结果 通过以上步骤获得的市场活动推广邮件各相关 数据如表1所示。 表1 市场活动推广邮件各相关数据 邮件注册参加注册活动参加活动参加活动 邮件 发送活动活动/邮件发送/邮件发送 /注册 成功/封/人/人 成功/% 成功/% 活动/% 邮件1_1A 66 667 104 40 0.16 0.O6 38.37 邮件1—1B 66 250 167 53 0.26 0.O8 31.72 邮件t_1C 62 000 172 62 0.28 0.10 35.95 邮件1—1D 65 000 138 39 O.21 O.06 28.32 邮件2_2A 65 714 114 46 0.18 O.O7 40.21 邮件2_2B 70 000 72 28 O.10 0.04 38.89 邮件2_2C 65 714 113 46 0.18 0.07 40.63 邮件2_2D 60 833 139 73 0.23 O.12 52.38 由表1可以看出,邮件组1中1A具有较低的转 92 北京信息科技大学学报 第31卷 化率(活动注册数量与邮件发送成功数量的比值), 而1B和1C具有较高的转换率;邮件组2中2D也 具有较高的转换率。 因此通过Z.test分别分析1A与1B、1C、1D之 间转化率的差异,1B、1C分别与1A、1D之间转化 率的差异,1B与1C之间转化率的差异以及2D与 2A、2B、2C之间转化率的差异是否具有足够显 著性。 Z—test分析结果显示:1A分别与1B、1C、1D之 间转化率的差异在95%置信区间上均呈现显著性; 1B和1C分别与1A、1D之间转化率的差异在95% 置信区间上均呈现显著性;1B和1C之间转化率的 差异在95%置信区间上不呈现显著性;2D分别与 2A、2B、2C之间转化率在90%置信区间上呈现显著 性。因此,可以总结出邮件组1中的1A,其活动推 广效果较差,应尽量避免使用在今后活动推广邮件 1 2 3 中;而邮件组1中的1B和1C两封邮件,其活动推 广效果不相上下,均可作为今后活动推广邮件。邮 1 0 l 件组2中的2D,其活动推广效果明显好于组内其余 3封邮件,因此在今后选择活动推广邮件时,应主要 选择该类型邮件。 2.2 消费者行为及市场活动有效性分析 2.2.1 实验设计 分析目的:针对某一特定时间段内(6个月)所 有消费者和潜在消费者的行为信息(参与市场活动 的信息及购买信息等),通过建立模型对消费者和 潜在消费者参与的市场活动和购买情况进行分析, 探究可促进消费者购买产品的潜在的有效的市场活 动,帮助企业更深入地了解消费者的活动行为规律 以及市场活动的有效性,从而帮助企业改善营销 策略。 分析过程: 步骤1 获取过去6个月消费者行为信息表及 消费者购买活动信息表; 步骤2利用2个信息表中的公共信息作为关 键字,通过Excel软件中VLOOKUP函数将消费者购 买信息表与消费者行为信息表整合,记整合后的数 据为整和数据; 步骤3改变整和数据中市场活动类型变量的 数据类别,将其全部转化成二进制变量,参与活动记 为1,未参与活动记为0。并将所有活动类型变量视 为自变量。转换后的数据如表2所示; 步骤4改变整和数据中消费者购买产品变量 的数据类别,将其全部转化成二进制变量,购买产品 记为1,未购买产品记为0。并将是否购买产品变量 视为因变量。转换后的数据如表2所示。 表2消费者行为及购买信息 消费者购买产品 第3方活动 白皮书研讨会 展览会 1 0 0 1 0 1 O 0 0 O 1 O 步骤5设原始线性模型截距为,,各自变量系 数为C C以,…,C。 ,通过步骤3中得到的自变量 分别计算每位消费者的对数单位(Logarithmic Units)。通过公式“原始可能性:Exp(对数单位)” 将对数单位转换为原始可能性(购买产品的概率与 不购买产品的概率的比率); 步骤6通过公式“概率=原始可能性/(1+原 始可能性)”计算出购买产品的概率,记为P ,P , …,P ; 步骤7基于消费者真实购买产品情况,将步 骤6中得到的购买产品的概率转换为基于真实购买 产品的概率,记为P P ,…,P 步骤8计算所有基于真实购买产品的概率的 乘积和,记为P 通过公式“对数可能性 =Ln(P )”计算出用于寻找最适合模型的标准化 系数的对数可能性,记为L 步骤9运用Excel软件中的数据分析插件“规 划求解(Solver)”,通过调整步骤5中的,值以及 C。 ,C以,…,C。 值优化 值,使其达到允许范围内 最大值,从而获得最适合模型的各自变量的标准化 系数,将优化后的标准化系数记为C ,C ,…,C ; 步骤1O通过公式“可能性比率=Exp(C )” 分别计算各自变量的可能性比率,并记为Exp(C ), Exp(C2),…,Exp(C ); 步骤11通过公式“95%置信区间内可能性 比率最低值=C —t(0.025,样本总数一预测数一 1)×标准差”和“95%置信区间内可能性比率最 高值=C +£(0.025,样本总数一预测数一1)×标 准差”分别计算各自变量的95%置信区间,记 95%置信区间内可能性比率最低值为B B也,…, B ;95%置信区间内可能性比率最高值为B , 日 ,…,B ;并通过95%可能性区间内最低值和 最高值判断各自变量是否在95%置信区间内呈现 显著性。 2.2.2 实验结果 通过以上步骤获得的消费者行为及市场活动有 第1期 崇美英等:基于Excel的数据挖掘处理及应用分析 93 效性分析结果如表3所示。 表3消费者行为及市场活动有效性分析结果 析领域应用的有效性和可用性。熟练掌握Excel在 数据分析领域的应用不仅可以优化企业市场营销策 略、提高市场部门的市场运营效率、节省不必要的市 场开支;同样还可广泛的适用于企业的其他部门和 不同的企业营销与市场分析,并通过分析客户的喜 爱偏好及兴趣等因素,提升现有产品性能或研发出 参与展销会 一0.465显著 1.168显著 628 881 215 145 069 083 0.496 0.842 2.694 0.998 0.762 2.278 0.760 2.92O 3.736 1.292 1.376 3.888 顾客满意度更高的产品。 参与社交网络互动 0.632不显著 申请免费使用 申请优惠券 预定公司彩页 参考文献: [1] 张周平.大数据在电子商务企业中的应用现 状及趋势[J].信息与电脑,2014(6):45 —0.135不显著 0.067不显著 咨询公司客服 1.126显著 0.182显著 常数 199 46. 由表3可以看出,在所有的市场活动类别中, [2] Randy Bartlett.A practitioner’S guide to business analytics:using data analysis tools to improve your organization’S decision making “申请免费试用”以及“咨询客服”这2个类别的市 场活动对于潜在消费者购买产品有着显著非常积极 的推进作用;而“展销会”这个类别的市场活动表现 则低于市场活动平均水平。由于“参与社交网络互 and strategy[M].McGraw—Hill,2013:1—28. [3] Raqsofl BI OLAP.Analysis tools comparison: R language.Matlab,esProc,SAS,SPSS,Ex- 动”、“申请优惠券”及“预订公司彩页”这3个类别 的市场活动未呈现出显著性,故无法从该模型中推 测出该活动类型对产品购买产生的影响。 因此,在对今后市场推广活动的选择上,该公司 可增加对“免费试用”以及“客服”这2个类别的市 cel,and SQL[EB/OL].(2012—10).[2015 09—3O].http://www.smartdatacollective. —com/raqsoft/787 1 1/interactive·-analysis--tools·- comparison-r-language—matlab—esproc—sas—spss— excel—and-sq1. 场活动的投资,在保证利润的基础上多推出免费试 用产品,同时保持或进一步提高电话接线员的服务 态度及质量。而对于“展销会”这个类别的市场活 动,公司则可以适当的减少投资,或者增加其活动的 质量,多举办一些高质量的展销会。同时,公司需要 通过不同方式和渠道增加潜在消费者参与公司市场 活动的意愿和次数。 [4] 崔小委.数据分析在电子商务中的应用研究 [J].中国电子商务,2012(8):27—29. [5] 黄翔.浅谈数据分析在电子商务中的应用 [J].商情,2010(13):90. [6] Eva Goldwater.Using Excel for statistical data analysis—caveats[EB/OL].(2007—2).[2015 —3 结束语 本文通过商业案例分析证明了Excel在数据分 09—30].http://people.umass.edu/ evagold/exce1.htm1. (上接第89页) [10] Marcin Cz ̄kowski,Marek Grze ̄,Marek Kre— towski.Multi-test decision tree and its applica— [1 1] Juyoung Park,Kyungtae Kang.PcHD:person- alized classification of hea ̄beat types using a tion to microarray data classification[J].Arti- ficial Intelligence in Medicine,20 14,32:99 —decision tree[J].Computers in Biology and Medicine,2014,54:444—449. 102.