学术论坛 I数字技术 t1一写 用 计算机数据分析常用方法与比较 赵禹 (广州华立科技职业学院广东广州511325) 摘要:数据分析是通过分析手段、方法和技巧对已经准备好的数据进行探索、分析,并且从中发现因果关系、内部联系以及业务规律,为某种行 业目的提供决策参考。数据分析方法有两种,一种是统计分析方法,另一种是数据挖掘方法。本文对这两种方法进行了概述与比较,希望能够对数据分 析的初学者提供一些帮助。 关键词:数据分析统计分析数据挖掘 中图分类号:TP311 13 文献标识 ̄-q:A 文章编号:1007—9416(2016)03—0256—01 1数据分析概述 (1)定义。数据分析是有针对性的收集、加工、整理数据,并采用 统计、挖掘技术分析和解释数据的科学。从行业角度定义,数据分析 是基于某种行业目的来进行的有目的性地收集、整理、加工和分析 数据,提炼出有价值的信息的过程。 (2)步骤。数据分析过程主要由识别信息需求、收集数据、预处理 数据、分析数据、数据展现以及报告撰写等步骤组成。 2数据分析方法概述 类。常用的决策树方法有C4.5、CART和Assistant。决策树能生成町 理解的规则,计算量相对较小,能够清晰显示比较重要的字段,但当 类别太多时,错误也可能增加较快,比较难预测连续性的字段,在一 般算法分类时,只根据一个属性进行分类,这是其缺点。①人工神经 网络。人工神经网络是一种应用类似于大脑神经突触联接的结构进 行信息处理的数学模型,它是数据挖掘中机器学习的典型代表。简 言之,“神经网络”就是通过输入多个非线性模型及不同模型之间的 加权互联,最终得到一个输出模型。②贝叶斯分类方法。贝叶斯分类 方法主要用于预测类成员间关系的可能性,它是统计学的…一种分类 朴素贝叶斯分类算法可以与决策树和神经网络 数据分析方法分为两种,一种是统计分析方法,另一种是数据 方法。在许多场合,挖掘方法。在某种特定的情况下,选择不同的数据分析方法,所得出 分类算法相媲美,该算法能运用到大型数据库中,而且方法简单、分 类准确率高、速度快。(2)聚类分析。聚类分析是指当要分析的数据缺 的结果也可能截然不同。这里我们对数据分析的方法进行基本简 乏描述信息,或是无法组成任何分类模式时就采用聚类的方法,将 述。 组之间的差异识别出来,并对个别组内的相似样本进行挑选,实现 3统计分析方法 同组数据相近,不同组数据相异。(3)关联规则。关联规则数据挖掘的 (1)描述性统计分析。描述性统计分析是通过图标或数学方法, 主要目的是找到数据集中的频繁模式,应用关联规则最经典的案例 对数据资料进行整理、分析并对数据的分布状态、数字特征和随机 就是购物篮分析,通过分析顾客购物篮中商品之间的关联,挖掘其 变量之间的关系进行估计和描述的方法。它分为集中趋势分析、离 购物习惯,从而帮助零售商更好地制定有针对性的营销策略。(4)回 中趋势分析和相关分析三大部分。集中趋势分析主要靠平均数、中 归分析。数据挖掘中的回归分析主要是指多元线性回归和逻辑斯蒂 数、众数等统计指标来表示数据的集中趋势。离中趋势分析主要靠 回归,后者多在数据化运营中使用。多元线性回归主要描述一个因 全距、四分差、方差、平均差、标准差等统计指标来研究数据的离中 变量如何随着一批自变量的变化而变化,其回归方程是因变量与自 趋势。相关分析是研究现象之间是否存在某种依存关系,并对具体 变量关系的数据反映,最常用的是最小二乘法,即找出一组对应自 有依存关系的现象进行其相关方向及相关程度的研究。这种关系既 变量的相应参数,使得因变量的实际观测值与回归方程的预测值之 包括两个数据之间的单一相关关系,也包括多个数据之间的多重相 间的总方差减到最小。 关关系。(2)关联分析。关联分析又称关联挖掘,通过分析由定性变量 构成的交互汇总表从大量数据中发现项集之间有趣的关联和相关 5统计分析与数据挖掘的区别与联系 统计分析与数据挖掘从理论来源的角度来看,都源于统计基础 联系。其基本思想就是将一个联列表的行与列中各个元素的比例结 概率论和随机事件是统计学的核心理论之一,统计分析 构以点的形式在较低维的空间中表示出来。(3)回归分析。回归分析 理论。比如,是确定两种或两种以上变量间相互依赖的定量关系的一种统计分 中抽样估计需要应用该理论,在数据挖掘技术的朴素贝叶斯分类 就是这些统计理论的发展和延伸。因此,它们的很多方法在很多 析方法。按照涉及的自变量的多少,分为回归和多重回归分析;按照 中,因变量的多少,分为一元回归分析和多元回归分析;按照自变量和 情况下都是同根同源的。 在实践应用中,统计分析一般需要分析人员先做假设或者判 因变量之间的关系类型,分为线性回归分析和非线性回归分析。这 在预测中的应用 里讲的回归分析是指一元线性回归,区别于数据挖掘方法中的多元 断,然后再利用数据分析技术验证假设成立与否,分析人员利用算 线性回归。(4)因子分析。因子分析是指研究从变量群中提取共性因 常表现为一个或一组函数关系式。而数据挖掘中,子的统计技术,即从大量的数据中寻找内在的联系,减轻决策困难 法自动寻找数据中隐藏的关系或规律,不容易在预测的结果中产牛 数据挖掘技术对于海量、杂乱的数据,有 的分析方法。因子分析有重心法、最大似然揭发,最小平方法,拉奥 明确的函数关系式。因此,明显的应用优势,也拥有更灵活更宽广的思路和舞台。 典型抽因法等,都以相关系数矩阵为基础,本质上属于近似方法,不 同在相关系数矩阵对角线上的值,采用不同的共同性估值。(5)方差 参考文献 分析。方差分析又称“变异数分析”或“F检验”,用于两个及两个以上 [1]古福.让大数据分析更快速、更简化[J].互联网周刊,201 3. 样本均数差别的显著性检验。研究所得的数据一般呈现波动状。造 [2]刘永振.数据挖掘技术研究[J].科技资讯,2009. 成波动的原因可分成两类,一类是不可控的随机因素,另一类是研 [3]肖攸安,李腊元.数据挖掘与知识发现的理论方法及技术分析[J] 究中施加的对结果形成影响的可控因素。方差分析是从观测变量的 交通与计算机,2002. 方差人手,研究诸多控制变量中哪些变量是对观测变量有显著影响 的变量。 4数据挖掘方法 (1)分类分析:决策树。决策树是一种树形结构,通过把实例从根 节点排列到某个叶子节点来分类实例,叶子节点即为实例所属的分 收稿日期:2016—01—20 作者简介:赵禹(1984一),女,山东潍坊人,在读工程硕士,研究方向:数据挖掘、智能信息处理。