一、数据挖掘综述
随着信息时代的来临,网络技术的发展和普及,各个行业都有爆炸性的数据增长,这些海量的数据中隐藏着我们需要的信息和财富。国际数据公司(IDC)报告称, 2011年全球被复制和创建的数据总量就已经大得惊人,在短短几年时间内增长了近9倍,而且预计这些数据每两年就将至少增加一倍。并且,政府机构也对外宣称了要加快数据研究进度这一重大计划,各行业也在积极讨论数据挖掘研究带来的吸引力。面对如此庞大的数据,以及这些数据背后的价值和新的机遇,挖掘和研究这些数据就会给我们带来挑战和切实的利益。
早在 1989 年8 月美国底特律召开的第 11 届国际功能会议上就出现了 KDD 这个术语, 1995年学术界和工业界共同成立了 ACM 数据挖掘与知识发现专委,后者发展成为数据挖掘领域的顶级国际会议。数据挖掘是一门交叉学科,涉及到各个行业和各个领域,同时,随着各行业对大量数据的处理深度和分析上的需求的增加,数据挖掘研究已经成为了学术界研究的热门学科,同时也受到各领域的重视。
经过多年的发展,数据挖掘研究领域成果颇丰,已经有了一套自己的基础理论。从大体趋势来说,国内和国外的研究方法和方向有差异,尤其是在某些方面还是存在着一定的差距.总的来说,国外的研究更偏重交叉学科和理论基础的研究,而国内则偏重于实际的应用上,用数据来解决实际的问题。同时,国内的学者在研究上也处于世界前沿水平,在国际舞台上也有十分突出的成绩,近年来也频频有国内团队登上国际领奖台.
在20世纪90年代中后期,用关联规则来进行挖掘、分类、预测等被逐渐用于时间序列数据挖掘和空间数据挖掘,以发现与时间和空间相关的有价值的模式,这些手段使得数据挖掘研究领域已经有了一些比较成熟的技术。 如今的定位系统、手持移动设备等设备的普及和应用积累了大量的移动对象数据,对这些数据领域的研究使我们受益匪浅。近年来,数据挖掘研究已经渗透到生物信息、医疗卫生、智能交通、金融证券、社交网络、多媒体数据挖掘、轨迹数据、文本数据等各大领域。这些领域与数据挖掘研究接轨后又会出现一些新的机遇和挑战。
数据挖掘是从大量数据中抽取隐含的事先未知的具有潜在有用信息或知识的非平凡过程。一般来说可以把数据挖掘过程分为6 个阶段,如图所示。
问题的意义数据收集数据预处理构造模型评估与优化结果应用
数据挖掘过程
(1)问题的定义:进行用户调查熟悉应用领域的数据背景知识确定研究目标和需求明确所要完成的数据库挖
掘任务的性质。
(2)数据收集:根据数据挖掘任务的要求确定与任务相关的数据集合。
(3)数据预处理:对上一阶段得到的数据进行加工以生成用于数据挖掘的数据集。这一阶段的工作包括两个内容:一方面需要将数据组织成一种标准形式,使其能被数据挖掘工具和其他基于计算机的工具处理;另一方面需要准备数据集,使其能得到最佳的数据挖掘效果。涉及到数据标准化、数据平整、丢失数据的处理、时间相关数据的处理以及异常数据的分析和处理。
(4)构造模型针对任务的所属类别设计或选择有效的数据挖掘算法并进行数据挖掘 从中得到应用感兴趣的
模式。
(5)评估与优化对发现的模式进行解释评估与优化必要时需要返回到前面处理中的某些步骤以反复提取。
(6)结果应用将所发现的知识进行整理并使之应用到实际的系统中.从中可见数据挖掘过程是一个多阶段的、反复的、复杂的处理过程。过程的各个阶段都需要包括领域专家数据分析员及数据挖掘专业人员等共同参与。各步骤之间包含了多次循环与反复在某个步骤的检验与应用中如果发现不合适则应对前面的步骤进行修改直到取得较满意的结果.
需要指出的是,数据挖掘的两个基本目标往往是预测和描述:预测涉及到使用数据集中的一些变量用来预测其它我们所关心变量的未知或未来的值;描述关注的则是找出描述可由人类解释的数据模式。由此对应:(1)预测性数据挖掘生成已知数据集所描述的系统模型;(2)描述性数据挖掘在可用数据集的基础上生成新的非同寻常的信息。
通常情况下我们把数据挖掘方法分为两大方面,一是人工智能领域中的机器学习型,这种类型通过训练和学习大量的样品获得需要的模式或者参数 ;二是统计类型,有判别分析、相关性分析和概率分析等技术。 1. 可视化技术
可视化技术指采用计算机图形学和图像处理技术,把抽象的东西转换成图像并且在屏幕上显示出来的一种让人一目了然的方法,从而进行交互处理的技术。它将几何数据绘制成目标图像,将图像按照要求进行输出显示在屏幕上. 2. 模糊技术
通过利用原有的数据挖掘技术的同时,结合模糊理论,从大数据中发现更为广泛的内容,并将其挖掘出来以方便用户理解。因为模糊性的客观存在,而且复杂性较高,因此,数据采集之间的关系表现出十分的模糊。将模糊理论与数据挖掘技术结合从大量、不完全的数据中提取潜在的、模糊决策、模糊模式识别和模糊聚类分析. 3. 粗糙集方法
粗糙集理论为一种描述不确定性和不完整性的数学工具,可以有效地处理和分析不完整、不一致、不精确等信息,并从中发现知识,揭示规律。粗集理论是处理模糊数据的有力工具,且粗集理论的创建和研究的出发点是直接对数据进行分析和推理,发现隐含的知识并揭示规律。 4. 神经网络
指能够模仿人脑神经元的人工神经网络, 并能进行信息的处理.需要通过一定时间的训练才能增强挖掘结果的可理解性。其工作原理是根据人脑神经元的原理,通过不断修正其内部的节点间相互连接的关系达到处理信息的目的。 5. 遗传算法
遗传算法是在生物进化过程中,在组合优化的基础上的提出的,这是生物学与计算机结合的产物。就像生物的进化一样,会选择适宜度更强的个体进行交换和变异,通过时间和空间上的类比,能够使大量数据系统化和简单化,以方便找到他们的内在联系获得概念和模式。 6. 决策树
决策树的构造不需要任何领域的知识,很适合知识的挖掘并且可以处理高维度的数据。决策树可以被大多数人所掌握,并且不需要太多的专业知识。 7. 关联规则
关联规则挖掘技术就是从大量数据中发现其相关性,这也是最常见的数据挖掘的方法.通过层层的筛选以减少候选的子集数,从而加快了关联规则挖掘的进度。
数据的应用实质上是利用数据的分析结果,为用户提供辅助决策,发掘潜在价值的过程。数据挖掘技术是面向应用的,是为了获取信息来服务各行业.随着数据挖掘研究的深入与成熟,发展和推广,数据应用技术也会越来越广泛.现阶段,数据挖掘应用主要集中在以下方面。在金融业上:用于银行行业各种趋势预测,优化存贷策越等。客户关系管理:用于分析客户的行为,对客户进行分类,改善客户关系等。生物信息:用于各种染色体、基因序列的识别以及制药生物信息和科学研究等。电子商务:用于在线交互式营销系统的经营模式、市场策略等方面来优化网站结构,改善网易推荐和商品推荐内容等。零售业:数据挖掘技术被用来进行分析购物篮来协助货架设置,安排促销商品的时间等商业活动.
二、数据挖掘在智能交通中的应用
交通是关系到人们日常生活的一件大事 随着城市规模不断扩大城市的交通问题也越来越突出目前利用多种先进科学技术的智能交通系统ITS 是解决交通问题的一个方向ITS 中的一个重要研究领域就是交通流的控制与诱导然而城市交通控制系统是一种对象不确定的对控制的实时性要求高结构十分复杂的巨系统由此决定了系统建模和模型求解的难度而控制的实时性要求在交通流状态迅速变化条件下尽快求出最优或次优的控制变量传统的控制方法已无法解决这些难题。
事实上 交通流数据采集系统长时间通过人工采集和自动采集积累了大量交通流数据利用数据挖掘技术可以对交通流量的原始数据进行重新组织使这些数据不但能够为智能交通系统中的控制系统服务也能为决策系统和诱导系统等提供数据本文首先进行数据挖掘综述然后给出智能交通系统信息特性及其不确定性指出传统方法的局限性对应用数据挖掘处理某些具体交通问题进行了分析。
智能交通系统是信息全球化和社会化的产物.它通过运用先进的信息技术、数据通信技术、自动控制技术以及计算机技术,建立起立体化、全方位的公路交通运输体系,并被视为解决当今交通问题最有前途的手段之一。随着智能交通事业的飞速发展,日积月累的海量交
通信息逐渐成为各种智能交通应用系统的宝贵资源。智能交通的目的就是通过分析交通信息,不断优化系统的控制策略,调整各类交通参与者的行为,来实现交通系统的优化运行。作为ITS 核心资源的交通信息具有如下特征:
(1)交通信息来源广泛、种类繁多、表现形式多样、信息量巨大。针对传统的基于统计学的经典分析方法难以处理非数值型或非结构化的数据,传统的基于数据库的决策支持系统难以支持日益膨胀的海量信息分析的现状。
(2)信息具有很强的时空相关性.如车流量数据,只有在与一定的时刻及路口相关时才有意义,否则难以被理解与利用。
(3)信息具有明显的主题相关性,如交通流信息、交通信号控制信息等‘
(4)信息具有生命特性,智能交通系统的信息具有生命周期,经历从采集、融合、加工、应用到最后被扬弃的过程。
可见,智能交通系统存在动态性、不确定性、时空相关性、主题相关性和生命特性等信息特征,经典的数学公式与传统的建模方法已不能满足现实世界的信息分析要求。因此亟需采用新一代的数据融合、决策支持和分析手段,综合知识工程、人工智能、数据挖掘技术等方面的研究成果进行智能分析,才能充分发掘各应用系统的潜力,为动态交通管理提供科学准确的决策依据,使智能交通应用的深度和广度更上一个台阶。
针对交通信息、交通系统的不确定性,在传统的基于数据库、知识库和模型库的决策支持系统基础上,采用数据仓库、联机分析、数据挖掘以及专家系统的有关理论与技术,构建出新一代的智能决策支持系统模型;应用数据挖掘方法。(统计模式识别、神经网络方法、遗传规划和多源复杂信息知识挖掘技术等)研究建立适合交通信息挖掘的具体模型;在信息分析技术方面,突破传统的基于经典数学的统计分析方法的局限性,全面引入神经计算模糊计算进化计算等智能计算技术,为交通信息的综合管理、智能分析和实时决策支持提供可行的方案。
数据挖掘在 ITS 中某些具体应用问题的分析如下: (1)数据净化处理问题
在检测器自动采集的数据和人工输入的数据中都可能出现的错误数据,这是因为:一方面车辆检测器有一定的误差,而且可能出现故障;另一方面,由于种种原因人工输入可能出错,因此有必要从大量数据中把错误的、异常的数据、没有用的信息剔除掉,这就是所谓的数据净化问题。数据净化是典型的数据分类问题,即把数据分为有用数据和无用数据,更细化一点,再把无用数据分为错误数据、异常数据。分类是数据挖掘最基本的、应用最广的用
途。因为所有海量数据都有数据净化问题.很多车辆检测器和视频监视器长时间日复一日地自动采集信息,各个子系统的操作人员长期地输入数据,对于这些海量数据必须应用数据挖掘技术加以净化。分类数据挖掘的方法主要有人工神经网络、决策树、遗传算法、粗集理论、模糊逻辑、最近邻技术等方法。
(2)短缺数据的挖掘问题
科学决策需要尽可能完全的信息支持.但是在实际系统中往往不可能得到完全的信息,交通管理信息系统就是这样的实际系统。因为一方面不可能设置无限多的车辆检测器和视频监视设备,这样会大大增加建设费用和维护工作量,在没有设置检测器的地方就得不到交通流数据,需要通过数据挖掘技术从相邻的检测器数据中把这些地方的数据估算出来;另一方面,检测器和视频监视设备都有一定的误差和故障率,同一检测面上个别检测器也可能出现受遮挡或失效的情况,在设备发生故障时或者检测器检测失效时,就会出现数据短缺现象。这就需要弥补数据。从上下游检测器的交通流数据,当地交通流的历史数据以及从同一个检测器前后时段的交通流数据,通过数据挖掘可以获得短缺的交通流数据与已知数据之间的关系,从而可以估算出没有设置检测器的断面的交通流数据和发生故障的检测器丢失的交通流数据.
(3)交通流参数的预测问题
为了实现有效的交通控制(限速、路线诱导等)需要每隔5 min 预测1 次交通流动态参数.从实际检测得到的交通流数据(车流量、车速、占有率或车流密度等)预测下一个控制周期(下一个5min )的交通流动态参数,需要寻求交通流数据与预测值之间的对应关系。然而交通流本身是一个典型的非平稳随机过程,短时(5min)的交通流参数预测问题是一个不确定性很强的弱结构化问题.一般不能用简单的解析数学式子描述交通流参数预测值与已知交通流检测数据之间的关系,只能从检测器不断地采集的大量实测数据中挖掘出它们之间的关系,用知识来表达这种关系,形成相应的知识库。这里可能用到的数据挖掘方法有小波分析、状态空间重构以及各种人工智能的方法,例如机器学习、不确定性推理、定性推理、神经网络等。
交通流参数的预测值发送到相应子系统(交通管理子系统、交通运营决策子系统、紧急事件处理子系统、公众信息发布子系统等),供这些子系统决策用。
三、数据挖掘的应用思路
1。 数据挖掘在交通安全领域应用
(1)交通事故专项分析
开展事故的区域分布特征、时间分布特征、道路分布特征、事故原因分布特征、事故形态分布特征、重点车辆事故信息分析等专项分析.
(2)交通事故发展趋势分析
开展基于事故历史数据的交通事故发展趋势分析。 (3)事故多发路段分析挖掘
针对某一条重点道路或某几条重点道路的事故多发路段分析. (4)事故与违法信息关联分析
将事故信息与违法信息结合开展关联分析,分析事故与违法行为的关系。 (5)事故与机动车、驾驶人保有量的相对数分析
将事故信息与机动车、驾驶人信息结合开展关联分析,分析事故与机动车、驾驶人等信息的关系。
(6)交通事故综合挖掘分析
利用相关数据挖掘的分析主题有针对性开展数据挖掘分析。
通过以上分析来挖掘全国或某一区域道路交通事故的主要特点、事故的相关因素、事故多发路段等,同时可以对全国和某一区域开展事故发展趋势预测分析。 2. 基于数据挖掘的干线协调信号控制
在已有的数据挖掘技术在单点信号控制中的应用基础上,针对干线协调自身的数据随机性特点,在设计过程中将公交优先理念结合起来,通过对以往社会车辆流量和公交车辆流量随时间变化的数据挖掘其相应规律,结合干线协调设计需求,完成更加高效的干线协调系统。
因篇幅问题不能全部显示,请点此查看更多更全内容