您的当前位置:首页正文

一种改进的C4.5决策树算法

2023-07-01 来源:客趣旅游网
数据库技术·Data Base Technique 一种改进的04.5决策树算法 文/王志春 刘丽娜 本不依赖于任何专业领域的知识,所以在分 类,预测和规则提取等领域都被广泛的应用。 C4 2 04.5算法 2.1信息增益和信息增益率 70年代末,J.ROSS Quinlan提出了ID3算法后, 该 是 足 在机器学习和知识发现领域决策树算法都得到 了进一步应用和发展。 ID3算法的核心是选择属性时,用信息增 益(information gain)作为选择属性的度量标 准,在测试每一个非叶子结点时,能获得关于 被测试记录最大的类别信息。虽然ID3算法具 设D是m个不同值的训练集有m个不同 类C,(i=l,2,…,m),设C__d是元组的集合,D 和C.d中的元组个数是lDl和Cid[。 2.】ll信息增益 ,改 C4 提 奎 ID3算法中选择具有最高信息增益的属性 有算法清晰,方法简单和学习能力较强的优点, 但是ID3算法不能处理连续的属性值,并且依 赖于训练数据集的质量,只对数据集较小的情 况有效,训练数据集在逐渐变大时,决策树可 能会随之改变。由于ID3算法存在着许多需要 改进的地方,为此,J.ROSS.Quinlan于1993 提出了c4.5算法,对ID3算法进行了补充和 改进。C4.5算法具有ID3算法优点的同时也 改进和扩展了算法,使其产生易于理解和准 确率较高的分类规则。相比于ID3算法,C4.5 算法用信息增益率来选择属性,而不是ID3算 法所用的信息增益;在ID3算法的基础上还增 加了对连续属性的离散化、对不完整属性的处 理能力和产生规则等功能。 作为节点N的分裂属性,使元组分类的信息 量最小。期望信息为: Info(D)=一 一log ( ) f11 【关键词】数据挖掘决策树c4.5算法信息 增益率 i=1 用lC I/Inl估计D中任意元组属于类c 的概率Pi。lnfo(D)为D的熵。 若D的元组用属性A可分成v个不同的 类{D ,D ,…,D },D 包含D中的元组且在 A上有值a,,则属性A的信息熵为: 1n l ,。 ( (2) 1引言 数据挖掘中决策树是解决分类问题的方 法之一,是一种归纳学习算法。通过一组属性 值向量和相应的类,采用归纳学习算法构造分 类器和预测模型,能够从一组无序和无规则的 数据中生成决策树形式的分类规则。决策树基 A属性上该划分的获得的信息增益为: Gain(A)=_rn ̄o(m)一厂力 ( )(3) 2.1.2信息增益率 信息增益率用“分裂信息”值将信息增益 <<上接181页 功读到数据的标识 O=OX, d=一52.79RSSI一2903.74 拟合后得到RFID标签到天线的距离和相对角 度,由于RSSI值得噪声较大,每次测量的结 果都有一定差距,误差控制并不特别有效。 以此公式估计RSS1值对应的标签位置, data=[data;o(6)]; end; end; 所得到的距离估计误差如表1所示,最大的估 计误差为29.7lmm,定位精度较高。 5结论 在已有RFID天线特性研究基础上,分析 了RFID标签信号强度的等值线表达形式,提 出通过旋转天线来进行RFID标签定位的方法, 给出了连续旋转天线定位法,建立了使用步进 电机驱动的旋转天线定位系统,试验表明该方 法具有良好的定位精度,可以用于物体的精确 针对旋转天线方法,如果能够设计一个 fclose(s);delete(s);clear s; 4旋转天线定位试验 用matlab编程控制步进电机转动角度, RFID天线安装在步进电机上其角度随着步进 电机转动而转动。 由于读到的RFID标签RSSI值有一定的 随机性,需要多次进行读取,取其平均值为测 量值。 在步进电机控制天线旋转过程中,部分角 度无法读取到标签数据,因此试验中在每个角 度下读取标签20次,仅保存读到的有效数据, 舍弃其中没有有效测量数据的角度测量结果。 3.3直线距离下RSSI与距离之间的关系 标签的信号强度RSSI在标签与天线之间 过试验可以获得这个关系。通过前述试验系统, 在每个标签位置下读取100次数据做平均,消 步进电机转动一步,对RFID测量20次, 分析测量的结果,舍弃没有RSSI值的无效数 位置时,所测的标签RSSI值与天线角度的关 据。如此反复进行,对于标签在(550mm,0mm) 定位。 系如图2所示,其中的点位测量值。对这些数 波束稍窄的高性能天线,可以更加有效的测量 据进行拟合,拟合为一个二次方程,其表示为 得到标签的位置。 红色的线。这个二次方程具有最大值,最大 得到的标签到天线的距离d=567mm,角度为 一的角度为0。时与距离有良好的线性关系,通 值点即为标签所在的位置。对于这次测量, 作者简介 鲍天翼(1999一),男,黑龙江省哈尔滨市人。 2.06。,计算得到坐标为(566mm,一20mm), 对更多的标签位置进行测量,测量结果 除RSSI的随机量后作为RSSI的真值。 对试验中的天线和标签,其信号强度和 与实际位置差20mm。 现为哈尔滨市第三中学学生。研究方向为物联 网、智能家居及智能控制算法。 标签距离的关系数据如表1所示。 关系如下关系式: 误差基本都在50mm之内,具有较高的测量精 对以上数据进行拟合得到RSSI与距离的 度。 应当指出的是,本方法对试验数据进行 作者单位 哈尔滨第三中学黑龙江省哈尔滨市 1 50001 182·电子技术与软件工程Electronic Technology&Software Engineering Data Base Technique·数据库技术 假设用D代表当前样本集,当前候选属 较。实验所需数据来自于UCI数据集中IRIS 性集用A表示,则C4.5算法的流程图如图I 所示。 的样本实例。算法执行效率及分类正确率实验 结果如图2、3所示。 随着样本实例数的增加,改进算法的执 行效率得到提高的同时分类的正确率也有一定 的提升,因此改进的C4.5算法缩短了数据分 析的等待时间,提高工作效率,保障了分类正 确率。 3 04.5算法的改进 3.1 C4.5算法改进原理 C4.5算法得到很好的应用,但是还存在 一些不足,C4.5算法因为要对数据集进行多 次的扫描和排序所以算法的效率降低。根据信 4结束语 息量计算公式的特点,改进划分函数的属性选 择度量计算公式和连续属性处理方法,简化信 息量的计算复杂度,提高C4.5算法的执行效 率。 本文通过对决策树分类算法C4.5的分析, 在此基础上,针对该算法所存在的不足之处, 改进了熵值的计算和连续属性最优分割点的计 算,并用实验验证,得到较好的验证结果。 C4.5算法由于大量使用了对数函数进行 熵值运算,增加了计算机的运算时间,降低了 每一次属性选择时算法的运算效率,所以为了 参考文献 [1】Qui a1 an J R.hdueti on ofdeci sion tree s[M】.Machine Learning,1986,(1): 81—106. 解决这个问题,引入泰勒中值定理和麦克劳林 展开式,对熵值中的对数运算进行变换,优化 熵值运算,缩短其运算时间。 log2( )= 2(m一1)一(用一1)。 2上 (2) (6) C4.5算法对每个分割点都要计算相应的 熵值,才能得到最优的分割点,所以在选择最 佳的属性分割点时效率较低。为了解决这个问 图1:C4.5算法流程图 规范化,假设以属性A的值为基准对样本进 行分割,训练数据集D用分类信息Splitlnfo 作为初始信息量划分成对应于属性A的有v 个输出的v个划分信息。定义如下: 题,引入边界点定义和Fayyad定理。 边界点定义:设序列L={x ,X2,…,X )为 升序排列的有序序列,实例x所属的类为 C 。如果有实例X 和x (其中j=i+1),且 C ≠C 则边界点B。=(x +xj)/2。 Fayyad定理:连续属性x各个候选分割 [2]陈青山.决策树算法在高校教学质量评价 系统中的应用研究[c].西南交通大学硕 士论文.2010. [3]Quialan J R.C4.5:Programs for Machine Learning[M】.NewYork:Morgan Kaufnan, 199 3. [4】黄爱辉.决策树c4.5算法的改进及应用 [J].科学技术与工程.2009,9(1):34—36. [5】杨学兵,张俊.决策树算法及其核心技术 [¨.计算机技术与发展,2007,1 7(1):44- 46. 点对应的信息熵值的最小值一定在边界点B 上取得。 (4) n )_- ̄ [DJ [x log2‘ 信息增益率定义为信息增益与初始信息 量的比值: 作者简介 王志春(197 6-),男,陕西省洋县人。硕士学位。 由以上定理可知,连续属性的最优分割 现为河西学院讲师。研究方向为数据挖掘、嵌 点在计算时,只需要通过比较属性值序列在边 入式系统。 界点的最小信息熵值,就可以计算出该属性的 6ainRatio(A)= Gain(A) Splitlnfo(A)(5) C4.5算法选取信息增益比最高的属性为 最大修正信息增益率,减少了候补分割点,因 此可以大大提高了计算的效率。 3.2实验及结果分析 作者单位 1.河西学院信息技术与传媒学院 甘肃省张 掖市734000 集合D的测试属性,创建一个节点并为每个 属性创建分支划分样本。 2.2 C4.5算法实现  ?2.兰州理工大学科技处 甘肃省兰州市 使用Weka作为数据挖掘平台,对改进 C4.5算法与传统C4.5算法的分类性能进行比 730000 算法效率} 较图 +改逃算法+传统算法 —算法正确率 较圈 —一改进算法-O--传统算法 80 一 60 , 鼹 落 !黧4O 麓 20 O O 1000 O l∞0 数搭实例 数据实钢 图2:算法执行效率图 图3:算法分类正确率比较图 ·基金:甘肃省软科学项目(144ZCRA1 57)。 Electronic Technology&Software Engineering电子技术与软件工程·183 

因篇幅问题不能全部显示,请点此查看更多更全内容