摘要:该文通过介绍数据挖掘的概念和决策树分类方法,论述了id3算法的基本思想和实现方法,并用该算法对高职院校学生成绩进行分析,建立基于决策树技术的学生成绩分析应用研究模型。通过该模型分析,找出了影响学生成绩的潜在因素,为提高教学质量提供参考依据。
关键词:数据挖掘;决策树;id3算法;成绩分析
中图分类号:tp312 文献标识码:a 文章编号:1009-3044(2013)13-2960-04
随着高职院校的不断扩招,学生数量越来越多。经过多年的教学和管理工作,高校数据库管理系统中积累了巨量的与学生相关的数据,很多有价值的信息隐藏在在这些数据中。但是高职院校对这些数据并没有进行深入的分析,而仅仅停留在简单的查询、统计与备份上。如何从巨量的数据中提取出所需信息,就需要一种新的数据分析技术加以处理,解决这一问题的可行且有效的方法正是数据挖掘技术。数据挖掘,即数据库中的知识发现,就是从海量的数据(包括结构化和非结构化)中挖掘出隐藏在数据中的、人们事先所不知道的、潜在的、有用的知识和信息的技术。在这些信息中或许包含有用户感兴趣的,有潜在价值或存在能运用和理解的支持决策,对这些信息的研究可以为科学研究找到突破口,或者帮助企业带来更多的利益。数据挖掘以数据库为研究对象,结合传统的模糊数学方法、统计分析法和可视化技术,由机器学习、人工智能的方法发展
而来,形成了数据挖掘的方法和技术。其方法和技术包括:人工神经网络、遗传算法、决策树法、关联规则方法、统计分析方法、可视化技术、粗糙集理论方法等。 1 决策树算法
决策树是一种类似于流程图的树结构,其中,每个内部结点(非树叶结点)表示对在一个属性的测试,每个分支代表该测试的一个输出,而每个树叶结点(或终端结点)存放一个类标号。树的最顶层结点是根结点。决策树方法是一种展示类似在何种条件下会得到何种值这类规则的方法。决策树的每个结点子结点的个数取决于决策树采用的算法。id3算法是最经典的决策树生成算法,是决策树生成最常用的具体实现方法。该算法是以信息论为基础,把信息熵和信息增益度作为衡量标准,进而实现对数据的归纳分类。 2 决策树算法在高职院校学生成绩分析中的应用 2.1确定分析的对象及目标
以笔者2009—2010学年年第一学期所讲授的《计算机应用基础》课程为例子,分析的对象是计算机应用专业2009级的学生。试图根据学生的基本情况分析挖掘出如学生性别、学生学习基础、对课程感兴趣与否、上机时间量、学习习惯等中的哪些因素对学生的学习成绩是有影响的,分析学生最终的考试成绩与哪些因素有关,并试图用分析得到的结果指导以后的教学,提高教学质量。 2.2选定模型
选择使用建立决策树的方法对数据进行挖掘,算法选择决策树的
经典算法——id3算法。决策树的建立主要包括建立决策树和决策树的剪枝两个阶段。 2.3数据的收集和清理
在学生调查信息反馈表中,我们需要删除那些虽然是我们感兴趣的记录但是缺少属性值的记录。在学生考试中缺考以及作弊的学生成绩我们也要进行删除,因为根据他们的成绩我们不能写出分类结果,其成绩是无效的。经过数据清理,我们得到的有效记录数为21条。将以上3个数据表合并得到学生成绩分析表。为了便于决策树模型的建立,根据实际情况,我们只采用学生成绩分析表中的上课考勤、上机作业、试卷难度、对课程的感兴趣程度的分类作为决策树模型的依据。经过数据预处理后,量化表示数据表中的描述性的文字。
2)上机作业代表的是学生提交的上机作业次数。也分为好、一般和差三类。在数据库中也可通过if函数更新这个属性的值。 3)对成绩表里的成绩概化为优秀、良好和不及格3类后可得到如表4的分析结果表。
2.4利用id3算法构造学生成绩分析决策树 1)计算熵 3 结论
数据挖掘是深层次的数据信息分析方法,是一种决策支持过程。将数据挖掘技术应用于教学管理可以更深入地分析学生成绩与各种因素之间的联系,可以将现有的数据信息转化成为有用的分类规
则,从而更好地分析这些数据,对教学质量的提高有很大帮助。 参考文献:
[1] 邝涛.基于决策树技术在高校成绩分析中的应用研究[j].新乡学院学报:自然科学版,2011(2):49-51.
[2] han jia-wei, kamber m, pei jian.数据挖掘概念与技术[m]. 范明,孟小峰,译.北京:机械工业出版社,2012:213. [3] 黄芳.基于数据挖掘的决策树技术在成绩分析中的应用研究[d].山东大学,2009.
因篇幅问题不能全部显示,请点此查看更多更全内容