数据挖掘技术在高校 学生成绩分析中的应用 谢摘要虹张彦芳 454000) (焦作师范高等专科学校数学学院河南・焦作程之间的相关性,这对今后的教学及改革具有一定指导意义。 关键词 数据 挖掘 关联规则 Apriori成绩分析 中图分类号:TP392 1引言 本文运用数据挖掘技术中的关联规则挖掘方法,利用weka挖掘工具,通过对学生成绩进行分析,挖掘出课 文献标识码:A 那么,规则x Y支持度(support)是描述X、Y同时出现的概 考试是高校教学过程中的一项重要内容,是评价教师教 率,记为support(X=*Y),即support(X=Y)=l{T I XUyCT, 学效果的重要依据及学校检测学生学习效果的主要方法。考TED)J/D I,通常,在挖掘时需要指定支持度的最小值,称为 试成绩有力地反映了学生对某门课程的掌握程度,是学生学 最小支持度。 习效果的量化指标。考试成绩分析则是评价教学、学习效果 (4)频繁项集 的一项重要指标,可以了解教师教学、学生的学习状态。考试 支持度计数不小于给定的最小支持度的项集称作频繁项 成绩分析通过对教师教学质量和学生学习效果的测评,能够 集(Freqent Itemset),频繁k一项集常记作Lk。 促进教师教学方法的改进、提高学生课堂学习效果,对提升教 育教学质量和进行教育教学改革有重要指导意义。 本文的工作就是以高校学生的考试成绩信息为应用背景, (5)最大频繁项目集 对于项目集X--I,如果Sup(X)> ̄min sup,并且对于任意 Y二二)X,均有Sup(Y)<minsup,则称X为最大频繁项目集。 _结合学生学习的情况,将关联规则挖掘Apriori算法应用到学 所有不被其他元素包括的频繁项目集称为最大频繁项集。 生成绩分析中。根据学生的成绩挖掘分析出课程之间的关联 (6)置信度 性。通过对储存在数据库中的学生成绩数据进行分析,有利 规则X=zy的置信度是使用{x}的支持度与项集{x,Y)的 于促进教师教学和学生更好地进行学习,取得良好的教学效 支持度之比来计算的。记为confidence(X=zY),计算公式:con一 果,这将对提高教育教学质量和加强教学管理具有指导作用 fidence( Y) 和现实意义。 2关联规则挖掘 2・1关联规则基本概念 ×100%。最小置信度(MirL-c0nD 。 需要在运行算法之前设定22关联规则Apriori算法 输入数据库,最小支持度计数阈值min sup。 输出:D中所有的频繁项目集L .:关联规则挖掘目的是发现数据库中隐含在大量数据项目 集中的关联关系。关联规则是形如X—Y的蕴涵式。 (1)关联规则 事务的集合记作D(D为事务数据库),D={t ,t2,…,t1l}, t {i ,iz,…,i ),tk称为事务,下标k的取值为l,2,…,“;im L1={largel-itemsets}: for(k=2;L k_】≠ ;k++do) begin Ck=Apriori—gen( );//新的候选集 for antraI1sactionst∈D do begin c :subset(c t);//事务t中包含的候选集 ,称作项,下标m取值为1,2,…,P。每个事务都与一个唯一 的标识符(TID)对应。 (2)项集 它是项的集合,每个项都是一个属性值。每个项集都有 for a11 candidated c∈C do 大小,含有k个项的项集称作k_项集。 (3)支持度 形如规则x。Y成立,若XcI,YcI,并且xnY 一ccouIlt++: .end 。 Lk:{c∈Ck 1 c.couIn≥smin}: 科教导刊r电子版J・2014年第l0期r上J一85 end 表3处理后的相关数据 高等 代数(1) Answer=ULk; 解析 几何 数学 分析(1) 高等 代数(2) 函数Apriori_gen分为连接和剪枝两步,这里不再详述。 3根据学生课程成绩分析课程之间的关联和影响程度 3.1成绩数据的采集 本论文采用焦作师专2009级数学教育专业5个班级学 生2009.2010学年两个学期的7门专业课成绩为例来进行关 联规则挖掘。课程成绩从焦作师专所使用的教学管理信息系 统中导出,导出数据222条。部分数据如表1所示。 表1学生成绩数据表 学号 1295oo9O131 gddslC gdds1C jxjhA jxjr ̄ sxfxlA sxfx1A gdds2D gdds2C gddslD jxjhC sxfxlC gdds2B 3.3挖掘结果与分析 将处理好的222条成绩数据载入Weka的Explorer应用 窗口进行挖掘。最小支持度设置为10%,最小置信度设置为 40%,挖掘出如下25条强规则: Best rules found: 62 高等代数(1) 解析几何 数学分析(1) 高等代数(2) 74 90 93 12950090156 76 82 91 76 1.1ssx=lssxA 29--->XX曲=xxghA 25 conf..(0.86) 2.xxgh=xxghD 59==>sxfx2=sxfx2D 41 conf:(0.69) l295o09O224 67 76 74 82 12950090278 76 77 84 80 3.sxfx2=sxfx2B 43一>xxgh=xxghB 28 conf:(0.65) 3.2预处理成绩数据 采集过来的数据信息中大多会存在一定的问题数据,例 25.1ssx=lssxC 5 1一>sxfx2=sxfx2D 24 conf:(0.47) 在挖掘产生的每条规则当中,位于规则左端的数字表示 如,缺失的数据、类型不同的数据等情况。所以要对出现的各 前件为真的事务数,位于右端的数字表示后件也为真的事务 类情况做分析处理,以便保证数据准确、无误,得到高质量的 数;括弧里的数字是置信度,即左右端数字的比值。 数据,确保挖掘结果的真实性。 我们选择所有规则中的6条,恢复代码的原来含义,6条 数据预处理通常包括处理缺失或重复数据以及不一致的 规则的support和confidence如表4所示。 数据类型。预处理的前几个步骤在成绩表里面做处理即可, 数据处理过程及结果如表2、3所示。 Apfiofi算法挖掘的是布尔型规则,处理的变量是离散的, 规 数学 高等 则 分析 代数 (1) (1) 表4:6条规则 数学 分析 (2) 高等 代数 (2) 线性规划 支持度 置信度 (%) (%) 因此要这些数量型数据进行离散化处理,转换成布尔型数据。 将成绩划分成区间段,用符号表示,分段概括为: 1 4 及格 6 优秀 及格 中等 中等 l1 l6 l6 86 86 54 [100~90]:优秀,用“A”表示;(90~8O]:良好,用“B”表 示;(80~7O】:中等用“C”表示,(70~60]:及格,用“D”表示; (60~0】:不及格,用“E”表示。 表2数据离散化 属性 高等代数(1) 7 9 12 中等 及格 中等 中等 l3 l1 10 53 52 5l 规则4表示如果学生的数学分析(1)成绩为及格,那么, 代码 gdds1A gddslB 属性值(区间) 优秀 良好 数学分析(2)成绩为及格的学生的支持度为16%,置信度为 86%;规则9表示如果学生的高等代数(1)课程成绩为中等,那 么,线性规划课程成绩为中等的支持度为11%,置信度为52%。 其他规则可作类似解释。 中等 gddslC 及格 不及格 gdds1D gddslE 数学分析(1) 优秀 良好 中等 sx段1A sxfxlB sxfxlC 结果分析: (1)离散数学成绩优秀的学生,线性规划课程取得优秀的 可能性比较大,离散数学应放在线性规划课程前面开设。 及格 不及格 sx&1D 弧盘1E (2)第一、第二学期高等代数成绩为中等的学生,线性规 划课程的成绩也为中等的可能较大,高等代数(下转第109页) 一科教导刊r电子J ・2014年第10期r上j一 与他的心理和精神状态的练习时非常紧密的。太极拳在练习 太极拳属于内外兼修的项目,是中华武术的精髓。它与 过程中非常注重“练意”。“练意”在我国民族传统养生理论中 我国传统中医学理论联系紧密。因此,在练习太极拳的同时, 被称为“调意”或者“调心”。强调在练习太极拳过程中做到“恬 应加强太极拳与我国传统经络学说关系的理论研究学习,更 淡虚无”的意识放松状态,精神要放松。以调养精神意识与组 好地做到理论指导实践。 织器官的技能,发挥自身维持健康的本能。通过太极拳的心 3.2.2加强太极拳现代西方医学研究 理调适作用,“以意行气”、“以气运身”,激发内气随“意”的活 武术是中国的国粹。走出国门,面向的是西方的文化。因 动而产生的通经活络的作用,从而起来防病养生的效果。我 此,应该利用西方的先进医学技术研究太极拳动作,加强太极 国传统中医学认为,内气乃是人体生命活动的基础,也是经络 拳的生理学研究。这样有利于太极拳在国际上的发展与推广, 脏腑系统正常生理活动的功能表现。内气充溢,才能更好地 有利于将太极拳推向世界。 激发体内的经络脏腑进行正常的生理活动,使气血运行保持 3-2-3太极拳在我国长期的传承发展过程中,与我国的传 畅通。从而使身体保持良好的生理和心理健康状态。 统中医学导引养生、经络学说理论联系非常紧密 3结论与建议 在本文中,笔者仅对太极拳对中老年人的经络系统的促 3.1结论 进作用做了初步研究,旨在用更好的理论来指导中老年人进 在太极拳发展广泛普及以及我国正在提前进入老龄化社 行太极拳锻炼。同时在本研究中,由于笔者仅是太极拳与经 会的大背景之下,通过对太极拳对中老年人延缓衰老以及对 络系统关系的初步研究,相关分析还不够深入。故期望在以 经络系统的促进作用的研究分析后得出: 后的学习中进一步运用经络学说来分析太极拳,进行更加深 (1)练习太极拳有利于疏通中老年人经络、调和气血、平 入的研究。 衡阴阳、调整虚实,有利于保持中老年人的经络畅通,从而有 利于中老年人的身体健康。 参考文献 (2)练习太极拳有利于内在养气,保持人体良好的生理和 [1】王忠山.习太极拳对中老年人骨健康状况的多年追踪研究[丁】.体育科学, 心理健康状态,因此,对中老年人的健康养生非常有益。 2000,20(1). f2】李莹.太极拳健身作用与原理[J].辽宁中医学院学报,2oo1(1). 3.2建议 [3】 韩衍金.杨式太极拳搂膝拗步动作肌肉运动与经络关联的研究[D】.北京体 3.2.1进一步完善太极拳与经络系统关系的理论体系 育大学,2011. (上接第86页)(2)的成绩为中等的学生,线性规划课程的成 间存在一定的联系,某门课程知识掌握的程度直接影响到其它 绩为中等的可能性较大,说明这两门课程联系比较紧密,前者 课程,那么,对于院系负责制定人才培养方案的人员来讲,可对 的学习直接影响到后者的学习。 不合理的课程设置进行调整;对教师来讲,制定好教学计划,加 (3)解析几何成绩为及格的学生,高等代数成绩也为及格 强有联系的课程知识点之间的渗透;对学生来讲,学生要下功 的可能性较大,解析几何对高等代数的学习有较大影响。 夫学习哪些基础课程,为后续课程的学习打好基础。 通过对以上规则分析可知:第一学期数学分析课程的成绩 直接影响到第二学期本课程的学习,学生应在第一学期把数学 参考文献 分析课程学好;离散数学、高等代数课程与线性规划课程的联 [1】周海林.高校成绩分析存在问题及应对策略研究[J].黑龙江教育学院学报 2010(10). 系较密切,前者是后者的学习基础,解析几何对高等代数的学 [2】邵峰晶,等.数据挖掘原理与算法[M】.科学出版社,2009. 习也有一定的影响。我们可以得到一些启发:既然不同课程之 [3]范明,孟小峰,等.数据挖掘概念与技术[M】.机械工业出版社,2007. [4]林治.数据挖掘技术在信息技术公共课评价中的应用【D】.南京理工大学 2009. 一科教导刊r电子版J・2014年第10期r上.)一 1O9