嘲剑 ◎31万一6O万 D0I 1 0 3969/i.issn 1 001—8972 201 7 05.01 3 o 可实现度 可替代度 棼 行业曲线 ∥ Iink appraisement 万强王海晖周剑秋 武汉工程大学计算机科学与工程学院 行业关联度 据分析的观. 在教育领域,大数据的应用也是十分频繁的。 随着大数据时代的到来,如何挖掘蕴藏在大数据的更多信息,成为 当下的一大热门话题 大数据的技术已经被应用于各个领域,同样,也 通过对教育大数据的获取、管理和分析,我们可以构建 可以适用于教育领域。利用教育数据挖掘技术和学习分析技术,构建教 相关的教学模型分析学生的学习行为,并对学生在未来的学 育领域相应的模型,探索获取的教育数据之间的特殊关系,为教育教学 习情况进行预测,以至于可以对他们的学业做相应的规划、 提供有用的数据信息,辅助教学的发展,正是本文要研究的内容。我们 、\ , 指导。耶鲁大学、啥佛大学、斯坦福大学等世界知名高校也 对数据之间的相关性进行研究,从而 得到它们的内在联系。在此之前,我们也介绍了一下数据相关性研究的 启动了教育大数据相关研究计划;另外,美国学校管理者 相关算法,进而能够支撑我们的研究。最后,我们认为,今后我国更应 妇 晰 舟 协会(AASA)携手学校网络联合会(COSN),以及全球 应用现有的资源,发挥更大的价值,借 性的信息技术研究和咨询公司Ga rtner共同实施了一个名为 助大数据这项新技术 、科学化。 “Closing the Gap:Turning Data into Action”的项目, 旨在促进学校对学生信息系统和学习管理系统中大数据的使 用。为了更好地促进美国国内“大数据”教育应用,为美国 概述 高等院校及K一12学校在“大数据”教育应用方面提供有 效指导,美国教育部在2012年10月发布了《通过教育数 现在的社会是一个高速发展的社会,科技发达,信息流 据挖掘和学习分析促进教与学)){艮告(以下简称《报告》)。《报 通,人们之间的交流越来越密切,生活也越来越方便,大数 告》内容主要包括以下五个方面:个性化学习解读;教育数 据就是这个高科技时代的产物。大数据(big data),是指 据挖掘和学习分析解读;自适应学习系统中大数据应用介绍; 无法在可承受的时间范围内用常规软件工具进行捕捉、管理 美国教育数据挖掘和学习分析应用案例介绍 美国的大数据 和处理的数据集合。 教育应用挑战和实施建议。 大数据具有4V的特点,其中一点是value(价值)。 这就引入我们所要探究的问题了。学生在学校的学习成 由于大数据往往都是数据量巨大,信息量巨多,因此,里面 绩有好有坏,但是我们每个人只能看到这一个表象。那么, 所蕴含的价值也是不容小觑的。我们目前最需要做的就是挖 究竟是什么样的原因直接或间接地导致了学生成绩的高低不 掘里面的价值,让大数据成为我们应用的一种工具。 呢?态度是不可观察的一种假设结构 它必须通过对客体 数据作为重要的资产,已经在改变着组织者决策的模式。 做出积极或消极的评价结果来测量。因此,学生的学习态度 有效地收集并分析充分分析各种规模的大数据资源,运用更多 可以从其学习出勤间接地反映出来。 有效的方式充分挖掘出大数据里面潜藏的巨大价值,已经成为 本研究在尝试以大学生的学习考勤记录作为其平时表现 更累一个组织者竞争能力的重要方面。人们已经逐渐充分认识 的同时,对学习态度与学习成绩的相关性进行研究和探讨。 到,随着大数据时代的到来,大数据分析技术的不断进步,许 许多多的研究者都开始投身到大数据分析的大流之中,全面分 相关算法 析各种类型的大数据,为各个企业带来巨大的价值。 大数据已经在社会的诸多领域催生了很多变革,同样地, 大数据的挖掘常用的方法有分类、回归分析、聚类、关 40 CHINASCIENCEAND TECHNOLOGYINFORMATION Mar2017-中国科技信息2017年第5期 31万一60万◎ 联规则、神经网络方法、Web数据挖掘等。这些方法从不 同的角度对数据进行挖掘。 回归分析 在科学研究的过程中,注意到各种因素对某个指标的影 'O 响,希望选取某些因素,对该指标的影响效果较为理想。比 如在中医治病中,药物的那种成分对病情的影响比较大,那 些是最有利于病情的好转的,需要通过大量的“实验”研究 出一种疗效比较好的配方。又例如在生物学研究方面,哪些 自然因素对某种生物的生长影响较大,哪些是有利于生物的 生长,哪些是不利于生物的正常发育,可以研究选择出比较 好的模拟生物环境,去培养该种生物。这样的例子其实在生 活以及科研中是数不胜数的。他们都有一个共同点,就是都 存在一个因变量,还有影响这个因变量的一系列自变量。这 2 ● 6 t ∞ 图1带状散点图 就需要应用回归分析来处理这一系列的数据问题。 回归分析的方法首先是由1 9世纪英国科学家与探险家 高尔顿(Francis Galton)提出的。他在研究生物的遗传特 性时,注意到一个生物后代的特性与其父辈、祖辈的关联性。 例如子女的身高与其父母(甚至祖辈)的身高关系。他使用 统计学的方式去研究了这种关系,发现后代有回归到其原有 特性的倾向,因此他将这种统计方法成为“回归”。后来, 图2学生选修课程E—R图 经过一系列的演算,由最小二乘法可以得到的一个方程 组 经过他的学生,数理统计的奠基人之一皮尔森(Pearson) 发展、完善,使回归分析成为数理统计的一个分支。回归分 析包括一元线性回归、多元线性回归、逐步回归、逐次回归、 概率回归等问题。 I(∑x2)b+(∑Xi ∑ J j=1I |--1 l一1 n n 一元线性回归 I(∑xi)b…=∑)ri 通过这个方程组,我们便可以计算出k和b的值了,即 对于一组二维随机变量(X,Y),其分布点的值分别为 (x1,y1),(x2,y2),(x3,y3)…..(xn,yn), 这些分布点在二维平面XoY上,成为散点图。(X,Y)的 散点图是否分布在一个带状的区域内且根据区带状的形状较 可以确定经验公式y=kx+b了。 展开问题的研究 建立数据联系 在现在的高校中,由于学生的分布式教学,造成了教学 管理的不严谨性,使得一些学生产生了逃课旷课的侥幸心理。 不管因为什么样的原因,学生旷课不上,对其自身的学习情 况还是会有一定的影响的。 我们从学生的一个平时表现来出发,通过学校记录的大 量的学生签到情况,来对比学生的一个成绩,进行分析,看 看其中是否有一定的关联。 窄,如图1,可以用相关系数p XY来刻画。当I p XYI很大, 接近于1的时候,×与Y的关系呈线性关系,各三点一直在 这一条“直线”的周围波动。那么如何根据这各线性关系求 出其具体的表达式,就是一元线性模型要研究的问题。 我们称 fY a 4-bx £ 【£~NCo,仃 1 为一元线性回归模型,成a为常数项系数,b为回归系 数。称直线y--a+bx为回归直线方程。E为随机误差,一般 假设其服从正态分布,即,X可为非随机变量,称为自变量, v是随机变量,称为因变量。 我们将学校记录的考勤数据提取出来,同时也将相应的 期末成绩信息提取出来。本次提取的信息有考勤数据与期末 成绩两种信息,其中,考勤数据是通过处理过的,生成了考 勤率。每一位同学都会有选修多门课程,每一位学生都有该 门课程的期末成绩以及学生平时参加这门课程的考勤率。根 据各个部分的数据,分析出对应的E—R图。 a,b的最小二乘法估计 但是要如何求出a和b的值,来保证这个y=kX+b的函 数最符合我们所得到的(x1,y1),(x2,y2),(x3, v3)…..(xn,yn)这些数据呢?这里我们就可以用到最 小二乘法来解决这一问题。最小二乘法(又称最小平方法) 是一种数学优化技术。它通过最小化误差的平方和寻找数据 的最佳函数匹配。利用最小二乘法可以简便地求得未知的数 据,并使得这些求得的数据与实际数据之间误差的平方和为 最小。 一如图2是学生的课程成绩以及考勤率对应的E—R图。 我们先通过在数据库中,建立相应的数据库表,学生表、 课程,以及建立对应的关系。然后将所获取的考勤数据和成 绩数据整合到这几张表中。我们又在数据库中建立视图,将 两种信息整合到一张表里,形成选修表。一位学生对应多门 41一 随 ◎31万一60万 × Gfade 88 中国科技信息2017年第5期-CHINASC;ENCEAND ECHNOLOGYiNFORMA T_ION Ma r2017 WANQIANG\WANQI..,t ̄on・dbo.6』ARendance O.98 O.95 79 91 85 2 2 2 2 2 2 2 )S 5 5 5 5 5 5 O98 O.9 0.9 1 O 0 O 0 0 O O j!,, 68 62 78 ∞∞∞∞∞∞∞ 1 2 3 4 1 2 3 图3考勤率表 课程,一个学生和一门课程对应一个成绩和一个考勤信息。 O 20 4。 6o 8。 ’DO 在我们获取的考勤数据中,由于一个人可以选修多门课 Garade 程,一门课程可以被多个人去选。因此,我们不能简单地去 像上面那样去绘制分数与人数分布的关系以及考勤率和人数 分布的关系。如果单独去看某一个人的几门课程,由于一个 人只选修几门课程,那么我们能利用到的数据量就会太少 如果单独去看某一科的全部考生,又由于有些科目只有一个 班或两个班上,那么所得的数据也只有30或者60条,对于 图4考勤率和成绩的散点图 公式以后,就可以把生产实际中积累的经验上升到理论高度 上加以分析。 我们在上面绘制了分数和出勤率的分布国,如图4所示。 设出勤率为变量Y,分数为变量X,即我们得到的是这样的 一大数据来说也太少。还要考虑的两点就是:一、老师的差异 因素:因为每个班的老师一般不同,课程上的情况不同,可 些数据:(x1,y1),(×2,y2),(x3,y3)…..(xn, yn)。从我们所得到分布曲线(无论是单独某一个的离散图 得到的分布曲线还是经过多次试验得到的那条综合的分布曲 线都)可以看出,分数和出勤率在一定程度上是近似为一次 函数y=kx+b的线性关系。现在我们得到了一个模糊的线性 关系,且k值应该是为正的。 表1是随机取的一小组分数与考勤率的数据绘成的表。 我们现在便可以根据这个表的数据来计算一下这个经验公 式 能同一门课由不同老师来带,对相同出勤情况的学生考出的 成绩又不同。二、学生个体差异因素:有的学生可能学某一 门课程很容易,有的学生又觉得这门课很困难,他们以相同 ∞uc 廿c∞ll《 的出勤率获得的成绩确是不同的。因此,这里我们就应该忽 略学生和课程的情况,只去考虑学习成绩和考勤率的关系, 也就是通过笛卡尔积,将学生A的课程1、学生A课程2、 学生B课程1和学生分成四种情况,这样一来,我们的数据 量就很庞大了。 表1分数与考勤率表 图3是整合出来的分数与考勤率表。 分数X 10 20 30 40 50 l 60 70 考勤率y O.6 0.64 0 72 O 75 0.8』0 84 O_88 数据分析 我们就在每一个分数点,随机找出一个学生的考勤情况。 用这样的一个从海量数据里随机选出来的一个分数点的学生 的考勤率来代表这个分数点所有的学生的考勤情况,实行起来 0霉 92 J0 .96 J 1 J 将表中的数据带入到上面的方程组,得到: (38500k+550b=482.4 L 550k+1Ob=8.1 1 解这个方程,得到k--O.005,b=0.536,于是得到经验 公式为: y=0.005x+0.536 比较容易。根据在实验中所获取的信息(我们先算出了每个分 数点的每个人的考勤率),我们可以先生成分数一出勤率的离 散图,然后根据离散图的分布情况,我们大致可以确定分数与 考勤率是线性函数的关系,我们算出他们的回归方程。 由于一次的随机性实验可能会导致结果的误差会很大, 因此,我们可以通过多次进行相同的随机性实验,得到一个 小结 根据我们获得的数据绘成的分布图来看。线性关系还是 比较强的,这一点我们通过计算回归(误差)平方和可以得出。 而且随着分数的增加,其到勤率越来越高。从Y轴的截距可 以看出,即使是很差的学生,到勤率也在50%以上,这说 明我们的管理也是相对严格,并且有规定:出勤达不到一定 程度,是不让参加考试的。图的最右边 成绩接近100的学生, 其出勤率也接近1 00%,说明学习成绩好的学生,到勤率也高。 之所以他们能够拿到接近1 00的成绩,也是因为他们几乎是 满勤。 由更多的离散点构成的统计的离散图,运用统计学的方法, 求出回归线(方程),即分数与出勤率的关系方程。最后绘 制出综合的分数一考勤率图。更多地,我们可以算出它的回 归(误差)平方和,如果这个数字越小,说明我 ̄f3A,9成绩与 考勤率的线性关系越强;如果这个数字很大,那么说明我们 的成绩与考勤率的线性关系很弱,甚至不具备线性关系,那 么此时,我们就应该去考虑一下其它更复杂的函数关系了。 在许多的实际问题中,都会有类似的统计学问题。有两 个变量,他{f3A"g函数关系本身是未知的。但是我们可以通过 许许多多的实验数据来获得,其实对于实验一也是一样的。 国圈 俗话说“台上三分钟,台下十年功”。我们从学生的一 42一 都是通过这些数据来找出这两个变量之间的函数的近似关系 表达式,通常称这样的公式为经验公式。当我们建立了经验 一3'1万一60◎ 对偏差