基于校园一卡通的数据挖掘与应用陈云川,李伟,宋浩(昆明冶金高等专科学校计算机信息学院云南昆明 65 0000 )【摘要】我国是一个重视教育的国家,九年制义务教育使得每一位适龄学生都能进入学校读书.但是到了高等教育 阶段,并不能像之前一样免费接受教育,这使得好多家庭贫困学生的求学过程变得困难,如何将助学金发放给真正贫困 且品学兼优的学生这是一个非常重要的事情。校园一卡通的应用是数字校园的重要一环,一卡通刷卡记录里面包含有学 生在学校期间各方面的信息:食堂消费记录、图书借阅情况、超市消费记录、学业成绩考试情况等。本文尝试将数据挖 掘技术应用在校园一卡通的数据分析中,釆用贝叶斯算法及决策树算法,从一卡通消费行为习惯、学习成绩、图书借阅 情况等方面综合考虑,寻找出贫困学生,为学校相关部门提供参考意见,使得助学金能更多、更准确地资助品学兼优、 刻苦上进但家庭贫困的学生,帮助他们更好地完成学业.本文首先介绍了进行数据挖掘分析的总体流程,接着着重分析 了本论文仿真实验时采用的两种挖掘分析算法,最后基于Rapidminer studio平台对整个挖掘分析过程进行验证,并评 估两种算法模型的效果.【关镀词】校园一卡通;数据挖掘;贫困生;贝叶斯算法;决策树算法【文章编号】1009-5624 ( 2019 ) 06-0112-04【中图分类号】TP39 【文献标识码】A1引言我国一直实行科教兴国战略,把教育问题摆在了很重 要的位置上。九年制义务教育的推广实施,使得每一位适 龄孩子都能够进入学校读书,但是到了大学阶段,由于人 口基数过多、成本较高,国家无法让高校学生免费上学。 这给贫困学生的求学带来了一些困难。未文将数据挖掘技 术应用到校园一卡通系统中,通过分析一卡通的消费金额、 消费方式、学习成绩、图书馆图书借阅情况、各科目期末 成绩、专业排名情况等记录,从中挖掘出家庭贫困、学习 努力、追求上进的同学,给相关部门提供一定的参考,在 助学金发放时综合贫困证明等相关材料优先向这部分同学 进行资助,使得助学金帮助到更多家境贫寒但努力学习的同学。2数据挖掘分析潦程数据中实用关系与模式的发现是通过一系列迭代的 处理过程实现的111,即数据挖掘流程。标准的数据挖掘
流程包括了以下环节⑵:(1)理解问题,(2)准备数
据样本,(3)开发模型,(4)评估模型在真实环境下的 性能表现,(5)生产部署。图1所展示的正是一套通用 的数据挖掘流程,它并不限定于某些特定的业务、算法或 工具。这是因为所有数据挖掘流程的根本目标都是解决所 分析的问题。着手处理的问题可以是客户分析,也可以是 天气趋势预报,还可以是简单的数据探索。而解决业务问
题的算法,可以是自动化聚类,或是人工神经网络等。图将零散的知识点主动构建成有机的脉络体系,形成了良 好的认知结构;学生综合运用知识解决问题的能力得到提 高曲。思维导图的可视化教学模式能够很好地缓解当下数
靈习目标曲敕締活动 ---------------------------诊断旦測--------------------- 结合自痣和知识潸单绘制思堆驷亠亠丹〜
函数专题复习课 教学模式生成问题教棘活动(引号)学生活动⑺曲讨论慘改完善思堆關)卿 点缺为&目学复习课中存在效率低下的问题,进而有利于学生对知识
点的记忆、思考和交流沟通,促进学生向深度知识的理解 和学习,并提高学生的复习效率,培养学生素养,进而达 到立德树人的教育目标。课中}利用M锯翱甌思拓展理祖备拓展利用思堆删9,小组交渡.讨论总结归第总SB目,知®.破方法完【参考文献】[1] 潘颱.现代数学教育技术及其应用[M],北京:清华大学出 版社,201&06图3专题复习课教学模式[2] 教育部.普通高中数学课程标准(2017年版)[S],北京:7结语在科技日益发展的今天,计算机辅助设备已经逐渐在 课堂教学中达到了普及的趋势,教师在教育教学中,要对 新技术有足够的热情,要学习先进课堂理念,科学合理安 排教学过程,使教师的引导作用与学生的中心地位得到充 分的发挥。教学过程中,随着内容的深入向学生展示图文 并茂、重点突岀的思维导图,能够使学生更轻松的掌握教
人民教育出版社,2017. •[3] 丁滨,蒋福升等.Xmind软件辅助学生遗传工程自主学习的
一次尝试[J].高教学刊,2017 (22):102-104.⑷张丽萍,葛福鸿.运用思维导图工具培养数学思维品质的研
究[J].教学与管理,2015(27): 106-108.[5]吴志丹.协作建构思维导图在数学复习课中的应用探究[JJ. 电化教育研究,2010(07):108-110.学内容,更容易从整体上把握知识结构,并且利用思维导 图工具可以帮助学生进行有意义学习141.学生通过思维导
⑹张慧慧.思维导图教学策略在高中函数复习课中的应用研究
[D],西北大学,2018.112信息记录材料2019年6月第2 0卷第6期(信息:技术与IS阎对业务的认
知对数拯的认
知I.先験知识它是影响标签响应属性Y的所有自变量属性的集合,表现 形式是:X={X1, X2, X3......................Xn},其中Xi表示影A 数据准备 y2.准备响标签响应属性的第i个自变量属性。P(Y)表示标签响
应出现的概率,可以依据测试集中的数据统计出来,这个 概率称为先验概率。而P (Y|X)称为条件概率,表示当 自变量属性X出现时,标签响应属性发生的概率是多少, P (Y|X)也称为后验概率。后验概率P (Y|X)正是我们需 要预测分析的目标,即当条件X出现时,Y发生的几率是 多大。贝叶斯定理的公式为:E 使用算法建模3.建模测试集.应用模型和性能评
估4.应用部署*知识获取与决策5.新知卄=竺設严(3_2)在上面这个公式中,P(X|Y)表示另一个条件概率,
称为类条件概率固。它表示的含义是,当标签属性值
图1数据挖掘流程3本文所采用的挖掘分析算法3. 1决策树决策树的模型比较像一颗树根朝上颠倒的树,形状是 带有决策判断条件的流程图[3]o待预测的标签属性包含在 决策树的内部节点中,每一条分支路径的终点,就是叶子 节点,这些叶子节点中记录着满足当前预测分支路径的所 有数据。这些一个个的叶子节点,最终把整个数据集划分 为了一个个子集,满足某一条决策枝干判定条件的数据被 划归在了一起,属于同一个标签类别。一般情况下,我们 采用爛值进行决策树模型的构建。为Y时,这个时候自变量是属性X的几率是多大。与 P(Y) 一样P(X|Y)也可以从给定的数据集中统计计算出 来。类条件概率P(X|Y)对于后验概率P (Y|X)的计算至 关重要。对于一个具有n种自变量属性的X={X1, X2, X3.....................Xn}来说,贝叶斯更广泛的计算公式如下:P(X}(3-3)我们可以分析计算出训练集中的类条件概率P (X | Y)爛值计算:如果有T个事件,在这T个事件中,每一
个事件发生的概率都是一样的P,即P=l/T»克劳德*香 农定义了爛的概念,它等于log(l\")即一 log P,其中P 代表每一件事发生的概率。如果这T件事情发生的概率不 相等,那么计算各个事件的爛值时需要带有权重,计算方 式如下:或者V),就可以轻松得到后验概率P(Y|X)»朴素贝叶斯算法流程:(1)计算先验概率P(Y)o先 验概率P(Y)代表标签响应属性的不同取值出现的概率。(2)计算类条件概率P(X|Y)o条件概率P(X|Y)代表当标 签响应属性Y岀现时,自变量属性是X的概率。(3)利 用贝叶斯公式计算并预测后验概率P (Y|X) o4实验验证原始数据集介绍:7000条一卡通原始数据,每条数据 包含23个属性:图书馆借书记录、食堂消费金额记录、学 习成绩排名记录、所属学院、进出寝室记录等。实验环境 介绍:Win7 64 位系统,8G RAM, intel Core i7 cpu,仿真 平台釆用 Rapidminer studio。4.1属性规约与数据清洗属性规约(主成分分析法):在数据中包含一卡通 消费的方式(洗澡、餐厅1、餐厅2、餐厅3等与本次 分析关系较弱的属性),利用属性约减算子(Select attribute)进行主属性选择,从23个属性中筛选出18 个属性作为数据分析的主属性。数据清洗:数据在采集过程中由于各种原因导致某些 属性有一些空值,因为空值数较少,为了便于模型构建及 保证模型准确性,在这里采用过滤空值数据项的方式来进 行清洗,没有采用平均值规约或者定值规约的方式填充空 值。H =-彷呃®)(3-D在这个计算公式中,需要进行标签属性预测的类别是
m类,k=l, 2, 3..........m, pk表示第k类所占的比例。决策树算法流程:(1) 使用爛值计算公式计算出香农爛,依据标签属 性将数据分成若干子集。由于每一种自变量属性对响应标 签属性的影响大小是不一样的,所以需要计算联合爛值即 爛值的加权平均数。(2) 计算信息增益。信息增益等于第一步与第二步 计算结果之间的差值,由于自变量与响应标签属性之间的 关系,爛值一般会降低。(3) 比较得到的各自变量属性信息增益,排在第一
位置的属性将被排在决策树的根节点,即第一个节点。(4) 对于爛值不是零的子集重复上述过程。当某个
子集的爛值达到了零,此时将这个子集设置为叶节点。3.2朴素贝叶斯朴素贝叶斯算法是根据贝叶斯定理实现的[41«我们用
X表示数据集中的各个自变量属性;用Y表示结果即带预 测标签的响应属性。在这里X不是说只有一个自变量属性,经过属性规约和数据清洗后,得到最终数据集:6314
113
〔信息:技术与应用)信息记录材料2019年6月第20卷第6期条数据,每条数据包含18个属性。4. 2数据建模本论文釆用K-次交叉验证方式进行模型构建,将数 据集分成k份,其中K-1份作为训练集,剩下的一份作为
混淆矩阵如上图所示,在整个数据集中,非贫困生
测试集,不断重复k次,从而使得模型准确率提高。在实 验时采用X-Validation交叉验证算子,将K设为10,将 数据集分为10份,每次用其中9份进行模型训练,用剩 下的1份进行模型测试,重复进行10次不断完善预测模型。在本论文的仿真试验中,主要采用了贝叶斯算法与决 策树算法进行预测分析。通过对数据集的挖掘分析,预测 出数据集中的贫困生名单。的数量是5240,模型预测出了 4584,贫困生的数量是 1074,模型预测出了 292个,准确度(Accuracy)等于 77. 22%,精度(Precision)等于 35. 06%,召回率(Recall) 等于27. 21%o在贝叶斯算法Naive Bayes预测模型中, RUC的值为0. 681 o4. 4决策树模型建模过程:(1) 在建模过程中,先釆用Filter example算子
进行数据清洗,过滤掉原始数据集中属性值等于零的记 录。4. 3贝叶斯Naive Bayes模型实验建模过程:(1) 在建模过程中,先采用Filter example算子进 行数据清洗,过滤掉原始数据集中属性值等于零的记录。(2) 用属性约减算子(Select attribute),将需 要进行建模的主属性选择出来。(3) 用角色设置算子(Set Role)将属性 pingkunsheng设置为标签属性。(4) 用X-Validation交叉验证符算子,进行交叉验 证建模,K=10。(5) 在X-Validation算子内部,训练算法采用贝叶 斯Naive Bayes,参数设置为默认方式,在测试部分应用 模型(Apply Model)。(6) 弓|A performance模型表现算子,在实验结果 中体现模型的最终性能。贝叶斯算法Naive Bayes,只有一个可调参数,即是 否使用Laplace修正,在本次试验中使用了 Laplace修正。 在模型描述中记录着许多信息,即基于训练集计算而来的 各属性的类条件概率、各属性的概率密度函数、以及所有
(2) 用属性约减算子(Select attribute),将需
要进行建模的主属性选择出来。(3) 用角色设置算子(Set Role)将属性 pingkunsheng设置为标签属性。(4) 用X-Validation交叉验证符算子,进行交叉验 证建模,K=10。(5) 在X-Validation算子内部,训练算法采用决策树, 在测试部分应用模型(Apply Model),(6) 引入performance模型表现算子,让实验结果
中体现模型的性能。决策树模型参数设置:minimal size for split (可划分的最小数据量):4 minimal leaf size (子节点最小样本量):2Minimal gain (最小增益值):0. 1Maximal depth (树最大深度):20采用决策树算法进行建模的实验结果如下:属性的取值情况、对应的概率值。采用贝叶斯算法Naive Bayes进行建模的实验结果如下:图4决策树模型准确度Accuracy图2贝叶斯算法Naive Bayes模型准确度Accuracy图5决策树模型AUC曲线混淆矩阵如上图所示,在整个数据集中,非贫困生
的数量是5240,模型预测出了 4522,贫困生的数量是 1074,模型预测出了 333个,准确度(Accuracy)等于 76. 89%,精度(Precision)等于 31.85%,召回率(Recall) 等于31.01%o在决策树预测模型中,RUC的值0. 697o114信息记录材料2019年6月第20卷第6期(值JR:技术与应用〕基于PHP的web应用中的SQL注入及防御措施王娅(厦门软件职业技术学院 福建 厦门 361 024 )【摘要】互联网的发展给人民的生活带来了极大的便利,大量的数据都可以通过互联网获取,人们在便捷实用网络 的同时,也面临着信息被窃取的危害.在众多网络攻击方式中,SQL注入攻击使用频率高,成为了当前主要的攻击方式 之一.基于PHP的web应用程序在使用广泛,因此PHP的web应用的安全问题受到广泛关注.本文首先对sql注入的方 式进行了说明,然后给出了在使用PHP进行开发时的防护建议.【关键词】SQL注入;PHP; web应用程序;安全;预处理【中图分类号】TP31 【文献标识码】A【文章编号】1009-5624 ( 2019 ) 06-0115-031引言“互联网+ “概念的提出,使得互联网在政治、经济、 文化以及社会生活中发挥着越来越重要的作用。人们在便 捷使用网络的同时,黑客也同样越来越活跃,形成了不少
个方向。我们都知道sql语言是一种解释型语言,它的数 据由程序员编写的代码和用户提交的数据组成。程序
黑色产业链。网络安全问题不容忽视。员在进行web开发时,如果没有没有对用户输入数据 的合法性进行全面的判,绑定变量。攻击者就可以精 心构思sql语句,或者通过系统报错,返回对自己有
FHP,是英文超级文本预处理语言Hypertext Preprocessor 的缩写。.它常与开源免费的Web服务Apache和数据库 MYSQL垃合使用于Linux平台上(简称LAMP)和WINDOWS
平台上(简称WAMP)。PHP作为一种服务器端脚本编程语言, 因其多平台特性以及开源免费、易学易用、开发效率高等 特点,成为目前We b应用开发的主流语言之一,且被广 泛应用于门户、电子商务、微博、论坛等网站的开发。目
用的数据。更甚者,攻击者可以绕过网页或Web应用 程序的身份验证和授权,完全控制Web应用程序后面 的数据库服务器,来添加、修改和删除数据库中的记
录,这便是我们所说的SQL注入。需要注意的是,当 前绝大多数的防火墙无法就SQL注入发出警报。如此 一来,若网络管理员未定期对IIS B志进行检査和査
前全球5000万互联网网站中,有60%以上使用着卩肝技术。 看那么在较长的时间段内,SQL注入都是非常隐蔽的,
在Web应用的安全问题已经变得越来越重要的今天,如何
对PHP Web应用程序进行安全防护已经成为当前研究的一无法被发现,因此SQL注入攻击有着非常大的危害性, 容易造成敏感信息的泄露。表4-1两种挖掘算法的比较算法性能贝叶斯算法准确度精度召回率(Accuracy)77. 22%76. 89%(Precision)35.06%
(Recall)RUC部门参考,再结合相关佐证材料,尽可能将助学金发放给 这部分同学,帮助他们完成学业。27. 21%31.01%0.681[參考文献][1] 徐翔,王煦法.协同过滤算法中的相似度优化方法[J】.计
决策树算法31. 85%0. 697实验结论:本论文主要釆用决策树算法、贝叶斯算法 进行数据挖掘模型构建,通过分析学生一卡通中所包含的 各属性数据记录,用训练集进行模型训练、用训练得到的 分析预测模型对测试集进行预测及性能评估。通过比较两 种算法模型的预测结果,可以发现在准确度(Accuracy)、 精度(Precision)方面贝叶斯算法更优一些,但在召回 率(Recall)、RUC方面决策树算法要更优一些。算机工程,2016, 36 (6 ) : 52-54.[2] 李聪,梁昌勇,马丽.基于领域最近邻的协同过滤推荐算法 [J].计算机研究与发展,2015, 45 ( 9 ) : 1532-1538.⑶ T.Hofmann. Probabilistic Latent semantic analysis[c]. Proceedings of the Fifteenth Conference on Uncertainty in
Artifieial Intelligence,2015.[4] Wang Q, Xu J, Li h, er al. Regularized latent semantic indexing//Proceedings of the 34th international ACM SIGIR
5结语数字校园的建设是一项具有重大意义的事业。校园一 卡通的推广与应用是建设数字校园、实现校园信息化的重 要一环,校园一卡通极大地方便了学生在校的生活和学习, 方便了学校对学生的管理。一卡通数据中包含有学生就餐 消费记录、图书馆图书借阅记录、超市消费记录、学业成 绩情况等,本文将数据挖掘分析技术应用在校园一卡通数 据分析中,基于Rapidminer studio平台,采用决策树与 贝叶斯算法进行挖掘模型构建,通过分析一卡通记录,从 中筛选出品学兼优、努力学习但是家庭贫困的学生供相关
conference on Research and development in information
Retrieval. ACM, 2015, 79(3): 685-694.⑸王志新,王晓强.基于数字化校园的一卡通系统的设计研究 (JJ.山西青年,2016 ( 14 ) : 189.基金项目:2018年度昆明冶金高等专科学校科研基金项目,基
于校园一\"通的数据挖掘与应用(2018XJZK09)作者简介:陈云川(1989-),男,汉族,云南玉溪人,硕士研 究生,专业教师(助教),研究方向:数据挖掘与分析预测.115
因篇幅问题不能全部显示,请点此查看更多更全内容