关键词:机器学习;深度学习;推荐算法;远程教育
深度学习(DeepLearning),也叫阶层学习,是机器学习领域研究的分支,它是学习样本数据的表示层次和内在规律,在学习的过程中获取某些信息,对于数据的解释有巨大帮助。比如对文字数据的学习,在网络上获取关键字,对图像数据的学习,进行人脸识别等等。
一、深度学习发展概述
深度学习是机器学习领域里一种对数据进行表征学习的方法。一句话总结三者之间的关系就是:“机器学习,实现人工智能的方法;深度学习,实现机器学习的技术。深度学习目前是机器学习和人工智能领域研究的主要方向,为计算机图形学、计算机视觉等领域带来了革命性的进步。机器学习最早在1980年被提出,1984年分类与回归树出现,直到1986年,Rumelhart等人反向传播(BackPropaga-tion,BP)算法的提出,解决了感知模型只能处理线性分类的问题,1989年出现的(ConvolutionalNeuralNet-works,CNN)也因此得到了一定的发展。在1990年至2012年,机器学习逐渐成熟并施以应用,GeoffreyHinton在2006年设计出了深度信念网络,解决了反向传播算法神经网络中梯度消失的问题,正式提出了深度学习的概念,逐渐走向深度学习飞速发展的时期。随后,各种具有独特神经处理单元和复杂层次结构的神经网络不断涌现,深度学习技术不断提高人工智能领域应用方面的极限。
二、深度学习主要模型
1、卷积神经网络卷积神经网络(ConvolutionalNeuralNetworks,CNN)是指有着深度结构又包含着卷积计算的前馈神经网络。卷积物理上理解为系统某一时刻的输出是有多个输入共同叠加的结果,就是相当于对一个原图像的二次转化,提取特点的过程。卷积神经网络实际上就是一个不断提取特征,进行特征选择,然后进行分类的过程,卷积在CNN里,首先对原始图像进行特征提取。所以卷积神经网络能够得到数据的特征,在模式识别、图像处理等方面应用广泛。一个卷积神经网络主要由三层组成,即卷积层(convolutionlayer)、池化层(poolinglayer)、全连接层(fullyconnectedlayer)。卷积层是卷积神经网络的核心部分,通过一系列对图像像素值进行的卷积运算,得到图像的特征信息,同时不断地加深节点矩阵的深度,从而获得图像的深层特征;池化层的本质是对特征图像进行采样,除去冗杂信息,增加运算效率,不改变特征矩阵的深度;全连接将层间所有神经元两两连接在一起,对之前两层的数据进行分类处理。CNN的训练过程是有监督的,各种参数在训练的过程中不断优化,直到得到最好的结果。目前,卷积神经网络的改进模型也被广泛研究,如全卷积神经网络(FullyConvolutionalNeuralNetworks,FCN)和深度卷积神经网络(DeepConvolutionalNeuralNetworks,DCNN)等等。。RNN最大的特点就是神经元的输出可以继续作为输入,再次利用到神经元中循环使用。RNN是以序列的方式对数据进行读取,这也是RNN最为独特的特征。RNN的串联式结构适用于时间序列的数据,可以完好保持数据中的依赖关系。循环神经网络主要有三层结构,输入层,隐藏层和输出层。隐藏层的作用是对输入层传递进来的数据进行一系列的运算,并将结果传递给输出层进行输出。RNN可用于许多不同的地方。下面是RNN应用最多的领域:1.语言建模和文本生成,给出一个词语序列,试着预测下一个词语的可能性。这在翻译任务中是很有用的,因为最有可能的句子将是可能性最高的单词组成的句子;2.语音识别;3.生成图像描述,RNN一个非常广泛的应用是理解图像中发生了什么,从而做出合理的描述。这是CNN和RNN相结合的作用。CNN做图像分割,RNN用分割后的数据重建描述。这种应用虽然基本,但可能性是无穷的;。3、深度神经网络深度神经网络(deepneuralnetworks,DNN)可以理解为有很多隐藏层的神经网络。多层神经网络和深度神经网络DNN其实也是指的一个东西,DNN有时也叫做多层感知机(Mul-ti-Layerperceptron,MLP)。DNN内部的神经网络层也是分为三类,输入层,隐藏层和输出层,一般来说第一层是输入层,最后一层是输出层,而中间的层数都是隐藏层。深度神经网络(DNN)目前作为许多人工智能应用的基础,并且在语音识别和图像识别上有突破性应用。DNN的发展也非常迅猛,被应用到工业自动驾驶汽车、医疗癌症检测等领域。在这许多领域中,深度神经网络技术能够超越人类的准确率,但同时也存在着计算复杂度高的问题。因此,那些能够解决深度神经网络表现准确度或不会增加硬件成本高效处理的同时,又能提升效率和吞吐量的技术是现在人工智能领域能够广泛应用DNN技术的关键。
三、深度学习在教育领域的影响
1、学生学习方面通过网上学习的实时反馈数据对学生的学习模式进行研究,并修正现有教学模式存在的不足。分析网络大数据,相对于传统在线学习本质区别在于捕捉学生学习过程,有针对性,学生个性化学习。举个例子,在学习中,可以通过学习平台对学生学习课程所花费的时间,参与的程度,知识的偏好等等数据加以分析。。通过以上或类似数据汇总分析,可以正向引导学生学习,并给予积极的学习评价。这种利用计算机收集分析出来的客观数据,很好展示了学生学习行为的结果,总结学习规律,而不需要教师多年的教学经验来判断。对于教育研究者而言,利用深度学习技术可以更客观准确地了解学生,使教学工作良好发展更进一步。2、教学方面学习平台的数据能够对教学模式的适应度进行预测,通过学生的考试成绩和对教师的线上评价等加以分析,能够预测出某一阶段的教学方式发发是否可行,影响如何。通过学生与教师的在线互动,学生测验时完成的时间与完成的结果,都会产生大量的有效的数据,都可以为教师教学支持服务的更好开展提供帮助,从而避免低效率的教学模式造成教学资源的浪费。
四、成人远程教育中深度学习技术的可应用性
深度学习方面的应用在众多领域都取得了成功,比如电商商品推荐、图像识别、自然语言处理、棋类博弈等等。在远程教育方面,深度学习的技术还有很大的发挥空间,智能网络教育的实现是人们的众望所盼。若要将深度学习技术应用到远程教育平台,首先要清楚学生的需求和教学资源如何分配。1、针对学生的学习需求与学习特征进行分析美国斯坦福大学克里斯皮希研究团队的研究成果显示,通过对学生知识学习进行时间建模,可以精确预测出学生对知识点的掌握情况,以及学生在下一次学习中的表现。深度学习的应用可以帮助教师推测出学生的学习能力发展水平。通过学生与教学环境的交互行为,分析其学习风格,避免教师用经验进行推断而产生的误差。2、教学资源的利用与分配深度学习技术能够形成智能的分析结论。计算机实时采集数据集,对学生的学习情况加以分析,使教师对学生的学习状态、情绪状态等有更加清晰、准确的了解。有了上面良好的教学模式,教师对学生的学习状态有了更准确的掌握,对学生的学习结果就有了更科学的教学评价。基于深度学习的人工智能技术,还可以辅助教师实现智能阅卷,通过智能阅卷自动总结出学习中出现的问题,帮助教师减少重复性劳动,减轻教师负担。作为成人高校,远程教育是我们的主要教学手段,也是核心教学方式,学校的教学必定是在学生方便学习的同时,以学生的学习效果为重。通过深度学习技术,可以科学地分析出学生的学习效果,对后续教与学给予科学、可靠的数据支撑。我们可以在平台上为每位同学建立学习模型,根据学生的学习习惯为其定制个性化方案,按他们的兴趣进行培养,发挥他们专业的潜能。。采用深度学习算法,根据学生学习行为产生的海量数据推算出学生当前状态与目标状态之间的差距,做到精准及时的学习需求反馈。有助于帮助学生明确学习目标,教师确立教学目标,真正做好因材施教。基于深度学习各种智能识别技术,可以为教师的线上教学活动增光添彩,在反馈学生学习状态的同时,采用多种形式的教学方法吸引学生的注意力,增强教学活动的互动性,达到良好的教学效果。
关键词:卷积神经网络;;搜索广告
中图分类号:TP391.41 文献标识号:A 文章编号:2095-2163(2015)04-
Click-Through Rate Prediction for Search Advertising based on Convolution Neural Network
LI Siqin, LIN Lei, SUN Chengjie
(School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001, China)
Abstract: Click-Through Rate (CTR) prediction is the foundation of search advertising. Nowadays, lots of researches have been explored to predict CTR, and most of those researches either rely on liner model or employ method of recommendation system. However, the relations between different features in CTR predication have not been fully explored in previous works, and the relations between different features also cannot be fully embodied. In this paper, CTR prediction for search advertising based on convolution neural network is proposed, and process of convolution neural network simulating the process of human thought on feature learning is explained. Furthermore, the performance of different features have been analyzed in the task of predicting CTR. Experiments are conducted on the dataset of KDD Cup 2012 Track2 and the proposed method achieves 0.7925 in AUC, demonstrating the effectiveness of the proposed approach.
Keywords: Convolution Neural Network; Click-Through Rate Prediction; Search Advertising
0 引 言
。 Rate,CTR)预测共同影响而得到,即CPC*CTR。。
。部分学者使用基于推荐方法的模型来解决CTR预测问题。霍晓骏等人[1]采用协同过滤算法,为页面找到与其相似的其他邻居页面,实现CTR的预测,以此作为基础进行广告推荐,但当相似页面的数量增加时,该方法的结果质量会严重下滑。Kanagal等人[2]提出了一种聚焦矩阵分解模型,针对用户对具体的产品的喜好以及相关产品的信息进行学习,解决因用户-产品交互活动少而造成的数据稀疏问题。。
作为典型的预测问题,很多研究中通过将CTR预测问题看作分类或者回归问题来解决,其中最常见的是应用线性模型来预测CTR。。。Wu等人[6]基于融合的思想,将不同线性模型的实验效果相结合,来提高搜索广告CTR预测的结果。真实的场景中CTR的预测并非简单的线性问题,因此,一些学者开始使用非线性模型来解决CTR的预测。。。
本文对基于卷积神经网络(Convolution Neural Network,CNN)的CTR预测进行研究,通过卷积与亚采样操作的结合,能更好地学习出数据特征之间的关系,不仅解决了线性模型无法模拟真实广告数据场景的问题,也解决了浅层学习模型无法深入挖掘特征间相互关系的问题,并且较之于传统的神经网络,CNN能更好地理解特征之间的关系。在真实的数据集上的实验验证了本文的方法能够提高搜索广告中CTR预测的AUC值。
1卷积神经网络模型
1.1 卷积神经网络基本模型
卷积神经网络作为人工神经网络之一,目前已成为深度学习领域中研究的热点,权值共享以及局部窗口滑动的特点使之能更好地模拟出生物神经网络。卷积神经网络在结构上有两个重要的组成部分:卷积层和亚采样层。如图1所示。
图1 卷积层与亚采样层结构
Fig.1 Convolution layer and sub-sampling layer structure
在卷积层中,原始特征通过卷积核进行卷积得到输出的特征,使用不同的卷积核就可以得到一系列不同的输出特征。对卷积层的计算,有如下公式:
(1)
这里, 是sigmoid 函数, , ; 代表输入特征上选定的窗口,即在卷积过程中当前卷积核在计算时所对应在输入特征上的位置; 和 分别是第 层输入特征和第 层输出特征上相应的值; 是卷积核的权重值; 是特征的偏置,每一层对应一个。
卷积过程,一个卷积核通过滑动会重复作用在整个输入特征上,构建出新的特征。同一个卷积核进行卷积时,共享相同的参数,包括同样的权重和偏置,这也使要学习的卷积神经网络参数数量大大降低了。而当我们使用不同的卷积核进行卷积时,可以得到相应的不同的输出特征,这些输出特征组合到一起,构成卷积层的输出。
在亚采样层,前一个卷积层的输出将作为该层的输入特征,首先设定大小的窗口,然后通过滑动,用窗口区域中最大(或平均)的特征值来表示该窗口中的特征值,最后组合这些特征值得到降维后的特征。亚采样过程可表示如下:
(2)
这里,类似于卷积层, 和 分别是第 层输入特征和第 层输出特征上相应的值, 是特征的偏置; 表示取最大值 或者平均值 的函数。
典型的卷积神经网络通常由n(n>=1)个卷积层和亚采样层以及最末尾的m(m>=1)全连接层组合而成。一个亚采样层跟随在一个卷积层后出现,通过这若干卷积层和亚采样层后得到的特征,将经过全连接层与输出层相连。全连接层公式如下:
(3)
这里, 是sigmoid函数, 是计算第 层到第 层时的权重值。
1.2基于卷积神经网络的CTR预测模型
研究中使用卷积神经网络对搜索广告的CTR进行预测,网络结构如图2所示。
图2
Fig.2 Convolution neural network in search ad click rate through prediction
实验中一共设置了两个卷积层、两个亚采样层以及一个全连接层。首先从历史日志中提取相应的特征构建出输入(Feature_Input),设置好卷积的窗口大小后根据公式(1)对输入特征进行卷积,每一次卷积是对窗口内所有值的组合,因此卷积过程相当于特征融合过程。对卷积后得到的特征,设置亚采样的窗口并根据公式(2)进行最大值-采样,选取出窗口中的最有表达能力的特征值(最大特征值)表示整个窗口的特征,因此亚采样过程相当于特征的萃取过程。整个卷积和亚采样过程的结合,模拟出了人对事物的理解和总结的过程。最后将特征经过一层全连接后连接到输出,得到最终的预测结果。
在一次特定的卷积(或亚采样)全过程中即训练的一次迭代过程中,权值并不会随着窗口的滑动而改变,即在计算中,所有窗口滑过的特征享受同样的权值。这也是CNN区别于其他神经网络的特点――权值共享。如此即使得CNN更方便训练,更能多角度地对特征进行学习。
2特征构建
本文所采用的实验数据集为KDD Cup 2012中Track 2提供的数据集。该数据由腾讯公司下的搜索品牌搜搜(SOSO)搜索引擎提供,因为涉及公司商业信息,数据经过哈希处理。实验数据集中,每条记录包含12个属性,各属性详解如表1所示。
。
2.1基于卷积神经网络的CTR预测模型
。
)与展示数( 。计算公式如下:
(4)
公式中的 和 。
2.2相似度特征
。。
通过对Query、Keyword、Title、Description的属性描述文件构造出相关的TF-IDF向量,Query为用户搜索内容,Keyword,Title,Description是广告的相关属性,数据集提供的属性信息都是经过哈希后的数字形式,但是属性之间的相对含义不变,然后计算相互之间的余弦相似度作为特征。
2.3位置特征
该特征描述的是指定广告在搜索结果页面中的位置信息。。因此,研究即用当前预测广告的相对位置Pos来刻画该广告在结果页面中排序靠前的程度,其定义如下:
(5)
这里, 指页面投放的广告总数, 指当前所预测广告的位置。
2.4位置特征
在预测模型中,ID属性信息通常采用one-hot形式的特征编码方式,在将不同的属性经过one-hot编码后的特征向量组合在一起,这样方式简单直观,却使得特征的维度巨大并且非常稀疏。然而在这庞大且稀疏的特征中,绝大部分维度上的特征值对整个模型的预测结果贡献非常小甚至为零,只有少数维度上的特征值对预测结果有较高的影响力。因此研究采用L1范数正则化的方式,在逻辑回归模型的代价函数中加入L1范数[10],使得模型学习得到的结果满足稀疏化,在学习参数中按大小顺序取出前N维权重较大的,将这N维权重对应位置上的特征值构建新的特征,称为高影响力特征,考虑到实验硬件,取N=180。
3 实验结果与结论分析
3.1数据准备
。实验中随机抽取部分样本作为验证集用于参数的调节。本文所用测试集为 KDD Cup 2012中track 2的全部测试数据,因此本文的结果与KDD Cup 2012中track 2比赛的结果具有可比性。数据的统计信息如表2所示。
这里, 、 分别表示结果中预测对的正样本数和负样本数, 、 分别表示结果中预测错的正样本数和负样本数。。
3.2实验设置和结果分析
实验的操作系统为Ubuntu 12.04 LTS OS,卷积神经网络在4G RAM 的NVIDIA GeForce GT 610 GPU条件下运行。过程中选用了Dense Gaussian对卷积层、亚采样层的边和节点进行初始化,用常数初始化输出层,学习卷积神经网络各边权值时的优化函数使用梯度下降算法,其中学习率为0.01、动量项为0.9,训练步数为100,设置公式(4)中参数α=0.05,β=75。实验时使用逻辑回归模型(LR)、支持向量回归模型(SVR)和深度神经网络(DNN)作为对比方法,所有方法都使用相同的特征,其中DNN的层数以及每层的节点数与卷积神经网络相同。
具体地,首先探究了卷积神经网络中节点的设置,因为在CNN中后续层的节点数根据第一个卷积层和每层卷积(或亚采样)滑动窗口的大小计算得到,并以第一个卷积层节点的设置为实验变量,同时控制DNN中每层的节点数均与CNN相同,在验证集上的实验结果如图3所示。
从图3可以看出,随着节点的增加,AUC的值也在不断增长,在一定范围内,节点数越多,实验的结果越好。但随着节点数的增大,模型的训练时间也在延长,对设备的开销需求也在升高,综合上述因素,最终将第一层的节点数设为9 216。
CNN与各对比实验的实验结果如表3所示,可以看出CNN的效果最佳,此外在表中还列出了KDD Cup 2012 track 2比赛中第一名的结果。DNN的AUC值优于LR和SVR,验证了深度学习模型比浅层学习模型更适合解决CTR预估问题,同时CNN的结果高于DNN,说明CNN中卷积层的特征融合和亚采样层的特征萃取过程是有效的。本文中CNN目前的实验结果略低于KDD Cup 2012 track 2中第一名的结果,原因是比赛队伍使用了多模型融合并提取了庞大的(千万维)输入特征。
。在所有特征的情况下,去掉某一类特征来进行预测,实验结果如表4所示。实验结果表明,去掉任意一类特征都将使得实验效果有所下降。。。
4 结束语
。。。。。
参考文献:
[1] 霍晓骏,贺牛杨燕. 一种无位置偏见的广告协同推荐算法[J]. 计算机工程, 2014, 40(12): 39-44.
[2] BHARGAV K, AHMED A, PANDEY S, et al. Focused matrix factorization for audience selection in display advertising[C]// Data Engineering (ICDE), 2013 IEEE 29th International Conference on, Brisbane , Australia: IEEE, 2013:386-397.
[3] SHAN Lili, LEI Lin, DI Shao, et al. CTR Prediction for DSP with Improved Cube Factorization Model from Historical Bidding Log[M]// C K Loo, et al(Eds.): Neural Information Processing. Switzerland:Springer,2014,8836:17-24.
[4] OLIVIER C, ZHANG Ya. A dynamic bayesian network click model for web search ranking[C]//Proceedings of the 18th international conference on World wide web. Madrid: ACM,2009:1-10.
[5] DEEPAYAN C, AGARWAL D, JOSIFOVSKI V. Contextual advertising by combining relevance with click feedback[C]//Proceedings of the 17th international conference on World Wide Web. Beijing: ACM,2008:417-426.
[6] WU Kuanwei, FERNG C S, HO C H, et al., A two-stage ensemble of diverse models for advertisement ranking in KDD Cup 2012[J]. KDDCup, 2012.
[7] DAVE K S, VARMA V. Learning the click-through rate for rare/new ads from similar ads[C]// Proceedings of the 33rd international ACM SIGIR conference on Research and development in information retrieval, Geneva, Switzerland:ACM,2010.
[8] ZHANG Ying, JANSEN B J , SPINK A. Identification of factors predicting clickthrough in Web searching using neural network analysis[J]. Journal of the American Society for Information Science and Technology, 2009, 60(3): 557-570.
[9] 林古立.互联网信息检索中的多样化排序研究及应用[D].华南理工大学,2011.
关键词:深度学习;网络安全;网络数据;计算机
随着信息化社会的进步,互联网与人们的生活紧密相关,人们可以通过互联网进行购物、社交、学习,为人们的生活带来便利的同时,也促进了社会经济的发展。然而,信息安全问题日益突出,存在数据外泄的风险[1]。网络病毒、数据泄露等问题一直在威胁着人们的信息安全,不仅会影响个人的信息安全,还会威胁国家网络信息安全,因此必须从多方面对互联网信息安全进行防护[2]。在计算机网络安全管理中,需要实时检测网络平台数据的安全状态。。基于此,本文构建基于深度学习的网络安全管理模型,利用深度学习模型对网络数据中的不安全因素进行分析。
1网络安全管理模型设计
1.1构建网络平台防护框架
计算机病毒是危害互联网信息安全的重要因素之一,一般隐藏在执行程序、数据和文件中,不容易被人们发现。感染计算机病毒的电脑存在泄露个人信息的风险,而个人信息泄漏也会使其他的信息安全遭到一定程度的威胁,影响了我国的互联网安全。在大数据背景下,针对不同的情况应采用不同等级的防御系统[4]。本文以系统安全性评价为基础,构建网络平台防护框架,如图1所示[5]。网络平台防护框架包括用户信息采集模块、用户信息认证模块、防火墙模块、常用存储模块、备用存储模块、报警模块、数据监控模块、网络数据库模块、中央处理器模块、信息安全监测模块、信息安全分析模块和信息安全处理模块。
1.2网络信息安全检测
黑客攻击手段分为非破坏性攻击和破坏性攻击两类,非破坏性攻击是利用拒绝服务等手段来影响操作系统的正常工作,破坏性攻击则是指通过非法方式进入其他计算机,以窃取重要的操作系统保密信息,从而攻击系统的重要数据[5]。在黑客进行攻击时,最常用的手段就是利用域名随机算法随机生成恶意域名。虽然国内已经开发出相对完善的查杀系统和网络监测体系,但是随着人工智能技术的发展,恶意域名的识别也更加困难[6-8]。因此,需要建立新的域名检测方式,加强对恶意域名的识别,保障网络环境安全。
1.3基于深度学习的恶意域名检测模型
基于深度学习的恶意域名检测模型拥有多层认知机制,可通过训练实现对不同网络数据的识别[9-11]。深度学习基础模型大致包括卷积计算神经网络模型、深度信任网络模型及堆栈式自编码网络模型。在应用模型的过程中,可利用卷积神经网络数据识别的优点,对网络系统中存在的数据风险进行准确分析。卷积神经网络通过卷积层、池化层、全连接层来模拟人视觉神经网络,卷积层能够保留数据特征,并经过池化层进行降维和分析,通过全连接层输出最终结果。该模型的兼容性较强,可先进行预处理后再识别域名数据,能够节省计算时间。卷积神经网络可以实现对数据的识别,并通过模型中的多层神经网来模拟人脑对数据的处理方式。由于基于深度学习的恶意域名检测模型具有较强的自主学习能力,因此能够有效执行异常数据识别等操作,有效实现对恶意域名的检测。基于深度学习的恶意域名检测模型的检测过程如图2所示。输入域名后对域名进行预处理,排除数据中的重复域名和大数据中已有的非法域名,并对正常域名和非法域名进行标记[12]。进入嵌入阶段,将域名中的字符通过特定方式映射为多维向量,然后对向量进行训练[13]。检测域名中是否包含特殊字符,识别特殊字符的恶意程度,因为域名长度不长且没有完整的语法结构,所以利用卷积算法进行计算[14-15]。将数据输入卷积层提取信息后,输送至折叠层构建矩阵,最后进入全连接层进行训练,输出结果。
2实验对比分析
为证实网络安全管理模型的实用性能,采用对比实验的方式进行验证,分别采用本文设计的基于深度学习的网络安全管理模型与传统模型对实验数据进行安全监测。
2.1实验准备
在选取数据时,筛选当天产生的恶意域名,选取可信度高的30万条域名作为实验数据,再选取30万条正常域名将两者混合进行实验,另外再选取6万条恶意域名和6万条正常域名作为测试数据,实验数据划分情况如表1所示。将实验数据分批次进行训练,实验环境配置表如表2所示。
2.2实验数据和分析
在实验过程中,将数据分为5组分别进行实验,得到的实验数据如表3所示。从表3可以看出,基于深度学习的检测模型在检测过程中能够正确识别的数量明显多于传统模型,便于对数据进行进一步处理。
3结语
关键词 人脸识别;Gabor小波;小波网络;神经网络;特征抽取
中图分类号TP39 文献标识码A 文章编号 1674-6708(2012)58-0183-02
0 引言
随着信息技术的发展,人脸识别因在公安、身份验证、安全验证系统、医学、考勤系统等各方面的巨大应用前景而成为当前人工智能和模式识别领域的研究热点。。虽然人类能够轻易识别出人脸和表情,但是人脸机器识别却是一个难度极大的课题[1]。
基于Gabor小波弹性图匹配算法作为一种有效的人脸识别方法,虽然方法简单,但是实现复杂、计算量大、耗时多,本文提出了一种改进的基于局部特征Gabor小波的BP神经网络方法,此方法避免了弹性如匹配算法的高计算量,神经网络由于学习和记忆能力,提高了算法容错性。本文采用Gabor小波特征空间作为神经网络输入空间,然后使用神经网络作为分类器。
1 基于局部特征的Gabor小波
1.1 Gabor滤波器数组
二维图像的离散Gabor 变换的定义见文献[4],对特征点图像模板进行离散Gabor 变换的Gabor核函数如下:
式中参数描述三角函数的波长,参数描述小波的方向性。依David S. Bolme 的取值对人脸图像的处理间隔4 个像素,即分别取{4 , ,8, , 16};对的取值从0到π的区间分别取{0 ,π/ 8 ,2π/ 8 ,3π/ 8 ,4π/ 8 ,5π/ 8 ,6π/ 8 ,7π/ 8}共8个方向,π到2π区间的方向性由于小波的奇偶对称性而省去。参数描述三角函数的相角,取∈{ 0 , π/2} ;参数描述高斯半径,取=;参数描述高斯的方向角,选取=1 ;这样通过选取一系列的5个不同的和8个方向的,就可以得到40个二维的复数离散Gabor滤波器组。
1.2 Gabor小波特征值
GaborJet是根据特征点的位置坐标(xn,yn),对特征点作Gabor变换得到的。具体方法是对每一个特征点,以(xn,yn)为中心提取该特征点周围的正方形图像区域的图像灰度信息,然后通过该图像区域与特定波长、方向的2D Gabor滤波器卷积,从而得到该特征点的频率信息等。
2 改进的BP神经网络
1988年,Rumelhart、Hinion和Williams提出了用于前向神经网络学习训练的误差反向传播算法(Error Back Propagation,EBP,简称BP),成功地解决了多层网络中隐含层神经连接权值的学习问题[2]。
BP神经网络训练过程即学习过程:神经网络在外界输入样本的刺激下不断改变网络的连接权值,以使网络的输出不断地接近期望的输出。学习的本质是对各连接权值的动态调整,令输出结果达到预期目标。学习规则是在学习过程中网络中各神经元的连接权变化所依据的一定的调整规则。图1为改进BP神经网络的模型图。
原始BP算法的主要缺点[3]为:收敛速度慢和可能陷入局部极值。本文对BP算法进行了改进,改进方法如下:
1)Sigmoid函数的改进:在实验过程中将产生较大的误差时,S型函数的标准形式用来生成输出的分类,并可能会出现不收敛。因此为了解决这个问题的办法是采取 改进的S型函数如式2.1所示。k的值越大越容易收敛,但收敛速度较慢;k较小可以使得S型函数较稳定,其收敛速度快,但容易产生不稳定。经多次不同值的实验,最终选定 k=3. 5。
2)学习速率自调整模型:学习速率自调整的BP算法缩短了学习时间。神经网络学习过程,即连接下层节点和上层节点之间的权重拒阵Wij的设定和误差修正过程。BP网络自学习方式:需要设定期望值和输入样本。自学习模型为:
h 是学习因子;是输出节点i的计算误差;Oj是输出节点j的计算输出;a是动量因子。
3 人脸识别实验与结果分析
。识别率检测数据库A:选择30个人作为测试对象。。。
由于定位特征点位置会有一些误差,所以在试验阶段人脸数据库中的人脸特征点位置手工标注,这样可以从初始阶段减少误差。人工标注图像的各个特征点的实例如图2所示:
对每个特征点特区Gabor特征,存入数组作为BP神经网络输入。然后使用样本进行训练得到神经网络分类器。。
其中一组训练和识别样本实验结果如表1所示。
其中前5列是该人的训练样本,后5列是该人的识别样本。。训练时输出为,其中0.9表示输出目标,训练误差为0.01。输出为0.9附近就是识别目标。
采用不同的方法系统识别率不同,或者相同方法采用不同人脸图像库系统识别率也会不同。根据上面实验,表2统计了不同人脸识别算法的识别率。
分别在PC平台上进行测试,EBGM大约需要1s时间,而本算法只需要0.01s,大大提高了算法效率。
4 结论
基于EBGM与本文人脸识别算法比较,本文算法有效的解决了传统弹性图匹配算法计算复杂的问题,无需进行弹性图粗匹配和精确匹配,只需要训练,在识别时保留了Gabor小波生物特性基础上大大提高了传统算法实时性。在识别能力上,神经网络具有学习分类作用,比传统弹性图匹配具有更高的识别率。
参考文献
[1]焦峰,山世光,崔国勤,等.基于局部特征分析的人脸识别方法[J].计算机辅助设计与图形学学报,2003,15(1).
[2]M Riedmiiler and H Braum.A direct adaptive method for faster baek Propagation learning:The RPOP algorlthm. Proceedings of the IEEE International Coference on Neural Networks(ICNN).San Fraueisco, 1993:586-591.
[3]Phillips P J, Moon H, Rizvi S A, et al.The FERET Evaluation Methodology for Face recongition Algorithms. IEEE Transaction on Pattern Analysis and Machine Intelligence,2000, 22(10):1090-1104.
关键词: 积分投影; 循环神经网络; 长短时记忆网络; 防止过拟合技术; 精度; 留一法
中图分类号:TP391.4 文献标志码:A 文章编号:1006-8228(2017)04-13-04
Abstract: The existing research on micro expression recognition is mainly based on the improved LBP (local binary patterns) algorithm and SVM (support vector machine). Recently, integral projection has been applied in the field of face recognition. The long and short memory network (LSTM), as a kind of recurrent neural network, can be used to process time series data. So LSTM-IP model, which combines integral projection with LSTM, is proposed, and experimented on the latest micro-expression database CASME II. The horizontal and vertical projection vectors obtained by integral projection are used as the input of LSTM and classified, and the over-fitting preventing method is used. The experimental results show that LSTM-IP algorithm gets better results than the previous method.
Key words: integral projection; recurrent neural network; long and short memory network; prevent over-fitting; accuracy; leave-one-subject-out cross validation
0 引言
人们表情的短时间变化,也叫微表情,心理学在这方面的研究很早就开始了。近年来,有关利用机器学习的方法来对微表情进行研究的学者越来越多,其成为当前一个热门研究方向。微表情的研究成果可用于测谎[2-4]、临床诊断等方面,因橐话闳思幢闶切睦硪缴也很难注意到1/25~1/5秒人表情的变化[1],而这时,机器可以很好的对微表情进行自动的识别。
最近,基于积分投影和纹理描述符的方法被用在人脸识别[5],然而,很少有研究将积分投影用于包含人脸的时间序列中进行识别。。LSTM可以对时序数据进行分类,以前基本用在语音识别和自然语言处理的任务中,很少用于图像识别,可能是因为LSTM处理的是一维的数据,而图像是二维的数据。将图像的二维信息积分投影到一维(水平方向和垂直方向),并以此作为LSTM的输入并分类,这样就能将二者很好的结合起来。
本文构造了基于积分投影和LSTM的深度学习的模型来对微表情进行识别。得到的结果不仅比以前的基于局部二值模式(LBP)的方法好,而且也略微的优于最近基于积分投影的论文中的方法。
1 CASME II微表情数据集介绍
2014年,中科院心理研究所建立了更进一步改进的自然诱发的微表情数据库CASMEII[8]。CASMEII有26个平均年龄为22岁左右的亚洲人,9类表情(happiness, surprise, disgust, fear, sadness, anger, repression, tense, negative)组成。用来录制的高速相机为200 fps。高速相机可以捕捉更细节的微表情。CASMEII是据我们所知目前最好的自然诱发的微表情数据库。
2 基于差分图像的积分投影
Mateos等人的开拓性工作[6-7]表明积分投影可以提取同一人脸图像的共同基本特征。积分投影将人脸的特征水平和垂直投影,可以用公式⑴和⑵表示:
其中It(x,y)表示时间为t时,图像位于(x,y)时的像素值,Ht(y)和Vt(x)表示水平和垂直积分投影。直接将积分投影应用到CASME II微表情数据集上效果如图1所示。
然而,由于微表情的变化是十分微小的,若直接采用上面的积分投影会有很多噪声,从图1(c)可以看出区分不是很明显。因此,我们采用改进的积分投影方法。可以用公式⑶和⑷表示:
。
从图2的(c)可以看出,采用基于差分图像的水平积分投影效果更好,去掉了不必要的噪声。
3 长短时记忆网络
循环神经网络(RNN)可以用来处理时序数据,但它有一个明显的缺陷,就是不能记忆发生在较久以前的信息。长短时记忆网络(LSTM)[9]是一种特殊的RNN,比RNN多了一些特殊的门和细胞,可以学习长期依赖信息。LSTM结构如图3所示。
最上面横着带箭头的线包含细胞单元,作用是记忆之前LSTM单元的信息。x和+表示点分的乘法与加法,表示Sigmoid激活函数(如公式⑸),tanh表示双曲正切激活函数(如公式⑹)。
最下面圆圈中的X和最上面圆圈中的h分别表示时序输入和输出。
通用的LSTM结构可以参考图4,图4中,底层节点为输入,顶层节点为输出,中间层为隐藏层节点或记忆块。(a)描述的是传统的 感知机(MLP)网络,即不考虑数据的时序性,认为数据是独立的;;(c)输入为单个数据点,输出为序列数据,典型的代表为图像标注;(d)这是一种结构序列到序列的任务,常被用于机器翻译,两个序列长度不一定相等;(e)这种结构会得到一个文本的生成模型,每词都会预测下一时刻的字符。
4 LSTM-IP模型
因为CASME 。。
本文采用图4(b)和图4(e)结合的LSTM结构,如图5所示。
。最后将这两部分的128的特征向量连接起来作为一个256的特征向量输入softmax分类器,结果输出属于五类微表情的哪一类。在图5的每两层之间加入一层Dropout层,Dropout的比率设为0.5。LSTM内部参数初始化采用了glorot_normal,相比较于其他初始化方法,glorot_normal效果最好。
Softmax和Dropout在深度学习中都是常用的技术。Softmax是逻辑斯特回归应用于多分类的推广。Dropout[10]这种技术的作用是减少过拟合,是一种正则化技术,通过防止由完全连接的层引起神经元的参数过多,有助于减少神经网络的过度拟合问题。给定 dropout率p,其在我们的LSTM中被设置为0.5,50%单位将被保留,而另外50%将被放弃。简单地说,“Dropout”只是随机忽略一些神经元。然而在测试阶段,每个神经元的输出将通过因子1-p(保持率)加权以保持与训练阶段中产生相同的效果。如图6所示。
我们的实验采用基于Theano的keras框架,keras借b了Torch的搭建深度学习网络的方式,而且使用笔者比较熟悉的Python语言(Torch使用Lua语言),keras的底层可以是Theano或者Tensorflow,可能是因为keras最先在Theano开发的,经过实验比较单个GPU下,Theano的速度要比Tensorflow快,所以我们的底层采用Theano。
5 实验结果与分析
现在微表情识别的算法主要是基于LBP改进的算法,例如LBP-TOP[11](Local Binary Pattern-Three Orthogonal Planes)、LBP-SIP[12](LBP-Six Intersection Points)和LOCP-TOP[13](Local ordinal contrast pattern-
TOP)等。我们将LSTM-IP算法与以前的方法做了比较,如表1所示。
实验是在CASME II上做的,因为CASME II微表情数据集是最新最好的微表情数据集。STLBP-IP也是基于积分投影的,结合了1DLBP来提取特征。通过表1的比较我们发现,基于积分投影的算法效果好于原来基于LBP的算法,可以得出,采用提取积分投影特征的方法在微表情数据集CASME II上效果比较好。可以看出,STLBP-IP的性能优于文献[27]的重新实现,STLBP-IP的精度提高了20.64%。从表1中可知,时间插值法(TIM)可以提高LBP-TOP的性能,其中LBP-TOP增加到39.68%。然而,与STLBP-IP相比,LBP-TOP在微表情识别上的效果上有很大的差距(19.43%)。比较两种基于积分投影的方法,本文提出的方法略微好于STLBP-IP,但通过阅读STLBP-IP的论文笔者发现,这种方法存在繁琐的调参过程,比如图像如何分块,SVM核参数的选择,而本文提出的LSTM-IP算法可以自动从差分图像的积分投影中学习,调参的内容比较少,而且速度也很快。这些结果表明,LSTM-IP实现了令人满意的效果,而不是LOCP-TOP和LBP-SIP。 这部分地解释了LSTM-IP通过使用积分投影来保持形状和辨识的能力。
实验采用了留一法交叉验证,CASME 。
6 Y束语
基于差分图像的积分投影方法,保存了我们微表情形状的特征,然后增强微表情的辨别力。深度学习在图像识别领域已经取得了很不错的成绩,而现在深度学习的技术还没有应用于微表情识别。本文将差分图像的积分投影与LSTM结合,从实验结果上看,结果要好于以前的方法。我们认为深度学习的探索不会停止,会有越来越多新的网络模型产生,也会有越来越多的深度学习的技术应用于微表情识别。
我们将继续探索基于深度学习的微表情识别的方法及技术手段。。随着技术的进步,相信微表情识别效果会越来越好,并最终能够应用于我们的生活中。
参考文献(References):
[1] Ekman P. Micro Expressions Training Tool[M]. Emotion-
srevealed. com,2003.
[2] Ekman P. Darwin, deception, and facial expression[J].
Annals of the New York Academy of Sciences,2003.1000(1):205-221
[3] Ekman P. Lie catching and microexpressions[J]. The
philosophy of deception,2009:118-133
[4] Ekman P, O'Sullivan M. From flawed self-assessment to
blatant whoppers: the utility of voluntary and involuntary behavior in detecting deception[J]. Behavioral sciences & the law,2006.24(5):673-686
[5] Benzaoui A, Boukrouche A. Face recognition using 1dlbp
texture analysis[J]. Proc. FCTA,2013: 14-19
[6] Mateos G G. Refining face tracking with integral projections
[C]//International Conference on Audio-and Video-Based Biometric Person Authentication. Springer Berlin Heidelberg,2003: 360-368
[7] García-Mateos G, Ruiz-Garcia A, López-de-Teruel P
E. Human face processing with 1.5 D models[C]//International Workshop on Analysis and Modeling of Faces and Gestures. Springer Berlin Heidelberg,2007:220-234
[8] Yan W J, Li X, Wang S J, et al. CASME II: An improved
spontaneous micro-expression database and the baseline evaluation[J]. PloS one, 2014.9(1):e86041
[9] Hochreiter S, Schmidhuber J. Long short-term memory[J].
Neural computation,1997.9(8):1735-1780
[10] Hinton G E, Srivastava N, Krizhevsky A, et al. Improving
neural networks by preventing co-adaptation of feature detectors[J]. Computer Science,2012.3(4):212-223
[11] Zhao G, Pietikainen M. Dynamic texture recognition
using local binary patterns with an application to facial expressions[J]. IEEE transactions on pattern analysis and machine intelligence,2007.29(6).
[12] Wang Y, See J, Phan R C W, et al. Lbp with six
intersection points: Reducing redundant information in lbp-top for micro-expression recognition[C]//Asian Conference on Computer Vision. Springer International Publishing,2014:525-537
[13] Chan C H, Goswami B, Kittler J, et al. Local ordinal
contrast pattern histograms for spatiotemporal, lip-based speaker authentication[J]. IEEE Transactions on Information Forensics and Security,2012.7(2):602-612
关键词:车牌;识别;专利;分析
引言
。车牌识别技术可应用于停车场自动收费管理、道路监控等领域,在城市交通管理中发挥了重要作用。
1 中国专利申请情况分析
以CNABS专利数据库中的检索结果为分析样本,介绍车牌识别技术的中国专利申请量趋势以及重要申请人的状况。
1.1 第一阶段(2005年及之前)
在这阶段,申请量极少且申请人也极少,且针对的环境较为简单,处于技术的萌芽阶段,其中,专利CN1529276,通过车牌定位、字符分割和分类识别完成机动车牌号自动识别,其实现过程较为简单,具体细节描述较少。
1.2 第二阶段(2006年-2010年)
在这阶段的申请量比上一阶段有所增加,而且申请人数量相较之前也有增长,其中来自高校的申请量明显增加,反映出了高校研究者开始更加注重对研究成果的保护,这一阶段的专利所针对的环境场景更为复杂,识别准确率得到提高,对车牌定位、字符分割、字符识别等关键技术的研究更为深入。
1.3 第三阶段(2011年及以后)
在2011年之后车牌识别技术的专利申请量呈现快速增长,这一阶段车牌识别技术得到了更进一步的丰富,涉及的关键技术的解决途径也呈现出多样性,检测效率和精度也得到进一步提高,其中,专利CN104035954A,涉及一种基于Hadoop的套牌车识别方法,将云计算应用于车牌识别,使得与传统环境下不经过优化的方法相比具有^高的运行效率和加速比,可以有效地识别套牌车。
图2示出了中国重要申请人分布情况,申请量分布前十的申请人包括:电子科技大学、深圳市捷顺科技实业股份有限公司(捷顺科技)、浙江宇视科技有限公司(宇视科技)、信帧电子技术(北京)有限公司(信帧电子)、中国科学院自动化研究所(自动化研究所)、安徽清新互联信息科技有限公司(清新互联)、青岛海信网络科技股份有限公司(海信网络)、浙江工业大学、四川川大智胜软件股份有限公司(川大智胜)、上海高德威智能交通系统有限公司(高德威智能交通),从图2中可以看出,不同申请人的申请量差距不是很大,几乎保持在一个比较持平的状态。
电子科技大学在车牌识别技术的专利申请中,CN 101064011A提出一种基于小波变换的复杂背景中的车牌提取方法,可大大提高对晴天、雨天、雾天、白天及夜晚等环境的通用性和适用性,实现车牌的精确定位并提高车牌提取的准确度;CN 103455815A提出一种复杂场景下的自适应车牌字符分割方法,能快速、准确地搜索2、3字符间隔位置,实现自适应调整分割参数,使车牌字符分割稳定可靠,在复杂的环境中鲁棒性强,防止噪声干扰;CN 105005757A提出一种基于Grassmann流行的车牌字符识别方法,最大限度地利用了已获得的车牌字符信息以及同类字符之间的相互关系,对于车牌字符的成像质量要求更低,应用于复杂的环境中具有很好的鲁棒性和准确性。
2 关键技术分析
一个完整的车牌定位与识别系统,其前端包括图像采集和传输系统,末端还需要与数据库相连接。从定位到识别的核心算法上,主要包括图像预处理、车牌定位、字符分割和字符识别四大部分[3]。
图像预处理,是指通过对摄像头捕获的彩色图像进行预处理。常用的预处理方法包括图像灰度化、图像二值化、边缘检测等。
车牌定位,是指在经预处理后的车辆图像中,定位出车辆的车牌所在位置。常用的车牌定位方法包括基于纹理分析的方法、基于数学形态学的方法、基于边缘检测的方法、基于小波变换的方法和基于神经网络的方法等。CN 104298976A提出一种基于卷积神经网络的车牌检测方法,利用卷积神经网络完整车牌识别模型对车牌粗选区域进行筛选,获取车牌最终候选区域。
字符分割,是指将定位出的车牌区域图像分割成单个的字符图像。常用的字符分割方法包括基于轮廓的方法、基于投影的方法、基于模板匹配的方法和基于连通区域的方法等。CN 。
字符识别,是指对字符分割之后的单个字符图像进行识别,进而得到车辆的车牌号码。常用的车牌字符识别方法包括基于字符结构特征的识别方法、基于模板匹配的识别方法、基于神经网络的识别方法、基于模糊理论的模式识别方法和基于支持向量机分类识别方法等。CN 105975968A提出一种基于Caffe框架的深度学习车牌字符识别方法,以基于Caffe架构的深度学习为基础,解决了现有的车牌字符识别方法中对倾斜、断裂、相近字符识别精度不高的问题,大大提高了对于车牌字符的识别精度。
3 结束语
本文以车牌识别相关专利文献为样本,分析统计了该技术中国专利申请现状,并对车牌识别技术的关键技术进行简单分析。在经历了从无到有、从萌芽到飞速发展的阶段之后,车牌识别技术慢慢走向成熟,越来越多的企业和高校在车牌识别的研究上投入了大量的精力,也获得了丰硕的研究成果。
参考文献
[1]尹旭.汽车牌照定位研究综述[J].电脑知识与技术,2010,6(14):3729-3730.
因篇幅问题不能全部显示,请点此查看更多更全内容