关键词:图像分类;深度学习;Caffe框架;
中图分类号:TP18 文献标识码:A 文章编号:1009-3044(2016)35-0209-03
Research and Implementation of Image Classification Based on Convolution Neural Network
WANG Chao
(Information Engineering Institute,East China University of Technology, Nanchang 330013, China)
Abstract: The problem of image classification has been the core problem in computer vision. A good solution is developed by further study which can solve the problem of extracting image features in image classification. In order to learn image features efficiently, constructing the machine learning model with hidden layer as well as training a large number of image data will eventually promote the accuracy of image classification or prediction. This paper is intended as an in-depth Caffe learning framework to construct a small image data-base. The convolutional neural network provided by Caffe framework will make a training analysis of the data set and then extract the information of target image features. These can be used for the final prediction of the target image. Compared with the traditional image classification algorithm, the accuracy of the prediction will be greatly improved.
Key words: image classification; deep learning; Caffe framework; Convolutional Neural Network
S着计算机与互联网技术的快速发展,我们已经进入了一个以图像构建的世界。但是面临有海量图像信息却找不到所需要的数据的困境,因而图像分类技术应运而生。通过各种机器学习算法使计算机自动将各类图像进行有效管理和分类,但是由于图像内容包含着大量复杂且难以描述的信息,图像提取和相识度匹配技术也存在一定的难题,要使得计算机能够像人类一样进行分类还是有很大的困难。
深度学习是近十年来人工智能领域取得的重要突破,在图像识别中的应用取得了巨大的进步,传统的机器学习模型属于神经网络模型,神经网络有大量的参数,经常会出现过拟合问题,因而对目标检测准确率上比较低。本文采用卷积神经网络框架,图像特征是从大数据中自动学习得到,而且神经网络的结构深由很多层组成,通过重复利用中间层的计算单元来减少参数,在特征汇聚阶段引入图像中目标的显著信信息,增强了图像的特征表达能力。通过在图像层次稀疏表示中引入图像显著信息,加强了图像特征的语义信息,得到图像显著特征表示,通过实验测试,效果比传统的图像分类算法预测的准确度有明显的提升。
1 基于卷积神经网络的图像分类方法
1.1 人工神经网络
人工神经网络(Artificial Neural Network, ANN)是描述生物神经网络运行机理和工作过程的抽象和简化了的数学物理模型,使用路径权值的有向图来表示模型中的人工神经元节点和神经元之间的连接关系,之后通过硬件或软件程序实现上述有向图的运行[1]。目前最典型的人工神经网络算法包括:目前最典型的人工神经网络有BP网络 [2]Hopfield网络[3]Boltzmann机[4]SOFM网络[5]以及ART网络人工神经网络[6],算法流程图如图1所示[7]。
1.2 卷积神经网络框架的架构
Caffe是Convolutional Architecture for Fast Feature Embedding的缩写[8],意为快速特征嵌入的卷积结构,包含最先进的深度学习算法以及一系列的参考模型,图2表示的是卷积神经网络结构图。Caffe深度学习框架主要依赖CUDA,IntelMKL,OpenCV,glog软件以及caffe文件。本文使用的各个软件版本说明,如表1所示。
Caffe深度学习框架提供了多个经典的卷积神经网络模型,卷积神经网络是一种多层的监督学习神经网络,利用隐含层的卷积层和池采样层是实现卷积神经网络特征提取功能,卷积神经网络模型通过采取梯度下降法最小化损失函数对网络中的权重参数逐层反向调节,通过频繁的迭代训练来提高网络的精度。卷积神经网络使用权值共享,这一结构类似于生物神经网络,从而使网络的复杂程度明显降低,并且权值的数量也有大幅度的减少,本文使用这些模型直接进行训练,和传统的图像分类算法对比,性能有很大的提升,框架系统训练识别基本流程如图3表示。
1.3 图像分类特征提取
卷积神经网络的结构层次相比传统的浅层的神经网络来说,要复杂得多,每两层的神经元使用了局部连接的方式进行连接、神经元共享连接权重以及时间或空间上使用降采样充分利用数据本身的特征,因此决定了卷积神经网络与传统神经网络相比维度大幅度降低,从而降低计算时间的复杂度。卷积神经网络主要分为两个过程,分为卷积和采样,分别的对上层数据进行提取抽象和对数据进行降维的作用。
本文以Caffe深度学习框架中的 CIFAR-10数据集的猫的网络模型为例,如图4所示,对卷积神经网络模型进行训练。。通过对数据进行提取和降维的方法来提取图像数据的特征。
2 实验分析
将猫的图像训练集放在train的文件夹下,并统一修改成256×256像素大小,并对猫的图像训练集进行标记,标签为1,运行选择cpu进行训练,每进行10次迭代进行一次测试,测试间隔为10次,初始化学习率为0.001,每20次迭代显示一次信息,最大迭代次数为200次,网络训练的动量为0.9,权重衰退为0.0005,5000次进行一次当前状态的记录,记录显示如下图5所示,预测的准度在98%以上。而相比传统的图像分类算法BP神经网络网络的收敛性慢,训练时间长的,网络的学习和记忆具有不稳定性,因而卷e神经网络框架在训练时间和预测准度上具有非常大的优势。
3 结束语
本文使用Caffe深度学习框架,以CIFAR-10数据集中猫的网络模型为例,构建小型猫的数据集,提取猫的图象特征信息,最后和目标猫图像进行预测,并和传统的图像分类算法进行对比,预测的准确率有很大的提升。
参考文献:
[1] 杨铮, 吴陈沭, 刘云浩. 位置计算: 无线网络定位与可定位性[M]. 北京: 清华大学出版社, 2014.
[2] 丁士折. 人工神经网络基础[M]. 哈尔滨: 哈尔滨工程大学出版社, 2008.
[3] McClelland J L, Rumelhart D E, PDP Research Group. Parallel distributedprocessing[J]. Explorations in the microstructure of cognition, 1986, 2.
[4] Hopfield J J. Neural networks and physical systems with emergent collectivecomputational abilities[J]. Proceedings of the national academy of sciences, 1982, 79(8): 2554-2558.
[5] Ackley D H, Hinton G E, Sejnowski T J. A learning algorithm for boltzmannmachines[J]. Cognitive science, 1985, 9(1): 147-169.
[6] Kohonenmaps T. Self-Organized Formation of Topologically Correct Feature Maps[J]. Biological Cybernetics,1982, 43(1): 59-69.
关键词:卷积神经网络;图像分类;空间变换;可变形卷积
DOIDOI:10.11907/rjdk.171863
中图分类号:TP317.4
文献标识码:A 文章编号:1672-7800(2017)006-0198-04
0 引言
图像分类一直是计算机视觉领域的一个基础而重要的核心问题,具有大量的实际应用场景和案例。很多典型的计算机视觉问题(如物体检测、图像分割)都可以演化为图像分类问题。图像分类问题有很多难点需要解决,观测角度、光照条件的变化、物体自身形变、部分遮挡、背景杂波影响、类内差异等问题都会导致被观测物体的计算机表示(二维或三维数值数组)发生剧烈变化。一个良好的图像分类模型应当对上述情况(以及不同情况的组合)不敏感。使用深度学习尤其是深度卷积神经网络,用大量图像数据进行训练后可以处理十分复杂的分类问题。
卷积神经网络是为识别二维形状而专门设计的一个多层感知器,这种网络结构对平移、缩放、倾斜等扰动具有高度不变性,并且具有强大的特征学习与抽象表达能力,可以通过网络训练获得图像特征,避免了复杂的特征提取与数据重建过程。通过网络层的堆叠,集成了低、中、高层特征表示。AlexNet等网络模型的出F,也推动了卷积网络在海量图像分类领域的蓬勃发展。
1 卷积神经网络
卷积神经网络是人工神经网络的一种,其“局部感知”“权值共享”[1]等特性使之更类似于生物神经网络,网络模型复杂度大大降低,网络训练更容易,多层的网络结构有更好的抽象表达能力,可以直接将图像作为网络输入,通过网络训练自动学习图像特征,从而避免了复杂的特征提取过程。
Yann LeCun等[2]设计的LeNet-5是当前广泛使用的卷积网络结构原型,它包含了卷积层、下采样层(池化层)、全连接层以及输出层,构成了现代卷积神经网络的基本组件,后续复杂的模型都离不开这些基本组件。。网络训练开销大且受制于计算机性能。
2012年,在ILSVRC竞赛中AlexNet模型[3]赢得冠军,将错误率降低了10个百分点。拥有5层卷积结构的AlexNet模型证明了卷积神经网络在复杂模型下的有效性,并将GPU训练引入研究领域,使得大数据训练时间缩短,具有里程碑意义。AlexNet还有如下创新点:①采用局部响应归一化算法(Local Response Normalization,LRN),增强了模型的泛化能力,有效降低了分类错误率;②使用Dropout技术,降低了神经元复杂的互适应关系,有效避免了过拟合;③为了获得更快的收敛速度,AlexNet使用非线性激活函数ReLU(Rectified Linear Units)来代替传统的Sigmoid激活函数。
Karen等[4]在AlexNet的基础上使用更小尺寸的卷积核级联替代大卷积核,提出了VGG网络。虽然VGG网络层数和参数都比AlexNet多,但得益于更深的网络和较小的卷积核尺寸,使之具有隐式规则作用,只需很少的迭代次数就能达到收敛目的。
复杂的网络结构能表达更高维的抽象特征。然而,随着网络层数增加,参数量也急剧增加,导致过拟合及计算量大增,解决这两个缺陷的根本办法是将全连接甚至一般的卷积转化为稀疏连接。为此,Google团队提出了Inception结构[5],以将稀疏矩阵聚类为较为密集的子矩阵来提高计算性能。以Inception结构构造的22层网络GoogLeNet,用均值池化代替后端的全连接层,使得参数量只有7M,极大增强了泛化能力,并增加了两个辅助的Softmax用于向前传导梯度,避免梯度消失。GoogLeNet在2014年的ILSVRC竞赛中以Top-5错误率仅6.66%的成绩摘得桂冠。
网络层数的增加并非永无止境。随着网络层数的增加,将导致训练误差增大等所谓退化问题。为此,微软提出了一种深度残差学习框架[6],利用多层网络拟合一个残差映射,成功构造出152层的ResNet-152,并在2015年的ILSVRC分类问题竞赛中取得Top-5错误率仅5.71%的成绩。随后,对现有的瓶颈式残差结构进行改进,提出了一种直通结构[7],并基于此搭建出惊人的1001层网络,在CIFAR-10分类错误率仅4.92%。至此,卷积神经网络在越来越“深”的道路上一往直前。
2 可变形的卷积神经网络
2.1 空间变换网络
空间变换网络(Spatial Transformer Network,STN)[8]主要由定位网络(Localisation net)、网格生成器(Grid generator)和可微图像采样(Differentiable Image Sampling)3部分构成,如图1所示。
定位网络将输入的特征图U放入一个子网络(由卷积、全连接等构成的若干层子网络),生成空间变换参数θ。θ的形式可以多样,如需要实现2D仿射变换,那么θ就是一个2×3的向量。
2.3 本文模型
本文以自建的3层卷积网络C3K5(如图6所示)和VGG-16作为基准网络,分别引入空间变换网络、可变形卷积和可变形池化,构造出8个卷积神经网络,用以验证可变形模块对浅层网络和深层网络的影响,如表1所示。
图6中C3K5网络模型包含3个带有ReLU层、LRN层和池化层的卷积模块,卷积层采用步长为1的5×5卷积核,输出保持原大小,池化层采用步长为2核为2×2的最大值池化,即每经过一个卷积模块,特征图缩小为原来的一半。
3 实验与分析
3.1 实验设置
本文实验环境:CPU为Intel i5-7400,8G内存,显卡为GTX1060,采用Cuda8+CuDNN6.0加速。
实验数据集包括公共图像数据集mnist、cifar-10、cifar-100和自建图像数据集pen-7。公共数据集分别有50 000张训练样本图像和10 000张测试样本图像。 360,测试样本数840, 图7为其中的14个样本。
3.2 结果与分析
。
实验结果表明,在卷积网络中引入空间变换网络、用可变形的卷积层和可变形的池化层替换传统的卷积层和池化层,不管是在浅层网络还是在深层网络,都能获得更高的分类准确率,这验证了空间变换网络和可变形卷积(池化)结构,丰富了卷积神经网络的空间特征表达能力,提升了卷积网络对样本的空间多样性变化的鲁棒性。包含3种模块的网络获得了最高的分类精度,使空间变换网络、可变形卷积层和可变形池化层在更多应用场景中并驾齐驱成为可能。
4 结语
通过在现有卷积神经网络中引入空间变换网络、可变形的卷积层和可变形的池化层,使得卷积网络在mnist、cifar-10、cifar-100及自建的pen-7数据集中获得了更高的分类精度,包含3种模块的网络获得了最高分类精度,证明了空间变换网络、可变形的卷积层和可变形池化层都能丰富网络的空间特征表达能力,协同应用于图像分类工作,这为后续研究打下了坚实的基础。
参考文献:
[1]BOUVRIE J. Notes on convolutional neural networks[J].Neural Nets,2006(1):159-164.
[2]Y LECUN,L BOTTOU,Y BENGIO,et al.Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324.
[3]KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[C]. International Conference on Neural Information Processing Systems. Curran Associates Inc,2012:1097-1105.
[4]SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[J]. Computer Science, 2014(6):1211-1220.
[5]SZEGEDY C, LIU W, JIA Y, et al. Going deeper with convolutions[J]. CVPR, 2015(3):1-9.
[6]HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]. Computer Vision and Pattern Recognition. IEEE, 2015:770-778.
[7]HE K, ZHANG X, REN S, et al. Identity mappings in deep residual networks[J]. arXiv,2016(1603):5-27.
[8]JADERBERG M, SIMONYAN K, ZISSERMAN A, et al. Spatial transformer Science, 2015(5):1041-1050.
[9]DAI J, QI H, XIONG Y, et al. Deformable convolutional networks[J]. arXiv: 2017(1703):62-111.
【关键词】微表情识别 卷积神经网络 长短时记忆
1 引言
人们的内心想法通常都会表现在面部表情上,然而在一些极端环境下,人们为了压抑自己的真实内心情感时,他们的面部变化十分微小,我们通常称之为微表情。在刑侦、医学、教育、心理和国防等领域上,微表情的应用前景十分远大, 不过即便是经过训练的人也很难用肉眼来准确的检测和识别微表情。其主要原因就是它的持续时间短,仅为1/5~1/25s,而且动作幅度很小。
人脸表情识别技术早已发展到一定程度了,甚至不少研究团队提出的方法针对6种基本表情的识别率已经达到90%。然而微表情识别技术的研究在近几年来才刚刚开始,如Pfister等提出了一种结合时域插值模型和多核学习的方法来识别微表情; Wu等设计了一种使用Gabor特征和支持向量机的微表情识别系统;唐红梅等在LTP做出改进而提出的MG-LTP算法,然后采用极限学习机对微表情进行训练和分类;Wang等提出了基于判别式张量子空间分析的特征提取方法,并利用极限学习机训练和分类微表情。
上述的识别技术都是基于传统机器学习的方法,而近几年来,利用深度学习技术来解决图像识别问题是当前的研究热点。在ILSVRC-2012图像识别竞赛中,Krizhevsky等利用深度卷积神经网络的自适应特征提取方法,其性能远远超过使用人工提取特征的方法,并且在近几年内的ImageNet大规模视觉识别挑战比赛中连续刷新了世界纪录。
本文决定使用卷积神经网络(CNN)来提取人脸微表情特征,它能让机器自主地从样本数据中学习到表示这些微表情的本质特征,而这些特征更具有一般性。。综上所述,本文提出一种CNN和LSTM结合的微表情识别方法。
2 相关工作
2.1 卷积神经网络模型
。
卷积神经网络(CNN)通过三种方式来让网络所学习到的特征更具有鲁棒性:局部感受野、权值共享和降采样。。。降采样是指通过将一定范围内的像素点压缩为一个像素点,使图像缩放,减少特征的维度,通常在卷积层之后用来让各层所得到的特征具有平移、缩放不变形,从而使特征具有更强的泛化性。
2.2 长短时记忆型递归神经网络模型
长短时记忆(LSTM)模型是由Hochreiter提出,它解决了传统RNN在处理长序列数据时存在的梯度消失问题,这一切都要归结于LSTM结构的精心设计。一个常规的LSTM结构如图1所示。
每一个LSTM结构都有一个记忆单元Ct(t表示当前时刻),它保存着这个时刻LSTM结构的内部状态,同时里面还有三个门来控制整个结构的变化,它们分别是输入门(xt),忘记门(ft)和输出门(ht),它们的定义如下所示:
(1)
(2)
(3)
(4)
(5)
(6)
其中σ是一个sigmod函数,而则表示输入数据的非线性变化,W和b是模型需要训练得到的参数。等式5展示了当前的记忆单元是由忘记门和上一时刻的内部状态所控制的,ft决定了上一时刻的内部状态对当前时刻的内部状态的影响程度,而it则确定了输入数据的非线性变换得到的状态对当前时刻记忆单元的影响程度。等式6展示了输出门和当前时刻的内部状态决定了该LSTM的输出。正因为这个巧妙的设计,LSTM就能处理长序列的数据,并且能够从输入序列中获取时间上的关联性,这一特性对于微表情的识别尤为重要。
3 网络结构调优和改进
3.1 卷积神经网络设计
本文针对输入大小为96×96的灰度图,构建了4个卷积层(C1,C2,C3,C4),4个池化层(S1,S2,S3,S4),1个全连接层(FC1)和1个Softmax层组成的卷积神经网络结构,如图2所示。卷积核(C1,C2,C3,C4)的大小分别为3×3,3×3,5×5,5×5,分别有32,32,32,64个。。
3.2 长短时记忆型递归神经网络设计
。于是我们提出通过LSTM来学习不同人脸表情在时域上的关联特征。我们构建了多个LSTM层,以及一个softmax层。
。。。同样LSTM网络的参数训练还是采用随机梯度下降算法,每一批次为50个序列,冲量为0.85,学习速率为0.01。
4 实验
4.1 微表情数据集
该实验的训练数据和测试数据均来自于中国科学院心理研究所傅小兰团队的第2代改进数据库CASMEII。 大小作为网络的输入。。
4.2 CNN+LSTM和CNN的对比实验
从图2中可以看出不同策略在五类表情里的识别率。当我们采用单一的CNN模型来对人脸微表情进行分类时,我们采取了dropout策略和数据集扩增策略来防止CNN过拟合。CNN+D表示采取了dropout策略的CNN模型,CNN+A表示采取了数据扩增策略的CNN模型, 。从而能将数据集扩增至4倍。CNN+AD表示采取了两种策略的CNN模型。CNN+LSTM表示结合了CNN和LSTM的网络模型。
。而对于CNN+LSTM的表现要好于单一的CNN模型,这说明LSTM的确能够充分利用时域上的特征信息,从而能够更好识别序列数据,这证明了CNN+LSTM的模型可以用于识别人脸微表情的可行性。从表1中,我们还可以看出高兴和惊讶的表情识别率较高,而其他的则相对较低,这可能是因为高兴和惊讶的区分度较大,并且样本较多。
4.3 LSTM的参数调整
下面我们逐一的研究不同参数对CNN+LSTM模型的微表情识别率的影响程度。
图4显示输入的序列个数为100左右能够拥有相对较高的准确率,这说明只有充分利用每一个微表情序列的时域信息,这样,训练出的模型才更加具有一般性。
图5显示出当LSTM隐层的神经元个数为128时,此时的微表情平均识别率最高,这说明隐层需要足够多的神经元才能保留更长的时域信息,对于微表情识别来说,能够拥有更高的精度。
图6显示了LSTM隐层的个数为5时,该模型拥有最好的识别率,这说明较深的LSTM网络才能充分挖掘特征的时域信息。因此经过以上实验,我们得到了一个由5层LSTM,每一层包含128个神经元,并能够处理长度为100的特征序列的模型。
4.4 和非深度学习算法的实验对比
为了比较传统机器学习算法和深度学习算法孰优孰劣,我们使用传统机器学习算法在Casme2进行了一样的实验,从表2中可以看出,本文所提出的CNN+LSTM模型相对于这些传统机器学习模型,有着较为优异的表现。
本文中的实验均是基于Google的开源机器学习库TensorFlow上进行的,硬件平台是dell工作站:Intel(R) Core(TM) i7-5820K CPU、主频3.3GHZ,内存64GB、Nvida GeForce GTX TITAN X GPU、显存12GB。
5 结束语
。。但是当数据量越大时,如果网络的层次比较深的话,模型的训练时间就会很长,并且极度依赖硬件设备,这算是深度学习通有的弊病。为了进一步投入到应用中去,接下来还得提高微表情的识别率,以及在实时环境下,如何能够动态和准确的识别微表情,这些都将会是以后研究的重点。
参考文献
[1]PORTER S,TEN BRINKE L.Reading between the Lies Identifying Concealed and Falsified Emotions in Universal Facial Expressions[J].Psychological Science,2008,19(05):508-514.
[2]Pfister T,Li X,Zhao G,Pietikainen M (2011) Recognising spontaneous facial micro-expressions.2011 Proc IEEE Int Conf Comput Vis (ICCV): IEEE.pp.1449-1456.
[3]Wu Q,Shen X,Fu X (2011) The Machine Knows What You Are Hiding: An Automatic Micro-expression Recognition System.In: D’Mello S,Graesser A,Schuller B,Martin J-C,editors.Affect Comput Intell Interact.Springer Berlin/ Heidelberg. pp.152-162.
[4]唐红梅,石京力,郭迎春,韩力英,王霞. 基于MG-LTP与ELM的微表情识别[J].电视技术,2015,39(03):123-126.
[5]WANG S J,CHEN H L,YAN W J,et al. Face Recognition and Micro-Expression Recognition Based on Discriminant Tensor Subspace Analysis Plus Extreme Learning Machine[J].Neural Processing Letters,2014,39(01):25-43.
[6]Krizhevsky A,Sutskever I,Hinton G E.ImageNet classification with deep convolutional neural networks. In:Advances in Neural Information Processing Systems 25.Lake Tahoe, Nevada,USA:Curran Associates,Inc., 2012.1097?1105
[7]DENG J,DONG W,SOCHER R,et al.Imagenet:A large-scale hierarchical image database [C]//IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE,2009:248-255.
[8]BENGIO Y,DELALLEAU O.On the expressive power of deep archi-tectures[C]//Proc of the 14th International Conference on Discovery Science.Berlin:Springer-Verlag,2011:18-36.
[9]LeCun Y,Boser B,Denker J S,Howard R E,Hubbard W,Jackel L D,Henderson D.Handwritten digit recogni- tion with a back-propagation network. In: Proceedings of Advances in Neural Information Processing Systems 2. San Francisco,CA,USA:Morgan Kaufmann Publishers Inc.,1990.396-404.
[10]S可.卷积神经网络在图像识别上的应用研究[D].杭州:浙江大学[学位论文],2012.
[11]Hochreiter S,Sehmidhuber J.Long Short-Term Memory.Neural Computation,1997,9(08):1735-1780
[12]LUCEY P,COHN J F,KANADE T,et al.The Extended Cohn-Kanade Dataset ( CK + ): A complete dataset for ac- tion unit and emotion-specified expression [C] //IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops (CVPRW).New York:IEEE,2010:94-101.
[13]Dayan P,Abott L F.Theoretical Neuroscience.Cambridge:MIT Press, 2001.
[14]YAN W J, LI X, WANG S J, et al. CASME II: An Improved Spontaneous Micro-Expression Database and the Baseline Evaluation [J].Plos One, 2014,9(01):1-8.
[15]Yandan Wang,John See,Raphael C-W Phan,Yee-Hui Oh. Efficient Spatio-Temporal Local Binary Patterns for Spontaneous Facial Micro-Expression Recognition[J].PLOS ONE,2013,10(05): 11-12
[16]张轩阁,田彦涛,郭艳君,王美茜.基于光流与LBP-TOP特征结合的微表情识别[J].吉林大学学报:信息科学版, 2015,33(05):521-522.
[17]Martín Abadi, Paul BarhamJianmin, Chen el.TensorFlow:Large-Scale Machine Learning on Heterogeneous Distributed Systems[EB/OL].https:///abs/1605.08695.
关键词:卷积神经网络;自动编码器;非监督训练;多尺度分块;目标识别
中图分类号:TP391.41文献标志码:A英文标题
0引言
对图像中目标的精确和鲁棒识别是模式识别及人工智能领域的核心内容,在道路监控、战场侦察、精确打击等领域中有着重要的作用和广泛的前景。近年来,随着深度神经网络成为机器学习新的热点,基于卷积神经网络(Convolutional Neural Network,CNN)的图像识别算法因其较强的鲁棒性和突出的识别率被学术界和工业界所重视。
Alex等[1]提出基于大型深层CNN的自然图像识别算法,在ImageNet数据集上取得了很高的识别率;Dan等[2]提出了基于多核的CNN,并采用GPU并行运算的方法在三维NORB数据集上取得了很好的识别效果。以上算法虽然都取得了较高的目标识别率,但是由于算法采用有监督的训练方式,需要大量标签数据对网络权重进行调整,当数据量较小时会导致模型前几层网络无法得到充分训练,故只能针对含标签数据较多的大型数据集。针对此问题,目前主流的解决方法是采用特征提取算法对CNN的滤波器集进行非监督的预训练。文献[3]采用稀疏编码提取训练图像的基函数作为CNN的初始滤波器;文献[4]将独立成分分析(Independent Component Analysis,ICA)应用于CNN的预训练阶段,利用ICA训练滤波器集合,使识别率得到了一定提高。然而无论是稀疏编码还是ICA,其特征提取的效果都比较一般,应用于预训练阶段对算法识别率的提升也比较有限。所以如何更好地选择滤波器的预训练算法仍是十分困难的问题。
除了预训练外,影响CNN识别率和鲁棒性的关键参数还有滤波器的尺寸和下采样层的采样间隔。滤波器尺寸反映了CNN对输入图像局部特征的提取情况,文献[5]证明滤波器尺寸对最终识别结果有很大影响,并给出了单层条件下相对最优的滤波器尺寸。下采样层主要负责对特征进行模糊,从而获得平移、尺度等不变性。采样间隔反映了模糊的程度,间隔越大模糊越严重,模糊后的特征保持的全局空间信息就越少。文献[6]证明当采样间隔较小时,即使经过2次卷积和2次最大下采样(maxpooling),网络输出的激活值仍能重构出与原始输入看似相同的图案。然而下采样间隔过小会导致不变性丧失,过大则会损失大量细节信息,两者均会导致识别率的下降。
针对以上问题,本文提出基于多尺度分块卷积神经网络(MultiScale Convolutional Neural Network, MSCNN)的图像目标识别算法。首先利用稀疏自动编码器(Sparse AutoEncoder,SAE)对卷积神经网络的滤波器进行非监督预训练,通过最小化重构误差获得待识别图像的隐层表示,进而学习得到含有训练数据统计特性的滤波器集合,预训练效果相比ICA更好。其次提出多尺度分块的方法构建卷积神经网络,为了增加鲁棒性并减小下采样对特征表示的影响,对输入图像进行多尺度分块形成多个通路,并设计相应尺寸的滤波器进行卷积运算,将不同通路下采样后的输出进行融合从而形成新的特征,输入softmax分类器完成图像目标的识别。最后通过大量实验对比MSCNN算法与经典算法在通用图像识别任务中的识别率和鲁棒性差异,从而验证算法的有效性。
4仿真实验及分析
。选择STL10数据集的原因是因为其含有不包含标签的训练集,可用于本文的非监督预训练算法,且图像中包含更多类内变化。STL10共10类目标,本文选用其中的4类目标进行实验。选择遥感飞机图像数据则是为了验证本文算法在遥感图像解译方面的可用性。该数据集包含5类遥感飞机,共400幅。实验时随机选取遥感飞机图像库中50%的图像作为训练样本,其余作为测试样本。本文的实验环境为CPU2.8GHz、内存3GB的计算机,实现算法的软件为Matlab(2011a)。
4.1算法识别率对比测试
MSCNN的各通路尺寸参数设置如图4所示,每个通道使用300个滤波器,滤波器初始值按照不同通道感受野大小利用稀疏自动编码器预训练得到。编码器设定为3层,稀疏参数ρ设定为0.05,训练周期为400。卷积神经网络的下采样方式采用最大下采样(max pooling)。
按照上述参数设置,通路1输出特征维度为2700,通路2输出特征维度为4800,通路3输出特征维度为4800,MSCNN输出特征维度总共为12300。所有算法的训练周期均为50。传统CNN参数设定与通路1参数设定相同,同样使用300个滤波器,滤波器初始值通过随机初始化得到。输出特征维度为2700。实验结果如表1所示。
从表1可看出,加入LCN的CNN较未加入的CNN对两种数据集的识别率有一定的提高,说明了加入LCN对目标识别率是有一定的贡献的;在两种数据集上MSCNN相比原始CNN都拥有更高的识别率。MSCNN通路1虽然参数设置与CNN相同,但在相同训练周期下识别率较加入LCN的CNN又有一定提高,说明了非监督预训练对识别率提高的有效性。对于STL10数据集,可看出通路2的识别率在3个通路中最高,通路3则最低,这是因为通路3输入的图像尺寸最小,而STL10类内变化很大且目标不全在图像中心,故识别率有所下降。通路之间进行两两累加后识别率都有所提高,在3个通路共同作用时识别率最高,达到83.5%。对于遥感飞机图像集而言,可看出3个通路中通路2的识别率最高,这是因为遥感飞机图像集均为飞机图像,不同类别之间的全局特征差异并不明显,而局部特征更能表示不同的飞机类别。通路3由于输入尺寸较小,识别率稍有下降。同样的,不同通路之间的叠加都让识别率有所提升,最终MSCNN三通路特征融合后的识别率达到了96.5%,完全满足对于可见光遥感图像目标识别的需求。
从表1还可看出,本文算法在3个通路CNN的情况下的识别率较1个通路或2个通路的CNN的识别率高,由此可以推断3个通路CNN所提取的特征具有较强的泛化能力和鲁棒性。此外3个通道能够兼顾不同的尺度,使模型能提取到尺度不同的特征。
4.2算法鲁棒性实验
为验证MSCNN的鲁棒性,在数据集中选取不同类别的图像对其进行平移、尺度、旋转变换,然后计算MSCNN输出的第一层全连接特征与图像变换后输出特征之间的欧氏距离,根据距离的大小可以衡量输出特征对于目标变化的鲁棒性,欧氏距离越小就说明特征对于目标变化越不敏感,鲁棒性就越好。对于STL10选取四类目标进行实验,对比算法为CNN;对于遥感飞机图像集随机选取10幅进行实验,并取距离的平均值,对比算法为ICA和CNN。测试结果如图6~7所示。
图6中虚线表示传统CNN算法得到的结果,实线则表示MSCNN得到的结果,从图6可看出:无论是面对平移、尺度还是旋转变换,MSCNN算法最终输出的特征向量变化率均小于CNN算法,证明其鲁棒性要好于CNN。
从图7也可看出:本文算法对于遥感飞机图像集的平移、尺度、旋转均表现出良好的鲁棒性,相比而言ICA提取的特征鲁棒性较差,目标图像微小的变化就导致了特征较大的改变。本文算法鲁棒性较好首先是因为MSCNN采用非监督的预训练方式,训练得到的滤波器含有更多图像不变性特征;其次是因为MSCNN采用多尺度输入,小块图像输入在一定程度上相当于另一种局部特征,这些特征相比全尺寸输入拥有更好的不变性;最后是MSCNN采用了局部对比度标准化,对于亮度变化较大和存在噪声的目标图像鲁棒性明显增强。
另外,本文算法采用了多通路多尺度分块的方法,必然会使网络参数增加,从而会使训练时间比较耗时;但在测试阶段,输入样本的计算仅包含一些简单的卷积和下采样,算法复杂度并没有因为通道的增加而增加,因此在测试阶段的实时性较传统的CNN并没有太大变化。
5结语
本文提出了MSCNN算法在卷积神经网络的基础上通过非监督预训练滤波器的方法解决传统卷积神经网络前几层无法得到有效训练的问题。针对传统神经网络对于复杂背景图像识别率不高的问题,利用多尺度输入图像增加局部不变信息,利用不同尺寸滤波器卷积搭配不同下采样间隔的方法在获得特征不变性的同时不至于丧失目标的细节信息,有效提升了识别率和鲁棒性。与经典算法的对比实验结果表明:该方法能够有效识别可见光自然图像和遥感图像,并对平移、尺度和旋转变换具有较强的鲁棒性。
参考文献:
[1]
ALEX K, ILYA S, HINTON G E. ImageNet classification with deep convolutional neural networks[EB/OL]. [20150210]. http://papers.nips.cc/paper/4824imagenetclassificationwithdeepconvolutionalneuralnetworks.pdf.
[2]
DAN C, UELI M, JURGEN S. Multicolumn deep neural networks for image classification[C]// Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2012: 3642-3649.
[3]
KAVUKCUOGLU K, SERMANET P, BOUREAU Y, et al. Learning convolutional feature hierarchies for visual recognition[EB/OL]. [20150210]. http://cs.nyu.edu/~ylan/files/publi/koraynips10.pdf.
[4]
KAVUKCUOGLU K, RABZATO M, FERGUS R, et al. Learning invariant features through topographic filter maps[C]// IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2009: 1605-1612.
[5]
COATES A, LEE H, NG A Y. An analysis of singlelayer networks in unsupervised feature learning[C]// Proceedings of the 14th International Conference on Artificial Intelligence and Statistics. Piscataway, NJ: IEEE, 2011: 215-223.
[6]
ZEILER M D, FERGUS, R. Visualizing and understanding convolutional neural networks [C]// ECCV 2014: Proceedings of the 13th European Conference on Computer Vision. Berlin: Springer, 2014: 818-833.
[7]
BALDI P, LU ZHIQIN. Complexvalued autoencoders [J]. Neural Networks, 2012, 33:136-147.
[8]
HAYKIN S.神经网络与机器学习[M].3版.申富饶, 徐烨, 郑俊, 译. 北京: 机械工业出版社, 2011:81-89.(HAYKIN S. Neural Networks and Learning Machines[M]. 3rd ed. SHEN F R, XU Y, ZHENG J, translated. Beijing: China Machine Press, 2011:81-89.
[10]
LECUN Y, BOTTOU L, BENGIO Y. Gradientbased learning applied to document recognition [J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324.
[11]
DERMANET P, LECUN Y. Traffic sign recognition with multiscale convolutional networks [C]// Proceedings of the 2011 International Joint Conference on Neural Networks. Piscataway, NJ: IEEE, 2011: 2809-2813.
[12]
GONG Y C, WANG L W, GUO R Q, et al. Multiscale orderless pooling of deep convolutional activation features[C]// ECCV 2014: Proceedings of the 13th European Conference on Computer Vision. Piscataway, NJ: IEEE, 2014: 392-407.
[13]
JARRETT K, KAVUKCUOGLU K, RANZATO M, et al. What is the best multistage for object architecture?[C]// Proceedings of the 2009 IEEE 12th International Conference on Computer Vision. Piscataway, NJ: IEEE, 2009: 2146-2153.
[14]
BOUVRIE J. Notes on convolutional neural networks [EB/OL]. [20150210]. http://math.duke.edu/~jvb/papers/cnn_tutorial.pdf.
Background
This work is partially supported by the National Natural Science Foundation of China (61372167, 61379104).
ZHANG Wenda, born in 1991, M. S. candidate. His research interests include pattern recognition and artificial intelligence.
关键词:谐波分析;FFT;加窗插值;多谱线插值;小波变换
引言
随着我国电网规模的日益扩大,电网的谐波污染也逐渐严重,如何快速有效地检测和分析网络中的谐波成分是一个大家非常关心的问题。
1电力系统谐波分析的常用方法
1.1采用模拟滤波器硬件电路检测谐波的方法
模拟滤波器谐波检测如图1所示。该法原理直观明了,成本低,但其测量精度依赖于滤波器的元件参数[1]。
1.2基于神经网络理论的谐波检测方法
文献[2]提出了一种基于固定三角基函数的人工神经网络谐波分析方法,新模型更直观,收敛速度快。但构建神经网络需要时间来训练样本、神经网络构造方法缺乏统一的规范、训练样本数量庞大。
1.3基于傅里叶变换的谐波检测方法
为尽可能地减少FFT算法中出现的频谱泄漏效应和栅栏效应以及其他的误差,现总结两种方法:(1)插值算法加窗插值法通过加窗减小频谱泄漏、插值消除栅栏效应引起的误差。理想的窗函数需同时具有两个特性:一是主瓣窄;二是低旁瓣峰值和高旁瓣衰减率。研究比较成熟的窗函数有:三角窗、矩形窗、Blackman窗、Nuttall窗等[3-5]。常用窗的频域特性如表1所示。(2)双峰谱线修正算法文[6]提出了一种基于两根谱线的加权平均来修正幅值的双峰谱线修正算法,实验结果证明了其有效性和易实现性。
1.4基于小波分析的谐波检测方法
三层小波包分解示意图如图2所示。单一的谐波检测方法已经不能满足要求,所以现在就是要集合几种谐波检测方法的优点来提取更精确更合理的方法。小波变换和加窗的FFT结合也得到了广泛研究[7],图3、图4仿真出了小波变换的频域实现和FFT实现。综上所述,研究加混合卷积窗以及多谱线插值的改进FFT有更大的应用前景,小波包对高、低频段进行相同尺度的分解,提高信号分析分辨率,提供了更多的信号特征。
2谐波测量的发展趋势
随着电网相关技术和设备不断的变化,需要不断改进和更新谐波检测方法,未来谐波检测的主要发展趋势为:(1)电力系统受非稳态谐波影响,谐波检测需要逐步由稳态谐波检测转向非稳态谐波检测。针对非稳态波形畸变,寻求新方法,如神经网络、小波变换等。(2)谐波测量需要由确定性、慢时变性转为随机性、快速性以及谐波实时跟踪,研究新的谐波特性辨识方法。(3)谐波检测需要谐波监测、实时分析与控制目标相结合,实现测量与控制网络化、智能化、集成一体化。(4)谐波检测需要建立一套完整的谐波检测理论体系和完善的功率定义和理论,通过新理论提出新方法满足研究实践需求。
3结束语
集合多种谐波分析方法的优点研制出一种高精度、高速度的混合谐波分析法势在必行,这必将推动学术领域研究新的谐波特性辨识和快速变化谐波跟踪方法,为谐波研究和治理提供有力的保障。
参考文献:
[1]陈冬红.电力系统谐波测量和分析方法研究[D].南京:河海大学,2005.
[2]王小华,何怡刚.基于神经网络的电力系统高精度频率谐波分析[J].中国电机工程学报,2007,27(34):102-106.
[3]温和,腾召胜,曾博,等.基于三角自卷积窗的介损角测量算法及应用[J].电工技术学报,2010,25(7):192-198.
[4]温和,腾召胜,卿柏元,等.Hanning自卷积窗及其在谐波分析中的应用[J].电工技术学报,2009,24(2):164-169.
[5]曾博,唐求,卿柏元,等.基于Nuttall自卷积窗的改进FFT谱分析方法[J].电工技术学报,2014,29(7):59-65.
[6]庞浩,李东霞,俎云霄,等.应用FFT进行电力系统谐波分析的改进型算法[J].中国电机工程学报,2003,23(6):50-54.
由于在移动数码设备(例如智能手机、掌上电脑、学习机等)以及平板电脑(Tablet PC)上的巨大应用价值,联机手写汉字
>> 联机手写汉字/词组识别的研究及其应用 基于联机手写汉字字块特征码提取的研究 用VB实现联机手写汉字的笔划端点提取 藏文联机手写识别的研究与实现索 基于多重卷积神经网络的大模式联机手写文字识别 联机手写维文字符的预处理和特征提取方法 基于过拆分和合并的联机手写英文单词分割技术 对脱机手写相似汉字识别方法的研究 基于神经网络的联机手写识别系统的研究和实现 立足细化处理解析脱机手写汉字识别 BP神经网络探析脱机手写汉字识别 脱机手写数字识别技术研究 一种改进的脱机手写汉字四角特征粗分类方法 基于字型特征的手写体汉字多分类识别的研究 脱机手写体签名识别的小波包隐马尔可夫模型 基于GABP神经网络的脱机手写藏文识别方法 基于置信度分析的脱机手写数字识别算法 手写汉字识别系统的研究与应用 手写数字识别的原理及应用 手写汉字的特性与生命力 常见问题解答 当前所在位置:l,运行时需要Java Runtime Environment 1.5以上版本的支持),已经能较好地识别笔顺无关的手写体汉字。目前该系统还没有加上虚拟笔划等一些草书识别技术及先进的结合联机及脱机识别引擎的多分类器集成技术,我们将来在适当时候会利用Java平台实现这些技术并在该页面上公布。
我们还构想了一个联机手写识别技术在计算机辅助汉字书写学习中的崭新应用――汉字听写学习,初步的原型网页见218.192.168.156:8080/ call/dictation.asp,(该页面同样用Java平台实现,运行时需要JRE支持)。 使用者可以进行在线汉字听写,然后系统利用联机识别技术自动评判使用者书写的字符是否正确,并给出反馈。。。
六、结束语
我们认为,高自由度的草书识别及无约束的手写词组的识别是构造更自然、更快捷、更流畅的手写输入方式的核心技术,相信通过国内外同行的努力,在不远的将来,手写输入法会变得更实用、更高效、更具竞争力;此外,手写汉字/词组识别技术在计算机教育、智能机器人等领域中还可带来更多的创新应用。
因篇幅问题不能全部显示,请点此查看更多更全内容