您的当前位置:首页正文

特征选择算法研究综述

2021-10-31 来源:客趣旅游网
安徽广播电视大学学报2019年第4期

特征选择算法研究综述

()安徽广播电视大学信息与工程学院,合肥 230022

摘要:模式识别领域中,特征选择作为预处理模块的关键步骤,特征选择函数用来降低特征空间的维数,提高分

类器的分类性能。首先分析了特征选择的主要过程,从不同视角探讨了特征选择的分类方法,然后分析了指出理论研究和实际应用中的研究热点和应用发展方向。SVM的三类特征选择的优缺点,

关键词:模式识别;文本分类;特征选择;支持向量机;Wraer方法pp

基于S对基于S最后分析对比了基于VM进行特征选择的作用,VM的特征选择算法进行了归纳总结,

梁伍七,王荣华,刘克礼,李 斌

()中图分类号:TP391 文献标志码:A 文章编号:1008-6021201904-0085-07

引言 一、

特征选择在文本分类、文本检索、基因分析和药物诊断等场合有广泛应用,是模式识别领域的研究热点之一。例如,自动文本分类是指按照给定的分类体系,依据文本的内容自动进行文本所属类别判别的过程,是一种有监督的学习过程。自动文本分类在信息过滤、信息检索、搜索引擎和数字图书馆等领域有广泛应用。分类系统主要包括数据预处理、文档分词、特征表示、特征选择、文本表示、分类器选择和训练以]及分类结果评价等过程。文献[提出向量1975年,1

,,空间模型(文档被表示VectorSaceModelVSM)p成特征空间中的一个向量。文本分类中文本表示方

法通常使用向量空间模型,采用词干抽取和去停用词处理后,特征词向量空间的维数虽有所降低,但特征空间的维数仍然是不可接受的。对于分类器来说,高维特征空间既增加了分类的时间复杂度和空间复杂度,也影响分类精度。文本分类系统中高维特征空间的降维通常有两

)种方法,即特征选择(和特征抽取featureselection

变换,新的低维空间是原来特征的一个映射。特征选

择作为文本分类预处理模块的关键步骤,任务是从原始特征空间中选择最重要的特征组成特征子集,从而实现特征空间降维。

]2-3,特征选择的过程包括四个主要环节[包括子

)、集生成(子集评估(subsetgenerationsubsetevalu-

二、特征选择分类

)、)停止准测(和结果验证(ationstoinriterionre-ppgc

),如图1所示。生成子集的过程是一sultvalidation

个搜索过程,根据特定的搜索策略得到候选特征子集。对每个候选子集,根据评价准则进行评价。若新子集的评价结果优于以前最好的子集,则将其更新为当前最优子集。子集生成和子集评价不断循环,直至满足给定的停止准测,最后对最优特征子集进行结果验证。特征选择在数据挖掘、模式识别和机器学习等多个领域内均得到了广泛的研究。根据不同的标准,特征选择分类方法也有所不同,典型的分类标准及其分类方法如下。

),通过对原始特征进行组合或者re-arameterizationp

()。二者都是在分类之前,针对原featureextraction

始特征的不足,降低特征维数,提高分类器的分类性能。特征抽取也称作特征重参数化(feature

图1 特征选择的四个主要环节

收稿日期:2019-06-12

:)基金项目安徽省高校自然科学研究项目“中文文本分类特征选择和分类算法研究与实现”(项目编号:KJ2016A111

,作者简介:梁伍七(男,安徽怀宁人,副教授,硕士。研究方向:网络信息安全和数据挖掘。1969-)

85

安徽广播电视大学学报2019年第4期

(一)基于搜索策略进行分类

搜索过程需要考虑两个基本问题[3-4]搜索起点。可以从一个空的集合开始,然后不断添加

:一是确定

特征,也可以从一个完整的集合开始,然后不断移除

特征,或者从两端开始,然后同时加入和移除特征;二是确定搜索策略。根据搜索策略的不同,分为完全搜索search完全搜索方法)(和启发式搜索comp

le:完全搜索需要遍历特征空间中所(theeusreiasrtcichs)e、a随机搜索特征选择可

rch

)等。(random有可能的特征组合,它能够找到性能最好的子集。对

于具有n个特征的数据集,存在nandb随机搜索方法ound

)算法数级的,可以使用2个候选子集,这个搜索空间是指分支定界([5]等启发式方法来缩小搜索空间bran。ch

:该方法首先随机选择特征子集,

后续采用两种方式进行:第一种在传统的序列搜索中

注入随机因素,称为概率随机方法,例如,随机开始爬

山算法((法si,m候选子集的产生方式是完全随机的ulatreadndaonnme-asltianrgt-)h[i6l]l-等cli;m另一种称为完全随机方bing

)和模拟退火算法,例如,Veg

as算法[7]

等。这些方法中,随机过程有助于避免Las

在搜索空间中陷入局部最优,但其能否搜索到最优结果取决于可用的资源。

启发式搜索方法:启发式搜索可以消除组合爆炸,根据特定的启发式规则设计次优搜索策略,利用启发信息来引导搜索,可以得到近似最优解。常用的

算法包括[3,8]序列前向选择(sSFS,sese等elleec。cttiio该方法运算速度较快onn))、和双向选择序列后向选择(BDS(SB,S对于包含,Sbi,dsierqecuq

teuineotniatilalbafcokrwwaarrddnnal个特征的集

selection

)合,搜索时间往往低于2(二)根据评价准则进行分类

O(n)。每一个生成的候选子集都必须使用一个评价准

则来进行评价。根据评价准则是否独立于学习算法可以分为过滤式(式(HFilter)、,封装式(Wrae)和混合(y

b)ri过滤式d)三种类型[4]。pp

r处理过程1

,评价准则和学习算法无关:过滤式特征选择作为一种数据预,可以快速排除不相关的噪声特征,计算效率高。基于过滤式的评价

函数包括距离度量m((ienafsorurmea)ti[1o2nm]和一致性度量easudriest)a[1n1c]em、(相关性度量easure

)[9-10consistenc(]c、eo信息度量ym

arsruelraeti)o[8n

]86

等,评价准则不同得到的结果子集也不同关,特征选择算法作为学习算法的组成部分(。

2)封装式[13]:封装式和所使用的学习算法有,将学习

算法的性能作为衡量特征优劣的标准。在特征选择过程中直接用所选特征来训练分类器,根据分类器在验证集上的性能作为特征重要程度的评价标准,封装式能选出更适合特定学习算法的特征。对每个候选子集,分类器都需要重新训练,故该方法在速度上比过滤式要慢,优点是所选的优化特征子集的规模相对要小很多。基于启发式搜索策略的封装器方法是目前较实用的特征选择研究热点()。

混合式[14]势,提出混合式方法来处理大规模的数据集3:综合利用过滤式与封装式的优。最理想

的情况是和过滤式的时间复杂度相近,和封装式的算法性能相似。混合式方法的处理过程是,先使用过滤式基于数据集本身固有的特性快速进行特征选择,保留少量特征,减少进一步搜索的特征规模,然后再用封装式方法进一步优化,得到分类性能最优的特征子集。

(三)根据不同的监督信息进行分类

监督信息是文本内容的重要组成部分,文本分类系统中,通常将类别信息作为监督信息。特征选择过程中,监督信息起着重要的指导作用。可以基于不同的监督信息,对特征选择方法进行分类。

别标签样本的相对数量(1

)根据训练集中给定类别标签样本和未给定类,可分为有监督特征选择(su-

uerveirsedfeatureselection)、)半监督特征选择和无监督特征选择(se(mi-程中对类别信息的依赖程度up

p

ervviisseeddffeeaattuurreesseelleeccttiioonn)[3-4]。

,反映了选择特征过un-监督式特征选择:利用类别信息进行指导,通过计算特征与类别之间的关系,选择最具类别区分力的

特征子集[2]131-156焦于监督式特征选择。关于特征选择的研究最初大多聚

,通过度量特征之间和特征与类

别之间的相互关系来确定特征子集。

半监督式特征选择:半监督式学习主要考虑如何利用少量的具有类别信息的样本和大量的不带类别信息的样本进行分类学习的问题。了一种分类器架构和学习算法,算法可以有效利用未

Miller等人提出

标记数据提高学习算法的性能[

15]的发展,半监督式特征选择的研。究随着半监督学习也越来越受到

p

ss梁伍七,等:特征选择算法研究综述

重视。

无监督式特征选择:没有类别信息指导,通过对特征空间的样本进行聚类或无监督学习对特征进行分组,并对特征重要性进行评估,程度进行特征选择。文献[特征选择问题,提出了一种新的算法16]根据特征的重要性考虑了无监督学习的,能够识别嵌入在高维空间中支持复杂结构的信息特征,算法通过一个目标函数将其表示为一个优化问题,并用迭代法求解。

e多个类别ea(2)根据类别数目,可分为二元特征选择(binaryattuurreseseell,eection称为多类特征选择ction))[3]和。当某个样本数据可以同时属于多类特征选择(multi-class

,也称为多标签特征选择(方式m,ul多类问题可以分为平铺结构和层次化结构ti-labelfeatureselection)。根据类别的组织。平铺结构的各个类别间关系是平等的,若类别间的关系不是独立的,而是具有某种复杂的关系,可利用层次

化特征选择进行处理[

17]三、基于SVM的特征选择

。1963年,文献[了基于支持向量机1(8

方法。1995年,文献s[u]p在解决模式识别问题时提出portvectormachine,S提出用广义分类面来解决线性不可分问题19]正式提出统计学习理论VM),据此构成,并了SVM的理论基础。SVM已被证明是具有最小化分类误差和最大化泛化能力的强有力的分类工具,它建立在统计学习理论的险以及结构风险的线性V组C维理论和最小化经验风合原理基础上[

20-21]。但具V,M是作为模式识别领域中逐步发展而来的分类工

标准的SVM并不能进行特征选择。文献[于梯度最小化泛化边界方法来减少特征,指出当存在22]基不相关的特征时,标准低。这一结论导致了众多学者对基于SVM分类的性能会大大降SVM的特征选择算法进行研究。

根据评价准则是否和学习算法相关,特征选择可

以分为过滤式((hbrid)三类[3]F。ilt基于er)、S封装式VM的特征选择算法(Wrapp

er)和混合式,本质就是在特征选择过程中融入y

于SVM的特征选择算法也可以划分成三类SVM学习算法,因此基:基于VM的Wraer特征选择、基于特征选择和基于pp

SVM的混合特征选择SVM的。

Embedded(一)基于基于SV的M的WrapWp

errap特征选择利用p

er特征选择器的性能作为特征选择的评价准则SVM。文献S[VM分类了一种基于23

]提出S选择算法VM-RFE。(S数据集训练SVSVVMrM的M-RecWrapp

er特征选择算法,FuErsi的算法流程是vefeatureelim[2

i1n]a:ti利用当前on

)即特征权重向量;根据特征排序准则SVM分类器,得到分类器的参数;计算,计算所有特征的排序准则得分;移除得分最小的特征;上述过程多次迭代直至特征集中剩余最后一个特征。是一个序列后向选择的过程,目标是在SVMd-R个特征中FE方法找出大小为r的特征子集,使得能最优。该方法首先训练S,利用参数信息对特征进行递归移除SVM分类器VM分类的学习性

,得到分类器的参数,在特征选择的过程中存在参数不确定问题。

文献[进算法。在24S]V针对M-RSFVEM方法的基础上-RFE方法的不足提出了改

,由支持向量机理论的泛化误差界推导出评分准则,每次迭代过程中移除最小得分的特征;文献[RFE特征选择算法,

采用2最5]小提出了增强的冗余和最大S相VM关-

MRMR作为评分准则。与SVM-RFE算法相比,在多数基因数据集上,算法选择的特征个数较少。针对S2V6M]-采用粒子群算法搜索RFE算法中SVM参数难以确定的问题,

[文献和SVM算法一样,SVSVM-M的参数。解决两类基因选择问题的。文献RF[E最初设计是用来类类基因特征选择问题SVM框架,推广了。S文献VM-[R28

F]E2算法7]针对不同的多,用来解决多使用标准两类SVM-RFE算法来排序问题针对多类分类问题,该算法能,够较好地解决多类问题。

SVM-RFE是一种简单有效的特征选择算法,已在许多领域得到应用,基于SVM-RF,E理论框架的特征选择方法得到众多研究者的关注算法以类器的性能作为特征重要性的评价准则,优点是所选SVM分的特征子集的规模相对较小,缺点是算法的时间复杂度较高。文献[W征排序准则使用验证子集的错分样本个数rapper特征选择算法29]提,出了一种基于SVM的

算法采用序列后向选择,特,每一轮迭代过程中,将特征所引起的错分样本个数最少的那个特征移除,最后得到最优的特征子集。

87

ffSS安徽广播电视大学学报2019年第4期

(二)基于SVM的Embedde类d特征选择

与一般的Embedded方法似,基于Embedded特征选择,

特征选择过程融于学习过程SVM的

中,但该类方法的学习算法依据[1]文献[的特征选择算法30]通过构造非线性SVM理论2

。SVM思想的基础上RF,

SSVM,提出了一种新通过一个正的参数VM。该算法的基本思想σ来加权特:

在征抑制项eTEe划求解问题。算法的目标函数为,

该问题可以转化为一个混合整数规:

u,γm,iyn,

s,EveTy+

eTs+σeTEe􀪁􀪁D􀪁(K(AE,EAT)u-s.􀮠

eγ-s≤u≤s)+y≥e􀪁􀪁t.􀮡

y(其中􀮢1

)E≥0

=diag,A表示数据集矩阵(0or1),K表示核函数,v为

正常数,uy表示正的变量、s和γ为分类器的待求量,e表示全,表示对角元素为角矩阵。(0或11的矢量,E的对规划问题是一个1

)式是一个混合整数规划问题NP难问题。可以通过固定,混合整数E,

将y(1s)式变为一个线性规划问题,通过求解得到(u函数值小于某一设定的阈值,

)的解,计算目标函数,上述过程多次迭代,γ,

。该算法收敛于局部最,直到小值,最终选择的特征个数最少。

针对多类别分类特征选择的问题,文献[了一种基于算法通过加入SlV1M的范数E,

修改标准mbedded方法SVML的目标函数1MS3V1]M提出,该,为自适应特征选择计算整个正则化解决方案路径。该算法的目标函数为:

nkwc,bcm;ci=

n1,…,ks.t.∑kw∑

i=

1L(f,kzi)+λ∑c=1

‖wc‖1c=1

c=0,∑c=1

bc=0(其中,λ是非负的正则化参数,L=∑(f,z2

)i)

c≠yi函数,f[fcx+1]是损失函数,fx是决策c(x)(i=w)+ccTx+bcc=1表示第i个样本及其类别且,y,…,k,x(i)yi∈+1,i和-1法的特征选择与模型训练同时进行{

,在选择出最优的

}。i分别

该算特征子集的同时,还得到了线性分类函数。

l理高维问题和冗余噪声特征时1范数SVM是标准l2范数,lVM的变体,在处数SVM有一些优势,但l1S范数1范数SVM不适合处理存SVM比l2范88

在强相关特征组合的场合题,文献[u32]。提出特征选择算法为了较好地解决这一问

DrSVM(doublyreg

-范数和larizedlsuortvectormachine)。该算法混合了l,算法的优点是能够同时移除或选择一组强相关的1范数pp,在标准SVM的目标函数加人l2

1范数重要特征。DrSVM算法等价于解决下面的问题:

Tλminnβ0,β2

2

‖∑i=

1[1-yi(β0+βxi)]++β‖22+λ1‖β‖1

(3)类别,其中,0),,y(λλ[x1和i,yi)表示训练数据2均是调整参数,1-z]ax(1-i∈,而l{+1,-1}。l,+=m

yi表示第

i个样本的1范数的作用是来进行特征选择征。文献2范数的作用是同时选择一组强相关的特[,且这些特征对应的系数几乎相等32]研究表明,l2范数倾向于产生强相关的特征,称这种现

象为分组效应。

DrS,V和基于M算法是基于SVM的ESmVbM的eddedE特征选择算法mbedded特征选择算法SVMl相比,

二者相同点是特征选择过程和学习过程1

-融于一体,在学习过程中自动地进行特征选择;不同点是的特征Dr,S而VlM算法能够同时选择或舍弃一组强相关

强相关的特征中选择一个1

-SVM不考虑特征间的相关性,只能从[21],而。lDrSV数目不超过训练样本数。

1-SVM算法适用于

维数高于训练样本数的场合M选择的特征基于SVM的Embedded特征选择算法,特征选择过程作为组成部分嵌入到学习算法里,这类算法效率较高,得到的学习算法有较好的性能。但如何基于标准SVM算法,来构造算法的目标函数是目前算法研究的热点。

(三)基于MSV的混合特征选择先使用M的混合特征选择算法

基于SV,然后利用进一步细化,得到更为有效的特征子集Wrapper特征选择算法Filter算法快速进行特征选择。

文献[FS_SFS(Fi3l3te]r提出基于edandSuSVoM的混合特征选择算法

srtedSeuentialforwar法比较earch),,该算法有两个重要的特性来减少计算时间和传统的采用序列前向选择的ppq

Wrapper方d。该算法首先使用Filter算法对原始特征进行预处理,然后对预处理后的特征子集,利用Wrapper算法进z梁伍七,等:特征选择算法研究综述

一步细化。该算法提出了一种新的评分准则,该准则既考虑了单个特征的区分能力,又考虑了特征之间的相关性,从而有效地过滤非本质特征。

]文献[提出的基于S34VM的混合特征选择算

了特征选择。

]文献[提出了一种基于蝗虫优化算法(38GOA)和S该方法对支持向量机模型的参VM的混合方法,

数进行优化,同时找到最佳特征子集。在多个低维和高维数据集上实验结果表明,该方法在分类精度上优于其他方法,同时最小化了所选特征的数目。文献

法F_SSFS(F-scoreandSuortedSeuentialFor-ppq

),该算法结合了FwardSearch-score和序列前向选考虑到F即ilter算法和Wraer算法各自的优缺点,pp

但分类可靠性不足,而Filter方法的计算成本低,

择,结合了Filter方法和Wraer方法各自的优势来pp

选择最优特征子集,该算法可应用于股票市场预测。

[]提出了一种基于S39VM方法的特征选择分类问

题的M利用精确算法和启发式算法,分析ILP模型,

了该模型的不同求解方法。通过在多个数据集的检

但需要很大的计Wraer方法具有较高的分类精度,pp

]算能力,文献[将二者整合成一个序列搜索算法,35

用以提高所选择特征对于分类算法的性能。该算法

验和经典分类方法的比较,对模型进行了验证。文献[]提出了一种新颖的进化算法(和S40lion算法)VM的混合方法,利用lion算法选择高维数据集的特征子集,解决分类问题。特征选择过程识别并删除无/关冗余特征,以减少特征维数,从而提高分类的效率和准确性。

四、结语

本文阐述了自动文本分类中特征选择的算法框架,探讨了特征选择的分类方法,介绍了SVM用于特征选择的意义,对基于SVM的特征选择算法进行了归纳总结,重点总结了基于SVM的Wraer特征ppSVM算法的效率和性能主要取决于内核类型及其参数,在处理高维数据集时,用于SVM模型的特征子集选择是影响分类精度的另一个重要因素。如何利用已有的算法或提出新颖的算法用于高维数据集的特征选择并训练S是基于SVM模型的参数,VM特征选择的研究热点和分类应用发展方向。

选择、Embedded特征选择以及混合特征选择算法,分析对比了基于SVM的三类特征选择的优缺点。

添加预选择步骤,以提高特征选择的效率,利用ROC

()曲线作为搜索策receiveroeratinharacteristicpgc略,利用S算法在生物数据分类上VM作为分类器,得到了很好的应用。

]文献[提出了一种新的基于队列智能算法的36

特征选择与支持向量机(模型选择混合方法SVM)

。方法将自适应队列智能()算法与SVM_SACISACI

形成了一种新的混合方法,用于同时进行SVM集成,

特征选择和S在多个数据集上的检验VM模型选择,结果表明,SACI在支持向量机分类精度和降维方面优于其他启发式方法。针对样本量远小于数据集特]征个数的小样本可能带来的奇异性问题,文献[提37出了一种0范数最小二乘支持向大限度地减少了LQ范数的权重,从而有效地实现-

参考文献:

[]1] SALTONG,WONGA,YANGCS.AVectorSaceModelforAutomaticIndexinJ.CommunicationsoftheACM,pg[

,():19751811613-620.[[]:,2] DASHM,LIUH.FeatureSelectionMethodsforClassificationsJ.IntellientDataAnalsisAnInternationalJournalgy,():199713131-156.[:文本分类中特征选择技术的研究[长沙:国防科学技术大学,3] 王博.D].200924-27.

[[]4] LIUH,YUL.TowardInteratineatureSelectionAlorithmsforClassificationandClusterinJ.IEEETransactionsonggFgg

,,():ofComutation1977269917-922.p

,,():KnowledeandDataEnineerin2005174491-502.ggg[[]5] NARENDRAPM,FUKUNAGAK.ABranchandBoundAlorithmforFeatureSubsetSelectionJ.IEEETransactionsg

89

安徽广播电视大学学报2019年第4期

[6] DOAKJ.AnEvaluationofFeatureSelectionMethodsandTheirAlicationtoComuterSecuritR].Deartmentofpppy[p

,,:ComuterScienceUniversitfCaliforniaatDavis1992131-139.pyo

:1998446.

[[:,:7] BRASSARDG,BRATLEYP.FundamentalsofAlorithmsM].NewJersePrenticeHall1996377.gy

[:,8] LIUH,MOTODAH.FeatureSelectionforKnowledeDiscoverndDataMininM].BostonKluwerAcademicgyag[[]9] ALMUALLIMH,DIETTERICHTG.LearninooleanConcetsinthePresenceofManrrevelantFeatures[J.gBpyI

,():ArtificialIntellience199469279-305.g[]:张学工.模式识别[北京:清华大学出版社,10 边肇祺,M].2000322.

[][],():11 BASSATBM.PatternReconitionandReductionofDimensionalitJ.HandbookofStatistics19829773-791.gy[][//12 HALLMA.Correlation-basedFeatureSelectionforDiscreteandNumericClassMachineLearninC].Proceedinsofgg

,,:17thInternationalConferenceofMachineLearnin.SanFranciscoUSA:MoranKaufmann2000359-366.gg

[][],,():13 KOHAVIR,JOHNGH.WraersforFeatureSubsetSelectionJ.ArtificialIntellience1997971-2273-324.ppg

[],//14 DASS.FilterWraersandaBoostin-basedHbridforFeatureSelection[C].Proceedinsofthe18thInternationalppgyg

,,:ConferenceofMachineLearnin.SanFranciscoUSA:MoranKaufmann200174-81.gg[],15 MILLERDJUYARHS.AMixtureofExertsClassifierwithLearninasedonBothLabelledandUnlabelledDatapgb

[]//M.),:,C.M,J.M.I(eds..AdvancesinNeuralInformationProcessinstems.CambrideMassachusettsMITPressgSyg:1997571-577.

[],,[]16 YAOJMAOQ,GOODISONSetal.FeatureSelectionforUnsuervisedLearninhrouhLocalLearninJ.PatternpgTgg

,():ReconitionLetters201553100-107.g

[],[//17 PENGXG,MINGZWANGHT.TextLearninndHierarchicalFeatureSelectioninWebaeClassificationC].AD-gapg

,:,:MA.BerlinHeidelberSriner-Verla2008452-459.gpgg

[][],18 VAPNIKVN,LERNERA.PatternReconitionUsineneralizedPortraitMethodJ.AutomationandRemoteControlggG():19632428-36.[][:,:19 VAPNIKVN.TheNatureofStatisticalLearninM].BerlinSriner19951-50.gpg

[],[]//20 MIRANDAJMONTOYAR,WEBERR.LinearPenalizationSuortVectorMachinesforFeatureSelectionCPReMIpp:2005.2005188-192.[]],():于宏毅,马学刚,等.基于支持向量机的特征选择算法综述[信息工程大学学报,21 代琨,J.201415185-91.

[],,[]22 WESTONJMUKHERJEESCHAPELLEO,etal.FeatureSelectionforSVMsJ.AdvancesinNeuralInformationPro-,():cessinstems200013668-674.gSy[][],24 RAKOTOMAMONJYA.VariableSelectionUsinVM-basedCriteriaJ.JournalofMachineLearninesearch2003gSgR

():31357-1370.

[],,,[]23 GUYONIWESTONJBARNHILLSetal.GeneSelectionforCancerClassificationUsinuortVectorMachinesJ.gSpp

,,():MachineLearnin2002461-3389-422.g[][]25 MUNDRAPA,RAJAPAKSEJC.SVM-RFEwithMRMRFilterforGeneSelectionJ.IEEETransactionsonNanoBio-,,():science20109131-37.

[]],():单甘霖,张岐龙,等.基于改进S微计算机应用,26 王俭臣,VM-RFE的特征选择方法研究[J.201132270-74.

[][]27 ZHOUX,TUCKDP.MSVM-RFE:ExtensionsofSVM-RFEforMulti-classGeneSelectiononDNAMicroarraataJ.yD,,():Bioinformatics20072391106-1114.[],,]//28 ZHOUQFHONGWC,SHAOGFetal.ANewSVM-RFEAroachTowardsRankinroblem[CProceedinsofppgPg,:IEEEInternationalConferenceonIntellientComutinndIntellientSstems2009270-273.gpgagy[],[]29 MALDONADOSWEBERR.AWraerMethodforFeatureSelectionUsinuortVectorMachinesJ.InformationppgSpp

,,():Sciences2009179132208-2217.

[][]//30 MANGASARIANOL,WILDEW.FeatureSelectionforNonlinearKernelSuortVectorMachinesCProceedinsofppg

:theSeventhIEEEInternationalConferenceonDataMinin-workshos.2007231-236.gp[],,]31 WANGLFSHENXT.Multi-cateoruortVectorMachinesFeatureSelectionandSolutionPath[J.StatisticagySpp

90

梁伍七,等:特征选择算法研究综述

,():Sinica200616617-633.

[],[],,():32 WANGL,ZHUJZOUH.TheDoubleularizedSuortVectorMachineJ.StatisticaSinica2006162589-615.yRgpp[]_S:[],33 LIUY,ZHENGYF.FSFSANovelFeatureSelectionMethodforSuortVectorMachinesJ.PatternReconitionppg[]]34 LEEMC.UsinuortVectorMachinewithaHbridFeatureSelectionMethodtotheStockTrendPrediction[J.gSppy

,,():ExertSstemswithAlications200936810896-10904.pypp[][]35 PENGYH,WUZQ,JIANGJM.ANovelFeatureSelectionAroachforBiomedicalDataClassificationJ.Journalofpp

,():BiomedicalInformatics20104315-23.

118-131.

[],36 ALADEEMYM,TUTUNSKHASAWNEHMT.ANewHbridAroachforFeatureSelectionandSuortVectorypppp

],:MachineModelSelectionBasedonSelf-adativeCohortIntellience[J.ExertSstemswithAlications2017(88)pgpypp[],,[]37 SHAOYH,LICN,LIUMZetal.SarseLQ-normLeastSuaresSuortVectorMachinewithFeatureSelectionJ.pqpp

,():PatternReconition201878167-181.g[],38 ALJARAHIAl-ZOUBIAM,FARISH,etal.SimultaneousFeatureSelectionandSuortVectorMachineOtimizationppp

],():UsintheGrasshoerOtimizationAlorithm[J.ConitiveComutation201821-18.gpppggp[]39 LABBÉ,MARTINE,MARTÍNEZ-MERINO,etal.MixedInteerLinearProramminorFeatureSelectioninSuortgggfpp

[],():VectorMachineJ.DiscreteAliedMathematics2019261276-304.pp[]’40 LINKC,HUNGJC,WEIJT.FeatureSelectionwithModifiedLionsLorithmsandSuortVectorMachineforHih-gppg[],():dimensionalDataJ.AliedSoftComutin201868669-676.pppg

,():20063971333-1345.

AResearchReviewofFeatureSelectionAlorithmg

(,,H,)SchoolofInformationandEnineerinAnhuiRadioandTVUniversitefei230022Chinaggy

:,AbstractFeatureselectionistheketeftheprerocessinoduleinpatternreconitionwhichisyspopgmg

,WA,,LIANGWuiNGRonhuaLIUKeliLIBinqg

featureselectionfromdifferentersectives.Thenthepaeranalzesthefunctionoffeatureselectionbasedpppy

,onSVM,andsummarizesthefeatureselectionalorithmbasedonSVM.Finallthepaeranalzesandgypy

usedtoreducethedimensionoffeaturesaceandimrovetheclassificationperformanceoftheclassifier.pp

,,Firstthepaeranalzesthemainprocessoffeatureselectionanddiscussestheclassificationmethodofpy

comarestheadvantaesanddisadvantaesofthreekindsoffeatureselectionbasedonSVM,andaslopointspgg

alication.pp

:p;t;f;s;KewordsatternreconitionextcateorizationeatureselectionuortvectormachineggppyWraermethodpp

[责任编辑 李潜生]

outtheresearchhotsotsandalicationdevelomentdirectionsintheoreticalresearchandpracticalpppp

91

因篇幅问题不能全部显示,请点此查看更多更全内容