一种基于维基百科的中文词语相关度学习算法

2020-07-08 来源：客趣旅游网

第３０卷　第３期２０１６年５月

中文信息学报

ＪＯＵＲＮＡＬＯＦＣＨＩＮＥＳＥＩＮＦＯＲＭＡＴＩＯＮＰＲＯＣＥＳＳＩＮＧ　　　　

Ｖｏｌ．３０，Ｎｏ．３

，Ｍａ．２０１６ｙ

（）文章编号：１００３００７７２０１６０３００３６１０－－－一种基于维基百科的中文词语相关度学习算法

黄岚，杜友福

（）长江大学计算机科学学院湖北荆州４３４０００

摘　要：词语相关程度计算是语义计算的基础。维基百科是目前最大、更新最快的在线开放式百科全书，涵盖概念广，概念解释详细，蕴含了大量概念间关联关系，为语义计算提供了丰富的背景知识。然而，中文维基百科中存在严重的数据稀疏问题，降低了中文词语相关度计算方法的有效性。针对这一问题，该文利用机器学习技术，提出一种新的基于多种维基资源的词语相关度学习算法。在三个标准数据集上的实验结果验证了新算法的有效性，在已知最好结果的基础上提升了２０％—４０％。

关键词：词语相关度；维基百科；中文信息处理；回归；链接结构中图分类号：ＴＰ３９１　　　　文献标识码：Ａ

ＬｅａｒｎｉｎｔｈｅＳｅｍａｎｔｉｃＲｅｌａｔｅｄｎｅｓｓｏｆＣｈｉｎｅｓｅＷｏｒｄｓｆｒｏｍ　Ｗｉｋｉｅｄｉａ　　　　　　ｇｐ　

，ＨＵＡＮＧＬａｎＤＵ　Ｙｏｕｆｕ　

（，，，）ＣｏｌｌｅｅｏｆＣｏｍｕｔｅｒＳｃｉｅｎｃｅＹａｎｔｚｅＵｎｉｖｅｒｓｉｔＪｉｎｚｈｏｕＨｕｂｅｉ４３４０００，Ｃｈｉｎａ　　　　　ｇｐｇｙｇ

：ＡｂｓｔｒａｃｔＳｅｍａｎｔｉｃｗｏｒｄｒｅｌａｔｅｄｎｅｓｓｍｅａｓｕｒｅｓａｒｅｆｕｎｄａｍｅｎｔａｌｔｏｍａｎｔｅｘｔａｎａｌｓｉｓｔａｓｋｓｓｕｃｈａｓｉｎｆｏｒｍａｔｉｏｎｒｅ　　　　　　　　　　　　　－ｙｙ　，，ｔｒｉｅｖａｌｃｌａｓｓｉｆｉｃａｔｉｏｎａｎｄｃｌｕｓｔｅｒｉｎ．ＡｓｔｈｅｌａｒｅｓｔｏｎｌｉｎｅｅｎｃｃｌｏｅｄｉａｔｏｄａＷｉｋｉｅｄｉａｈａｓｂｅｅｎｓｕｃｃｅｓｓｆｕｌｌｅｘｌｏｉ　　　　　　　　　　－ｇｇｙｐｙｐｙｐ　ｔｅｄｆｏｒｂａｃｋｒｏｕｎｄｋｎｏｗｌｅｄｅｔｏｏｖｅｒｃｏｍｅｔｈｅｌｅｘｉｃａｌｄｉｆｆｅｒｅｎｃｅｓｂｅｔｗｅｅｎｗｏｒｄｓａｎｄｄｅｒｉｖｅａｃｃｕｒａｔｅｓｅｍａｎｔｉｃｗｏｒｄ　　　　　　　　　　　　　　　ｇｇ，，ｍｅａｓｕｒｅｓ．ＩｎＣｈｉｎｅｓｅｖｅｒｓｉｏｎｈｏｗｅｖｅｒｔｈｅＣｈｉｎｅｓｅＷｉｋｉｅｄｉａｃｏｖｅｒｓｏｎｌｔｅｎｏｆｉｔｓＥｎｌｉｓｈｒｅｌａｔｅｄｎｅｓｓｅｒｃｅｎｔ　　　　　　　　　　　ｐｙｇｐ　ｃｏｕｎｔｅｒａｒｔ．Ｔｈｅｓａｒｓｅｎｅｓｓｉｎｃｏｎｃｅｔｓａｃｅａｎｄａｓｓｏｃｉａｔｅｄｒｅｓｏｕｒｃｅｓａｄｖｅｒｓｅｌｉｍａｃｔｓｗｏｒｄｒｅｌａｔｅｄｎｅｓｓｃｏｍｕｔａ　　　　　　　　　　　－ｐｐｐｐｙｐｐ　ｒｏｂｌｅｍ，ｒｏｏｓｅｔｉｏｎ．Ｔｏａｄｄｒｅｓｓｔｈｉｓｓａｒｓｅｎｅｓｓｗｅａｍｅｔｈｏｄｔｈａｔｕｔｉｌｉｚｅｓｄｉｆｆｅｒｅｎｔｔｅｓｏｆｓｔｒｕｃｔｕｒｅｄｉｎｆｏｒｍａｔｉｏｎ　　　　　　　　　　　　　　ｐｐｐｐｙｐ，’ｔｈａｔａｒｅａｕｔｏｍａｔｉｃａｌｌｅｘｔｒａｃｔｅｄｆｒｏｍｖａｒｉｏｕｓｒｅｓｏｕｒｃｅｓｉｎ　Ｗｉｋｉｅｄｉａｓｕｃｈａｓａｒｔｉｃｌｅｓｆｕｌｌｔｅｘｔａｎｄｔｈｅｉｒａｓｓｏｃｉａｔｅｄ　　　　　　　　　－　　　ｙｐ　ｈｅｒｌｉｎｋｓｔｒｕｃｔｕｒｅｓ．Ｗｅｕｓｅｍａｃｈｉｎｅｌｅａｒｎｉｎａｌｏｒｉｔｈｍｓｔｏｌｅａｒｎｔｈｅｂｅｓｔｃｏｍｂｉｎａｔｉｏｎｏｆｄｉｆｆｅｒｅｎｔｒｅｓｏｕｒｃｅｓｆｒｏｍ　　　　　　　　　　　　　ｙｐｇｇ　ｍａｎｕａｌｌｌａｂｅｌｅｄｔｒａｉｎｉｎｄａｔａ．ＥｘｅｒｉｍｅｎｔｓｏｎｔｈｒｅｅｓｔａｎｄａｒｄｂｅｎｃｈｍａｒｋｄａｔａｓｅｔｓｉｎＣｈｉｎｅｓｅｓｈｏｗｅｄｔｈａｔｏｕｒｍｅｔｈ　　　　　　　　　　　　－ｙｇｐ　　ｏｄｉｓ２０％－４０％ｍｏｒｅｃｏｎｓｉｓｔｅｎｔｗｉｔｈａｎａｖｅｒａｅｈｕｍａｎｌａｂｅｌｅｒｔｈａｎｔｈｅｓｔａｔｅｏｆｔｈｅａｒｔｍｅｔｈｏｄｓ．　　　　　　　　　　　－－－　ｇ：ｗ；Ｗ；；；ｒｏｃｅｓｓｉｎＫｅｗｏｒｄｓｏｒｄｒｅｌａｔｅｄｎｅｓｓｉｋｉｅｄｉａＣｈｉｎｅｓｅｉｎｆｏｒｍａｔｉｏｎｒｅｒｅｓｓｉｏｎｈｅｒｌｉｎｋｓｔｒｕｃｔｕｒｅ　　　　ｐｐｇｇｙｐｙ

领域。

１　引言

计算词语之间的相关程度是实现智能信息处”时能自动识别出理的基础。比如当用户检索“Ｓｉｒｉ“”是与之相关程度很高的词语，而词语“梨”ｉＰｈｏｎｅ

的相关程度则很低。利用词语间语义相关程度来提升信息处理智能化水平，已成功应用于智能

１３］４６］７８］－－－、、搜索［文本分类与聚类［文本理解［等

传统的词语相关度计算方法往往需要从大规模人工编撰的语义资源中获得背景知识，比如

［０］［１］［２］

、、中文知网Ｈ等。这ＷｏｒｄＮｅｔ９－１Ｃｃ１ｏｗＮｅｔ１ｙ

耗费人力物力且类语义资源由人工编撰和维护，

更新周期长，难以捕获新兴事物。针对这个问题，从大众编写的在线百科网站中自动抽取结构化知识，并基于此开发语义分析技术，在近几年得到很大发展。

收稿日期：２０１４０２２６２０１４０７１５－－　定稿日期：－－）基金项目：长江青年基金（２０１５ｃｎ５２ｑ

３期黄岚等：一种基于维基百科的中文词语相关度学习算法

３７

维基百科①是目前最大的在线百科网站，其内容虽然由用户提供，但质量可以与专家编写的传统

百科全书媲美［

１３］

。维基百科的最大优点是涵盖范围广、

信息开放、更新快。目前针对英语词语最成功的相关度计算方法大多基于英文版维基百科实

现［

１４－１８］。在用中文版维基百科实现针对中文词语的相关度计算方法时我们发现，中英文版本在资源数据量上存在非常大的差别，比如中文版本中收录的概念只有英文版本的百分之十。为了获得有效的中文词语相关度计算方法，必须解决中文维基百科中存在的数据稀疏问题。

本文针对中文维基百科中的数据稀疏问题，提出综合多种资源的词语相关度计算方法，并利用成熟的机器学习技术学习不同资源的最佳整合方式。本文首先介绍词语相关度的基本概念和研究背景，归纳出几类基本的利用维基百科资源实现词语相关度计算的方法。基于此，

选取用于中文词语相关度计算的维基资源，并设计其描述特征。最后在三个基准数据集上评测各部分特征的表现，得出面向中文的词语相关度计算模型。实验结果表明，本文提出的计算模型在已知最好结果的基础上提升了２０％—４０％。

２　词语相关度的基本概念

在针对中文的词语相关度计算研究方面，近年来利用知识库的方法渐渐得到关注。比如，刘群

等［１９］和王红玲等［１２］

利用知网ＨｏｗＮｅｔ实现了基于结构化知识库的中文词语相关度计算，用词语对应

ＨｏｗＮｅｔ意元间路径长度衡量语义关联程度。

在利用维基百科作为背景知识库的研究方面，北京邮电大学的李赟等

［２０］

研究了从维基百科中自

动抽取语义相关词对的方法，北京大学的万富强和

吴云芳将显式语义分析方法应用于中文语境［２１］

。国防科技大学的汪祥和贾焰等［２２］

及华中师范大学的涂新辉和何婷婷等［２３］均考察了用维基百科中的

链接结构和分类体系来计算词语间语义关联程度的有效性，并分别采集了人工标注的中文词语相关度数据集。据笔者所知，这两个数据集是目前仅有的中文人工标注数据集，因此也是本文实验的基准数据集。

纵观目前中文词语相关度研究，仍存在三个方面的问题没有解决。首先，没有量化中文维基百科中存在的数据稀疏问题，本文从各类型资源的角度

进行了详细分析，为选取计算资源提供了基础。其次，不同类型资源的数据量和性质都不相同，传统的线性整合方式缺乏理论支持。第三，没有考虑维基百科类目结构与传统结构化知识库如ＷｏｒｄＮｅｔ和

ＨｏｗＮｅｔ的本质区别。本文针对这三个问题，在借鉴英文成功计算方法的基础上，提出一种新的基于机器学习的中文词语相关度学习算法。

３　基于维基百科的词语相关度计算方法

３．１　基于维基百科的结构化知识抽取

　　与传统Ｗ

ｅｂ站点相比，维基百科的内容高度结构化，便于实现结构化知识的自动抽取。维基百科中的页面大体分为五类：文章（Ａｒｔｉｃｌｅ）、类目（Ｃａｔ－ｅｇｏｒｙ）、重定向（Ｒｅｄｉｒｅｃｔ）、消歧（Ｄｉｓａｍｂｉｇ

ｕａｔｉｏｎ）和管理（Ａｄｍｉｎｉｓｔｒａｔｉｏｎ

）页面。除管理页面外，前四类常被用于抽取结构化知识［

２３－２４］。比如从文章页面中抽取单个概念的信息，

从重定向页面中获得概念同义词，

从消歧页面中获取多义词的不同释义，从类目页面和类目层级结构中获取概念间的上位和下位关系。图１展示了维基页面中信息与结构化知识的对应关系。

除此之外，维基百科页面之间的链接及其附带的锚文本也是重要的结构化知识资源。比如“麦金塔电脑”页面有“Ｍａｃｉｎｔｏｓｈ”、“Ｍａｃｉｎｔｏｓｈ电脑”

、“苹果机”等２８个不同的锚文本，即其他维基页面用这些词语指向“

麦金塔电脑”。这些链接锚文本提供了非常丰富的同义词。同时，

页面附属的出链接和入链接也可用于量化概念间的语义关联强度。

从维基百科中抽取的结构化资源为相关度计算提供了丰富的背景知识。按照所用资源的类型，可将基于维基百科的词语相关度计算方法归纳为四类：基于链接结构的、基于文章全文的、基于类目层级结构的和综合多种资源的计算方法。下面分别进行介绍。

３．２　基于链接结构的计算方法

维基百科文章之间存在大量互链接，构成了庞大的链接网络，通常表示为一个有向无权图。每个文章对应于图中的一个顶点，文章的出链接和入链接分别对应于该顶点的出边和入边。

①

ｈｔｔｐ：／／ｗｗｗ．ｗｉｋｉｐｅｄｉａ．ｏｒｇ

／３８

中文信息学报２０１６年

图１　基于维基百科文章的结构化知识抽取

可　　根据所使用的链接网络是全局还是局部的，将基于链接结构的相关度计算方法分为两类。前者代表多采用基于全局网络结构的图随机游走方法，为个性化ＰａｅＲａｎｋ算法（ＰｅｒｓｏｎａｌｉｚｅｄＰａｅＲａｎｋ，　ｇｇ

［１８］

。不同词语对应的跳转向量（ＰＰＲ）ｔｅｌｅｏｒｔｖｅｃ　－ｐ

他文本无异，词语出现过的文章一定程度上描述了“词语的含义。比如，篮球”出现频次最多的文章有“、“、“、“篮球”姚明”迈克尔·乔丹”等。此类ＮＢＡ”方法的代表是由Ｇａｂｒｉｌｏｖｉｃｈ和Ｍａｒｋｏｖｉｔｃｈ提出的

）显式语义分析（ＥＳＡ，ＥｘｌｉｃｉｔＳｅｍａｎｔｉｃＡｎａｌｓｉｓ　　ｐｙ

１５，２１］

。方法［

）不同，生成的Ｐ而分ｔｏｒａｅＲａｎｋ分布向量也不同，ｇ布向量间的相似度（如余弦相似度）即可作为词语相这类算法的开销大，且似度。由于要遍历整个网络，

１８］

。效果欠佳［

通过解析维基文章的内容，可将词语表示为该词语所出现过的文章的向量。其中每个维度对应一个维基文章，维度上的取值取决于词语在文章中的此类方法通过解析维基文章出现频次。换句话说，

内容构建词语的概念表示空间，即用维基概念表示词语语义内涵。与传统概念空间模型如ＬＳＡ和这里每个维度都有着明确、显式的ＬＤＡ方法不同，

定义，是可解释的，因此称为显式语义分析。最后，词语相关度可由其对应概念向量的相似度计算得到。本文称这类方法为基于概念空间的计算方法。

适用范围广是此类方法的最大优点。只要是在即可计算其语义关联程维基文章中出现过的词语，

度。比如本文所解析的中文维基百科版本中总共包含４词语数量远远超过了概８万概念和１２２万词语，念数量。

此类方法的不足主要存在于两方面。首先，解析文章内容依赖于语言相关的自然语言处理技术，比如中文分词，英文ｓ词语对应ｔｅｍｍｉｎｇ等。其次，的概念向量往往规模庞大，导致实时计算向量相似中文维基百科中的词语平均度的效率较低。比如，

出现在５最多出现于３即４．９篇文章中，９万篇文章，概念向量中非零元素的平均数量为５最大值为４．９，３９万。本文６．３节专门针对这些因素进行了实验研究。

第二种方法以文章节点的近邻局部网络结构为基础，首先将文章表示为其邻居节点的加权向

１６］

。邻居节点即对应于当前文章的链入和链出量［

文章。然后用向量间相似度（或距离）作为词语语义关联程度。常用的向量相似度计算方法有Ｊａｃｃａｒｄ

［５］

相似性、余弦公式、等。Ｇｏｏｌｅ距离公式２ｇ

基于链接结构的计算方法不要求解析维基百科文章的内容，不依赖于语言相关的自然语言处理技因此通用性好、效率高。然而，由于链接结构依术，

附于节点，即维基文章，此类方法往往只适用于概即存在对应维基页面的词语。前期研究中我们念，

如人物、地发现维基百科中收录概念以实体居多，

点、事件等。很多常用词语并不存在对应的维基概、“。仅考虑文章链接的念，如“重视”方便”和“敌意”方法无法处理这些未登录词语。针对这一问题，我们对基于链接结构的计算方法进行了扩展，使之也能适用于不存在对应维基概念的未登录词语（见。４．１节）

３．３　基于文章全文的计算方法

维基百科页面也是以自然语言书写而成，与其

３期黄岚等：一种基于维基百科的中文词语相关度学习算法

３９

３．４　基于类目层级结构的计算方法

维基百科的文章和类目之间的包含与被包含关系构成了类目网络，类似于ＷｏｒｄＮｅｔ中层级式的概念组织方式。因此最初基于维基百科的词语相关度计算方法便是将定义于ＷｏｒｄＮｅｔ上的算法移植到

维基百科的类目结构中［

１４］

。然而，维基百科的类目结构与ＷｏｒｄＮｅｔ的层级结构有着本质差别。首先，ＷｏｒｄＮｅｔ的层级结构有着严格的上下位关系内涵，

而维基类目结构的内涵模糊。维基类目层级除了表示ＩｓＡ和ＣｌａｓｓＯｆ关系之外，还可以表示地理位置的包含关系、关联概念等等。其次，ＷｏｒｄＮｅｔ中同类ＰＯＳ词语间的层级结构为严格的树结构。而维基百科允许一个概念或类目有多个父类目，因此形成网状结构。由于这些本质上的区别，

基于维基类目结构的计算方法效果往往欠佳［

１４－１６］。类似于基于链接的计算方法，应用类目结构也要求首先将词语映射到维基百科概念上。因此，此类方法的适用范围有限。综合上述分析，本文没有使用类目结构这一维基资源。３．５　综合多种资源的计算方法

前述的三种计算方法都各有优点和缺点，为了扬长补短，整合多种资源来计算词语相关度成为最自然的解决方案。比如可先用每种方法计算得到一个相关度数值，再取其加权平均值作为最终的词语

相关度［２２］

。然而，如何确定各类资源的权重仍有待

解决。本文提出用机器学习算法，通过学习标注数据，

即人工标注的词语对间语义关联程度，得到各种资源的最佳配置。

４　词语相关度学习算法

４．１　特征设计

　　特征选取往往是决定机器学习算法有效性的关键。基于前面的分析，

我们从链接结构和文章全文资源中抽取设计了八个特征，如表１所示。根据是否需要先将输入词语映射到维基概念，

将特征分为两类：需要映射、描述概念间关联的特征（Ｆ１－Ｆ３）和不需要映射、描述词语间关联的特征（Ｆ４－Ｆ８）。前者称为概念相关度，后者称为词语相关度。

表１　各种相关度计算指标及其复杂度比较类型

特　　征

复杂度实时概念Ｆ

１链接向量交集大小Ｏ（｜Ｌ｜）是相关度Ｆ２－Ｆ

３链接向量间的相似度Ｏ（｜Ｌ｜

）是Ｆ４－Ｆ

５可能概念对间的最大和平均相关度

Ｏ（｜Ｓ｜２

｜Ｌ｜

）是词语

相关度Ｆ６－Ｆ７词组ｗｉｗｊ的可能性

Ｏ（Ｃ）否Ｆ８

文档向量余弦相似度Ｏ（｜Ｖ｜）是Ｃｌａｓｓ　Ｆ

９实际相关度

—

．１．１　概念相关度特征的计算方法

给定一对概念＜ｃｉ，ｃｊ＞及其对应的链接向量ｌｉ和ｌｊ，

Ｆ２应用Ｇｏｏｇｌｅ距离公式ＮＧＤ（Ｎｏｒｍａｌｉｚｅｄｏｏｇｌｅ　Ｄｉｓｔａｎｃｅ），计算ｌｉ和ｌｊ间的距离，Ｆ３计算两者间的余弦相似度。ＮＧＤ的计算方法如式（１）所示。ＮＧＤ（ｌｉ，ｌｊ）＝ｌｏｇ（ｍａｘ　（ｌｉ，ｌｊ））－ｌｏｇ（｜ｌｉ∩ｌｊ｜）ｌｏｇ（Ｗ）－ｌｏｇ（ｍｉｎ（ｌｉ，ｌｊ））（１）其中，｜ｌ｜为向量长度，｜ｌｉ∩ｌｊ｜为ｌｉ和ｌｊ交集的大

小，｜Ｗ｜为维基百科中所有文章页面的总数。ＮＧＤ基于ｃｉ和ｃｊ的共现链接数以及各自特有的链接数来衡量两者间的语义关联程度。余弦相似度的计算方法如式（２）所示。ＷＣｏｓｉｎｅ　ｉ（

ｌｋ＝１ｌｋ×ｌｊｋｉ，ｌｊ）＝　

∑槡∑

Ｗｌ２

ｋ＝１

ｉｋ×

槡　

∑

Ｗｋ＝１

ｌ２

ｊｋ（２

）其中，ｌｉｋ为ｌｉ中ｋ维上的取值。具体实现时，向量ｌｉ和ｌｊ均为稀疏向量，因此可只遍历取值非零的元素。不同于ＮＧＤ，余弦相似度考虑了每个链接的权重。沿用文献［１６］的方法，给定ｓ和ｔ为维基文章，且存在ｓ→

ｔ的链接，则该链接的权重如式（３）所示。ｗ　（ｓ→ｔ）＝ｌｏｇ（ＷＴ）（３

）其中Ｔ为ｔ的所有入链接文章，即ｓ∈Ｔ。若ｓＴ，则ｗ　（ｓ→ｔ）＝０。｜Ｗ｜为维基百科中所有文章页面的总数，类似于信息检索中的逆文档频率ＩＤＦ（Ｉｎ－ｅｒｓｅ　Ｄｏｃｕｍｅｎｔ　Ｆｒｅｑｕｅｎｃｙ）加权。．１．２　词语相关度特征的计算方法

概念相关度是进一步计算词语相关度的基础。给定一对词语＜ｗｉ，ｗｊ＞，Ｆ４和Ｆ５考查ｗｉ和ｗｊ的所有可能释义，即所有可能对应的维基概念，并求得其间的最大和平均相关度。Ｆ６和Ｆ７考查ｗｉｗｊ作为词组的可能性。比如词语“麦金塔”和“电脑”所组

４Ｇｖ４４０

中文信息学报２０１６年

成的词组“麦金塔电脑”在维基百科中的出现次数可观，说明“麦金塔”和“电脑”的相关程度较高。Ｆ６描述词组ｗｉｗｊ在锚文本中出现的可能性，具体为ｗｉｗｊ出现在锚文本中的文章数量与其出现的维基百

科文章总数之比。Ｆ７为词组ｗｉｗｊ的出现频次。Ｆ８则应用３．３节中描述的概念空间方法，先生成ｗｉ和ｗｊ对应的维基概念向量ｖｉ和ｖｊ，再计算ｖｉ和ｖｊ间的余弦相似度。

最后，Ｆ９为类特征。对于训练数据，其取值等于该词语对上所有人工标注数值的平均值。对于测试数据，

其取值为算法的预测值。４．１．３　特征的计算效率分析

表１还列出了各个特征的计算复杂度。其中，｜Ｌ｜为维基文章附属链接向量的平均长度，

并可根据链接方向分为入链接向量和出链接向量。中文维基百科中，

入链接和出链接向量的平均长度分别为２０．９和１４．６，

而英文维基文章的平均值分别为２１．３和１７．８。｜Ｓ｜指词语所有可能对应的维基概念数量。比如“苹果”有六个候选中文维基概念，每个概念表示一种可能释义。而“ａｐｐ

ｌｅ”有３７个候选英文维基概念。Ｃ指常量，因为Ｆ６和Ｆ７为ｗｉｗｊ作为词组出现的先验概率，可离线计算。｜Ｖ｜为概念向量（稀疏表示）的平均长度，比如中文维基百科中这一数值为５４．９。

除了计算复杂度之外，是否必须实时计算是另一个影响计算效率的重要因素。无需实时计算的特征可预先离线计算得到，比如词组可能性。而链接向量的交集运算等特征则需要基于输入数据实时计算得到。综合复杂度和计算实时性分析，描述词语可能释义间相关度的特征（即Ｆ４和Ｆ５）是最耗时的特征，而词组可能性类特征是计算复杂度最低的特征。

４．２　机器学习算法

根据学习过程中是否利用了人工标注数据，机器学习算法可分为监督式和非监督式学习。监督式学习又可根据预测变量是数值型还是离散型，分为回归和分类两类。相关度学习属于典型的回归问题，即学习从一个数值变量集合到另一个数值变量的映射关系。经典的回归学习算法有线性回归、高斯过程、

基于支持向量机的回归算法、回归树等。在前期工作中我们得出平均性能最好的是高斯过程

（Ｇｕａｓｓｉａｎ　

Ｐｒｏｃｅｓｓ）算法［２６］

，因此本文结果都基于Ｗｅｋａ数据挖掘软件

［２７］

中高斯过程算法的实现

得到。

５　实验设计

５．１　数据集

　　本文用三个基准数据集来测试相关度计算方法

的有效性：Ｓｉｍ３５３、Ｗｏｒｄｓ２４０和Ｗｏｒｄｓ３０。为了学习概念相关度，首先通过人工消歧，为数据集中的词语找到与之对应的维基概念。表２比较了三个数据集的规模，包括词语对、词语、概念对和概念的数量。

表２　基准数据集及其规模比较

数据集＃词对＃词语＃概念对＃概念Ｓｉｍ３５３　３１３　４３７　２３４　２９９Ｗｏｒｄｓ２４０　２４０　３２７　２１８　２２４Ｗｏｒｄｓ３０　３０　

２９　

２６　

１８

　　Ｓ

ｉｍ３５３数据集由Ｆｉｎｋｅｌｓｔｅｉｎ等人收集［２８］

，原始数据集包含３５３个英语词对，

是广泛用于测试词语相关度算法的基准数据集。本文在Ｍｉｌｎｅ和

Ｗｉｔｔｅｎ［１６］

处理得到的英文数据集（包含３１３个词

对）基础上，参照其处理方式，对其中全部词语进行人工消歧，

并映射到中文维基概念。在去掉不存在对应概念的词语和涉及这些词语的词对后，最终得到２３４个概念对。

Ｗｏｒｄｓ２４０数据集是由国防科技大学的汪祥和

贾焰等人［２２］

参照Ｆｉｎｋｅｌｓｔｅｉｎ创建Ｓｉｍ３５３数据集

的方法而收集的面向中文的词语相关度基准数据集。经过人工消歧，得到２１８个维基概念对。

Ｗｏｒｄｓ３０数据集由华中师范大学的涂新辉和

何婷婷等［２３］

收集，类似于Ｍｉｌｌｅｒ和Ｃｈａｒｌｅｓ在１９９１年收集的数据集［２９］

。其中包含了３０个中文词对，

人工消歧后得到２６个维基概念对。５．２　中文维基百科预处理

本文使用Ｗｉｋｉｐ

ｅｄｉａＭｉｎｅｒ［２４］

工具解析维基百科ＸＭＬ备份文件。中文和英文分别是２０１２年５月２３日和２０１１年７月２２日生成的版本。其中，中文版本包含约４８万篇文章，英文版本包含约３５７万篇文章，与维基百科官方统计数据一致①。

①

ｈｔｔｐ：／／ｅｎ．ｗｉｋｉｐｅｄｉａ．ｏｒｇ／ｗｉｋｉ／Ｗｉｋｉｐｅｄｉａ：Ｎｏｎ－Ｅｎｇ

ｌｉｓｈ＿Ｗｉｋｉｐ

ｅｄｉａｓ３期黄岚等：一种基于维基百科的中文词语相关度学习算法

４１

对中文版本的预处理包括繁体中文到简体中文转换，使用中国科学院ＩＣＴＣＬＡＳ分词工具①对文章内容进行分词，将英文词语转换为其小写形式，过滤ＵＲＬ、数字和无意义字符。预处理后总共得到１２２

万词语，其中包含４４万英文词语。５．３　性能指标

依照之前的研究，本文沿用Ｓｐｅａｒｍａｎ相关系数作为衡量词语相关度算法性能的指标

［１５－１８，２１－２４］。

Ｓｐ

ｅａｒｍａｎ相关系数衡量机器计算结果与人工标注值的一致程度。给定两个变量，其取值介于［－１，１］之间，值越高意味着两变量的取值正向单调相关程度越高。

为了清楚行文，以下用“相关度”表示语义关联程度（即ｒｅｌａｔｅｄｎｅｓｓ），用“一致性”表示算法预测的结果与人工标注值之间相关性（即ｃｏｒｒｅｌａｔｉｏｎ），即Ｓｐｅａｒｍａｎ系数。除６．３节外，所有结果都是十次１０－折交叉验证得到的平均值。

６　实验结果分析

本节首先分析了中文维基百科中的数据稀疏问题，然后依次分析了基于链接结构的概念相关度学习算法的效果、基于概念向量的词语相关度学习效果和结合两者的词语相关度学习效果。最后探讨了交叉数据集上的学习效果。

６．１　中文维基百科中的数据稀疏问题

中文维基百科有约４８万个文章页面（即概念），为英文维基百科文章总数的十分之一。除了概念收录范围上的巨大差距之外，数据稀疏问题也普遍存在于其他类型的维基资源中。表３从多个角度比较了中文和英文维基百科的数据规模。

表３　中文与英文维基百科中相关度计算资源的规模比较资源指　标英文中文比例／％文章

文章总数３．５７Ｍ０．４８Ｍ１３锚文本总数

９．０６Ｍ０．９９Ｍ１１锚文本

平均锚文本数３．１３　２．２０　７１平均概念数１．１９　１．０９　９２类目总数

０．７４Ｍ０．１２Ｍ１６类目

平均父类目数３．８１　２．４２　６４类目平均大小

２３．９　

１０．４　

４４

续表

资源指　标英文中文比例／％链接总数

６７．２Ｍ７．１１Ｍ１１链接

平均链接数１９．５３　１７．７７　９１平均入链接２１．２７　２０．６１　９７平均出链接

１７．７８　

１４．９３　

８４

　　“

平均锚文本数”指维基文章的平均链入锚文本数量，反映维基文章的别名多寡程度。比如“苹果公司”有１９个锚文本：“苹果公司”、“苹果电脑公司”、“Ａｐｐｌｅ”、“苹果”、“苹果计算机”“Ａｐｐｌｅ　Ｓｔｏｒｅ”和“苹果机”等。而在英文维基百科中，“Ａｐｐｌｅ　Ｉｎｃ．”有８４个锚文本。“平均概念数”反映锚文本的歧义程度，指每个锚文本可能对应的概念个数，数值越低，说明歧义程度越低。比如“苹果”可以指“苹果”、“苹果公司”、“苹果（电影）”、“苹果电脑”、“麦金塔电脑”和“ｉＰｈｏｎｅ”。在英文维基百科中，“ａｐｐｌｅ”有７种可能释义。“平均父类目数”指维基文章所属父类目的平均数量，而“类目平均大小”指类目包含的子类目和文章数量的平均值。

从表３中可以看到，中、英文版本在文章的平均链接数上差别比较小。这说明局部链接结构是比较稳定的，实际实验结果也显示了这一点（表４）。而即便是这一最稳定的资源，其中的数据稀疏问题也已经严重影响到中文词语相关度计算的有效性，凸显出整合多种资源的必要。．２　概念相关度学习效果

表４列出了基于链接结构的概念相关度学习算法（即ＣＲＭ，ｃｏｎｃｅｐｔ　ｒｅｌａｔｅｄｎｅｓｓ　ｍｅａｓｕｒｅ）在三个基准数据集上的效果，并比较了链接方向对学习算法的影响。最后一列ＣＲＭ同时考虑出链接和入链接。

表４　基于链接结构的概念相关度学习算法准确度数据集入链接出链接ＣＲＭＳｉｍ３５３　０．５９　０．５７　０．６２Ｗｏｒｄｓ２４０　０．５３　０．４５　０．５３Ｗｏｒｄｓ３０　

０．３０　

０．３７　

０．４６

　　在英文Ｓｉｍ３５３数据集上，Ａｇ

ｉｒｒｅ等人［１０］

取得了０．７８的一致性，

为当前最好结果。其方法用到两①

ｈｔｔｐ：／／ｗｗｗ．ｉｃｔｃｌａｓ．ｏｒｇ

／３６４２

中文信息学报２０１６年

种资源：从Ｗｅｂ文本集中得到的词语分布相似度（ｄｉｓｔｒｉｂｕｔｉｏｎａｌ　ｓｉｍｉｌａｒｉｔｙ）和基于ＷｏｒｄＮｅｔ概念层级结构的概念相关度。Ａｇｉｒｒｅ与本文方法的最大不同在于使用支持向量机学习词对排序，即不同词对相关程度的相对大小。然而，实际应用中往往只有当前词对的信息，无法与其他词对进行比较。而且词对相关度的具体数值往往比其相对排序更有价值，比如在计算文本间的语义相关程度时。与本文直接相关的是Ｍｉｌｎｅ和Ｗｉｔｔｅｎ提出的ＷＬＭ算法［１６］

，该算法的最好结果为０．７４，是本文算法的比较基准。

Ｓｉｍ３５３数据集上的比较结果显示了数据稀疏问题的负面作用。同样的算法和同源的数据，由于中文维基百科中的数据稀疏问题，

中文相关度计算方法的一致性只有０．６２，相较于英文的０．７４下降了１６％。

在针对中文的相关研究中，三个数据集上的已知最好结果分别为０．５９、０．４７和０．５２，

前两者由汪祥等人［２２］取得，后者由涂新辉等人［２３］获得（见表

）。直观地看表４中的结果，在Ｓｉｍ３５３和

Ｗｏｒｄｓ２４０数据集上，使用单一链接结构的ＣＲＭ方法与人工标注相关度的一致性已超过最好结果。然而，ＣＲＭ的结果是在概念对上取得，而已知结果是针对词语的，比较基准不同。本文第６．４和６．５节进行了更公平的比较。

．３　基于概念空间的词语相关度计算效果

依照３．３节和４．１．２节的描述，本节将词语表示为概念空间中的向量，以概念向量间相似度作为词语间语义关联程度。理论上，

这样的计算方法适用于所有曾出现在维基百科中的的词语。表５比较了基准数据集中能够直接处理的词语对与概念对数量，以及词语相关度算法（即ＷＲＭ，ｗｏｒｄ　ｒｅｌａｔｅｄ－ｅｓｓ　ｍｅａｓｕｒｅ）与概念相关度算法ＣＲＭ的效果。由于本节测试的是单一特征（即Ｆ８）与人工标注（即９）的一致性，没有使用机器学习算法（６．４节将探

讨使用机器学习算法的效果）

，因此没有用交叉验证的实验方法，实验结果是基于所有数据一次得到。

表５　基于概念向量的中文词语相关度计算准确度数据集＃概念对ＣＲＭ＃词对ＷＲＭＳｉｍ３５３　２３４　０．６２　１７１　０．５７Ｗｏｒｄｓ２４０　２１８　０．５３　２３３　０．５７Ｗｏｒｄｓ３０　２６　

０．４６　

１７　

０．６９

　　从表５中结果可以看到，

ＷＲＭ能够直接处理的词语对数并不多，甚至少于概念对的数量。这是由中文分词问题造成的。数据集中的部分词语可被切分为多个词语，比如“中世纪”可被分为“中”“世纪”；“联邦调查局”可被分为“联邦”“调查局”；“不明飞行物”

可被分为“不明”“飞行物”。在解析维基文章内容时，即构建词语的概念向量表示时，这些词语是经过切分的。也就是说，

预处理过程会对“不明”“飞行物”分别构建概念向量，而倒排索引中不会存在“

不明飞行物”对应的向量条目。因此，有必要对基准数据集中的词语进行相同的分词处理。．３．１　中文分词的影响

本文采取的策略是切分输入词语，

并将分词所得词语与原始词语合并，构成词语集合。比如“联邦调查局”

切分后集合由三个词组成：｛联邦调查局，联邦，调查局｝。再提取每个词语的概念向量，并将其合并。虽然索引中没有“联邦调查局”，但通过合并“联邦调查局”（向量为空）、“联邦”和“调查局”的概念向量即可得到“

联邦调查局”的概念表示。这一策略成功处理了大多数原先不能直接处理的词语。ＷＲＭ在三个数据集上的处理率从原来的５％、９３％、５７％提升至９９％、１００％和１００％。由于解析中文维基百科文章时过滤了所有数字，导致ｉｍ３５３中有两个词语“５”和“７”不能处理，少了两个词语对，总共为３１１对词语。

表６比较了分词前后学习算法与人工标注的一致性。其中第五列中结果显示，分词之后，三个数据集上的一致性好像都有不同程度的下降。然而，第三列和第五列的计算基准不同，

分词后能够处理的词语对数大幅增加。以Ｗｏｒｄｓ３０为例，两者分别在７对和３０对词语上计算得到。为了公平衡量分词效果，

我们只比较能直接处理的数据，即表６的第三列和第七列。结果显示本文的分词策略并不会负面影响词语相关度计算结果：Ｗｏｒｄｓ２４０和Ｗｏｒｄｓ３０数据集上的结果与分词前持平，而在Ｓｉｍ３５３数据集上还有些微提升。同时，分词能极大扩展算法的

表６　分词对中文词语相关度计算准确度的影响数据集分词前

分词后

＃词对ＷＲＭ＃词对ＷＲＭ＃词对ＷＲＭＳｉｍ３５３　

１７１　０．５７　３１１　０．５３　１７１　０．

５９Ｗｏｒｄｓ２４０　２３３　０．５７　２４０　０．５４　２３３　０．５７Ｗｏｒｄｓ３０　１７　

０．６９　

３０　

０．６２　

１７　０．

６９６５Ｓ１７６ｎＦ３期黄岚等：一种基于维基百科的中文词语相关度学习算法

４３

适用范围。因此本文余下部分所有涉及概念空间相）似度（即Ｆ的部分都是经过分词的。８６．３．２　概念向量长度的影响

概念向量的长度ｋ对向量相似度算法的效果和效率有重要影响。ｋ值越大，考虑的信息越全面，算法的开销也越大。图２比较了ｋ的不同取值对词语相关度计算的影响。ｋ＝１０意味着词语的概念向量中最多只包含该词语出现频次最多的前十个维基概

念。图２中横轴的最后一个维度比较了当ｋ取值为即考虑词语出现过的所有概念。ａｌｌ时的情况，

）从图２（可以明显看出ｋ值并非越大越好。ａ实际上，三个数据集上的最好结果都在ｋ∈［１５０，］取得。同时，运行时间的开销越大。５００ｋ值越大，

），当考虑所有概念时（运行时间是只考虑前ｋ＝ａｌｌ综合效果和效率，我们２００概念的１０００倍。因此，

选取ｋ＝２００为缺省值。

）对准确度的影响；（）对效率的影响图２　概念向量长度对中文词语相关度计算的影响：（ａｂ

６．４　词语相关度学习算法的效果

上一节单独考量了基于概念空间的词语相关度计算方法的效果，并没有用到机器学习。本节综合基于链接结构的概念相关度和基于概念空间的词语相关度，考察运用机器学习算法将两者结合的效果。

给定一对词语和指定的特征类型，算法分别在三个基准数据集上以十次１０－折交叉验证的方式构建高斯过程回归模型，并对其进行测试。表７比较Ｆ４—Ｆ８中不同特征组合所生成模型与人工标注结果的一致性，并在最后一列对比已知最好结果。

表７　中文词语相关度学习算法的准确度

数据集Ｓｉｍ３５３　

＃对数３１１　

ＣＲＭ　Ｆ４５－Ｆ０．６２　０．５３　０．４６　

０．６４　０．４３　０．５５　

Ｆ８０．６０　０．５７　０．６５　

Ｆ４５＋Ｆ６７－Ｆ－Ｆ

０．６３　０．５５　０．４３　

Ｆ８＋Ｆ６７－Ｆ０．６０　０．５７　０．６２　

Ｆ４５＋Ｆ８－Ｆ０．６６　０．５８　０．５２　

ＡＬＬｅｓｔＫｎｏｗｎ　Ｂ　０．６６　０．５９　０．４１　

０．５９０．４７０．５２

Ｗｏｒｄｓ２４０４０　２　Ｗｏｒｄｓ３０　３０　

从表７第二列的结果中可以看出，由于采　　首先，

用了分词和整合概念向量的策略，词语相关度算法能够处理所有词语对。而概念相关度算法（即，只能处理其中的已登录词语（见６．不ＣＲＭ）２节）能处理维基百科未收录的词语，适用范围有限。

其次，在整体性能方面，应用机器学习所得的词语相关度计算模型是有效的。在全部三个数据集训练生成模型都取得了超过Ｃ上，ＲＭ且超过已知最好结果的准确度。由此可见，本文提出的词语相

关度学习算法不仅适用范围更广，且准确度更高。

在所有特征中，可能概念相关度（即Ｆ和４、Ｆ５）概念向量空间模型（两类特征的表示能力最强，Ｆ８）它们的结合也取得了不错的准确度（即表７第８。Ｆ列）４和Ｆ５是基于局部链接结构的，Ｆ８则是基于维基文章全文的，各自从不同角度描述了词语之这一结果也体现出综合间的语义关联程度。因此，不同类型维基资源的必要性。

由于不能单从两个词语能否组成一个合法词组

４４

中文信息学报２０１６年

来判断词语间的相关程度，因此没有对词组可能性类特征（即Ｆ６、Ｆ７）单独进行测试。从表７第６列和第７列的结果可以看出，用词组类特征描述词语间关联程度的效果并不明显，尤其在Ｗｏｒｄｓ３０数据集上。这可能是因为Ｗｏｒｄｓ３０中词语对作为单一词组出现的可能性不高，比如“不明飞行物”和“飞碟”。相比较下，在效果最明显的Ｗｏｒｄｓ２４０数据集中，

词语对作为词组出现的可能性较高，

比如“发表”和“文章”、“北京”和“奥运会”、“自然”和“环境”等。

综合考虑表７中的实验结果，本文余下部分采用第８列对应的模型，即结合可能概念相关度（Ｆ４、５）和概念向量空间模型（Ｆ８）两类特征。．５　交叉数据集对词语相关度学习效果的影响

本文首次同时使用了国内学者采集的Ｗｏｒｄｓ２４０和Ｗｏｒｄｓ３０数据集与英文中最常用的Ｓｉｍ３５３数据

集。在前面的实验中我们发现，算法在不同数据集上的表现不尽一致。为了更深入了解数据集的性质与之间关联，我们进一步开展了交叉数据集的实验。

给定两个数据集Ｄ１和Ｄ２，先用Ｄ１中的全部数据训练生成词语相关度计算模型，再在Ｄ２中的全部数据上进行测试。表８比较了三个数据集的所有可能交叉结果。

表８　交叉数据集对中文词语相关

度学习算法准确度的影响

测试集训练集Ｓｉｍ３５３Ｗｏｒｄｓ２４０Ｗｏｒｄｓ３０　　Ｓｉｍ３５３　０．７１　０．６３　０．６３Ｗｏｒｄｓ２４０　０．６９　０．６５　０．７２Ｗｏｒｄｓ３０　

０．５９　

０．５１　

０．７４

　　一般情况下，

当训练集和测试集为同一数据集时，训练所得模型的一致性应该最高，尽管这样的实验方法存在过度拟合的风险。然而，

值得注意的是，在Ｗｏｒｄｓ２４０上训练所得模型在另外两个数据集上都取得了更好的结果，不仅接近本文算法在该测试数据集上的最好结果（即表８对角线上的结果），更超过了已知的最好结果。比如，在Ｗｏｒｄｓ３０上取得了０．７２的一致性，在已知最好结果基础上提升了９％。这说明该模型具有很好的泛化能力，能很好预测未见词语对的相关度，比较适合实践应用。另外，由Ｓｉｍ３５３训练生成模型的泛化能力也不错，

在Ｗｏｒｄｓ２４０和Ｗｏｒｄｓ３０上取得的一致性均为０．６３，相较于已知的最好结果０．４７和０．５２分别提升了３４％和２１％。相比较之下，Ｗｏｒｄｓ３０数据集由于其

规模与前两者相差较大，导致其生成模型的泛化能力有限。

７　结束语

本文针对中文维基百科中存在的数据稀疏问题，综合链接结构和维基文章全文两种不同类型的维基资源，从中分别抽取描述词语间语义关联程度的特征，应用机器学习算法从人工标注数据中学习不同特征的最佳配置。实验结果验证了本文所提出方法的有效性，在已知最好结果的基础上提升了２０％—４０％。本文还系统考察了中文分词、概念向量长度对词语相关度计算的影响，研究了各类特征的预测能力，

最后比较了不同基准数据集所生成模型的泛化能力。下一步的工作首先是将本文中的词语相关度学习算法应用于中文文本分析任务，比如聚类和信息检索。其次是进一步研究百科知识的跨语言处理和应用。

参考文献

［１］　３

６Ｋｒ．下一代搜索引擎即将来临：知识图谱的用户体验报告［ＯＬ］．２０１４［２０１４－７－１２］．ｈｔｔｐ

：／／ｗｗｗ．３６ｋｒ．ｃｏｍ／ｐ

／２０５７３７．ｈｔｍｌ．［２］　Ｒｕｉｚ　Ｅ　Ｌ，Ｍａｎｏｔａｓ　Ｉ　Ｇ，ＧａｒｃíＡ　Ｒ　Ｖ．ｅｔ　

ａｌ．Ｆｉｎａｎｃｉａｌｎｅｗｓ　ｓｅｍａｎｔｉｃ　ｓｅａｒｃｈ　ｅｎｇｉｎｅ［Ｊ］．Ｅｘｐｅｒｔ　Ｓｙｓｔｅｍｓ　ｗｉｔｈＡｐｐ

ｌｉｃａｔｉｏｎｓ，２０１１，３８（１２）：１５５６５－１５５７２．［３］　Ｍｉｌｎｅ　Ｄ，Ｗｉｔｔｅｎ　Ｉ　Ｈ，Ｎｉｃｈｏｌｓ，Ｄ　Ｍ．Ａ　ｋｎｏｗｌｅｄｇ

ｅ－ｂａｓｅｄ　ｓｅａｒｃｈ　ｅｎｇｉｎｅ　ｐｏｗｅｒｅｄ　ｂｙ　Ｗｉｋｉｐ

ｅｄｉａ［Ｃ］／／Ｐｒｏ－ｃｅｅｄｉｎｇｓ　ｏｆ　ｔｈｅ　１６ｔｈ　ＣＩＫＭ．Ｎｅｗ　Ｙｏｒｋ：ＡＣＭ，２００７：４４５－４５４．［４］　Ｇａｂｒｉｌｏｖｉｃｈ　Ｅ，Ｍａｒｋｏｖｉｔｃｈ，Ｓ　Ｆｅａｔｕｒｅ　ｇ

ｅｎｅｒａｔｉｏｎ　ｆｏｒｔｅｘｔ　ｃａｔｅｇｏｒｉｚａｔｉｏｎ　ｕｓｉｎｇ　

ｗｏｒｌｄ　ｋｎｏｗｌｅｄｇｅ［Ｃ］／／Ｐｒｏ－ｃｅｅｄｉｎｇｓ　ｏｆ　ｔｈｅ　１９ｔｈ　ＩＪＣＡＩ．ＳａｎＦｒａｎｃｉｓｃｏ：Ｋａｕｆｍａｎｎ，２００５：１０４８－１０５３．［５］　Ｈｕ　Ｊ，Ｆａｎｇ　Ｌ，Ｃａｏ　Ｙ，ｅｔ　ａｌ．Ｅｎｈａｎｃｉｎｇ　

ｔｅｘｔ　ｃｌｕｓｔｅｒｉｎｇｂｙ　

ｌｅｖｅｒａｇｉｎｇ　Ｗｉｋｉｐｅｄｉａ　ｓｅｍａｎｔｉｃｓ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆｔｈｅ　３１ｓｔ　ＡＣＭ　ＳＩＧＩＲ．Ｎｅｗ　Ｙｏｒｋ：ＡＣＭ，２００８：１７９－１８６．

［６］　Ｈｕａｎｇ　

Ａ，Ｍｉｌｎｅ，Ｄ　Ｆｒａｎｋ，Ｅ　Ｗｉｔｔｅｎ，Ｉ　Ｈ　Ｃｌｕｓｔｅｒｉｎｇｄｏｃｕｍｅｎｔｓ　ｗｉｔｈ　ａｃｔｉｖｅ　ｌｅａｒｎｉｎｇ　

ｕｓｉｎｇ　Ｗｉｋｉｐｅｄｉａ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆ　ｔｈｅ　８ｔｈ　ＩＥＥＥ　ＩＣＤＭ．Ｗａｓｈｉｎｇｔｏｎ，ＤＣ：ＩＥＥＥ　Ｃｏｍｐｕｔｅｒ　Ｓｏｃｉｅｔｙ

，２００８：８３９－８４４．［７］　Ｐｉｐｐｉｇ　

Ｋ，Ｂｕｒｇｈａｒｄｔ　Ｄ，Ｐｒｅｃｈｔｅｌ　Ｎ．Ｓｅｍａｎｔｉｃ　ｓｉｍｉｌａｒｉｔｙＦ６３３期黄岚等：一种基于维基百科的中文词语相关度学习算法

４５

ａｎａｌｙｓｉｓ　ｏｆ　ｕｓｅｒ－ｇ

ｅｎｅｒａｔｅｄ　ｃｏｎｔｅｎｔ　ｆｏｒ　ｔｈｅｍｅ－ｂａｓｅｄｒｏｕｔｅ　ｐｌａｎｎｉｎｇ［Ｊ］．Ｊｏｕｒｎａｌ　ｏｆ　Ｌｏｃａｔｉｏｎ　Ｂａｓｅｄ　Ｓｅｒｖｉｃｅｓ，２０１３，７（４）：２２３－２４５．［８］　Ｙａｎ　Ｐ，Ｊｉｎ　Ｗ．Ｉｍｐｒｏｖｉｎｇ　

ｃｒｏｓｓ－ｄｏｃｕｍｅｎｔ　ｋｎｏｗｌｅｄｇｅｄｉｓｃｏｖｅｒｙ　ｕｓｉｎｇ　

ｅｘｐｌｉｃｉｔ　ｓｅｍａｎｔｉｃ　ａｎａｌｙｓｉｓ［Ｃ］／／Ｐｒｏ－ｃｅｅｄｉｎｇｓ　ｏｆ　ｔｈｅ　１４ｔｈ　ＤａＷａＫ．Ｈｅｉｄｅｌｂｅｒｇ：Ｓｐｒｉｎｇｅｒ－Ｖｅｒｌａｇ

，２０１２：３７８－３８９．［９］　Ｈｕａｎｇ　Ｌ，Ｍｉｌｎｅ　Ｄ，Ｆｒａｎｋ　Ｅ，Ｗｉｔｔｅｎ　Ｉ　Ｈ．Ｌｅａｒｎｉｎｇ　

ａＣｏｎｃｅｐｔ－Ｂａｓｅｄ　Ｄｏｃｕｍｅｎｔ　Ｓｉｍｉｌａｒｉｔｙ　

Ｍｅａｓｕｒｅ［Ｊ］．Ｊｏｕｒ－ｎａｌ　ｏｆ　ｔｈｅ　Ａｍｅｒｉｃａｎ　Ｓｏｃｉｅｔｙ　

ｆｏｒ　Ｉｎｆｏｒｍａｔｉｏｎ　Ｓｃｉｅｎｃｅ　ａｎｄＴｅｃｈｎｏｌｏｇｙ，２０１２，６３（８）：１５９３－１６０８．［１０］　Ａｇｉｒｒｅ　Ｅ，Ａｌｆｏｎｓｅｃａ　Ｅ，Ｈａｌｌ　Ｋ，ｅｔ　ａｌ．Ａ　ｓｔｕｄｙ　

ｏｎ　ｓｉｍｉ－ｌａｒｉｔｙ　ａｎｄ　ｒｅｌａｔｅｄｎｅｓｓ　ｕｓｉｎｇ　

ｄｉｓｔｒｉｂｕｔｉｏｎａｌ　ａｎｄ　Ｗｏｒｄ－Ｎｅｔ－ｂａｓｅｄ　ａｐｐｒｏａｃｈｅｓ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆ　ＮＡＡＣＬ．Ｓｔｒｏｕｄｓｂｕｒｇ

：ＡＣＬ，２００９：１９－２７．［１１］　Ｌｅｎａｔ　Ｄ　Ｂ．ＣＹＣ：Ａ　ｌａｒｇ

ｅ－ｓｃａｌｅ　ｉｎｖｅｓｔｍｅｎｔ　ｉｎ　ｋｎｏｗｌ－ｅｄｇｅ　ｉｎｆｒａｓｔｒｕｃｔｕｒｅ［Ｊ］．Ｃｏｍｍｕｎｉｃａｔｉｏｎｓ　ｏｆ　ｔｈｅ　ＡＣＭ，１９９５，３８：３３－３８．［１２］　王红玲，

吕强，徐瑞．中文语义相关度计算模型研究［Ｊ］．计算机工程与应用，２００９（７）：１６７－１７０．［１３］　Ｇｉｌｅｓ　Ｊ．Ｉｎｔｅｒｎｅｔ　ｅｎｃｙｃｌｏｐａｅｄｉａｓ　ｇ

ｏ　ｈｅａｄ　ｔｏ　ｈｅａｄ［Ｊ］．Ｎａｔｕｒｅ，２００５，４３８：９００－９０１．［１４］　Ｓｔｒｕｂｅ　Ｍ，Ｐｏｎｚｅｔｔｏ　Ｓ　Ｐ．ＷｋｉＲｅｌａｔｅ！Ｃｏｍｐｕｔｉｎｇ　

ｓｅ－ｍａｎｔｉｃ　ｒｅｌａｔｅｄｎｅｓｓ　ｕｓｉｎｇ　Ｗｉｋｉｐｅｄｉａ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇ

ｓｏｆ　ｔｈｅ　２１ｓｔ　ＡＡＡＩ．Ｍｅｎｌｏ　Ｐａｒｋ，ＣＡ：ＡＡＡＩ　

Ｐｒｅｓｓ，２００６：１４１９－１４２４．［１５］　Ｇａｂｒｉｌｏｖｉｃｈ　Ｅ，Ｍａｒｋｏｖｉｔｃｈ　Ｓ．Ｃｏｍｐｕｔｉｎｇ　

ｓｅｍａｎｔｉｃ　ｒｅ－ｌａｔｅｄｎｅｓｓ　ｕｓｉｎｇ　Ｗｉｋｉｐｅｄｉａ－ｂａｓｅｄ　ｅｘｐ

ｌｉｃｉｔ　ｓｅｍａｎｔｉｃ　ａ－ｎａｌｙｓｉｓ［Ｃ］／／Ｐｒｏｃｅｅｄｎｇｓ　ｏｆ　ｔｈｅ　２０ｔｈ　ＩＪＣＡＩ．ＳａｎＦｒａｎｃｉｓｃｏ：Ｋａｕｆｍａｎｎ，２００７：１６０６－１６１１．［１６］　Ｍｉｌｎｅ　Ｄ，Ｗｉｔｔｅｎ　Ｉ　Ｈ．Ａｎ　ｅｆｆｅｃｔｉｖｅ，ｌｏｗ－ｃｏｓｔ　

ｍｅａｓｕｒｅｏｆｓｅｍａｎｔｉｃ　ｒｅｌａｔｅｄｎｅｓｓ　ｏｂｔａｉｎｅｄ　ｆｒｏｍ　Ｗｉｋｉｐ

ｅｄｉａ　ｌｉｎｋｓ［Ｃ］．／／Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆ　ｔｈｅ　Ａｄｖａｎｃｅｍｅｎｔ　ｏｆ　ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ　Ｗｏｒｋｓｈｏｐ　

ｏｎ　Ｗｉｋｉｐｅｄｉａ　ａｎｄ　Ａｒｔｉｆｉｃｉａｌ　Ｉｎ－ｔｅｌｌｉｇｅｎｃｅ．Ｍｅｎｌｏ　Ｐａｒｋ，ＣＡ：ＡＡＡＩ　Ｐｒｅｓｓ，２００８：２５－３０．

［１７］　Ｙａｚｄａｎｉ　Ｍ，Ｂｅｌｉｓ　Ａ　Ｐ．Ｃｏｍｐｕｔｉｎｇ　

ｔｅｘｔ　ｓｅｍａｎｔｉｃ　ｒｅｌａｔ－ｅｄｎｅｓｓ　ｕｓｉｎｇ　

ｔｈｅ　ｃｏｎｔｅｎｔｓ　ａｎｄ　ｌｉｎｋｓ　ｏｆ　ａ　ｈｙｐｅｒｔｅｘｔ　ｅｎ－ｃｙｃｌｏｐｅｄｉａ［Ｊ］．Ａｒｔｉｆｉｃｉａｌ　Ｉｎｔｅｌｌｉｇ

ｅｎｃｅ，２０１３，１９４：１７６－黄岚（１９８２—），博士，主要研究领域为机器学习和文本分析。

Ｅ－ｍａｉｌ：ｌａｎｈｕａｎｇ＠ｙａｎｇ

ｔｚｅｕ．ｅｄｕ．ｃｎ２０２．

［１８］　Ｙｅｈ　Ｅ，Ｒａｍａｇｅ　Ｄ，Ｍａｎｎｉｎｇ　

Ｃ　Ｄ，ｅｔ　ａｌ．ＷｉｋｉＷａｌｋ：Ｒａｎｄｏｍ　ｗａｌｋｓ　ｏｎ　Ｗｉｋｉｐ

ｅｄｉａ　ｆｏｒ　ｓｅｍａｎｔｉｃ　ｒｅｌａｔｅｄｎｅｓｓ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆ　ｔｈｅ　２００９Ｗｏｒｋｓｈｏｐ　ｏｎ　Ｇｒａｐｈ－Ｂａｓｅｄ　Ｍｅｔｈｏｄｓ　ｆｏｒ　Ｎａｔｕｒａｌ　Ｌａｎｇｕａｇｅ　Ｐｒｏｃｅｓｓｉｎｇ

．Ｓｔｒｏｕｄｓｂｕｒｇ

，ＰＡ：ＡＣＬ，２００９：４１－４９．［１９］　刘群，

李素建．基于知网的词汇语义相似度计算［Ｊ］．中文计算语言学，２００２，７（２）：５９－７６．［２０］　李赟，

黄开妍，任福继，钟义信．维基百科的中文语义相关词获取及相关度分析计算［Ｊ］．北京邮电大学学

报，２００９，３２（３）：１０９－１１２．［２１］　万富强，

吴云芳．基于中文维基百科的词语语义相关度计算．中文信息学报，２０１３，２７（６）：３１－３７，１０９．［２２］　汪祥，

贾焰，周斌，丁兆云，梁政．基于中文维基百科链接结构与分类体系的语义相关度计算［Ｊ］．小型微型计算机系统，２０１１，３２（１１）：２２３７－２２４２．［２３］　涂新辉，

张红春，周琨峰，何婷婷．中文维基百科的结构化信息抽取及词语相关度计算方法．中文信息学

报，２０１２，２６（２）：１０９－１１４．［２４］　Ｍｉｌｎｅ　Ｄ，Ｗｉｔｔｅｎ　Ｉ　Ｈ．Ａｎ　ｏｐ

ｅｎ－ｓｏｕｒｃｅ　ｔｏｏｌｋｉｔ　ｆｏｒ　ｍｉｎ－ｉｎｇ　Ｗｉｋｉｐｅｄｉａ［Ｊ］．Ａｒｔｉｆｉｃｉａｌ　Ｉｎｔｅｌｌｉｇ

ｅｎｃｅ，２０１３（１９４）：２２２－２３９．［２５］　Ｃｉｌｉｂｒａｓｉ　Ｒ　Ｌ，Ｖｉｔáｎｙｉ　Ｐ　Ｍ．Ｔｈｅ　Ｇｏｏｇｌｅ　ｓｉｍｉｌａｒｉｔｙｄｉｓｔａｎｃｅ［Ｊ］．ＩＥＥＥ　Ｔｒａｎｓａｃｔｉｏｎｓ　ｏｎ　Ｋｎｏｗｌｅｄｇｅ　ａｎｄＤａｔａ　Ｅｎｇｉｎｅｅｒｉｎｇ

，２００７，１９（３）：３７０－３８３．［２６］　Ｒａｓｍｕｓｓｅｎ　Ｃ　Ｅ，Ｗｉｌｌｉａｍｓ　Ｃ　Ｋ　Ｉ．Ｇａｕｓｓｉａｎ　ｐ

ｒｏｃｅｓｓｅｓｆｏｒｍａｃｈｉｎｅ　ｌｅａｒｎｉｎｇ［Ｍ］．Ｃａｍｂｒｉｄｇｅ，ＭＡ：ＭＩＴＰｒｅｓｓ，２００６．

［２７］　Ｈａｌｌ　Ｍ，Ｆｒａｎｋ　Ｅ，Ｈｏｌｍｅｓ　Ｇ，ｅｔ　ａｌ．Ｔｈｅ　

ＷＥＫＡ　ＤａｔａＭｉｎｉｎｇ　Ｓｏｆｔｗａｒｅ：Ａｎ　Ｕｐｄａｔｅ［Ｊ］．ＳＩＧＫＤＤ　Ｅｘｐｌｏｒａ－ｔｉｏｎｓ，２００９，１１（１）：１０－１８．［２８］　Ｆｉｎｋｅｌｓｔｅｉｎ　Ｌ，Ｇａｂｒｉｌｏｖｉｃｈ　Ｙ　Ｍ，Ｒｉｖｌｉｎ　Ｅ．ｅｔ　ａｌ．Ｐｌａ－ｃｉｎｇ　

ｓｅａｒｃｈ　ｉｎｃｏｎｔｅｘｔ：Ｔｈｅ　ｃｏｎｃｅｐｔ　ｒｅｖｉｓｉｔｅｄ［Ｊ］．ＡＣＭ　Ｔｒａｎｓａｃｔｉｏｎｓ　ｏｎ　Ｉｎｆｏｒｍａｔｉｏｎ　Ｓｙ

ｓｔｅｍｓ，２００２，２０（１）：１１６－１３１．［２９］　Ｍｉｌｌｅｒ　Ｇ　Ａ，Ｃｈａｒｌｅｓ　Ｗ　Ｇ．Ｃｏｎｔｅｘｔｕａｌ　ｃｏｒｒｅｌａｔｅｓ　ｏｆｓｅｍａｎｔｉｃ　ｓｉｍｉｌａｒｉｔｙ［Ｊ］．Ｌａｎｇｕａｇｅ　ａｎｄ　Ｃｏｇ

ｎｉｔｉｖｅＰｒｏｃｅｓｓｅｓ，１９９１，６（１）：１－２８．杜友福（１９６１—），硕士，教授，主要研究领域为人工智能。

Ｅ－ｍａｉｌ：ｄｙｆ＠ｙａｎｇ

ｔｚｅｕ．ｅｄｕ．ｃｎ

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文

全部栏目

一种基于维基百科的中文词语相关度学习算法