语义网的研究和发展对未来搜索引擎的影响

2021-05-26 来源：客趣旅游网

网络通讯及安全

本栏目责任编辑：冯蕾

语义网的研究和发展对未来搜索引擎的影响

陈鑫，石俊飞（河南师范大学计算机与信息技术学院，河南新乡４５３００７）

摘要：目前在全球市场里占据主要份额的谷歌、雅虎、百度等搜索引擎，提供给人们的依旧是比较笨拙的工具，因为它们始终受制于

研究和发展，给搜索引擎带来了新的传统Ｗｅｂ，对搜索关键字的精确度要求苛刻，处理自然语言的能力很低。语义网（ＳＷ）的提出、

希望。而基于语义Ｗｅｂ的智能搜索引擎，则是下一代搜索引擎的必然选择。关键词：中文分词；网络蜘蛛；ＸＭＬ；Ｗｅｂ本体语言（ＯＷＬ）；资源描述框架（ＲＤＦ）中图分类号：ＴＰ３９３

文献标识码：Ａ

文章编号：１００９－３０４４（２００８）１４－２０８４０－０２

ＳｅｍａｎｔｉｃＷｅｂＲｅｓｅａｒｃｈａｎｄＤｅｖｅｌｏｐｍｅｎｔｆｏｒｔｈｅＦｕｔｕｒｅｏｆＳｅａｒｃｈＥｎｇｉｎｅＣＨＥＮＸｉｎ，ＳＨＩＪｕｎ－Ｆｅｉ

（ＨｅｎａｎＮｏｒｍａｌＵｎｉｖｅｒｓｉｔｙ，ＣｏｍｐｕｔｅｒａｎｄＩｎｆｏｒｍａｔｉｏｎＴｅｃｈｎｏｌｏｇｙＩｎｓｔｉｔｕｔｅ，Ｘｉｎｘｉａｎｇ４５３００７，Ｃｈｉｎａ）

Ａｂｓｔｒａｃｔ：ＴｈｅＷｅｂｗａｓｄｅｓｉｇｎｅｄａｓａｎｉｎｆｏｒｍａｔｉｏｎｓｐａｃｅ，ｗｉｔｈｔｈｅｇｏａｌｔｈａｔｉｔｓｈｏｕｌｄｂｅｕｓｅｆｕｌｎｏｔｏｎｌｙｆｏｒｈｕｍａｎ－ｈｕｍａｎｃｏｍｍｕｎｉｃａ－ｔｉｏｎ，ｂｕｔａｌｓｏｔｈａｔｍａｃｈｉｎｅｓｗｏｕｌｄｂｅａｂｌｅｔｏｐａｒｔｉｃｉｐａｔｅａｎｄｈｅｌｐ．Ｏｎｅｏｆｔｈｅｍａｊｏｒｏｂｓｔａｃｌｅｓｔｏｔｈｉｓｈａｓｂｅｅｎｔｈｅｆａｃｔｔｈａｔｍｏｓｔｉｎｆｏｒｍａ－ｔｉｏｎｏｎｔｈｅＷｅｂｉｓｄｅｓｉｇｎｅｄｆｏｒｈｕｍａｎｃｏｎｓｕｍｐｔｉｏｎ，ａｎｄｅｖｅｎｉｆｉｔｗａｓｄｅｒｉｖｅｄｆｒｏｍａｄａｔａｂａｓｅｗｉｔｈｗｅｌｌｄｅｆｉｎｅｄｍｅａｎｉｎｇｓ（ｉｎａｔｌｅａｓｔｓｏｍｅｔｅｒｍｓ）ｆｏｒｉｔｓｃｏｌｕｍｎｓ，ｔｈａｔｔｈｅｓｔｒｕｃｔｕｒｅｏｆｔｈｅｄａｔａｉｓｎｏｔｅｖｉｄｅｎｔｔｏａｒｏｂｏｔｂｒｏｗｓｉｎｇｔｈｅｗｅｂ．Ｌｅａｖｉｎｇａｓｉｄｅｔｈｅａｒｔｉｆｉｃｉａｌｉｎｔｅｌｌｉｇｅｎｃｅｐｒｏｂｌｅｍｏｆｔｒａｉｎｉｎｇｍａｃｈｉｎｅｓｔｏｂｅｈａｖｅｌｉｋｅｐｅｏｐｌｅ，ｔｈｅＳｅｍａｎｔｉｃＷｅｂａｐｐｒｏａｃｈｉｎｓｔｅａｄｄｅｖｅｌｏｐｓｌａｎｇｕａｇｅｓｆｏｒｅｘｐｒｅｓｓｉｎｇｉｎｆｏｒｍａｔｉｏｎｉｎａｍａｃｈｉｎｅｐｒｏｃｅｓｓａｂｌｅｆｏｒｍ．Ａｎｄｉｔ＇ｓｕｎｄｏｕｂｔｅｄｌｙｇｉｖｉｎｇｔｏｄａｙ＇ｓｓｅａｒｃｈｅｎｇｉｎｅｓａｎｅｗｃｈａｎｃｅ．Ｉｎｔｈｉｓｃａｓｅ，Ｉｐｕｔｆｏｒｗａｒｄｔｈｅｓｉｍｐｌｅｍｏｄｅｌｏｆｉｎｔｅｌｌｉｇｅｎｔｓｅａｒｃｈｅｎｇｉｎｅ．

Ｋｅｙｗｏｒｄｓ：ＷｅｂＳｐｉｄｅｒ；ＸＭＬ；ＯＷＬ；ＲＤＦ；ＣｈｉｎｅｓｅＷｏｒｄＳｅｇｍｅｎｔａｔｉｏｎ

１搜索引擎的现状

对搜索关键字的精确度要求苛刻，处理自然语言的能力很低；融合不同来源相关信息的能力不高；不利于弱势群体。正如搜索领域的科学家们常说的那样：人们关于搜索的问题只有５％解决了，而我们还没有利用到搜索潜力的１０％。

２搜索引擎的工作原理

２．１搜索引擎的系统架构２．１．１从互联网上抓取网页

网络蜘蛛是一种能够自动从互联网上抓取网页的ＨＴＭＬ代码并沿着一个网页中的所有ＵＲＬ爬到其它网页的机器人程序，它

查准都有影响，并决重复此过程，并把爬过的所有网页收集到服务器中。网络蜘蛛在搜索引擎中占有重要位置，对搜索引擎的查全、

定了搜索引擎数据容量的大小，而且网络蜘蛛的好坏直接影响搜索结果页中死链接（即链接所指向的网页已经不存在）的个数。目

孤链前如何才能发现更多的网页、如何才能令提取的网页内容更精确，如何才能进一步提高蜘蛛的抓取速度以及辨别和处理死链、

等的能力都是网络蜘蛛需要进一步改进的问题。２．１．２建立索引数据库

由索引系统程序对收集回来的网页进行分析，提取相关网页信息（包括网页所在ＵＲＬ、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链接关系等），根据一定的相关度算法进行大量复杂计算，得到每一个网页针对页面内容中及超链中每一个关键词的相关度（或重要性），然后用这些相关信息建立网页索引数据库。２．１．３在索引数据库中搜索

当用户输入关键词搜索后，分解搜索请求，由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。２．１．４对搜索结果进行处理排序

所有相关网页针对该关键词的相关信息在索引库中都有记录，只需综合相关信息和网页级别形成相关度数值，然后进行排序，相关度越高，排名越靠前。最后由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。

２．２中文分词

英文是以单词为单位的，词和词之间靠空格隔开，而中文是以字为单位，句子中所有的字连起来才能描述一个意思。例如，英文词组“，用中文则为：“河南师范大学”。计算机可以很简单通过空格知道“是一个单词，但是不能很ＨｅｎａｎＮｏｒｍａｌＵｎｉｖｅｒｓｉｔｙ”Ｎｏｒｍａｌ”

河南容易明白“师”、“范”两个字合起来才表示一个词。把中文的汉字序列切分成有意义的词，就是中文分词，有些人也称为切词。“

师范大学”，分词的结果是：“河南｜师范｜大学”。由此可见，语义划分的合适与否直接关系到搜索引擎的搜索结果。

３语义Ｗｅｂ

语义网（ＳＷ）是由公认的互联网之父，Ｗ３Ｃ的始创者伯纳斯・李（ＴｉｍＢｅｒｎｅｒｓ－Ｌｅｅ）提出的。其目标是使得Ｗｅｂ上的信息具有计收稿日期：２００８－０３－１２

作者简介：陈鑫（１９８７－），男，河南南阳人，河南师范大学计算机与信息技术学院２００５级学生，主要研究方向：计算机科学与技术等。

８４０

电脑知识与技术

本栏目责任编辑：冯蕾

网络通讯及安全

算机可以理解的语义，并使计算机能够根据语义进行判断。在ＳＷ中，信息都被赋予了明确的含义，机器能够自动地处理和集成网上可用的信息。语义网使用ＸＭＬ来定义定制的标签格式，用ＲＤＦ的灵活性来表达数据。语义网的基本体系结构如图１，语义网的工作流程如图２。

图１语义网的基本体系结构图

语义网的工作流程图

开发语义网的两个重要技术己经就绪，它们是ＸＭＬ（可扩展标记语言）和ＲＤＦ（资源描述框架）。ＸＭＬ让每个人都能创建自己的标签，来对网页或页面的部分文字进行注释。它允许用户在文档中加人任意的结构，但无需说明这些结构的含意。含意由ＲＤＦ来表达。

动词和宾语。在ＲＤＦ中，文档中的声明通常是某个事物（人、ＲＤＦ中的代码包含一组组的三元组，每个三元组相当像句子中的主语、

网页或其他任何东西）对于某些值（另一个人、另一网页）拥有某些属性（例如“是姐姐”，“是作者”这种结构用于描述由机器处理的大）。量数据，是非常自然的方法。

图２

４基于语义Ｗｅｂ的ＩＳＥ雏形

４．１ＩＳＥ雏形图

ＩＳＥ雏形图如图３所示。

图３ＩＳＥ雏形图

４．２可扩展标记语言（ＸＭＬ）

ＸＭＬ包括ＸＭＬ元数据文件、Ｓｃｈｅｍａ文件、ＸＳＬＴ显示文件、ＸＬｉｎｋ、Ｘｐａｔｈ等一系列相关部分，但对非计算机人士，可以只看它的元数据文件。ＸＭＬ的特点主要是开发灵活。因为它数据和格式分离设计，并不再局限于ＨＴＭＬ文件中标准的ＴＡＧ。而且又支持Ｕｎｉｃｏｄｅ，所以可使用中文标记。４．３资源描述框架（ＲＤＦ）

ＲＤＦ是一个处理元数据的ＸＭＬ应用。众所周知，对资源的描述是领域和应用相关的，比如对一本书的描述和对一个Ｗｅｂ站点的描述是不一样的，即对不同资源的描述需要采取不同的词汇表。因此ＲＤＦ规范并没有定义描述资源所用的词汇表，而是定义了一些规则，这些规则是各领域和应用定义用于描述资源的词汇表时必须遵循的。ＲＤＦ也提供了描述资源时具有基础性的词汇表。

（下转第８６６页）

８４１

网络通讯及安全

罐布置得越多，蜜罐之一就越容易收到蠕虫病毒的刺探。

本栏目责任编辑：冯蕾

４虚拟蜜罐的配置

我们可以选取２台Ｐ４微机：１台作为攻击机，另１台作为实现蜜罐系统的宿主机，它有一个真实的ＩＰ地址。在安全ＬｉｎｕｘＲｅｄＨａｔ９．０系统上运行虚拟蜜罐框架Ｈｏｎｅｙｄ。通过模拟操作系统的ＴＣＰ／ＩＰ栈来建立蜜罐，使用与Ｎｍａｐ或Ｘｐｒｏｂｅ相同的指纹数据库来模拟操作系统，来响应针对虚拟蜜罐的网络请求。

ｈｏｎｅｙｄ的安装需要以下库的支持：ｌｉｂｅｖｅｎｔ：异步事件库；ｌｉｂｄｎｅｔ：数据包构造和发送开发库；ｌｉｂｐｃａｐ：数据包捕获开发库；ｌｉｂｄｎｓｒｅｓ：无阻塞的域名解决开发库；ｌｉｂｐｃｒｅ：Ｐｅｒｌ的正规表达库。安装好了上述库之后就可以把ｈｏｎｅｙｄ安装上了，然后就可以对它进行配置。

在Ｈｏｎｅｙｄ框架中，是通过模板来配置虚拟蜜罐系统的，一个模板相当于一个虚拟的计算机系统。配置文件其实是一个简单的文本文件。用ｃｒｅａｔｅ命令来创建一个模板。用ｓｅｔ命令把从Ｎｍａｐ指纹文件中得到的个性分配给模板，并设置系统支持的网络协议的缺省行为，行为可以有三种选项：ｏｐｅｎ—指定端口开放、用ｂｉｎｄ命令分ｒｅｓｅｔ—指定端口关闭、ｂｌｏｃｋ—指定协议的数据包都被丢弃。

用ａｄｄ命令来指定服务。配ＩＰ地址、

５结束语

蜜罐已经成为安全专家所青睐的对付黑客的有效工具之一。而虚拟蜜罐使用简单，配置灵活，占用的资源少，不仅仅可以捕获

到那些防火墙之外的脚本，还可以发现自己组织中的入侵者；收集的数据和信息有很好的针对性和研究价值。既可作为独立的安全工具，还可以与其他的安全机制联合使用。蜜罐也有缺点和不足，主要是收集数据面比较狭窄和可能会引入新的风险。面对不断该进的黑客技术，蜜罐技术也要不断的完善和更新。

参考文献：

［１］周莲英．虚拟蜜罐系统框Ｈｏｎｅｙｄ的分析与研究［Ｊ］．计算机工程与应用，２００５（２７）．［２］翟继强，叶飞．利用Ｈｏｎｅｙｄ构建虚拟网络［Ｊ］．计算机安全，２００６，（３）：２６－４８．

［３］官凌青，娄嘉鹏，刘莉．蜜罐Ｈｏｎｅｙｄ的扩展设计与实现［Ｊ］．北京电子科技学院学报，２００６，１４（４）：８３－８６，９０．［４］ｈｔｔｐ：／／ｗｗｗ．ｃｉｔｉ．ｕｍｉｃｈ．ｅｄｕ／ｕ／ｐｒｏｖｏｓ／ｈｏｎｅｙｄ／［ＥＢ／ＯＬ］．

（上接第８４１页）

通过ＲＤＦ，可以使用自己的词汇表描述任何资源，由于使用的是结构化的ＸＭＬ数据，搜索引擎可以理解元数据的精确含义，使得搜索变得更为智能和准确，完全可以避免当前搜索引擎经常返回无关数据的情况。

４．４Ｏｎｔｏｌｏｇｙ

仅有ＸＭＬ和ＲＤＦ是不够的，因为ＸＭＬ中的标签和ＲＤＦ中的属性集都没有任何限制。例如：ＸＭＬ可以用“＜Ａｕｔｈｏｒ＞Ｔｏｍ＜／Ａｕ－表示Ｔｏｍ是教师，而ＲＤＦ片段“ｔｈｏｒ＞”＜ｒｄｆ：Ｄｅｓｃｒｉｐｔｉｏｎａｂｏｕｔ＝ｈｔｔｐ：／／ｗｗｗ．ｗ３．ｏｒｇ／Ｈｏｍｅ／Ｌａｓｓｉｌａ＞

＜ｓ：Ｃｒｅａｔｏｒ＞ＯｒａＬａｓｓｉｌａ＜／ｓ：Ｃｒｅａｔｏｒ＞

描述了Ｗｅｂ页的创建者问题，上面的Ａｕｔｈｏｒ和Ｃｒｅａｔｏｒ完全可以用Ｗｒｉｔｅｒ来代替。由于ＸＭＬ和ＲＤＦ在处理＜／ｒｄｆ：Ｄｅｓｃｒｉｐｔｉｏｎ＞”

语义上存在“一词多义”和“一义多词”的不足，才产生了Ｏｎｔｏｌｏｇｙ。

可共享的知识，从而解决上Ｏｎｔｏｌｏｇｙ通过对概念的严格定义和概念之间的关系来确定概念的精确含义，可以表示共同认可的、

面产生的问题。它是解决语义层次上Ｗｅｂ信息共享和交换的基础，所以ＯＷＬ相对ＸＭＬ、ＲＤＦ和ＲＤＦＳｃｈｅｍａ拥有更多的机制来表达语义。不足之处是Ｏｎｔｏｌｏｇｙ在建模时必须有领域专家的参与，相对更加严格和困难。它在语义ｗｅｂ中的应用虽刚刚起步，但前途

一片光明。

５结论

任何搜索引擎的最终目标都是最准确、最全面、最快速的给用户以其需求信息，从这个意义上看，研究和开发基于语义Ｗｅｂ的ＩＳＥ应该是很有必要和迫在眉睫的。一旦它的研究取得进展，其应用前景是不可估量的，想象一下：

如果互联网上的信息资源具有应用程序能够理解的含义，并且信息资源的处理过程实现了自动化、智能化会是什么样子；如果有这么一种搜索引擎，能对任何特定领域中积累的大量信息资源进行有效管理，使用户所问即所得会是一种什么样子；如果还有一种搜索引擎，能根据信息资源所具有的领域知识含义，将分散在各种异构系统中的相关信息方便、快速地融合后呈现给用户又会是什么样子！

人类的知识建立在两个基石之上：语义学和数学。在数字计算方面，计算机已远远超越了人类，而帮助计算机理解与掌握语言逻辑将成为下一阶段的重点。

在超文本技术基础上开发的超文本传输协议（Ｈｔｔｐ）以及超级链接技术令互联网上的网页可以连接，构成了二维的应用。而源自语义学的语义网不仅使网页，以及互联网上所有的内容都得以沟通，并将互联网从二维带入三维，毫无疑问会成为下一代互联网的神经系统，令互联网的巨大潜能真正得以释放。

所以说，构建有关语义Ｗｅｂ的智能搜索引擎，是下一代搜索引擎的必然选择。

参考文献：

［１］Ｗ３Ｃ，ＥｘｔｅｎｓｉｂｌｅＭａｒｋｕｐＬａｎｇｕａｇｅ（ＸＭＬ１．０（ＳｅｃｏｎｄＥｄｉｔｉｏｎ）．ｈｔｔｐ：／／ｗｗｗ．ｗ３．ｏｒｇ／ＴＲ／ＲＥＣ－ｘｍｌ．

［２］Ｗ３Ｃ，ＲｅｓｏｕｒｃｅＤｅｓｃｒｉｐｔｉｏｎＦｒａｍｅｗｏｒｋ（ＲＤＦ）ＭｏｄｅｌａｎｄＳｙｎｔａｘＳｐｅｃｉｆｉｃａｔｉｏｎ．ｈｔｔｐ：／／ｗｗｗ．ｗ３．ｏｒｇ／ｌＲ／１９９９／ＲＥＣ－ｒｄｆ－ｓｙｎｔａｘ－１９９９０２２／．［３］ＧｏｏｇｌｅＳｅａｒｃｈＥｎｇｉｎｅ．ｈｔｔｐ／：／ｗｗｗ．ｇｏｏｇｌｅ．ｃｏｍ／．［４］ＢａｉｄｕＳｅａｒｃｈＥｎｇｉｎｅ，ｈｔｔｐ：／／ｗｗｗ．ｂａｉｄｕ．ｃｏｍ／．

［５］ＭａｒｋＢｉｒｂｅｃｋ，著，裴剑锋，高伟，徐继伟，等，译．ＸＭＬ高级编程（第二版）．北京：机械工业出版社，２００２．

８６６

电脑知识与技术

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文

全部栏目

语义网的研究和发展对未来搜索引擎的影响