本栏目责任编辑:冯蕾
语义网的研究和发展对未来搜索引擎的影响
陈鑫,石俊飞(河南师范大学计算机与信息技术学院,河南新乡453007)
摘要:目前在全球市场里占据主要份额的谷歌、雅虎、百度等搜索引擎,提供给人们的依旧是比较笨拙的工具,因为它们始终受制于
研究和发展,给搜索引擎带来了新的传统Web,对搜索关键字的精确度要求苛刻,处理自然语言的能力很低。语义网(SW)的提出、
希望。而基于语义Web的智能搜索引擎,则是下一代搜索引擎的必然选择。关键词:中文分词;网络蜘蛛;XML;Web本体语言(OWL);资源描述框架(RDF)中图分类号:TP393
文献标识码:A
文章编号:1009-3044(2008)14-20840-02
SemanticWebResearchandDevelopmentfortheFutureofSearchEngineCHENXin,SHIJun-Fei
(HenanNormalUniversity,ComputerandInformationTechnologyInstitute,Xinxiang453007,China)
Abstract:TheWebwasdesignedasaninformationspace,withthegoalthatitshouldbeusefulnotonlyforhuman-humancommunica-tion,butalsothatmachineswouldbeabletoparticipateandhelp.Oneofthemajorobstaclestothishasbeenthefactthatmostinforma-tionontheWebisdesignedforhumanconsumption,andevenifitwasderivedfromadatabasewithwelldefinedmeanings(inatleastsometerms)foritscolumns,thatthestructureofthedataisnotevidenttoarobotbrowsingtheweb.Leavingasidetheartificialintelligenceproblemoftrainingmachinestobehavelikepeople,theSemanticWebapproachinsteaddevelopslanguagesforexpressinginformationinamachineprocessableform.Andit'sundoubtedlygivingtoday'ssearchenginesanewchance.Inthiscase,Iputforwardthesimplemodelofintelligentsearchengine.
Keywords:WebSpider;XML;OWL;RDF;ChineseWordSegmentation
1搜索引擎的现状
对搜索关键字的精确度要求苛刻,处理自然语言的能力很低;融合不同来源相关信息的能力不高;不利于弱势群体。正如搜索领域的科学家们常说的那样:人们关于搜索的问题只有5%解决了,而我们还没有利用到搜索潜力的10%。
2搜索引擎的工作原理
2.1搜索引擎的系统架构2.1.1从互联网上抓取网页
网络蜘蛛是一种能够自动从互联网上抓取网页的HTML代码并沿着一个网页中的所有URL爬到其它网页的机器人程序,它
查准都有影响,并决重复此过程,并把爬过的所有网页收集到服务器中。网络蜘蛛在搜索引擎中占有重要位置,对搜索引擎的查全、
定了搜索引擎数据容量的大小,而且网络蜘蛛的好坏直接影响搜索结果页中死链接(即链接所指向的网页已经不存在)的个数。目
孤链前如何才能发现更多的网页、如何才能令提取的网页内容更精确,如何才能进一步提高蜘蛛的抓取速度以及辨别和处理死链、
等的能力都是网络蜘蛛需要进一步改进的问题。2.1.2建立索引数据库
由索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在URL、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。2.1.3在索引数据库中搜索
当用户输入关键词搜索后,分解搜索请求,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。2.1.4对搜索结果进行处理排序
所有相关网页针对该关键词的相关信息在索引库中都有记录,只需综合相关信息和网页级别形成相关度数值,然后进行排序,相关度越高,排名越靠前。最后由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。
2.2中文分词
英文是以单词为单位的,词和词之间靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。例如,英文词组“,用中文则为:“河南师范大学”。计算机可以很简单通过空格知道“是一个单词,但是不能很HenanNormalUniversity”Normal”
河南容易明白“师”、“范”两个字合起来才表示一个词。把中文的汉字序列切分成有意义的词,就是中文分词,有些人也称为切词。“
师范大学”,分词的结果是:“河南|师范|大学”。由此可见,语义划分的合适与否直接关系到搜索引擎的搜索结果。
3语义Web
语义网(SW)是由公认的互联网之父,W3C的始创者伯纳斯・李(TimBerners-Lee)提出的。其目标是使得Web上的信息具有计收稿日期:2008-03-12
作者简介:陈鑫(1987-),男,河南南阳人,河南师范大学计算机与信息技术学院2005级学生,主要研究方向:计算机科学与技术等。
840
电脑知识与技术
本栏目责任编辑:冯蕾
网络通讯及安全
算机可以理解的语义,并使计算机能够根据语义进行判断。在SW中,信息都被赋予了明确的含义,机器能够自动地处理和集成网上可用的信息。语义网使用XML来定义定制的标签格式,用RDF的灵活性来表达数据。语义网的基本体系结构如图1,语义网的工作流程如图2。
图1语义网的基本体系结构图
语义网的工作流程图
开发语义网的两个重要技术己经就绪,它们是XML(可扩展标记语言)和RDF(资源描述框架)。XML让每个人都能创建自己的标签,来对网页或页面的部分文字进行注释。它允许用户在文档中加人任意的结构,但无需说明这些结构的含意。含意由RDF来表达。
动词和宾语。在RDF中,文档中的声明通常是某个事物(人、RDF中的代码包含一组组的三元组,每个三元组相当像句子中的主语、
网页或其他任何东西)对于某些值(另一个人、另一网页)拥有某些属性(例如“是姐姐”,“是作者”这种结构用于描述由机器处理的大)。量数据,是非常自然的方法。
图2
4基于语义Web的ISE雏形
4.1ISE雏形图
ISE雏形图如图3所示。
图3ISE雏形图
4.2可扩展标记语言(XML)
XML包括XML元数据文件、Schema文件、XSLT显示文件、XLink、Xpath等一系列相关部分,但对非计算机人士,可以只看它的元数据文件。XML的特点主要是开发灵活。因为它数据和格式分离设计,并不再局限于HTML文件中标准的TAG。而且又支持Unicode,所以可使用中文标记。4.3资源描述框架(RDF)
RDF是一个处理元数据的XML应用。众所周知,对资源的描述是领域和应用相关的,比如对一本书的描述和对一个Web站点的描述是不一样的,即对不同资源的描述需要采取不同的词汇表。因此RDF规范并没有定义描述资源所用的词汇表,而是定义了一些规则,这些规则是各领域和应用定义用于描述资源的词汇表时必须遵循的。RDF也提供了描述资源时具有基础性的词汇表。
(下转第866页)
841
网络通讯及安全
罐布置得越多,蜜罐之一就越容易收到蠕虫病毒的刺探。
本栏目责任编辑:冯蕾
4虚拟蜜罐的配置
我们可以选取2台P4微机:1台作为攻击机,另1台作为实现蜜罐系统的宿主机,它有一个真实的IP地址。在安全LinuxRedHat9.0系统上运行虚拟蜜罐框架Honeyd。通过模拟操作系统的TCP/IP栈来建立蜜罐,使用与Nmap或Xprobe相同的指纹数据库来模拟操作系统,来响应针对虚拟蜜罐的网络请求。
honeyd的安装需要以下库的支持:libevent:异步事件库;libdnet:数据包构造和发送开发库;libpcap:数据包捕获开发库;libdnsres:无阻塞的域名解决开发库;libpcre:Perl的正规表达库。安装好了上述库之后就可以把honeyd安装上了,然后就可以对它进行配置。
在Honeyd框架中,是通过模板来配置虚拟蜜罐系统的,一个模板相当于一个虚拟的计算机系统。配置文件其实是一个简单的文本文件。用create命令来创建一个模板。用set命令把从Nmap指纹文件中得到的个性分配给模板,并设置系统支持的网络协议的缺省行为,行为可以有三种选项:open—指定端口开放、用bind命令分reset—指定端口关闭、block—指定协议的数据包都被丢弃。
用add命令来指定服务。配IP地址、
5结束语
蜜罐已经成为安全专家所青睐的对付黑客的有效工具之一。而虚拟蜜罐使用简单,配置灵活,占用的资源少,不仅仅可以捕获
到那些防火墙之外的脚本,还可以发现自己组织中的入侵者;收集的数据和信息有很好的针对性和研究价值。既可作为独立的安全工具,还可以与其他的安全机制联合使用。蜜罐也有缺点和不足,主要是收集数据面比较狭窄和可能会引入新的风险。面对不断该进的黑客技术,蜜罐技术也要不断的完善和更新。
参考文献:
[1]周莲英.虚拟蜜罐系统框Honeyd的分析与研究[J].计算机工程与应用,2005(27).[2]翟继强,叶飞.利用Honeyd构建虚拟网络[J].计算机安全,2006,(3):26-48.
[3]官凌青,娄嘉鹏,刘莉.蜜罐Honeyd的扩展设计与实现[J].北京电子科技学院学报,2006,14(4):83-86,90.[4]http://www.citi.umich.edu/u/provos/honeyd/[EB/OL].
(上接第841页)
通过RDF,可以使用自己的词汇表描述任何资源,由于使用的是结构化的XML数据,搜索引擎可以理解元数据的精确含义,使得搜索变得更为智能和准确,完全可以避免当前搜索引擎经常返回无关数据的情况。
4.4Ontology
仅有XML和RDF是不够的,因为XML中的标签和RDF中的属性集都没有任何限制。例如:XML可以用“<Author>Tom</Au-表示Tom是教师,而RDF片段“thor>”<rdf:Descriptionabout=http://www.w3.org/Home/Lassila>
<s:Creator>OraLassila</s:Creator>
描述了Web页的创建者问题,上面的Author和Creator完全可以用Writer来代替。由于XML和RDF在处理</rdf:Description>”
语义上存在“一词多义”和“一义多词”的不足,才产生了Ontology。
可共享的知识,从而解决上Ontology通过对概念的严格定义和概念之间的关系来确定概念的精确含义,可以表示共同认可的、
面产生的问题。它是解决语义层次上Web信息共享和交换的基础,所以OWL相对XML、RDF和RDFSchema拥有更多的机制来表达语义。不足之处是Ontology在建模时必须有领域专家的参与,相对更加严格和困难。它在语义web中的应用虽刚刚起步,但前途
一片光明。
5结论
任何搜索引擎的最终目标都是最准确、最全面、最快速的给用户以其需求信息,从这个意义上看,研究和开发基于语义Web的ISE应该是很有必要和迫在眉睫的。一旦它的研究取得进展,其应用前景是不可估量的,想象一下:
如果互联网上的信息资源具有应用程序能够理解的含义,并且信息资源的处理过程实现了自动化、智能化会是什么样子;如果有这么一种搜索引擎,能对任何特定领域中积累的大量信息资源进行有效管理,使用户所问即所得会是一种什么样子;如果还有一种搜索引擎,能根据信息资源所具有的领域知识含义,将分散在各种异构系统中的相关信息方便、快速地融合后呈现给用户又会是什么样子!
人类的知识建立在两个基石之上:语义学和数学。在数字计算方面,计算机已远远超越了人类,而帮助计算机理解与掌握语言逻辑将成为下一阶段的重点。
在超文本技术基础上开发的超文本传输协议(Http)以及超级链接技术令互联网上的网页可以连接,构成了二维的应用。而源自语义学的语义网不仅使网页,以及互联网上所有的内容都得以沟通,并将互联网从二维带入三维,毫无疑问会成为下一代互联网的神经系统,令互联网的巨大潜能真正得以释放。
所以说,构建有关语义Web的智能搜索引擎,是下一代搜索引擎的必然选择。
参考文献:
[1]W3C,ExtensibleMarkupLanguage(XML1.0(SecondEdition).http://www.w3.org/TR/REC-xml.
[2]W3C,ResourceDescriptionFramework(RDF)ModelandSyntaxSpecification.http://www.w3.org/lR/1999/REC-rdf-syntax-1999022/.[3]GoogleSearchEngine.http/:/www.google.com/.[4]BaiduSearchEngine,http://www.baidu.com/.
[5]MarkBirbeck,著,裴剑锋,高伟,徐继伟,等,译.XML高级编程(第二版).北京:机械工业出版社,2002.
866
电脑知识与技术
因篇幅问题不能全部显示,请点此查看更多更全内容