基于Web结构挖掘算法的网站构建

2023-01-18 来源：客趣旅游网

ＩＳＳＮ　１　００９－３０４４　Ｅ～ｍａｉｌ：ｉｎｆｏ＠ｃｃｃｃ．ｎｅｔ．ＣＢ　ＣｏｍｐｕｔｅｒＫｎｏｗｌｅｄｇｅＡｎｄ　Ｔｅｃｈｎｏｌｏｇｙ电脑知识与技术　ｈｔｔｐ：／／ｗｗｗ．ｄｎｚｓ．ｎｅｔ．ｃｎ　Ｖｏ１．４，Ｎｏ．７，Ｄｅｃｅｍｂｅｒ　２００８，ＰＰ．１６１９－１６２０，１６２９　Ｔｅｌ：＋８６～５５　１—５６９０９６３　５６９０９６４　基于Ｗｅｂ结构挖掘算法的网站构建　叶琳莉　，林嵩凯　（１．福建农林大学计算与信息学院，福建福州３５０００２；２．福建省邮电学校，福建福州３５０００８）　摘要：Ｗｅｂ结构挖掘是对ｗｅｂ的链接结构进行分析。该文概述Ｗｅｂ结构挖掘技术，列举其常见算法。并对ＰａｇｅＲａｎｋ和ＨＩＴＳ这两　种最重要的Ｗｅｂ结构挖掘算法分析比较。通过对算法规律的研究，指出在网站设计规划时的策略以提高网站的价值　关键词：Ｗｅｂ结构挖掘；ＰａｇｅＲａｎｋ：ＨＩＴＳ：算法　中图分类号：ＴＰ３１１　文献标识码：Ａ　文章编号：１００９—３０４４（２ｏｏ８）３４—１６１９—０２　Ｂｕｉｌｄｉｎｇ　ｔｈｅ　Ｗｅｂ　Ｓｉｔｅ　Ｂａｓｅｄ　Ｗｅｂ　Ｓｔｒｕｃｔｕｒｅ　Ｍｉｎｉｎｇ　Ａｒｉｔｈｍｅｔｉｃ　ＹＥ　Ｌｉｎ—ｌｉ　，ＬＩＮ　Ｓｏｎｇ—ｋａｉ　（１．Ｃｏｍｐｕｔｅｒ　ａｎｄ　Ｉｎｆｏｒｍａｔｉｏｎ　ＣｏＵｅｇｅ，Ｆｕｊｉａｎ　Ａｇｒｉｃｕｌｔｕｒｅ　ａｎｄ　Ｆｏｒｅｓｔ　Ｕｎｉｖｅｒｓｉｔｙ，Ｆｕｚｈｏｕ　３５０００２，Ｃｈｉｎａ；２．Ｓｃｈｏｏｌ　ｏｆ　Ｐｏｓｔ　ａｎｄ　Ｔｅｌｅｃｏｍ—　ｍｕｎｉｃａｔｉｏｎｓ　ｏｆ　Ｆｕｊｉａｎ　Ｐｒｏｖｉｎｃｅ，Ｆｕｚｈｏｕ　３５０００８，Ｃｈｉｎａ）　Ａｂｓｔｒａｃｔ：Ｔｈｉｓ　ｐａｐｅｒ　ｉｎｔｒｏｄｕｃｅｓ　ｔｈｅ　ｃｏｎｃｅｐｔｉｏｎ　ｏｆ　ｗｅｂ　ｓｔｒｕｃｔｕｒｅ　ｍｉｎｉｎｇ，ａｎｄ　ａｎａｌｙｓｅｓ　ｔｈｅ　ａｕｔｈｏｒｉｔａｔｉｖｅ　ａｌｇｏｒｉｔｈｍｓ　ｂａｓｅｄ　ｏｎ　Ｗｅｂ　ｈｙｐｅｒ－　ｌｉｎｋ　ｓｔｒｕｃｔｕｒｅ．Ａｔ　ｔｈｅ　ｅｎｄ，ｃｏｒｒｅｌａｔｉｖｅ　ａｐｐｌｉｃａｔｉｏｎ　ｏｎ　ｉｎｃｒｅａｓｉｎｇ　ｔｈｅ　ｒａｎｋ　ｏｆ　ｔｈｅ　ｗｅｂｓｉｔｅ　ｂｙ　Ｗｅｂ　ｓｔｒｕｃｔｕｒｅ　ｍｉｎｉｎｇ　ａｌｇｏｒｉｔｈｍｓ．　ｋｅｙ　ｗｏｒｄｓ：ｗｅｂ　ｓｔｕｒｃｔｕｒｅ　ｍｉｎｉｎｇ；ｐａｇｅｒａｎｋ；ｈｙｐｅｒｌｉｎｋ—ｉｎｄｕｃｅｄ　ｔｏｐｉｃ　ｓｅａｒｃｈ（ＨＩＴＳ）；ａｇｏｒｉｔｈｍ　１引言　数据挖掘是将人工智能技术和数据库技术紧密结合发展出的一门新的技术，利用计算机从庞大的数据中智能地、自动地抽取　有价值的知识模式，以满足人们不同应用的需要。随着互联网的普及和迅猛发展、Ｗｅｂ上信息量的爆炸式增长．网上的资源得到极　大丰富，但也充斥着大量的垃圾信息，人们迫切需要能从这些纷繁芜杂的信息中找到有用知识的工具。鉴于数据挖掘工具的日益成　熟完善，人们自然而然想到了要把数据挖掘技术应用到Ｗｅｂ上来。　Ｗｅｂ挖掘指在ｗｗｗ上挖掘潜在的、有用的模式及隐藏的信息过程。根据对Ｗｅｂ数据的感兴趣程度不同，Ｗｅｂ挖掘一般可以　分为三类：Ｗｅｂ内容挖掘（Ｗｅｂ　Ｃｏｎｔｅｎｔ　ｍｉｎｉｎｇ）、Ｗｅｂ结构挖掘（Ｗｅｂ　ｓｔｒｕｃｔｕｒｅ　ｍｉｎｉｎｇ）、Ｗｅｂ用法挖掘（Ｗｅｂ　ｕｓａｇｅ　Ｍｉｎｉｎｇ）　其中Ｗｅｂ结构挖掘是对Ｗｅｂ的链接结构进行分析，以对超链接分析来评估基础Ｗｅｂ资源，从而发现有用模式，提高搜索质量。　２　Ｗｅｂ结构挖掘综述　传统的ＷＥＢ搜索引擎大多数是基于关键字匹配的，返回的结果是包含查询项的文档，也有基于目录分类的搜索引擎。这些搜　索引擎的结果并不令人满意。有些站点有意提高关键字出现的频率来提高自身在搜索引擎中的重要性，破坏搜索引擎结果的客观　性和准确性。另外，有些重要的网页并不包含查询项。搜索引擎的分类目录也不可能把所有的分类考虑全面，并且目录大多靠人工　维护，主观性强，费用高，更新速度慢。　Ｗｅｂ结构包括不同网页之间的超链接结构和一个网页内部的可以用ＨＴＭＬ，ＸＭＬ表示成的树开结构，以及文档ＵＲＬ中的目录　路径结构等。Ｗｅｂ页之间的超链接结构中包含了许多有用的信息，当网页Ａ到网页Ｂ存在一个超链接时，则说明网页Ａ的作者认　为网页Ｂ的内容非常重要，且两个网页的内容具有相似的主题。因此，指向一个文档的超链接体现了该文档的被引用情况。如果大　量的链接都指向了同一个网页，我们就认为它是一个权威页。这就类似于论文对参考文献的引用，如果某一篇文章经常被引用，就　说明它非常重要。这种思想有助于对搜索引擎的返回结果进行相关度排序。从ＷＷＷ的组织结构和链接关系中推导知识。通过对　Ｗｅｂ站点的结构进行分析、变形和归纳，将Ｗｅｂ页面进行分类，分析一个网页链接和被链接数量以及对象来建立Ｗｅｂ自身的链接　结构模式．确定不同页面问的相似度和关联度信息。定位相关主题的权威站点，可以极大的提高检索结果的质量。　基于这种超链分析的思想，Ｓｅｒｇｅｙ　Ｂｒｉｎ和Ｌａｗｒｅｎｃｅ　Ｐａｇｅ在１９９８年提出了ＰａｇｅＲａｎｋ算法，同年Ｊ．Ｋｌｅｉｎｂｅｒｇ提出了ＨＩＴＳ算法，　其它一些学者也相继提出了另外的链接分析算法，如ＳＡＬＳＡ，ＰＨＩＴＳ，Ｂａｙｅｓｉａｎ等算法。这些算法有的已经在实际的系统中实现和使　用，并且取得了良好的效果　。　３　ＷＥＢ结构挖掘常见算法　３．１　ＰａｇｅＲａｎｋ算法　ＰａｇｅＲａｎｋ的具体算法是，将某个页面的ＰａｇｅＲａｎｋ除以存在于这个页面的正向链接，由此得到的值分别和正向链接所指向的页　面的ＰａｇｅＲａｎｋ相加．即得到了被链接的页面的ＰａｇｅＲａｎｋ。　算法基于“从许多优质的网页链接过来的网页，必定还是优质网页”的回归关系，来判定所有网页的重要性。Ｇｏｏｇｌｅ认为当某个　网页有链接到另一个网页时，它就对该网“投了一票”。一个网页的得票越多，则认为它的重要性也就越高。进一步说，投票网页的重　要性也决定着票本身的重要程度．Ｇｏｏｇｌｅ通过计算网页得票来得到页面重要性。计算ＰａｇｅＲａｎｋ值时每票的重要性都要考虑在内。　简单将ＰａｇｅＲａｎｋ算法描述如下：将网络看作一个有向图：Ｇ＝（Ｖ，Ｅ），其中Ｖ是节点［网页）集，Ｅ是边（当且仅当存在从页面ｉ到　页面ｉ的链接时存在从节点ｉ到节点ｉ的边）集。　收稿日期：２００８—０９－１６　本栏目责任编辑：冯蕾　－　一　网络矗讯及安全・－１６１９　Ｃｏｍｐｕ￣ｒＫｎｏｗｌｅｄｇｅＡｎｄ　Ｔｅｃｈｎｏｌｏｇｙ电脑知识与技术　２００８年第４卷第７期（总第３４期）　ＰａｇｅＲａｎｋ的基本思想在于一个页面重要或者有链接指向它的页面多，或者有链接指向它的页面重要或者二者兼而有之。其初　始定义如下：　ＰＲ（ｑ）：　ｐ磊　　∈占　Ｌ（　　）　其中：ＰＲ（ｑ）：页面ｑ的网页级别，ＰＲ（ｐ）：页面Ｐ的网页级别，页面Ｐ链向页面ｑ，Ｎ（ｐ）：页面Ｐ链出的链接数量。　ＰａｇｅＲａｎｋ在具体实现时会忽略掉Ｗｅｂ页面上的文本和其它内容，只考虑页面间的超链接，将网页的ＵＲＬ对应成唯一的整数，　把每一个超链接用其整数ＩＤ存放到索引数据库中，经过预处理（如去除数据库中的悬摆指针）之后，设每个网页的初始ＰＲ值为ｌ，　通过以上的递归算法计算每一个网页的ＰａｇｅＲａｎｋ值，反复进行迭代，直至结果收敛。　３．２ＨＩＴＳ算法　Ｈｉｌｌ　ＴｏＤ算法的指导思想和ＰａｇｅＲａｎｋ是一致的，即都通过反相链接的数量和质量来确定搜索结果的排序权重。但超链接的应　用存在着许多的潜在的问题，如大量的链接是为了导航（如“点击此按钮返回主页”）或付费广告而创建的。而出于商业竞争的原因，　尽管内容相关．有些网站又不会把超链接指向他们的竞争对手。　ＨＩＴＳ首先利用一个传统的文本搜索引擎获取一个与主题相关的网页根集合，然后向根集合中扩充那些指向根集合中网页的网　页和根集合中网页所指向的网页，这样就获得了一个更大的基础集合。假设最终基础集合中包含Ｎ个网页，那么对于ＨｒＰＳ算法来　说，输入数据就是一个ＮｘＮ的相邻矩阵Ａ，其中如果网页ｉ存在一个链接到网页ｊ，则Ａ。　＝１，否则Ａ。，＝０。　ＨＩＴＳ算法为每个网页ｉ分配两个度量值：中心度ｈ　和权威度ａ。。设向量ａ＝（ｄ．１，ａ　…，ａ　代表所有基础集合中网页的权威度，而向　量ｈ＝（ｈ　，ｈ　，…，ｌ　）则代表所有的中心度．最初，将这两个向量均置为ｕ＝（１，１，…，１）。操作Ｉｎ（ａ）使向量ａ＝ＡＴｈ，而操作Ｏｕｔ（ｈ）使向量ｈ＝Ａａ．　反复迭代上述两个操作，每次迭代后对向量ａ和ｈ范化，以保证其数值不会使计算溢出．Ｋｌｅｉｎｂｅｒｇ证明经过足够的迭代次数，向量ａ　和ｈ将分别收敛于矩阵ＡｌｒＡ和ＡＡ　的主特征向量。通过以上过程可以看出，基础集合巾网页的中心度和权威度从根本上是由基础　集合中的链接关系所决定的，更具体地说，是由矩阵Ａ　和ＡＡＴ所决定　３．３其它算法及归类　链接分析算法可以用来提高搜索引擎的查询效果，可以发现ｗｗｗ上的重要的社区，可以分析某个网站的拓扑结构，声望，分　类等，可以用来实现文档的自动分类等。归根结底，能够帮助用户在ｗｗｗ海量的信息里面准确找到需要的信息。这是一个正在迅　速发展的研究领域。　ＰａｇｅＲａｎｋ和ＨＩＴＳ是算法中应用最广的两种，而其它一些类似的算法有的处于研究阶段，有的已经在具体的系统实现了。这些算　法大体可以分为３类：基于随机漫游模型的，比如ＰａｇｅＲａｎｋ，Ｒｅｐｕｔｉｏｎ算法；基于Ｈｕｂ和Ａｕｔｈｏｒｉｔｙ相互加强模型的，如ＨＩＳ及其变　Ｔ种；基于概率模型的，如ＳＡＬＳＡ，ＰＨＩＴＳ，基于贝叶斯模型的，如贝叶斯算法及其简化版本。所有的算法在实际应用中都结合传统的内容　分析技术进行了优化。一些实际的系统实现了某些算法，并且获得了很好的效果，Ｇｏｏｇｔｅ实现了ＰａｇｅＲａｎｋ算法，ＩＢＭ　Ａｌｍａｄｅｎ　Ｒｅ．　ｓｅａｒｃｈ　Ｃｅｎｔｅｒ的Ｃｌｅｖｅｒ　Ｐｒｏｊｅｃｔ实现了ＡＲＣ算法，多伦多大学计算机系实现了一个原型系统ＴＯＰＩＣ，来计算指定网页有声望的主题。　４　ＰａｇｅＲａｎｋ与ＨＩＴＳ算法比较　显而易见，两者均是基于链接分析的搜索引擎排序算法，并且在算法中二者均利用了特征向量作为理论基础和收敛性依据．但　两种算法的不同点也非常明显　。　ＰａｇｅＲａｎｋ是对ｗｗｗ的整体分析，通过模拟在ＷＷＷ上的随机游动对每一个网页计算其ＰａｇｅＲａｎｋ值。因此该算法是独立于　用户查询的，可以对用户要求产生快速的响应。ＨＩＴＳ算法是对ＷＷＷ的局部分析，是根据特定的查询产生不同的根集．然后计算网　页的Ａｕｔｈｏｒｉｔｙ值和Ｈｕｂ值。该算法是依赖于用户查询的，实时性差。　ＨＩＴＳ算法存在“主题漂移’’的现象，如用户在查询“量子物理学”时，由于算法中需要对初次检索结果的根集扩充成基集，最终的　检索结果中会包含大量的有关“物理学”的站点。因此，ＨＩＴＳ适合与宽主题的查询，而ＰａｇｅＲａｎｋ则较好地克服了“主题漂移”的现象。　５应用ＷＥＢ结构挖掘算法提高网站价值　５．１选择链接策略　在互联网的海洋中，最重要的就是互联互通，不被其他网站引用的网站就是“信息孤岛”。ＷＥＢ结构挖掘引擎所有算法都将网页　中的链接作为主要挖掘的对象，特别是实际应用中，大多数用户都是使用基于ＰａｇｅＲａｎｋ算法的Ｇｏｏｇｌｅ，Ｙａｈｏｏ，Ｂａｉｄｕ都搜索引擎，　因此可以采取以下几种策略，提高网站的排名。　１）广泛链接策略。来自其他网站的任何反相链接都是有用的。当前常见的新搜索引擎已经不再只是网站目录的索引．而是更全　面的网页索引，所以无论来自其他网站任何地方的反相链接都是非常有价值的　同时如果一个网页只有大量的进入链接，而缺乏导出链接，也会被搜索引擎认为是没有价值的站点。保证你的网站能够帮助搜　索引擎更准确地判断哪些是对用户最有价值的信息，也就是说如果你的网站只有外部反向链接而没有导出链接的话．也会对你的　网站在搜索结果中的表现带来负面影响。　２）高质量链接策略。被ＰａｇｅＲａｎｋ高的网站引用能更快地提高ＰａｇｅＲａｎｋ数量只是关键因素之一，来自ＰａｇｅＲａｎｋ高的页面的链　接还能更快的提高被链接目标的ＰａｇｅＲａｎｋ　３）无空链接策略。应当保持网站自身的健康，经常利用坏链检查工具检查网站中是否有死链。同时保持网页内容／链接的稳定性　和持久性：在搜索引擎索引中网页存在的历史也是一个比较重要的因素，而且历史比较久的网页被链接的几率越高。为了保证自己　网页能够被比较持久的被其他网站的页面引用，如果自己网页中有链接更新时，最好能保留旧的页面并做好链接转向，以保持内容　的连续性。　５．２构建友好的网站结构　有了合适的链接，就可以在算法中取得一个比较理想的分值，但由于数据的挖掘过程中由机器Ｓｐｉｄｅｒ自动完成。因此还必须考　虑让引擎能完整的采集到所设计的链接，这就需要按照下面方式构建友好的网站结构：　１６２０　网络通讯趸安全　；＊　（下转第１６２９页）　本栏目责任编辑：冯蕾　周新：．ＮＥＴ平台下移动Ａｇｅｎｔ系统开发技术研究　当运行ＴｅｓｔＡｐｐ．ｅｘｅ时，．ＮＥＴ　ＣＬＲ（通用语言运行环境）会首　先创建一个应用程序域（ＡｐｐＤｏｍａｉｎ）来容纳ＴｅｓｔＡｐｐ．ｅｘｅ　接着，ＣＬＲ　将引用的程序集加载到该应用程序域中　ＭＳＣｏｒＬｉｂ．ｄｌｌ是一个基　本的程序集，该程序集会自动被加载到每个应用程序域中。然后，　ＣＬＲ加载应用程序（即ＴｅｓｔＡｐｐ．ｅｘｅ）所属以及引用的程序集。程序　集的加载一般在应用程序启动时通过ＣＬＲ自动加载完毕。然而，．　ＮＥＴ平台也提供了一种应用程序运行后动态加载程序集的方法，　即文章前面提到的反射技术．通过该技术动态加载程序集、获取　类类型、创建该类实例、调用实例中的方法．使得动态执行移动Ａ—　ｇｅｎｔ代码成为可能。　在移动Ａｇｅｎｔ系统开发实例中，对程序集加载运行的设计思　路如下：　首先，在Ａｇｅｎｔ基类的Ｍｏｖｅ方法中加入ＴｒａｎｓｆｅｒＡｇｅｎｔＡｓｓｅｍ—　ｂｌｉｅｓＴｏＨｏｓｔ方法，将程序集传送至服务端。　其次．在ＡｇｅｎｔＨｏｓｔ远程对象类巾．增加ＩｓＡｓｓｅｍｂ１ｖＩｎｓｔａｌｌｅｄ　（程序集安装判定）和ＳａｖｅＡｓｓｅｍｂｌｖＢｉｔｓ（按位存储程序集）。方法　图３应用程序域中的组件及相互关系　ＩｓＡｓｓｅｍｂｌｖＩｎｓｔａｌｌｅｄ使用参数提供的名称和路径来调用程序集，如　果失败，即程序集没有安装。ＳａｖｅＡｓｓｅｍｂｌｖＢｉｔｓ方法也是使用程序　集的全名，将其按二进制方式存放到指定的路径。　最后，在ＡｇｅｎｔＨｏｓｔ类中，增强ＨｏｓｔＡｇｅｎｔ方法的功能，利用反射机制，根据路径调用存储的程序集，取得移动Ａｇｅｎｔ的类，并执　行Ａｇｅｎｔ的Ｒｕｎ方法。　其中有些细节需要说明，在Ａｇｅｎｔ基类传递程序集前，需要调用ＡｇｅｎｔＨｏｓｔ中的ＩｓＡｓｓｅｍｂｌｙＩｎｓｔａ１ｌｅｄ来判断相关的程序集是否已　经安装，在没有安装的情况下才发送，当然还需要通过递归的方法将与　亥程序集有依赖关系的程序集一并发送。为提高程序集的管　理效率，可以将程序集获取、解析、存储、查找等方法统一归属至一个辅助类如ＡｓｓｅｍｂｌｙＭａｎａｇｅｒｔ３１。　５结束语　移动Ａｇｅｎｔ系统开发面临着信道建立、代码移动、程序集加载运行等主要难题，微软．ＮＥＴ平台中的Ｒｅｍｏｔｉｎｇ和反射技术，为系　统开发提供了很好的环境支撑。大大简化了开发过程。．ＮＥＴ平台的强大功能有助于推动移动Ａｇｅｎｔ系统的普及，发挥移动Ａｇｅｎｔ系　统在数据采集、网络管理、科学计算等领域的突出优势。　参考文献：　【１］李朝纯，郭颂．移动Ａｇｅｎｔ系统的研究【ＪＪ．武汉理工大学学报，２００４，２６（１）：３８－４１．　ｆ２］Ｃｈｅｎ　Ｘ．应用框架的设计与实现——．ＮＥＴ平台【Ｍ】．温昱，靳向阳，译．北京：电子工业出版社，２００５．　［３］Ｎｅｅｌｙ　Ｍ．Ｗｒｉｔｅ　Ｍｏｂｉｌｅ　Ａｇｅｎｔｓ　Ｉｎ．ＮＥＴ　Ｔｏ　Ｒｏａｍ　Ａｎｄ　Ｉｎｔｅｒａｃｔ　Ｏｎ　Ｙｏｕｒ　Ｎｅｔｗｏｒｋ［ＥＢ／ＯＬ］．ｈｔｔｐ：／／ｍｓｄｎ．ｍｉｃｒｏｓｏｆｔ．ｃｏｍ］ｅｎ—ｕｓ／ｍａｇａｚｉｎｅ／　ＣＣ　１　６３６４９．ａｓｐｘ．　（上接第１６２０页）　１１网站结构扁平化。网站目录结构要扁平，因为每深一级目录，ＰＡＧＥＲＡＮＫ降低１—２个档次。假设首页是３，其子可能目录就是　１了，更深可能就无法列入评级范围了。　２１表现和内容的分离。遵循ｗ３ｃ的规范，使用更规范的ＸＨＴＭＬ和ＸＭＬ作为显示格式，ＪａｖａＳｃｒｉｐｔ和ＣＳＳ尽可能和网页分离，一　方面提高代码重用度（也方便页面缓存），另外一方面，由于有效内容占网页长度的百分比高，也能提高相关关键词在页面中的比重　也增加了。因为挖掘引擎会更倾向于＜ｔｉｔｌｅ＞＜ｈ１＞＜ｈ２＞……之间的内容，而不是正文。　３１建立站点地图。让所有的贞面都有能够快速人Ｅ１：站点地图，方便网页爬虫（ｓｐｉｄｅｒ）快速遍历网站所有需要发布的内容。如果　首页就是用Ｆ１ａｓｈ或图片进入的话，无异于将搜索引擎拒之门外，除了ＵＩ设计的用户友好外，ｓｐｉｄｅｒ友好也是非常重要的。　５结束语　网络的结构挖掘技术已经是比较成熟的技术，特别是ＰａｇｅＲａｎｋ算法已经应用到各大搜索网站中。所有的结构挖掘算法都是基　于网页结构中超链接的分析。所不同的仅仅只是分析的效率改进和一些附加的分析条件。通过网站结构算法的研究，可以有效地采　取应对措施，提高网站在搜索引擎中的排名。从而能网站可以有效的被客户搜索。随着电子商务的迅猛发展，企业应当尽早地重视　这种被挖掘的技术应用，提高自身网站的价值。　参考文献：　ｆ１１何晓阳，吴强，吴治蓉．ＨＩＩＳ算法与ＰａｇｅＲａｎｋ算法比较分析【Ｊ］．情报杂志，２００４（２）．　ｆ２１王晓宇，周傲．万维网的链接结构分析及其应用综述［Ｊ］．软件学报，２００３（１０）．　【３］杨炳儒，李岩，陈新中，等．Ｗｅｂ结构挖掘【Ｊ］．计算机工程，２００３（１１）．　『４１杨沅钊，吴薇，喻晓莉，等．搜索引擎排名改进算法分析『ｊ］．农业网络信息，２００５（２）．　本栏目责任编辑：冯蕾　

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文

全部栏目

基于Web结构挖掘算法的网站构建