您的当前位置:首页正文

网页信息抽取方法[发明专利]

2021-11-24 来源:客趣旅游网
专利内容由知识产权出版社提供

专利名称:网页信息抽取方法专利类型:发明专利

发明人:脱立恒,董微,刘学,陆世亮申请号:CN201410818097.7申请日:20141224公开号:CN104462540A公开日:20150325

摘要:本发明涉及一种网页信息抽取方法,该方法包括:对网页Web的页面数据建立DOM树,从DOM树中递归选取包含所有待抽取信息的节点子树,选取节点子树中所有待抽取信息的属性节点的路径、值节点的路径和最小的子树,将最小的子树的根节点作为超文本标记语言HTML标签相对特征坐标系的原点;将从DOM树中训练得到待抽取信息的属性和值在HTML标签相对特征坐标系中的路径,生成属性坐标和值坐标,根据相对特征坐标系的原点、属性坐标和值坐标定位待抽取信息;将属性坐标和值坐标作为待抽取信息的抽取规则,所有待抽取信息的抽取规则组成Web的抽取规则集合并生成包装器;通过包装器的抽取规则的属性坐标和值坐标,定位待抽取信息的属性和值,并抽取Web信息。

申请人:中国科学院声学研究所,上海尚恩华科网络科技股份有限公司

地址:100190 北京市海淀区北四环西路21号

国籍:CN

代理机构:北京亿腾知识产权代理事务所

代理人:陈霁

更多信息请下载全文后查看

因篇幅问题不能全部显示,请点此查看更多更全内容