发布网友 发布时间:2022-04-21 23:19
共3个回答
热心网友 时间:2023-12-01 12:37
深层网络爬取的基本构成:URL列表、LVS列表(LVS指的是标签/数值集合,即填充表单的数据源)、爬行控制器、解析器、LVS控制器、表单分析器、表单处理器、响应分析器。
深层网络爬虫的表单填写有两种类型:
基于领域知识的表单填写(建立一个填写表单的关键词库,在需要的时候,根据语义分析选择对应的关键词进行填写);
基于网页结构分析的表单填写(一般在领域知识有限的情况下使用,这种方式会根据网页结构进行分析,并自动地进行表单填写)。
热心网友 时间:2023-12-01 12:37
采集过程中一般都是通过URL来关联追问w我知道,就是那个url总有问题
追答随机的?那你得通过fillden或者firebug分析它的真实地址是什么样的了,一般都是可以根据字段或者唯一值进行构造的
热心网友 时间:2023-12-01 12:38
详细点说明,或者可以在青苹在线中查找。