发布网友 发布时间:2022-04-21 23:19
共6个回答
热心网友 时间:2022-04-18 03:26
1、了解Python如何获取网页内容。
2、导入 urllib.request模块。
3、使用urllib.request.urlopen( )获取对象。
4、urllib.request.urlopen()获取的是一个网页的http.client.HTTPResponse对象。
5、若要打印http.client.HTTPResponse对象的内容,可以继续使用read()方法。
热心网友 时间:2022-04-18 04:44
先说下基本原理和过程
原理:就是将可以打开的网页(这里不*为网站,本地网页文件也可以哦),加载到内存中,然后解析html,读取其中的文本内容或者储存到本地或者数据库中。
过程:
1、加载模块urllib,beautifulsoup。urllib提供网络服务解析,beautifullsoup提供对网页结构进行解析的功能。
2、加载网页
3、用beautifulsoup加载解析
下面给出实例:
import urllib.request热心网友 时间:2022-04-18 06:18
使用urllib就ok啊!建议搜索beautiful soup。python在抓取网页上可是非常牛*的
import urllib
a=urllib.urlopen("http://www.baidu.com").read()
print a
看看会有什么结果,一些html标签你就要用工具进行过滤了 beautifulsoup
热心网友 时间:2022-04-18 08:10
如果只需要网页内容,用urllib2就行,查询python的api,调用read方法获得网页内容。
如果需要解析的话,就用BeautifulSoup吧。
热心网友 时间:2022-04-18 10:18
此时用ajax访问这个试图返回的内容就是: 上面这种办法不是很好,建议先写一修改了一下就到了楼上的下面了,你也太没水准了。直接复制 =修改=
热心网友 时间:2022-04-18 12:42
具体实施请看他楼讲解