输入关键字 抓取所有网页( 代码代码代码)
优采云 发布时间: 2022-01-03 10:03输入关键字 抓取所有网页(
代码代码代码)
HTTP协议请求实战-抓取百度搜索关键词对应网页信息
1 通过分析搜索关键词对应的URL,发现字段名和内容都在URL中,可以将URL简化为搜索关键词
根据分析的规则,可以自动查询某个关键词
通过构建获取请求和使用爬虫在百度上。
代码如下:
import urllib.request 导入urllib.request
keywd = '高同同' 指定关键词
keywd_cod = urllib.request.quote(keywd)将关键词进行编码
url = 'https://www.baidu.com/s?wd='输入网址
url_all = url +keywd_cod构造出最终抓取网址
req =urllib.request.Request(url)使用urllib.request.Request构造一个Request对象并赋给变量req
data = urllib.request.urlopen(req).read()通过url.request.urlopen()打开对应的Request对象
fandle = open('D:/siq/part4/10.html','wb')
fandle.write(data)
将爬去的内容写到一个html文件中
fandle.close()结束
思路总结:
1构建对应的url地址,该url包含get请求的字段名称及字段内容等信息并且url地址满足get请求格式“http://网址?字段名1=字段内容1&字段名2=字段内容2”
2以对应的url为参数,构建request对象
3通过urlopen()打开构建的request对象
4读取内容并保存
发表@2017-07-20 21:39 独自一人412阅读(1844)评论(0)编辑