百度网页关键字抓取(Excel教程Excel函数Excel表格制作Excel2010办公软件Excel学习Excel视频教程 )
优采云 发布时间: 2022-02-28 20:01百度网页关键字抓取(Excel教程Excel函数Excel表格制作Excel2010办公软件Excel学习Excel视频教程
)
Python新手笔记:使用python根据搜索关键字爬取结果的名称和路径。
一、百度搜索参数介绍
pn:抓取页面内容
cl : 搜索类型 3 是网络搜索 2 是新闻搜索
wd: 搜索关键字
rn : 要搜索多少个结果
详情请见:
二、定义 pthon 函数
<p>1# coding: UTF-8
2import urllib.request
3import urllib.parse
4import re
5
6# 查询名称 查询条数
7def findBaiduUrlList(searchName,number):
8 #定义百度搜索请求URL
9 url="http://www.baidu.com/s?pn=0&cl=3&rn="+str(number)
10 #将中文进行URL编码
11 url = url +"&wd="+urllib.parse.quote(searchName)
12 #发起request请求,并获取返回结果
13 response = urllib.request.urlopen(url)
14 #将返回结果进行转换成UTF-8转码
15 html = response.read().decode('utf-8')
16 #定义截取字符串正则表达式
17 splitPattern = re.compile(r'