输入关键字 抓取所有网页(百度、360两种搜索引擎介绍关键字的提交爬取信息优化方法 )
优采云 发布时间: 2022-02-23 12:21输入关键字 抓取所有网页(百度、360两种搜索引擎介绍关键字的提交爬取信息优化方法
)
文章目录
写在前面
本文介绍了百度和360搜索引擎的关键词提交和爬取信息,并在引用示例的基础上进行了优化。可以独立输入关键字,提交关键词后打印出搜索内容的字符串长度和关联的URL。
一.爬取原创页面
以 关键词 for python 为例。
1.百度页面如下
2.360页如下
Whisper BB:通过上面的对比,发现他们也在卖课程。看来这些机构给的钱不一样。一定程度上还是把自己的平台放在了首位。
二.爬取原理解析
首先,我以python为例,给大家展示一下百度和360搜索页面的url结果。
1.百度
2.360
通过上面的实践,我们可以发现搜索引擎有它的关键词提交接口。
百度的关键词接口:
360的关键词界面:
关键字就是我们输入的关键字,所以我们只要替换掉关键字就可以提交关键词给搜索引擎,也就是只要构造好URL链接就可以提取出关键词,最后使用 len() 函数显示提交后搜索内容的字符串长度关键词。
3.使用的库
import requests
三.完整代码
import requests
#百度搜索
def baiDu():
key = input("请输入百度搜索关键词:")
url = "https://www.baidu.com/s?wd="+key
try:
r = requests.get(url)
r.raise_for_status()
r.encoding=r.apparent_encoding
print(len(r.text))
print(r.request.url)
except:
print("爬取异常")
#360搜索
def threeSZ():
key = input("请输入360搜索关键词:")
url = "https://www.so.com/s?q="+key
try:
r = requests.get(url)
r.raise_for_status()
r.encoding=r.apparent_encoding
print(len(r.text))
print(r.request.url)
except:
print("爬取异常")
#调用函数
baiDu()
threeSZ()
本文结束后,如有错误请指出~
引用自
中国大学MOOC Python网络爬虫与信息提取
https://www.icourse163.org/course/BIT-1001870001