输入关键字 抓取所有网页(百度、360两种搜索引擎介绍关键字的提交爬取信息优化方法 )

优采云 发布时间: 2022-02-23 12:21

  输入关键字 抓取所有网页(百度、360两种搜索引擎介绍关键字的提交爬取信息优化方法

)

  文章目录

  写在前面

  本文介绍了百度和360搜索引擎的关键词提交和爬取信息,并在引用示例的基础上进行了优化。可以独立输入关键字,提交关键词后打印出搜索内容的字符串长度和关联的URL。

  一.爬取原创页面

  以 关键词 for python 为例。

  1.百度页面如下

  

  2.360页如下

  

  Whisper BB:通过上面的对比,发现他们也在卖课程。看来这些机构给的钱不一样。一定程度上还是把自己的平台放在了首位。

  二.爬取原理解析

  首先,我以python为例,给大家展示一下百度和360搜索页面的url结果。

  1.百度

  

  2.360

  

  通过上面的实践,我们可以发现搜索引擎有它的关键词提交接口。

  百度的关键词接口:

  360的关键词界面:

  关键字就是我们输入的关键字,所以我们只要替换掉关键字就可以提交关键词给搜索引擎,也就是只要构造好URL链接就可以提取出关键词,最后使用 len() 函数显示提交后搜索内容的字符串长度关键词。

  3.使用的库

  import requests

  三.完整代码

  import requests

#百度搜索

def baiDu():

key = input("请输入百度搜索关键词:")

url = "https://www.baidu.com/s?wd="+key

try:

r = requests.get(url)

r.raise_for_status()

r.encoding=r.apparent_encoding

print(len(r.text))

print(r.request.url)

except:

print("爬取异常")

#360搜索

def threeSZ():

key = input("请输入360搜索关键词:")

url = "https://www.so.com/s?q="+key

try:

r = requests.get(url)

r.raise_for_status()

r.encoding=r.apparent_encoding

print(len(r.text))

print(r.request.url)

except:

print("爬取异常")

#调用函数

baiDu()

threeSZ()

  本文结束后,如有错误请指出~

  引用自

  中国大学MOOC Python网络爬虫与信息提取

https://www.icourse163.org/course/BIT-1001870001

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线