网页爬虫抓取百度图片(百度网页搜索还支持多种搜索结果块,计算块等多样的截图)

优采云 发布时间: 2021-12-30 22:21

  网页爬虫抓取百度图片(百度网页搜索还支持多种搜索结果块,计算块等多样的截图)

  百度蜘蛛是一个基于Python的百度搜索结果爬虫,支持多搜索结果。本期文章将从多方面介绍百度蜘蛛。

  什么是百度蜘蛛?

  百度蜘蛛是一个强大但轻量级的百度搜索结果提取器,基于BeautifulSoup4和requests。支持多种搜索结果,包括百度网页搜索、百度图片搜索、百度知道搜索、百度视频搜索、百度新闻搜索、百度图书馆搜索、百度体验搜索、百度百科搜索。其中,百度网页搜索还支持多种搜索结果块,如百科块、贴吧块、计算块等搜索结果。

  GitHub: /BaiduSpider/BaiduSpider

  文档:

  PyPI: /project/BaiduSpider/

  如何下载百度蜘蛛?

  在你的项目中,直接使用pip安装:

  pip install baiduspider

  当然,你也可以从 GitHub 克隆:

  git clone https://github.com/BaiduSpider/BaiduSpider.git && python setup.py install

  然后导入您的项目文件:

  from baiduspider import BaiduSpider

# ...

  百度蜘蛛使用简单

  百度蜘蛛的使用也很简单。下面的例子打印了BaiduSpider的网页搜索的返回结果,它是网页搜索CLI的简单版本:

  from baiduspider import BaiduSpider

from pprint import pprint

pprint(BaiduSpider().search_web(input()))

  

  对于上面例子的输出

  这个怎么样?是不是很简单?除了易用性,百度蜘蛛还支持自定义返回值。例如,我只想查看最常见的网络搜索结果,没有其他花里胡哨的东西。然后,我可以写:

  from baiduspider import BaiduSpider

from pprint import pprint

pprint(BaiduSpider().search_web(input(), exclude=['all']))

  只保留正常搜索结果输出的截图

  是的,只有一个参数:exclude。这个参数很强大,有兴趣可以去文档看看。

  使用百度蜘蛛制作的项目

  这里我选择了两个用BaiduSpider做的开源项目,聚合搜索和标题拍拍。下面我分别介绍一下这两个项目。

  聚合搜索

  聚合搜索是一个聚合搜索引擎,现已接入百度、谷歌、搜狗、微信四大平台。在线演示:/GitHub:/Limourli-liu/Aggregate-search

  拍

  这是一个利用深度学习技术自动解决小学应用问题的入口,数据抓取部分使用了百度蜘蛛。GitHub: /jackli777/CCF-BDCI-2020-MWP-

  最后

  如果你喜欢百度蜘蛛这个项目,请留下你的star!您的支持对我们真的很重要~

  GitHub项目地址:/BaiduSpider/BaiduSpider

  文档:baiduspider.github.io/

  PyPI: /project/BaiduSpider/

  谢谢阅读!

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线