网页爬虫抓取百度图片(百度网页搜索还支持多种搜索结果块,计算块等多样的截图)
优采云 发布时间: 2021-12-30 22:21网页爬虫抓取百度图片(百度网页搜索还支持多种搜索结果块,计算块等多样的截图)
百度蜘蛛是一个基于Python的百度搜索结果爬虫,支持多搜索结果。本期文章将从多方面介绍百度蜘蛛。
什么是百度蜘蛛?
百度蜘蛛是一个强大但轻量级的百度搜索结果提取器,基于BeautifulSoup4和requests。支持多种搜索结果,包括百度网页搜索、百度图片搜索、百度知道搜索、百度视频搜索、百度新闻搜索、百度图书馆搜索、百度体验搜索、百度百科搜索。其中,百度网页搜索还支持多种搜索结果块,如百科块、贴吧块、计算块等搜索结果。
GitHub: /BaiduSpider/BaiduSpider
文档:
PyPI: /project/BaiduSpider/
如何下载百度蜘蛛?
在你的项目中,直接使用pip安装:
pip install baiduspider
当然,你也可以从 GitHub 克隆:
git clone https://github.com/BaiduSpider/BaiduSpider.git && python setup.py install
然后导入您的项目文件:
from baiduspider import BaiduSpider
# ...
百度蜘蛛使用简单
百度蜘蛛的使用也很简单。下面的例子打印了BaiduSpider的网页搜索的返回结果,它是网页搜索CLI的简单版本:
from baiduspider import BaiduSpider
from pprint import pprint
pprint(BaiduSpider().search_web(input()))
对于上面例子的输出
这个怎么样?是不是很简单?除了易用性,百度蜘蛛还支持自定义返回值。例如,我只想查看最常见的网络搜索结果,没有其他花里胡哨的东西。然后,我可以写:
from baiduspider import BaiduSpider
from pprint import pprint
pprint(BaiduSpider().search_web(input(), exclude=['all']))
只保留正常搜索结果输出的截图
是的,只有一个参数:exclude。这个参数很强大,有兴趣可以去文档看看。
使用百度蜘蛛制作的项目
这里我选择了两个用BaiduSpider做的开源项目,聚合搜索和标题拍拍。下面我分别介绍一下这两个项目。
聚合搜索
聚合搜索是一个聚合搜索引擎,现已接入百度、谷歌、搜狗、微信四大平台。在线演示:/GitHub:/Limourli-liu/Aggregate-search
拍
这是一个利用深度学习技术自动解决小学应用问题的入口,数据抓取部分使用了百度蜘蛛。GitHub: /jackli777/CCF-BDCI-2020-MWP-
最后
如果你喜欢百度蜘蛛这个项目,请留下你的star!您的支持对我们真的很重要~
GitHub项目地址:/BaiduSpider/BaiduSpider
文档:baiduspider.github.io/
PyPI: /project/BaiduSpider/
谢谢阅读!