网页爬虫抓取百度图片(百度网页搜索还支持多种搜索结果块，计算块等多样的截图)

优采云发布时间: 2021-12-30 22:21

　　百度蜘蛛是一个基于Python的百度搜索结果爬虫，支持多搜索结果。本期文章将从多方面介绍百度蜘蛛。

　　什么是百度蜘蛛？

　　百度蜘蛛是一个强大但轻量级的百度搜索结果提取器，基于BeautifulSoup4和requests。支持多种搜索结果，包括百度网页搜索、百度图片搜索、百度知道搜索、百度视频搜索、百度新闻搜索、百度图书馆搜索、百度体验搜索、百度百科搜索。其中，百度网页搜索还支持多种搜索结果块，如百科块、贴吧块、计算块等搜索结果。

　　GitHub: /BaiduSpider/BaiduSpider

　　文档：

　　PyPI: /project/BaiduSpider/

　　如何下载百度蜘蛛？

　　在你的项目中，直接使用pip安装：

　　pip install baiduspider

　　当然，你也可以从 GitHub 克隆：

　　git clone https://github.com/BaiduSpider/BaiduSpider.git && python setup.py install

　　然后导入您的项目文件：

　　from baiduspider import BaiduSpider

# ...

　　百度蜘蛛使用简单

　　百度蜘蛛的使用也很简单。下面的例子打印了BaiduSpider的网页搜索的返回结果，它是网页搜索CLI的简单版本：

　　from baiduspider import BaiduSpider

from pprint import pprint

pprint(BaiduSpider().search_web(input()))

　　对于上面例子的输出

　　这个怎么样？是不是很简单？除了易用性，百度蜘蛛还支持自定义返回值。例如，我只想查看最常见的网络搜索结果，没有其他花里胡哨的东西。然后，我可以写：

　　from baiduspider import BaiduSpider

from pprint import pprint

pprint(BaiduSpider().search_web(input(), exclude=['all']))

　　只保留正常搜索结果输出的截图

　　是的，只有一个参数：exclude。这个参数很强大，有兴趣可以去文档看看。

　　使用百度蜘蛛制作的项目

　　这里我选择了两个用BaiduSpider做的开源项目，聚合搜索和标题拍拍。下面我分别介绍一下这两个项目。

　　聚合搜索

　　聚合搜索是一个聚合搜索引擎，现已接入百度、谷歌、搜狗、微信四大平台。在线演示：/GitHub：/Limourli-liu/Aggregate-search

　　拍

　　这是一个利用深度学习技术自动解决小学应用问题的入口，数据抓取部分使用了百度蜘蛛。GitHub: /jackli777/CCF-BDCI-2020-MWP-

　　最后

　　如果你喜欢百度蜘蛛这个项目，请留下你的star！您的支持对我们真的很重要~

　　GitHub项目地址：/BaiduSpider/BaiduSpider

　　文档：baiduspider.github.io/

　　PyPI: /project/BaiduSpider/

　　谢谢阅读！

0

2021-12-30

网页爬虫抓取百度图片

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网页爬虫抓取百度图片(百度网页搜索还支持多种搜索结果块，计算块等多样的截图)

0 个评论

发起人