网页爬虫抓取百度图片(在python学习之路(10):爬虫进阶,使用python爬取)
优采云 发布时间: 2022-02-14 08:11网页爬虫抓取百度图片(在python学习之路(10):爬虫进阶,使用python爬取)
python学习之路(一0):高级爬虫,用python爬取你喜欢的小说
在这个 文章 中,我们使用 BeautifulSoup 爬取了一本小说。这是学习BeautifulSoup后写的第一个小程序,但是感觉自己对BeautifulSoup的使用不够熟练,所以再写一个爬虫。增强 BeautifulSoup 的使用。
本次抓取微信公众号的文章标题、文章摘要、文章网址、文章封面图片网址、公众号名称等信息。
python学习之路(12):连接Mysql数据库及简单的增删改查查询回滚操作)
在这个文章中,我们谈到了mysql的使用,所以这次我们将抓取的数据存储在数据库中。
我们不应该忘记我们以前学过的知识。我们应该把以前学过的东西都应用到现在的学习中,这样可以让我们复习旧知识,更牢牢地掌握知识点。
微信文章捕获的地址为:
这是搜狗微信的搜索页面,里面的文章每隔几个小时就会更新一次。所以在这里抓取 文章 是相当全面的。
想法
1、 研究网页结构
2、 使用 BeautifulSoup 解析我们需要的信息
3、 将解析后的信息存入mysql数据库
学习网络结构
研究网页的结构,当然是右键->检查元素
但是很快我发现了一个问题,每个页面只有20篇微信文章文章,要查看更多,我必须点击“加载更多”按钮。首先想了一下能不能用python来点击,但是网上找的方法太深奥了,对python的学习还没有深入,所以决定换一种方式。
懂一点JS的人都知道,如果是做“加载更多”之类的功能,就必须使用AJAX向服务器请求新的数据,所以在我点击“加载更多”按钮后,我使用了浏览器的网络看到这个请求。
我猜这一定是请求新数据的接口,我们打开看看
哈哈,这个页面也是微信文章的页面,简单多了,大大降低了我们分析的难度。
并且发现了另一种模式。此 URL 以 1.html 结尾。
如果我把它改成 2.html
哈哈,神奇的发现改成2.html还是可以访问的,所以我大胆猜测,这应该是页数的意思。
我在上面的 URL 中发现的另一个有趣的事情是有一个 PC_0。
所以我决定把它改成 pc_1 试试看。
还能访问,看到这边的信息让我觉得这是不是文章的另一类。
在审查了元素之后,这证实了我的怀疑。
经过以上研究,以下地址
可以得出两个结论:
1、后面的1.html是页数,不同的数字代表不同的页数。
2、 后面pc_0中的0代表分类,不同的数字代表不同的类型。
有了这两个结论,我们写一个抓微信文章的代码就简单多了。
这个文章就写到这里了,后面我会根据这个文章得到的结论来谈抓数据,因为我在研究这个网页的时候也在写这个文章。我也写了代码。这个文章会先解释一下研究一个网页的思路。等我把代码写好整理后,分享给大家。