网页爬虫抓取百度图片(在python学习之路（10）：爬虫进阶，使用python爬取)

优采云发布时间: 2022-02-14 08:11

　　python学习之路（一0）：高级爬虫，用python爬取你喜欢的小说

　　在这个文章中，我们使用 BeautifulSoup 爬取了一本小说。这是学习BeautifulSoup后写的第一个小程序，但是感觉自己对BeautifulSoup的使用不够熟练，所以再写一个爬虫。增强 BeautifulSoup 的使用。

　　本次抓取微信公众号的文章标题、文章摘要、文章网址、文章封面图片网址、公众号名称等信息。

　　python学习之路（12)：连接Mysql数据库及简单的增删改查查询回滚操作）

　　在这个文章中，我们谈到了mysql的使用，所以这次我们将抓取的数据存储在数据库中。

　　我们不应该忘记我们以前学过的知识。我们应该把以前学过的东西都应用到现在的学习中，这样可以让我们复习旧知识，更牢牢地掌握知识点。

　　微信文章捕获的地址为：

　　这是搜狗微信的搜索页面，里面的文章每隔几个小时就会更新一次。所以在这里抓取文章是相当全面的。

　　想法

　　1、研究网页结构

　　2、使用 BeautifulSoup 解析我们需要的信息

　　3、将解析后的信息存入mysql数据库

　　学习网络结构

　　研究网页的结构，当然是右键->检查元素

　　但是很快我发现了一个问题，每个页面只有20篇微信文章文章，要查看更多，我必须点击“加载更多”按钮。首先想了一下能不能用python来点击，但是网上找的方法太深奥了，对python的学习还没有深入，所以决定换一种方式。

　　懂一点JS的人都知道，如果是做“加载更多”之类的功能，就必须使用AJAX向服务器请求新的数据，所以在我点击“加载更多”按钮后，我使用了浏览器的网络看到这个请求。

　　我猜这一定是请求新数据的接口，我们打开看看

　　哈哈，这个页面也是微信文章的页面，简单多了，大大降低了我们分析的难度。

　　并且发现了另一种模式。此 URL 以 1.html 结尾。

　　如果我把它改成 2.html

　　哈哈，神奇的发现改成2.html还是可以访问的，所以我大胆猜测，这应该是页数的意思。

　　我在上面的 URL 中发现的另一个有趣的事情是有一个 PC_0。

　　所以我决定把它改成 pc_1 试试看。

　　还能访问，看到这边的信息让我觉得这是不是文章的另一类。

　　在审查了元素之后，这证实了我的怀疑。

　　经过以上研究，以下地址

　　可以得出两个结论：

　　1、后面的1.html是页数，不同的数字代表不同的页数。

　　2、后面pc_0中的0代表分类，不同的数字代表不同的类型。

　　有了这两个结论，我们写一个抓微信文章的代码就简单多了。

　　这个文章就写到这里了，后面我会根据这个文章得到的结论来谈抓数据，因为我在研究这个网页的时候也在写这个文章。我也写了代码。这个文章会先解释一下研究一个网页的思路。等我把代码写好整理后，分享给大家。

0

2022-02-14

网页爬虫抓取百度图片

0 个评论

要回复文章请先登录或注册