网页爬虫抓取百度图片(在python学习之路(10):爬虫进阶,使用python爬取)

优采云 发布时间: 2022-02-14 08:11

  网页爬虫抓取百度图片(在python学习之路(10):爬虫进阶,使用python爬取)

  python学习之路(一0):高级爬虫,用python爬取你喜欢的小说

  在这个 文章 中,我们使用 BeautifulSoup 爬取了一本小说。这是学习BeautifulSoup后写的第一个小程序,但是感觉自己对BeautifulSoup的使用不够熟练,所以再写一个爬虫。增强 BeautifulSoup 的使用。

  本次抓取微信公众号的文章标题、文章摘要、文章网址、文章封面图片网址、公众号名称等信息。

  python学习之路(12):连接Mysql数据库及简单的增删改查查询回滚操作)

  在这个文章中,我们谈到了mysql的使用,所以这次我们将抓取的数据存储在数据库中。

  我们不应该忘记我们以前学过的知识。我们应该把以前学过的东西都应用到现在的学习中,这样可以让我们复习旧知识,更牢牢地掌握知识点。

  微信文章捕获的地址为:

  

  这是搜狗微信的搜索页面,里面的文章每隔几个小时就会更新一次。所以在这里抓取 文章 是相当全面的。

  想法

  1、 研究网页结构

  2、 使用 BeautifulSoup 解析我们需要的信息

  3、 将解析后的信息存入mysql数据库

  学习网络结构

  研究网页的结构,当然是右键->检查元素

  

  但是很快我发现了一个问题,每个页面只有20篇微信文章文章,要查看更多,我必须点击“加载更多”按钮。首先想了一下能不能用python来点击,但是网上找的方法太深奥了,对python的学习还没有深入,所以决定换一种方式。

  懂一点JS的人都知道,如果是做“加载更多”之类的功能,就必须使用AJAX向服务器请求新的数据,所以在我点击“加载更多”按钮后,我使用了浏览器的网络看到这个请求。

  

  我猜这一定是请求新数据的接口,我们打开看看

  

  哈哈,这个页面也是微信文章的页面,简单多了,大大降低了我们分析的难度。

  并且发现了另一种模式。此 URL 以 1.html 结尾。

  

  如果我把它改成 2.html

  

  哈哈,神奇的发现改成2.html还是可以访问的,所以我大胆猜测,这应该是页数的意思。

  我在上面的 URL 中发现的另一个有趣的事情是有一个 PC_0。

  

  所以我决定把它改成 pc_1 试试看。

  

  还能访问,看到这边的信息让我觉得这是不是文章的另一类。

  

  在审查了元素之后,这证实了我的怀疑。

  

  经过以上研究,以下地址

  

  可以得出两个结论:

  1、后面的1.html是页数,不同的数字代表不同的页数。

  2、 后面pc_0中的0代表分类,不同的数字代表不同的类型。

  有了这两个结论,我们写一个抓微信文章的代码就简单多了。

  这个文章就写到这里了,后面我会根据这个文章得到的结论来谈抓数据,因为我在研究这个网页的时候也在写这个文章。我也写了代码。这个文章会先解释一下研究一个网页的思路。等我把代码写好整理后,分享给大家。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线