输入关键字 抓取所有网页(站点分析进入一个贴吧怎么做?_list这个列表)
优采云 发布时间: 2022-01-22 21:13输入关键字 抓取所有网页(站点分析进入一个贴吧怎么做?_list这个列表)
基于scrapy框架输入关键词抓取相关贴吧posts网站分析
首先输入一个贴吧,为了实现输入关键词爬取指定贴吧,需要用到搜索引擎
点击看到有四种搜索方式,每一种都试一下,观察url变化
我们了解到:
搜索贴吧:
搜索帖子:
其中参数qw是搜索关键词,从中我们可以构造一个url用于搜索贴吧
搜索页面,可以得到贴吧url
我们需要
我们可以很容易地与我们的搜索相关贴吧
以下是对贴吧主页的分析
输入贴吧F12查看
显然我们知道#thread_list的列表,观察这是每个post,注意li标签中的data-field字段有我们需要的信息,但是我们只需要获取post的url,然后进一步提取帖子,其中data-tid是帖子的id,通过它我们可以定位到唯一的帖子
比如data-tid="6410699527",帖子的url是/p/6410699527,具体探索过程就不一一解释了。 . .
帖子分析
直接源码省去了很多词的搜索过程,,,,,我们在源码中找到了一段JavaScript代码,其中firstpost就是楼主发的帖子。 为什么不在 HTML 便签中提取?因为你试试就知道了。一开始是从HTML笔记中提取出来的,有的贴吧标题提取不出来。第一篇有很详细的信息,标题,内容,时间