输入关键字 抓取所有网页(站点分析进入一个贴吧怎么做?_list这个列表)

优采云 发布时间: 2022-01-22 21:13

  输入关键字 抓取所有网页(站点分析进入一个贴吧怎么做?_list这个列表)

  基于scrapy框架输入关键词抓取相关贴吧posts网站分析

  首先输入一个贴吧,为了实现输入关键词爬取指定贴吧,需要用到搜索引擎

  

  点击看到有四种搜索方式,每一种都试一下,观察url变化

  

  我们了解到:

  搜索贴吧:

  搜索帖子:

  其中参数qw是搜索关键词,从中我们可以构造一个url用于搜索贴吧

  

  搜索页面,可以得到贴吧url

  我们需要

  

  我们可以很容易地与我们的搜索相关贴吧

  以下是对贴吧主页的分析

  输入贴吧F12查看

  

  显然我们知道#thread_list的列表,观察这是每个post,注意li标签中的data-field字段有我们需要的信息,但是我们只需要获取post的url,然后进一步提取帖子,其中data-tid是帖子的id,通过它我们可以定位到唯一的帖子

  比如data-tid="6410699527",帖子的url是/p/6410699527,具体探索过程就不一一解释了。 . .

  帖子分析

  

  

  直接源码省去了很多词的搜索过程,,,,,我们在源码中找到了一段JavaScript代码,其中firstpost就是楼主发的帖子。 为什么不在 HTML 便签中提取?因为你试试就知道了。一开始是从HTML笔记中提取出来的,有的贴吧标题提取不出来。第一篇有很详细的信息,标题,内容,时间

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线