输入关键字 抓取所有网页(今日头条爬取与关键词相关的新闻各类信息和内容页)

优采云 发布时间: 2021-10-04 23:11

  输入关键字 抓取所有网页(今日头条爬取与关键词相关的新闻各类信息和内容页)

  在今日头条输入关键词,抓取与关键词相关的各类新闻和内容页面。

  抓取今日头条的主要难点如下:

  (1) 使用下拉滚动动态加载新消息,即瀑布流;

  (2) 内容详情页是动态页面,大部分网页源代码类似于字典形式,有的则是带有标签的结构化页面。

  本文采用两种爬取方式,均将爬取到的数据写入数据库。主要爬虫代码在JinRiTouTiao.py。编辑器使用 mysql 数据库将数据存储在 pipelines.py 中。读者可以无视。如果您使用它,请配置数据库相关信息。

  爬取内容:发布时间、发布者、主题、内容、链接、点赞数、转发数、评论数等。

  github链接:

  (一) 使用scrapy+Selenium +phantomjs 爬取:

  爬虫是spiders/JinRiTouTiao.py

  请运行 startFirst.py 使用

  因为使用了Selenium + phantomjs,所以静态页面和动态页面都可以爬取。爬行很准,但是速度很慢。爬取时间为每分钟两条,可能和编辑器的网速比较。电脑配置不高。

  使用前需要下载phantomjs,看如何使用

  (二) 使用scrapy+urllib+lxml进行爬取:

  爬虫是toutiao.py

  请运行 startSecond.py 使用

  推荐使用,爬取速度比较快,爬取数据比较准确。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线