输入关键字 抓取所有网页(今日头条爬取与关键词相关的新闻各类信息和内容页)
优采云 发布时间: 2021-10-04 23:11输入关键字 抓取所有网页(今日头条爬取与关键词相关的新闻各类信息和内容页)
在今日头条输入关键词,抓取与关键词相关的各类新闻和内容页面。
抓取今日头条的主要难点如下:
(1) 使用下拉滚动动态加载新消息,即瀑布流;
(2) 内容详情页是动态页面,大部分网页源代码类似于字典形式,有的则是带有标签的结构化页面。
本文采用两种爬取方式,均将爬取到的数据写入数据库。主要爬虫代码在JinRiTouTiao.py。编辑器使用 mysql 数据库将数据存储在 pipelines.py 中。读者可以无视。如果您使用它,请配置数据库相关信息。
爬取内容:发布时间、发布者、主题、内容、链接、点赞数、转发数、评论数等。
github链接:
(一) 使用scrapy+Selenium +phantomjs 爬取:
爬虫是spiders/JinRiTouTiao.py
请运行 startFirst.py 使用
因为使用了Selenium + phantomjs,所以静态页面和动态页面都可以爬取。爬行很准,但是速度很慢。爬取时间为每分钟两条,可能和编辑器的网速比较。电脑配置不高。
使用前需要下载phantomjs,看如何使用
(二) 使用scrapy+urllib+lxml进行爬取:
爬虫是toutiao.py
请运行 startSecond.py 使用
推荐使用,爬取速度比较快,爬取数据比较准确。