输入关键字抓取所有网页(今日头条爬取与关键词相关的新闻各类信息和内容页)

优采云发布时间: 2021-10-04 23:11

　　在今日头条输入关键词，抓取与关键词相关的各类新闻和内容页面。

　　抓取今日头条的主要难点如下：

　　（1）使用下拉滚动动态加载新消息，即瀑布流；

　　（2）内容详情页是动态页面，大部分网页源代码类似于字典形式，有的则是带有标签的结构化页面。

　　本文采用两种爬取方式，均将爬取到的数据写入数据库。主要爬虫代码在JinRiTouTiao.py。编辑器使用 mysql 数据库将数据存储在 pipelines.py 中。读者可以无视。如果您使用它，请配置数据库相关信息。

　　爬取内容：发布时间、发布者、主题、内容、链接、点赞数、转发数、评论数等。

　　github链接：

　　（一）使用scrapy+Selenium +phantomjs 爬取：

　　爬虫是spiders/JinRiTouTiao.py

　　请运行 startFirst.py 使用

　　因为使用了Selenium + phantomjs，所以静态页面和动态页面都可以爬取。爬行很准，但是速度很慢。爬取时间为每分钟两条，可能和编辑器的网速比较。电脑配置不高。

　　使用前需要下载phantomjs，看如何使用

　　（二) 使用scrapy+urllib+lxml进行爬取：

　　爬虫是toutiao.py

　　请运行 startSecond.py 使用

　　推荐使用，爬取速度比较快，爬取数据比较准确。

0

2021-10-04

输入关键字抓取所有网页

0 个评论

要回复文章请先登录或注册