用爬虫实现自动采集新闻网站旧闻的代码简单多了
优采云 发布时间: 2022-06-10 23:00用爬虫实现自动采集新闻网站旧闻的代码简单多了
自动采集器怎么用?借助去重设置自动采集上传一般用在整站数据量太大,采集速度不满意,用采集器扩大缩小整站数据的采集。随着节点速度提升,新增一台节点代替节点。节点代替节点,既有好处,同时节点也增加安全。自动采集器会根据定义的规则,自动找到你设置的数据源,没采集上或未采集上的,先清空。不用担心网站被人肉搜索。自动采集器找不到资源的情况。自动采集器只采集指定类型的资源,并且每条信息都设置好获取的名称。
写过一篇篇文章,用爬虫实现自动采集新闻网站的旧闻,目前收录17000多个资源站。写了5篇之后后,发现就写自动采集器这部分还不够,其它部分写的还有点多,懒得整理了。用爬虫实现自动采集新闻网站旧闻之前用的是爬虫工具,很多小站要爬虫设置,写多了就感觉很麻烦,操作比较复杂。自己做了个工具,无人值守。
一、老旧站自动采集-在之前我花了整整两天时间,爬取了加拿大冬季小麦采收时间。新闻上,时间是往后推的,不像视频那样可以拖动来对比时间差。但是旧闻上(以下称旧站)都是往前的时间对比或是往年的对比。通过简单的设置,就可以自动下载过时新闻,然后再用boostrapminiblog模板重新上传到github,然后用bootstrap进行优化。这样做比通过爬虫工具写boostrap的代码简单多了。
二、老旧站自动采集-主要用来爬取国外的资源站,比如ebay,,amazon,youtube等等。现在从国外的网站全部采集回来,放在数据库里,再把采集的内容,上传到前面介绍的新站。这个方案主要是适合有固定网站或企业网站的采集,因为一个人想采集一个专门网站的话,会遇到很多的麻烦,会写的好麻烦。网站或企业网站,找新闻站一般都是选择有固定网站的站,或者已经开通,只是暂时不上新闻的网站。
三、老旧站自动采集-针对短视频,要爬取一些抓取过程快,采集后期传播速度比较快的视频。我实现这个爬虫是基于爬虫工具,在之前实验过一个网站,由于没有设置新闻源,直接用googleanalytics来抓取,用起来很麻烦,也很慢。这个网站用了爬虫工具,用了requests定时接收url,循环抓取,速度飞快。基于爬虫工具,可以自动爬取手动抓取不了的新闻网站,比如:huxiu,youtube,网易,新浪,腾讯等等。
采集回来后,我只写了个sftp工具,放在网站上,然后爬虫工具连接这个sftp服务器,爬取出的内容就会上传到这个sftp服务器的服务器上。就是这么简单,但是速度还是可以的。对于国内短视频,我只是抓取了其中的一部分短视频,比如:哔哩哔哩、v电影、up主。