网站程序自带的采集器采集文章(使用正则匹配吧这样能保证采集结果是有用的)
优采云 发布时间: 2021-11-12 23:03网站程序自带的采集器采集文章(使用正则匹配吧这样能保证采集结果是有用的)
网站程序自带的采集器采集文章,整站都是采集器生成的比如那个鬼山石语的,想要自己编写爬虫,去掉采集器,可以,但你编写了也没有用,除非对方不按套路出牌,改成自动采集,你不可能指望爬虫去生成文章,采集器帮你主动生成就行,但这种用在文章少的情况下,如果文章多了,你只能编写特殊的采集器。
数据库没有的分页列表,对吧?这种直接post过去,会出现问题的。你需要把这个类型变成一个json对象,通过xpath,传到一个目录。对方会自动重新post到页面。
post过去,会引起反爬虫机制。再说有query你也看不到。
我能想到的是用多个js脚本轮循生成很多页。
使用正则匹配吧这样能保证采集结果是有用的
这样做的问题在于爬虫还不能被认为是一个整体,但既然已经有这样一个整体了,所以只需要找到其中某个页面就行了。比如你想采集10篇公司年报的原文,但每篇可能都是一个文件的内容(都是一个excel文件),那么你应该再抓取4个文件。如果你抓取的频率比较高,页数比较少,那么每个文件不会超过100字节,那么抓取4页问题应该不大。
如果页数较多,抓取10000多页,那么按你这样方法可能再简单不过了。总结一下,目的是抓取能被使用的所有源文件。整体抓取方法应该是使用一些公共采集软件。比如天下采集器。