网站程序自带的采集器采集文章(使用正则匹配吧这样能保证采集结果是有用的)

优采云发布时间: 2021-11-12 23:03

　　网站程序自带的采集器采集文章，整站都是采集器生成的比如那个鬼山石语的，想要自己编写爬虫，去掉采集器，可以，但你编写了也没有用，除非对方不按套路出牌，改成自动采集，你不可能指望爬虫去生成文章，采集器帮你主动生成就行，但这种用在文章少的情况下，如果文章多了，你只能编写特殊的采集器。

　　数据库没有的分页列表，对吧？这种直接post过去，会出现问题的。你需要把这个类型变成一个json对象，通过xpath,传到一个目录。对方会自动重新post到页面。

　　post过去，会引起反爬虫机制。再说有query你也看不到。

　　我能想到的是用多个js脚本轮循生成很多页。

　　使用正则匹配吧这样能保证采集结果是有用的

　　这样做的问题在于爬虫还不能被认为是一个整体，但既然已经有这样一个整体了，所以只需要找到其中某个页面就行了。比如你想采集10篇公司年报的原文，但每篇可能都是一个文件的内容(都是一个excel文件)，那么你应该再抓取4个文件。如果你抓取的频率比较高，页数比较少，那么每个文件不会超过100字节，那么抓取4页问题应该不大。

　　如果页数较多，抓取10000多页，那么按你这样方法可能再简单不过了。总结一下，目的是抓取能被使用的所有源文件。整体抓取方法应该是使用一些公共采集软件。比如天下采集器。

0

2021-11-12

网站程序自带的采集器采集文章

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网站程序自带的采集器采集文章(使用正则匹配吧这样能保证采集结果是有用的)

0 个评论

发起人

AI时代内容工厂

网站程序自带的采集器采集文章(使用正则匹配吧这样能保证采集结果是有用的)

0 个评论

发起人

相关问题