网站程序自带的采集器采集文章(使用正则匹配吧这样能保证采集结果是有用的)

优采云 发布时间: 2021-11-12 23:03

  网站程序自带的采集器采集文章(使用正则匹配吧这样能保证采集结果是有用的)

  网站程序自带的采集器采集文章,整站都是采集器生成的比如那个鬼山石语的,想要自己编写爬虫,去掉采集器,可以,但你编写了也没有用,除非对方不按套路出牌,改成自动采集,你不可能指望爬虫去生成文章,采集器帮你主动生成就行,但这种用在文章少的情况下,如果文章多了,你只能编写特殊的采集器。

  数据库没有的分页列表,对吧?这种直接post过去,会出现问题的。你需要把这个类型变成一个json对象,通过xpath,传到一个目录。对方会自动重新post到页面。

  post过去,会引起反爬虫机制。再说有query你也看不到。

  我能想到的是用多个js脚本轮循生成很多页。

  使用正则匹配吧这样能保证采集结果是有用的

  这样做的问题在于爬虫还不能被认为是一个整体,但既然已经有这样一个整体了,所以只需要找到其中某个页面就行了。比如你想采集10篇公司年报的原文,但每篇可能都是一个文件的内容(都是一个excel文件),那么你应该再抓取4个文件。如果你抓取的频率比较高,页数比较少,那么每个文件不会超过100字节,那么抓取4页问题应该不大。

  如果页数较多,抓取10000多页,那么按你这样方法可能再简单不过了。总结一下,目的是抓取能被使用的所有源文件。整体抓取方法应该是使用一些公共采集软件。比如天下采集器。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线