litrpa做了个采集机器人软件模拟人工访问今日头条
优采云 发布时间: 2021-07-08 19:41litrpa做了个采集机器人软件模拟人工访问今日头条
前几天有个老哥想为今天的头条搜索关键词结果自定义优采云采集规则。谢绝了,因为优采云来采集今日头条文章容易被拒绝跳转验证甚至封IP。
昨晚用litrpa做了一个采集机器人软件,模拟人工访问今日头条。同时把文章页面地址加上辅助和jtoken,测试采集了几百篇文章,一切都很完美。
支持内置浏览器界面显示页面采集状态。如有验证,手动验证后可继续采集!
简单说一下采集和发布过程。
打开软件,点击运行,在弹出的窗口中设置帮助、关键词和采集搜索结果的页数。
援助:获得援助非常容易。在电脑浏览器中打开headline网站search关键词,就可以在底部的状态栏中看到:
关键词:你要搜索的词:
采集页数:搜索结果列表页,每页10条文章,根据需要设置页数,页数=10=采集100items文章
点击确定启动采集,采集传递过来的文章ID会保存在采集已经传递的文章ID.txt中,避免下次重复采集; 文章保存在软件中以关键词命名的目录下的“文章采集”目录下,图片也保存在该目录下的“images”目录下。 采集完成后可以打包上传到网站目录下只需解压,下个版本会支持FTP自动上传图片。
说文章post。
为了方便网站各种程序文章的发布,采集的文章会保存为txt文件通过优采云采集器发布,毕竟优采云有很多网站systems 发布模块。
如何发布:
先创建任务规则(规则随意写,发布模块配置好)
在优采云采集器的“任务批处理”中选择这个任务,然后选择文章txt保存的目录,然后导入,如下图:
然后只检查任务上的发布。任务允许后,可以将文章发布给自己网站。别忘了把图片目录打包上传到网站root目录!
如果你觉得有点麻烦,那就对了,很简单采集人会,稍微复杂一点的是门槛,对于采集内容来说,门槛是个好东西。
如果你使用Empirecms,那你有福了,可以自定义支持采集的软件然后自动发布文章,不需要优采云采集器发布。
1.0版本的操作流程图,还有很大的提升空间,新手可以参考自己动手:
最后感谢文先生开发的软件