工具采集文章(亲测很好用,在原来软件的基础上修复几处bug)
优采云 发布时间: 2022-03-21 16:06工具采集文章(亲测很好用,在原来软件的基础上修复几处bug)
亲测非常好用。在原软件的基础上,修复了几个bug,修复了网站编码为utf-8时显示乱码的bug。
本软件适合网站员工写文章采集其他网站文章内容时使用。
软件介绍:
1、软件属于源码(HTML)抓取版
2、只支持二级目录的采集,即列表页—>文章页。 (大部分网站文章都可以在二级目录中获取)
3、手动设置翻页(选择多页)
4、支持body内容过滤(这个可以自己修改)
5、自动生成TXT文件到桌面文件夹
6、自动判断UTF8返回文本
7、每个节点规则支持的测试返回
在软件方面,基本上就是我上面说的。可以用的漂亮,我有采集N个网站,还有N个文章。
新手可以用它来研究。该软件没有什么特别之处。说白了就是一个逻辑思路,如何实现功能。
原理其实很简单。就是在一个循环中取中间(从外到内,一层一层),然后加一点判断就完成了。
如果我要说一个特别的地方,那就是标题的处理,因为有些网页字符在本地是不能写的。嗯~有兴趣的可以看看。
当然二次开发也是可以的,添加伪原创,添加分页采集,添加多级目录采集,添加HTML发布文本,添加数据库存储等等。
制作商业版并没有错,只要你有时间和精力去做。
使用时,请按照软件上的说明进行操作。从第 1 步到第 6 步,测试通过后即可启动采集。速度非常快。
测试采集文章效果
文章采集软件下载:链接:提取码:r3dw