总结:自动采集网站内容的软件很多，但是能做到自动翻页

优采云发布时间: 2022-10-21 00:08

　　自动采集网站内容的软件很多，但是能做到自动翻页的真的很少，一般网站都是按照一定的规则自动抓取，翻页很少的，毕竟不是每个网站都可以获取并用自动翻页软件的，但是可以用一些翻页小工具，比如说叫内容采集器就很好用，可以抓取的网站比较多，自动翻页也是可以做到的，我推荐你一个叫内容采集器的软件，不需要安装，占用的内存也小，有需要可以去试一下。

　　我也发现一个外国软件

　　@支付宝

　　我自己在用wondershare

　　jazzy

　　目前没有自动翻页的采集软件，如果需要建议去网站爬虫论坛（）发问，没准能得到你要的“黑科技”呢。

　　国内的是strider

　　strider、

　　就目前来看，没有一个专门针对pagescraper的软件。

　　猎豹清理大师

　　我一直在用strider，挺好用的。记得就是这个网站的采集器了，再也不用手动添加脚本了。

　　#terrain推荐#

　　基于对题主需求的理解，以及pc和手机的阅读习惯不同，我先说说手机端适用的：pc端我不太熟悉，只说下我测试的结果：pc页面：1.首先，可以采用批量采集的方式，使用java去批量采集常规网站的url，然后配合自己的页面翻译插件，翻译成自己要的语言，chrome和火狐都支持，主要依赖谷歌浏览器的谷歌翻译插件即可，然后使用一款浏览器插件autopdf进行批量整理。

　　优点，后续可以对页面逐一翻译，对页面内容条件比较复杂的，利用爬虫处理后转换成方便阅读的格式即可。2.其次，在转换成格式之后，一般会从url开始直接触发自动翻页，以excel结构如下：然后，使用批量firefox、chrome去模拟全页滚动，也是直接找到页面上的url，直接触发翻页，当然，可以在页面某个元素（右键点击有个详细属性，请留意）里找个id，获取页面首页url的特定值后翻页即可。缺点，需要再进行一次转换。3.最后，直接上手试试翻页：。

　　1）首先，使用一款chrome浏览器扩展（虽然可以直接用vpn，

　　2）然后，就是填写页面url，由于是全页滚动，所以使用正则表达式判断指定页面是否存在分页元素，有以下三种判断方式（正则查询：-xx。xxx。xxx-xxx。xxx。xxx-xxx。xxx。xxx）：-xx。xxx。xxx-xxx。xxx。xxx-xxx。xxx。

　　3）然后就是进行翻页，1.是取浏览器所有页面元素的url值。

　　-xxx.xxx.xxx.xxx.xxx-xxx.xxx.xxx.xxx.xxx.xxx-xxx.xxx.xxx.xxx.xxx

　　1）

　　2）

　　3）用正则表达式采集任意页面url，也是根据指定页面url生成正则表达式，

0

2022-10-21

自动采集网站内容

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

总结:自动采集网站内容的软件很多，但是能做到自动翻页

0 个评论

发起人

AI时代内容工厂

总结:自动采集网站内容的软件很多，但是能做到自动翻页

0 个评论

发起人

相关问题