总结:自动采集网站内容的软件很多,但是能做到自动翻页
优采云 发布时间: 2022-10-21 00:08总结:自动采集网站内容的软件很多,但是能做到自动翻页
自动采集网站内容的软件很多,但是能做到自动翻页的真的很少,一般网站都是按照一定的规则自动抓取,翻页很少的,毕竟不是每个网站都可以获取并用自动翻页软件的,但是可以用一些翻页小工具,比如说叫内容采集器就很好用,可以抓取的网站比较多,自动翻页也是可以做到的,我推荐你一个叫内容采集器的软件,不需要安装,占用的内存也小,有需要可以去试一下。
我也发现一个外国软件
@支付宝
我自己在用wondershare
jazzy
目前没有自动翻页的采集软件,如果需要建议去网站爬虫论坛()发问,没准能得到你要的“黑科技”呢。
国内的是strider
strider、
就目前来看,没有一个专门针对pagescraper的软件。
猎豹清理大师
我一直在用strider,挺好用的。记得就是这个网站的采集器了,再也不用手动添加脚本了。
#terrain推荐#
基于对题主需求的理解,以及pc和手机的阅读习惯不同,我先说说手机端适用的:pc端我不太熟悉,只说下我测试的结果:pc页面:1.首先,可以采用批量采集的方式,使用java去批量采集常规网站的url,然后配合自己的页面翻译插件,翻译成自己要的语言,chrome和火狐都支持,主要依赖谷歌浏览器的谷歌翻译插件即可,然后使用一款浏览器插件autopdf进行批量整理。
优点,后续可以对页面逐一翻译,对页面内容条件比较复杂的,利用爬虫处理后转换成方便阅读的格式即可。2.其次,在转换成格式之后,一般会从url开始直接触发自动翻页,以excel结构如下:然后,使用批量firefox、chrome去模拟全页滚动,也是直接找到页面上的url,直接触发翻页,当然,可以在页面某个元素(右键点击有个详细属性,请留意)里找个id,获取页面首页url的特定值后翻页即可。缺点,需要再进行一次转换。3.最后,直接上手试试翻页:。
1)首先,使用一款chrome浏览器扩展(虽然可以直接用vpn,
2)然后,就是填写页面url,由于是全页滚动,所以使用正则表达式判断指定页面是否存在分页元素,有以下三种判断方式(正则查询:-xx。xxx。xxx-xxx。xxx。xxx-xxx。xxx。xxx):-xx。xxx。xxx-xxx。xxx。xxx-xxx。xxx。
3)然后就是进行翻页,1.是取浏览器所有页面元素的url值。
-xxx.xxx.xxx.xxx.xxx-xxx.xxx.xxx.xxx.xxx.xxx-xxx.xxx.xxx.xxx.xxx
1)
2)
3)用正则表达式采集任意页面url,也是根据指定页面url生成正则表达式,