尊天网页采集器v1.0.1绿色版

优采云 发布时间: 2020-08-25 20:35

  尊天网页采集器v1.0.1绿色版

  现在市面上参杂着一些收费的网页采集器,这样一款红色免费的网页采集器不管他功能怎么样,是免费的就太难得了!

  本软件通过互联网,采集网页信息。有两大特色功能:

  1,可以采集js以后的动态信息。

  2,可以设定采集的正则表达式。

  另外,本软件外置多种采集方案,分别对应静态网页和动态网页。

  官网的图片(人脸)搜索引擎的数据都是用这个软件采集,然后才做索引的。

  使用步骤:

  1,输入网址,正常浏览网页抵达采集目标后,点击工具栏上的“查看js后源码”图标,则显示执行js后的网页内容。

  如果没有见到相关内容,可以等待片刻再度点击,以保证js代码执行完毕。通过浏览完整的网页源码,我们可以确定

  使用方案1还是方案2。如果修改网址的页脚就可以导航到下一页,则使用方案1;如果是通过脚本动态更新网页内容,

  则使用方案2。

  2,点击工具栏上的“运行采集方案”图标,根据步骤1,选择方案1或2。如果早已有方案1和2生成的downloadtotal.txt

  文件,也可以选择方案3。填入必要的信息或则表达式,点击“开始采集”按钮,系统将手动采集。点击对话框的“取消”

  按钮,则不启动采集任务直接关掉对话框。

  3,点击工具栏上的“停止采集方案”图标,系统中止采集任务。

  防止网页采集:

  防止采集第一种方式:在文章的头尾加上随机不固定的内容。网站采集器在采集时,通常都是指定一个开始位置和一个结束位置,截取中间的内容。

  比如你的文章内容是"有讯软件信息网",则随机内容的加入方式:

  随机内容1+有讯软件信息网+随机内容2

  注:随机内容1和随机内容2每篇文章只要随机显示一个就可以了.

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线