优采云万能文章采集器官方版 v2.17.7.0

优采云 发布时间: 2020-08-22 15:18

  优采云万能文章采集器官方版 v2.17.7.0

  优采云万能文章采集器是一款简单易用的文章采集工具,用户只须要输入关键词才能够快速采集主要搜索引擎的新闻源和泛网页,再也不用为了查找文字而四处翻网页了。优采云万能文章采集器除了具有采集速度快、操作简单的特性,文章采集器还可以精确提取网页里的正文部份保存为文章,并且支持去标签、链接、邮箱等低格处理,将纯文字的结果展示给用户,免去了用户二次处理文字的麻烦。

  

  使用教程 1、点击“关键词采集文章”按钮

  

  2、选择搜索引擎及类型

  

  3、输入搜索成语

  

  4、选择输出结果的保持目录及保持对象

  

  5、点击“开始采集”

  

  6、文章输出

  

  软件功能 1、可以精确提取网页里的正文部份保存为文章

  2、支持去标签、链接、邮箱等低格处理

  3、插入关键词功能

  4、可以辨识标签或标点后面插入

  5、识别中文空格宽度插入

  

  更新日志优采云万能文章采集器 v2.17.7.0 更新日志(2020-4-8)

  1、全新降低正文过滤功能,可以屏蔽掉绝大多数不属于正文的内容;合并严格和标准的正文辨识,并加强正文辨识能力(现在辨识的正文没有再带父层的div标签了,都是取内部的代码了);增强对部份特意伪装的网站标题的提取能力;其他更新。

  2、采集文章URL,强化相对路径的处理,比如../ 和 ../../ 等,经过本版本加强处理后,相对路径将完全转化为绝对路径,与浏览器中键盘移到链接上查看到的一致。

  3、修复微软改动引致采集失败的问题。

  4、修复关键词采集文章栏目选取精确标签时没有弹出输入的问题(前面版本导致);根据URL采集文章栏目新增删掉内层代码可选选项(之前默认启用);调试模式修改为文章来源;疑点说明更新;其他。

  5、修复陌陌采集失败问题。

  6、增强分页采集识别能力。

  7、新增微软地址前缀指定,可自行设置能使用的微软域名。

  8、采集设置的正则替换支持使用隔开多个匹配和替换表达式。

  9、增强正文辨识能力,识别准确度有所提高;增加对特殊编码响应的辨识。

  10、增加对二次加载图片的新属性“original”识别转换。

  11、外置文件更新谷歌翻译使用的域名;修正微软tk参数变动翻译失败的问题。

  12、修复部份情况因系统缘由未能跳转网址造成百度网页未能采集的问题;新增手动清除网址的#后缀部份,该部份会导致网页读取错误;采集文章URL新增左侧和右侧插入选项;修复上面版本造成的正文提取的过滤存在的一些问题;其他更新。

  13、增强对部份采用跳转的网页辨识。

  14、增加标题字数限制为最多100字,以免字数超长造成的一些问题;其他更新。

  优采云万能文章采集器2.15.8.0更新日志(2017年3月24号)

  修复百度网页搜索时间设置失效问题并取消百度新闻时间设置(已不支持);

  微信采集时降低正文最少字数的设置支持(原先只有手动辨识的可以设置字数,而陌陌是外置精确标签的所以不能设置字数,现在可以了);

  【文章查看】切换显示时降低手动刷新目录树;

  关键词采集正文字数不足时补充提示设置的字数值

  特别说明

  解压密码:

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线