解决方案:万能文章采集器 输入关键词采集各大搜索引擎网页和新闻
优采云 发布时间: 2020-09-19 11:01产品名称:通用文章采集器(原装)
支持系统:计算机
一个代码,一台计算机:支持交换计算机,
由营销软件生产的通用文章采集软件,您可以输入关键词采集主要搜索引擎网页和新闻,或采集指定网页文章
基于市场研究开发的智能文本识别算法,它可以从Internet上复杂的网页中尽可能准确地提取文本内容。
文本识别具有自动识别(即以前的“标准”,“严格”模式),“精确标签”,“头尾标记”。它的自动识别功能可以适应大多数网页的正文提取,“精确标签”只需要指定正文标签标题即可,例如“
”,则可以提取所有网页的文本; head和tail标签是指定文本的开头和结尾。
关键词采集当前支持搜索引擎:百度,搜狗,360、Google,必应,雅虎
采集指定网站文章的功能也非常简单,只需很少的设置即可(不需要复杂的规则),并且可以批量处理采集目标网站的文章
由于墙壁问题,要使用Google搜索和Google翻译文章的功能,您需要使用VPN来更改外部IP。
________________________________________________
以下是界面组件的说明:
采集分页:如果文本以分页显示,它将自动采集分页合并
删除链接:删除网页中锚文本的链接功能,仅保留锚文本的标题
txt格式:另存为txt文本(自动清除HTML标记)
调试模式:在文本的开头插入“调试模式:标题和链接”的内容,以方便进入原创网页以比较文本的识别效果
标题为关键词:只有标题中搜索为关键词的页面为采集
放弃简短标题:当自动识别的标题的长度小于原创标题的三分之一时,它就是简短标题。通常,这种标题是错误的,因此您可以检查并丢弃它,并使用原创标题(遇到此段落时您将理解)。
删除外部代码:使用自动识别和精确标签时,通常会收录
如果您不需要这样的外部代码,则必须选中并删除它。
过滤文字:某些文字收录标题元素,例如
这三种类型需要删除,并且有很多具有类属性的标签也属于系统定义的非文本内容,例如
推荐内容
通常,只要删除类代码,就可以删除大部分非文本内容,然后有一个例外编辑框输入无法删除的类,直接填写该类的值,并使用多个值|分开。
________________________________________________
[精确标签]特殊说明:
请使用Google Chrome或Maxthon浏览器,右键单击text-review元素的开头,然后找到文本的代码段,然后复制代码段的标记头。
类似于代码段的代码
复制身体部位
多个标签可以用“ |”分隔
________________________________________________
关键词采集的文章自动与相同标题的本地文章进行比较。如果相似度超过60%,将跳过该相似度;如果相似度低于60%,将被自动重命名并保存。
下载URL: