解决方案:优采云·万能文章采集器(SMGod) v2.17.7.0 绿色版
优采云 发布时间: 2020-09-01 08:12优采云·Universal 文章 采集器(SMGod)v2.17.7.0绿色版
因此您可以根据实际情况切换模式. 您可以使用本地批处理的读取网页正文功能来测试指定网页适合的模式.
[采集中的处理选项]
采集可以同时执行翻译,过滤和单词搜索. 对于已经为采集的文章,您可以使用“本地批处理”.
翻译功能是将中文翻译成英文,然后再翻译回中文,这也会产生伪原创效果. 支持原创格式转换,即文章的原创标签结构和排版格式不会更改.
[采集目标是URL]
您可以在URL模板中插入#URL#,#title#来合并引用
[分页采集和相对路径的绝对路径]
勾选“自动采集分页”以合并页面文章 采集,然后编辑框将值设置为最大页面数采集. 建议设置一个有限值,例如10页,以避免某些采集占用太多分页时间,并且合并的文章体积很大. 如果需要全部采集页,可以将其设置为0.
文章中的所有相对路径都将自动转换为绝对路径,从而可以确保图片等的正常显示.
[多线程]
支持多线程高速采集网页. 可以根据网络速度来确定. 电信2m可以有5个线程,电信4m可以有10个线程,依此类推,但是需要适当设置. 太多的设置可能会严重影响采集效率,甚至影响系统效率. 如果采集具有占用网络流量的其他软件,例如在线视频播放,则可以适当地减少线程数.
[文章标题和文章重复处理]
该程序可以智能地判断和过滤重复项文章
当从采集到文章的文章标题(文件名)与本地保存的文章标题相同时,优采云首先将判断两个文章的相似性,当相似度大于60%时优采云被判断为相同文章,则比较两个文章的文本量,并自动使用带有更多文本的文章覆盖并写入相同的文件名. 这种世代情况并不等于世代数.
当相似度小于60%时,优采云判断为不同文章,并将自动重命名标题(标题末尾取3到5个随机字母)并将其保存到文件中
[文章快速过滤器]
尽管优采云研究了一种非常高精度的文本提取算法,但不可避免的是提取错误很少. 这些错误主要是: 目标页面的主体是在线视频,或者主体内容太短而无法形成主体特征. 因此,可以通过设置最终结果中的单词数来提高准确性(在“文本中的最小单词数”参数中,该单词数是程序删除标签,行和行之后的纯单词数. 空格).
文章快速过滤器是为了快速查看采集好文章,以便于判断删除错误的文章提取文本. 同时,基于网络信息采集的目的进行精炼也很方便.
[生成的文章数量可变的问题]
百度和搜搜默认每页100个结果,而Google默认每页10个结果.
某些网站访问速度已超时(尤其是Google 收录中的许多访问是围墙的网站),或者在文本中设置了最少字数,或者程序忽略了具有相同内容的相似内容本地文章中的名称,或过滤黑名单和白名单等,将导致生成的文章的实际数量少于页面搜索的最大结果数量.
一般来说,百度采集的质量最高,生成的文章数量接近搜索结果的数量.