解决方案:EditorTools2(无人值守免费自动采集器) V3.1.3 绿色免费版

优采云 发布时间: 2022-10-15 12:10

  解决方案:EditorTools2(无人值守免费自动采集器) V3.1.3 绿色免费版

  2、如需恢复旧数据库,可将备份文件复制为“et.mdb”;

  4.如何将免费版升级为*敏*感*词*:

  方法一、在免费版菜单中点击升级到*敏*感*词*(注意:目录中有+号,会导致自动升级失败);

  方法二、下载*敏*感*词*软件包并解压后,将免费版ET文件夹中的et.mdb文件复制到*敏*感*词*ET文件夹中;

  五、软件保留数据升级到最新版本的方法:

  

  方法1、点击软件菜单-帮助-检查更新,自动升级(注意:目录有+号,会导致自动升级失败);

  方法2、下载软件包并解压后,将旧版ET文件夹中的et.mdb文件复制到新版ET文件夹中;

  【更新日志】

  V3.1.3 (2017-6-2)

  1.新增:数据项现在可以设置为一个post数据排序组,在完成包括数据项翻译在内的各种操作后进行二次处理。

  3. 修正:多列表测试结果显示不完整的问题。

  

  V3.1.2 (2017-4-25)

  1.新增:方案设置中的采集区间现在可以设置随机时间。

  2.新增:采集规则现在可以独立设置UserAgent,可以设置多个UA随机调用。

  V3.1.1 (2017-4-20)

  1. 修复:在导入ET2配置数据时,rule_post表可能会失败。

  2.优化:多级列表页面现在会忽略不带采集的列表信息。

  最新版本:无人值守免费自动采集器 v3.4.6 绿色版

  无人值守免费自动采集器是一款可以自动采集信息的软件,这个软件也可以简称为ET,无需人工操作,这个软件24小时自动完成采集工作,可以长期运行,甚至几年。另外,本软件无需繁琐的安装步骤,支持查看采集目录和采集的文章。一般的操作流程是创建方案->配置采集规则从目标获取信息->配置中间规则->配置不规则,添加信息到你的网站->开始自动工作,操作很简单,只需按照软件提示即可完成。目前本软件支持Windows XP简体中文版,Windows 2000 简体中文版、Windows 2003 简体中文版、Windows Vista 简体中文版;对于其他语言环境的Windows系统,部分可以使用,用户可以自行尝试,开发者不提供相应的技术支持,用户选择下载。

  软件功能

  设置劫持签名

  很多地区的电信宽带用户在上网时会被迫使用一些代码来代替接入信息中的接入信息,使用户只能通过代码中的边框查看自己想访问的网页。这通常用于显示电信广告或信息。执行其他隐身动作,这种行为称为劫持浏览器;出现这种情况时,ET的采集的源代码只能获取到这些劫持代码,而不是想要采集源代码的网页。通过设置这些劫持码的特征字符串,ET会尝试突破劫持访问真实网页源代码,最多可重试5次访问该URL。

  设置用户代理

  网站使用userAgent判断当前用户使用的是什么浏览器,根据浏览器可以支持的情况提供相应的功能。当浏览器访问一个网页时,它通常会发送一个标识字符串来告诉网站它是什么浏览器软件。我们访问 网站 的部分会限制 UserAgent。我们可以在基本设置中修改UserAgent。,也可以点击“获取本机UserAgent”按钮获取本地IE默认UserAgent。

  自动工作

  选择要执行的工作计划后,点击主窗口左下方的自动按钮,开始全自动工作。即日起,用户可以扔掉鼠标和键盘,抛开繁琐的网站更新,与好友分享一起旅行,网站内容有自己的ET默默为你采集更新.

  进程文章

  当文章列表区域有待处理的文章时,点击主窗口左下角的'Process文章'按钮,文章中的第一项> 列表区域将按顺序处理。待处理文章执行采集动作,在文章列表区域,双击一个文章条目,文章动作将被执行采集 ,这个 文章 是否已经被处理。

  工作记录

  该栏记录了ET各步骤的工作过程和状态,包括目录采集和文章处理两大部分。通过工作记录,我们可以知道这个采集的执行是否正确完成,或者有什么问题?当出现问题时,用户可以根据信息栏中的提示和其他反馈内容,快速准确地查找故障原因并予以解决。

  采集源码

  本栏目展示了采集在执行过程中的文章列表页面、文章页面、文章页面等的源码。规则测试,为规则定制提供依据。

  分析数据

  本栏展示了文章处理过程中各个数据项的信息,从分析的原创代码,到排序后的代码,再到URL修正后的代码,用户可以通过查看本栏了解设置的数据项目分析规则是否准确,排序分组规则是否完整,最终信息是否符合自己的要求。例如:当工作记录栏提示错误“正文中的文本数量大于或小于发布设置”时,我们可以查看该栏的“正文”数据项,看看是大于还是小于发布设置,是正常原因还是组织组设置不当。从而调整每个设置。

  发送代码

  该栏显示ET发送到发布网站的数据,包括文章检查部分和文章发布部分;用户可以通过本栏目了解到,通过一系列的分析、排序操作,最后到发布网站提交的数据,用于检查采集规则和参数设置的数据项是否发布规则正确、完整。

  返回的消息

  该栏显示ET发送数据到释放网站后对释放网站的反馈,包括文章检查反馈和文章释放反馈;通过查看这个专栏,我们可以清楚地了解采集进程出错的大部分原因。有些接口返回错误信息时,可能是HTML代码,不熟悉HTML代码的用户难以阅读。点击WEB浏览按钮,可以在操作系统的默认浏览器中方便地查看。

  步标记

  单击 [步骤] 按钮将标记插入规则或将选择字符串替换为标记。标记码是,它是一个可选项目,它代表一个在URL中定期变化的数字字符串;[step]标签在自动列表URL规则中是可选的,可以多次使用

  子周期标记

  单击 [子循环] 按钮将标记插入规则或将选择字符串替换为标记。标记代码是,它是一个可选项目,它代表一个在URL中定期变化的数字字符串;[step]标签每一步执行一个步骤,[sub-loop]标签执行一个循环,即嵌套循环;当自动列表规则只有[sub-loop]标签时,效果相当于[step]标签;[sub-loop] 标签在自动列表 URL 规则中只能使用一次。

  

  软件功能

  本软件无第三方恶意插件、病毒木马等危害电脑的信息

  支持无人值守自动完成采集操作

  自动运行时间长,可24小时不间断地进行采集工作

  本软件稳定性好,如无特殊情况不会掉线。

  下载文件并快速下载文章

  支持伪原创功能,可以把别人的东西变成自己的

  可以支持采集任何信息进入软件

  支持导出或导入信息

  安装方式

  本软件无需安装,找到下载的压缩包解压,然后双击“优采云采集器3.exe”应用程序进入软件界面。

  指示

  采集 列表中的缩略图

  1、在系统导航栏中找到采集配置功能,点击进入相关界面,然后在选择列表中进行设置。

  2.找到列表分析规则后,点击页面地址,然后选择缩略图。添加完成后,得到如图所示的代码。

  3. 然后在【缩略图数据项】中设置其相关参数。注意,当【缩略图数据项】中的采集规则为空时,数据项的值为【缩略图标签】的。采集结果。

  4.将鼠标滑到页面底部,因为我们采集到的缩略图通常是图片地址,所以在文件选项中勾选[as file URL]。

  5. 单击文件下载并选中启用下载前的复选框。

  6、最后一定要使用发布配置的发布项窗口中的数据项标签来赋值网站的缩略图参数才能生效。

  7. ET3支持多层列表。在多层列表中使用[Thumbnail Mark]时,最后使用[Thumbnail Mark]的结果将作为[Thumbnail Data Item]的值。

  

  常见问题

  ET3多级列表中同名标签的使用

  在ET3新的多级列表中,每个列表页面的列表分析规则名称相同,可以分别称为“文章标题”、“缩略图”、“附加信息”等标签,然后每个列表页面之间的这些同名标签之间有什么关系以及如何使用它们。

  1.同一列表页的标记

  与单列表页面一样,可以在URL合成中调用从页面列表分析得到的【页面地址】和【附加信息】。

  2. 不同列表页面上的同名标记

  1. [文章标题]

  从多个列表页面获取的[文章Titles] 会在去除前后空白字符后从上到下合并,并用空格分隔。

  合并后的内容会在采集目录下显示为“List Data - 文章Title”,可以在数据整理中调出。

  如果数据项中没有设置“title”数据项的采集规则,则将其作为“title”数据项的值。

  2. [缩略图]

  如果有多个带有[thumbnail]标签的listing页面,只有上次获取的[thumbnail]有效。

  它将以“列表数据缩略图”的形式提供,可以在数据整理中调用。

  如果“thumbnail”数据项没有设置采集规则,它将被用作“thumbnail”数据项的值。

  3. [附加信息]

  [附加信息] 令牌共有三个,用法相同。

  如果多个房源页面标有【附加信息】],只有最后获得的【附加信息】有效。

  它将作为“列表数据 - 附加信息”提供,可以在数据整理中调用。

  从3.1.7版本开始,如果列表分析规则中没有使用【附加信息】标签,而在URL合成中使用了【附加信息】标签,该标签的值会调用【附加信息】标签上列表页中的同名。]标签的值,即上级列表页中最后一个有效的同名标签的值。

  为什么发布配置的check URL中不能调用数据项?

  在发布配置的检查地址栏中,只有一个按钮[文章title],这里不能调用其他数据项的值。

  因为ET使用校验URL进行文章重复校验,所以数据项的采集还没有执行,自然不能调用数据项的值。这是为了提高效率和节省时间。.

  如果在完成所有数据项采集之后再进行文章重复检查,那么当文章重复时,之前的所有工作都将毫无用处,造成巨大的浪费。

  当用户有多个数据项值参与查重时,可以在发布接口文件中添加文章查重功能,但查重URL留空,不使用查重URL 文章 重复检查。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线