免费的文章采集器(小蜜蜂采集器文章)

优采云 发布时间: 2021-09-03 20:08

  免费的文章采集器(小蜜蜂采集器文章)

  Little bee采集器文章采集器 用户指南 1:创建站点和列 1:单击添加站点按钮,将出现以下页面。可以根据提示设置网站名称和网站属性列名称。注意:必须先设置网站,才能设置列名。并在设置列名后选择网站来建立列的所有权。配置好站点和栏目后,会出现如下页面。注意:您可以在一个站点下添加多个列。二:创建采集 规则一:为一列添加规则。第一次为新创建的站点添加规则时,请务必点击站点列表栏中的“添加规则”按钮。如下图: 点击后,我们可以选择在站点的哪一栏添加规则 2:规则编写 这里我们要重点讲一下如何添加采集规则,详细讲解如何编写规则。下面以实际的网站为例进行说明。 2.1 URL规则怎么写以下面的链接地址为例:出现如下页面,我们来分析一下这个URL的页面:第一页的URL是第二页的URL第三页,这里我们可以看到,除了第一页,其他页面的URL都在有规律的变化。所以我在URL链接区填写如下内容,我们可以看到在“常规URL”中我们使用了这个链接内容[变量].asp,实际页面URL是这样的。这里我们用[变量][变量]代替数字[2][3],并在参数区填入[2]和[9]。

  到目前为止,我们已经完成了 URL 的添加。 2.2如何编写“链接”规则。在上一步中,我们已经完成了 URL 编译,以便采集器 知道哪个页面 URL 将是 采集;但是如果软件知道采集需要哪些内容,我们就必须编辑“链接”规则。首先确定我们想要哪些链接采集:在当前页面,我们按“F7”,或者在IE中点击“查看”-“源文件”按钮,打开记事本查看当前页面的HTML源代码文件找到具体的代码区,如下图: 我们可以发现这些代码是有规律的,根据规律,提取下面的DW8代码工具栏试试。对于上面的代码,我们写成上面的[title],我们用[link] [link]标签来替换Replaced "/tech/web/2005/2815.asp",将"DW8 Code Toolbar Trial"替换为[标题] [标题] 标签。编辑完“链接”规则后,选择“提交”按钮,点击“采集TEST”按钮,测试规则是否配置正确。如果配置正确,会出现如下页面: 这说明前面步骤中的配置完全正确,现在可以进行实际文章内容的采集配置。 2.3如何配置文章content 采集在链接中选择一个页面打开,有针对性的演示了内容配置中的特殊用法。这里选择的链接地址是“实现日期下拉菜单”()。在当前页面,我们按“F7”,或者在IE中点击“查看”-“源文件”按钮,打开记事本查看当前页面的HTML源代码文件。

  2.3.1 配置文章内容的“标题”栏。在打开的源代码文件中,查找收录标题的具体HTML代码,找到代码如下:蓝色理想-实现日期下拉菜单,因为我们需要的标题内容是“实现日期下拉- down menu”,这里我们用 [title ] [Title] 把标签放在需要的地方,替换代码如下:2.3.2 在内容的“Content”栏中配置文章查找收录内容的特定源代码区域。这个文章的主题是弄清楚如何root…………………………。使用 JavaScript 的 Date 对象时要特别注意这一点。这里我们需要选择收录内容源代码的开始特征码和结束特征码。通过分析,我们选择如下配置。这里我们使用 [content] [Content] 标签来替换内容页的所有代码。实际代码如下 [content] Source2.3.3Configure 文章Content "Content Pagination" 这个链接,完整的文章分为三页。 “内容分页”一般有两种表现形式,1:列出所有形式,2:上下页形式。我们演示了两种形式的编码配置 A:下面列出了所有形式。 HTML 源代码如下。第1页实现日期下拉菜单[1]第2页实现日期下拉菜单[2]第3页实现日期下拉菜单[3]这里我们使用了[innerrang][页面区号]标签,配置规则如下: [innerrang] B:上下页的HTML源代码如下。上一页和下一页实现日期下拉菜单[2]这里使用[innerpage][Pagination]配置规则如下:[变量]在下一页。

  这里需要特别注意的是,在上下页分页模式下,只需要选择收录“下一页”内容的源代码即可。完成此步骤后,选择“提交”,然后选择“采集测试”按钮。如下图所示,找到“实现日期下拉菜单”链接,点击“提取内容”按钮,测试提取的内容。并检查内容是否符合原内容,“内容分页”是否完整提取。在这里我们可以看到。内容被完全提取。证明我们的“内容”和“内容分页”规则配置是正确的。其余的“来源”和“作者”栏规则,我们可以参考“内容”等配置方法进行配置。配置如下:2.3.4 配置文章content "filter"列"filter"列,可以将要过滤的源代码复制到该列,如果有多个源代码段要过滤,您可以使用[过滤] [添加过滤器] 标签进行分割。 2.3.5 配置文章内容“图片保存目录”。这里的目录是指采集系统所在的WEB根目录。可以手动创建,也可以在指定图片存储的一级目录后选择“按系统自动添加目录”。选择该选项后,系统会根据日期创建二级目录。 ,并将当天采集使用的图片存放在以日期命名的目录中;推荐使用,方便管理。 3:规则配置完成后文章采集按照“采集link”-“采集content”-“采集图片”的顺序完成文章的采集。完成采集后,您可以点击“内容”浏览查看采集的内容和图片的正确性。

  二:采集器Configuration Tip 1:规则复制到同一个网站的不同目录下,它们的配置规则大致相同,只需要稍微改动一下。在我们为列配置规则之后。我们可以使用“复制规则”来复制其他未配置规则的列的规则。加快列规则的配置。具体方法如下: 点击已配置规则部分中的“复制规则”按钮,弹出页面,在需要复制规则的部分名称后,点击“提交”。这样就完成了规则的复制。我们只需要将规则编辑中的 URL 替换为对应的列即可。 2:规则导入导出采集器规则分为三种1:全站配置规则(*.qzd)文件2:列配置规则(*.lwp)文件3:数据库引导库配置规则(*.lpdb) ) 文档。 2.1 全站规则导入导出,全站规则导入导出是指站点内所有栏目和栏目配置规则的导入导出。导入全站点规则时,需要点击“添加站点”,新建站点,点击新站点的“导入规则”,选择要导入的全站点配置规则文件*.qzd。 2.2 列规则导入导出 列规则导入导出是指站点中特定列配置规则的导入导出。导入站点范围的规则时,单击“添加站点”,创建一个新列,然后单击“新建列”。 “导入规则”选择要导入的全站配置规则文件*.lwq。 2.3 数据库引导规则管理 数据库引导规则管理是指导入、导出或更改列引导规则的设置。出现以下菜单。导入规则和导出规则功能与列的规则导入导出相同。相同的。编辑规则可以更改现有的配置规则。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线