网站文章采集器(如何建立站点和栏目名称和网站归属栏目的编写规则)

优采云 发布时间: 2022-02-06 04:07

  网站文章采集器(如何建立站点和栏目名称和网站归属栏目的编写规则)

  小蜜蜂采集器文章采集器指南1:创建站点和列1:点击添加站点按钮,将出现以下页面。您可以根据提示属性列名称设置网站名称和网站。注意:您必须在设置列名之前设置 网站。并在设置列名后选择网站,以建立列的归属。配置站点和专栏后,将出现以下页面。注意:一个站点下可以添加多个列。2:建立采集规则1:为栏目添加规则当您第一次为新创建的站点添加规则时,请务必点击站点列表栏中的“添加规则”按钮。如下图: 点击后,我们可以选择站点中的哪一列添加规则。2:规则编写这里我们将重点介绍如何添加采集规则,并详细说明如何编写规则。下面的解释将以一个实际的 网站 为例。2.1 规则怎么写 我们以下面的链接地址为例: 我们来分析一下这个 URL 的页面,当出现以下页面时: 第一个页面的 URL 第二个页面的 URL 第三个页面的 URL page 这里我们可以看到除了第一个URL,还有规律的变化。所以我在URL连接区填写如下内容,我们可以看到在“常规URL”中我们使用了这个链接内容[变量].asp,而实际的分页URL是这样的,这里我们使用了[变量][变量]替换数字[2]和[3],并在参数区填写[2]和[9]。至此,我们已经完成了 URL 的添加。2. 2 如何编写“链接”规则。在上一步中,我们完成了 URL 的准备,让 采集器 知道哪些页面 URL 将是 采集;但是如果软件知道具体内容是采集,我们需要编辑“链接”规则。首先确定我们要去哪些链接采集:在当前页面,我们按“F7”,或者在IE中点击“查看”-“源文件”按钮打开记事本查看当前页面的HTML源代码文件,找到具体的代码区,如下图:我们可以发现这些代码是有规律的,提取如下

  

  href="/tech/web/2005/2815.asp">DW8代码工具栏试用 我们为上面的代码写如下代码

  

  href="[link]">[title]在上面,我们将“/tech/web/2005/2815.asp”替换为[link][link]标签,并将其替换为[title ][title] 标签“DW8 代码工具栏试用”。编辑好“链接”规则后,选择“提交”按钮,点击“采集测试”按钮,测试规则是否配置正确。如果配置正确,会出现如下页面: 这表示前面步骤中的配置完全正确,现在可以进行实际文章内容的采集配置了。2.3 如何配置文章采集的内容从链接中选择一个页面打开,针对针对性演示内容配置中的特殊用法,这里选择的链接地址为“

  这个文章的重点是弄清楚如何root……………………。在使用 JavaScript 的 Date 对象时要注意这一点,这一点很重要。

  align=right>Source 这里我们需要选择收录内容源代码的起始特征代码和结束特征代码。通过分析,我们选择如下配置。这里我们使用 [content] [content] 标签来替换内容页面的所有代码。实际代码如下【内容】

  来源2.3.3 配置文章内容“内容分页”在这个链接中,完整的文章分为三个页面。“内容分页”一般有两种形式,1:全部列表形式,2:上下页形式。我们演示两种形式的编码配置 A:列出所有形式的HTML源代码如下class=list>

  

  实现日期下拉菜单 [1]

  

  href="/tech/web/2006/3169_2.asp">实现日期下拉菜单[2]

  

  href="/tech/web/2006/3169_3.asp">实现日期下拉菜单[3]

  这里我们使用[innerrang][paging area code]标签,配置规则如下:class=list>

  

  [内向]

  B:上下页的HTML源码如下 align=right>上一页 href="/tech/web/2006/3169_2.asp"style="font-size:12px">下一页实现日期下拉菜单 title="next page"href="[innerpage]">next page[variable]

  . 这里需要注意的是,在上下页分页模式下,只需要选择收录“下一页”内容的源码即可。在这一步之后,选择提交,然后选择 采集Test 按钮。如下图所示,找到标题为“Implement a Date Drop-down Menu”的链接,点击“Extract Content”按钮,测试提取的内容。并查看该内容是否与原创内容匹配,以及是否完全提取了“内容分页”。在这里我们可以看到。内容被完整提取。证明我们的“内容”“内容分页”规则配置是正确的。剩下的“来源”、“作者”栏目规则,我们可以参考“内容”等的配置方法。配置如下:2.3.4 配置文章内容“过滤”栏“过滤”栏,可以将要过滤的源代码复制到该栏,如果有多个要过滤的源代码可以使用 [过滤] [添加过滤器] 标签来划分片段。2.3.5 配置文章“图片保存目录”的内容。这里的目录是指系统所在WEB的根目录。可以手动创建,也可以在指定图片存储的一级目录后选择“自动添加目录”。选择此选项后,系统将根据日期创建第二个目录。级别目录,将当天采集使用的图片存放在以日期命名的目录中;建议使用它以便于管理。3:文章采集规则配置完成后,按照“采集链接”-“采集内容”-“采集图片”的顺序@文章采集完成后采集,可以点击“内容”浏览,检查采集的内容和图片是否正确。

  二:采集器配置技巧一:规则复制同一个网站的不同目录,它们的配置规则大致相同,只需要做少量改动。在我们为一列配置规则之后。我们可以使用“复制规则”为其他没有配置规则的列复制规则。加快列规则的配置。具体方法如下:在已配置的规则栏中点击“复制规则”按钮,待复制的规则列名后出现页面后点击“提交”。这样就完成了规则的复制。我们只需要将规则编辑器中的 URL 替换为相应的列。2:规则导入导出采集器 规则分为三种类型 1:全站配置规则(*. qzd)文件2:列配置规则(*.lwp)文件数据库导入库配置规则(*.lpdb)文件。2.1 站点范围规则的导入和导出,站点范围规则的导入和导出,是指站点中所有栏目和栏目配置规则的导入和导出。导入全站规则时,需要点击“添加站点”,新建一个站点,然后点击新建站点的“导入规则”,选择需要导入的全站配置规则文件*.qzd。2.2 栏目规则导入导出 栏目规则导入导出是指站点中特定栏目配置规则的导入导出。导入站点范围的规则时,需要点击“添加站点”,新建一列,然后点击“导入规则”列中的新建,选择要导入的站点范围的配置规则文件*.lwq。2.3 数据库导入规则管理 数据库导入规则管理是指导入、导出或更改列中设置的导入规则。出现以下菜单。导入规则和导出规则与列规则导入、导出相同。编辑规则可以更改现有的已配置规则。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线