文章采集调用(换个网站你什么都做不了,这个教程是最详尽的教程)

优采云 发布时间: 2021-09-17 07:05

  文章采集调用(换个网站你什么都做不了,这个教程是最详尽的教程)

  ·我看到很多网友对织梦(Dedecms)采集教程感到头疼。事实上,官方教程太笼统了,什么也没说。你不能在网站做任何事情。本教程是最详细的教程。你一眼就能学会

  首先,打开织梦background并单击采集-采集节点管理-添加新节点

  这里我们以采集普通文章为例。我们选择普通文章然后确认

  我们进入了采集的设置页面,并填写了节点名称,即为新节点命名。你可以在这里填写任何名字

  然后打开所需采集的文章列表页面。在这里,我们以织梦官方网站为例打开此页面。右键单击以查看源文件

  在字符集之后查找目标页代码

  页面和其他页面的基本信息通常并不重要。填写后,请参见图

  现在,让我们填写URL获取规则列表

  请看文章列表第一页上的地址

  比较第二页上的地址

  我们发现它们除了49外,后面的数字是不同的,其他的都是一样的,所以我们可以这样写

  (*).html

  只需将1替换为(*),因为这里只有2页,所以让我们填写从1到2的增量。当然是1。2-1... 等于1

  我们到此为止

  可能您的一些采集列表没有规则,因此您必须手动指定列表URL,如图所示

  每行写一页地址

  当列表规则完成后,我们开始编写文章URL匹配规则并返回文章list页面

  右键单击以查看源文件,并在区域的开头找到HTML,这是搜索文章列表开头的符号

  我们可以很容易地在图中找到“新闻列表”。从这里开始,列表上的是文章

  让我们在列表的末尾找到文章HTML

  就是这样,一个很容易找到的标志

  如果链接收录图片:

  不要将采集处理为缩略图。根据您的需要选择

  重新筛选区域网址:

  (使用正则表达式)

  必须包括:(优先于后者)

  不能收录:

  打开源文件时,您可以清楚地看到文章链接以结尾。HTML

  因此,我们必须填写。收录后的HTML。如果有些清单很麻烦,我们也可以填写那些不能包括在内的清单

  我们点击保存设置进入下一步,我们可以看到我们获得的文章网站

  看到这一点是对的。我们保存信息并进入下一步设置内容字段获取规则

  让我们看看文章是否有分页,然后随机输入一个文章。。我们看到这里有文章没有分页

  所以这里我们默认

  现在让我们来查找文章标题等等。只需输入一篇文章文章并右键单击即可查看源文件

  看看这些

  根据源代码填写

  让我们填写文章开头和结尾

  如上所述,找到开始和结束标志

  开始:

  完:

  如果要在文章中过滤任何内容,请将其写入过滤规则,例如在文章中过滤图片@

  选择常用规则

  再次检查img

  然后决定

  通过这种方式,我们过滤文本中的图片

  设置完成后,单击“保存设置并预览”

  这样一个采集规则是编写的。这很简单。有些网站很难写,但我们需要更加努力

  我们点击保存并开始采集-start采集网页,采集将在一段时间内完成

  让我们看看我们采集k7得到了什么@

  这似乎是一次成功。让我们导出数据

  首先,选择要导入的列,然后按“请选择”在弹出窗口中选择要导入的列发布选项。除非您不想立即发布,否则它通常是默认值。默认情况下,每批导入有30个条目。它是否被修改并不重要。附加选项通常为“排除重复标题”。至于自动生成HTML的选项,建议不要先生成它,因为我们必须批量提取摘要和关键字

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线