了织梦自带采集器使用教程(二)梦

优采云发布时间: 2021-08-27 04:13

了织梦自带采集器使用教程(二)梦

　　在之前的文档中，我们介绍了织梦自带采集器使用教程，但并不是每个用户都能很好地使用它们。总之采集这个东西需要在实际站点上积累经验，因为目标站点的代码不同，遇到不同的问题，积累起来才能上手。

　　第一步，我们打开织梦Background，点击采集——采集Node Management——添加一个新节点

　　file:///C:/users/administrator/appdata/roaming/360se6/User%20Data/temp/2012031560765705.jpg

　　第二步，添加新节点-配置URL索引

　　填写采集网站列表的相关规则，

　　查看采集站点代码和网站源代码

　　我们右键点击查看源码。在源码的开头，我们找到了一个带有charset=某个代码的meta标签，比如charset="gb2312"，这就是所谓的网站代码

　　选择采集site的编码

　　第三步，添加新节点-配置文章URL匹配规则

　　我们查看采集站点的list页面源码，找到文章list start html和end html标签，复制到“采集node所在区域”开头的HTML ->文章添加了 URL 匹配规则。" “和”End of area HTML”输入框。你不一定要选择右键查看源代码才能找到文章list开始标签，你可以右键点击文章开始的地方，查看element（chrome浏览器，firefox是查看元素），这样更方便查找文章List开始和结束标签。

　　设置完成后，我们点击“保存信息，进入下一步设置”

　　第四步：URL获取规则测试

　　如果在测试结果中发现不相关的URL信息，说明第五步的URL过滤规则有误或者过滤规则没有填写，如果发现采集有误，可以返回到最后修改，如果没有，点击“保存信息，进入下一步设置”。

　　第五步：内容字段获取规则

　　我们查看采集站点的文章源代码，找到相关选项的开始和结束html标签，填写指定位置，开始和结束标签用“[Content]”分割。

　　设置好后，我们点击“保存配置并预览”

　　第 6 步：过滤规则

　　在第7步的匹配规则之后，还有一个过滤规则，用于过滤不需要采集的内容。

　　比如网易的每篇文章文章都有一个iframe标签，用来投放广告。我们要采集网易的文章。不可能在采集回来后，我每篇文章都要删除这个广告。但是如何去除呢？去除方法是过滤规则。当我们点击常用规则时，会弹出一个小窗口，列出常用的过滤规则。我们只需要点击我们想要过滤的规则，就可以过滤网易文章iframe标签中，我们点击iframe即可。