了织梦自带采集器使用教程(二)梦

优采云 发布时间: 2021-08-27 04:13

  

了织梦自带采集器使用教程(二)梦

  

  在之前的文档中,我们介绍了织梦自带采集器使用教程,但并不是每个用户都能很好地使用它们。总之采集这个东西需要在实际站点上积累经验,因为目标站点的代码不同,遇到不同的问题,积累起来才能上手。

  第一步,我们打开织梦Background,点击采集——采集Node Management——添加一个新节点

  file:///C:/users/administrator/appdata/roaming/360se6/User%20Data/temp/2012031560765705.jpg

  

  

  第二步,添加新节点-配置URL索引

  填写采集网站列表的相关规则,

  查看采集站点代码和网站源代码

  我们右键点击查看源码。在源码的开头,我们找到了一个带有charset=某个代码的meta标签,比如charset="gb2312",这就是所谓的网站代码

  

  

  选择采集site的编码

  

  第三步,添加新节点-配置文章URL匹配规则

  我们查看采集站点的list页面源码,找到文章list start html和end html标签,复制到“采集node所在区域”开头的HTML ->文章 添加了 URL 匹配规则。" “和”End of area HTML”输入框。你不一定要选择右键查看源代码才能找到文章list开始标签,你可以右键点击文章开始的地方,查看element(chrome浏览器,firefox是查看元素),这样更方便查找文章List开始和结束标签。

  设置完成后,我们点击“保存信息,进入下一步设置”

  

  

  第四步:URL获取规则测试

  如果在测试结果中发现不相关的URL信息,说明第五步的URL过滤规则有误或者过滤规则没有填写,如果发现采集有误,可以返回到最后修改,如果没有,点击“保存信息,进入下一步设置”。

  

  第五步:内容字段获取规则

  我们查看采集站点的文章源代码,找到相关选项的开始和结束html标签,填写指定位置,开始和结束标签用“[Content]”分割。

  设置好后,我们点击“保存配置并预览”

  

  

  第 6 步:过滤规则

  在第7步的匹配规则之后,还有一个过滤规则,用于过滤不需要采集的内容。

  比如网易的每篇文章文章都有一个iframe标签,用来投放广告。我们要采集网易的文章。不可能在采集回来后,我每篇文章都要删除这个广告。但是如何去除呢?去除方法是过滤规则。当我们点击常用规则时,会弹出一个小窗口,列出常用的过滤规则。我们只需要点击我们想要过滤的规则,就可以过滤网易文章iframe标签中,我们点击iframe即可。

  

  测试内容字段设置

  因为网易开头有文章

  一些文章以

  开头

  ,所以会有采集错误。

  如果你现在想要采集,你可以点击保存和采集。这里我选择只保存

  

  

  采集Content (一)

  回到采集node管理界面,也就是第一步的界面,我们选择节点点击采集

  

  采集内容(二)

  

  查看已下载

  您可以点击采集界面(第十步界面)右上角的“查看已下载”。也可以在“采集Node 管理”界面点击“查看已下载”。以第二种方法为例。

  

  

  导出内容

  选择要导入的列、数据量、是否生成html文件、随机推荐的数量

  

  

  最终结果

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线