网站内容采集器(高级使用技巧之网站内容采集器规则修正)
优采云 发布时间: 2022-02-04 04:17网站内容采集器工具包MetaSeeker从V4.0.0版本开始增加了自定义XPath规则的功能,完全由原程序自行生成网站内容采集规则得到补充和增强。但是,如果自定义XPath表达式使用字符串处理函数采集字面量内容,就会遇到bug。
场景
<p>比如使用XPath函数substring-after()等,生成的网站content采集指令文件是正常的,也就是说网络爬虫和网站内容采集器DataScraper运行正常,用户可以准确海量采集网站内容。但是MetaStudio生成的信息结构描述文件不正确,用户输入的自定义XPath表达式被误认为是DOM节点定位表达式。后果是网站content采集规则*敏*感*词*MetaStudio无法再次将之前生成的信息结构加载到工作台中进行修改和编辑,需要采集