网站内容采集器(高级使用技巧之网站内容采集器规则修正)

优采云发布时间: 2022-02-04 04:17

　　网站内容采集器工具包MetaSeeker从V4.0.0版本开始增加了自定义XPath规则的功能，完全由原程序自行生成网站内容采集规则得到补充和增强。但是，如果自定义XPath表达式使用字符串处理函数采集字面量内容，就会遇到bug。

　　场景

<p>比如使用XPath函数substring-after()等，生成的网站content采集指令文件是正常的，也就是说网络爬虫和网站内容采集器DataScraper运行正常，用户可以准确海量采集网站内容。但是MetaStudio生成的信息结构描述文件不正确，用户输入的自定义XPath表达式被误认为是DOM节点定位表达式。后果是网站content采集规则*敏*感*词*MetaStudio无法再次将之前生成的信息结构加载到工作台中进行修改和编辑，需要采集

0

2022-02-04

网站内容采集器

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网站内容采集器(高级使用技巧之网站内容采集器规则修正)

0 个评论

发起人

AI时代内容工厂

网站内容采集器(高级使用技巧之网站内容采集器规则修正)

0 个评论

发起人

相关问题