根据关键词文章采集系统(根据关键词文章采集系统表现api/pythonweb抓取采集器)
优采云 发布时间: 2022-03-13 22:00根据关键词文章采集系统(根据关键词文章采集系统表现api/pythonweb抓取采集器)
根据关键词文章采集系统表现api/pythonweb抓取api采集器xpath采集器html采集器postmonkey或getmonkeypostmessages(client)websocket(formandinputapi)json(二者都支持)点击提交导出表单
websocketsimplelysupportedwebsocketevents-postmonkey-html5请求看下上面的postmonkey
postmonkey-html5
不用解释太多。所有“采集”都是为了正则提取。所有“正则”都是为了找最优字符串。所有我们见到的普通形式正则都是为了找最优字符串并给出匹配方式。所以,大名鼎鼎的正则就是找最优字符串的代名词。所以。正则+json/xml+文本数据/语音。
htmlapi这里包含了一切浏览器内的网页与数据,理论上所有的内容。geta()是普通的html方法,可以做简单的数据抓取以及部分结构化存储,我现在就在用,能支持普通的数据抓取,但是大部分网页不支持这种方法。requests相关方法都是针对http请求而言的,如果将来得到更多的工具及资源请告诉我。当然postmonkey也可以。
htmlapi具体请求形式请参考其中前两部分,第三部分是非结构化数据的抓取,这部分有点偏入侵攻击。htmlapi具体要抓取什么数据,可以看etl配置文件。另外一个比较关键的是iframe,这个也是在etl配置文件里面加载的,