集搜客网页抓取软件(网络爬虫语义标注直接与scrapy集成有必要吗?(图))
优采云 发布时间: 2022-02-14 10:20集搜客网页抓取软件(网络爬虫语义标注直接与scrapy集成有必要吗?(图))
谢谢你。
曾经写过一个“xxx评论”系列,但有一天知乎上的文章都被删除了,所以这次就不直接写评论了。简单谈谈我十多年来在这个领域的观察和经验。
这个领域一下子火了起来,一下子上升到了一个高度,不再局限于“采集器”这个小软件。其实可以说,大家都回到了原来的轨道,本来就有了明确的目标。
2007年,语义网络研究进入了低谷,但我们工程界并没有停止,因为我们不需要证明理论结论“收敛”,我们只需要为实际应用产生价值。xml -> rdf -> 本体工程感觉越来越无法实现,所以2007年开始做项目,只做xml,内部使用了一些rdf,但是普通用户感觉不到。应用程序目标也得到了简化:Web 内容是结构化的,因此转换为 xml 就足够了。最近看到很多人在讨论知识图谱。再加上大数据产业的推动,确实会有很多机会涌现。
很多人早就有一个想法,就是在 www 之上需要一个元层来进行语义标注,这样互联网内容就可以在计算机程序之间进行交换。因此,生成的网络爬虫或采集器只是一系列产品中的一小部分。多年前讲到这个的时候,很少有人理解,也经常质疑:有必要做爬虫,既是标签又是框架。
最近变化非常快,import.io发展非常快,国内的极速客版本也在快速升级。面对网页内容,点击需要的东西,添加一些标签,程序会自动生成提取器。
最近在一位知乎网友的提示下,正在研究ScrapingHub和Scrapy。在架构方面,国外的产品还是要好很多的,很多值得借鉴。同时也提示我启动了一个python开源项目,直接将语义标注与scrapy集成,大家可以关注我的专栏。