集搜客网页抓取软件(网络爬虫语义标注直接与scrapy集成有必要吗？(图))

优采云发布时间: 2022-02-14 10:20

　　谢谢你。

　　曾经写过一个“xxx评论”系列，但有一天知乎上的文章都被删除了，所以这次就不直接写评论了。简单谈谈我十多年来在这个领域的观察和经验。

　　这个领域一下子火了起来，一下子上升到了一个高度，不再局限于“采集器”这个小软件。其实可以说，大家都回到了原来的轨道，本来就有了明确的目标。

　　2007年，语义网络研究进入了低谷，但我们工程界并没有停止，因为我们不需要证明理论结论“收敛”，我们只需要为实际应用产生价值。xml -> rdf -> 本体工程感觉越来越无法实现，所以2007年开始做项目，只做xml，内部使用了一些rdf，但是普通用户感觉不到。应用程序目标也得到了简化：Web 内容是结构化的，因此转换为 xml 就足够了。最近看到很多人在讨论知识图谱。再加上大数据产业的推动，确实会有很多机会涌现。

　　很多人早就有一个想法，就是在 www 之上需要一个元层来进行语义标注，这样互联网内容就可以在计算机程序之间进行交换。因此，生成的网络爬虫或采集器只是一系列产品中的一小部分。多年前讲到这个的时候，很少有人理解，也经常质疑：有必要做爬虫，既是标签又是框架。

　　最近变化非常快，import.io发展非常快，国内的极速客版本也在快速升级。面对网页内容，点击需要的东西，添加一些标签，程序会自动生成提取器。

　　最近在一位知乎网友的提示下，正在研究ScrapingHub和Scrapy。在架构方面，国外的产品还是要好很多的，很多值得借鉴。同时也提示我启动了一个python开源项目，直接将语义标注与scrapy集成，大家可以关注我的专栏。

0

2022-02-14

集搜客网页抓取软件

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

集搜客网页抓取软件(网络爬虫语义标注直接与scrapy集成有必要吗？(图))

0 个评论

发起人