从网页抓取数据(主流采集框架中的采集数据是你需要的吗?)
优采云 发布时间: 2022-04-19 05:04从网页抓取数据(主流采集框架中的采集数据是你需要的吗?)
从网页抓取数据,浏览器负责解析渲染,iframe负责页面跳转,爬虫负责抓取数据,后台还要处理页面的html代码,我觉得做个服务就可以了,和爬虫没关系,也和采集数据没关系,只要能让网页提交的时候告诉你要采集的数据,
io多路复用一定是你需要的,感兴趣我可以写一篇关于这方面的博客。
感觉现在主流的采集框架中,包括requests、xml2、scrapy,es,python都可以做基于web的采集。xml2+cgi可以完成服务器端采集,requests+json可以完成客户端采集,后面两者可以集成在scrapy框架中。其中scrapy相对来说更加优雅,也可以说是python中,最轻量级的采集框架。
目前市面上绝大多数采集框架都支持web相关功能。采集框架的话对于采集方式的多样性有一定限制。后面capk+es的轮子,可以用上scrapy和json2。有一点要注意的是,
还可以搭一个持续集成的框架呀。scrapyflaskjava可以用。甚至对于爬虫来说,requests+node.js也是可以和python3一样的持续集成,asseut和pil应该也都是可以gitfetch的。这个就看个人喜好了。
做的话,可以搭scrapy+python3的脚本,不过比较复杂,需要比较细致的服务器配置,