从网页抓取数据(主流采集框架中的采集数据是你需要的吗?)

优采云 发布时间: 2022-04-19 05:04

  从网页抓取数据(主流采集框架中的采集数据是你需要的吗?)

  从网页抓取数据,浏览器负责解析渲染,iframe负责页面跳转,爬虫负责抓取数据,后台还要处理页面的html代码,我觉得做个服务就可以了,和爬虫没关系,也和采集数据没关系,只要能让网页提交的时候告诉你要采集的数据,

  io多路复用一定是你需要的,感兴趣我可以写一篇关于这方面的博客。

  感觉现在主流的采集框架中,包括requests、xml2、scrapy,es,python都可以做基于web的采集。xml2+cgi可以完成服务器端采集,requests+json可以完成客户端采集,后面两者可以集成在scrapy框架中。其中scrapy相对来说更加优雅,也可以说是python中,最轻量级的采集框架。

  目前市面上绝大多数采集框架都支持web相关功能。采集框架的话对于采集方式的多样性有一定限制。后面capk+es的轮子,可以用上scrapy和json2。有一点要注意的是,

  还可以搭一个持续集成的框架呀。scrapyflaskjava可以用。甚至对于爬虫来说,requests+node.js也是可以和python3一样的持续集成,asseut和pil应该也都是可以gitfetch的。这个就看个人喜好了。

  做的话,可以搭scrapy+python3的脚本,不过比较复杂,需要比较细致的服务器配置,

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线