从网页抓取数据(主流采集框架中的采集数据是你需要的吗？)

优采云发布时间: 2022-04-19 05:04

　　从网页抓取数据，浏览器负责解析渲染，iframe负责页面跳转，爬虫负责抓取数据，后台还要处理页面的html代码，我觉得做个服务就可以了，和爬虫没关系，也和采集数据没关系，只要能让网页提交的时候告诉你要采集的数据，

　　io多路复用一定是你需要的，感兴趣我可以写一篇关于这方面的博客。

　　感觉现在主流的采集框架中，包括requests、xml2、scrapy，es，python都可以做基于web的采集。xml2+cgi可以完成服务器端采集，requests+json可以完成客户端采集，后面两者可以集成在scrapy框架中。其中scrapy相对来说更加优雅，也可以说是python中，最轻量级的采集框架。

　　目前市面上绝大多数采集框架都支持web相关功能。采集框架的话对于采集方式的多样性有一定限制。后面capk+es的轮子，可以用上scrapy和json2。有一点要注意的是，

　　还可以搭一个持续集成的框架呀。scrapyflaskjava可以用。甚至对于爬虫来说，requests+node.js也是可以和python3一样的持续集成，asseut和pil应该也都是可以gitfetch的。这个就看个人喜好了。

　　做的话，可以搭scrapy+python3的脚本，不过比较复杂，需要比较细致的服务器配置，

0

2022-04-19

从网页抓取数据

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

从网页抓取数据(主流采集框架中的采集数据是你需要的吗？)

0 个评论

发起人

AI时代内容工厂

从网页抓取数据(主流采集框架中的采集数据是你需要的吗？)

0 个评论

发起人

相关问题