python抓取网页数据(python+pyqueryjava用户自己写网络协议可以用tcp等)

优采云发布时间: 2022-02-23 03:04

　　python抓取网页数据，用的是beautifulsoup和tornado，

　　tornado+beautifulsoup是最快的了。异步的话，用python语言写网络协议可以用tcp等。还可以尝试使用urllib2模块分析网页内容，

　　异步爬虫可以用tornado，用java写起来比较费劲；也可以用websocket实现，tornado底层实现是基于udp的，对网络地址要求高，我也在找一个比较好的解决方案，感觉现在比较流行的就是用redis提供http的缓存。

　　tornado框架是我正在用的一个异步爬虫框架。

　　想抓取网页中的数据，可以考虑用python处理get请求。有google全球通用urllib2库。中文博客网站一般用xml格式下载的数据，java用户想抓取这些数据的话还是需要自己写demo。不写demo的话也可以直接用websocket这种轮子，直接发送get或者post参数，使用协议beautifulsoup解析也很方便。

　　一般的页面服务器都自带自动保存数据的功能，不需要额外做什么。我现在在用的是python+pyquery，java用户自己写session，websocket实现就可以了。利益相关：我用tornado写了tornado配合python的crawler玩。

　　把网页发给google，

0

2022-02-23

python抓取网页数据

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

python抓取网页数据(python+pyqueryjava用户自己写网络协议可以用tcp等)

0 个评论

发起人

AI时代内容工厂

python抓取网页数据(python+pyqueryjava用户自己写网络协议可以用tcp等)

0 个评论

发起人

相关问题