python抓取网页数据(python+pyqueryjava用户自己写网络协议可以用tcp等)

优采云 发布时间: 2022-02-23 03:04

  python抓取网页数据(python+pyqueryjava用户自己写网络协议可以用tcp等)

  python抓取网页数据,用的是beautifulsoup和tornado,

  tornado+beautifulsoup是最快的了。异步的话,用python语言写网络协议可以用tcp等。还可以尝试使用urllib2模块分析网页内容,

  异步爬虫可以用tornado,用java写起来比较费劲;也可以用websocket实现,tornado底层实现是基于udp的,对网络地址要求高,我也在找一个比较好的解决方案,感觉现在比较流行的就是用redis提供http的缓存。

  tornado框架是我正在用的一个异步爬虫框架。

  想抓取网页中的数据,可以考虑用python处理get请求。有google全球通用urllib2库。中文博客网站一般用xml格式下载的数据,java用户想抓取这些数据的话还是需要自己写demo。不写demo的话也可以直接用websocket这种轮子,直接发送get或者post参数,使用协议beautifulsoup解析也很方便。

  一般的页面服务器都自带自动保存数据的功能,不需要额外做什么。我现在在用的是python+pyquery,java用户自己写session,websocket实现就可以了。利益相关:我用tornado写了tornado配合python的crawler玩。

  把网页发给google,

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线