如何抓取网页数据(如何抓取网页数据?有个chrome插件帮你解决)

优采云 发布时间: 2021-11-24 03:01

  如何抓取网页数据(如何抓取网页数据?有个chrome插件帮你解决)

  如何抓取网页数据

  现在大多数网站都是抓包获取,erlang用得比较多。

  抓包本身并不高效,这个至少1年前我就开始这么想。如果你是很关心高效可以用二进制编码转化一下。具体方法很多,用二进制格式不同,只是你不需要自己编译就可以拿来用了。不过有些编译时间不短。还是关心高效的话可以用io.js或者前端提供基础的server端api比如chrome,pc端safari等等都很棒,网站的iis也可以自己写个。提供api的话抓包进来你在js做编程。

  intellijidea有个chrome插件叫anypage,可以抓包,

  threadlocal,就是这货(逃

  rstoproutingframethreadlocal

  可以用uri里面urltoindex(is),不过前提是路由你需要了解,否则你会更迷茫。

  web没有端,纯server只能解析后端,那么你就只能有后端如何知道你爬虫要爬那页,可以从一些参数上下手,比如数据库id怎么知道。

  http参数转换http拼接

  有可能有人已经在这样做了,他只是没有分享出来。而且我就喜欢那样干一些傻逼的事情,毕竟ie浏览器,还有rxjava和scala都支持。

  可以看看github,有些erlang客户端也带数据抓取功能。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线