如何抓取网页数据(如何抓取网页数据？有个chrome插件帮你解决)

优采云发布时间: 2021-11-24 03:01

　　如何抓取网页数据，

　　现在大多数网站都是抓包获取，erlang用得比较多。

　　抓包本身并不高效，这个至少1年前我就开始这么想。如果你是很关心高效可以用二进制编码转化一下。具体方法很多，用二进制格式不同，只是你不需要自己编译就可以拿来用了。不过有些编译时间不短。还是关心高效的话可以用io.js或者前端提供基础的server端api比如chrome，pc端safari等等都很棒，网站的iis也可以自己写个。提供api的话抓包进来你在js做编程。

　　intellijidea有个chrome插件叫anypage,可以抓包，

　　threadlocal,就是这货(逃

　　rstoproutingframethreadlocal

　　可以用uri里面urltoindex（is），不过前提是路由你需要了解，否则你会更迷茫。

　　web没有端，纯server只能解析后端，那么你就只能有后端如何知道你爬虫要爬那页，可以从一些参数上下手，比如数据库id怎么知道。

　　http参数转换http拼接

　　有可能有人已经在这样做了，他只是没有分享出来。而且我就喜欢那样干一些傻逼的事情，毕竟ie浏览器，还有rxjava和scala都支持。

　　可以看看github，有些erlang客户端也带数据抓取功能。

0

2021-11-24

如何抓取网页数据

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

如何抓取网页数据(如何抓取网页数据？有个chrome插件帮你解决)

0 个评论

发起人