java从网页抓取数据主要是采用restful接口的方式获取数据
优采云 发布时间: 2022-06-09 12:03java从网页抓取数据主要是采用restful接口的方式获取数据
java从网页抓取数据主要是采用restful接口,javasocket有一些额外的接口可以达到这样的效果,举例来说,
http协议协议相关:《java语言程序设计》
正好前几天我也看了这本书,书中用到了http和socket这两个协议。一般是通过socket链接的方式获取数据的,比如服务器能把我们给的网址返回给客户端,同时客户端根据响应内容获取相应网址(又可以分为浏览器动态获取数据和native函数动态获取数据)然后解析。
从我了解到的来说,抓包分很多方向。比如搜索、web开发等等,抓包工具多种多样。楼主可以先从ie抓包开始。推荐第三版。简单好用。可能有一些偏门的工具网站暂时没有推荐。比如你可以下载superie,无需下载只要连上互联网就能用了。但是等你熟悉了ie、activex的用法、跳转、抓包之后再看这个帖子可能就稍微快点了。
再推荐一个收费的arcmvi。简单好用,速度跟android抓包差不多,如果熟悉的话还是建议下一个自己熟悉的抓包,再换也是可以的。
首先agilewebplatform里面就有用到websocket提供跟java服务器交互的数据的支持,这个是正统的java应用实现,其他那些所谓类似自己写浏览器来抓取http数据的方式更像是app的移植,html5越来越先进,单纯的http请求还是各种限制,能抓到的数据也越来越少,http请求速度慢是大概率事件,每个站点都抓一遍要等待一段时间,设计好的解决方案还是要看各站点、各接口的情况,一般抓包工具推荐affix。