js 爬虫抓取网页数据(js爬虫抓取网页数据包括各种接口:httprequestformat方式发送常见模式)
优采云 发布时间: 2021-11-01 14:35js 爬虫抓取网页数据(js爬虫抓取网页数据包括各种接口:httprequestformat方式发送常见模式)
js爬虫抓取网页数据包括各种接口:baiduspider/api/restfulapi等。当前流行的一些网站接口:天猫:/api/home(兼容性)支付宝:api.username.pinfo/api/social(for)拼多多:/api/commemory(针对非阿里客户)美团api:api/buy.f51(已被取消)/(非阿里客户)京东(商品详情爬虫):/(非阿里客户)饿了么:/api/import.html(非阿里客户)爱奇艺:/(非阿里客户)qq音乐:/(非阿里客户)百度音乐:/(非阿里客户)nodejsweb服务器部署:比如api的chrome模拟getpostselenium爬虫部署chrome抓包按照用户username:password的规则获取数据:localhost/username:password匹配模式:post请求标准:get请求复杂一点爬虫:常见nginxapmweb服务(后端常用):(后端)(应用服务器)看我签名。
第一步:登录。是通过浏览器用第三方的cookie。最常见的有:maxthon或者mysql第二步:用对应的httpapi来发请求。常见的有:httprequestformat方式发送httpresponseformat方式发送常见模式如下:get:post:put:patch:update:redirect常见请求参数referer,accept头,链接地址,accept-language协议头。
第三步:数据返回http响应头,内容是协议和编码格式,解析user-agent、phone等,得到本地浏览器ip。因为浏览器已经知道你的编码和域名,从你已经携带的ip能定位到你的真实域名,根据ip定位你的真实浏览器ip,从浏览器抓包。第四步:在本地浏览器缓存中查看是否有请求成功,一般还带上对应的user-agent和浏览器版本信息。
如果你写有响应头的httprequest能通过你携带的这两个参数过滤掉不认识的浏览器,从而定位到真实浏览器,和正确的版本。如果没有对应的这两个参数,就得写针对本地浏览器的请求头。也就是一般传说中的user-agent。