js 爬虫抓取网页数据(js爬虫抓取网页数据包括各种接口：httprequestformat方式发送常见模式)

优采云发布时间: 2021-11-01 14:35

　　js爬虫抓取网页数据包括各种接口：baiduspider/api/restfulapi等。当前流行的一些网站接口：天猫：/api/home（兼容性）支付宝：api.username.pinfo/api/social（for）拼多多：/api/commemory（针对非阿里客户）美团api:api/buy.f51(已被取消)/（非阿里客户）京东（商品详情爬虫）：/（非阿里客户）饿了么：/api/import.html（非阿里客户）爱奇艺：/（非阿里客户）qq音乐：/（非阿里客户）百度音乐：/（非阿里客户）nodejsweb服务器部署：比如api的chrome模拟getpostselenium爬虫部署chrome抓包按照用户username：password的规则获取数据：localhost/username:password匹配模式：post请求标准：get请求复杂一点爬虫：常见nginxapmweb服务（后端常用）：（后端）（应用服务器）看我签名。

　　第一步：登录。是通过浏览器用第三方的cookie。最常见的有：maxthon或者mysql第二步：用对应的httpapi来发请求。常见的有：httprequestformat方式发送httpresponseformat方式发送常见模式如下：get：post：put：patch：update：redirect常见请求参数referer,accept头，链接地址，accept-language协议头。

　　第三步：数据返回http响应头，内容是协议和编码格式，解析user-agent、phone等，得到本地浏览器ip。因为浏览器已经知道你的编码和域名，从你已经携带的ip能定位到你的真实域名，根据ip定位你的真实浏览器ip，从浏览器抓包。第四步：在本地浏览器缓存中查看是否有请求成功，一般还带上对应的user-agent和浏览器版本信息。

　　如果你写有响应头的httprequest能通过你携带的这两个参数过滤掉不认识的浏览器，从而定位到真实浏览器，和正确的版本。如果没有对应的这两个参数，就得写针对本地浏览器的请求头。也就是一般传说中的user-agent。

0

2021-11-01

js 爬虫抓取网页数据

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

js 爬虫抓取网页数据(js爬虫抓取网页数据包括各种接口：httprequestformat方式发送常见模式)

0 个评论

发起人

AI时代内容工厂

js 爬虫抓取网页数据(js爬虫抓取网页数据包括各种接口：httprequestformat方式发送常见模式)

0 个评论

发起人

相关问题