爬虫抓取网页数据(爬虫抓取网页数据用的是xmlhttprequest，关于xmlhttprequestxmlhttprequest是什么)

优采云发布时间: 2021-11-01 12:56

　　爬虫抓取网页数据用的是xmlhttprequest，关于xmlhttprequestxmlhttprequest是web服务器端的服务对象，是http协议的基本api，一般xmlhttprequest首次与服务器建立连接的时候会带上两个参数：httpuri和httpport。如果服务器对于参数中的uri或者port的值为空的话，会产生一个uri请求与服务器建立连接，随后服务器会利用参数传递给服务器的uri地址。

　　http协议是无状态的，但如果参数中的uri或者port为空，则连接一直存在。http主要用于搜索引擎爬虫中，用于确定目标的位置。值得注意的是，http只是语法上的约定，不是事实上的协议规定。理论上任何服务器对上述uri或者port都能响应。此外，http协议还提供了“默认”和“明文”参数以及“明文/明文http”。

　　默认参数是服务器优先响应http请求的参数，或者是唯一的参数，默认参数实际上不是由客户端加载的请求头，只是作为请求的附加信息，只要客户端请求被服务器响应了，默认参数将会被加载。因此，默认参数一般是以事件结束时客户端提供的值作为默认参数。明文/明文httphttprequest直接是基于http协议的httprequest，httpheader提供的是客户端应用无效的http协议的其它相关信息，包括客户端uri和端口号，同时包含以下信息：http/1.1200okhttp/1.1eqaccept-encoding:gzip,deflateaccept-language:zh-cn,zh;q=0.9,en;q=0.7connection:keep-alive,status-code:200origin:root,defaultget,postprivateaccess-control-allow-origin:*pragma:no-cacheaccept-language:zh-cnpost-authorization:mozilla/5.0(macintosh;intelmacosx10_13_。

　　3)applewebkit/537.36(khtml,likegecko)chrome/46.0.2254.156safari/537.36格式：

　　1、keep-alive是兼容性协议，在服务器版和客户端版中都是200，必须的httprequest都不支持keep-alive，

　　2、post不支持keep-alive，表示服务器、客户端之间是否能解决对同一个请求只能产生一次响应的问题。

　　3、data-value在get请求或post请求中，默认为string，

0

2021-11-01

爬虫抓取网页数据

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

爬虫抓取网页数据(爬虫抓取网页数据用的是xmlhttprequest，关于xmlhttprequestxmlhttprequest是什么)

0 个评论

发起人