爬虫抓取网页数据(爬虫抓取网页数据用的是xmlhttprequest,关于xmlhttprequestxmlhttprequest是什么)
优采云 发布时间: 2021-11-01 12:56爬虫抓取网页数据(爬虫抓取网页数据用的是xmlhttprequest,关于xmlhttprequestxmlhttprequest是什么)
爬虫抓取网页数据用的是xmlhttprequest,关于xmlhttprequestxmlhttprequest是web服务器端的服务对象,是http协议的基本api,一般xmlhttprequest首次与服务器建立连接的时候会带上两个参数:httpuri和httpport。如果服务器对于参数中的uri或者port的值为空的话,会产生一个uri请求与服务器建立连接,随后服务器会利用参数传递给服务器的uri地址。
http协议是无状态的,但如果参数中的uri或者port为空,则连接一直存在。http主要用于搜索引擎爬虫中,用于确定目标的位置。值得注意的是,http只是语法上的约定,不是事实上的协议规定。理论上任何服务器对上述uri或者port都能响应。此外,http协议还提供了“默认”和“明文”参数以及“明文/明文http”。
默认参数是服务器优先响应http请求的参数,或者是唯一的参数,默认参数实际上不是由客户端加载的请求头,只是作为请求的附加信息,只要客户端请求被服务器响应了,默认参数将会被加载。因此,默认参数一般是以事件结束时客户端提供的值作为默认参数。明文/明文httphttprequest直接是基于http协议的httprequest,httpheader提供的是客户端应用无效的http协议的其它相关信息,包括客户端uri和端口号,同时包含以下信息:http/1.1200okhttp/1.1eqaccept-encoding:gzip,deflateaccept-language:zh-cn,zh;q=0.9,en;q=0.7connection:keep-alive,status-code:200origin:root,defaultget,postprivateaccess-control-allow-origin:*pragma:no-cacheaccept-language:zh-cnpost-authorization:mozilla/5.0(macintosh;intelmacosx10_13_。
3)applewebkit/537.36(khtml,likegecko)chrome/46.0.2254.156safari/537.36格式:
1、keep-alive是兼容性协议,在服务器版和客户端版中都是200,必须的httprequest都不支持keep-alive,
2、post不支持keep-alive,表示服务器、客户端之间是否能解决对同一个请求只能产生一次响应的问题。
3、data-value在get请求或post请求中,默认为string,