网页抓取数据百度百科(模拟浏览器向服务器发起post请求的xpath方法(allreference))
优采云 发布时间: 2021-11-23 12:03网页抓取数据百度百科(模拟浏览器向服务器发起post请求的xpath方法(allreference))
网页抓取数据百度百科说,数据抓取工具一般有两种,一种是模拟浏览器向服务器发送包含“网址”、“数据”、“标题”等信息的http请求,从而达到抓取数据的目的。另一种是通过对数据进行汇总和计算,从而获取数据,这种应用相对于前一种范围更加广泛。传统网页抓取最基本的抓取方法应该就是重定向方法(allreference):1.使用post请求传递数据。
post请求通常有参数,因此也是最基本的。2.使用json。json数据具有一个特性是不可变性(immutable),所以请求的时候要在请求前加上"\all"-参数来表示匹配到哪些字段3.https请求。网页加载完成之后,要将"\all"-参数设置到参数列表中。4.客户端post方法。用户或浏览器向服务器发起post请求,这时将代表请求的url地址,包含内容的html页面直接传送给服务器。
目前,抓取百度百科数据,可以使用jsoup包的xpath方法,首先搜索关键词,然后根据定位到的词抓取页面数据(数据如图)接下来是重定向和采用json传递数据,这两种方法都很常见,相比重定向,直接采用json传递数据,速度快很多,操作简单,跨域抓取是可以使用。参考资料-analysis/general-url-parser-cookie-matching-post-post-cookie-index-text-generators-all/。