浏览器抓取网页(UserUA字串的含义及含义有哪些?Agent含义)
优采云 发布时间: 2021-12-30 12:05浏览器抓取网页(UserUA字串的含义及含义有哪些?Agent含义)
一、用户代理的含义
User Agent的中文名称是User Agent,简称UA。它是一个特殊的字符串头,使服务器能够识别操作系统和版本、CPU 类型、客户端使用的浏览器和版本、浏览器渲染引擎、浏览器语言和浏览器插件等。
有的网站往往通过对UA的判断,将不同的页面发送到不同的操作系统、不同的浏览器,所以有些页面在某个浏览器中可能无法正常显示,但可以通过伪装UA来绕过检测。
浏览器的UA字符串
标准格式为:浏览器标识(操作系统标识;加密级别标识;浏览器语言)渲染引擎标识版本信息
浏览器 ID
由于很多网站在进行UA检测时忽略了两位数的版本号,可能会导致浏览器及更高版本收到不良页面。因此,浏览器10以后版本中的浏览器标识项固定为浏览器。将实际版本信息添加到 UA 字符串的末尾。
注:来自百度百科
当浏览器发起请求时,我们可以查看请求信息。
请求头:请求头将收录
请求信息。
2:在浏览器请求头中获取User-Agent
(1) 请求
String userAgent = request.getHeader("user-agent");
(2)获取
User-Agent:Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36
三、UserAgentUtils.jar
UserAgentUtils.jar 是 UserAgent 的工具类。
(1)maven
eu.bitwalker
UserAgentUtils
1.20
(2)java 代码
UserAgent userAgent = UserAgent.parseUserAgentString(request.getHeader("User-Agent"));
Browser browser = userAgent.getBrowser();
OperatingSystem os = userAgent.getOperatingSystem();
参考文章: