浏览器抓取网页(UserUA字串的含义及含义有哪些?Agent含义)

优采云 发布时间: 2021-12-30 12:05

  浏览器抓取网页(UserUA字串的含义及含义有哪些?Agent含义)

  一、用户代理的含义

  User Agent的中文名称是User Agent,简称UA。它是一个特殊的字符串头,使服务器能够识别操作系统和版本、CPU 类型、客户端使用的浏览器和版本、浏览器渲染引擎、浏览器语言和浏览器插件等。

  有的网站往往通过对UA的判断,将不同的页面发送到不同的操作系统、不同的浏览器,所以有些页面在某个浏览器中可能无法正常显示,但可以通过伪装UA来绕过检测。

  浏览器的UA字符串

  标准格式为:浏览器标识(操作系统标识;加密级别标识;浏览器语言)渲染引擎标识版本信息

  浏览器 ID

  由于很多网站在进行UA检测时忽略了两位数的版本号,可能会导致浏览器及更高版本收到不良页面。因此,浏览器10以后版本中的浏览器标识项固定为浏览器。将实际版本信息添加到 UA 字符串的末尾。

  注:来自百度百科

  当浏览器发起请求时,我们可以查看请求信息。

  

  请求头:请求头将收录

请求信息。

  2:在浏览器请求头中获取User-Agent

  (1) 请求

  

String userAgent = request.getHeader("user-agent");

  (2)获取

  

User-Agent:Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36

  三、UserAgentUtils.jar

  UserAgentUtils.jar 是 UserAgent 的工具类。

  (1)maven

  

eu.bitwalker

UserAgentUtils

1.20

  (2)java 代码

  

UserAgent userAgent = UserAgent.parseUserAgentString(request.getHeader("User-Agent"));

Browser browser = userAgent.getBrowser();

OperatingSystem os = userAgent.getOperatingSystem();

  参考文章:

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线