js 爬虫抓取网页数据(Web漏洞扫描工具的安全运维人员造成的诸多困扰!)

优采云 发布时间: 2021-09-26 23:02

  js 爬虫抓取网页数据(Web漏洞扫描工具的安全运维人员造成的诸多困扰!)

  在 Web 漏扫中,采集 输入源一般包括爬虫、流量、代理和日志。爬虫是获取扫描后的网站 URLs.采集模式最常见也是必不可少的方式。

  网络漏洞扫描器爬虫比其他网络爬虫面临更高的技术挑战。这是因为漏洞扫描器爬虫不仅需要抓取网页内容和分析链接信息,还需要在网页上尽可能多地触发。事件,从而获得更有效的链接信息。

  然而,现有爬虫受限于其固有的技术缺陷,给使用Web漏洞扫描工具的安全运维人员带来了诸多问题:

  1、 容易触发WAF设置的IP访问限制

  正常情况下,网站的防火墙会限制一定时间内可以请求固定IP的次数。如果没有超过上限,则正常返回数据,超过上限则拒绝请求。值得注意的是,IP 限制大部分时间是出于 网站 安全原因以防止 DOS 攻击,而不是专门针对爬虫。但是传统爬虫工作时,机器和IP都是有限的,很容易达到WAF设置的IP上限而导致请求被拒绝。

  2、 无法自动处理网页交互问题

  Web2.0时代,Web应用与用户交互非常频繁,对漏网的爬虫造成干扰。以输入验证码登录为例。网站 会生成一串随机生成的数字或符号的图片,在图片上添加一些干扰像素(防止OCR),用户可以直观的识别验证码信息并输入表单提交< @网站验证,验证成功后才能使用某个功能。当传统爬虫遇到这种情况时,通常很难自动处理。

  3、 无法抓取 JavaScript 解析的网页

  JavaScript 框架的诞生对于效率时代的研发工程师来说是一大福音,工程师们可以摆脱开发和维护的痛苦。毫无疑问,Angular、React、Vue 等单页应用的 Web 框架已经成为开发者的首选。JavaScript解析的网页越来越流行,所以网页中大部分有用的数据都是通过ajax/fetch动态获取然后通过js填充到网页的DOM树中的,有用的数据很少纯HTML静态页面,直接导致Web爬虫不完整抓取。

  传统爬行动物和集中爬行动物

  纵观市场上常用的漏洞扫描产品,通常使用的爬虫包括以下两大类,即传统爬虫和聚焦爬虫:

  传统爬虫

  其工作流程是从一个或多个初始网页的URL开始,获取初始网页上的URL。在抓取网页的过程中,它不断地从当前页面中提取新的URL并将它们放入队列中,直到满足一系列系统设置。停止条件,爬行操作停止。

  

  传统爬虫流程图侧重爬虫

  聚焦爬虫的工作流程比传统爬虫复杂。需要根据一定的网页分析算法过滤与扫描目标无关的网址,保留有用的网址,放入网址队列等待抓取。然后,它会根据一定的搜索策略从队列中选择下一个要抓取的网页的网址,并重复上述过程,直到达到系统的某个条件时停止。另外,爬虫爬过的所有网页都会被系统存储起来,进行一定的分析、过滤和索引,以供以后查询检索;因此,一个完整的聚焦爬虫一般收录以下三个模块:Web请求模块、爬取过程控制模块、内容分析提取模块。

  但是,无论是传统爬虫还是聚焦爬虫,由于其固有的技术缺陷,无法在URL采集@时自动处理网页交互、JavaScript解析,并容易触发外部WAF防御措施的限制>网站 等问题。

  X-Ray创新技术提高爬虫发现率

  X-Ray安全评估系统针对当前用户错过的爬虫,创造性地提出了基于语义分析、机器学习技术和DOM遍历算法的*敏*感*词*真实时渲染的实时渲染DOM遍历算法采集 @> 目标 URL 问题。“新爬虫”:

  1、 创新加入js语义分析算法,避免IP访问超限

  对于传统的网站,长亭科技在专注于爬虫的基础上,创新使用js语义分析算法,针对WAF针对DOS攻击的IP访问限制防御措施,X-Ray爬虫会在本地对JS文件进行分析,并且在理解语义的基础上解析网站结构,不会疯狂触发请求,从而避免超出IP访问限制被拒绝访问的情况。

  

  X-Ray专注爬虫流程原理图2、通过机器学习技术实现交互行为分析

  对于单页应用网站,X-Ray 已经嵌入了一个模拟浏览器爬虫。通过使用机器学习技术,X-Ray 的模拟浏览器爬虫使用各种 Web 应用程序页面结构作为训练样本。在访问每个页面时,可以智能判断各种交互操作。判断逻辑大概是这样的:

  判断是表单输入、点击事件等;

  自动判断表单输入框应填写哪些内容,如用户名、密码、IP地址等,然后填写相应的内容样本;

  点击事件自动触发,请求发起成功。3、 *敏*感*词*真实时渲染DOM遍历算法完美解决JavaScript解析

  针对JavaScript解析的单页Web应用,X-Ray模拟浏览器创新引入了高模拟实时渲染DOM遍历算法。在该算法引擎的驱动下,可以完美解析Angular、React、Vue等Web框架。实现的单页应用网站对Web页面中的所有内容进行操作,达到获取URL信息的目的目标网站。判断逻辑如下:

  找到网页的DOM节点,形成DOM树;

  内置浏览器,从深度和广度两个层次,对网页进行*敏*感*词*真度的DOM树遍历;

  真实浏览器画面,实时渲染DOM树的遍历过程

  X-Ray在机器学习技术和DOM遍历算法的*敏*感*词*真实时渲染驱动下,模拟浏览器爬虫的行为,智能模拟人类行为,自动进行点击、双击、拖拽等操作,从而避免了传统爬虫在获取到 URL 时,无法满*敏*感*词*互,无法处理 JavaScript 解析。

  下面以访问DVWA为例,展示模拟浏览器的行为

  dvwa浏览器点击

  

  以网银、电子商务、云存储等Web应用为代表的Web3.0时代已经到来,X-Ray安全评估系统蓄势待发。你准备好了吗?

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线