js 爬虫抓取网页数据(Web漏洞扫描工具的安全运维人员造成的诸多困扰！)

优采云发布时间: 2021-09-26 23:02

　　在 Web 漏扫中，采集输入源一般包括爬虫、流量、代理和日志。爬虫是获取扫描后的网站 URLs.采集模式最常见也是必不可少的方式。

　　网络漏洞扫描器爬虫比其他网络爬虫面临更高的技术挑战。这是因为漏洞扫描器爬虫不仅需要抓取网页内容和分析链接信息，还需要在网页上尽可能多地触发。事件，从而获得更有效的链接信息。

　　然而，现有爬虫受限于其固有的技术缺陷，给使用Web漏洞扫描工具的安全运维人员带来了诸多问题：

　　1、容易触发WAF设置的IP访问限制

　　正常情况下，网站的防火墙会限制一定时间内可以请求固定IP的次数。如果没有超过上限，则正常返回数据，超过上限则拒绝请求。值得注意的是，IP 限制大部分时间是出于网站安全原因以防止 DOS 攻击，而不是专门针对爬虫。但是传统爬虫工作时，机器和IP都是有限的，很容易达到WAF设置的IP上限而导致请求被拒绝。

　　2、无法自动处理网页交互问题

　　Web2.0时代，Web应用与用户交互非常频繁，对漏网的爬虫造成干扰。以输入验证码登录为例。网站会生成一串随机生成的数字或符号的图片，在图片上添加一些干扰像素（防止OCR），用户可以直观的识别验证码信息并输入表单提交< @网站验证，验证成功后才能使用某个功能。当传统爬虫遇到这种情况时，通常很难自动处理。

　　3、无法抓取 JavaScript 解析的网页

　　JavaScript 框架的诞生对于效率时代的研发工程师来说是一大福音，工程师们可以摆脱开发和维护的痛苦。毫无疑问，Angular、React、Vue 等单页应用的 Web 框架已经成为开发者的首选。JavaScript解析的网页越来越流行，所以网页中大部分有用的数据都是通过ajax/fetch动态获取然后通过js填充到网页的DOM树中的，有用的数据很少纯HTML静态页面，直接导致Web爬虫不完整抓取。

　　传统爬行动物和集中爬行动物

　　纵观市场上常用的漏洞扫描产品，通常使用的爬虫包括以下两大类，即传统爬虫和聚焦爬虫：

　　传统爬虫

　　其工作流程是从一个或多个初始网页的URL开始，获取初始网页上的URL。在抓取网页的过程中，它不断地从当前页面中提取新的URL并将它们放入队列中，直到满足一系列系统设置。停止条件，爬行操作停止。

　　传统爬虫流程图侧重爬虫

　　聚焦爬虫的工作流程比传统爬虫复杂。需要根据一定的网页分析算法过滤与扫描目标无关的网址，保留有用的网址，放入网址队列等待抓取。然后，它会根据一定的搜索策略从队列中选择下一个要抓取的网页的网址，并重复上述过程，直到达到系统的某个条件时停止。另外，爬虫爬过的所有网页都会被系统存储起来，进行一定的分析、过滤和索引，以供以后查询检索；因此，一个完整的聚焦爬虫一般收录以下三个模块：Web请求模块、爬取过程控制模块、内容分析提取模块。

　　但是，无论是传统爬虫还是聚焦爬虫，由于其固有的技术缺陷，无法在URL采集@时自动处理网页交互、JavaScript解析，并容易触发外部WAF防御措施的限制>网站等问题。

　　X-Ray创新技术提高爬虫发现率

　　X-Ray安全评估系统针对当前用户错过的爬虫，创造性地提出了基于语义分析、机器学习技术和DOM遍历算法的*敏*感*词*真实时渲染的实时渲染DOM遍历算法采集 @> 目标 URL 问题。“新爬虫”：

　　1、创新加入js语义分析算法，避免IP访问超限

　　对于传统的网站，长亭科技在专注于爬虫的基础上，创新使用js语义分析算法，针对WAF针对DOS攻击的IP访问限制防御措施，X-Ray爬虫会在本地对JS文件进行分析，并且在理解语义的基础上解析网站结构，不会疯狂触发请求，从而避免超出IP访问限制被拒绝访问的情况。

　　X-Ray专注爬虫流程原理图2、通过机器学习技术实现交互行为分析

　　对于单页应用网站，X-Ray 已经嵌入了一个模拟浏览器爬虫。通过使用机器学习技术，X-Ray 的模拟浏览器爬虫使用各种 Web 应用程序页面结构作为训练样本。在访问每个页面时，可以智能判断各种交互操作。判断逻辑大概是这样的：

　　判断是表单输入、点击事件等；

　　自动判断表单输入框应填写哪些内容，如用户名、密码、IP地址等，然后填写相应的内容样本；

　　点击事件自动触发，请求发起成功。3、 *敏*感*词*真实时渲染DOM遍历算法完美解决JavaScript解析

　　针对JavaScript解析的单页Web应用，X-Ray模拟浏览器创新引入了高模拟实时渲染DOM遍历算法。在该算法引擎的驱动下，可以完美解析Angular、React、Vue等Web框架。实现的单页应用网站对Web页面中的所有内容进行操作，达到获取URL信息的目的目标网站。判断逻辑如下：

　　找到网页的DOM节点，形成DOM树；

　　内置浏览器，从深度和广度两个层次，对网页进行*敏*感*词*真度的DOM树遍历；

　　真实浏览器画面，实时渲染DOM树的遍历过程

　　X-Ray在机器学习技术和DOM遍历算法的*敏*感*词*真实时渲染驱动下，模拟浏览器爬虫的行为，智能模拟人类行为，自动进行点击、双击、拖拽等操作，从而避免了传统爬虫在获取到 URL 时，无法满*敏*感*词*互，无法处理 JavaScript 解析。

　　下面以访问DVWA为例，展示模拟浏览器的行为

　　dvwa浏览器点击

　　以网银、电子商务、云存储等Web应用为代表的Web3.0时代已经到来，X-Ray安全评估系统蓄势待发。你准备好了吗？

0

2021-09-26

js 爬虫抓取网页数据

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

js 爬虫抓取网页数据(Web漏洞扫描工具的安全运维人员造成的诸多困扰！)

0 个评论

发起人