抓取动态网页(什么是Ajax即“AsynchronousJavascript”(异步JavaScript和XML) )
优采云 发布时间: 2021-09-27 15:23抓取动态网页(什么是Ajax即“AsynchronousJavascript”(异步JavaScript和XML)
)
什么是阿贾克斯
Ajax 代表“Asynchronous Javascript And XML”(异步 JavaScript 和 XML),指的是一种用于创建交互式 Web 应用程序的 Web 开发技术。Ajax 是一种无需重新加载整个网页即可更新网页的一部分的技术。通过在后台与服务器交换少量数据,Ajax 可以使网页异步更新。这意味着可以在不重新加载整个网页的情况下更新网页的某些部分。使用ajax加载的数据,即使使用js将数据渲染到浏览器中,在右键查看网页源码中仍然看不到通过ajax加载的数据,只有使用这个url加载的html代码.
获取ajax数据的方法直接分析ajax调用的接口,然后通过代码请求这个接口。使用Selenium+chromedriver模拟浏览器获取数据的行为。的优点和缺点
分析界面
可以直接请求数据。无需做一些分析工作。代码少,性能高
解析接口比较复杂,尤其是通过一些js混淆的接口,必须有一定的js基础。容易被发现的粪便爬虫
硒
直接模拟浏览器行为。爬虫更稳定
代码量大,性能低
注:异步加载的数据不会显示在原创网页代码中,但您可以使用查看器进行选择查看,然后可以在 Elements 属性中查看代码的标签结构,方便后续数据分析。
另外也可以在Network中找到对应的异步加载的数据,然后根据响应获取json数据,然后在线分析得到规范化的json数据。