抓取ajax动态网页java(前端必须掌握的HTML5、选择器、JavaScript、加密爬取)

优采云 发布时间: 2022-01-18 12:13

  抓取ajax动态网页java(前端必须掌握的HTML5、选择器、JavaScript、加密爬取)

  一、前端一定要掌握HTML基础

  5、 选择器

  在 CSS 中,我们使用 CSS 选择器来定位节点。比如下图中div节点的id是asideProfile,那么可以表示为#asideProfile,其中#以选择id开头,后面是id的名字。

  

  另外,如果我们要选择一个类为side-box的节点,我们可以使用.aside-box,其中一个点“.”。首先选择一个班级,然后是班级的名称。

  6、爬虫原理

  互联网是一个大网,爬虫(即网络爬虫)是在网络上爬行的蜘蛛。如果把网络的节点比作网页,爬虫爬取就相当于访问页面并获取其信息。节点之间的连接可以比作网页之间的链接关系。

  爬虫要做的第一个工作就是获取网页,这里是网页的源代码。得到网页的源代码后,接下来就是分析网页的源代码,从中提取出我们想要的数据。

  提取信息后,我们可以简单地将其保存为TXT文本或JSON文本,或者将其保存到MySQL和MongoDB等数据库,或者保存到远程服务器。

  7、JavaScript 渲染页面

  如今,越来越多的网页使用 Ajax 和前端模块化工具构建。整个网页可能会被 JavaScript 渲染,这意味着原创的 HTML 代码只是一个空壳。

  网页请求这个js文件,拿到文件后,里面的JavaScript代码会被执行,JavaScript会改变HTML中的节点,往里面添加内容,最终得到一个完整的页面。

  因为,可以通过 selenium 或通过查找 Ajax 的请求地址来解决。

  8、加密

  在爬取网站的时候,我们经常会遇到各种类似加密的情况,比如:字体加密,结构参数加密,如果要爬取,就必须知道如何找到对应的js文件,研究这些参数是怎么回事构建完成,现在越来越完整的信息通过App展示出来。有些app在内部实现的时候会对proxy增加一些检查,比如绕过系统proxy直接连接或者检测到proxy的使用,直接拒绝连接。这就需要考虑使用Wireshark、Tcpdump在低层协议上抓包。

  之后,所有之前的文章都被反复整理整理。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线