抓取ajax动态网页java(前端必须掌握的HTML5、选择器、JavaScript、加密爬取)

优采云发布时间: 2022-01-18 12:13

　　一、前端一定要掌握HTML基础

　　5、选择器

　　在 CSS 中，我们使用 CSS 选择器来定位节点。比如下图中div节点的id是asideProfile，那么可以表示为#asideProfile，其中#以选择id开头，后面是id的名字。

　　另外，如果我们要选择一个类为side-box的节点，我们可以使用.aside-box，其中一个点“.”。首先选择一个班级，然后是班级的名称。

　　6、爬虫原理

　　互联网是一个大网，爬虫（即网络爬虫）是在网络上爬行的蜘蛛。如果把网络的节点比作网页，爬虫爬取就相当于访问页面并获取其信息。节点之间的连接可以比作网页之间的链接关系。

　　爬虫要做的第一个工作就是获取网页，这里是网页的源代码。得到网页的源代码后，接下来就是分析网页的源代码，从中提取出我们想要的数据。

　　提取信息后，我们可以简单地将其保存为TXT文本或JSON文本，或者将其保存到MySQL和MongoDB等数据库，或者保存到远程服务器。

　　7、JavaScript 渲染页面

　　如今，越来越多的网页使用 Ajax 和前端模块化工具构建。整个网页可能会被 JavaScript 渲染，这意味着原创的 HTML 代码只是一个空壳。

　　网页请求这个js文件，拿到文件后，里面的JavaScript代码会被执行，JavaScript会改变HTML中的节点，往里面添加内容，最终得到一个完整的页面。

　　因为，可以通过 selenium 或通过查找 Ajax 的请求地址来解决。

　　8、加密

　　在爬取网站的时候，我们经常会遇到各种类似加密的情况，比如：字体加密，结构参数加密，如果要爬取，就必须知道如何找到对应的js文件，研究这些参数是怎么回事构建完成，现在越来越完整的信息通过App展示出来。有些app在内部实现的时候会对proxy增加一些检查，比如绕过系统proxy直接连接或者检测到proxy的使用，直接拒绝连接。这就需要考虑使用Wireshark、Tcpdump在低层协议上抓包。

　　之后，所有之前的文章都被反复整理整理。

0

2022-01-18

抓取ajax动态网页java

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

抓取ajax动态网页java(前端必须掌握的HTML5、选择器、JavaScript、加密爬取)

0 个评论

发起人