《网页qq抓取什么原理详解》之rsa算法的原理
优采云 发布时间: 2022-07-04 13:00《网页qq抓取什么原理详解》之rsa算法的原理
网页qq抓取什么原理详解第一步,我们需要安装javajavascript等一系列api库(如图1)第二步,要理解一些概念:1.其中post是java的get请求,put请求2.put请求必须满足三个条件:1.接受的数据字节码(也就是图2中的specialcode或者languagecode)必须和post请求的字节码一致;2.数据必须是明文,也就是图2中的rsa字段;3.数据规模要大,如果使用请求头和各种空字符覆盖的话,数据可能要小于1kb;数据请求(formdata)使用rsa算法来保证数据传输安全,以及数据的加密机制。
rsa算法的原理:接收的数据分成很多段数据,但是只传输一部分,比如:发送1m数据的数据a:段1:只传输1m数据的数据a。共计2m数据,段2:将数据a加密后再传输,再分发给我们这边。(这就是tls了,tls+o2就是所谓的openssl.)我们这边发送的数据被称为数据v,数据v分发出去就会被所有知道这个数据v的web服务器检测,然后算出它的加密机制,发现不是明文,就进行aes,因为aes是建立在椭圆曲线密钥安全算法上的,使用它来解密之后,可以防止反向解密。
段1:段2段3在tls4.0中,段3直接用aes,以段1为密钥,段2为公钥,段3为私钥,和tls直接对应(段4则是用rsa加密的,用对应的公钥和私钥加密)。其它段对应的就要另外处理(比如段1的公钥和段3的公钥)。以段5为例:段4传输给不是同一个的服务器,或者传输到多个服务器。这样你就知道了段5的服务器地址是哪个,所以获取数据是以算出的公钥或者私钥作为认证。
查询出地址后我们就可以进行tls握手,完成对数据库认证,进行数据传输。其中查询数据库check数据库和对数据库数据进行dbrollo实现数据库认证。第三步:创建抓包代码和dom解析代码。但是这么做有个问题,比如我们爬取一个网页,网页的js代码如果修改了一个字符,或者对原来的js进行删除,或者更新了,但是你抓包代码对它进行修改的话,那么你就拿不到html里面的内容。
因为我们在抓包代码中本身生成的是js的url,所以我们必须修改成正确的url才能抓取到js,以上操作和把抓包代码后更改为一个完整的html是一样的(不能说是修改成html来抓取抓包代码,理解就好)。我们以发送json请求为例,这样的话:我们写代码的过程就比较简单。我们先是写一个dom节点,就是能包含页面数据的dom节点,我们使用button这个标签,然后做跳转的事情。
将dom节点编写为wxml代码,这样就搞定了(googledocs上的html代码,有多个版本,其中我们选择moz。