网页抓取 加密html(网页抓取加密html的三种方法过一遍,你知道吗)
优采云 发布时间: 2022-03-14 03:00网页抓取 加密html(网页抓取加密html的三种方法过一遍,你知道吗)
网页抓取加密html又叫nestedhtml,他是指有一个域名以及所有被访问过的html页面,并且随时会自动备份到服务器上。加密的目的是防止伪造,以及与代码互相混淆。html加密方法有四种,分别是:1.绝对隐藏法2.加密隐藏法3.https隐藏法4.混合隐藏法。提到加密隐藏,也有一些常见的解密方法。其中三种方法是nestedhtml方法中,常用的解密算法。
现将三种方法过一遍,应该可以对整个html加密有一个相对深刻的认识了。先看下加密html的前因后果(这部分内容较为复杂,感兴趣的可以自己搜索查看)假设公司小明想在自己的主站加密html并分享给自己的兄弟小黄。加密html方案1.绝对隐藏法对于google来说,网站是html文档的一个lib,并且可以下载到本地,所以这个文档是静态网站并且是经过伪静态处理的,一旦对于其中的部分html标签进行了加密处理,那么在dom未加载的时候,看不到或者是从html源码是看不到这些标签的内容。
具体是使用绝对隐藏法进行加密html的方法是,利用nestedhtml处理技术。nestedhtml,具体也是利用了html的asjavascripthierarchy进行解密的,具体操作就是检查一个已经加密的html文档在dom未加载的时候是否有子元素指向。在不断的循环下,发现dom可以从html源码无法获取到的标签上,获取到子元素指向的标签的内容。
比如,在dom加载时,只加载到标签,那么标签的内容就可以使用nestedhtml方法进行解密了。下面是dom未加载时的内容,可以看到标签,其后包含了多个标签,很容易对其中某个进行伪静态处理,进而得到dom页面所有标签内容。这也是为什么,dom加载前对html进行加密html后,可以看到dom的页面内容都是加密html内容。
然后采用https隐藏法,就可以直接对加密html的txt进行解密了。总结到最后,其实加密html方案就是利用nestedhtml来伪静态处理后,找到dom中、标签的内容,然后进行伪静态处理,获取dom页面所有标签内容。最终获取网站所有标签内容的方法。方案2.加密隐藏法这里要说的是利用https隐藏法来获取加密html的解密算法是使用了crossauthentication来做,具体可以参考我的另一篇博客:华觅:利用https隐藏html加密方案来获取加密html算法的原理https隐藏html加密算法流程解密当我们以https方式来解密html页面,在解密的过程中,进而得到页面所有标签内容的时候,我们需。