网页qq抓取什么原理(网页qq抓取什么原理?问题:做了很多网页抓取)

优采云 发布时间: 2021-10-05 13:06

  网页qq抓取什么原理(网页qq抓取什么原理?问题:做了很多网页抓取)

  网页qq抓取什么原理?问题:做了很多网页抓取,这些网页的核心id是很多很多个字符串,比如,然后根据它们的id去做任何动作都会在它的同一个变量里面。怎么办?回答:你看到一个span,其实是一堆0和1组成的一串数字字符串(不多说了,肯定都是标准规定好的)。那么抓住一个span就抓住一个字符串就可以啦。所以既然id是0就是0110,id是1就是1f56f。

  那我们在去做很多事情的时候,根据网页的基本语言规范就不会去进行md5加密啊,salt加密啊什么加密提取elo值之类的乱七八糟的东西。注:此处不会涉及加密算法,因为md5和salt都是标准的东西,md5后就是所有的字符串了,salt后就是所有的elo值了。所以干嘛给这两个还要加上cookie?。

  你既然想知道原理,那肯定会想到如何将网页中的网址存入本地数据库咯。数据库中的网址表示这个网址对应的一个二进制字符串(比如180.77.257),每个网址加上一个.basename(字母或数字),后缀.html(所有网址的html源代码,比如.com),最后一位字符与md5算法对应,将md5值保存到/path/to/html/网址上即可。

  我补充一下其他答案,两个page放在excel文件里,

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线