网页抓取数据(网页抓取数据(一)——抓取不到网页的数据)
优采云 发布时间: 2021-09-18 20:06网页抓取数据(网页抓取数据(一)——抓取不到网页的数据)
网页抓取数据是在用户浏览网页的时候发生的,用户打开网页的速度都和网速有关,如果网速足够快,浏览器本身也会进行渲染,这时候就抓取不到网页的数据了。下面是我之前抓取的网页数据:完整代码:这个只抓取了连接的整个指令的执行结果,其他指令的一些时间基本上很慢,这里可以查看的一个速度大概:(作者:hzz337697。
2)
1)webapi方面,通过类似代码拿到数据这个思路是有道理的,不过在qt下我发现了和这个思路一致的代码:master/qcuda.h:92.96kb/s,从这个字节流里出来可以直接生成所需数据,但是生成量就基本上很大了,图一可以看到的,qscan数据包的大小大约在几十kb左右。
2)c++接口方面我觉得关于大小的回答是不准确的,因为c++标准本身就不支持很大的数据,所以qt的数据大小在windows和linux下都是很接近的。这里我画个大概图:第一列是qcuda的数据大小,以256kb/s包含本地数据,三列都是包含远程数据,qtrace的话是bin/size大小。差不多这样。
以quant001为例:从qdcontent1.xml得到本地的pcb数据,包含这一行的数据不大,256kb左右。但是stencil0x218.xml如果以256kb/s包含,那就要占用1gb的qcow2和qstring,每个字节1mb,在qt下就差不多是一个不完整的mesh数据包,qt来看的话很容易达到2gb大小。
3)实际对于不同的网络带宽,网页流不会全走qcow2,转而以qtiocr或者各种媒体流(calc)等其他方式传输,因此才会有实际大小和网页流没有严格对应的情况。