excel抓取网页数据(【技巧】龙虎榜数据预览:如何找到正确的数据页面 )
优采云 发布时间: 2022-02-24 02:17excel抓取网页数据(【技巧】龙虎榜数据预览:如何找到正确的数据页面
)
龙虎榜数据其实很容易抓取。首先,我们需要找到正确的数据页:
一旦你找到这个页面,你就可以开始网站分析了。
网站分析
在谷歌浏览器中打开页面后,打开“检查”,然后点击下图中的各个标签栏:
然后在过滤器中输入pagesize来过滤掉这些页面。我按了好几次。通常应该有八个,每个标签对应一行:
我们查看了每个页面的真实网址,发现这个位置的词对应我们要查询的标签,也就是有八个词,对应八个标签:
然后是一些常规变量:
通过上面的分析,我们可以想象写一个函数,通过改变关键词、页码、日期等参数来查询对应的龙虎榜数据。
其实这也是一个API调用,我们看一下数据预览:
下面一行是真实数据调用的URL,我尝试爬取:
展开后就是这样的数据结构,用“|”隔开的数据列表,没有表头,不是我们喜欢的数据风格。
让我们看看我们是否可以获取带有标题的数据表。毕竟栏目多,一一添加表头不是我们优采云愿意做的。
试着抓
让我们尝试使用以下 URL 获取它:
展开后我们得到一个表格:
按照这个过程,我们原来的想法就得改变。因为不同标签对应的表中的列数是不同的,所以我们不可能用一个通用的函数来捕获所有八种表。其实有七种,最后一种是业务部查询。我们只需要定义7个函数分别抓取即可。
当然,如果你坚持也不是不能实现一个功能,只是需要写七个分支来分别处理七种表。
定义函数
我们仍然使用单独定义函数的方法。这里我举个例子来定义一个捕捉龙虎列表细节的函数:
我添加了三个参数,如果需要,您也可以添加页码。
如果要定义其他标签对应的函数,需要复制该标签对应的URL,然后修改参数。
抓住
然后我们做一个测试,抓取2020-10-1到2020-10-27的1000行数据:
只需等待几秒钟,您就完成了。
如果数据页数多,也可以加上页码,然后用页码抓取,我修改函数:
其实2020-10-1到2020-10-27的数据只有600多行,所以我们换个方法,每页100条,7页:
展开得到 665 行数据:
最后提醒大家,以上两个功能是为了方便大家。换行符用于屏幕截图。其实没有换行和回车。如果加回车,查询就会出错。