excel抓取网页数据(【技巧】龙虎榜数据预览:如何找到正确的数据页面 )

优采云 发布时间: 2022-02-24 02:17

  excel抓取网页数据(【技巧】龙虎榜数据预览:如何找到正确的数据页面

)

  龙虎榜数据其实很容易抓取。首先,我们需要找到正确的数据页:

  

  一旦你找到这个页面,你就可以开始网站分析了。

  网站分析

  在谷歌浏览器中打开页面后,打开“检查”,然后点击下图中的各个标签栏:

  

  然后在过滤器中输入pagesize来过滤掉这些页面。我按了好几次。通常应该有八个,每个标签对应一行:

  

  我们查看了每个页面的真实网址,发现这个位置的词对应我们要查询的标签,也就是有八个词,对应八个标签:

  

  然后是一些常规变量:

  通过上面的分析,我们可以想象写一个函数,通过改变关键词、页码、日期等参数来查询对应的龙虎榜数据。

  其实这也是一个API调用,我们看一下数据预览:

  

  下面一行是真实数据调用的URL,我尝试爬取:

  

  展开后就是这样的数据结构,用“|”隔开的数据列表,没有表头,不是我们喜欢的数据风格。

  让我们看看我们是否可以获取带有标题的数据表。毕竟栏目多,一一添加表头不是我们优采云愿意做的。

  试着抓

  让我们尝试使用以下 URL 获取它:

  

  展开后我们得到一个表格:

  

  按照这个过程,我们原来的想法就得改变。因为不同标签对应的表中的列数是不同的,所以我们不可能用一个通用的函数来捕获所有八种表。其实有七种,最后一种是业务部查询。我们只需要定义7个函数分别抓取即可。

  当然,如果你坚持也不是不能实现一个功能,只是需要写七个分支来分别处理七种表。

  定义函数

  我们仍然使用单独定义函数的方法。这里我举个例子来定义一个捕捉龙虎列表细节的函数:

  

  我添加了三个参数,如果需要,您也可以添加页码。

  如果要定义其他标签对应的函数,需要复制该标签对应的URL,然后修改参数。

  抓住

  然后我们做一个测试,抓取2020-10-1到2020-10-27的1000行数据:

  

  只需等待几秒钟,您就完成了。

  如果数据页数多,也可以加上页码,然后用页码抓取,我修改函数:

  

  其实2020-10-1到2020-10-27的数据只有600多行,所以我们换个方法,每页100条,7页:

  

  展开得到 665 行数据:

  

  最后提醒大家,以上两个功能是为了方便大家。换行符用于屏幕截图。其实没有换行和回车。如果加回车,查询就会出错。

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线