excel抓取多页网页数据(网页中表格数据指什么样子?如何做到批量采集100页或1000页)

优采云 发布时间: 2021-12-26 04:15

  excel抓取多页网页数据(网页中表格数据指什么样子?如何做到批量采集100页或1000页)

  这种需求似乎很少有人需要,但我认为总会有需求的那一天。

  网页中的表格数据是什么意思?

  比如这个我今天想举个例子:

  

  这个产品成分表只是一个数据表。

  我们一般使用优采云

等采集

器来采集

这类数据,并保持原有的结构。

  还有优采云

采集器,可以智能识别采集表数据,但是很多网站无法识别。我上面提到的例子无法识别,因此无法采集

  但其实excel中有一个功能可以采集网页中的表格,但是缺点是一次只能采集一个页面。如何批量采集100页或1000页数据?不能一一手动吗?

  经过反复试验,我终于使用了excel的采集

表格功能。但是,我先把这100或1000页的内容采集

起来形成一个页面,然后我可以用excel来识别它。

  以下是步骤:

  1:优采云

采集

需要的页面

  

  例如,我首先采集

这些页面的 URL。

  2、 然后整理出来导入优采云

采集

  

  这里注意一定要作为一级页面使用,否则会自动采集

低级页面。老版本的优采云

采集

器没有这个问题。

  3、然后使用表格的部分html代码

  

  这里我们用最简单的方式抓取前后的内容,我们来测试一下

  

  访问此类内容正是我们所需要的。

  4、批量采集

  

  然后保存任务并批量采集

  5、采集

完成

  新版本的优采云

采集

器默认保存本地sqlite数据库,没有老版本的access数据库,所以不能用office中的access打开,但是可以用Navicat导入。

  

  链接sqlite,然后选择我们采集

到的db3文件,打开确认。

  获取以下数据。

  

  6、合并采集

到的数据

  如果你不知道如何合并数据库中的数据,也很简单,直接导出excel。

  

  你会在excel中合并吗?即使没有,只需选择要复制的列。

  

  那我们贴出来看看。

  得到这样的内容。

  

  直接以html文件的形式保存到桌面。

  7、excel被识别为表格数据

  我们在excel-new query-from the website中选择数据(我的excel版本用的是那个按钮不好用的红框)

  

  

  然后填写刚才的html文件的本地地址,确认

  Excel 会识别多种样式的数据,只需选择您想要的一种。

  

  8、最终效果

  

  我们得到的最终渲染是这样的,因为我只采集

了72页,得到了1600行数据。

  在这一点上,你完成了。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线