excel抓取多页网页数据(网页中表格数据指什么样子?如何做到批量采集100页或1000页)
优采云 发布时间: 2021-12-26 04:15excel抓取多页网页数据(网页中表格数据指什么样子?如何做到批量采集100页或1000页)
这种需求似乎很少有人需要,但我认为总会有需求的那一天。
网页中的表格数据是什么意思?
比如这个我今天想举个例子:
这个产品成分表只是一个数据表。
我们一般使用优采云
等采集
器来采集
这类数据,并保持原有的结构。
还有优采云
采集器,可以智能识别采集表数据,但是很多网站无法识别。我上面提到的例子无法识别,因此无法采集
。
但其实excel中有一个功能可以采集网页中的表格,但是缺点是一次只能采集一个页面。如何批量采集100页或1000页数据?不能一一手动吗?
经过反复试验,我终于使用了excel的采集
表格功能。但是,我先把这100或1000页的内容采集
起来形成一个页面,然后我可以用excel来识别它。
以下是步骤:
1:优采云
采集
需要的页面
例如,我首先采集
这些页面的 URL。
2、 然后整理出来导入优采云
采集
器
这里注意一定要作为一级页面使用,否则会自动采集
低级页面。老版本的优采云
采集
器没有这个问题。
3、然后使用表格的部分html代码
这里我们用最简单的方式抓取前后的内容,我们来测试一下
访问此类内容正是我们所需要的。
4、批量采集
然后保存任务并批量采集
。
5、采集
完成
新版本的优采云
采集
器默认保存本地sqlite数据库,没有老版本的access数据库,所以不能用office中的access打开,但是可以用Navicat导入。
链接sqlite,然后选择我们采集
到的db3文件,打开确认。
获取以下数据。
6、合并采集
到的数据
如果你不知道如何合并数据库中的数据,也很简单,直接导出excel。
你会在excel中合并吗?即使没有,只需选择要复制的列。
那我们贴出来看看。
得到这样的内容。
直接以html文件的形式保存到桌面。
7、excel被识别为表格数据
我们在excel-new query-from the website中选择数据(我的excel版本用的是那个按钮不好用的红框)
然后填写刚才的html文件的本地地址,确认
Excel 会识别多种样式的数据,只需选择您想要的一种。
8、最终效果
我们得到的最终渲染是这样的,因为我只采集
了72页,得到了1600行数据。
在这一点上,你完成了。