自动采集网站内容(网页中的表格数据指什么样子?如何做到批量采集100页或1000页)
优采云 发布时间: 2021-09-01 07:17自动采集网站内容(网页中的表格数据指什么样子?如何做到批量采集100页或1000页)
这种需求似乎很少有人需要,但我认为总会有你需要的那一天。
网页中的表格数据是什么意思?
比如这个我今天要举的例子:
这个产品成分表只是一个数据表。
我们一般使用优采云采集器hard 采集等数据,保持原有结构。
还有优采云采集器,可以智能识别表格数据和采集,但是很多网站无法识别。在上面的示例中我无法识别这一点,因此无法识别采集。 .
但其实excel中有一个功能,就是采集网页中的表格,但是缺点是每次只能采集一页。如何批量处理采集100页或1000页数据?不能一个一个手动做吗?
试了试,最后还是用了excel的采集表格功能,不过我先采集把这100或1000页的内容,组成一个页面,可以被excel NS识别。
步骤如下:
1:优采云采集器采集必填页面
比如我先采集到这些页面的网址。
2、然后整理出来导入优采云采集器
这里注意,应该作为一级页面使用,否则会自动采集下级页面,优采云采集器老版本没有这个问题。
3、然后使用表格的部分html代码
这里是最简单的前后截取方式,采集获取内容,测试一下
获得这样的内容正是我们所需要的。
4、batch采集
然后保存任务,批处理采集就可以了。
5、采集complete
新版优采云采集器默认本地保存为sqlite数据库。没有旧版本的access数据库,所以在office里用access打开是不行的,但是可以用Navicat导入。
链接sqlite,然后选择我们采集到达的db3文件,打开确认。
获取以下数据。
6、Merge 采集来的数据
如果你不知道怎么把数据和数据库合并,也很简单,直接导出excel。
你会在excel中合并吗?即使没有,也只需选择要复制的列。
那我们贴出来看看吧。
获取一个这样的内容。
以 html 文件的形式直接保存到桌面。
7、excel 被识别为表格数据
我们选择excel中的数据-new query-since网站(我的excel版本用的是按钮不好用的红框)
然后填写刚才的html文件的本地地址并确认
Excel 会识别多种样式的数据,只需选择您想要的一种即可。
8、最终效果
我们得到的最终效果图就是这样的,因为我只有采集有72页,得到了1600行数据。
到这里,你就完成了。