自动采集网站内容(网页中的表格数据指什么样子?如何做到批量采集100页或1000页)

优采云 发布时间: 2021-09-01 07:17

  自动采集网站内容(网页中的表格数据指什么样子?如何做到批量采集100页或1000页)

  这种需求似乎很少有人需要,但我认为总会有你需要的那一天。

  网页中的表格数据是什么意思?

  比如这个我今天要举的例子:

  

  这个产品成分表只是一个数据表。

  我们一般使用优采云采集器hard 采集等数据,保持原有结构。

  还有优采云采集器,可以智能识别表格数据和采集,但是很多网站无法识别。在上面的示例中我无法识别这一点,因此无法识别采集。 .

  但其实excel中有一个功能,就是采集网页中的表格,但是缺点是每次只能采集一页。如何批量处理采集100页或1000页数据?不能一个一个手动做吗?

  试了试,最后还是用了excel的采集表格功能,不过我先采集把这100或1000页的内容,组成一个页面,可以被excel NS识别。

  步骤如下:

  1:优采云采集器采集必填页面

  

  比如我先采集到这些页面的网址。

  2、然后整理出来导入优采云采集器

  

  这里注意,应该作为一级页面使用,否则会自动采集下级页面,优采云采集器老版本没有这个问题。

  3、然后使用表格的部分html代码

  

  这里是最简单的前后截取方式,采集获取内容,测试一下

  

  获得这样的内容正是我们所需要的。

  4、batch采集

  

  然后保存任务,批处理采集就可以了。

  5、采集complete

  新版优采云采集器默认本地保存为sqlite数据库。没有旧版本的access数据库,所以在office里用access打开是不行的,但是可以用Navicat导入。

  

  链接sqlite,然后选择我们采集到达的db3文件,打开确认。

  获取以下数据。

  

  6、Merge 采集来的数据

  如果你不知道怎么把数据和数据库合并,也很简单,直接导出excel。

  

  你会在excel中合并吗?即使没有,也只需选择要复制的列。

  

  那我们贴出来看看吧。

  获取一个这样的内容。

  

  以 html 文件的形式直接保存到桌面。

  7、excel 被识别为表格数据

  我们选择excel中的数据-new query-since网站(我的excel版本用的是按钮不好用的红框)

  

  

  然后填写刚才的html文件的本地地址并确认

  Excel 会识别多种样式的数据,只需选择您想要的一种即可。

  

  8、最终效果

  

  我们得到的最终效果图就是这样的,因为我只有采集有72页,得到了1600行数据。

  到这里,你就完成了。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线