网页表格抓取(借助ABBYYFineReader15文字识别软件快速识别为表格数据表格)

优采云发布时间: 2022-02-08 18:35

　　在一些政府公共信息共享网站或专业数据共享机构网站，会定期公开共享一些社会发展数据或与时事相关的数据。这些数据通常以网页的形式共享，很少提供文件下载。

　　如果直接复制这些数据，数据排版会耗费大量时间。但借助 ABBYY FineReader PDF 15 文本识别软件，可以快速识别为表格数据，并导出为可编辑的数据表。接下来，让我们看看它是如何工作的。

　　一、网页表格数据截图

　　首先打开相关数据网站，对数据表区域进行截图。

　　图1：打开网页截图

　　如图2所示，在截屏过程中，建议尽量保持表格边框的完整性，以提高ABBYY FineReader PDF 15的识别准确率。

　　图 2：完成的表格数据的屏幕截图

　　二、使用 OCR 编辑器识别表格

　　接下来，打开ABBYY FineReader PDF 15文本识别软件，使用“在OCR编辑器中打开”功能打开刚刚在网站截取的表格数据。

　　图 3：在 OCR 编辑器中打开图像

　　接下来，等待软件完成对图片的文字识别。在识别过程中，为了提高文字识别的准确率，软件会提示图片的分辨率或指定的OCR语言。如果条件允许（如提高图像分辨率），您可以按照建议修改相关设置。

　　图 4：完成 OCR 识别

　　完成文本识别程序后，我们首先需要在区域属性面板中检查表格标签的区域属性是否正确。如图 5 所示，可以看出 ABBYY FineReader PDF 15 已正确将此区域标记为表格区域。

　　图 5：区域属性

　　接下来，查看软件的文本编辑面板。如图 6 所示，可以看到文本已经以电子表格的形式呈现，并且可以在单元格中编辑文本。

　　图 6：文本编辑器

　　三、导出到 Excel

　　为了方便后续的数据处理，我们可以将识别出来的电子表格保存为Excel文件。如图7所示，在文本编辑面板顶部选择Excel表格的保存格式后，可以将当前文本导出为Excel文件。

　　图 7：另存为 Excel 工作表

　　打开导出的Excel文件，可以看到ABBYY FineReader PDF 15不仅可以准确识别数据，还可以“复制”表格的格式，很好地将数据导出到每个单元格。这种形式的导出可以减少排版大量数据所需的时间。

　　图 8：导出的 Excel 表格

　　四、总结

　　通过使用ABBYY文字识别软件的数据表格识别功能，我们可以快速将图片中的表格转换成可编辑的电子表格，提高数据使用效率。这么好用的功能，你学会了吗？

0

2022-02-08

网页表格抓取

0 个评论

要回复文章请先登录或注册