网页表格抓取(Python爬虫与使用Excalibur运行下面的命令启动(图))
优采云 发布时间: 2021-11-26 22:10网页表格抓取(Python爬虫与使用Excalibur运行下面的命令启动(图))
启动和使用 Excalibur
运行以下命令启动 Excalibur:
$ excalibur initdb
$ excalibur webserver
前一个命令是初始化数据库,后一个命令是运行服务器服务。在浏览器中输入::5050 使用平台。
进入PDF表单提取平台,首页如下:
作者测试的PDF收录以下表格:
我们将PDF文档上传到上述平台,点击“上传PDF”按钮,然后选择对应的PDF文档和表格所在的页码。PDF上传后,表单所在页面如下图所示:
选择右边的Flavor中的“lattice”,用鼠标选择table所在的区域,如下图:
然后点击“查看和下载数据”按钮,就可以得到从PDF分析表中得到的数据。截图如下:
如果我们还想将这个表的解析结果保存为文件,我们可以在Download旁边的下拉框中选择一种保存格式,然后点击Download按钮。比如作者选择保存为csv文件,下载的文件如下:
"Method","Precision","Recall","F-measure"
"(S1) SP-CCG","67.5","37.2","48.0"
"(S1) SP-CFG","71.1","39.2","50.5"
"(S1) K4","70.3","26.3","38.0"
"(S2) SP-CCG","63.7","41.4","50.2"
"(S2) SP-CFG","65.5","43.8","52.5"
"(S2) K4","67.1","35.0","45.8"
"","Table 5: Extraction Performance on ACE.","",""
我们可以发现,表的分析结果还是相当漂亮的。
本次分享到此结束,感谢阅读。
注:本人已开通微信公众号:Python爬虫与算法(微信ID:easy_web_scrape),欢迎大家关注~~