网页表格抓取(Python爬虫与使用Excalibur运行下面的命令启动(图))

优采云 发布时间: 2021-11-26 22:10

  网页表格抓取(Python爬虫与使用Excalibur运行下面的命令启动(图))

  启动和使用 Excalibur

  运行以下命令启动 Excalibur:

  $ excalibur initdb

$ excalibur webserver

  前一个命令是初始化数据库,后一个命令是运行服务器服务。在浏览器中输入::5050 使用平台。

  进入PDF表单提取平台,首页如下:

  

  作者测试的PDF收录以下表格:

  

  我们将PDF文档上传到上述平台,点击“上传PDF”按钮,然后选择对应的PDF文档和表格所在的页码。PDF上传后,表单所在页面如下图所示:

  

  选择右边的Flavor中的“lattice”,用鼠标选择table所在的区域,如下图:

  

  然后点击“查看和下载数据”按钮,就可以得到从PDF分析表中得到的数据。截图如下:

  

  如果我们还想将这个表的解析结果保存为文件,我们可以在Download旁边的下拉框中选择一种保存格式,然后点击Download按钮。比如作者选择保存为csv文件,下载的文件如下:

  "Method","Precision","Recall","F-measure"

"(S1) SP-CCG","67.5","37.2","48.0"

"(S1) SP-CFG","71.1","39.2","50.5"

"(S1) K4","70.3","26.3","38.0"

"(S2) SP-CCG","63.7","41.4","50.2"

"(S2) SP-CFG","65.5","43.8","52.5"

"(S2) K4","67.1","35.0","45.8"

"","Table 5: Extraction Performance on ACE.","",""

  我们可以发现,表的分析结果还是相当漂亮的。

  本次分享到此结束,感谢阅读。

  注:本人已开通微信公众号:Python爬虫与算法(微信ID:easy_web_scrape),欢迎大家关注~~

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线