网页表格抓取(Python爬虫与使用Excalibur运行下面的命令启动(图))

优采云发布时间: 2021-11-26 22:10

　　启动和使用 Excalibur

　　运行以下命令启动 Excalibur：

　　$ excalibur initdb

$ excalibur webserver

　　前一个命令是初始化数据库，后一个命令是运行服务器服务。在浏览器中输入：:5050 使用平台。

　　进入PDF表单提取平台，首页如下：

　　作者测试的PDF收录以下表格：

　　我们将PDF文档上传到上述平台，点击“上传PDF”按钮，然后选择对应的PDF文档和表格所在的页码。PDF上传后，表单所在页面如下图所示：

　　选择右边的Flavor中的“lattice”，用鼠标选择table所在的区域，如下图：

　　然后点击“查看和下载数据”按钮，就可以得到从PDF分析表中得到的数据。截图如下：

　　如果我们还想将这个表的解析结果保存为文件，我们可以在Download旁边的下拉框中选择一种保存格式，然后点击Download按钮。比如作者选择保存为csv文件，下载的文件如下：

　　"Method","Precision","Recall","F-measure"

"(S1) SP-CCG","67.5","37.2","48.0"

"(S1) SP-CFG","71.1","39.2","50.5"

"(S1) K4","70.3","26.3","38.0"

"(S2) SP-CCG","63.7","41.4","50.2"

"(S2) SP-CFG","65.5","43.8","52.5"

"(S2) K4","67.1","35.0","45.8"

"","Table 5: Extraction Performance on ACE.","",""

　　我们可以发现，表的分析结果还是相当漂亮的。

　　本次分享到此结束，感谢阅读。

　　注：本人已开通微信公众号：Python爬虫与算法（微信ID：easy_web_scrape），欢迎大家关注~~

0

2021-11-26

网页表格抓取

0 个评论

要回复文章请先登录或注册