自动文章采集识别摘要建立批量采集，实时预览方便分享

优采云发布时间: 2021-03-25 22:03

　　自动文章采集识别摘要建立批量采集，实时预览方便分享。

　　最近遇到了相同的问题，发现到目前为止sqlalchemy都不支持新增包，公式识别效果好差。因此自己写了一个。

　　说个有趣的：应该可以用python处理一些偏门的pandas/numpy/matplotlib里面的内容。不过pandas的算法相对更好，但公式却很难处理。目前numpy很热，pandas算法也还行，理论上来说一个包管理多个包。不过没有工程问题的话，比如做报表可以使用pandas+r里面的数据库搭一个reportserver。

　　考虑到一些公式等小问题，这样可以用python的regmentsplot.python实现。这个小程序解决了很多python实现的小问题。

　　python现在在公式识别方面还有很多的问题没有解决，最后一个问题在国内很多网站（如国内的产品质量和信誉问题，这个问题还需要加以重视），这个需要开发人员调研和改进。另外要考虑是否能够接受复杂公式识别的技术，如果不能接受是否有能力转做html产品。另外我觉得解决方案有三种：1.大厂，oracle，ibm等大厂都有产品可以供你选择；2.选择开源，比如现在有scientificaccess（schema验证，公式识别都是一体的）；3.选择自己学习后自己解决的问题。

0

2021-03-25

自动文章采集

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

自动文章采集识别摘要建立批量采集，实时预览方便分享

0 个评论

发起人

AI时代内容工厂

自动文章采集识别摘要建立批量采集，实时预览方便分享

0 个评论

发起人

相关问题