解决方案:新华社自动采集进入翻译记忆库,用python对接中文搜索引擎

优采云 发布时间: 2022-10-11 12:07

  解决方案:新华社自动采集进入翻译记忆库,用python对接中文搜索引擎

  自动采集进入翻译记忆库,然后通过elasticsearch导出做到二次分词、分词器对接到elasticsearch、elasticsearch自带的service即可实现分词器的使用,elasticsearch对接其他中文搜索引擎或者其他语言的话也是一样使用。

  简单的操作就是用采集脚本采集新华社英文通稿,然后用wordlist.as_str来转换为中文文本,再用odb.on_search读取到的语句做二次分词,这是最基本的操作。如果要做到词嵌入和分词效果更好一些,可以考虑用bert等库做高效率的词嵌入以及二次分词,

  

  这个我不知道行不行。之前也想搞一个。一直没弄。

  上淘宝的语料库,出卖一下,

  我是用python采集通稿的,很简单。

  

  ai方向可参考知乎用户的文章;broadcasting=youtu.be

  一段原文对应几百个词语符号比较困难,在没有初步的词语标注准备下,对接外部数据库可能效果不佳,可以尝试用python抓取新华社英文稿件,再提取统计词向量字典,用于对接其他数据库。

  用python爬下来,后面用mysql做好字典,用odb需要查询操作,人家要手动查,用mysql应该会更好。

  直接用python读。如果是新闻站还好,可以让其作者帮你word_list.as_str再生成sequence,给开发者爬取一下。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线