解决方案:新华社自动采集进入翻译记忆库,用python对接中文搜索引擎
优采云 发布时间: 2022-10-11 12:07解决方案:新华社自动采集进入翻译记忆库,用python对接中文搜索引擎
自动采集进入翻译记忆库,然后通过elasticsearch导出做到二次分词、分词器对接到elasticsearch、elasticsearch自带的service即可实现分词器的使用,elasticsearch对接其他中文搜索引擎或者其他语言的话也是一样使用。
简单的操作就是用采集脚本采集新华社英文通稿,然后用wordlist.as_str来转换为中文文本,再用odb.on_search读取到的语句做二次分词,这是最基本的操作。如果要做到词嵌入和分词效果更好一些,可以考虑用bert等库做高效率的词嵌入以及二次分词,
这个我不知道行不行。之前也想搞一个。一直没弄。
上淘宝的语料库,出卖一下,
我是用python采集通稿的,很简单。
ai方向可参考知乎用户的文章;broadcasting=youtu.be
一段原文对应几百个词语符号比较困难,在没有初步的词语标注准备下,对接外部数据库可能效果不佳,可以尝试用python抓取新华社英文稿件,再提取统计词向量字典,用于对接其他数据库。
用python爬下来,后面用mysql做好字典,用odb需要查询操作,人家要手动查,用mysql应该会更好。
直接用python读。如果是新闻站还好,可以让其作者帮你word_list.as_str再生成sequence,给开发者爬取一下。