解决方案:新华社自动采集进入翻译记忆库，用python对接中文搜索引擎

优采云发布时间: 2022-10-11 12:07

　　自动采集进入翻译记忆库，然后通过elasticsearch导出做到二次分词、分词器对接到elasticsearch、elasticsearch自带的service即可实现分词器的使用，elasticsearch对接其他中文搜索引擎或者其他语言的话也是一样使用。

　　简单的操作就是用采集脚本采集新华社英文通稿，然后用wordlist.as_str来转换为中文文本，再用odb.on_search读取到的语句做二次分词，这是最基本的操作。如果要做到词嵌入和分词效果更好一些，可以考虑用bert等库做高效率的词嵌入以及二次分词，

　　这个我不知道行不行。之前也想搞一个。一直没弄。

　　上淘宝的语料库，出卖一下，

　　我是用python采集通稿的，很简单。

　　ai方向可参考知乎用户的文章;broadcasting=youtu.be

　　一段原文对应几百个词语符号比较困难，在没有初步的词语标注准备下，对接外部数据库可能效果不佳，可以尝试用python抓取新华社英文稿件，再提取统计词向量字典，用于对接其他数据库。

　　用python爬下来，后面用mysql做好字典，用odb需要查询操作，人家要手动查，用mysql应该会更好。

　　直接用python读。如果是新闻站还好，可以让其作者帮你word_list.as_str再生成sequence，给开发者爬取一下。

0

2022-10-11

自动采集

0 个评论

要回复文章请先登录或注册