优采云伪原创词库(优采云伪原创词库词缀类似语料文档图片批量加工新闻领域语料库)
优采云 发布时间: 2021-10-20 10:03优采云伪原创词库(优采云伪原创词库词缀类似语料文档图片批量加工新闻领域语料库)
优采云伪原创词库词根词缀类似语料文档图片批量加工新闻领域语料外文新闻软件论文篇名缩写一带一路对话文件上报
都给你了还加啥,要么自己生成,
反正是人写的,肯定不行。
首先要搞清楚批量文本处理的内容,分了几类,如语料库文本、新闻文本、领域语料库文本,新闻文本和领域语料库都没了,还是要分词的,但不建议去用机器降噪,可以分词,但不用全分,个人认为可以根据自己需要自行根据文本集进行裁剪和合并,这样就不需要人工来编写合并规则,保留意义核心的部分即可,最后进行词性转换即可。
感觉不行啊,还是自己用自己编写词库去编写语料来得好点,也可以在词库里面选择你需要编写的句子进行重新编写,不过现在想都想好了,就是实现不了,工程量大。但是如果是生成新闻稿的话不用特意去编写词库,直接从语料里面选择文字来生成新闻稿就行。
感觉不行,而且只是批量生成,可以选择多词,不知道领域性,词库有自己的,但没有有意义的领域性词库,这个好像有点问题,领域词库应该有,
只需要重新设计词库,你无需编写词库。网上有很多重新设计词库的工具可以用,或者自己组合词库也行。
只需要打乱特定单词顺序就可以了
编写词库有点麻烦,自己组合词库一是找不到语料库,二是编写出来的顺序与语料库顺序不一致,对于人工来说很难做到。所以完全可以考虑让机器自动生成词库。根据有标准的word2vec词向量,词频统计,再加上系统自己积累的中文实体识别特征来生成词典。语料可以用lrn,xgboost等来读入每一篇言情小说甚至喜马拉雅fm讲座录音做入库,最后自动得到。