伪原创相似度查询( 【源码目录详解】词库Key的词组及词组(二))
优采云 发布时间: 2022-03-08 21:24伪原创相似度查询(
【源码目录详解】词库Key的词组及词组(二))
详细源码目录
language-ai
|- src/main
| |- java java源码所在目录
| |- com.chenxin
| |- auth 百度AI授权认证模块
| |- base 基础公共抽象模块
| |- config 项目所有自定义配置模块
| |- controller 这个不用多说
| |- exception 全局异常与自定义一次模块
| |- model 项目所有使用的数据模型, dto,vo,bo等
| |- service 业务模块
| |- util 工具模块
| |- auth 授权认证模块
| |- consts 常量类
| |- http http相关
| |- nlp NLP同义词库加载工具
| |- system 系统相关
| |- CommonEnum.java 统一信息处理枚举类
|
| |- AiApplication.java 主启动类
|
|- src/test/java
|- com.chenxin 相关测试代码, 经验证, 若idea版本太低将会导致该单元测试无法使用
其他自行查看源码, 不一一概述
关于词库 扩展词库
如果你想更准确地计算和替换,你需要一个非常准确和庞大的词库,你可以自己慢慢填写。
只需将词库添加到文件resource/res/word.txt,按照格式添加,然后调用初始化redis接口即可。
初始化redis接口 /ai/command/initRedis
论词库中的单词重复问题
这个不用你担心,作者在这方面做了很多优化。具有相同键值Key的词组会全部存储在redis中,形式为Key0、Key1、
查询时会找出所有key相同的词组,去掉重复的,再进行其他运算,计算词义相似度等。同一个Key,为了增强
为了查询效率,默认取相同Key的前20组!
技术地图
本项目整合了多个优秀的NLP项目,一起使用。分词使用百度AI自然语言处理技术中的词义分析技术,词义相似度
使用 HanLP 项目计算同义词距离!
自然语言处理技术(百度AI提供技术支持)自然语言处理(hanLP提供技术支持)
HanLP是由一系列模型和算法组成的NLP工具包,旨在普及自然语言处理在生产环境中的应用。
词库 技术架构 后端 前端
这个项目的页面只是一个测试,未来会做一个完整的产品网站。
关于作者的问题和优化
对人工智能、分布式微服务、Web应用、大数据等领域充满热情。工作室:1024 Code Studio,有需要可以联系作者,交流也可以。
电子邮件:[电子邮件保护]
其他
之所以会用到多个NLP项目,是因为整个项目本来就是打算用百度AI来完成的。但是由于百度自然语言处理API
普通用户通话次数有限制,需额外收费。因此,大数据量的处理将由 HanLP 项目处理。使数据更小
分词交给百度AI处理。