搜索引擎主题模型优化(算法变体的集合-源码-BM25:BM25算法)
优采云 发布时间: 2022-02-03 05:20搜索引擎主题模型优化(算法变体的集合-源码-BM25:BM25算法)
rank_bm25:BM25算法变体的集合——源代码
Rank-BM25:用于查询一组文档并返回与查询最相关的文档的两行搜索引擎算法集。您可能已经猜到了,这些算法最常见的用例是创建搜索引擎。到目前为止实现的算法有: Okaapi BM25 BM25L BM25 + BM25-Adpt BM25T 这些算法取自,它很好地概述了每种方法并对其进行了基准测试。一个不错的选择是他们比较不同类型的预处理,例如词干提取与禁用词干提取,是否禁用停用词等。如果您不熟悉该主题,请继续阅读。安装此软件包的最简单方法是通过 pip,使用 pip install rank_bm25 如果您想确保获得最新版本,可以使用以下命令直接从 github 安装: pip install git+ssh:///dorianbrown/rank_bm25. git 用法 在本例中,我们将使用 BM25Okapi 算法,但其他算法的使用方式大致相同。诱人的第一件事是创建一个 BM25 类的实例,它读取文本语料库并对其进行一些索引: from rank_bm25 import BM25Okapico
现在下载