技巧:抖音seo关键词排名技术

优采云 发布时间: 2022-11-28 09:54

  技巧:抖音seo关键词排名技术

  AD20210923

  大家好,今天抖一客小编就和大家聊一聊抖音的seo。

  抖音短视频营销SEO排名获客系统-抖音推广获客系统-抖音搜索SEO排名系统

  说起SEO排名优化,很多人都会想到百度的SEO搜索引擎优化。但随着短视频行业的快速崛起,使用抖音搜索的用户数量已经超过使用百度搜索的用户数量。那么今天我们就来说说抖音seo搜索优化排名吧!

  Search Engine Optimization,简称Seo,翻译成中文就是搜索引擎优化。很多人会问:抖音是什么时候进入搜索引擎市场的?他不是一个短视频娱乐APP吗?如果你还这么认为,那你就大错特错了。自2021年抖音搜索框功能上线后,抖音APP逐渐发展成为一个全新的搜索引擎,但抖音是垂直短视频搜索引擎,不是图文搜索引擎。

  

" />

  正因为如此,抖音搜索功能检索到的内容结果更可能满足搜索者的精准需求。这也是为什么抖音搜索量猛增,用户喜欢在抖音上搜索的原因。

  那么如何才能做好抖音eo搜索优化排名呢?

  其实要想做好抖音seo搜索优化排名,需要注意以下几点:

  1、行业关键词的选择;

  2、视频标题中的关键词;

  3、添加视频内容相关标签;

  4、准备视频封面内容;

  

" />

  5.说明文字等。只要做好这几件事,我们发布的短视频在搜索时自然有可能排名靠前!

  当然,有人会问,既然优化这么简单,为什么企业不自己做呢?抖音SEO优化工作是很多细致零碎的工作,企业的投入成本比较高,但是市面上有很多做抖音SEO优化的公司吗?但效果不同。不管选择什么公司和系统,首先要看自己有没有优化。说到系统,它只是我们提高工作效率的一个工具。

  斗易客短视频营销seo排名获取系统具有丰富的功能,例如;多账号矩阵管理、多任务创建、一键发布、定时发布、批量混剪、微信抖音互通等*敏*感*词*短视频营销管理系统。帮助企业在短视频领域快速布局矩阵营销优化。

  抖音短视频营销SEO排名获客系统-抖音推广获客系统-抖音搜索SEO排名系统

  关于抖音seo搜索排名优化的问题,可以随时免费咨询斗易客,也可以在评论区留下您的宝贵意见。

  抖音搜索引擎优化

  技巧:自然语言处理文章关键词提取的算法有哪些?

  点击关注@计算城哥,关注推荐、NLP、知识图谱、机器学习等领域

  关键词Keyphrase Extraction (KPE) 任务可以自动提取能够概括文档中核心内容的短语,这有利于下游信息检索和 NLP 任务。目前,由于注释文档的资源密集性和缺乏*敏*感*词*的关键词提取数据集,无监督关键词提取在实践中得到了更广泛的应用。

  无监督关键词提取的最先进(SOTA)方法是对候选词和文档标记之间的相似性进行排序,以选择关键词。但是,由于候选词的长度和文档的序列长度不同,导致候选关键词和文档的表示不匹配,导致之前的方法在长文档上表现不佳,无法充分利用预训练模型的上下文信息来构建短语的表示。.

  下面给大家介绍一些主流的KPE算法。喜欢的话记得采集

、关注、点赞哦。文末可以加入技术交流群。

  数据集

  数据集来自 HowNet 和 VIPNet。关键词数据集的抽取,如知网、VIPNet等,可以作为一种知识发现的方式。由于目前的关键词抽取算法各有优缺点,基于统计的算法依赖于分词的效果,缺乏上下文语义信息。基于预训练模型的算法往往会获得更长的短语,在英文数据集上的效果要好于中文数据集。可以尝试将各种算法结合起来,取长补短。,在没有专家知识的情况下,获得更好的新词发现结果,进而获得细粒度的分词效果,然后基于词信息熵约束构建整个概念权重网络。

  1. 基于词袋加权的TFIDF算法

  TF-IDF 是一种统计方法,用于评估一个词对于一个文件集或一个语料库中的一个文件的重要性。一个词的重要性与其在文件中出现的次数成正比。但同时,它会与其在语料库中出现的频率成反比地下降,也就是说,一个词在一篇文章中出现的次数越多,在所有文档中出现的次数越少,越能代表该词文章。

  如果单词w在一篇文档d中出现频率高,而在其他文档中很少出现,则认为单词w具有很好的区分能力,适合将文章d与其他文章区分开来。

  1.1 代码实现

  import jieba.analyse as analyse

text = '''注重数据整合,……风险防控平台。'''

jieba.analyse.extract_tags(text, topK=20, withWeight=True, allowPOS=('ns', 'n', 'vn', 'v','nr', 'nt'))

  [('人工智能', 1.33889), ('学习', 0.430554), ('教育', 0.38889), ('领域', 0.344446), ('智能', 0.29833992884875), ('应用', 0.237555), ('数据挖掘', 0.388888), ('报告', 0.38889), ('白宫', 0.166665), ('评估', 0.25), ('战略规划', 0.055555), ('关键技术', 0.347223 ), ('急需', 0.430556), ('导师', 0.402778), ('职务', 0.569443), ('看点', 0.416666), ('助理', 0.263888), ('合伙人', 0.152777) , ('Leading', 0.152778), ('Emotion', 0.430556)]1.2优缺点

  TF-IDF算法的优点是简单快速,结果更符合实际情况。缺点是单纯以“词频”来衡量一个词的重要性不够全面,有时重要的词可能出现的次数并不多。

  另外,该算法不能反映词的位置信息。具有较高位置的词和具有较低位置的词被认为具有相同的重要性。IDF结构简单,不能有效反映词的重要性和词的特征。的分布,导致无法很好地完成权重调整。

  2. 考虑词联想网络的TextRank算法

  如上所述,TF-IDF 基于词袋模型(Bag-of-Words),它将文章表示为词汇的集合。由于集合中词汇元素之间的顺序位置与集合内容无关,因此TF-IDF索引不能有效反映文章内部的词汇组织。

  TextRank 由 Mihalcea 和 Tarau 提出。它通过词之间的相邻关系构建网络,然后使用PageRank迭代计算每个节点的rank值,并对rank值进行排序得到关键词。

  TextRank 是一种基于随机游走的关键词 提取算法。考虑到不同的词对可能有不同的共现,TextRank使用共现作为无向图边的权重。

  其实施包括以下步骤:

  (1) 根据完整的句子对给定的文本T进行切分;

  (2) 对每个句子进行分词和词性标注,并过滤掉停用词,只保留名词、动词、形容词等特定词性的词,即其中ti, j是保留候选人关键词;

  (3)构造一​​个候选关键词图G = (V, E),其中V为节点集,由2)中生成的候选关键词组成,然后利用共现来构造任意两个节点之间的边,只有当它们对应的词汇在长度为K的窗口中共现时,两个节点之间才有边,K表示窗口大小,即至多有K个词共现;

  (4) 根据上式,迭代传播每个节点的权值,直到收敛;

  (5) 将节点权重倒序排序,得到最重要的T个词作为候选关键词;

  (6)从5个中取出最重要的T个词,在原文中标注出来。如果形成相邻的词组,则将它们组合成多个单词关键词;2.1 代码实现

  text = '''注重数据整合,……风险防控平台。'''

jieba.analyse.textrank(text, topK=20, withWeight=True, allowPOS=('ns', 'n', 'vn', 'v','nr', 'nt'))

  [('人工智能', 1.0), ('学习', 0.68035), ('智能', 0.4389534533321184), ('教育', 0.435485), ('领域', 0.81924), ('应用', 0.27324), ('Report', 0.26788), ('Aspect', 0.239643), ('White House', 0.2243), ('Representation', 0.836146), ('Technology', 0.499897), ('Machine', 0.33769), ( '伙伴', 0.593893), ('技术', 0.678335), ('政策', 0.476764), ('办公室', 0.52458), ('知识', 0.301235), ('代表', 0.67789), ('计算', 0.070878), ('关键技术', 0.74857)]2.2优缺点

  TextRank 和 TFIDF 都非常依赖分词结果——如果在分词时将一个词拆分成两个词,那么在进行 关键词 抽取时,这两个词就不能粘在一起

  但是,虽然TextRank考虑到了词之间的关系,但它仍然倾向于使用频繁出现的词如关键词。

  3. LDA算法结合主题

  LDA(Latent Dirichlet Allocation)是一种文档主题生成模型,又称三层贝叶斯概率模型,收录

词、主题和文档三层。

  所谓生成模型,就是我们认为一篇文章中的每一个词都是通过“以一定的概率选择某个主题,并以一定的概率从这个主题中选择某个词”的过程得到的。文档到主题服从多项分布,主题到单词服从多项分布。

  因此计算词分布与文档分布的相似度,将相似度最高的词作为关键词。

  3.1 代码实现

  我们以百度预训练主题模型famila为例,预训练2000个主题,得到给定文档的关键词集合。

  pip install paddlehub -i https://pypi.tuna.tsinghua.edu.cn/simple

pip install paddlepaddle -i https://pypi.tuna.tsinghua.edu.cn/simple

lda_news = hub.Module(name="lda_news")

lda_news.cal_doc_keywords_similarity(text)

  [{'word': 'Field', 'similarity': 0.447644}, {'word': 'Learning', 'similarity': 0.791326}, {'word': 'Education', 'similarity': 0.97363}, { 'word': '人工智能', 'similarity': 0.500501}, {'word': 'report', 'similarity': 0.3339084}, {'word': 'intelligence', 'similarity': 0.2003375}, {' word': 'development', 'similarity': 0.550909}, {'word': 'technology', 'similarity': 0.3798883}, {'word': 'data', 'similarity': 0.067766}, {'word' : 'Method', 'similarity': 0.5121723}]3.2 优缺点

  LDA通过主题建模,在一定程度上考虑了文档与关键词之间的主题一致性,但需要找到合适数量的主题作为超参数,具体效果受其影响较大。

  4.KeyBert算法结合语义编码

  KeyBERT (Sharma, P., & Li, Y. (2019). Self-Supervised Contextual Keyword and Keyphrase Retrieval with Self-Labelling),提出了一种使用bert快速提取关键词的方法。

  原理很简单:首先使用 BERT 提取文档嵌入以获得文档级向量表示。随后,为 N-gram 词/短语提取词向量,然后,我们使用余弦相似度来找到与文档最相似的词/短语。最后,最相似的词可以被识别为最能描述整个文档的词。

  其中,有几个参数:

  "keyphrase_ngram_range:"默认为(1, 1),表示单个词,比如“抗美援朝”,“阵亡将士纪念日”是两个孤立的词;(2, 2)表示考虑一个词组,比如一个有意义的词组“抗美援朝纪念日”;(1, 2)表示同时考虑以上两种情况;

  top_n:显示前n个关键词,默认5个;

  “use_maxsum:”默认为假;是否使用Max Sum Similarity作为关键词抽取标准;

  “use_mmr:”默认为假;是否使用最大边际相关性(MMR)作为关键词提取标准;

  "diversity:" 如果use_mmr=True,可以设置这个参数。该参数的取值范围为0到1;

  4.1 代码实现

  pip install zh_core_web_sm-2.3.1.tar.gz

pip install --index https://pypi.mirrors.ustc.edu.cn/simple/ spacy==2.3.1

from keybert import KeyBERT

kw_model = KeyBERT(model='paraphrase-MiniLM-L6-v2')

keywords = kw_model.extract_keywords(text)

print("\nkeyphrase_ngram_range ...")

keywords = kw_model.extract_keywords(text, keyphrase_ngram_range=(1, 2), stop_words=None)

keywords = kw_model.extract_keywords(text, keyphrase_ngram_range=(1, 2), highlight=None)

# 为了使结果多样化,我们将 2 x top_n 与文档最相似的词/短语。

# 然后,我们从 2 x top_n 单词中取出所有 top_n 组合,并通过余弦相似度提取彼此最不相似的组合。

print("\nuse_maxsum ...")

keywords = kw_model.extract_keywords(text, keyphrase_ngram_range=(1, 3), stop_words=None,

use_maxsum=True, nr_candidates=20, top_n=5)

# 为了使结果多样化,我们可以使用最大边界相关算法(MMR)

# 来创建同样基于余弦相似度的关键字/关键短语。 具有高度多样性的结果:

print("\nhight diversity ...")

keywords = kw_model.extract_keywords(text, keyphrase_ngram_range=(3, 3), stop_words=None,use_mmr=True, diversity=0.7)

print("\nlow diversity ...")

keywords = kw_model.extract_keywords(text, keyphrase_ngram_range=(3, 3), stop_words=None, use_mmr=True, diversity=0.2)

  naive ... [('推进智慧教育实施的措施不能仅仅从高校人才培养的必要性和人工智能发展的角度来考虑', 0.8883), ('渗透和人工智能及其分支技术对美国新闻业的影响越来越深入', 0.8877), ('期待人工智能热潮下中国经济增长和就业的演化趋势', 0.8823), ('讨论现实人工智能技术在美国新闻业的应用', 0.8779), ( '不是人类以人工智能为工具的个性化表达,如果被认定为作品,它会违反传统的版权法理论', 0.8767)]

  keyphrase_ngram_range ... [('在人工智能时代的关键时期,联合国教科文组织于2019年5月在中国北京举办了首届人工智能与教育国际会议', 0.9135), ('人工智能及其影响branch technologies on The Penetration and Influence of American Journalism is Ingerally Intensified 本文探讨人工智能技术在美国新闻业的研发和应用模式', 0.9134), ('它不是人类以人工智能为工具的个性化表达.如果被认定为作品,就违反了传统,但是需要对人工智能的成果提供一定程度的版权法保护,鉴于人工智能成果的保护价值与邻接权制度的价值一致', 0.9052), ('论人工智能热潮对中国经济增长和就业的演化趋势将是预测及对策建议', 0.9013), ('教育过程和因材施教实践带来的深刻变革看*敏*感*词*人工智能人才战略规划' , 0.8988)]论中国人工智能热潮 预测经济增长和就业演变趋势并给出对策建议', 0.9013), ('教育过程带来的深刻变革和按照教学法教学的实践因材施教看*敏*感*词*人工智能人才战略规划', 0.8988)]论中国人工智能热潮 预测经济增长和就业演变趋势并给出对策建议', 0.9013), ('教育过程带来的深刻变革和按照教学法教学的实践因材施教看*敏*感*词*人工智能人才战略规划', 0.8988)]

  highlight ... [('在人工智能时代的关键时期,联合国教科文组织于2019年5月在中国北京举办首届人工智能与教育国际会议', 0.9135), ('人工智能及其分支技术正在美国新闻业的渗透和影响力日益增强 本文探讨人工智能技术在美国新闻业的研发和应用模式', 0.9134), ('它不是人类以人工智能为工具的个性化表达。如果它被认定为作品,会违反传统,但需要对人工智能成果提供一定程度的版权法保护,鉴于人工智能成果的保护价值与邻接权制度的价值一致', 0.9052), ('论人工智能热潮对中国经济增长和就业的演化趋势并给予想法与建议', 0.9012), ('教育过程带来的深刻变革与因材施教实践看*敏*感*词*人工智能人才战略规划', 0.8988)]教育过程和因材施教实践带来的深刻变革看*敏*感*词*人工智能人才战略规划', 0.8988)]教育过程和因材施教实践带来的深刻变革看*敏*感*词*人工智能人才战略规划', 0.8988)]

  不是人类以人工智能为工具的个性化表达。如果确定是违反著作权法传统理论的作品。但是,有必要对人工智能产生的结果提供一定程度的版权法保护。鉴于人工智能生成的结果的保护价值与邻接权制度的价值一致,人工智能生成的结果可视为广义邻接权的客体', 0.9119) , ('近年来,许多国家已将发展人工智能技术列为国家战略规划,人工智能技术的快速发展将对图书馆产生巨大影响', 0.9119),

  high diversity ... [('最后对人工智能在电力系统和综合能源系统中的应用所面临的挑战进行了分析和预测。2016年10月,美国国家科学技术委员会先后发布了两份关于人工智能应用的报告美国国家战略报告', 0.9437), ('教育人工智能', 0.0517), ('发展战略计划', 0.1816), ('数字计算机', 0.3279), ('准备' , 0.1783)]

  这将违反传统的版权法理论。但是,有必要对人工智能的成果提供一定程度的版权法保护。鉴于人工智能生成成果的保护价值与邻接权制度的价值一致,人工智能生成成果可视为广义邻接权的客体', 0.9119), ('对中国的现代化建设具有重大的现实意义和深远的战略意义意义人工智能的成果是人工智能程序在极低人类参与的情况下,通过自主学习和建模,根据数据和算法自动生成的内容, 这不是人类以人工智能为工具的个性化表达。作品将违反著作权法的传统理论,然而', 0.9035), ('从为数不多的公开报道的人工智能专利诉讼*敏*感*词*中,我们已经感受到了2017年人工智能领域知识产权大战的硝烟' , 0.9143)]

  from keybert import KeyBERT

model = KeyBERT('bert-base-chinese')

doc = " ".join(jieba.cut(text))

keywords = model.extract_keywords(doc, keyphrase_ngram_range=(1,1), top_n=20)

  [('联合国教科文组织', 0.7681), ('国家科委', 0.7416), ('北大法学院', 0.7122), ('中南财经政法大学', 0.6801), ('人工智能' , 0.6776), ('计算机科学', 0.6726), ('华东师范大学', 0.668), ('就业机会', 0.6372), ('信息技术', 0.6331), ('课程体系', 0.6325) , ('计算机辅助', 0.63), ('版权法', 0.6291), ('保障机制', 0.6259), ('深度开发', 0.6253), ('机器人', 0.6216), ('医务人员', 0.6204), ('个人信息', 0.6202), ('信息科学', 0.6162), ('各行各业', 0.616), ('基因工程', 0.611)]

  from keybert import KeyBERT

model = KeyBERT('bert-base-chinese')

# doc = " ".join(jieba.cut(text))

keywords = model.extract_keywords(text, keyphrase_ngram_range=(1,1), top_n=20)

  [('推进智慧教育实施的措施不能仅仅从高校人才培养的必要性和人工智能发展的角度来考虑', 0.9416), ('有必要提供一定的著作权法对人工智能成果的保护程度鉴于人工智能成果的保护价值与邻接权制度的价值一致', 0.9397), ('探讨影响应用的关键问题现阶段基于人工智能的数据分析技术在状态检修领域的应用效果', 0. 9368), ('中国'我国现行*敏*感*词*制度在追究人工智能时代相关主体刑事责任方面存在一定的局限性和滞后性', 0. 9353), ('对这些深层次问题的思考和回答将是决定人工智能时代作用的关键人工智能 in The key to how far we can go in education and even in the future society', 0.9346), ('从教育的本质特征和人工智能研究领域的角度分析人工智能与教育的关系', 0.9322), ('智能作品的人工版权归属与人工智能背景下的垄断和不正当竞争', 0.9303), ('人工智能技术的快速发展将对国际关系领域产生深远影响', 0.9282), ( '人工智能和信息推荐是近年来信息科学领域最受关注的两个前沿课题' , 0.

  9261), ('人工智能创作应视为人类利用人工智能创作的作品,其原创性应根据现行著作权法中的作品构成要件进行判断', 0.9258), ('另一方面, 知识产权保护是构建创新大国面临的最重要问题之一', 0. 9254), ('2016年alphago的异军突起引起全社会对人工智能的广泛关注' , 0. 9251), ('这必然导致激励人类以知识创新为核心的版权制度在理论上难以自洽', 0.9246), ('理论界和实务界应该更加关注人工智能的后续发展', 0.9236), ('人工智能的成果是人工智能程序根据数据和算法,通过自主学习和建模,自动生成的内容人类参与度极低的案例', 0.9233), ('人工智能教育应用现状及发展趋势研究有助于推动科技与教育深度融合发展', 0.9229), ('与新交叉- 人工智能形成的技术和各种从市场竞争的角度来看,分析是否给予人工智能创作版权保护的不同政策选择的利弊', 0.9226), ('深度学习算法的突破使人工智能技术进入新一轮快速发展周期', 0.9219), ( '人工智能的发展让文艺作品的创作不再被人类垄断', 0.9212)]4.2 优点和缺点

  Keybert基于关键词在语义表示方面与文档一致的假设,利用bert的编码能力可以获得更好的结果。

  但是缺点也很明显:

  首先,不同的语义编码模型会产生不同的结果,这一点比较重要。

  另外,由于bert只能接受有限长度的文本,比如512个字符,这使得我们在处理长文本时需要进一步加入摘要提取等预处理措施,这无疑会带来精度的损失。

  5. Yake5.1算法思路

  它是一种轻量级、无监督的自动 关键词 提取方法,它依赖于从单个文档中提取的统计文本特征来识别文本中最相关的 关键词。该方法不需要针对一组特定的文档进行训练,也不依赖于词典、文本大小、域或语言。Yake 定义了一组五个特征来捕获 关键词 特征,这些特征通过启发式组合为每个 关键词 分配一个分数。分数越低,关键字越重要。你可以阅读原创

论文 [2],以及关于它的 yake 的 Python 包 [3]。

  特征提取主要考虑五个因素(去除停用词后)

  大写术语

  (套管)

  大写的术语(每个句子的开头单词除外)比小写的更重要。

  Tase=\frac{max(TF_u,TF_a)}{TF}

  在,

  表示单词大写的次数,

  表示单词被缩写的次数。

  字位

  (字位置)

  文本开头的句子的重要性大于后面的句子。

  T_{position}=log_2(log_2(2+中位数(Sen_t)))

  在

  指示收录

该词的所有句子在文档中的中间位置。

  词频

  (词频)

  一个词在文中出现的次数越多,相对来说就越重要。同时,为了避免长文本词出现频率较高的问题,会进行归一化操作。

  TF_{norm}=\frac{TF_{(t)}}{MeanTF+1\ast \sigma }

  其中,MeanTF是整个词的平均词频,

  是标准偏差。

  

" />

  语境

  (与上下文相关的术语)

  一个词同时出现的不同词越多,这个词就越不重要。

  DL|DR|=\fracA{t,w|}{\sum _{k\in A_{t,w}}{CoOccur} , , {t,k}}

  其中,表示窗口大小是从左边滑动,DR表示从右边滑动。

  表示在固定窗口大小 w 下出现的不同单词的数量。

  表示所有词频的最大值。

  “这个词在句子中出现的频率”

  (Term Different Sentence):一个词在一个句子中出现的次数越多,它就越重要

  T_{Sentence}=\frac{SF(t)}{Sentence_{all}}

  其中SF(t)是收录

单词t tt的句子的频率,代表所有句子的个数。

  最后,每项的得分计算公式如下:

  S(t)=\frac{T_{Rel}\ast T_{Position}}{T_{case}+\frac{TF_{norm}}{T_{Rel}}+\frac{T_{Sentence}}{T_ {相对}}}

  S(t)表示词t的得分,s(t)的得分越小,表示词t越重要。

  5.2 代码实现

  pip install git+https://github.com/LIAAD/yake

  首先从Yake实例中调用KeywordExtractor构造函数,它接受多个参数,其中最重要的是:要检索的词数top,这里设置为10。参数lan:这里使用默认值en。可以将停用词列表传递给参数停用词。然后将文本传递给“extract_keywords”函数,该函数返回一个元组列表(关键字:分数)。关键字的长度范围为 1 到 3。

  full_text = title +", "+ text

full_text = " ".join(jieba.cut(full_text))

kw_extractor = yake.KeywordExtractor(top=10, n=1,stopwords=None)

keywords = kw_extractor.extract_keywords(full_text)

print("Keyphrase: ",kw, ": score", v)

  Keyphrase: 人工智能: score 1.2726925778426499e-05 Keyphrase: 机器人: score 0.06800356 Keyphrase: 图书馆: score 0.19233243 Keyphrase: STEM : score 0.67754825 Keyphrase: 刑事责任: score 0.5053515 Keyphrase: 个性化: score 0.9070339 Keyphrase: 智能化: score 0.88738313 Keyphrase: 人才培养: score 0.2169166 Keyphrase: 资源管理: score 0.4530873 Keyphrase: 著作权法: score 0.9892105 Keyphrase: 生成物: score 0.1570213 Keyphrase: 使用者: score 0.4886875 Keyphrase: 互联网: score 0.7848213 Keyphrase: 知识产权: score 0.628331 Keyphrase:职业培训:得分0.2913609 关键词:进一步:得分0.73781935 关键词:程序设计:得分0.2653846 关键词:自然人:得分0.1383966 关键词:控制能力:得分0.5899035 关键词:信息技术,算法Rake 6.92

  Rake 是 Rapid Automatic Keyword Extraction 的缩写,是一种从单个文档中提取关键字的方法。事实上,关键短语是提取出来的,而且往往是更长的短语。在英语中,关键词通常收录

多个词,但很少收录

标点符号和停用词,如and、the、of等,以及其他不收录

语义信息的词。

  Rake算法首先使用标点符号(如半角句号、问号、感叹号、逗号等)将文档分成若干个子句,然后对于每个子句,使用停用词作为分隔符将子句分为几个短语,这些短语作为最终提取的候选关键词。

  每个词组可以用空格分成若干个词,每个词可以分配一个分数,每个词组的分数通过累加得到。Rake 通过分析词的出现及其与文本中其他词的兼容性(共现)来识别文本中的关键短语。最终定义的公式为:

  wordScore = wordDegree(w)/wordFrequency(w)

  即一个词的得分是该词的度数(是网络中的一个概念,在一个词组中每与一个词共现,度数增加1,考虑到该词本身)除以词的词频(该词在文档中出现的总次数)。

  然后对每个候选关键词,累加每个词的得分并排序。RAKE 将候选短语总数的前三分之一视为提取的关键词。

  6.2 代码实现

  不调用包

<p>import jieba.posseg as pseg

from collections import Counter

# Data structure for holding data

def __init__(self, char, freq = 0, deg = 0):

def returnScore(self):

return self.deg/self.freq

def updateOccur(self, phraseLength):

self.deg += phraseLength

def updateFreq(self):

if &#39;\u0041&#39; 5:

phraseString = &#39;&#39;

for everyWord in everyPhrase:

score += listofSingleWord[everyWord].returnScore()

phraseString += everyWord + &#39;|&#39;

outStr += everyWord

phraseKey = phraseString[:-1]

freq = listofSingleWord[phraseKey].getFreq()

if freq / meaningfulCount

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线