网站内容采集器教程-关键词词频统计的分析方法

优采云发布时间: 2021-04-27 19:04

　　网站内容采集器教程我们先通过谷歌爬虫分析一下百度前两页的标题和正文。标题和正文的重复度较高，所以可以很快的抓取到这些标题和正文，以此来分析关键词词频。最后进行词频统计。获取词频数据。首先，打开百度,输入关键词进行匹配查询查询。查询结果分为正则表达式和正则匹配两种，如果只需要正则匹配可以将匹配字符转换成正则表达式进行查询。

　　正则匹配，例如下图：正则匹配查询结果一共有63867条，其中正则表达式只查询了1300条数据，正常情况是63867条，当需要分析词频时会减少到11837条，如下图：正则匹配查询结果接下来查看词频分布如下：词频分布查询结果出现了一个普遍现象，百度文库查询分词匹配词数较少，不像正则匹配查询内容较多，这是因为他们没有设置分词引擎来完成查询的过程。

　　再点击左侧的分词引擎链接可以查看词频前10大词汇。分词引擎查询结果百度文库匹配词语对应的图片如下：词语图词频查询截图好了，关于百度文库词频的分析就到这里了，本文重点介绍关键词词频统计的方法。

　　word2vec是一种文本自然语言处理方法，在这里分享一篇我读完这篇文章之后做出的hinge-lstm结构的代码。因为它基于一个词袋模型。文本的信息本质就是向量。因此首先肯定要建立向量的数据库。因此词典的数据，词性的数据也必不可少。词库也就是词语的词典，每个词语最基本的形状是一个向量。文本处理，词典对应的矩阵是这样的：/***获取包含文本的词语矩阵*/defgetwordwords(text):"""获取文本词语矩阵**"""center=[]#置1则以每个词元素的1作为词语矩阵的行数，置0则以每个词元素的0作为词语矩阵的列数。

　　bow=nn.bayes(nn.concatenate([text,center],bow=bow))#置0则将以每个词元素的1作为词语矩阵的行数，置0则将以每个词元素的0作为词语矩阵的列数。init=set()#开始循环，直到找到词典没有的单词或词语。通过bow得到下一步需要的向量list:data_array=[]forwordintext:data_array.append(word)#获取每个单词对应的行向量列向量user=nn.uniform([text],1)returnuser#词典的数据存在全局词典里面，而列向量可以在series里面得到：defsetwordwords(text):"""获取整个词典**"""forwordintext:ifdata_array[word]=='':#词语总共有多少个单词data_array[word]=nn.reshape(data_array[word],num_of_centers=1)else:#换单词可以。

0

2021-04-27

网站内容采集器

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网站内容采集器教程-关键词词频统计的分析方法

0 个评论

发起人

AI时代内容工厂

网站内容采集器教程-关键词词频统计的分析方法

0 个评论

发起人

相关问题