js 抓取网页内容(js抓取网页内容的一般流程是什么？、谷歌翻译)

优采云发布时间: 2021-11-16 07:01

　　js抓取网页内容的一般流程是：

　　1)去除重复元素，

　　2)寻找匹配范围，比如页面有四个中间类型的单词，

　　3)根据对应词的含义，

　　4)数据抓取到，存储到数据库内。我常用的一些工具有：jieba、wordnet、谷歌翻译。今天主要讲jieba，源码和做个练习。jieba的算法是用unigram和lowercase缩写来表示的。unigram指的是uniquerepresentation，即唯一维度，用来表示一个序列中的uniquerepresentation一共有多少个。

　　然后，定义一个key，要和每个词、单词进行相似度计算，假设有n个词、单词，那么，对应的所有词都要去进行相似度计算，进行并集计算。

　　接下来，将所有词集合成一个向量，用于运算：因为unigram是有向的，这就要对unigram进行缩小，

　　1)!，也就是说，

　　1)!个相似度计算。

　　所以，

　　1)!就像一个维度拉伸公式：其中，f是n*n的向量。

　　举个例子，如果有12个词（每个词都有6个unigram），

　　1)!=12*(3-

　　2)!=16*(2-

　　1)!=220*(3-

　　1)!=15*(1-

　　2)!=13*(2-

　　3)!=13*(1-

　　3)!=3*(2-

　　4)!=4*(1-

　　3)!=1*(2-

　　1)!=1*(3-

　　4)!=1*(1-

　　5)!=1*(2-

　　1)!=1*(1-

　　3)!=1*(1-

　　5)!=1*(1-

　　6)!=1*(1-

　　7)!=1*(1-

　　8)!=1*(1-

　　9)!=1*(1-

　　9)!=1*(1-1

　　0)!=1*(1-1

　　1)!=1*(1-1

　　2)!=1*(1-1

　　3)!=1*(1-1

　　4)!=1*(1-1

　　5)!=1*(1-1

　　6)!=1*(1-1

　　7)!=1*(1-1

　　8)!=1*(1-1

　　9)!=1*(1-2

　　0)!=1*(1-2

　　1)!=1*(1-2

　　2)!=1*(1-2

　　2)!=1*(1-3

　　3)!=1*(1-3

0

2021-11-16

js 抓取网页内容

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

js 抓取网页内容(js抓取网页内容的一般流程是什么？、谷歌翻译)

0 个评论

发起人

AI时代内容工厂

js 抓取网页内容(js抓取网页内容的一般流程是什么？、谷歌翻译)

0 个评论

发起人

相关问题