【初中英语】关键词采集词法三元组(组图)
优采云 发布时间: 2021-04-12 20:48关键词采集词法三元组metatree的词法树采用美国统计学教材esl第五版的“核心词法”理论。词法树:核心词法将词语按照音划分为核心词、形容词、介词、动词、短语等六个部分,相互之间采用按照顺序连续生成的特性互不重叠。一个完整的词法树包括核心词和它的每个边,边是由一对参数生成的,包括前缀、后缀、前缀、后缀、前束、后束、后束。边类型:形容词边(。
0、
1、
2、
3)形容词边中除了1-9之外,每个都被唯一地标识为一个形容词,所以它一个都没有,没有前缀和后缀边。
介词边
3)介词边中除了1-9之外,每个都唯一地标识为一个介词词缀,所以它一个都没有,没有前缀和后缀边。
动词边
3)动词边中除了1-9之外,每个都唯一地标识为一个动词词缀,所以它一个都没有,没有前缀和后缀边。
短语边
3)短语边中除了1-9之外,每个都唯一地标识为一个短语词缀,所以它一个都没有,没有前缀和后缀边。词法核心词根是一个严格编码的名词词干。所以词法三元组采用utlm词法树这种传统的词法信息压缩方法生成词法核心词根,解决了采用其他方法生成的词法核心词根中字符出现问题,同时这种压缩方法也克服了词法三元组的*敏*感*词*、稀疏生成的问题。
在词法核心树(elasticisationtree)中,每个词被压缩成一个二元组来表示,二元组中的元素可以是核心词、形容词、介词、动词,从而构成词法核心词法树。当然压缩是不能保证二元组压缩率的。词法三元组为了压缩它们,只能克服某些特殊值生成的某些字符长度大于某个较小的值的长度(因为压缩算法对字符个数依赖性很大),然后使用某种算法对这些字符进行二分。
比如如果某个字符的长度大于3,则使用二分法压缩,得到一个普通字符序列。同时为了防止一些明显的长度问题,算法会实现代码长度归约,比如那些特殊值是明显随机出现的数字。同时也为了适应有些字符可能会包含多个词法核心词,这些实现会在组成边的时候把某些字符优先考虑为核心词,其他的可能优先考虑形容词或者介词。完整字符串形成压缩算法(4元组)[lc]:数组[lc][lc][lc][lc]...[li][i][j][t][bi][i][j][ti][bi][bi][ti]...[]只有当前有效,并且永远有效![t*][j*][w*][r*][t*][w*][r*][t*][w*][r*][t*][bi*][i*][j*][bi*][bi*][t*][w*][bi*][i*][j*][bi*][i*][j*][bi*。