PHP理论教程: 如何自动获取关键字

优采云 发布时间: 2020-08-06 19:10

  当前CMS具有自己的采集功能. 内容和标题相对容易处理,但是在大多数情况下,关键字很难提取. 因此,关键字的自动获取已成为当前PHP CMS的“传统问题”. 我们如何自动获取关键字?主要步骤可以分为以下三个步骤:

  1. 通过分词算法将标题和内容分开,以提取关键词和频率. 在内容的分词阶段,当前的两个主要算法是ICTCLAS和中国科学院的隐马尔可夫模型. 但是这两个都太高端了,有一定的门槛,而且都只支持C ++ / JAVA. 当前有两个值得推荐的基于PHP的PSCWS和HTTPCWS. SCWS于2008-03-08发布了正式版本1.0.0,而最新版本已达到1.0.4. PSCWS是其PHP版本. HTTPCWS由Zhang Yan开发,以前称为PHPCWS. PHPCWS首先使用“ ICTCLAS 3.0共享中文分词算法” API进行初始分词,然后使用自写的“反向最大匹配算法”对词进行分词和合并,并添加标点过滤功能以获得分词结果. 当前仅支持Linux / Unix系统.

  2. 将提取结果与现有词库进行比较,以最符合关键字的规则. 这里的主要内容是查看同义词库. 我们可以自己定义同义词库,也可以使用现有的成熟词库.

  3,然后比较两组关键字,并获得最符合当前内容的关键字. 在此阶段,将分析具体情况. 当前的PHP CMS都有自己的关键字提取系统. 其中,在Internet上最广泛使用的DEDECMS源代码是DEDECMS的分词源代码. 我也在POPCMS上进行了测试. 效果很好. 但是,提取无意义的单词(如“我们”)并将其列为关键字的频率太高了. ,有时甚至将空格的HTML用作关键字,这有待改进. 但是作为辅助功能,它已经很好. 此外,PHPCMS和DISCUZ的自动关键字提取功能也非常强大.

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线