php 搜索引擎优化(几个PHP开源项目全文全文)

优采云 发布时间: 2021-08-30 15:02

  php 搜索引擎优化(几个PHP开源项目全文全文)

  今天需要为几个网站搭建一个全文搜索引擎。找了几个PHP开源项目,先试用了Sphinx。不幸的是,它是基于数据库的,相当于数据库搜索的扩展。蜘蛛不错,但是中文分词不好。基本上只能依靠空格和符号进行分词。如果要使用luence,只能使用Java和.net,没有PHP版本,只好自己尝试修改Spider的分词。幸运的是,我找到了 SCWS,一个很好的中文分词系统。只需将其功能添加到 Spider 即可。

  首先根据安装文档部署Spider和SCWS。这里使用的 SCWS-1.1.6 需要部署 PHP 扩展。注意Linux下修改词库的权限,否则分词会单独删除所有汉字。蜘蛛在这里用的丁廷臣简体中文版的完美汉化版,自带蜘蛛搜索引擎。

  两次部署都正确后,修改Spider,在admin文件夹中找到spider文件。首先,在开头添加初始化分词程序的代码。

  注意这里使用的gbk。如果您的网页使用utf8编码,则需要更改此以及字典和规则文件的位置。

  在index_url函数中,替换原来的英文分词,并在$wordarray = unique_array(explode(" ", $data['content']))之前添加;

  删除

  和

  两句,因为Spider原来的英文分词在这里完全没有必要。在这里你可以自己限制和优化$wordarray。我在这里写的很简单。

  修改完成后,爬虫可以正常分词,效果还不错。如果出现乱码,请注意网页或字典的编码是utf8还是gb2312。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线