php 搜索引擎优化(几个PHP开源项目全文全文)
优采云 发布时间: 2021-08-30 15:02php 搜索引擎优化(几个PHP开源项目全文全文)
今天需要为几个网站搭建一个全文搜索引擎。找了几个PHP开源项目,先试用了Sphinx。不幸的是,它是基于数据库的,相当于数据库搜索的扩展。蜘蛛不错,但是中文分词不好。基本上只能依靠空格和符号进行分词。如果要使用luence,只能使用Java和.net,没有PHP版本,只好自己尝试修改Spider的分词。幸运的是,我找到了 SCWS,一个很好的中文分词系统。只需将其功能添加到 Spider 即可。
首先根据安装文档部署Spider和SCWS。这里使用的 SCWS-1.1.6 需要部署 PHP 扩展。注意Linux下修改词库的权限,否则分词会单独删除所有汉字。蜘蛛在这里用的丁廷臣简体中文版的完美汉化版,自带蜘蛛搜索引擎。
两次部署都正确后,修改Spider,在admin文件夹中找到spider文件。首先,在开头添加初始化分词程序的代码。
注意这里使用的gbk。如果您的网页使用utf8编码,则需要更改此以及字典和规则文件的位置。
在index_url函数中,替换原来的英文分词,并在$wordarray = unique_array(explode(" ", $data['content']))之前添加;
删除
和
两句,因为Spider原来的英文分词在这里完全没有必要。在这里你可以自己限制和优化$wordarray。我在这里写的很简单。
修改完成后,爬虫可以正常分词,效果还不错。如果出现乱码,请注意网页或字典的编码是utf8还是gb2312。