汇总:网站搜索大优化！

优采云发布时间: 2022-09-24 00:09

　　汇总:网站搜索大优化！

　　使用ES+云开发实用优化网站搜索

　　大家好，我是玉皮。今天，我将进行一场技术战，以提高网站search 的灵活性。

　　ES+云开发搜索优化实践

　　本文大纲：

　　鱼皮 - 网站搜索优化背景

　　我开发的编程导航网站已经上线6个月了，但是自上线以来，网站一直存在一个严重的问题，就是搜索功能不好用。

　　之前为了追求快速上线，搜索功能只是简单的使用数据库模糊查询（含）实现，方便开发，但是这种方式很不灵活。

　　例如，网站上有一个名为“Java Design Patterns”的资源，但是用户搜索“Java Design Patterns”却找不到任何东西。原因是资源名称中收录空格，用户搜索“Java Design Patterns”。关键词输入时没有空格。

　　空格只是一个特例，类似的情况还有很多。比如网站上有一个资源叫做“Java并发编程实践”，但是当用户搜索“Java实践”时，前者收录“Java”和“Java”。 “实战”这两个字，却一无所获。

　　你要知道搜索功能对于一个信息聚合网站来说是非常重要的，它直接影响着用户的体验。如果您在网站上找不到资源，谁会使用它们？

　　所以我也收到了一些朋友的礼貌建议，比如这个秃头汤姆：

　　我之前没有优化搜索，主要是两个原因：穷+怕麻烦。但是随着网站用户的增多，是时候补上这个坑了！

　　技术选择

　　为了提高网站搜索的灵活性，在前端和后端都使用全文搜索技术。

　　前端全文搜索

　　有时，我们要检索的数据是有限的，所有数据都存储在客户端。

　　比如个人博客网站，我们通常将每个文章作为文件存储在某个目录下，而不是后台数据库中。在这种情况下，不需要从服务器上去。如果请求动态数据，可以直接在前端搜索数据。

　　有一些现成的搜索库，比如Lunr.js（GitHub 7k+star），先添加你要检索的内容：

var idx = lunr(function () { this.field('title') this.field('body') // 内容 this.add({ "title": "yupi", "body": "wx搜程序员鱼皮，阅读我的原创文章", "id": "1" }) })

　　然后只需搜索：

idx.search("鱼皮")

　　纯前端全文搜索的优点是不需要后端，简单方便，可以节省服务器压力；无需连接互联网，也没有额外的网络开销，检索速度更快。

　　后端全文搜索

　　与前端不同的是，后端全文搜索是在服务器上做的，从远程数据库中搜索出符合要求的数据，然后直接返回给前端。

　　目前主流的后端全文搜索技术是Elasticsearch，一个分布式的、RESTful风格的搜索和数据分析引擎。

　　它功能强大且灵活，但需要构建、定义数据、管理字典、上传和维护数据等，操作性强，需要一定的技巧。菜鸟大佬设计的ES搜索系统，神奇不一样。

　　所以，对于Elasticsearch不熟悉的同学，可以直接使用现成的全文搜索服务。比如Algolia，直接通过它提供的API上传要检索的数据，然后使用它提供的API进行检索。提供了一定的空闲空间，足够小网站和学习使用。

　　阿尔及利亚搜索服务选择

　　那么我应该为我的编程导航选择哪种实现方式网站？

　　首先，这个网站的资源数量不是固定的，不定期动态更新，所以不适合前端全文搜索。

　　其次，考虑到未来网站的数据量会比较大，可能需要根据用户的搜索动态优化检索系统（比如自定义编程词典），考虑使用 Elasticsearch 技术自己构建搜索引擎，而不是现成的全文搜索服务，让你以后可以按照自己的意愿定制系统。另外，不需要将网站数据发送到其他平台，可以保证数据的安全性。

　　ES 安装

　　决定使用 Elasticsearch 后，首先要设置环境。

　　你可以自己购买服务器，然后按照官方文档一步一步手动安装。对于有一定规模的个人网站，虽然搭建过程不难，但后期维护成本巨大，比如性能分析、监控、告警、安全等，都需要自己配置。尤其是后期网站数据量会比较大，所以需要考虑搭建集群、横向扩展等。

　　因此，我选择直接使用云服务商提供的 Elasticsearch 服务。这里我选择腾讯云，它为你自动搭建现成的ES集群服务，同时提供可视化架构管理、集群监控、日志、高级插件、智能巡检等功能。

　　Cloud ES 集群架构

　　虽然 ES 服务很贵，但节省的时间对我来说是值得的。

　　还有一个非常方便的自定义搜索服务Elastic App Search，有兴趣的可以试试。

　　ES 公共服务

　　我们的目标是优化网站resources的搜索功能，但是接下来要做的不是直接写具体的业务逻辑，而是先开发一个公共的ES服务。

　　其实ES的操作还是比较简单的。可以简单理解为数据库。那么公共ES服务应该有基本的增删改查功能，供其他函数调用。

　　实施

　　由于编程导航后端使用腾讯云开发技术，使用Node.js编写服务，所以使用官方推荐的@elastic/elasticsearch库来操作ES。

　　没用过云开发也没关系，可以先把它理解为后端，欢迎阅读我之前的文章：.

　　代码很简单。首先，与 ES 建立连接。为了保证数据安全，请使用内网地址：

const client = new Client({ // 内网地址 node: 'http://10.0.61.1:9200', // 用户名和密码 auth: { username: esConfig.username, password: esConfig.password, }, });

　　然后写 CRUD。这里是一个抽象的步骤，通过switch等分支语句，根据请求参数来区分操作、要操作的数据等，这样每个操作就不需要单独写成一个接口了。

// 接受请求参数 const { op, index, id, params } = event; // 根据操作执行增删改查 switch (op) { case 'add': return doAdd(index, id, params); case 'delete': return doDelete(index, id); case 'search': return doSearch(index, params); case 'update': return doUpdate(index, id, params); }

　　在云开发中，如果一个函数太久没有被调用，资源就会被释放。下次请求时，会执行冷启动重新创建资源，导致接口返回慢。因此，将多个操作封装到同一个函数中也可以减少冷启动的机会。

　　对代码的具体增删改查不再赘述，阅读ES Node官方文档即可，代码会开源到编程导航仓库()。

　　本地调试

　　编写代码后，可以使用云开发自带的tcb命令行工具在本地执行功能。

　　记得先改ES到公网的连接地址，然后输入一行命令。比如我们要在ES中插入一条数据，传入要执行的函数名，请求参数，代码路径：

tcb fn run --name --params "{\"op\": \"add\"}" --path

　　执行成功后，可以在ES中看到新插入的数据（通过Kibana面板或curl查看）：

　　远程测试

　　在本地测试公共服务代码后，将ES连接地址改为内网IP，然后发布到云端。

　　然后尝试编写另一个函数来访问公共ES服务，例如将资源插入ES并通过callFunction进行请求：

// 添加资源到 ES function addData() { // 请求公共服务 app.callFunction({ name: 'esService', data: { op: 'add', index: 'resource', id, params: data, } }); }

　　但是数据没有插入成功，却返回了接口超时，为什么？

　　内网配置

　　从日志得知ES无法连接。会不会是发布ES公共服务的机器和ES不在同一个内网的原因？

　　所以需要在云开发控制台中更改ES公共服务的私网配置，选择和购买ES时一样的子网即可：

　　配置ES云功能专网

　　修改后再次远程请求ES公共服务，数据插入成功~

　　数据索引

　　开发完ES公共服务后，可以编写具体的业务逻辑。

　　首先，ES中必须建立索引（类似于数据库的表），以约定数据类型、分词等信息，而不是允许任意插入数据。

　　例如，为了更灵活的搜索，资源名称应指定为“文本”类型以启用分词，并指定ik中文分词器：

"name": { "type": "text", "analyzer": "ik_max_word", "search_analyzer": "ik_smart", "fields": { "keyword": { "type": "keyword", "ignore_above": 256 } } }

　　点赞数应设置为“long”类型，只允许数字：

"likeNum": { "type": "long" }

　　最好也给索引分配一个别名，以便以后修改字段时可以重建索引：

"aliases" : { "resource": {} }

　　写好索引的json配置后，通过curl或Kibana调用ES新索引接口即可。

　　数据同步

　　以前，编程导航网站的资源数据都存储在数据库中，用户可以从数据库中查询。但是现在我们想从 ES 中查询，ES 是不够的，我们必须想办法将数据库中的资源数据同步到 ES 中。

　　有几种同步策略。

　　双写

　　过去，用户推荐的资源只会插入到数据库中。双写是指资源插入数据库时，要同时插入到ES中。

　　听起来很简单，但这种方法存在一些问题：

　　之前的代码会改，每个写数据库的地方都要加ES。

　　会出现一边写失败，另一边写成功的情况，导致数据库和ES的数据不一致。

　　有没有对现有代码干扰较少的方法？

　　定时器同步

　　如果对数据的实时性要求不高，可以选择定时同步，定时将数据库中新插入或修改的数据复制到ES。

　　实现方式有很多种，比如使用Logstash数据传输管道，或者自己编写定时任务程序，这样就完全不需要改动现有的代码了。

　　实时同步

　　如果对数据的实时性要求很高，刚插入数据库的数据必须能够立即被搜索到，所以需要实时同步。除了双写，还可以监控数据库的binlog，我们可以感知数据库的任何变化。

　　阿里有一个开源项目叫Canal，可以实时监控MySQL数据库，向下游推送通知。有兴趣的朋友可以看看。

　　运河工程实施

　　由于搜索编程资源对实时性要求不高，所以定时同步即可。

　　云开发默认提供了定时功能，所以我直接写了一个云函数，每1分钟执行一次，每次读取数据库中最近5分钟发生变化的数据，防止最后一次执行失败。另外，必须配置超时时间，防止函数执行时间过长导致执行失败。

　　在云端开发-云端功能控制台可视化配置，需要指定定时任务的crontab表达式：

　　配置云功能计时和超时

　　开启定时同步后，别忘了编写并执行第一个同步函数，将全量历史数据同步到ES。

　　数据检索

　　现在ES上有数据了，只剩下最后一步了，也就是如何搜索数据？

　　首先要学习ES的搜索DSL（语法），包括如何取列、搜索、过滤、分页、排序等。对于新手来说还是有点麻烦，尤其是布尔表达式的组合查询条件，一不小心就会查不到数据。因此，建议您先在 Kibana 提供的调试工具中编写查询语法：

　　Kibana 调试

　　找到期望的数据后，编写后端搜索函数，接受的请求参数要与原接口保持一致，减少改动。

　　查询语法可以根据前端的请求动态拼接，例如按资源名搜索：

// 传了资源名 if (name) { // 拼接查询语句 query.bool.should = [ { match: { name } } ]; }

　　这样就完成了整个网站的搜索优化。

　　让我们再试试效果，现在即使我输入一些带有更多“鱼”的单词，我也能找到它！

　　ES如何实现灵活搜索？欢迎阅读。

　　新的ES搜索接口的发布并不意味着旧的数据库查询接口已经过时，可以同时保留。按名称搜索资源时，使用了新的接口，更加灵活；根据审核状态查找用户发布的资源时，可以使用旧界面从数据库中查找。这样，负载分担，职责分离，对的技术才能做对的事！

　　最新信息:网站内容该怎么去更新，更新多少合适呢？

网站SEO 是否需要每日更新文章？首先，当涉及到搜索引擎对网站的爬取和更新时，搜索引擎在不断读取网站的爬取的同时，也会判断一个网站的更新程度@>。网站如果长期无人维护，那么搜索引擎对你的网站的爬取也会逐渐减少，慢慢的，排名也会慢慢的下降，所以更新一下

0

2022-09-24

搜索引擎优化模式

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

汇总:网站搜索大优化！

0 个评论

发起人