淘宝搜索引擎优化ppt(搜索引擎制定信息反馈给用户的一门检索技术,运用特定策略)

优采云 发布时间: 2022-01-25 05:04

  淘宝搜索引擎优化ppt(搜索引擎制定信息反馈给用户的一门检索技术,运用特定策略)

  搜索引擎是一种检索技术,它采用特定的策略从互联网上检索和制定信息,并根据用户需求和一定的算法将其反馈给用户。搜索引擎依靠多种技术,如网络爬虫技术、检索排序技术、网页处理技术、大数据处理技术、自然语言处理技术等,为信息检索用户提供快速、高度相关的信息服务。搜索引擎技术的核心模块一般包括爬虫、索引、检索和排序等,同时可以添加一系列其他辅助模块,为用户创造更好的网络使用环境。功能:(1)爬虫:从互联网上抓取原创网页数据,存储在文档知识库服务器中。(2)文档知识库服务器:存储原创网页数据,通常是分布式Key-Value数据库,可以根据URL/UID快速获取网页内容。(3)索引:阅读原文网页数据,解析网页,提取有效字段,生成索引数据。索引数据的生成方式通常是增量的,分为块/点生成的索引数据通常包括:字典数据、倒排表、正表、文档属性等。生成的索引存储在索引服务器中。(4)索引服务器:存储索引数据,主要是倒排列表,通常以块和分片的形式,支持增量更新和删除。当数据量为很大,数据分区和分布,以更好地服务于在线查询。(5)Retrieval:读取倒排列表索引,响应前端查询请求,返回相关文档列表数据。(6)Sort:对检索器返回的文档列表进行排序排序是基于文档和查询的相关性,文档的链接权重等属性。(7)链接分析:采集每个网页的链接数据和锚文本,计算每个网页的链接分数,最后会用到作为网页属性参与返回结果的排序。(8)网页去重:提取每个网页的相关特征属性,计算相似网页组,提供离线索引和在线查询去重服务。(9)网页反垃圾邮件:采集每个网页的历史信息和网站,提取垃圾网页的特征,从而判断在线索引中的网页,去除垃圾网页。(10)查询分析:分析用户查询,生成结构化查询请求,分配给相应的类别和主题数据服务器进行查询。(11)页面描述/摘要:提供相应的描述和摘要)检索并排序的网页列表。(12)前端:接受用户请求,分发到相应的服务器,并返回查询结果。生成结构化的查询请求,并分配给相应的类别和主题数据服务器进行查询。(11)页面描述/摘要:为检索到的网页列表提供相应的描述和摘要。(12)前端:接受用户请求,分发到相应的服务器,并返回查询结果. 生成结构化的查询请求,并分配给相应的类别和主题数据服务器进行查询。(11)页面描述/摘要:为检索到的网页列表提供相应的描述和摘要。(12)前端:接受用户请求,分发到相应的服务器,并返回查询结果.

  如何使用搜索引擎

  要想用好搜索引擎,至少要了解搜索引擎内部的一般原理;只谈搜索引擎的使用往往很死板,没有后续建设性。最后你只是背诵一堆规则。为你推荐一门课程:武汉大学《信息检索》

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线