seo搜索引擎优化期末考试(搜索引擎架构技术大框架方面来学习,搜索引擎工作原理。)
优采云 发布时间: 2021-10-27 21:06seo搜索引擎优化期末考试(搜索引擎架构技术大框架方面来学习,搜索引擎工作原理。)
本文文章学习了整个搜索引擎架构的技术框架以及搜索引擎是如何工作的。
1 基本搜索引擎模块
搜索引擎的简单结构
搜索引擎的主要模块
2 爬行动物
网络爬虫是根据一定的规则自动抓取万维网信息的程序或脚本。它们广泛用于互联网搜索引擎或其他类似的网站,可以自动将采集它所能访问的页面的所有内容获取或更新这些网站@的内容和检索方法>. 从功能上来说,爬虫一般分为三部分:数据采集、处理、存储。传统爬虫从一个或多个初始网页的网址开始,获取初始网页上的网址,在网页抓取过程中不断从当前页面中提取新的网址放入队列中,直到某个停止条件系统的满足。聚焦爬虫的工作流程比较复杂。需要按照一定的网页分析算法过滤与主题无关的链接,保留有用的链接,放入URL队列等待被抓取。然后,它会根据一定的搜索策略从队列中选择下一个要抓取的网页的网址,重复上述过程,直到达到系统的某个条件时停止。另外,爬虫爬过的所有网页都会被系统存储起来,进行一定的分析、过滤、索引,以备以后查询检索;对于专注的爬虫,这个过程中得到的分析结果还是可以对后续的爬虫过程给出反馈和指导的。它会根据一定的搜索策略从队列中选择下一个要抓取的网页的网址,重复上述过程,直到达到系统的某个条件时停止。另外,爬虫爬过的所有网页都会被系统存储起来,进行一定的分析、过滤、索引,以备以后查询检索;对于专注的爬虫,这个过程中得到的分析结果还是可以对后续的爬虫过程给出反馈和指导的。它会根据一定的搜索策略从队列中选择下一个要抓取的网页的网址,重复上述过程,直到达到系统的某个条件时停止。另外,爬虫爬过的所有网页都会被系统存储起来,进行一定的分析、过滤、索引,以备以后查询检索;对于专注的爬虫,这个过程中得到的分析结果还是可以对后续的爬虫过程给出反馈和指导的。并为以后的查询和检索建立索引;对于专注的爬虫,这个过程中得到的分析结果还是可以对后续的爬虫过程给出反馈和指导的。并为以后的查询和检索建立索引;对于专注的爬虫,这个过程中得到的分析结果还是可以对后续的爬虫过程给出反馈和指导的。
与一般网络爬虫相比,聚焦爬虫需要解决三个主要问题:
(1) 爬取目标的描述或定义;
(2) 对网页或数据的分析和过滤;
(3) URL 搜索策略。
3 琉森
Lucene 是一个高性能、可扩展的信息检索 (IR) 工具库。信息检索是指文档搜索、文档内信息搜索或与文档相关的元数据搜索等操作。
Lucene结构
4 搜索用户界面
随着搜索技术的逐渐成熟,搜索界面也有了相对固定的格局。除了基本的搜索,我们可能都会涉及到以下几个方面。
搜索界面的改进都是以用户体验为导向,具体需要根据应用场景进行优化。
5 计算框架 MapReduce
首先,让我们重新审视一下 hadoop 的四个主要组件:
HDFS:分布式存储系统
MapReduce:分布式计算系统
YARN:hadoop 的资源调度系统
Common:以上三个组件的底层支持组件,主要提供基础工具包和RPC框架等。
Mapreduce是分布式计算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架
Mapreduce 的核心功能是将用户编写的业务逻辑代码和自己的默认组件集成为一个完整的分布式计算程序,并发运行在一个hadoop集群上
让我们从一个统计文本字数的结构来理解MapReduce
这些数据经过以下几个阶段
输入拆分:
MapReduce 作业的输入分为固定大小的块,称为输入拆分。输入拆分是单个地图消耗的输入块。
映射-映射
这是 map-reduce 程序执行的第一阶段。此阶段中的每个分段数据都传递给映射函数以生成输出值。在我们的例子中,映射阶段的任务是计算输入切分中出现的每个单词的数量(关于输入切分的更详细信息在下面给出)并以某种形式编译一个列表
洗牌重排
这个阶段消耗映射阶段的输出。它的任务是合并映射阶段输出的相关记录。在我们的示例中,相同的单词及其各自的出现频率。
减少
在这个阶段,总结了重排阶段的输出值。这个阶段组合来自重排阶段的值并返回一个输出值。简而言之,在这个阶段聚合了完整的数据集。
在我们的例子中,这个阶段聚合了来自重排阶段的值,并计算每个单词出现次数的总和。
6 文本挖掘
常用的文本挖掘方法包括:全文搜索、中文分词、句法分析、文本分类、文本聚类、关键词抽取、文本摘要、信息抽取、智能问答等。
文本挖掘架构