搜索引擎优化创始人(谷歌搜索引擎的基本结构只包含Google提供的搜索技术)

优采云发布时间: 2022-02-09 03:24

　　“谷歌搜索”和“雅虎搜索”是日本的主要搜索引擎。虽然您可能认识很多人，但两个搜索引擎都使用 Google 提供的搜索技术。根据每家公司处理的业务和政策，搜索排名略有不同，但在这里我想看看谷歌搜索引擎的机制。

　　搜索引擎的基本结构

　　一个搜索引擎只收录三个程序，“爬虫”、“索引器”和“搜索器”。

　　追踪

　　我们抓取互联网上的网页并采集信息（抓取）。

　　指数

　　分析爬虫采集的信息，将其转换为可以按需即时检索的数据格式，并将其存储（索引）到数据库中。

　　搜索

　　根据用户的搜索关键词，从索引器存储在数据库中的信息中提取相关信息，并根据相关度和重要性确定排名，然后作为搜索结果传输。

　　当搜索正在进行时，操作是制作与搜索关键字相关的信息列表。“查询执行” 用于排名的网页在列表中，其机制和行为称为“搜索算法”。

　　搜索引擎信息采集“爬行”

　　爬虫采集数据，包括互联网上的网页。Crawler 是一个围绕 Internet 运行的程序。我们称它为“爬行者”爬行者

　　在网站内移动以采集信息。未爬取的信息首先不能成为搜索的主题，因此在网站上调用爬虫是搜索引擎指标的起点。

　　爬虫读取页面信息的方式与人们浏览网站的方式相同，然后通过链接移动到站点的另一个页面。除了构成网页的 HTML 文件中的链接外，PDF 和 Word 等文件中的链接，以及 JavaScript 生成的链接也需要巡查。

　　使用 Fetch as Google 请求抓取工具

　　“Fetch for Google”是 Google 提供的 Google Search Console 工具提供的功能之一。通过使用此功能，您可以请求抓取，而无需等待抓取自然而然。Search Console 帮助：将 Fetch 用作 Google 的网站

　　搜索引擎信息存储“索引”

　　索引器对爬虫采集的信息进行组织和分析，将其转换为可以按需即时检索的数据格式，并将其存储在数据库中。我们称之为“索引”。

　　与人类不同，索引器无法直观地理解内容。例如，如果将其视为标题，则即使知道在页面开头显眼地写的字母很大，它也不会传递给索引器。因此，我们使用下面显示的 HTML 标记来表明这是一个标题。

　　示例）此博客的标题

　　对业务和 IT 有用的信息

　　HTML 源代码

　　除了标题之外，您还将了解带有各种 HTML 标记的网页的句子结构和内容，例如标题、图像等。如果索引器能够准确地理解页面的内容，那么页面信息就会以正确的理解来存储，从而创造一个用户可以轻松地将信息与搜索用户进行匹配的环境。

　　搜索引擎排名“搜索算法”

　　搜索结果的排名由Search Algorithm确定，但未公布Search Algorithm，也未公开排名确定机制。

　　然而，谷歌告诉以下关于搜索引擎应该如何。

　　谷歌联合创始人拉里佩奇说：“完美的搜索引擎是能够准确把握用户想要的内容，并返回与用户需求完全匹配的内容。” 自此声明以来，Google 一直在不断发展......拉里的话的真正含义并没有改变。谷歌：引自公司信息

　　换句话说，搜索引擎是“为用户提供有用信息”的机制。

　　重要的是有意识地只关注搜索引擎，并在不失其本质的情况下提供具有高用户需求的信息。

　　概括

0

2022-02-09

搜索引擎优化创始人

0 个评论

要回复文章请先登录或注册