SEO优化：搜索引擎如何发现和接收信息，如何工作

优采云发布时间: 2021-07-30 03:28

　　很多人都听说过 SEO 中的“可抓取性”一词。了解抓取工具如何查找和接收信息以帮助改进您的网站。

　　搜索引擎的工作原理

　　搜索引擎大致分为三个部分：抓取、索引和排名。搜索引擎在链接后首先使用一种叫做“爬虫”的软件遍历万亿个网页，同时获取每个网页的信息，并将信息索引到服务器。

　　索引信息由搜索引擎自己的算法进行排名，排名反映在搜索结果中。

　　这次的主题是“可抓取性”，但提高可抓取性直接关系到搜索引擎正确找到所需内容的能力。您不必担心网站会遇到多达几十个页面，但设计一个可抓取的网站对于内容相对较大的网站来说极为重要。

　　将特定页面作为示例进行比较

　　我们经常听说搜索引擎已经发展到能够从与用户相同的角度对内容进行评级。当然，搜索引擎已经做了一些改进，以便可以评估人类认为什么是好的，但现实中仍然存在差距。

　　那么让我们以文章的例子来说明我们正在运行的应用程序，比较人类查看和搜索引擎查看的情况。

　　当人类看到它

　　人们看到的时候，我想每个人都有自己的看法，但我认为他们看标题和文字的内容时会看新的文章和每月PV排名。

　　当搜索引擎看到它

　　这里以谷歌搜索引擎为例，让我们看看谷歌机器人是如何使用一个叫做搜索引擎蜘蛛模拟器的工具来理解这个网站的。

　　可能难以理解，但请注意搜索引擎只获取页面中的文本信息，如图片。严格来说，获取整个 HTML 并从 HTML 标签中解析读取的文本信息可能更正确。

　　* Google 搜索者实际从服务器收到的信息是其他信息，例如状态代码和元信息，以及 HTML 文件本身。关于此问题的机制请参考下方文章。

　　另外，搜索引擎除了抓取文本外，还会抓取片段中可能用到的链接、关键词、描述等相关信息，并将信息索引到服务器，如下图所示。你呢？这里找到并获取到的链接网址会被注册到爬虫的巡视列表中，成为要爬取的网址。

　　比如它通常收录alt属性，也就是图片的替代文本信息，但是这样，当你把内容当成文本信息时，替代文本作为上下文才有意义。我认为收录它是可以的了解

　　比如对于无意义的图片信息，alt属性必须描述为alt=""（空=无语义信息）；相反，如果图像具有丰富的语义信息，则必须描述语义信息。如果它没有按原样添加到 alt 属性，则它作为上下文没有意义。我认为最好记住这一点，而不仅仅是收录关键字。

　　搜索引擎性能和抓取能力

　　虽然搜索引擎Googlebot来找我们，但我们讨论了如何理解网站，比谷歌雅虎等搜索引擎更好！虽然有些搜索引擎在特定领域有优势，比如搜索用户体验或关注搜索词的相关性，但目前谷歌仍然拥有最多的信息，感觉就像一个搜索引擎向我展示。

　　当然，搜索引擎有各种能力，更不用说谷歌了，但任何搜索引擎要想正确理解网站信息，都必须考虑“可抓取性”。

　　换句话说，一个术语描述了爬虫通过网站爬行的难易程度。具有强大爬虫能力的网站对搜索引擎总是友好的，因为它们保留了搜索引擎发现的重要内容。

　　如果发现链接的网址没有在巡查列表中注册，则搜索结果中不会显示该内容，如果爬虫可以读取的文本信息不足或不合适，则不会显示正确的内容可能反映在搜索结果中

　　特别是在内容很多的网站上，或者网站带有动态吐出内容的机制，如果爬虫不假设可以正确找到和理解信息，内容可能无法反映在搜索结果。

　　总结

　　以后为了给更多人提供看到内容的机会，不要过分相信搜索引擎的性能是安全的，但搜索引擎的性能当然不会因为它而提升不断增加，所以不需要进行不必要的优化。

　　但是，如果抓取能力较弱，部分搜索引擎将无法正确理解网站上的信息，从而对评价产生不利影响，并可能导致负面结果，例如无法抓取信息放在首位，因此，爬虫工具的性能较低。但是，通过基于信息可理解的思想进行优化，可以说是可以实现更强的爬虫能力。

　　确保重要内容的可抓取性是搜索引擎优化的基本措施。但是，忽略这一点很可能会在某些地点造成很大的机械损失。是吗？

　　我们的目标是打造不仅对用户友好而且对搜索引擎友好的网站。

0 个评论

要回复文章请先登录或注册