搜索引擎如何抓取网页(项目招商找A5快速获取精准代理名单的地位(图))
优采云 发布时间: 2022-01-28 01:23搜索引擎如何抓取网页(项目招商找A5快速获取精准代理名单的地位(图))
项目投资找A5快速获取精准代理商名单
URL的地位在SEO过程中非常重要,也是SEOer面临的一个基本问题。我们在之前的很多文章中都多次提到过一个点:
SEO流量是从排名较好的页面产生的,而这些页面排名的前提是它们被搜索引擎收录。
我们知道,网络世界越来越大,内容的产生几乎是无穷无尽的。对于资源有限的搜索引擎,他们所能做的就是尽快收录新内容,所以说,网络中新内容的生成>被爬取的内容收录。例如,URL 和搜索引擎之间的关系就像您的地址和快递公司之间的关系。一个准确且易于查找的地址将大大提高快递员的投递效率。
那么搜索引擎在抓取页面时会遇到哪些问题呢?
一:网址重复。
请不要忽视这一点,你要说的可能不是你想的。假设我们有以下两个 URL
两个页面产生的内容是一样的,前者可能是伪静态页面,也可能是真正的静态页面,但似乎前者比后者好。但这种情况并非如此。首页和这两个网址的格式很容易被爬取和收录。我们不经常使用它的原因是什么?这种动态引入的方法是为了避免很多可能的重复内容。. 但是,前一种模式也可能会产生大量的重复内容。例如,搜索引擎可能会错误地认为这个 888 只是一个 SessionID。在无法做出准确判断的情况下,前一种模式的优势并不明显。
有些人可能不明白这段话。首先,URL 和内容必须分开。理解了上面的话,简单说一下搜索引擎对重复内容的判断:搜索引擎本身有一个强大的数据库来存储已经爬取过的内容,判断一个内容是否相似,最好的做法是比较用数据库中已有的内容来爬取的内容,但是通过阅读《google网站质量指南》,我们发现这是一个误区。反过来想,这种在爬取的时候比较内容的技术手段是不太可行的,因为内容太大了。因此,搜索引擎非常重视对抓取到的 URL 的分析。我们需要让搜索引擎认为我们的 URL 对应的内容在站点中没有重复。最好的做法当然是静态 URL,让搜索引擎认为 网站 本身确实有很多不同的内容,这种情况下最好的 URL 应该是:
归根结底是为了保证URL唯一,不与其他一些情况混淆。
二:《无限空间》(Infinite Loop)
现在大部分博客都会有一个日历控件,即无论你点击哪个时间段,都会出现一个页面。由于找不到对应的内容,所以生成的 URL 都是唯一的。这样,就形成了一个无限的空间。的概念,因为时间是无限的,所以生成的页面也是无限的,这对搜索引擎很不友好。
这可以通过使用 nofollw 属性进行有效引导来避免,相关的 文章:
三:层次结构要合乎逻辑。
我们分析以下页面:
1、
2、
3、
如果搜索引擎今天只能抓取其中一个,则从优先级开始。它先爬了第一个,然后又发生了另一个误会。如果我将所有页面都放在根目录下,它将无法正常工作。有等级优先级。如果层次优先级没有区别,搜索引擎会优化比较同目录下的URL,这也是收录会优先爬取网站首页的原因。因此,最好的方法是根据业务逻辑创建子目录。内容和内容之间的联系是什么?使用分层优化的方法来规划URL。
四:重复内容的处理。
上图是我在某知名网购平台搜索笔记本时得出的过滤条件。我们来做一个数据分析。在这个页面中,有 16 个品牌、5 个价格标准、8 个处理器和 8 个屏幕尺寸。,硬盘easy条件为6,内存为6,硬盘为6,显卡条件为6,则生成最多的搜索条件结果为:
16*5*8*8*6*6*6*6=6220800
而且我们看到上图有2471个产品,显然有很多重复的内容。这里给出的例子都不是很大的数据,有的网站可以组合成几亿甚至上百亿的page out。有兴趣的朋友可以看看我之前写的ASP等动态语言网站做站内搜索做SEO要注意的问题。