网页抓取qq(本文会教你如何解决以下这三个问题(图)!)

优采云 发布时间: 2021-10-17 09:13

  网页抓取qq(本文会教你如何解决以下这三个问题(图)!)

  本文将教你如何解决以下三个问题:

  1.你的整个网站没有被索引;

  2.有些页面被索引,而其他页面没有;

  3. 新发布的页面不会立即编入索引。

  但首先,我们必须先了解索引的含义。

  什么是抓取和索引?

  Google 通过抓取发现新页面,然后将这些页面添加到索引中。他们使用名为 Googlebot 的网络爬虫来执行此操作。

  使困惑?让我们解释一些术语:

  爬行:跟踪网页上的超链接以发现新内容的过程。

  索引:Google 已将网页“编入索引”意味着 Google 抓取工具(“Googlebot”)访问了该网页,分析了其内容和含义,并将其存储在 Google 索引中。索引的网页可以显示在 Google 搜索结果中(前提是它们遵循 Google 的 网站网站管理员指南)。尽管大多数网页在被抓取后都会编入索引,但 Google 也可能会在不访问网页内容的情况下将网页编入索引(例如,如果该网页被 robots.txt 指令阻止)。

  网络爬虫:执行爬行的程序。

  Googlebot:谷歌的网络爬虫(谷歌蜘蛛)。

  当您在 Google 上搜索内容时,您实际上是在要求 Google 返回其索引中的所有相关页面。由于通常有数千个网页符合要求,因此 Google 的排名算法会尝试对这些网页进行排名,以便您首先看到最佳和最相关的结果。

  我想在这里提出的一个重要观点是索引和排名是两件不同的事情。

  索引是为了参与,排名是为了获胜。

  不参加就不可能赢。

  如何检查您的页面是否已编入索引

  输入谷歌,然后搜索站点如下:您的网址

  

  此处的数字显示了索引页的大致数量。

  如果你想检查一个特定的页面是否被索引,你也可以做同样的站点:详细网址

  如果没有结果,则表示该页面未编入索引。

  如果您是 Google Search Console 的用户,只需查看覆盖率报告即可找到准确的索引数据。您只需要输入:

  Google Search Console> 索引> 覆盖范围

  

  您可以使用 Google Search Console 检查特定页面是否已编入索引。您只需要将页面 URL 放入 URL 检测工具中即可。

  

  如何让 Google 将您的网页编入索引

  您的 网站 或页面未被 Google 编入索引?试试这些:

  转到 Google Search Console。

  进入网址检测工具。

  将要编入索引的 URL 粘贴到搜索框中。

  等待 Google 检测到 URL。

  单击“请求索引”按钮。

  当您发布新帖子或页面时,最好这样做。您实际上是在告诉 Google,您已向 网站 添加了一些新内容,他们应该检查一下。

  但是,请求索引不太可能解决旧页面的索引问题。如果是这种情况,请按照下面的清单来诊断和解决问题。

  去除Robots.txt中的爬行障碍去除不必要的noindex标签在网站地图中收录需要索引的页面去除不必要的规范标签检查页面是否为岛页面修复不必要的内部nofollow链接在“添加内部链接到“强大”页面,确保页面的唯一性和价值。去除低质量页面(优化“抓取预算”),建立高质量的外链

  1) 去除Robots.txt中的爬行块

  Google 没有将整个 网站 编入索引?这可能是由 robots.txt 文件中的爬行障碍引起的。

  去查看详细问题。

  检查右下角的两段是否有任何一段:

  1 用户代理:Googlebot

  2 禁止:/

  1 用户代理:*

  2 禁止:/

  这两者都告诉 Googlebot 他们不允许抓取 网站 上的任何页面。要解决这个问题,你只需要删除它们,就这么简单。

  如果 Google 没有为单个页面编制索引,也可能是由 robots.txt 中的代码引起的。要检查是否是这种情况,请将网址粘贴到 Google Search Console 中的网址检测工具中。单击覆盖范围部分以显示更多详细信息,并查找“允许抓取?否:被 robots.txt 阻止”错误。

  这意味着该页面被 robots.txt 阻止。

  如果是这种情况,请重新检查您的 robots.txt 文件,了解与此页面或相关目录相关的“禁止”规则。

  

  如果需要,只需删除此代码。

  2) 删除不必要的 noindex 标签

  如果您告诉 Google 不要将网页编入索引,Google 将不会将其编入索引。这可以使页面的一部分保持私密。有两种方法可以做到这一点:

  方法一:元标签

  如果页面中出现以下任何代码,Google 将不会将其编入索引:

  这是爬虫的元标记,告诉搜索引擎他们是否可以索引页面。

  提示。核心参数是“noindex”。如果出现“noindex”,则表示该页面未编入索引。

  方法 2:X‑Robots-Tag

  网络爬虫遵循 X-Robots-Tag 的 HTTP 响应标头。您可以使用服务器端脚本语言(如PHP)、.htaccess 文件的内容,或更改服务器配置来实现此效果。

  Google Search Console 中的 URL 检查工具可以告诉您此标头是否阻止 Google 抓取页面。只需输入 URL 并查找“允许索引?否:在“X‑Robots-Tag”http 标头中检测到“noindex”标签。

  

  3)在网站的map中收录需要索引的页面

  网站 地图会告诉 Google 网站 上哪些页面重要,哪些不重要。它还可以为谷歌的抓取频率提供一些指导。

  Google 应该能够在您的 网站 上找到页面,无论它们是否在站点地图中,但将它们收录在 网站 地图中仍然是一个好习惯。毕竟,谷歌没有必要进行无意义的抓取。

  要检查某个网页是否在您的站点地图中,请使用 Google Search Console 中的 URL 检查工具。如果您看到“此 网站 未显示在 Google 搜索结果中”和“站点地图:不适用”,则表示该网址未编入索引或不在您的站点地图中。

  

  可以提交站点地图(xml格式)到谷歌站长工具

  

  4) 删除不必要的规范标签

  Canonical 标签告诉 Google 哪个是页面的首选版本。它看起来像这样:

  大多数页面没有规范标签,即所谓的自引用规范标签。这告诉 Google 页面本身是首选版本,并且可能是唯一的版本。换句话说,您想要索引页面。

  但是,如果您的网页具有不规则的规范标签,则可能会告诉 Google 错误的首选版本。在这种情况下,您的页面将不会被编入索引

  要检测规范标签,您只需要使用 Google 的 URL 检测工具。如果您页面的规范标签指向另一个页面,您可以看到“带有规范标签的备用页面”提示。如果这不应该出现并且您希望当前页面被索引,那么只需删除页面的规范标签。

  提示:请注意,规范标签并不总是不好的。大多数带有这些标签的页面都有其原因。如果您发现您的页面有规范标签,请检查相应的页面。如果确实是页面的首选版本,并且不需要索引页面,则应保留规范标记。

  5) 检查页面是否为孤岛页面

  孤岛页面是指内部链接不支持的页面。

  由于谷歌是通过抓取链接来发现新内容的,因此他们无法通过这个过程发现孤岛页面。网站访问者也将无法找到此内容。

  要检测孤岛页面,您可以使用 Ahrefs 的站点审核(网站 诊断)工具。然后点击 Incoming links 报告,查看“Island page (no pointing link)”错误:

  

  这将显示可索引并显示在站点地图中但没有内部链接的所有页面。

  暗示:

  这只有在以下两种情况下才能正常检测:

  1.所有需要索引的页面都在你的网站地图中。

  2.在Ahrefs的Site Audit(网站Diagnosis)的最开始,选择使用网站地图中的页面的选项打勾。

  您可以通过以下两种方法之一解决孤岛问题:

  1.如果页面不重要,将其删除并移出地图网站。

  2.如果页面很重要,把它放在你的内部链接结构中。

  6) 修复不必要的内部 nofollow 链接

  Nofollow 链接是那些带有 rel="nofollow" 标签的链接。他们将阻止传递 PageRank。同时,Google 不会抓取 Nofollow 链接。

  这是谷歌对此的说明:

  本质上,使用 nofollow 会导致我们从爬网目录中删除目标链接。但是,如果其他网站链接到目标页面而没有使用nofollow,或者如果这些URL在站点地图中提交给Google,目标页面可能仍会出现在我们的索引中。

  简而言之,您需要确保遵循索引页面的链接。

  您还可以使用 Ahrefs 的 Site Audit (网站Diagnosis) 工具来捕获 网站。检查“传入链接”报告中是否有错误“页面仅收录 nofollow 传入内部链接”:

  

  假设您希望 Google 将页面编入索引,请从这些链接中删除 nofollow 标记。如果没有,请删除该页面或对该页面进行无索引处理。

  7) 在“强大”页面收录内部链接

  Google 通过抓取您的 网站 来发现新内容。如果忽略相关页面的内部链接,可能无法找到该页面。

  解决这个问题的一个简单方法是在网站中添加一些内部链接。您可以在任何已编入索引的页面上执行此操作。但是,如果您希望 Google 尽快将页面编入索引,您可以在一些“强大”的页面上创建一些内部链接。

  为什么?因为与一些不太重要的页面相比,Google 会更快地抓取此类页面。

  这样做的方法是进入Ahrefs Site Explorer(网站分析),输入你的域名,查看Best by links报告。

  

  这将显示 网站 上的所有页面,按 URL 分级排序。换句话说,它首先显示权重最高的页面。

  检查列表并找到相关页面。您可以在这些页面上添加一些指向目标页面的内部链接。

  建议:添加内链后,将页面粘贴到谷歌的网址检查工具中。点击“请求索引”按钮,让谷歌知道页面上的某些内容发生了变化,需要尽快重新抓取。这可以加快谷歌发现内部链接的过程,从而加快你想要索引的页面。

  8) 确保页面独特且有价值

  谷歌不太可能索引低质量的网页,因为它们对用户没有价值。

  如果你的页面已经排除了技术问题但仍然没有被索引,那么可能是页面的价值不足。因此,你需要重新审视页面,问问自己:这个页面真的有价值吗?如果用户从搜索结果中点击页面,他们会在页面上找到有用的内容吗?

  如果以上两个问题的答案是否定的,那么您需要改进您的内容。

  “内容为王”在今天的SEO领域依然适用。

  9) 移除低质量页面(优化“抓取预算”)

  网站 上太多低质量的页面会浪费 Google 的抓取预算。

  以下是谷歌对此的评论:

  低价值页面上浪费的服务器资源会降低抓取有价值内容的频率,这可能会导致网站上大量新内容的发现延迟。

  将其视为您的主管对论文进行评分,其中之一就是您的论文。如果他们要审阅 10 篇论文,那么他们很快就会看到您的论文。如果他们必须审查一百,则需要更长的时间。如果有数千个,那么他们的工作量太大了,他们可能永远无法对您的内容进行评分。

  谷歌确实指出,抓取预算[…]并不是大多数站长需要担心的,“如果网站的页面少于几千页”,它可以被有效地抓取。

  但是,从 网站 中删除低质量的页面从来都不是坏事。它只会产生积极的影响。

  10) 建立优质外链

  外部链接告诉谷歌这个页面很重要。毕竟,如果有人链接到它,它必须具有一定的价值。这些是 Google 想要索引的页面。

  Google 不仅会将带有外部链接的网页编入索引。有许多(数亿)没有外部链接的页面也被编入索引。但是,由于 Google 认为具有高质量链接的页面更重要,因此它们可能比没有高质量链接的页面更快地被抓取和重新抓取。这将使索引更快。

  关于外链文章,请参考上一篇:

  什么是外链,如何获取更多外链?

  

  指数≠排名

  在 Google 上获得索引并不意味着您可以获得排名或流量。

  这是两件不同的事情。

  索引意味着谷歌已经看到了你的网站,但并不意味着你的内容值得谷歌对特定的关键词进行排序。

  这就是 SEO 需要做的事情——优化网页以针对特定 关键词 进行排名的艺术。

  简单地说,SEO包括:

  找出您的用户正在搜索什么;

  围绕主题创建内容;

  针对目标关键词进行优化;

  外链建设;

  更新页面内容以使其保持“新鲜”。

  结束语

  Google 未将您的 网站 或页面编入索引的原因只有两个:

  技术问题阻止它被索引;

  它认为你的内容没有价值,不值得被索引。

  这两个问题很可能同时存在。但是,我会说技术问题更为常见。技术问题也可能导致低质量内容的自动生成(例如,分页问题)。

  尽管如此,大多数索引问题都可以通过检查上述步骤来解决。

  请记住,指数≠排名。如果您想对任何有价值的 关键词 进行排名并吸引源源不断的自然流量,那么 SEO 至关重要。

  扫描二维码关注,更多精彩:

  (自动识别二维码)

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线