从网页抓取数据(1.什么是抓取和收录，从基本概念及解决方法)

优采云发布时间: 2021-09-12 14:11

　　很多SEO从业者有一个很苦恼的问题：网站建好了，为什么搜索引擎没有收录我的网站？页面收录是网站争夺排名的最基本条件。没有收录，就没有展示，也就无法争夺排名获取SEO流量。

　　本文将围绕抓包和收录两点，从基本概念、常见问题和解决方案三个维度展开讨论，希望对大家有用。

　　1.什么是爬取，收录，爬取配额？

　　先简单介绍一下爬取，收录，三个词条爬取配额。

　　①爬行：

　　这是搜索引擎爬虫爬取网站的过程。谷歌官方的解释是——“爬行”是指寻找新的或更新的网页并将其添加到谷歌的过程；（点此查看谷歌官网文档）

　　②收录（索引）：

　　是搜索引擎在其数据库中存储页面的结果，也称为索引。谷歌官方的解释是：谷歌的爬虫（“Googlebot”）已经访问了该页面，分析了其内容和含义，并将其存储在谷歌索引中。索引的网页可以显示在谷歌搜索结果中；（点此查看谷歌官网文档）

　　③抓取预算：

　　是搜索引擎蜘蛛在网站上爬取一个页面所花费的总时间上限。一般小的网站（几百或几千页）不用担心，搜索引擎分配的爬取配额不够；大网站（百万或千万页）会更多地考虑这个问题。如果搜索引擎每天爬取几万个页面，整个网站页面爬取可能需要几个月甚至一年的时间。通常，这些数据可以从 Google Search Console 的后端学习。如下图所示，红框内的平均值为网站分配的爬取配额。

　　通过一个例子让大家更好的理解爬取、收录和爬取配额：

　　搜索引擎比作一个巨大的图书馆，网站比作书店，书店里的书比作网站页面，蜘蛛爬虫比作图书馆买家。

　　为了丰富图书馆的藏书量，购书者会定期到书店查看是否有新书存货。翻书的过程可以理解为抓取；

　　当买家认为这本书有价值时，他会购买并带回图书馆采集。这本书合集就是我们所说的收录；

　　每个买家的购书预算有限，他会优先购买价值高的书籍。这个预算就是我们理解的抢配额。

　　2.如何查看网站的收录情况？

　　了解基本概念后，我们如何判断网站或者页面是否为收录？

　　①通过站点命令。谷歌、百度、必应等主流搜索引擎均支持站点命令。通过站点命令，可以在宏观层面查看一个网站已经收录的页面数量。这个值不准确，有一定的波动性，但有一定的参考价值。如下图所示，Google收录网站的网页数量约为296个。

　　②如果网站已经验证了Google Search Console，这样就可以得到网站被Google收录的精确值，如下图红框所示，Google收录了网站的268 页;

　　③如果要查看特定页面是否为收录，可以使用info命令。谷歌支持 info 命令，但百度和必应不支持。在谷歌中输入信息：URL。如果有返回结果，页面已经是收录，如下图：

　　3.为什么搜索引擎不是收录网站页面？

　　网站页面不是收录的原因有很多。以下是一些常见的原因供您参考：

　　①元标签“Noindex”使用不当

　　如果代码被添加到页面的Meta标签中，它告诉搜索引擎不要索引该页面；

　　②Robots文件中Disallow的错误使用

　　如果User-agent: * Disallow: /ABC/ 代码被添加到网站的Robots 文件中，它会告诉搜索引擎不要索引ABC 目录中的所有页面。 Robots 文件中命令的优先级高于页面 Meta 标签中的命令。谷歌会严格遵循Robots文件中的命令，但是页面Meta中的命令有时会被忽略。例如，即使某个页面在Meta代码中明确添加了Index指令，但在Robots文件中为Disallow，搜索引擎也不会收录这个页面。

　　③网站缺少站点地图文件

　　站点地图文件是搜索引擎抓取网站页面的有效方式之一。如果网站缺少站点地图文件，或者站点地图不收录页面URL，这可能会导致网站或页面不是收录。 ④错误使用301和302重定向

　　有些网站由于cms后台设置不正确导致多页跳转，比如A页302跳转到B页，B页301跳转到C页。这种多次跳转或者混合使用跳转命令不利于抓取页面。很多网站处理www格式的URL跳转到没有www的URL，或者http跳转到https等，容易出现这种情况。类问题。

　　⑤错误使用Canonical标签

　　Canonical 标签主要用于两个页面之间的内容相同，但 URL 不同的情况。例如，很多有SEM投放需求的站长需要在Landing Page中添加多个UTM跟踪参数，以便跟踪广告效果； Canonical tag 这批网址可以标准化，让搜索引擎了解这些不同网址之间的关系，避免内容重复和权重分散。但是如果A和B两个页面之间的内容不同，但是在A页面添加了指向B页面的Canonical标签，这会导致搜索引擎不能很好地理解页面之间的关系，所以是不是收录目标页面。

　　⑥网站或者页面很新

　　对于新上线的网站或页面，搜索引擎抓取页面需要几天时间。所以如果新上线的网站不是收录，可以耐心等几天再查。 ⑦网址太复杂或错误

　　部分网站网址收录很多动态参数，语义不清晰，或者网址使用了中文等非英文内容，不利于搜索引擎和收录页面的理解。如果你对网址优化一窍不通，可以参考这篇博文：分享12个网址优化技巧，助你提升网站SEO友好度

　　⑧页面层次太深

　　网站的扁平化有利于爬虫爬取页面。页面越深，爬虫接触页面的几率越低，被搜索引擎收录接触的几率越低。简单的理解就是，当书店里的一本书放在最底层的一角时，买家看到的机会就大大减少了。

　　⑨网站或页面内容价值低

　　我曾经遇到一个客户，因为技术人员把包括视频和图片在内的所有多媒体文件放在一个目录中，该目录被Robots文件中的Disallow删除，导致搜索引擎爬虫看到的页面内容和真实用户看到的不一样。站长可能认为这个页面内容丰富，但在爬虫眼中，它是一个空白页面。如下图，左边是爬虫看到的空白页面，右边是用户看到的实际页面。这样低质量的内容页面搜索引擎也不愿意收录。

　　⑩ 重复页面内容

　　比较低的网站都是由采集other网站的数据生成的。这种内容高度重复的页面，也不愿意被搜索引擎收录。

　　⑪网站被惩罚

　　如果网站因黑帽等非法手段被谷歌人工处罚，该类网站和页面将不会是收录。

　　4.网站收录问题如何解决？

　　①正确设置网站的Robots文件和htaccess文件，保证搜索引擎爬虫能够正确读取页面内容

　　如果您是 Chrome 浏览器用户，您可以安装 User Agent Switcher 插件来模拟 Googlebot 对页面的访问，并检查页面内容是否正确显示给爬虫。

　　如果网站已经验证了Google Search Console，您也可以使用旧版Google Search Console中的Google爬虫来预览爬取效果；

　　②确保页面上Meta Robots标签配置正确，使用noindex指令没有错误

　　默认的 Meta Robots 处于索引状态，因此页面的 Robots 标签可以留空。 Chrome浏览器用户可以使用插件SEO Meta in 1 点击查看。只需打开页面，点击插件即可查看页面相关的Meta信息。

　　③制作站点地图文件

　　同时在 Google Search Console 后台或 Bing 站长后台提交 Sitemap 文件，定期更新 Sitemap 文件并通知搜索引擎。

　　如果有一些关键页面希望谷歌尽快收录，可以通过旧版谷歌搜索控制台的爬虫提交，点击索引。一般不会被惩罚的网站或页面，但一天之内就可以被收录。不过这种方式每天最多只能提交10页，而且谷歌已经宣布在新版谷歌搜索控制台中取消这个工具，取而代之的是“网址检查”工具。

　　④添加页面的链接入口

　　链接入口包括站内链接和站外链接。您可以添加站内链接，例如网站导航、页面底部的页脚、面包屑导航、网站侧边栏、正文内容和相关推荐。站外链接的方式和渠道有很多：比如维基百科（我们有专业的维基百科词条创建服务，请联系我们）、Guestpost Outreach、品牌链接回收、资源链接等，我想知道的更详细更丰富外链构建方法参考这个文章：8种获取优质外链的方法

　　⑤优化页面的URL格式和层次

　　尽量简化页面URL的长度，单词之间用“-”代替空格或%等特殊字符，降低页面层次；扁平的网站结构更有利于爬虫抓取网站。

　　⑥301/302重定向和Canonical标签的正确使用

　　对于离线页面或URL更改，建议使用301永久重定向，将旧页面指向新的目标页面。如果确定页面永久下线，您也可以如实返回404识别码。对于内容相同的页面，合理使用Canonical标签。有些电商网站在产品聚合页面下有多个tab，比如第1页、第2页、第3页……，为了聚合第1页的权重，误认为Canonical点了第2页、第3页和其他页面到第1页，容易导致后面的页面没有被索引。

　　⑦使用上一个和下一个标签

　　对于大型电商网站，如果某个分类下有多个tab，可以在每个tab中添加rel=”prev”（上一页）和rel=”next”（在声明下）一个页面），以便搜索引擎了解该页面系列之间的关系，并给予列表页第一页更多的权重和排名。

　　一个。在第1页/第1页的部分，添加：

0

2021-09-12

从网页抓取数据

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

从网页抓取数据(1.什么是抓取和收录，从基本概念及解决方法)

0 个评论

发起人