从网页抓取数据(Crawl-firstSEO主要关注搜索引擎基础架构的12个指南!)

优采云 发布时间: 2021-09-28 14:08

  从网页抓取数据(Crawl-firstSEO主要关注搜索引擎基础架构的12个指南!)

  Crawl-firstSEO 专注于搜索引擎基础架构的两个主要部分:抓取和索引。如果 网站 上的所有页面都没有被抓取,则它们无法被索引。如果您的页面无法编入索引,它们将不会出现在搜索引擎结果页面 (SERP) 中。

  搜索引擎优先抓取确保 网站 上存在的所有页面都被抓取和索引,之后它们将被定位在 SERP 中。被搜索引擎抓取后,您可以:

  但在抢客户的网站之前,一定要遵守12条准则。

  在配置爬取之前从客户端采集信息和数据1. 向您的客户发送爬取问卷文档

  在本文档中,您应该提出以下问题:您的 网站 上有多少产品?

  这是一个你无法回答的问题。您无法知道数据库中的产品数量,也不知道其中有多少在线可用。相反,您的客户会知道这个问题的答案,他们可以轻松回答您的问题。

  我遇到过很多客户,他们有一个共同点:他们不知道他们的 网站 上有多少产品。了解客户端上有多少产品,是爬取网站之前需要了解的最重要信息。这也是你要在网站上进行“第一次SEO抓取审核”的最重要原因。

  您必须知道在线提供的产品数量,因为您将在 SEO 审查结束时回答两个基本问题:

  之前有人问我是否可以将 文章 视为其他类型的 网站 产品。这个问题的答案是肯定的。

  当我们问客户网站上有多少可用产品时,主要是产品,我们指的是网站关键词建议的长尾。除了产品,他们还可以提供文章、新闻、播客、视频等。

  你的 网站 上的网页会根据用户代理返回不同的内容吗?

  您询问页面上的内容是否随用户代理而变化。

  你的 网站 上的网页会根据你感知的国家/地区返回不同的内容吗?

  您想知道页面上的内容是否随地理位置的 IP 或语言而变化。

  您是否曾经阻止过对您的 网站 的访问或限制?

  首先,您必须询问他们是否阻止了某些 IP,并且用户代理将进行爬网。其次,你想知道网站是否有一些爬取限制。作为爬网限制的一个例子,服务器可以通过每秒超过一定数量的请求来响应 200 以外的 HTTP 状态代码。

  例如,当爬虫每秒请求超过 10 个页面时,服务器可以响应 HTTP 状态码 503(服务暂时不可用)。

  你的服务器带宽是多少?

  通常,他们不知道这个问题的答案。基本上,您应该向您的客户解释在您的 网站 上每秒抓取的页面数。无论如何,我建议您同意您可以使用客户端每秒抓取他们的网站页面。

  这对您来说很划算,因此您以后不会遇到不舒服的情况,例如由于您的抓取请求导致服务器故障。

  您有首选的爬行日期或时间段吗?

  您的客户可能有一些首选的抓取天数或时间段。例如,他们希望他们的 网站 在周末或晚上被抓取。但是,如果客户有这样的偏好并且爬行的天数和时间段非常有限,则必须告知他们执行 SEO 审核将需要更长的时间,因为有限的爬行需要数天或数小时。

  2.访问和采集SEO数据

  请您的客户访问:

  您还应该下载该站点的站点地图(如果有)。

  验证Crawler3.跟进搜索引擎robots的HTTP头

  作为 SEO 顾问,您应该跟踪爬网中 HTTP 标头搜索引擎机器人请求的内容。如果您的 SEO 审核涉及 Googlebot,在这种情况下,您应该知道 Googlebot 从 HTTP 服务器或 HTTPS 服务器请求的 HTTP 标头。

  这非常重要,因为当您向客户解释您将抓取他们的 网站 时,就像 Googlebot 抓取一样,您应该确保从他们的服务器请求与 Googlebot 相同的 HTTP 标头。您从服务器采集的响应信息和未来数据取决于您在爬虫 HTTP 标头中请求的内容。

  例如,想象一个支持 brotli 和爬虫请求的服务器:

  接受编码:gzip、deflate

  但不是:

  接受编码:gzip,deflate,br

  在您的 SEO 审查结束时,您可能会告诉您的客户他们的 网站 上存在抓取性能问题,但这可能不是真的。本例中,您的爬虫不支持brotli,该站点可能没有任何爬行性能问题。

  4.检查您的爬虫如何处理重定向?它可以遵循多少重定向?验证和分析采集到的信息和数据,同时为爬网配置 5. 请求示例 URL 和各种:来自您客户的 网站 做出决定:

  不要相信一开始就可以使用爬取问卷文档从客户端采集答案。这不是因为您的客户对您撒谎,而仅仅是因为他们不了解他们的 网站。

  我建议您在爬取网站 之前对网站 执行自己的网站 进行特定的爬取测试。之前有人问过我这部分是否真的很重要。是的,这是因为 网站 上的内容可以通过用户代理、IP 或语言进行更改。

  另一方面,某些站点可能会根据 IP 的语言或地理位置在同一 URL 上发送不同的内容。谷歌称其为“语言环境响应式网页”,最近修订的支持文档“谷歌如何抓取语言环境响应性网页”。

  未来,Googlebot 对区域响应式网页的抓取行为可能会再次被修改。最好的方法是了解 网站 上的内容是否根据访问者的国家或首选语言以及当时 Googlebot 或其他搜索引擎机器人如何处理这些内容而发生变化,并相应地调整您的抓取工具.

  此外,这些测试可以帮助您在抓取之前识别 网站 上的抓取问题,这可能是您 SEO 审核中的一个重要发现。

  6.了解服务器

  采集有关服务器和站点爬网性能的信息。在进行爬取之前,您需要知道要发送爬取请求的服务器类型,并了解网站 的爬取性能。

  要了解爬网性能,您可以检查步骤 5 中执行的特定于站点的爬网请求。为了找出要在爬网配置文件中定义的最佳爬网率,必须执行此部分。在我看来,爬行中最困难的因素是爬行率。

  7.预识别爬行垃圾

  在准备有效的爬网配置文件之前,重要的是预先识别客户端站点上的爬网浪费。您可以通过从网络服务器日志、GoogleAnalytics、GoogleSearchConsole 和站点地图采集搜索引擎优化数据来识别 网站 上的抓取浪费。

  8. 决定关注、不关注或只保留在爬取数据库中

  您的选择取决于您要执行的 SEO 审核类型。请记住,因为它会增加数据量,如果只将它们保存在爬取数据库中,也会增加数据分析的复杂性。

  爬网配置 9. 创建高效的爬网配置文件。设置最佳值:明智地选择初始 URL:选择关注而不是关注或保留抓取数据库中的 URL:避免抓取浪费(尤其是在您的资源有限的情况下)。

  关于爬行深度,建议一开始选择较小的爬行深度,然后在爬行配置中逐渐增加爬行深度。

  如果你想抓取一个大的 网站,这非常有用。当然,如果爬虫允许你逐渐增加爬行深度,你也可以这样做。

  此外,还有智能爬虫工具,可以在爬虫过程中单独识别爬虫垃圾,无需在爬虫配置中手动处理。如果你有这样的爬虫,那你就不用担心这个了。

  配置爬取后,10.告知客户你的用户代理和IP

  如果你想爬取一个大的网站,你必须防止它们阻塞你的爬取。对于一个小的网站,这不会发生,但我建议你还是练习一下。在我看来,这是一个很好的职业习惯。此外,它还向您的客户表明您是一名爬行专家。

  11.通过修改爬取配置文件来运行测试爬取进行相应的操作,有时甚至可能需要更换爬虫。最后,如果一切正常就开始爬12.

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线