从网页抓取数据(Crawl-firstSEO主要关注搜索引擎基础架构的12个指南！)

优采云发布时间: 2021-09-28 14:08

　　Crawl-firstSEO 专注于搜索引擎基础架构的两个主要部分：抓取和索引。如果网站上的所有页面都没有被抓取，则它们无法被索引。如果您的页面无法编入索引，它们将不会出现在搜索引擎结果页面 (SERP) 中。

　　搜索引擎优先抓取确保网站上存在的所有页面都被抓取和索引，之后它们将被定位在 SERP 中。被搜索引擎抓取后，您可以：

　　但在抢客户的网站之前，一定要遵守12条准则。

　　在配置爬取之前从客户端采集信息和数据1. 向您的客户发送爬取问卷文档

　　在本文档中，您应该提出以下问题：您的网站上有多少产品？

　　这是一个你无法回答的问题。您无法知道数据库中的产品数量，也不知道其中有多少在线可用。相反，您的客户会知道这个问题的答案，他们可以轻松回答您的问题。

　　我遇到过很多客户，他们有一个共同点：他们不知道他们的网站上有多少产品。了解客户端上有多少产品，是爬取网站之前需要了解的最重要信息。这也是你要在网站上进行“第一次SEO抓取审核”的最重要原因。

　　您必须知道在线提供的产品数量，因为您将在 SEO 审查结束时回答两个基本问题：

　　之前有人问我是否可以将文章视为其他类型的网站产品。这个问题的答案是肯定的。

　　当我们问客户网站上有多少可用产品时，主要是产品，我们指的是网站关键词建议的长尾。除了产品，他们还可以提供文章、新闻、播客、视频等。

　　你的网站上的网页会根据用户代理返回不同的内容吗？

　　您询问页面上的内容是否随用户代理而变化。

　　你的网站上的网页会根据你感知的国家/地区返回不同的内容吗？

　　您想知道页面上的内容是否随地理位置的 IP 或语言而变化。

　　您是否曾经阻止过对您的网站的访问或限制？

　　首先，您必须询问他们是否阻止了某些 IP，并且用户代理将进行爬网。其次，你想知道网站是否有一些爬取限制。作为爬网限制的一个例子，服务器可以通过每秒超过一定数量的请求来响应 200 以外的 HTTP 状态代码。

　　例如，当爬虫每秒请求超过 10 个页面时，服务器可以响应 HTTP 状态码 503（服务暂时不可用）。

　　你的服务器带宽是多少？

　　通常，他们不知道这个问题的答案。基本上，您应该向您的客户解释在您的网站上每秒抓取的页面数。无论如何，我建议您同意您可以使用客户端每秒抓取他们的网站页面。

　　这对您来说很划算，因此您以后不会遇到不舒服的情况，例如由于您的抓取请求导致服务器故障。

　　您有首选的爬行日期或时间段吗？

　　您的客户可能有一些首选的抓取天数或时间段。例如，他们希望他们的网站在周末或晚上被抓取。但是，如果客户有这样的偏好并且爬行的天数和时间段非常有限，则必须告知他们执行 SEO 审核将需要更长的时间，因为有限的爬行需要数天或数小时。

　　2.访问和采集SEO数据

　　请您的客户访问：

　　您还应该下载该站点的站点地图（如果有）。

　　验证Crawler3.跟进搜索引擎robots的HTTP头

　　作为 SEO 顾问，您应该跟踪爬网中 HTTP 标头搜索引擎机器人请求的内容。如果您的 SEO 审核涉及 Googlebot，在这种情况下，您应该知道 Googlebot 从 HTTP 服务器或 HTTPS 服务器请求的 HTTP 标头。

　　这非常重要，因为当您向客户解释您将抓取他们的网站时，就像 Googlebot 抓取一样，您应该确保从他们的服务器请求与 Googlebot 相同的 HTTP 标头。您从服务器采集的响应信息和未来数据取决于您在爬虫 HTTP 标头中请求的内容。

　　例如，想象一个支持 brotli 和爬虫请求的服务器：

　　接受编码：gzip、deflate

　　但不是：

　　接受编码：gzip,deflate,br

　　在您的 SEO 审查结束时，您可能会告诉您的客户他们的网站上存在抓取性能问题，但这可能不是真的。本例中，您的爬虫不支持brotli，该站点可能没有任何爬行性能问题。

　　4.检查您的爬虫如何处理重定向？它可以遵循多少重定向？验证和分析采集到的信息和数据，同时为爬网配置 5. 请求示例 URL 和各种：来自您客户的网站做出决定：

　　不要相信一开始就可以使用爬取问卷文档从客户端采集答案。这不是因为您的客户对您撒谎，而仅仅是因为他们不了解他们的网站。

　　我建议您在爬取网站之前对网站执行自己的网站进行特定的爬取测试。之前有人问过我这部分是否真的很重要。是的，这是因为网站上的内容可以通过用户代理、IP 或语言进行更改。

　　另一方面，某些站点可能会根据 IP 的语言或地理位置在同一 URL 上发送不同的内容。谷歌称其为“语言环境响应式网页”，最近修订的支持文档“谷歌如何抓取语言环境响应性网页”。

　　未来，Googlebot 对区域响应式网页的抓取行为可能会再次被修改。最好的方法是了解网站上的内容是否根据访问者的国家或首选语言以及当时 Googlebot 或其他搜索引擎机器人如何处理这些内容而发生变化，并相应地调整您的抓取工具.

　　此外，这些测试可以帮助您在抓取之前识别网站上的抓取问题，这可能是您 SEO 审核中的一个重要发现。

　　6.了解服务器

　　采集有关服务器和站点爬网性能的信息。在进行爬取之前，您需要知道要发送爬取请求的服务器类型，并了解网站的爬取性能。

　　要了解爬网性能，您可以检查步骤 5 中执行的特定于站点的爬网请求。为了找出要在爬网配置文件中定义的最佳爬网率，必须执行此部分。在我看来，爬行中最困难的因素是爬行率。

　　7.预识别爬行垃圾

　　在准备有效的爬网配置文件之前，重要的是预先识别客户端站点上的爬网浪费。您可以通过从网络服务器日志、GoogleAnalytics、GoogleSearchConsole 和站点地图采集搜索引擎优化数据来识别网站上的抓取浪费。

　　8. 决定关注、不关注或只保留在爬取数据库中

　　您的选择取决于您要执行的 SEO 审核类型。请记住，因为它会增加数据量，如果只将它们保存在爬取数据库中，也会增加数据分析的复杂性。

　　爬网配置 9. 创建高效的爬网配置文件。设置最佳值：明智地选择初始 URL：选择关注而不是关注或保留抓取数据库中的 URL：避免抓取浪费（尤其是在您的资源有限的情况下）。

　　关于爬行深度，建议一开始选择较小的爬行深度，然后在爬行配置中逐渐增加爬行深度。

　　如果你想抓取一个大的网站，这非常有用。当然，如果爬虫允许你逐渐增加爬行深度，你也可以这样做。

　　此外，还有智能爬虫工具，可以在爬虫过程中单独识别爬虫垃圾，无需在爬虫配置中手动处理。如果你有这样的爬虫，那你就不用担心这个了。

　　配置爬取后，10.告知客户你的用户代理和IP

　　如果你想爬取一个大的网站，你必须防止它们阻塞你的爬取。对于一个小的网站，这不会发生，但我建议你还是练习一下。在我看来，这是一个很好的职业习惯。此外，它还向您的客户表明您是一名爬行专家。

　　11.通过修改爬取配置文件来运行测试爬取进行相应的操作，有时甚至可能需要更换爬虫。最后，如果一切正常就开始爬12.

0

2021-09-28

从网页抓取数据

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

从网页抓取数据(Crawl-firstSEO主要关注搜索引擎基础架构的12个指南！)

0 个评论

发起人