输入关键字 抓取所有网页(免费的Google工具升级SEO策略克服阻止者:如何在星期五建立红色磁带工具包)

优采云 发布时间: 2021-10-12 03:27

  输入关键字 抓取所有网页(免费的Google工具升级SEO策略克服阻止者:如何在星期五建立红色磁带工具包)

  在这里找到整个博客的 YouTube 播放列表:6 部分 YouTube 系列 [设置和使用查询优化检查器]

  参与其工作的人都知道,任何人都知道在分析哪些查询而不是将流量发送到网站上的特定页面时有很多价值。

  这些数据集最常见的用途是将页面上的优化与现有排名和流量保持一致,并确定排名关键字的差距。

  但是,使用这些数据非常繁琐,因为它只能在 Google 搜索控制台界面中使用,而且您一次只能看到一页。

  5 个免费的 Google 工具来升级 SEO 策略

  克服障碍:如何在周五构建最好的繁文缛节工具包白板

  7 SEO 中的新兴技术及其应用

  缩放页面级查询分析

  每日 SEO 修复:使用 Moz Pro 调查排名变化

  最重要的是,要获取排名中收录的文本的信息GE,您要么需要手动查看,要么使用Screaming Frog之类的工具提取。

  你需要这个视图:

  

  ...但即使上面的视图也只能是一个可行的页面,而且如上所述,实际的文本提取也必须是分开的。

  鉴于可供 SEO 社区使用的现成数据存在明显问题,

  Inseev Interactive 花了很多时间思考如何扩大这些流程。

  我们将在本文中回顾的一个具体示例是一个简单的脚本,它允许您以灵活的格式获取上述数据,从而获得许多出色的分析视图。

  更好的是,只有少数*敏*感*词*,并且可以使用 GLE 输入变量。

  快速违反工具功能

  该工具会自动将文本与 Google 搜索控制台进行比较

  热门查询

  页面级别让您知道页面上有哪些查询以及它们在页面上显示的次数。可选的 XPath 变量还允许您指定要分析文本的页面部分。

  这意味着您将确切地知道驱动点击/印象不在

  主要内容中出现的次数,甚至主要内容中第一段(MC)中的特定内容。天空才是极限。

  对于不熟悉的人,我们还提供了一些您可以使用的快速 XPath 表达式,以及如何在帖子的“输入变量”部分创建特定于站点的 XPath 表达式。

  后期设置使用和数据集

  流程设置好后,只需要填写一个变量列表,剩下的就自动完成了。

  输出数据集包括多个自动 CSV 数据集,以及用于维护组织的结构化文件格式。用于自动执行 CSV 数据透视的简单核心分析可为您提供以下数据集和许多其他有用的布局。

  ...甚至一些“新指标”?

  好吧,从技术上讲,没有什么是“新的”,但是如果您专门使用 Google 搜索控制台 UI,那么您将无法访问以下指标:“最大位置”、“最小位置”、“计数位置”和“计数位置”对于指定的日期范围 - 所有这些都在帖子的“运行您的第一次分析”部分中进行了解释。

  

  为了真正展示该数据集的影响和有用性,在以下视频中,我们使用 COLAB 工具:

  [3分钟]

  

  – 查找非品牌

  (视频中大约有 30 页),但您可以执行任意数量的页面)

  【3分钟】【3分钟】-将CSV转换为更实用的格式【1分钟】使用生成的数据集优化第一个标题

  好的,你已经设置了初始破坏。希望我们可以在进入有点沉闷的设置过程之前让您兴奋。

  请记住,在帖子的末尾,还有一个部分收录一些有用的用例和示例模板!要直接跳转到本文的每个部分,请使用以下链接:

  在 Google Colab 中一次性设置脚本

  运行您的第一个分析

  [快速思考 #1] –

  [快速考虑 #2] – 该工具已经过 INSEEV 团队成员的广泛测试。大多数错误已被发现并确定[仅使用 Web Scaper],但与任何其他程序一样,可能会出现其他问题。

  如果您遇到任何错误,请随时直接与我们联系

  , 他本人和 inseev 数据工程团队的其他成员都很乐意为您提供帮助。如果遇到新的错误并修复,我们将始终将更新的脚本上传到以下部分链接的代码库中,以便所有最新代码都可以通过!

  

  

  

  Google Colab 中的脚本设置一次(不到 20 分钟)

  

  你需要什么:

  谷歌云端硬盘

  

  谷歌云平台账户

  谷歌搜索控制台访问

  视频演练:对刀过程

  您将在下面找到逐步编辑说明,以设置整个过程。但是,如果以下编辑说明不是您的首选方法,我们还录制了安装过程的视频。如您所见,我们从一个全新的 Gmail 开始并设置了大约 12 分钟的整个过程,输出完全值得花时间。

  

  请记住,这些设置是一次性的,一旦设置,该工具就应该从那里开始使用命令!

  编辑练习:工具设置过程

  部分处理:

  

  

  部分处理:

  设置 Google Cloud Platform (GCP) 项目(如果您已有帐户,请跳过)

  为 Google Search Console (GSC) API 创建 OAuth 2.0 客户端 ID(如果您已启用搜索控制台 API 并且已经有 OAuth 客户端 ID,则跳过)

  

  将 OAUTH 2.0 凭据添加到 CONFIG.PY 文件

  

  第 1 部分:从 GitHub 下载文件并将其设置在 Google DRIVE 中

  

  下载源文件(无需代码)1.Navate

  这里

  

  .

  2.选择“代码”>“下载zip”

  *您也可以使用'

  git 克隆

  

   .git

  '如果你使用命令提示符会更舒服。

  在 Google Drive 中启动 Google Colab

  如果您已经在 Google Drive 的 Google Colaboratory 设置中进行了设置,请跳过此步骤。

  1. 在这里导航

  .

  2. 点击“新建”>“更多”>“连接更多应用”。

  

  3. 搜索“Colaboratory”> 点击申请页面。

  4. 单击“安装”>“继续”> 使用 OAuth 登录。

  

  5. 通过选择提示,点击“确定”,Google Drive 会自动设置使用 Google Colab 打开的相应文件(可选)。

  

  将下载的文件夹导入 Google Drive 并在 Colab 中打开

  1. 1.使用脚本,创建一个名为“Colab Notebook”的文件夹,并创建一个名为“Colab Notebook”的文件夹。

  :脚本需要调用配置为从“Colab Notebook”中的“API”文件夹中搜索的“Colab Notebook”文件夹。

  错误会导致文件夹命名不当。

  2.导入文件夹从github oadodoge drave中删除。在此步骤结束时,您应该在 Google 云端硬盘中收录一个文件夹,其中收录以下项目:

  

  第 2 部分:设置 Google Cloud Platform (GCP) 项目 如果您已经拥有 Google Cloud Platform (GCP) 帐户,请跳过此部分。

  1. 导航到

  谷歌云

  页。

  2. 单击“免费”CTA 以获取“免费”(CTA 文本可能会随时间变化)。

  3. 使用您选择的 OAuth 凭据登录。任何 Gmail 电子邮件都可以使用。4. 按照提示注册您的 GCP 帐户。

  您将需要提供*敏*感*词*才能注册,但目前有一个 300 美元的免费试用版,谷歌指出,直到他们不会向您收取升级帐户的费用。

  第 3 部分:为 Google Search Console 创建 0Auth 2.0 Client ID (GSC) API

  1.它在这里

  导航

  . 2. 登录所需的谷歌云账号后,点击“启用”。

  3. 配置同意屏幕。

  在创建同意屏幕期间,选择“外部”,然后进入“应用信息”。

  以下最低要求的示例:

  跳过“范围”以添加电子邮件

  您将使用搜索控制台 API 身份验证

  输入“测试用户”。可能还有其他电子邮件和带有 Google 云端硬盘的电子邮件。例如,客户的电子邮件,您可以在其中访问 Google 搜索控制台 UI 以查看其 KPI。

  4. 在左侧轨道导航中,点击“Credentials”>“Create Credentials”>“OAUTH Client ID”(不在图中)。

  5.在“创建OAuth客户端ID”表单中,填写:

  应用程序类型 = 桌面应用程序

  名称=Google Colab = Google Colab

  点击“创建”

  6. 保存“Client ID”和“Client Secret”——因为它们会从我们下载的GitHub文件中添加到“API”文件夹的Config.py文件中。

  这些应该在点击“创建”后弹出

  “客户机密”实际上是您的 Google Cloud 密码(请勿将其发布给公众/在线共享)

  第 4 部分:将 OAUTH 2.0 凭据添加到 CONFIG.PY 文件

  1. 返回 Google Drive 并导航到“API”文件夹。2. 点击config.py。

  3. 选择使用“文本编辑器”(或您选择的其他应用程序)打开以修改 config.py 文件。

  4. 更新以下突出显示的三个区域:

  客户编号

  : 来自OAuth 2.0 客户端ID设置过程

  客户秘密

  : 来自OAuth 2.0 客户端ID设置过程

  google_credentials:使用 client_id 和 client_secret

  对应邮箱

  

  更新后保存文件!

  恭喜,无聊的事情结束了。您现在可以开始使用 Google Colab 文件了!

  

  运行您的第一个分析

  运行你的第一个分析可能是一个小的 Inti 中期,但坚持下去,它会变得非常快。下面,我们提供有关所需输入变量的详细信息,以及在运行脚本和分析生成的数据集时要记住的注意事项。

  在我们完成这些项目之后,还有一些示例项目和视频演练演示了用于利用这些数据集的客户端可交付方法。设置输入变量

  XPath 提取和“XPath_Selector”变量

  您是否曾经希望了解有关推动点击次数和展示次数的每个查询?

  或者

  

  中]标签?好吧,此参数将允许您执行此操作。

  虽然它是可选的,但强烈鼓励使用它,但我们觉得它是“多收费”的分析。只需使用 XPaths 和脚本定义 网站 部分,脚本将执行其余部分。

  在上面的视频中,您可以找到有关如何创建 网站 特定提取的示例。此外,以下是一些常见的摘录,它们应该适用于几乎所有在线 网站:

  '//标题'#mark 一个标记

  

  '//H1'

  #身份A

  标记'// H2' #识别A

  标签

  具体站点具体:

  如何只抓取 XPAIL-添加“|” XPATH 之间

  标题| // h1'#在1运行的标签中,你都带着标签'// h1 | // h2 | // h3' # running other variables in 1 [1] 图 23 下面是其他变量的视频概述,每个都有简短的描述。'Colab_path'[必需] – Colab 文件生命周期的路径。这应该是“/content/drive/my drive/colab notebook/”。"Domain_lookup'[required]-用于分析的网站的主页。'Startdate'和'Enddate'[required]-分析周期的日期范围。'GSC_SORTING_FIELD'[required]-该工具将作为用户-定义页面的前N个页面被拉取。“顶部”由“clicks_sum”或“repreadmations_sum”定义,更详细的描述请看视频。“gsc_limit_pages_number” [必需] – 一个数值,表示要缩小数据集的结果页数。'brand_exclusions'[optional] – 通常会导致品牌查询的字符串序列(例如,收录“inseev”的任何内容都将是“Inseev Interactive”的品牌查询。

  'Impressions_exclusion'[可选] – 用于排除由于缺少预先存在的印象而可能不相关的查询的值。这主要与在大型页面上具有强大预先存在排名的域有关。"Page_inclusions'[optional] – 在其中找到的字符串序列所需的分析页面类型。如果您想分析整个域,请将此部分留空。运行脚本 请记住,一旦脚本运行完毕,您就是基因 Rally 会使用“Step3_Query-Optimizer_Domain-Yyyy-MM-DD.csv”文件进行分析,但是还有其他视图与原创数据集。“Step 3_Query-Optimizer_Domain-Yyyy-MM-DD”的实际用例.CSV”文件可以在“实际用例和模板”中找到。测试时有一些重要的事情: 1. 没有 JavaScript 爬虫:正如文章开头提到的,这个脚本不是为 JavaScript 爬虫设置的,所以如果你的目标 网站 使用客户端的 JS FrontEnd渲染以填充主要内容(MC),刮擦将无用。但是,快速获取顶级XX(用户自定义)查询和页面的基本功能仍然可以通过ISEL使用F.2。Google Drive / GSC API Auth:第一次在每个新会话中运行脚本时,它会提示您验证 Google Drive 和 Google 搜索控制台凭据。刮擦没有用。但是,快速获取顶级XX(用户自定义)查询和页面的基本功能仍然可以通过ISEL使用F.2。Google Drive / GSC API Auth:第一次在每个新会话中运行脚本时,它会提示您验证 Google Drive 和 Google 搜索控制台凭据。刮擦没有用。但是,快速获取顶级XX(用户自定义)查询和页面的基本功能仍然可以通过ISEL使用F.2。Google Drive / GSC API Auth:第一次在每个新会话中运行脚本时,它会提示您验证 Google Drive 和 Google 搜索控制台凭据。

  Google Drive 身份验证:通过脚本与 Google Drive 关联的电子邮件身份验证。GSC 身份验证:验证电子邮件是否可以访问所需的 Google 搜索控制台帐户。如果您尝试进行身份验证并收到如下所示的错误,请重新访问“添加电子邮件”LL 会将第 3 部分中的 COLAB 应用程序输入到“测试用户”中,步骤 3 在上述过程中:设置同意屏幕。快速提示:GOOGLe Drive 帐户和 GSC 身份验证不必是同一电子邮件,但它们确实需要使用 OAuth 进行单独身份验证。3. 运行脚本:导航到“运行时”>“重新启动并运行全部”或使用键盘快捷键 Ctrl + Fn9 开始运行脚本。4.填充数据集/文件夹结构:脚本填充了三个基于“domain_lookup”的CSV 输入变量,脚本嵌套在文件夹结构中。自动组织 [文件夹]:每次在新域上重新运行脚本时,它都会创建一个新的文件夹结构以保持组织有序。自动组织 [文件命名:CSV 包括附加的导出日期,因此您将始终知道流程何时运行以及数据集的日期范围。5、数据集的日期范围:数据集内部有一个“GSC_DATASETID”列,其中包括提取的日期范围。将始终知道进程何时运行以及数据集的日期范围。5、数据集的日期范围:数据集内部有一个“GSC_DATASETID”列,其中包括提取的日期范围。将始终知道进程何时运行以及数据集的日期范围。5、数据集的日期范围:数据集内部有一个“GSC_DATASETID”列,其中包括提取的日期范围。

  6. 不熟悉的指标:生成的数据集收录我们知道的所有 KPI——例如——点击次数、展示次数、平均(平均)位置——但有些你无法直接从 GSC UI 中获得:'count_instans_gsc' - 查询在指定的日期范围内,获得的实例数至少为 1 次展示。场景示例:GSC 告诉您,您的平均排名第 6 位是“送花”,并且您在 30 天的日期范围内仅收到了 20 次展示。看起来你实际上并不是在第 6 位,对吧?好吧,现在您可以看到这可能是可能的,因为您仅在 30 天的日期范围内(例如 count_instances_gsc = 1) '&'min_position' - 识别的页面在指定日期范围内的 Google 搜索中显示的最大和最小排名位置。快速提示#1:MAX/Min 可以告诉您您的关键字波动很大。快速提示#2:这些KPI结合“count_instances_gsc”可以显示查询性能 了解机会和机会... 实际用例和模板访问 推荐 多US E模板推荐:下载文件并与Excel一起使用。主观上,我相信 Excel 将数据透视表功能与 Google Sheets 进行了比较,这对使用此模板至关重要。

  其他用途:如果您没有 Microsoft Excel 或者您更喜欢其他工具,则可以使用大多数收录数据透视功能的电子表格应用程序。对于那些选择替代电子表格软件/应用程序的人:以下是在设置过程中模拟的数据透视字段。您可能需要在“Step 3_Analyze Final DOC”选项卡上调整 VLookup 函数,具体取决于您更新的枢轴列是否与我提供的当前枢轴对齐。Ect 示例:标题和 H1 重新优化(视频演练)项目说明。通过查看 GSC 查询 KPI 和当前页面元素,查看 GSC 查询 KPI 和标签。使用生成的结果重新优化已有页面的 和 标签。项目假设:此过程假定将关键字插入两个标签是与相关性优化相关的强大 SEO 实践,并且在这些区域中收录相关的关键字变体(例如,与匹配的 SERP 意图关键字的非完全匹配)非常重要。项目示例:刷新/重新优化页面上的文本。项目描述:定位驱动点击和展示的关键词,在主要内容(MC)第一段不存在的内容中编辑内容。对编辑页面中的介绍内容执行页面刷新以收录高价值关键字机会。项目假设:这个过程假设在一段内容的第一句中插入关键字是相关性优化的强大 SEO 实践,并且在这些区域中收录相关的关键字变体很重要(例如,

  最后的想法我们希望这个 文章 对您有所帮助,并为您打开了使用 Python 和 Google Colab 改进您的基于时间的相关操作的策略的概念。正如整篇文章中提到的,请记住以下几点:GitHub 存储库将随着任何未来的变化而更新。可能存在未检测到的错误。如果发生这种情况,inseev 很乐意提供帮助!事实上,我们真的要感谢您对调查和修复错误的承诺(如果发生任何事情)。这样,没有其他人遇到过同样的问题。除以上内容外,如果您对数据分析项目的COLAB(双关语)有什么想法,欢迎随时联系Thought。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线