excel抓取多页网页数据(如何使用ScreamingFrog批量查看单个页面是否被谷歌收录? )

优采云 发布时间: 2021-11-07 16:11

  excel抓取多页网页数据(如何使用ScreamingFrog批量查看单个页面是否被谷歌收录?

)

  文章要点:

  · Info命令/新版GSC检查单个页面是否为Google收录

  文章 来自:【“收录之家”快排系统任务发布平台】。

  · GSC可导出1000页收录数据

  · 1000多页收录查看/快速查看一些新上线的页面收录 情况:Screaming Frog抓取网页快照,判断页面快照是否存在,反转页面是否已经收录@ >

  · 使用Excel的VLOOKUP功能,匹配GA最近访问量和整个站点的站点地图文件,过滤掉一些已经收录的页面,得到一个未确认的收录页面。提高以下步骤的效率

  · 利用Excel的CONCATENATE功能匹配快照命令+页面链接,直接批量生成网页快照链接

  · Screaming Frog 抓取确认网页快照。如果返回码为200,则为收录,代码302需要进一步检查(注意VPN的使用,调整爬取速度,避免被谷歌屏蔽)

  ·查看爬取结果返回302的页面

  我们知道网站页面必须在SERP中排名。过程很复杂,但分为三个部分:抓取和抓取页面的HTML代码并存入数据库;提取页面数据的文本,中文分词等预处理;最后等待用户搜索关键词,页面在SERP中排名。

  如果单独检查一个页面是否为收录,可以使用info命令:

  

  也可以通过新的谷歌搜索控制台的网址检查功能查看

  

  想要大量查看网站页面收录情况的用户,可以使用GSC新版本的索引报告,可以导出网站@的情况报告> page收录,方便查看哪些页面不是收录。@收录,但只能导出 1000 页。

  

  除了使用GSC批量查看网站页面收录之外,还有一种替代方法是使用Screaming Frog查看缓存页面的Http状态,因为页面快照(cached)就是搜索收录页面上的引擎 网页是当时备份的,所以可以使用爬虫抓取页面的数据来确认该网页在搜索引擎中是否有该网页的快照,并判断是否被搜索引擎收录。超过1000页的网站,或者只想查看新页面状态的用户收录,可以试试这个解决方案。下面演示如何使用Screaming Frog批量查看页面收录的情况。

  

  1.网站内部:GA匹配SITEMAP筛选部分已经收录页面。

  对于页面数量特别多的网站,可以过滤掉一些已经确认为收录的页面,以提高后面收录检查的效率。页面可以自然访问,说明搜索引擎已经将该页面展示给用户,即GA中自然访问的页面就是已经收录的页面。这一步我们直接过滤掉GA导出获取最近一个月的展示页面,去除大量已经收录的页面,提高后续步骤的效率。

  

  GA数据导出后,使用VLOOKUP函数匹配网站sitemap,过滤匹配成功(即确定为收录的页面)。简述VLOOKUP函数中需要收录的数据,即=VLOOKUP(要匹配的数据,要匹配的数据,需要的数据在匹配数据的x列,返回近似值1或精确值0),这个方法中的中间是=VLOOKUP(sitemap中的一个页面,比如A2,GA数据列表A2:A731,只取列表中的一列数据1,完全匹配0),得到GA数据Pages中可以匹配的sitemap数据,删除匹配的页面,我们会得到尚未确定为收录的页面,然后进行下一步。

  

  2. 批量生成谷歌网页快照链接。

  上一步得到的未确定的收录页面,现在我们考虑使用Screaming Frog抓取Google页面缓存来确认该页面是否已经被收录(收录然后检测缓存快照)。由于谷歌缓存快照(cached)链接有一定的模式(/search?q=cache:page link),我们在这一步使用excel上的连接功能,批量连接谷歌缓存命令和网页链接,得到下一个初步筛选链接列表。

  

  3. 使用 SCREAMING FROG 批量捕获链接状态。

  现在我们只需要通过 Screaming Frog 批量获取这些链接状态即可。如果状态码返回200,则该页面已被搜索引擎成功收录;如果是 404,则表示它还没有被索引。

  点击Upload上传所有需要检查的链接,点击Start开始抓取页面信息:

  

  注意:

  由于我们现在通过爬虫软件抓取谷歌搜索信息,IP地址很有可能被屏蔽掉,所以在使用爬虫之前一定要注意使用VPN进行操作,混淆我们的IP地址,降低Screaming Frog的速度爬行。

  在 Screaming Frog 上开启代理:在配置>系统>代理中点击“使用代理服务器”

  

  控制尖叫青蛙的爬行速度:

  

  4.查看爬取结果。

  如果在爬取过程中返回302状态码,说明被谷歌屏蔽了,需要调整爬取速度,更改VPN区域。如果只有几个链接返回302状态码,那么谷歌需要用人机识别你,我们可以一一查询。

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线