话题：谷歌抓取网页视频教程 - 自动文章采集器-优采云官网

谷歌抓取网页视频教程(前一个专题介绍：Web浏览器的介绍及工作原理分析)

网站优化 • 优采云发表了文章 • 0 个评论 • 119 次浏览 • 2021-10-14 10:18 • 来自相关话题

　　谷歌抓取网页视频教程(前一个专题介绍：Web浏览器的介绍及工作原理分析)
　　前言：
　　上一主题介绍了自定义的Web服务器，但是对Web服务器的请求是本主题介绍的Web浏览器。本专题通过简单的自定义一个网页浏览器简单介绍浏览器的工作原理和帮助一些初学者揭开了浏览器的神秘面纱（以前这些应用总觉得很深奥，没想到可以自定义一个浏览器我）。下面不再罗嗦，进入正题。
　　一、网页浏览器介绍
　　Web浏览器是指一种可以显示Web服务器或本地文件系统中的Html文件内容，并允许用户与这些文件进行交互的软件。对服务器返回的超文本信息和各种媒体、图片进行解释和显示。
　　浏览器主要通过Http协议与服务器交互，获取网页。目前主流浏览器包括：IE、Google Chrome（谷歌浏览器）、Mozilla Firefox（火狐）、Opera浏览器、世界之窗、360安全浏览器等。
　　网络浏览器的组成
　　一般而言，Web 浏览器由控制器和解释器组成。控制器负责解释鼠标点击和键盘输入，并调用其他组件来执行用户指定的操作。例如，当用户输入 URL 或点击超链接时，控制器接收并分析命令，调用 HTML 解释器来解释页面，并将解释的结果显示在用户的浏览器上。
　　解释器对浏览器非常重要。解释器，即解释引擎，负责解释网页的语法（如HTML、Javascript）并显示网页。解释器决定浏览器如何显示页面。它是浏览器最重要的部分。内核最重要的部分，所以一般我们所指的浏览器内核指的是浏览器的解释器。
　　不同的浏览器产品可能使用相同的内核。有四种常见的浏览器内核：Trident、Gecko、Presto 和 Webkit。它们与主流浏览器的关系如下：
　　核心
　　浏览器产品
　　三叉戟
　　IE、傲游（Maxthon）、世界之窗、腾讯TT、搜狗浏览器、360安全浏览器
　　壁虎
　　Mozilla 火狐 (Firefox)
　　普雷斯托
　　Opera浏览器
　　网络套件
　　Apple Safari 浏览器、Google Chrome（谷歌浏览器）和Apple Iphone 手机浏览引擎
　　二、.NET 平台支持浏览器开发
　　浏览器软件一般不是从头开发的，而是基于某种内核扩展。同样，微软.NET平台封装了IE浏览器内核，以COM组件的形式提供给用户。这个COM组件就是WebBrowser控件，它实现了浏览器中几乎所有的基本功能。
　　WebBrowser是以IE（Trident）为核心和基本功能的Web浏览器。使用 WebBrowser 控件在 Windows 窗体应用程序中浏览网页。WebBrowser 控件位于工具箱中。使用时，只需将其直接拖至程序窗口即可。
　　下面介绍WebBrowser控件的常用属性和方法
　　这里我直接从MSDN中的一张表中提取来说明：
　　名称说明
　　文档属性
　　获取一个对象，该对象提供对当前网页的 HTML 文档对象模型 (DOM) 的托管访问。
　　DocumentCompleted 事件
　　当页面完成加载时发生。
　　文档文本属性
　　获取或设置当前网页的 HTML 内容。
　　文档标题属性
　　获取当前网页的标题。
　　返回方法查看全部

　　谷歌抓取网页视频教程(前一个专题介绍：Web浏览器的介绍及工作原理分析)
　　前言：
　　上一主题介绍了自定义的Web服务器，但是对Web服务器的请求是本主题介绍的Web浏览器。本专题通过简单的自定义一个网页浏览器简单介绍浏览器的工作原理和帮助一些初学者揭开了浏览器的神秘面纱（以前这些应用总觉得很深奥，没想到可以自定义一个浏览器我）。下面不再罗嗦，进入正题。
　　一、网页浏览器介绍
　　Web浏览器是指一种可以显示Web服务器或本地文件系统中的Html文件内容，并允许用户与这些文件进行交互的软件。对服务器返回的超文本信息和各种媒体、图片进行解释和显示。
　　浏览器主要通过Http协议与服务器交互，获取网页。目前主流浏览器包括：IE、Google Chrome（谷歌浏览器）、Mozilla Firefox（火狐）、Opera浏览器、世界之窗、360安全浏览器等。
　　网络浏览器的组成
　　一般而言，Web 浏览器由控制器和解释器组成。控制器负责解释鼠标点击和键盘输入，并调用其他组件来执行用户指定的操作。例如，当用户输入 URL 或点击超链接时，控制器接收并分析命令，调用 HTML 解释器来解释页面，并将解释的结果显示在用户的浏览器上。
　　解释器对浏览器非常重要。解释器，即解释引擎，负责解释网页的语法（如HTML、Javascript）并显示网页。解释器决定浏览器如何显示页面。它是浏览器最重要的部分。内核最重要的部分，所以一般我们所指的浏览器内核指的是浏览器的解释器。
　　不同的浏览器产品可能使用相同的内核。有四种常见的浏览器内核：Trident、Gecko、Presto 和 Webkit。它们与主流浏览器的关系如下：
　　核心
　　浏览器产品
　　三叉戟
　　IE、傲游（Maxthon）、世界之窗、腾讯TT、搜狗浏览器、360安全浏览器
　　壁虎
　　Mozilla 火狐 (Firefox)
　　普雷斯托
　　Opera浏览器
　　网络套件
　　Apple Safari 浏览器、Google Chrome（谷歌浏览器）和Apple Iphone 手机浏览引擎
　　二、.NET 平台支持浏览器开发
　　浏览器软件一般不是从头开发的，而是基于某种内核扩展。同样，微软.NET平台封装了IE浏览器内核，以COM组件的形式提供给用户。这个COM组件就是WebBrowser控件，它实现了浏览器中几乎所有的基本功能。
　　WebBrowser是以IE（Trident）为核心和基本功能的Web浏览器。使用 WebBrowser 控件在 Windows 窗体应用程序中浏览网页。WebBrowser 控件位于工具箱中。使用时，只需将其直接拖至程序窗口即可。
　　下面介绍WebBrowser控件的常用属性和方法
　　这里我直接从MSDN中的一张表中提取来说明：
　　名称说明
　　文档属性
　　获取一个对象，该对象提供对当前网页的 HTML 文档对象模型 (DOM) 的托管访问。
　　DocumentCompleted 事件
　　当页面完成加载时发生。
　　文档文本属性
　　获取或设置当前网页的 HTML 内容。
　　文档标题属性
　　获取当前网页的标题。
　　返回方法

谷歌抓取网页视频教程(杭州APP开发蒙特关注：谷歌客户端App抓取300多亿个)

网站优化 • 优采云发表了文章 • 0 个评论 • 149 次浏览 • 2021-10-11 11:07 • 来自相关话题

　　谷歌抓取网页视频教程(杭州APP开发蒙特关注：谷歌客户端App抓取300多亿个)
　　杭州APP开发蒙特关注：4月16日，谷歌搜索团队在官方博文中公布了这一消息。
　　谷歌工程师拉詹·帕特尔向媒体透露，从两年前开始，谷歌开始抓取外部应用的内部链接和内容，目前已经抓取了超过 300 亿。
　　在传统的WEB页面中，谷歌可以通过软件“蜘蛛”自动访问和抓取，无需网站管理员的许可。
　　在App内容的抓取上，谷歌需要与应用软件开发商建立合作。谷歌提供了相应的软件开发接口（API），开发者可以通过这些接口向谷歌搜索开放数据，从而实现搜索引擎的内容抓取。
　　据悉，目前已有大量移动端软件与谷歌合作，包括微博Twitter、短租工具Airbnb、消费者点评工具Yelp、手机订餐工具OpenTable、图片采集社交网络Pinterest、房地产搜索工具Trulia以及很快。
　　当然，还有大量的移动媒体应用，也被谷歌抓取用于新闻报道。
　　超过 300 亿个链接的内容与 Google 抓取的网络数据库相比微不足道。此前有报道称，谷歌蜘蛛抓取的网页数量高达数百亿。
　　然而，在智能手机时代，人们使用搜索的目的更加明确，拥有更多的场景信息。因此，主流应用和超过300亿个链接足以为用户提供所需的信息。
　　据介绍，此前在手机上进行搜索时，谷歌客户端会观察用户智能手机中安装了哪些应用，谷歌只会返回已安装应用的搜索结果。
　　日前，谷歌团队还宣布，对收录在搜索结果中的APP进行了修改。即使用户没有安装某个APP，只要有相关性，它的内容就会出现在搜索结果中。
　　例如，如果用户的手机中没有安装点餐工具OpenTable，但在搜索餐厅时，谷歌仍可能会从OpenTable中呈现消费者评论信息。
　　不过，对于谷歌来说，能够抓取大量APP的内容，并不意味着它已经彻底摆脱了“搜索危机”。
　　有观点认为，在智能手机端，手机一族希望以最快的速度获得最准确的搜索结果，因此各种专业APP逐渐取代了传统网页搜索的地位。例如，人们可能会在流行的团购应用中搜索当地餐馆和电影，而不是在 Google 中输入关键词，然后查看庞大网络的结果。
　　
　　蒙特手机APP开发总结：手机搜索消费者行为的变化也给谷歌的发展前景蒙上了一层阴影。Google 90% 的收入来自搜索结果右侧的搜索广告。如果人们远离电脑和传统搜索引擎，谷歌将成为一个非常危险的公司，没有可观的替代收入。在这里，Monte想说，凭借多年的APP开发经验，给你的APP强行不是问题。查看全部

　　谷歌抓取网页视频教程(杭州APP开发蒙特关注：谷歌客户端App抓取300多亿个)
　　杭州APP开发蒙特关注：4月16日，谷歌搜索团队在官方博文中公布了这一消息。
　　谷歌工程师拉詹·帕特尔向媒体透露，从两年前开始，谷歌开始抓取外部应用的内部链接和内容，目前已经抓取了超过 300 亿。
　　在传统的WEB页面中，谷歌可以通过软件“蜘蛛”自动访问和抓取，无需网站管理员的许可。
　　在App内容的抓取上，谷歌需要与应用软件开发商建立合作。谷歌提供了相应的软件开发接口（API），开发者可以通过这些接口向谷歌搜索开放数据，从而实现搜索引擎的内容抓取。
　　据悉，目前已有大量移动端软件与谷歌合作，包括微博Twitter、短租工具Airbnb、消费者点评工具Yelp、手机订餐工具OpenTable、图片采集社交网络Pinterest、房地产搜索工具Trulia以及很快。
　　当然，还有大量的移动媒体应用，也被谷歌抓取用于新闻报道。
　　超过 300 亿个链接的内容与 Google 抓取的网络数据库相比微不足道。此前有报道称，谷歌蜘蛛抓取的网页数量高达数百亿。
　　然而，在智能手机时代，人们使用搜索的目的更加明确，拥有更多的场景信息。因此，主流应用和超过300亿个链接足以为用户提供所需的信息。
　　据介绍，此前在手机上进行搜索时，谷歌客户端会观察用户智能手机中安装了哪些应用，谷歌只会返回已安装应用的搜索结果。
　　日前，谷歌团队还宣布，对收录在搜索结果中的APP进行了修改。即使用户没有安装某个APP，只要有相关性，它的内容就会出现在搜索结果中。
　　例如，如果用户的手机中没有安装点餐工具OpenTable，但在搜索餐厅时，谷歌仍可能会从OpenTable中呈现消费者评论信息。
　　不过，对于谷歌来说，能够抓取大量APP的内容，并不意味着它已经彻底摆脱了“搜索危机”。
　　有观点认为，在智能手机端，手机一族希望以最快的速度获得最准确的搜索结果，因此各种专业APP逐渐取代了传统网页搜索的地位。例如，人们可能会在流行的团购应用中搜索当地餐馆和电影，而不是在 Google 中输入关键词，然后查看庞大网络的结果。
　　

　　蒙特手机APP开发总结：手机搜索消费者行为的变化也给谷歌的发展前景蒙上了一层阴影。Google 90% 的收入来自搜索结果右侧的搜索广告。如果人们远离电脑和传统搜索引擎，谷歌将成为一个非常危险的公司，没有可观的替代收入。在这里，Monte想说，凭借多年的APP开发经验，给你的APP强行不是问题。

谷歌抓取网页视频教程(网页解析我用的是BeautifulSoup的概论(二)_)

网站优化 • 优采云发表了文章 • 0 个评论 • 252 次浏览 • 2021-10-10 09:35 • 来自相关话题

　　谷歌抓取网页视频教程(网页解析我用的是BeautifulSoup的概论(二)_)
　　准备寒假，爬一些MOOC课程，爬回家看。
　　爬取的课程是北京大学离散数学导论
　　
　　其实GitHub有可以直接使用的程序，只是不知道怎么提交HTTP请求，所以直接用selenium简单粗暴。
　　我使用 BeautifulSoup 进行网页分析。
　　这个想法其实很简单。只需直接在课件网页上将每章每节课每单元的所有视频都删除即可。所以直接嵌套循环就可以了。
　　
　　遇到的一些困难：
　　课件部分的两个框是隐藏框，点击模拟浏览器
　　操作前需要使用JavaScript修改元素显示值
　　
　　
　　id 属性
　　元素每次点击都不一样，所以定位元素时，不使用id属性定位，使用title属性或其他属性。另一个是我不能使用无头模式来抓取网页。这应该是我这边的环境问题。不知道大家有没有遇到过这种情况。
　　代码：
　　# -*- coding:utf-8 -*-
import time
from selenium import webdriver
from bs4 import BeautifulSoup
import re
import json
from selenium.webdriver.chrome.options import Options
chrome_options = Options()
chrome_options.add_argument("--disable-gpu")
browser = webdriver.Chrome(executable_path='G:\\chromedriver.exe', options=chrome_options)
browser.get('https://www.icourse163.org/lea ... %2339;) # 目标网页
time.sleep(3)
video = {}
soup = BeautifulSoup(browser.page_source, 'html.parser')
c_l = soup.find("div", attrs={"class": "j-breadcb f-fl"})
chapter_all = c_l.find("div", attrs={"class": "f-fl j-chapter"})
chapter = chapter_all.find_all("div", attrs={"class": "f-thide list"})
for chap in chapter:
js = 'document.querySelectorAll("div.down")[0].style.display="block";'
browser.execute_script(js)
chapter_name = chap.text
a = browser.find_element_by_xpath("//div[@title = '"+chapter_name+"']")
a.click()
time.sleep(3)
soup1 = BeautifulSoup(browser.page_source, 'html.parser')
c_l1 = soup1.find("div", attrs={"class": "j-breadcb f-fl"})
lesson_all = c_l1.find("div", attrs={"class": "f-fl j-lesson"})
lesson = lesson_all.find_all("div", attrs={"class": "f-thide list"})
for les in lesson:
js1 = 'document.querySelectorAll("div.down")[1].style.display="block";'
browser.execute_script(js1)
lesson_name = les.text
b = browser.find_element_by_xpath("//div[@title = '"+lesson_name+"']")
b.click()
time.sleep(3)
soup2 = BeautifulSoup(browser.page_source, 'html.parser')
units = soup2.find_all("li", attrs={"title": re.compile(r"^视频")}) # 只爬取视频课件
for unit in units:
video_name = unit.get("title")
video_link = browser.find_element_by_xpath("//li[@title = '"+video_name+"']")
video_link.click()
time.sleep(3)
soup2 = BeautifulSoup(browser.page_source, 'html.parser')
try:
video_src = soup2.find("source")
video[chapter_name + " " + lesson_name + video_name] = video_src.get("src")
except:
continue
browser.quit()
　　爬取的效果是这样的
　　
　　文笔不好。我开始的时间不长。有兴趣的可以慢慢看原网页的源码。
　　Selenium 简单粗暴，但爬取速度很慢，不如其他爬取方式。
　　以后还是要学着提交POST请求。要是有爬虫带我入门就好了！
　　我刚学爬行的时间不长，计算机知识也不是很多。第一次写东西，多多批评指正！查看全部

　　谷歌抓取网页视频教程(网页解析我用的是BeautifulSoup的概论(二)_)
　　准备寒假，爬一些MOOC课程，爬回家看。
　　爬取的课程是北京大学离散数学导论
　　

　　其实GitHub有可以直接使用的程序，只是不知道怎么提交HTTP请求，所以直接用selenium简单粗暴。
　　我使用 BeautifulSoup 进行网页分析。
　　这个想法其实很简单。只需直接在课件网页上将每章每节课每单元的所有视频都删除即可。所以直接嵌套循环就可以了。
　　

　　遇到的一些困难：
　　课件部分的两个框是隐藏框，点击模拟浏览器
　　操作前需要使用JavaScript修改元素显示值
　　

　　id 属性
　　元素每次点击都不一样，所以定位元素时，不使用id属性定位，使用title属性或其他属性。另一个是我不能使用无头模式来抓取网页。这应该是我这边的环境问题。不知道大家有没有遇到过这种情况。
　　代码：
　　# -*- coding:utf-8 -*-
import time
from selenium import webdriver
from bs4 import BeautifulSoup
import re
import json
from selenium.webdriver.chrome.options import Options
chrome_options = Options()
chrome_options.add_argument("--disable-gpu")
browser = webdriver.Chrome(executable_path='G:\\chromedriver.exe', options=chrome_options)
browser.get('https://www.icourse163.org/lea ... %2339;) # 目标网页
time.sleep(3)
video = {}
soup = BeautifulSoup(browser.page_source, 'html.parser')
c_l = soup.find("div", attrs={"class": "j-breadcb f-fl"})
chapter_all = c_l.find("div", attrs={"class": "f-fl j-chapter"})
chapter = chapter_all.find_all("div", attrs={"class": "f-thide list"})
for chap in chapter:
js = 'document.querySelectorAll("div.down")[0].style.display="block";'
browser.execute_script(js)
chapter_name = chap.text
a = browser.find_element_by_xpath("//div[@title = '"+chapter_name+"']")
a.click()
time.sleep(3)
soup1 = BeautifulSoup(browser.page_source, 'html.parser')
c_l1 = soup1.find("div", attrs={"class": "j-breadcb f-fl"})
lesson_all = c_l1.find("div", attrs={"class": "f-fl j-lesson"})
lesson = lesson_all.find_all("div", attrs={"class": "f-thide list"})
for les in lesson:
js1 = 'document.querySelectorAll("div.down")[1].style.display="block";'
browser.execute_script(js1)
lesson_name = les.text
b = browser.find_element_by_xpath("//div[@title = '"+lesson_name+"']")
b.click()
time.sleep(3)
soup2 = BeautifulSoup(browser.page_source, 'html.parser')
units = soup2.find_all("li", attrs={"title": re.compile(r"^视频")}) # 只爬取视频课件
for unit in units:
video_name = unit.get("title")
video_link = browser.find_element_by_xpath("//li[@title = '"+video_name+"']")
video_link.click()
time.sleep(3)
soup2 = BeautifulSoup(browser.page_source, 'html.parser')
try:
video_src = soup2.find("source")
video[chapter_name + " " + lesson_name + video_name] = video_src.get("src")
except:
continue
browser.quit()
　　爬取的效果是这样的
　　

　　文笔不好。我开始的时间不长。有兴趣的可以慢慢看原网页的源码。
　　Selenium 简单粗暴，但爬取速度很慢，不如其他爬取方式。
　　以后还是要学着提交POST请求。要是有爬虫带我入门就好了！
　　我刚学爬行的时间不长，计算机知识也不是很多。第一次写东西，多多批评指正！

谷歌抓取网页视频教程(Google发布重大更新：抓取错误功能检测和报告多种新的错误类型)

网站优化 • 优采云发表了文章 • 0 个评论 • 84 次浏览 • 2021-10-10 08:00 • 来自相关话题

　　谷歌抓取网页视频教程(Google发布重大更新：抓取错误功能检测和报告多种新的错误类型)
　　抓取错误是 Google 网站网站管理员工具中最受欢迎的工具之一。昨天，谷歌发布了抓取错误工具的重大更新，使其更加方便和有用。
　　现在，错误获取功能可以检测和报告各种新的错误类型。为了让数据更直观，网站站长工具将错误分为两类：网站错误（站点错误）和链接地址错误（URL错误）。
　　内容
　　站点错误
　　网站错误是指影响整个网站的错误，而不是具体的URL链接。包括DNS解析失败、服务器连接问题、获取robots.txt文件问题等。之前谷歌站长工具只报相关链接地址错误。但是这样做没有多大意义，因为它们不是由特定链接引起的。事实上，这个错误甚至会阻止 Googlebot 请求 URL 链接地址。于是谷歌站长工具开始追踪此类错误的频率，并在适当的时候向网站管理员发送提醒。
　　
　　查看网站误差频率和频率变化曲线
　　而且，如果你的网站没有犯过任何错误，或者最近一段时间没有这方面的问题——实际上大部分网站都是这种情况——他们只会show simple 一切正常提示不会显示大量信息影响管理员获取其他信息。总之，如果你看到的提示图标都是绿色的，就说明一切正常。
　　
　　如果最近一段时间网站没有问题，会显示这样的友好提示信息
　　网址链接错误
　　URL 链接错误是指向特定页面的那些错误。当谷歌机器人尝试抓取链接时，它能够解析DNS，连接到服务器，抓取robots.txt文件，但在请求URL链接地址时遇到错误。根据错误原因，URL链接地址错误有几种类型。如果网站提供 Google 新闻内容或移动数据内容（CHTML/XHTML），这些错误将根据不同的类别显示。
　　
　　链接错误提示
　　简洁的错误信息
　　以前，Google 网站Webmaster Tools 为每个类别显示多达 100,000 个错误。检查这么多错误信息是非常困难的。您甚至无法知道哪些错误是重要的（例如主页无法打开），哪些错误是次要的（例如链接到您的网页时的其他网站拼写错误）。基本上不可能对 100,000 条错误记录进行排序、搜索或标记您的处理进度。
　　在新版本的抓取错误中，谷歌开发者尽量只提供最重要的错误信息。对于每个错误分类，一般只提供 1000 条被认为是最重要的错误信息。网站管理员还可以对这些错误进行排序过滤，查看错误详情并进行处理，然后将已经处理过的错误进行标记并通知谷歌（这样就不会再次显示，除非错误再次出现） .
　　
　　在任何列上实时排序或过滤错误消息
　　对于某种错误类型，某些网站可能有1000多个错误，超过这个数目的错误仍然可以反映在错误总数中。还有一些图标可以显示过去 90 天的历史错误数据。有人可能会担心 1000 个错误的详细信息加上粗略的错误总数可能不够。谷歌正在考虑提供一个 API 接口来解决这个问题。
　　现在，网站站长工具会移除robots.txt屏蔽的链接列表，因为虽然有时这些链接有助于诊断robots.txt错误，但这些链接是管理员专门屏蔽的（自屏蔽当然可以）应该很清楚）。为了关注真正的错误，被robot.txt屏蔽的链接将很快移至“网站站点配置”部分的“爬虫访问”页面。
　　查看错误详情
　　单击主列表中的单个错误链接可激活一个面板，该面板显示详细的错误信息，包括上次提取时间、发现错误的最早时间以及简单说明。
　　
　　可以在主列表中看到的错误详细信息
　　在详细信息面板中，您也可以直接点击相关链接查看访问过程中会出现哪些错误。如果没有问题，可以将此错误标记为“已修复”（以后会提供更多选项），也可以查看此类错误的帮助信息，包括网站图的链接文件列表、链接去链接地址的其他页面列表等，也可以用Googlebot模拟爬取链接，看看有没有其他问题或者是否已经修复。
　　
　　查看链接到此页面的其他页面地址列表
　　采取行动
　　错误爬取功能中值得期待的一件事是，网站管理员实际上可以专注于解决最重要的问题。谷歌网站管理员工具对错误进行分类，而那些高优先级项目确实是您可以解决的问题。要么你需要修复网站上的链接，要么你需要处理服务器上的软件问题，要么你需要更新网站映射文件来清理那些不需要的链接，或者添加一个301重定向将用户重定向到正确的页面等。谷歌站长工具在确定优先级时会考虑多种因素，包括你是否在网站映射中收录了URL，有多少页面链接到该地址（还要考虑这些页面是否在你自己的网站@ > 上),
　　一旦您认为问题已修复（您可以使用 Googlebot 模拟抓取页面），您可以将其标记为“已修复”（当然，您必须是管理员）。此操作会通知 Google Webmaster Tools，然后该错误将从错误列表（重要的 1000 项）的顶部删除，并且不再显示（除非 Googlebot 在抓取页面时再次遇到相同的错误）。
　　
　　将错误标记为已修复
　　英文原文由 Webmaster Tools 团队的 Kurt Dresner 撰写。由于时间关系，本文不提供翻译以保证质量。请保留本段内容，以表达对原作者的尊重。
　　同时，谷歌还更新了网站Webmaster Tools 帮助文档的相关部分，并提供链接供参考。©
　　本文发表于水景专页。永久链接：。转载请保留此信息及相关链接。查看全部

　　谷歌抓取网页视频教程(Google发布重大更新：抓取错误功能检测和报告多种新的错误类型)
　　抓取错误是 Google 网站网站管理员工具中最受欢迎的工具之一。昨天，谷歌发布了抓取错误工具的重大更新，使其更加方便和有用。
　　现在，错误获取功能可以检测和报告各种新的错误类型。为了让数据更直观，网站站长工具将错误分为两类：网站错误（站点错误）和链接地址错误（URL错误）。
　　内容
　　站点错误
　　网站错误是指影响整个网站的错误，而不是具体的URL链接。包括DNS解析失败、服务器连接问题、获取robots.txt文件问题等。之前谷歌站长工具只报相关链接地址错误。但是这样做没有多大意义，因为它们不是由特定链接引起的。事实上，这个错误甚至会阻止 Googlebot 请求 URL 链接地址。于是谷歌站长工具开始追踪此类错误的频率，并在适当的时候向网站管理员发送提醒。
　　

　　查看网站误差频率和频率变化曲线
　　而且，如果你的网站没有犯过任何错误，或者最近一段时间没有这方面的问题——实际上大部分网站都是这种情况——他们只会show simple 一切正常提示不会显示大量信息影响管理员获取其他信息。总之，如果你看到的提示图标都是绿色的，就说明一切正常。
　　

　　如果最近一段时间网站没有问题，会显示这样的友好提示信息
　　网址链接错误
　　URL 链接错误是指向特定页面的那些错误。当谷歌机器人尝试抓取链接时，它能够解析DNS，连接到服务器，抓取robots.txt文件，但在请求URL链接地址时遇到错误。根据错误原因，URL链接地址错误有几种类型。如果网站提供 Google 新闻内容或移动数据内容（CHTML/XHTML），这些错误将根据不同的类别显示。
　　

　　链接错误提示
　　简洁的错误信息
　　以前，Google 网站Webmaster Tools 为每个类别显示多达 100,000 个错误。检查这么多错误信息是非常困难的。您甚至无法知道哪些错误是重要的（例如主页无法打开），哪些错误是次要的（例如链接到您的网页时的其他网站拼写错误）。基本上不可能对 100,000 条错误记录进行排序、搜索或标记您的处理进度。
　　在新版本的抓取错误中，谷歌开发者尽量只提供最重要的错误信息。对于每个错误分类，一般只提供 1000 条被认为是最重要的错误信息。网站管理员还可以对这些错误进行排序过滤，查看错误详情并进行处理，然后将已经处理过的错误进行标记并通知谷歌（这样就不会再次显示，除非错误再次出现） .
　　

　　在任何列上实时排序或过滤错误消息
　　对于某种错误类型，某些网站可能有1000多个错误，超过这个数目的错误仍然可以反映在错误总数中。还有一些图标可以显示过去 90 天的历史错误数据。有人可能会担心 1000 个错误的详细信息加上粗略的错误总数可能不够。谷歌正在考虑提供一个 API 接口来解决这个问题。
　　现在，网站站长工具会移除robots.txt屏蔽的链接列表，因为虽然有时这些链接有助于诊断robots.txt错误，但这些链接是管理员专门屏蔽的（自屏蔽当然可以）应该很清楚）。为了关注真正的错误，被robot.txt屏蔽的链接将很快移至“网站站点配置”部分的“爬虫访问”页面。
　　查看错误详情
　　单击主列表中的单个错误链接可激活一个面板，该面板显示详细的错误信息，包括上次提取时间、发现错误的最早时间以及简单说明。
　　

　　可以在主列表中看到的错误详细信息
　　在详细信息面板中，您也可以直接点击相关链接查看访问过程中会出现哪些错误。如果没有问题，可以将此错误标记为“已修复”（以后会提供更多选项），也可以查看此类错误的帮助信息，包括网站图的链接文件列表、链接去链接地址的其他页面列表等，也可以用Googlebot模拟爬取链接，看看有没有其他问题或者是否已经修复。
　　

　　查看链接到此页面的其他页面地址列表
　　采取行动
　　错误爬取功能中值得期待的一件事是，网站管理员实际上可以专注于解决最重要的问题。谷歌网站管理员工具对错误进行分类，而那些高优先级项目确实是您可以解决的问题。要么你需要修复网站上的链接，要么你需要处理服务器上的软件问题，要么你需要更新网站映射文件来清理那些不需要的链接，或者添加一个301重定向将用户重定向到正确的页面等。谷歌站长工具在确定优先级时会考虑多种因素，包括你是否在网站映射中收录了URL，有多少页面链接到该地址（还要考虑这些页面是否在你自己的网站@ > 上),
　　一旦您认为问题已修复（您可以使用 Googlebot 模拟抓取页面），您可以将其标记为“已修复”（当然，您必须是管理员）。此操作会通知 Google Webmaster Tools，然后该错误将从错误列表（重要的 1000 项）的顶部删除，并且不再显示（除非 Googlebot 在抓取页面时再次遇到相同的错误）。
　　

　　将错误标记为已修复
　　英文原文由 Webmaster Tools 团队的 Kurt Dresner 撰写。由于时间关系，本文不提供翻译以保证质量。请保留本段内容，以表达对原作者的尊重。
　　同时，谷歌还更新了网站Webmaster Tools 帮助文档的相关部分，并提供链接供参考。©
　　本文发表于水景专页。永久链接：。转载请保留此信息及相关链接。

谷歌抓取网页视频教程(Google发布重大更新：抓取错误功能检测和报告多种新的错误类型)

网站优化 • 优采云发表了文章 • 0 个评论 • 128 次浏览 • 2021-10-10 07:37 • 来自相关话题