抓取ajax动态网页java( Google官方的搜寻引擎与索引(Index)超完整攻略)

优采云发布时间: 2022-01-01 03:19

　　抓取ajax动态网页java(

Google官方的搜寻引擎与索引(Index)超完整攻略)

　　抓取和索引是 SEO 领域中两个非常非常基本的概念。它们是学习 SEO 之前必须了解的基本概念。但是检索和索引的优化概念非常多，仅仅通过一个文章我可能无法完全讲完，所以在这个文章中我只会先解释基本概念，而链接到我在文章文章写的相关的，帮助大家学习：)

　　Google 还为网站运算符提供了许多官方 HTML 语法。通过这些语法和HTML标签，你可以优化搜索引擎爬虫如何检索和理解你的网站，但是每个语法的功能都不一样，所以我会把每个语法写在一个单独的文章中，比如:

　　三分钟看懂SEO“元机器人，robots.txt”

　　认识SEO排名杀手，“重复内容”超全攻略

　　（重复内容中提到的Canonical标签文章是常用的SEO标签）

　　认识SEO的Title Tag

　　但是在阅读以上文章之前，建议大家一定要先阅读这篇文章，确保自己有检索（Crawl）和索引（Index）的概念。

　　了解SEO的“搜索”和“索引”

　　网络爬虫这个词比较抽象。 Google 正式将其称为 Google Spider 或 Google Bot。你可以把整个互联网世界想象成一个巨大的蜘蛛网，而搜索引擎本身就有一个属于它的爬虫程序。 , 这个程序会像蜘蛛一样在这个巨大的网上爬行，采集信息。

　　做SEO工作，维护好搜索引擎爬虫和网站的关系很重要。我们一定要尽量让它爬取你网站上的优质内容，否则会对你的网站SEO造成影响（我会在这个文章慢慢说到)，搜索引擎运行的原理可以简单分为三个阶段：

　　Phase 1-Retrieval（爬取）：搜索引擎的爬虫来你的网站爬取下载网站的数据。这个动作叫做检索，在谷歌的官方文档上正式的专有名词叫做“搜索”，但SEO行业更习惯用白话来称呼它。通常我们称之为爬行、爬行和其他更白话的术语。在这个阶段，谷歌的爬虫会爬取你的网站上所有可以爬取的数据，包括你的网页内容、代码、图片等所有的网络信息。

　　Phase 2-Indexing (收录)：收录将您的网页数据构建到搜索引擎中的操作称为索引（用白话来说，它是收录的意思），但即使你的网站在搜索引擎中是收录，也不代表你会获得可观的搜索流量。谷歌可能愿意为收录你的网站，但你可能不愿意给你一个很好的网站搜索排名（取决于你的网站是否是一个高-质量网站以及是否优化得很好，否则谷歌可能愿意收录网站，但我不希望你的网站经常被搜索）很多人们认为网站没有搜索流量就意味着你没有被Google收录。其实这个概念是错误的。 “有没有收录”和“有没有排名和流量”是两件事。但至少让 Google收录进入搜索引擎是很好的第一步。如果谷歌连收录你的网站都不愿意，更不用说搜索流量和SEO了。

　　Stage 3-Exposure in search results：当搜索者查询关键词时，你的网站可能会被谷歌提供给搜索者，你的品牌也会获得搜索流量（但这取决于你是不是你的网站@ > 一个高质量的网站，有没有SEO？

　　为什么在学习SEO时需要理解“搜索”和“索引”？

　　在实践中，我们在学习SEO的时候，会在网上遇到很多文章的主题，围绕所谓的“排名因素”，这就是你网站如何上Google Ranked在搜索结果的前面，但在实践中，网站将面临的SEO问题有很多方面，根据网站的结构，网站的行业，市场所在它位于等等。它取决于因素，而不仅仅是优化“排名因素”。如果谷歌不能以健康的方式抓取你的网站数据，那么网站的排名因子优化将毫无用处。，因为他的爬虫根本看不到你网站里面的数据，所以你要了解搜索引擎的爬虫是怎么检索的（爬取数据），然后是怎么索引的（收录 )网站。

　　比如在我们的实践中，经常会遇到客户网站使用AJAX程序构建动态瀑布流。当你输入网站时，你会看到四个文章链接，然后当你用鼠标向下滚动时，程序就会触发，接下来的四个就会出现（简而言之，这就是Facebook现在所做的，俗称瀑布流）。通常，在这种情况下，Google 的爬虫只会爬到一开始的前几件事只是文章，因为网络爬虫不会像人类用户那样向下滚动并触发 AJAX 程序的瀑布。在这种情况下，谷歌的爬虫看到的网页信息很少，当然会伤害你的SEO（不管你的网站有多好，不管你的网站有多好，只要谷歌的爬虫看不出来，基本没意义）。

　　因此，作为SEOer，研究和了解爬虫的有效性很重要。我们必须了解搜索引擎爬虫的性能限制，哪些网络技术不能被爬虫正确抓取（比如瀑布流，在大多数情况下是没有办法的。搜索爬虫在爬取数据方面非常有效），而谷歌爬虫和必应/Yahoo 搜索引擎爬虫是由不同的团队/公司开发的，所以它们的爬虫性能有些不同。如果你想做SEO 除了谷歌，雅虎/必应也可以优化，所以你得花时间研究一下。

　　如何判断“搜索”或“索引”状态是否有问题

　　这个话题有很多方面可以讨论。在这篇文章中，我将首先谈谈一些基本的概念和方法。

　　首先，在大多数情况下，只要你的网站被谷歌“抓取”的非常健康，收录就不会有问题。通常情况下，如果谷歌对你的网站有健康搜索，但没有收录你的网站，这意味着你的网站可能违反了规则或使用了作弊方法做SEO被谷歌处罚（违规处罚除外）另外，很少有网站可以检索，但谷歌不愿意收录你的网站） .

　　那么，您如何检查 Google 是否正在健康地抓取（检索）您的网站？常用的方法之一是使用搜索控制台报告（示例如下图所示）。

　　（如果你不知道 Search Console 是什么，可以参考这个 Search Console 初学者教程）

　　此报告顶部的蓝色趋势图是“每天检索的网页数量”。此图表表示“Google 抓取您的网站时每天抓取的网页数量”。通常图形会在一个范围内波动。在大多数情况下，Google 每天抓取的网页数量取决于三件事：

　　1.你的网站在市场上有多重要，你的SEO权重有多高网站（也称为抓取预算）

　　2.你的网站架构是否使用了不利于爬虫的技术，导致爬虫难以爬取数据

　　3.你主动阻止谷歌对你爬行吗？网站（屏蔽谷歌的部分可以阅读非技术人员也能看懂的“meta robots，robots.txt”）

　　以上报告可以帮助您检查Google是否健康地“抓取”了您的网站。通常情况下，如果谷歌爬取你网页的次数离你的网站太远，那对于SEO来说都不太好。比如你的网站一共有8000个网页，但是Google每天抓取你的网站却只抓取了50~100页左右。如果您的网站有 8,000 页，那么 Google 每天抓取 500 到 1,000 页是正常的。

　　但是“索引”呢？如何检查 Google 是否拥有我的网站的健康索引？在这部分，您可以阅读我的网站说明，以学习使用和诊断“Google 索引”的状态。里面有非常完整的教导。

　　如何避免SEO中的“搜索”和“索引”问题？

　　排除你的违规和作弊行为导致谷歌不愿意处理你的网站，这里列举几个常见的优化项目，也是我们在担任SEO顾问时通常会检查的优化项目。项目：

<p>虽然谷歌近年来声称搜索引擎现在可以有效解析 JavaScript 和 AJAX 技术，但仍有许多网站 JavaScript 和 AJAX 技术无法被谷歌有效解析（这个

0

2022-01-01

抓取ajax动态网页java

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

抓取ajax动态网页java( Google官方的搜寻引擎与索引(Index)超完整攻略)

0 个评论

发起人