抓取ajax动态网页java( Google官方的搜寻引擎与索引(Index)超完整攻略)

优采云 发布时间: 2022-01-01 03:19

  抓取ajax动态网页java(

Google官方的搜寻引擎与索引(Index)超完整攻略)

  

  抓取和索引是 SEO 领域中两个非常非常基本的概念。它们是学习 SEO 之前必须了解的基本概念。但是检索和索引的优化概念非常多,仅仅通过一个文章我可能无法完全讲完,所以在这个文章中我只会先解释基本概念,而链接到我在文章文章写的相关的,帮助大家学习:)

  Google 还为 网站 运算符提供了许多官方 HTML 语法。通过这些语法和HTML标签,你可以优化搜索引擎爬虫如何检索和理解你的网站,但是每个语法的功能都不一样,所以我会把每个语法写在一个单独的文章中,比如:

  三分钟看懂SEO“元机器人,robots.txt”

  认识SEO排名杀手,“重复内容”超全攻略

  (重复内容中提到的Canonical标签文章是常用的SEO标签)

  认识SEO的Title Tag

  但是在阅读以上文章之前,建议大家一定要先阅读这篇文章,确保自己有检索(Crawl)和索引(Index)的概念。

  了解SEO的“搜索”和“索引”

  网络爬虫这个词比较抽象。 Google 正式将其称为 Google Spider 或 Google Bot。你可以把整个互联网世界想象成一个巨大的蜘蛛网,而搜索引擎本身就有一个属于它的爬虫程序。 , 这个程序会像蜘蛛一样在这个巨大的网上爬行,采集信息。

  做SEO工作,维护好搜索引擎爬虫和网站的关系很重要。我们一定要尽量让它爬取你网站上的优质内容,否则会对你的网站SEO造成影响(我会在这个文章慢慢说到),搜索引擎运行的原理可以简单分为三个阶段:

  

  Phase 1-Retrieval(爬取):搜索引擎的爬虫来你的网站爬取下载网站的数据。这个动作叫做检索,在谷歌的官方文档上正式的专有名词叫做“搜索”,但SEO行业更习惯用白话来称呼它。通常我们称之为爬行、爬行和其他更白话的术语。在这个阶段,谷歌的爬虫会爬取你的网站上所有可以爬取的数据,包括你的网页内容、代码、图片等所有的网络信息。

  Phase 2-Indexing (收录):收录 将您的网页数据构建到搜索引擎中的操作称为索引(用白话来说,它是 收录 的意思),但即使你的网站在搜索引擎中是收录,也不代表你会获得可观的搜索流量。谷歌可能愿意为收录你的网站,但你可能不愿意给你一个很好的网站搜索排名(取决于你的网站是否是一个高-质量网站以及是否优化得很好,否则谷歌可能愿意收录网站,但我不希望你的网站经常被搜索)很多人们认为网站没有搜索流量就意味着你没有被Google收录。其实这个概念是错误的。 “有没有收录”和“有没有排名和流量”是两件事。但至少让 Google收录 进入搜索引擎是很好的第一步。如果谷歌连收录你的网站都不愿意,更不用说搜索流量和SEO了。

  Stage 3-Exposure in search results:当搜索者查询关键词时,你的网站可能会被谷歌提供给搜索者,你的品牌也会获得搜索流量(但这取决于你是不是你的网站@ > 一个高质量的网站,有没有SEO?

  为什么在学习SEO时需要理解“搜索”和“索引”?

  在实践中,我们在学习SEO的时候,会在网上遇到很多文章的主题,围绕所谓的“排名因素”,这就是你网站如何上Google Ranked在搜索结果的前面,但在实践中,网站将面临的SEO问题有很多方面,根据网站的结构,网站的行业,市场所在它位于等等。它取决于因素,而不仅仅是优化“排名因素”。如果谷歌不能以健康的方式抓取你的网站数据,那么网站的排名因子优化将毫无用处。 ,因为他的爬虫根本看不到你网站里面的数据,所以你要了解搜索引擎的爬虫是怎么检索的(爬取数据),然后是怎么索引的(收录 )网站。

  比如在我们的实践中,经常会遇到客户网站使用AJAX程序构建动态瀑布流。当你输入网站时,你会看到四个文章链接,然后当你用鼠标向下滚动时,程序就会触发,接下来的四个就会出现(简而言之,这就是Facebook现在所做的,俗称瀑布流)。通常,在这种情况下,Google 的爬虫只会爬到一开始的前几件事只是文章,因为网络爬虫不会像人类用户那样向下滚动并触发 AJAX 程序的瀑布。在这种情况下,谷歌的爬虫看到的网页信息很少,当然会伤害你的SEO(不管你的网站有多好,不管你的网站有多好,只要谷歌的爬虫看不出来,基本没意义)。

  

  因此,作为SEOer,研究和了解爬虫的有效性很重要。我们必须了解搜索引擎爬虫的性能限制,哪些网络技术不能被爬虫正确抓取(比如瀑布流,在大多数情况下是没有办法的。搜索爬虫在爬取数据方面非常有效),而谷歌爬虫和必应/Yahoo 搜索引擎爬虫是由不同的团队/公司开发的,所以它们的爬虫性能有些不同。如果你想做SEO 除了谷歌,雅虎/必应也可以优化,所以你得花时间研究一下。

  如何判断“搜索”或“索引”状态是否有问题

  这个话题有很多方面可以讨论。在这篇文章中,我将首先谈谈一些基本的概念和方法。

  首先,在大多数情况下,只要你的网站被谷歌“抓取”的非常健康,收录就不会有问题。通常情况下,如果谷歌对你的网站有健康搜索,但没有收录你的网站,这意味着你的网站可能违反了规则或使用了作弊方法做SEO被谷歌处罚(违规处罚除外)另外,很少有网站可以检索,但谷歌不愿意收录你的网站) .

  那么,您如何检查 Google 是否正在健康地抓取(检索)您的 网站?常用的方法之一是使用搜索控制台报告(示例如下图所示)。

  (如果你不知道 Search Console 是什么,可以参考这个 Search Console 初学者教程)

  

  此报告顶部的蓝色趋势图是“每天检索的网页数量”。此图表表示“Google 抓取您的 网站 时每天抓取的网页数量”。通常图形会在一个范围内波动。在大多数情况下,Google 每天抓取的网页数量取决于三件事:

  1.你的网站在市场上有多重要,你的SEO权重有多高网站(也称为抓取预算)

  2.你的网站架构是否使用了不利于爬虫的技术,导致爬虫难以爬取数据

  3.你主动阻止谷歌对你爬行吗?网站(屏蔽谷歌的部分可以阅读非技术人员也能看懂的“meta robots,robots.txt”)

  以上报告可以帮助您检查Google是否健康地“抓取”了您的网站。通常情况下,如果谷歌爬取你网页的次数离你的网站太远,那对于SEO来说都不太好。比如你的网站一共有8000个网页,但是Google每天抓取你的网站却只抓取了50~100页左右。如果您的 网站 有 8,000 页,那么 Google 每天抓取 500 到 1,000 页是正常的。

  但是“索引”呢?如何检查 Google 是否拥有我的 网站 的健康索引?在这部分,您可以阅读我的网站说明,以学习使用和诊断“Google 索引”的状态。里面有非常完整的教导。

  如何避免SEO中的“搜索”和“索引”问题?

  排除你的违规和作弊行为导致谷歌不愿意处理你的网站,这里列举几个常见的优化项目,也是我们在担任SEO顾问时通常会检查的优化项目。项目:

<p>虽然谷歌近年来声称搜索引擎现在可以有效解析 JavaScript 和 AJAX 技术,但仍有许多 网站 JavaScript 和 AJAX 技术无法被谷歌有效解析(这个

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线