chrome网页视频抓取(GoogleSEO搜索引擎优化初学者指南,处理页面抓取板块包含以下两方面 )
优采云 发布时间: 2022-03-15 05:07chrome网页视频抓取(GoogleSEO搜索引擎优化初学者指南,处理页面抓取板块包含以下两方面
)
Google SEO 搜索引擎优化初学者指南,处理页面抓取部分收录以下两个方面。
一、更有效地使用 robots.txt 文件
1、使用 robots.txt 文件限制爬取
robots.txt 文件主要用于告诉搜索引擎他们是否有权抓取您的 网站 的某些部分。
该文件必须严格命名为 robots.txt,并放在 网站 的根目录下。
您可能不希望 网站 中的某些页面被抓取,并且这些页面可能对用户显示在搜索结果中不是很有用。如果您想阻止搜索引擎抓取这些页面,Google网站Webmaster Tools 有一个非常有用的 robots.txt *敏*感*词*,可以为您生成此文件。请务必注意,如果您的 网站 使用子域并且您不想被抓取的某些页面恰好位于特定子域下,则您需要为此创建一个单独的 robots.txt 文件子域。如果您想了解更多有关 robots.txt 的信息,建议您参考 网站管理员帮助中心的 robots.txt 文件使用指南。
还有很多其他方法可以确保你的 网站 的某些内容不会出现在搜索结果中,例如在你的 robots 元标记中添加“NOINDEX”,使用 .htaccess 文件来保护目录 加密,你也可以使用 < @网站网站管理员工具从搜索结果中删除抓取的页面。
最佳使用方法:
1、对敏感内容使用更安全的方法
仅仅使用 robots.txt 来屏蔽敏感或机密内容,您可能会感觉不太舒服。原因之一是,如果 Internet 上仍有一些链接指向这些 URL(例如引用页面日志),搜索引擎可能仍会跟踪和抓取您要阻止的 URL。当然,它们只会显示您的 URL 地址信息,不会显示标题或内容摘要。一些流氓搜索引擎可能会违反您的 robots.txt 说明,而没有有意识地遵守机器人排除标准。还有其他原因,比如好奇的用户可能查看了您的 robots.txt 文件中的目录和子目录,并猜测了您不想向外界公开的内容的 URL。使用 .htacess 文件对内容进行密码保护或加密是一种更安全的措施。
请避免:
允许你的网站中一些与搜索结果相似的页面被爬取(用户不喜欢离开一个搜索结果页面然后转到另一个搜索结果页面,这对他们来说没有什么价值);允许对大量自动生成的内容相同或非常相似的网页进行爬取,用户会想:“这10万页几乎完全相同的页面真的应该出现在搜索引擎的索引中吗?”;生成的 URL 被抓取。
二、谨慎使用 rel="nofollow"
1、 使用 nofollow 打击垃圾邮件
如果您将链接的“rel”属性设置为“nofollow”,则表示您正在向 Google 发送消息,表示您不希望 Google 继续抓取那些特定链接指向的页面,也不希望通过您自己的页面对这些链接指向的页面的声誉。实现这个效果其实很简单,只需要在链接的anchor标签中加上rel="nofollow"即可。
在什么情况下应该使用nofollow?如果你的网站博客有消息功能,这些消息中的链接会将你的消息传递给一些你不认识也不想推荐的网站。名声。博客的留言簿经常充斥着垃圾邮件。
不要关注这些用户生成的链接,以确保您不会将您来之不易的声誉传递给其他垃圾网站。
2、留言板自动“设置为nofollow”
许多博客软件包会自动nofollow用户的评论,即使它们不提供这样的自动功能,您也可以完全手动调整。这同样适用于您的网站其他用户生成的内容,例如留言簿、论坛、引用等。如果某些第三方(例如您的网站信任此评论者)添加您确认的链接,那么您不需要在这些链接上使用 nofollow。但必须清楚的是,如果您链接到某些被 Google 视为垃圾邮件的 网站,那么您自己的 网站 的声誉也会受到影响。网站管理中心为您提供了更多关于如何防止垃圾邮件的提示,例如使用验证码(输入验证码链接)和启用邮件监控。
3、关于对特定内容或页面上的所有链接使用nofollow
Nofollow 的另一个用途是当您编写 文章 并引用某个 网站,但不想将您的声誉传递给它时。例如,您正在写一篇关于垃圾邮件的博客文章,并且您想揭露一个最近在您的博客上发布恶意评论的网站。为了提醒其他 网站 保持警惕,您在您的 文章 中收录了指向该 网站 的链接;但是,你显然不想把你的网站 的名誉丢给这个可恶的网站。那么这个时候用nofollow比较合适。