动态网页抓取(动态页面静态化,若何避免重复收录页面数的体会 )

优采云 发布时间: 2021-12-22 08:16

  动态网页抓取(动态页面静态化,若何避免重复收录页面数的体会

)

  我作为一个站工作了一段时间。这段时间,我对搜索引擎有了新的认识——首先,定位不同,自然理解也不同。我曾经是一个搜索引擎的用户,我只关心搜索引擎能否正确找到我需要的信息。现在我有了不同的地位,我已经成为搜索引擎的上游内容提供商。可以近距离观察搜索引擎的工作情况,对搜索引擎有深刻的了解。尤其是本站下决心换新域名前后,我特别关心搜索引擎的工作。我每天关注三大搜索引擎的收录页数。我有一些经验。我随便说说吧。办公室,请正确:

  动态页面是静态的,如何避免重复爬取

  1、 使用robots 文件屏蔽此页面。语法风格的具体方法: Disallow: /page/ #限制抓取WordPRess页面,如果你检查你的网站 如有必要,你也可以总结下面的句子写出来,避免太多重复的页面。* Disallow: /category/*/page/* #Restricted to crawl category pages* Disallow:/tag/ #Restricted to crawl tag pages* Disallow: */trackback/ #Restricted to crawl Trackback content* Disallow:/category/* #限于抓取所有分类列表什么是蜘蛛,也叫爬虫,其实是一个程序。这个程序的作用就是沿着你的网站 URL逐层读取一点信息,做一个简单的处理,然后发回后端服务器集中处理。2、论坛是用Discuz制作的。论坛的后端是静态的。本来是直接使用官方默认的robots.txt文件的。但是发现百度统计中的SEO提案提醒“在静态页面上启用动态参数变量会导致蜘蛛多次重复爬取”,发现很多动态页面被重复爬取。所以我干预了 robots.txt 文件中的 Disallow: /*?* 标签。我不希望搜索引擎抓取动态页面。3、动态网页优化是页面静态的。大多数搜索引擎的蜘蛛程序都不能解释符号?后一个特点意味着动态网页很难被搜索引擎检索到,因此被用户发现的几率大大降低。下面介绍IIS_ReWrite的静态处理,

  建站虽难,但人生难免撞南墙,难免得鼻梁。不管怎样,该出手的时候,就是该出手的时候了。风雨过后见彩虹。以上内容与大家分享。希望对新手有帮助。对于老手来说,这只是个玩笑。只是不要鄙视我。本文由于世维英在实施中采集。欢迎转载。请注明,谢谢合作

  静态动态页面,如何避免重复抓取

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线