擎索引网站的爬行、抓取、过滤、网页的价值判断

优采云 发布时间: 2021-07-14 06:29

  擎索引网站的爬行、抓取、过滤、网页的价值判断

  搜索引擎网站的爬取、爬取、过滤、网页价值判断、页面排序、展示结果都是站在用户的角度,也采集用户体验行为的反馈,尤其是互联网网站WEB2.0时代,用户主导搜索引擎方向。不要把百度当成网站优化的障碍。把自己和搜索引擎当成网站的普通访问者,更好的用户体验的提升是为了提升搜索引擎,而网站对搜索引擎的优化也应该建立在让用户受益的基础上。

  

  网站对搜索引擎和用户的优化主要分为三个部分:如何更好地让内容在搜索引擎收录网站中,如何在搜索引擎中获得好的排名,以及如何让用户从众多搜索结果中单击您的网站。简单的说就是收录,排序,展示。一个网站,如果你有一个好的收录,一个好的排名和一个好的展示,你就可以有好的流量。下面木木seo借花献佛,根据百度搜索引擎优化指南的建议来看看这三个方面。

  好收录

  收录搜索引擎优化篇

  机器可读

  百度通蜘蛛抓取互联网上的网页,处理后建立索引。目前,蜘蛛只能读取文本代码的内容。 flash、图片等非文字内容暂时无法处理或处理不好。百度无法识别flash中的文字和图片。建议重要内容用文字展示,不要用flash、图片、Javascript等,特别是首页只收录flash和Javascript内部网页网站的链接。百度无法通过首页收录内页,所以如果首页使用flash,javascript做全屏特效需要文字通向内页。

  百度推荐

  1、使用文字代替flash、图片、Javascript等展示重要内容或链接;

  2、如果一定要使用Flash制作网页,请使用首页的文字链接指向文字版;

  3、可以把你不想让搜索引擎抓取的导航或者文字放到JS里;

  4、没有使用frame和iframe框架结构,通过iframe展示的内容可能会被百度丢弃。

  网站结构

  网站应该有清晰的结构和清晰的导航,可以帮助用户快速从你的网站中找到他们需要的东西,也可以帮助搜索引擎快速了解网站中每个网页所在的结构层次结构。

  网站推荐结构为扁平树状结构,常分为以下三个层次:首页——频道——文章页。就像一棵大树,先是树干(首页),然后是树枝(频道),最后是叶子(普通内容页面)。树形结构更具可扩展性。当网站的内容变得更多时,您可以通过细分频道页面轻松处理。

  理想的网站结构应该是扁平化的,从首页到内容页的层次越少越好,这样搜索引擎会更容易处理。

  同时网站也应该是网状结构。 网站上的每个网页都应该有上下级网页和相关内容的链接:首页有频道页链接,频道页有首页链接。公共内容页面的链接,公共内容页面有上级频道和首页的链接,内容相关网页之间有链接。

  网站中的每个网页都应该是网站结构的一部分,并且应该能够链接到其他网页。不要在互联网上形成孤岛。

  百度推荐

  确保每个页面都可以通过至少一个内部文本链接到达;

  重要内容应该可以从主页或网站结构中相对较浅的级别访问;

  对网站上的内容进行合理分类,不要过度分类。

  网站应该有简洁明了的导航,让用户快速找到自己需要的东西,也有助于搜索引擎更好地理解网站的结构。

  百度推荐

  为每个页面添加导航栏,方便用户返回频道,网站homepage,搜索引擎可以轻松定位网页在网络结构中的层级;

  对于内容较多的网站,建议使用面包屑导航,方便用户了解当前所在位置:网站首页>频道>当前浏览页面;

  导航中使用文本链接,不要使用复杂的js或flash;

  如果使用图片导航,可以使用Alt注解告诉搜索引擎网页内容指向什么。

  状态返回码

  百度爬虫在抓取和处理时,根据http协议规范设置相应的逻辑。不同的返回码对应不同的含义。比较常见的有:

  404 返回码的含义是“未找到”。百度会认为该网页无效,因此通常会从搜索结果中删除,并且蜘蛛如果在短期内再次找到该网址,则不会抓取该网址。

  301返回码的意思是“Moved Permanently”,百度会认为网页当前重定向到了一个新的URL。在网站迁移、域名更换、网站改版的情况下,建议使用301返回码,尽量减少改版带来的流量损失。虽然百度蜘蛛现在对 301 跳转的响应周期更长,但我们仍然建议您这样做。

  百度推荐

  如果网站暂时关闭,无法打开网页时,不要立即返回404。建议使用 503 状态。 503可以通知百度蜘蛛页面暂时不可用,请稍后再试。

  如果百度蜘蛛对您网站的抓取压力太大,请尽量不要使用404,也建议返回503。这样,百度蜘蛛过一段时间会再次尝试抓取这个链接。如果那个时候网站是免费的,它就会被成功抓取。

  有一些网站希望百度只会收录部分内容,比如审核后的内容,一段时间积累的新用户页面等等。在这种情况下,建议对新发布的内容暂时返回403,待审核或做好处理后再返回正常返回码。

  移动网站、更改域名、规范URL时请使用301返回码。

  选择子域和目录

  选择使用子域或目录来合理分发网站内容会对网站在搜索引擎中的表现产生更大的影响。

  百度推荐

  在一个频道的内容不够丰富作为一个独立站点存在之前,使用目录形式;等到频道下积累了足够的内容,再转换成子域的形式。

  一个网页能否排在搜索结果的前面,“开始”很重要。如果来自网站权重较高的网站,则更有可能排名第一,反之亦然。通常情况下,主站点的权重最高,子站点会继承主站点的部分权重。继承的数量取决于子站点的质量。

  在内容不够丰富作为独立站点使用之前,将内容放在主站点的下一个目录可以在搜索引擎中获得更好的性能。

  对于内容差异大、相关性低的内容,采用子站点的形式。

  搜索引擎会识别网站的主题。如果站点中的内容相关性不高,可能会导致搜索引擎对其进行错误识别。相关性不高的内容可以放在不同的子域下,帮助搜索引擎更好地理解网站主题。

  域名的内容应该得到适当的授权并相互分离。域下的内容无法通过

  访问

  子域之间的内容可以互相访问,有可能被搜索引擎视为重复内容。保留网址可能不在普通域名下。

  不要滥用子域

  滥用大量内容不丰富的子域会被搜索引擎视为作弊。

  标准、简单的网址

  创建一个描述性好、标准化、简单的网址,可以帮助用户更轻松地记住和判断网页的内容,也有助于搜索引擎更有效地捕获您的网站。 网站设计之初,要有合理的URL规划。

  百度推荐

  网站同一个网页,只对应一个url

  如果网站上的多个网址可以访问同一个内容,就会出现如下危险:

  一个。搜索引擎会选择一个url作为标准,可能和真实的不一样

  B.用户可以对同一网页的不同网址进行推荐,多种网址形式分散网页权重

  如果你的网站上已经有多个URL表单,建议按照以下方式处理:

  一个。只使用系统内正常的网址,防止用户访问异常网址

  B. url中不要放session id、统计代码等不必要的内容

  c.不同形式的url,301会永久跳转到正常形式

  d。为防止用户误输入备用域名,301永久重定向到主域名

  e.使用 robots.txt 禁止蜘蛛抓取您不想显示给用户的表单

  允许用户从 URL 中确定网页内容和网站 结构信息,并预测他们会看到什么

  网址尽量短

  长网址不仅难看,而且用户也很难从中获取额外的有用信息。

  普通动态网址对搜索引擎没有影响

  url是动态的还是静态的对搜索引擎没有影响,但建议尽量减少动态url中收录的可变参数。这将有助于减少 url 的长度,降低搜索引擎陷入黑洞的风险。

  不要添加系统无法自动识别为url一部分的字符

  字符“;”、“,”等字符被添加到url中。当用户通过论坛、即时通讯工具等渠道推荐这些网址时,无法自动识别为链接,增加了用户访问这些网页的难度。

  百度站长平台提供了网址优化工具,可以帮助检查网址对搜索引擎的友好度,并提出修改建议。

  对于URL设置,什么样的页面URL最有利于优化?搜索引擎优化收录篇

  

  修改/更改域名

  网站Revision 和域名更改在互联网的高速发展下是不可避免的,但处理不当会造成重大的流量损失。

  改版和改域名需要考虑的第一点就是如何保证老用户不流失。当用户访问旧内容时,可以引导到新网站上的相应内容,防止用户无法访问以前的采集夹。页面的情况。

  我们建议在修改或更改域名时,将旧网页301永久重定向到内容对应的新网页,以便百度更容易检测到这种变化,并快速将旧网页累积的权重转移到相应的新网页。 .

  百度推荐

  如非必要,请勿完全替换整个网站内容

  网站改版或网站重要页面的链接发生变化时,修改前的301页面要永久重定向到修改后的对应页面。

  网站URL 结构尽量不要改变

  网站更改域名,旧域名301的所有页面都要永久重定向到新域名对应的页面

  网站 更改域名后,尽量让旧域名保持稳定,让用户有更多时间记住新域名。

  如果你需要修改很多部分,慢慢来一个一个。

  备份修订前的版本。如果修改有问题,及时恢复到以前的版本。

  使用网站管理员工具

  为了更好的处理网上的信息,百度为站长提供了一些工具。合理使用这些站长工具,事半功倍。

  删除死链,百度站长平台支持通过站点地图向百度提交网站的死链列表。 网站死链接太多,不仅影响用户的访问体验,也影响百度对网站质量的判断。通过死链删除界面,百度可以更快更全面地找到网站死链,从而有效地删除它。更多工具可以访问百度站长平台。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线