百度搜索引擎优化指南20(面向搜索引擎的网站建设良好收录机器可读百度(组图))
优采云 发布时间: 2021-10-24 18:01百度搜索引擎优化指南20(面向搜索引擎的网站建设良好收录机器可读百度(组图))
百度搜索引擎优化指南2.0 网络版网站为搜索引擎精心打造收录机器可读
百度使用一个叫Baiduspider的程序抓取互联网上的网页,处理后建立索引。目前百度蜘蛛只能读取文本内容。Flash、图片等非文本内容暂时无法处理。百度无法识别flash中的文字和图片。
建议使用文字代替flash、图片、Javascript等来展示重要的内容或链接。搜索引擎暂时无法识别 Flash、图片和 Javascript 中的内容。这部分内容无法搜索;只有 flash 和 Javascript 收录指向网页的链接,百度可能无法收录。
我们建议:
使用文本代替 flash、图片、Javascript 等来显示重要内容或链接。如果必须使用Flash制作网页,建议为搜索引擎收录制作文字版,并在首页使用文字链接指向无法识别的Ajax Technologies文字版搜索引擎仅在需要用户交互的情况下使用。您希望搜索引擎“看到”的导航和文本内容没有放在 Ajax 中。不使用框架和 iframe 框架结构。通过 iframe 显示的内容可能会有所不同。被百度抛弃
在上面的例子中,虽然网页提供了丰富的信息,但由于信息全部在flash中,搜索引擎无法提取。对于搜索引擎,此网页不收录任何内容。
网站结构
网站应该有清晰的结构和清晰的导航,可以帮助用户快速从你的网站中找到他们需要的东西,也可以帮助搜索引擎快速了解每个网站的结构层次页。
网站 结构建议使用树状结构。树状结构通常分为以下三个层次:首页-频道-文章页面。就像一棵大树,先是树干(首页),然后是树枝(频道),最后是叶子(普通内容页面)。树形结构更具可扩展性。当网站的内容变多时,可以通过细分分支(通道)轻松处理。
理想的网站结构应该是扁平化的,从首页到内容页的层级越少越好,这样搜索引擎会更容易处理。
同时网站也应该是网状结构。网站上的每一个网页都应该有上级和下级网页和相关内容的链接:首页有频道页的链接,频道页有链接。首页和普通内容页之间有链接,普通内容页有上级频道和首页的链接,内容相关网页之间有链接。
网站中的每一个网页都应该是网站结构的一部分,并且应该通过其他网页链接到它。
综上所述,一个合理的网站结构应该是扁平的树状网络结构。我们建议:
确保每个页面都可以通过至少一个文本链接到达。重要的内容应该可以从主页或 网站 结构中相对较浅的级别访问。对网站上的内容进行合理分类,不要过度划分。
网站应该有简洁明了的导航,让用户快速找到自己需要的东西,也有助于搜索引擎更好地理解网站的结构。我们建议:
每个页面都增加了导航栏,让用户可以轻松返回频道、网站首页,搜索引擎可以轻松定位到网页在网络结构中的层次。
通过面包屑导航,用户可以清楚地知道自己的页面在整个网站中的位置,并可以轻松返回上一个频道或首页。对于内容丰富的网站,建议使用面包屑导航,方便用户了解当前所在位置:网站首页>频道>在当前浏览的导航中使用文本链接page, not use 当复杂的js或flash使用图片进行导航时,可以使用Alt注解,使用Alt告诉搜索引擎子域和目录选择是什么。
选择使用子域或目录来合理分发网站的内容,对网站在搜索引擎中的性能影响更大。
我们建议:
在一个频道的内容丰富到可以作为一个独立的站点存在之前,使用目录形式;等到频道下积累了足够的内容,再转换成子域。很重要,如果来自权重较高的网站网站,则越有可能上前,反之亦然。通常情况下,主站点的权重最高,子站点会继承主站点的部分权重。继承的数量取决于子站点的质量。在内容丰富到可以作为独立站点使用之前,将内容放在主站点的下一个目录中可以在搜索引擎中获得更好的性能。对于内容差异大、相关性低的内容,搜索引擎采用子站点的形式会识别站点的主题。如果站点中的内容相关性不高,可能会导致搜索引擎对其进行错误识别。相关性不高的内容可以放在不同的子域下,这样可以帮助搜索引擎更好地了解站点的主题域的内容,并将它们彼此区分开来。无法通过访问子域之间的内容来访问下载的内容。访问可能会被搜索引擎视为重复内容,保留的 URL 可能不在正常域名下。不要滥用没有丰富内容的子域和滥用大量子域。搜索引擎将被视为作弊受到惩罚。标准的简单 URL 可以帮助搜索引擎更好地理解站点主题域的内容,并将它们彼此区分开来。无法通过访问子域之间的内容来访问下载的内容。访问可能会被搜索引擎视为重复内容,保留的 URL 可能不在正常域名下。不要滥用没有丰富内容的子域和滥用大量子域。搜索引擎将被视为作弊受到惩罚。标准的简单 URL 可以帮助搜索引擎更好地理解站点主题域的内容,并将它们彼此区分开来。无法通过访问子域之间的内容来访问下载的内容。访问可能会被搜索引擎视为重复内容,保留的 URL 可能不在正常域名下。不要滥用没有丰富内容的子域和滥用大量子域。搜索引擎将被视为作弊受到惩罚。标准、简单的 URL 不要滥用没有丰富内容的子域和滥用大量子域。搜索引擎将被视为作弊受到惩罚。标准的简单 URL 不要滥用没有丰富内容的子域和滥用大量子域。搜索引擎将被视为作弊受到惩罚。标准的简单 URL
创建一个描述性好的、规范的、简单的网址,可以帮助用户更容易地记住和判断网页的内容,也有助于搜索引擎更有效地抓取你的网站。网站 设计之初,要有合理的URL规划。
我们建议
使用站长工具
互联网变得越来越大,越来越复杂。为了更好的处理互联网上的信息,百度为站长提供了一些工具。合理使用这些站长工具可以事半功倍。
修改/更改域名
网站 在互联网的高速发展下,改版和域名变更是不可避免的,但处理不当会造成重大的流量损失。修改和更改域名时需要考虑的第一点是如何确保不丢失旧用户。当用户访问旧内容时,可以引导到新网站上对应的内容,防止用户无法访问以前喜欢的网页。*敏*感*词*。
我们建议在修改或变更域名时,将旧网页301永久重定向到内容对应的新网页,以便百度更容易检测到这种变化,并快速将旧网页积累的权重转移到相应的新网页上。网页。
其他建议:
如果没有必要,不要完全替换整个网站的内容。网站修改或修改网站中的重要页面链接,修改前的301页面要永久重定向到修改后的对应页面网站 @网站更换域名。旧域名的所有页面都应该永久重定向301到新域名对应的页面。网站 更换域名后,尽量保持旧域名可访问,让用户有更多时间记住新域名 网站 修改/更换域名后,请将新域名下的新网址/网址通过站点地图提交给百度,以帮助百度更快发现和调整。
合理的返回码
百度爬虫在抓取和处理的时候,会根据http协议规范设置相应的逻辑,所以站长也应该尽量参考http协议中返回码含义的定义来设置。
百度蜘蛛对常用http返回码的处理逻辑如下:
404 404 返回码的意思是“NOT FOUND”。百度会认为该网页已过期,因此通常会从搜索结果中删除,而蜘蛛会在短期内再次找到该网址,而不会对其进行抓取。503503 返回码的含义是“服务不可用”。百度会认为网页暂时无法访问,通常网站暂时关闭,带宽受限等都会造成这种情况。对于返回503的网页,百度蜘蛛不会直接删除该网址,短期内还会再次访问。届时,如果网页已经恢复,就可以正常抓取;如果继续返回503,那么短时间内会被多次访问。但是如果网页长时间返回503,那么该网址仍会被百度视为失效链接,并将从搜索结果中删除。403403返回码的意思是“禁止访问”,百度会认为该网页当前被禁止访问。在这种情况下,如果是新发现的网址,百度蜘蛛暂时不会抓取,会在短期内再次检查;如果是百度的收录url,此时不会直接删除,短期内会再次访问。. 那个时候,如果网页被允许访问,就会正常抓取;如果仍然不允许,将在短时间内访问多次。但如果网页长时间返回403,百度也会认为是无效链接,从搜索结果中删除。301301返回码的意思是“Moved Permanently”,百度会认为网页当前重定向到了新的url。在网站迁移、域名更换或网站改版的情况下,建议使用301返回码,以尽量减少改版带来的流量损失。虽然百度蜘蛛现在对 301 跳转的响应周期更长,但我们仍然建议您这样做。
我们建议:
如果网站暂时关闭,无法打开网页时,不要立即返回404。建议使用 503 状态。503可以通知百度蜘蛛页面暂时不可用,请稍后再试。如果百度蜘蛛对您的网站抓取压力过大,请尽量不要使用404,也建议返回503。这样,百度蜘蛛过一段时间会再次尝试抓取该链接。如果该站点当时是免费的,它将被成功抓取。一些网站希望百度只会收录部分内容,比如审核后的内容,一段时间积累的新用户页面等等。在这种情况下,建议对新发布的内容暂时返回403,然后在查看或做好处理后返回正常的返回码。当网站搬迁或域名变更时,请使用301返回。