郑州百度搜索引擎优化(UA即user-agent原则及调整方法根据上述网站设置)
优采云 发布时间: 2022-02-05 21:09郑州百度搜索引擎优化(UA即user-agent原则及调整方法根据上述网站设置)
UA属性:UA即user-agent,是http协议中的一个属性,代表终端的身份,向服务器指示我在做什么,然后服务器可以根据不同的身份做出不同的反馈结果。
机器人协议:robots.txt 是搜索引擎访问网站时首先访问的文件,用于确定哪些允许爬取,哪些禁止爬取。robots.txt 必须放在网站 根目录下,文件名必须小写。robots.txt的详细写法请参考。百度严格遵守机器人协议。此外,它还支持在网页内容中添加名为 robots、index、follow、nofollow 等指令的元标记。
百度蜘蛛抓取频率原理及调整方法
百度蜘蛛根据上述网站设定的协议爬取网站页面,但不可能对所有网站一视同仁。它会综合考虑网站的实际情况来确定一个抓取配额,每天定量抓取网站内容,也就是我们常说的抓取频率。那么百度搜索引擎是通过哪些指标来判断一个网站的爬取频率呢?主要有四个指标:
1、网站更新频率:更新越频繁,更新越慢,直接影响百度蜘蛛的访问频率
2.网站更新质量:更新频率的提高只是为了吸引百度蜘蛛的注意。百度蜘蛛对质量有严格的要求。如果 网站 每天更新的大量内容被百度蜘蛛质量页面判断为低,仍然没有意义。
3.连通性:网站应该安全稳定,保持百度蜘蛛畅通,保持百度蜘蛛关闭不是好事
4、站点评价:百度搜索引擎会对每个站点都有一个评价,这个评价会根据站点情况不断变化。里面有很机密的资料。站点评级从不单独使用,并与其他因素和阈值一起影响 网站 的爬取和排名。
爬取频率间接决定了网站有多少页面可能被数据库收录。这么重要的值,如果不符合站长的期望,应该如何调整呢?百度站长平台提供了爬频工具(),并完成了多次升级。除了提供爬取统计,该工具还提供了“频率调整”功能。站长要求百度蜘蛛根据实际情况增加或减少对百度站长平台的访问量。调整。
百度蜘蛛爬取异常的原因
有一些网页内容优质,用户可以正常访问,但Baiduspider无法正常访问和爬取,导致搜索结果覆盖不足,对百度搜索引擎和网站来说都是一种损失。百度称这种情况为“抢”。对于大量内容无法正常抓取的网站,百度搜索引擎会认为网站存在用户体验缺陷,降低对网站的评价,在爬取、索引和排序方面都会受到一定程度的负面影响,最终会影响到网站从百度获得的流量。
以下是爬取异常的一些常见原因:
1.服务器连接异常
服务器连接异常有两种情况:一种是网站不稳定,百度蜘蛛在尝试连接你的网站服务器时暂时无法连接;另一个是百度蜘蛛一直无法连接到你的网站的服务器。
服务器连接异常的原因通常是你的网站服务器太大,过载。您的 网站 也可能运行不正常。请检查网站的web服务器(如apache、iis)是否安装并运行正常,并使用浏览器检查主页是否可以正常访问。您的 网站 和主机也可能阻止了百度蜘蛛的访问,您需要检查您的 网站 和主机的防火墙。
2、网络运营商异常:网络运营商分为电信和联通两类。百度蜘蛛无法通过中国电信或中国网通访问您的网站。如果出现这种情况,需要联系网络服务运营商,或者购买双线服务空间或者购买cdn服务。
3、DNS异常:当Baiduspider无法解析您的网站 IP时,会出现DNS异常。可能你的网站IP地址错误,或者你的域名服务商屏蔽了百度蜘蛛。请使用 WHOIS 或主机检查您的 网站IP 地址是否正确且可解析。如果不正确或无法解决,请联系域名注册商更新您的 IP 地址。
4、IP封禁:IP封禁是:限制网络的出口IP地址,禁止该IP段内的用户访问内容,这里特意禁止BaiduspiderIP。仅当您的 网站 不希望百度蜘蛛访问时,才需要此设置。如果您想让百度蜘蛛访问您的网站,请在相关设置中检查百度蜘蛛IP是否添加错误。也有可能是你网站所在的空间服务商封杀了百度IP。在这种情况下,您需要联系服务提供商更改设置。
5、UA禁止:UA为User-Agent,服务器通过UA识别访问者。当网站返回异常页面(如403、500)或跳转到其他页面进行指定UA的访问时,属于UA禁令。当你的网站不想要百度蜘蛛时这个设置只有在访问时才需要,如果你想让百度蜘蛛访问你的网站,请检查useragent相关设置中是否有百度蜘蛛UA,并及时修改。
6、死链接:已经失效且无法为用户提供任何有价值信息的页面为死链接,包括协议死链接和内容死链接:
协议死链接:页面的TCP协议状态/HTTP协议状态明确表示的死链接,如404、403、503状态等。
内容死链接:服务器返回正常状态,但内容已更改为不存在、已删除或需要权限等与原创内容无关的信息页面。
对于死链接,我们建议网站使用协议死链接,通过百度站长平台-死链接工具提交给百度,这样百度可以更快的找到死链接,减少死链接对用户和搜索引擎的负面影响。
7.异常跳转:将网络请求重定向到另一个位置是跳转。异常跳转指以下几种情况:
1)当前页面为无效页面(删除内容、死链接等),直接跳转到上一个目录或首页,百度建议站长删除无效页面的入口超链接
2)跳转到错误或无效页面
注意:对于长时间跳转到其他域名的情况,如网站换域名,百度推荐使用301跳转协议进行设置。
8. 其他例外:
1)百度referrer异常:网页返回的行为与来自百度的referrer的正常内容不同。
2)百度UA异常:网页返回百度UA的行为与页面原创内容不同。
3)JS跳转异常:网页加载了百度无法识别的JS跳转代码,导致用户通过搜索结果进入页面后跳转。
4)压力过大导致的意外封禁:百度会根据网站规模、流量等信息自动设置合理的抓取压力。但在异常情况下,如压力控制异常时,服务器会根据自身负载进行保护性的偶尔封禁。在这种情况下,请在返回码中返回 503(表示“服务不可用”),这样百度蜘蛛会在一段时间后再次尝试抓取链接。如果 网站 是空闲的,它将被成功爬取。
判断新链接的重要性
好了,上面我们讲了影响百度蜘蛛正常爬取的原因,下面说一下百度蜘蛛的一些判断原则。建库前,百度蜘蛛会对页面进行初步的内容分析和链接分析,通过内容分析判断页面是否需要建索引库,通过链接分析发现更多页面,然后爬取更多页面——分析——是否建立一个图书馆并发现新链接的过程。理论上,百度蜘蛛会把新页面上所有“看到”的链接都爬回来,那么面对这么多新链接,百度蜘蛛如何判断哪个更重要呢?两个方面:
一、对用户的价值:
1.独特的内容,百度搜索引擎喜欢独特的内容
2. 主体突出,不要出现网页主体内容不突出被搜索引擎误判为空短页而未被抓取
3、内容丰富
4.广告合适
二、链接的重要性:
1.目录级别——浅层优先
2. 网站链接的受欢迎程度
百度优先建设重要库的原则
百度蜘蛛抓取的页数并不是最重要的,重要的是建了多少页到索引库中,也就是我们常说的“建库”。众所周知,搜索引擎的索引库是分层的。高质量的网页将分配到重要的索引库,普通网页将留在普通库,较差的网页将分配到低级库作为补充资料。目前60%的检索需求只需要调用重要的索引库就可以满足,这就解释了为什么有些网站的收录的高流量并不理想。
那么,哪些页面可以进入优质索引库呢?其实,总的原则是一个:对用户有价值。包括但不仅限于:
1.及时有价值的页面:在这里,及时性和价值并列,两者都缺一不可。有些网站为了生成时间敏感的内容页面做了很多采集的工作,导致一堆毫无价值的页面,百度不想看到。
2、内容优质的专题页:专题页的内容不一定是完全的原创,也就是可以很好的融合各方的内容,或者添加一些新鲜的内容,比如观点、评论等,给用户更丰富、更全面的内容。
3、高价值的原创内容页面:百度将原创定义为花费一定成本、积累大量经验后形成的文章。永远不要再问我们是否 伪原创 是原创。
4.重要的个人页面:这里只是一个例子,科比在新浪微博上开了一个账号,即使他不经常更新,它对百度来说仍然是一个极其重要的页面。
哪些页面不能被索引
上面提到的优质网页都进入了索引库,所以其实网上的大部分网站都没有被百度收录列出来。不是百度没找到,而是建库前的筛选过程中被过滤掉了。那么在第一个链接中过滤掉了什么样的网页:
1、内容重复的网页:百度不需要收录互联网上已有的内容。
2. 主要内容为空、短的网页
1)有些内容使用了百度蜘蛛无法解析的技术,比如JS、AJAX等,虽然用户可以看到丰富的内容,但还是会被搜索引擎抛弃
2)加载太慢的网页也可能被视为空的短页。请注意,广告加载时间计入网页的总加载时间。
3)很多主体不太突出的网页,即使被爬回来,也会在这个链接中被丢弃。
3.一些作弊页面
如无特别说明,文章均为启创网原创,转载请注明出处: