搜索引擎优化含义(UA即user-agent原则及调整方法(一))
优采云 发布时间: 2021-08-31 02:01搜索引擎优化含义(UA即user-agent原则及调整方法(一))
UA属性:UA是user-agent,是http协议中的一个属性。它代表终端的身份并向服务器显示我在做什么。然后服务器可以根据不同的身份做出不同的事情。反馈结果。
Robots 协议:robots.txt 是搜索引擎访问网站 时要访问的第一个文件。用于判断哪些是允许爬取的,哪些是禁止爬取的。 robots.txt 必须放在网站root 目录下,文件名必须小写。详细的robots.txt编写请参考。百度严格执行机器人协议。此外,它还支持在网页内容中添加名为robots、index、follow、nofollow等指令的meta标签。
Baiduspider 爬行频率原理及调整方法
baiduspider根据上面网站设置的协议抓取站点页面,但不可能对所有站点一视同仁。它会综合考虑网站的实际情况,确定一个抓取额度,每天对网站内容进行定量抓取,也就是我们经常提到的抓取频率。那么百度搜索引擎用什么索引来判断一个网站的爬取频率呢?主要有四个指标:
网站更新频率:更新来得更快,更新更慢,直接影响百度蜘蛛的访问频率网站更新质量:更新频率增加,只引起了百度蜘蛛的关注。百度蜘蛛对质量有严格要求,如果网站每天更新的大量内容被百度蜘蛛判定为低质量页面,那还是没有意义的。连通性:网站要安全稳定,保证百度蜘蛛畅通无阻。经常保留百度蜘蛛不是一件好事。站点评价:百度搜索引擎会对每个站点都有一个评价,这个评价会根据站点情况不断变化。它是百度 搜索引擎对该站点的基本评分(不是外界所说的百度权重)是百度内部非常机密的数据。网站评分从不单独使用,会与其他因素和阈值共同影响网站的爬取和排名。
爬取频率间接决定了网站可以内置多少页收录。如果这样一个重要的值不符合站长的期望,如何调整?百度站长平台提供了爬频工具(),并已完成多次升级。该工具除了提供爬行统计外,还提供了“频率调整”功能。站长可根据实际情况要求百度蜘蛛增加或减少对百度站长平台的访问量。该工具将根据网站管理员的意愿和实际情况进行操作。调整。
百度蜘蛛抓取异常的原因
有些网页内容质量高,用户可以正常访问,但百度蜘蛛却无法正常访问和抓取,导致搜索结果覆盖率不足,对百度搜索引擎和网站都是一种损失。百度把这种情况称为“抓取异常”。对于大量内容无法正常抓取的网站,百度搜索引擎会认为网站在用户体验上存在缺陷,会降低对网站的评价,并在一定程度上受到负面影响抓取、索引和排序。影响最终会影响网站从百度获得的流量。
下面向站长介绍一些常见的抓取异常原因:
?1、服务器连接异常
服务器连接异常有两种情况:一种是站点不稳定,百度蜘蛛尝试连接你的网站服务器时暂时无法连接;另一个是百度蜘蛛一直无法连接到你的网站服务器。 .
服务器连接异常的原因通常是你的网站server 太大,过载。也可能是你的网站运行不正常。请检查网站的web服务器(如apache、iis)是否安装运行正常,并使用浏览器查看主页是否可以正常访问。您的网站和主机也可能屏蔽了百度蜘蛛的访问,您需要检查网站和主机的防火墙。
2、网络运营商异常
有两种类型的网络运营商:电信和中国联通。百度蜘蛛无法通过电信或网通访问您的网站。如果出现这种情况,您需要联系网络服务运营商,或者购买双线服务的空间或购买CDN服务。
3、DNS异常
当百度蜘蛛无法解析你的网站IP时,会出现DNS异常。可能是你的网站IP地址错误,或者域名服务商屏蔽了百度蜘蛛。请使用 WHOIS 或主机检查您的网站IP 地址是否正确且可解析。如果不正确或无法解决,请联系域名注册商更新您的IP地址。
4、IP被封
IP禁止是:限制网络的出口IP地址,禁止该IP段的用户访问内容,这里特指禁止BaiduspiderIP。仅当您的网站 不希望百度蜘蛛访问时才需要此设置。如果您想让百度蜘蛛访问您的网站,请在相关设置中检查是否错误添加了百度蜘蛛IP。也有可能你网站所在的空间服务商被封禁了百度IP,则需要联系服务商更改设置。
5、UA禁止
UA是User-Agent,服务器通过UA识别访问者的身份。当网站返回异常页面(如403、500)或跳转到其他页面访问指定的UA时,是UA禁止的。只有当你的网站不想百度蜘蛛时才需要访问设置,如果你想让百度蜘蛛访问你的网站,useragent相关设置中是否有百度蜘蛛UA,及时修改。
6、死链接
页面无效,无法向用户提供任何有价值信息的页面为死链接,包括协议死链接和内容死链接两种形式:
协议死链接:由页面的TCP协议状态/HTTP协议状态明确指示的死链接,如404、403、503状态。
内容死链接:服务器返回状态是正常的,但是内容已经变成不存在、删除或者需要权限信息的页面,与原内容无关。
对于死链接,我们建议网站使用协议死链接,通过百度站长平台-死链接工具提交给百度,这样百度可以更快的找到死链接,减少死链接对用户和搜索的负面影响引擎。影响。
7、异常跳转
将网络请求重定向到另一个位置是一种跳转。异常跳转是指以下几种情况:
注意:长期重定向到其他域名,如网站改域名,百度建议使用301重定向协议进行设置。
8、其他异常:
判断新链接的重要性
好的,上面我们提到了影响百度蜘蛛正常爬取的原因,现在我们来谈谈百度蜘蛛的一些判断原则。在建库链接之前,百度蜘蛛会对页面进行初步的内容分析和链接分析,通过内容分析判断该网页是否需要建索引库,通过链接分析找到更多的网页,然后抓取更多的网页-analysis-——是否建库&找新链接流程。理论上,百度蜘蛛会检索新页面上所有“见过”的链接。那么,面对众多的新链接,百度蜘蛛是根据什么判断哪个更重要呢?两个方面:
一、对用户的价值:
内容是独一无二的。百度搜索引擎喜欢独特的内容突出。不要因为网页的主要内容不突出而被搜索引擎误判为空洞、短小。内容丰富的广告不宜爬取
二、链接的重要性:
目录层面——站内浅链接的流行度是百度优先建立重要库的原则
百度蜘蛛抓取的页面数量并不是最重要的。重要的是一个索引数据库建了多少页,也就是我们常说的“建库”。众所周知,搜索引擎的索引库是分层的。优质的网页会被分配到重要的索引库,普通的网页会留在普通的图书馆,更糟糕的网页会被分配到低级别的图书馆作为补充资料。目前60%的检索需求只调用重要的索引库就可以满足,这就解释了为什么一些网站的收录量超高高流并不理想。
那么,哪些网页可以进入优质索引库呢?其实总的原则是一个:对用户有价值。包括但不仅限于:
及时性和有价值的页面:在这里,及时性和价值是平行的关系,两者缺一不可。有的网站为了生成时间敏感的内容页面,做了很多采集的工作,导致一堆毫无价值的页面,百度不想看到。优质内容的专页:专页的内容不一定都是原创是的,就是可以很好的整合各方的内容,或者添加一些新鲜的内容,比如意见、评论等,给用户内容更丰富更全面。高价值原创内容页:百度将原创定义为文章经过一定成本和大量经验形成的。不要问我们伪原创 是否是原创。重要的个人页面:这里只是一个例子。科比已经在新浪微博上开设了一个账户。即使他不经常更新,对于百度来说,它仍然是一个极其重要的页面。哪些页面不能建索引库
上述优质网页收录在索引库中。其实网上的网站大部分根本就不是百度收录。不是百度没找到,而是建库前的筛选链接被过滤掉了。那么一开始就过滤掉了什么样的网页:
内容重复的网页:对于已经在网上的内容,百度当然不需要收录。正文内容较短的网页
1) 部分内容使用了百度蜘蛛无法解析的技术,如JS、AJAX等,虽然用户访问时可以看到丰富的内容,但还是会被搜索引擎抛弃
2) 加载过慢的网页也可能被视为空的短页。请注意,广告加载时间计入网页的整体加载时间。
3)很多主题不显眼的网页,即使被抓取回来,也会在此链接中被丢弃。用于搜索和排序某些作弊网页的搜索引擎索引系统概述
众所周知,搜索引擎的主要工作流程包括:抓取、存储、页面分析、索引、检索等主要流程。上一章我们主要介绍了爬取和存储链接中的一些内容。本章简要介绍索引系统。
在以亿为单位的网页库中搜索某个特定的关键词,就像大海捞针。有可能在一定时间内完成搜索,但用户不能等待。从用户体验的角度来说,一定要在毫秒级别给用户满意的结果,否则只会流失用户。我们如何才能满足这一要求?
如果我们知道用户搜索到的关键词的哪些页面(查询被剪切后)出现在哪些页面,那么用户检索的过程可以想象成一个收录查询不同部分的页面集合词切过程,检索变成页面名称之间的比较和交叉。这样,以毫秒为单位的1亿次检索成为可能。这就是所谓的倒排索引和交叉检索的过程。创建倒排索引的基本过程如下:
页面分析的过程其实就是对原创页面的不同部分进行识别和标记,例如:标题、关键词、内容、链接、锚点、评论、其他不重要的区域等;分词的过程实际上包括切分词、同义词转换、同义词替换等,以一个页面的标题切分为例,会得到数据:term text, termid, part of Speech, part of speech,等等。;前面的准备工作完成后,下一步就是建立倒排索引,形成{termàdoc},下图是索引系统中的倒排索引过程。
倒排索引是搜索引擎实现毫秒级检索的一个非常重要的环节。接下来,我们要介绍索引系统建立倒排索引的重要过程——存储和写入。
倒排索引存储和写入的重要过程
在倒排索引建立的最后,索引系统还需要有一个存储和写入的过程,并且为了提高效率,这个过程还需要将所有的词条和偏移量保存在文件头中,并且压缩数据。我不会在这里提到太多涉及的技术性。下面简单介绍一下索引后的检索系统。
检索系统主要由五部分组成,如下图所示:
<p>(1)Query字符串分词就是对用户的查询词进行切分,为后续查询做准备。以“地铁10号线故障”为例,可能的分词如下(同义词暂时省略):