搜索引擎优化规则(搜索引擎的具体优化规则是什么?抓取规则的策略)

优采云 发布时间: 2021-08-31 17:10

  搜索引擎优化规则(搜索引擎的具体优化规则是什么?抓取规则的策略)

  1、搜索引擎的具体优化规则是什么?

  

  这种问题其实很宽泛,相当于问“SEO是怎么做的?”在这里,我将用图片来解释爬行规则。

  搜索引擎从用户搜索到最终搜索结果显示的步骤是(以百度为例):

  抓取,百度不知道你的网站,你怎么排名?所以要让百度知道你,你必须先通过爬虫这一步;

  过滤,过滤掉低质量的页面内容;

  索引,只存储符合条件的页面;

  处理、处理搜索词,如中文特定分词、去除停用词、判断是否开始整合搜索、判断是否有拼写错误或错别字。

  排名,向用户展示高质量的页面;

  【外链图片传输失败,源站可能有反盗链机制,建议保存图片直接上传(img-JxeNFtHL-97)()】

  蜘蛛:

  搜索引擎发送的用于在互联网上查找新网页并对其进行抓取的程序称为蜘蛛。它从一个已知的数据库开始,像普通用户的浏览器一样访问这些网页,并跟踪网页中的链接,访问更多的网页,这个过程叫做爬取;

  蜘蛛对网站的遍历和爬取策略分为深度优先和广度优先。

  

  蜘蛛爬行的基本过程:

  根据爬取目标和范围,可以分为批量爬虫:清除爬取目标和范围,到达停止;增量爬虫:响应网页不断更新的状态,爬虫需要及时响应,一般商业引擎一般都是这种类型的;垂直爬虫:只针对特定领域的爬虫,按主题过滤;

  百度官方蜘蛛爬取过程的策略

  1、Grab-friendliness,同一个网站的爬取频率和一段时间内的爬取流量不同,即错开正常用户访问高峰,不断调整,避免被网站的过分影响正常的用户访问行为。

  2、常用的爬取返回码,如503、404、403、301等;

  3、 多个url重定向的识别,如http 30x、meta refresh重定向和js重定向。规范标签也可以看作是变相的重定向;

  4、Grabbing优先级分配,如深度优先遍历策略、广度优先遍历策略、pr-first策略、反链策略、big-site优先策略等;

  5、重复URL过滤,包括URL规范化识别,例如一个URL收录大量无效参数但实际上是同一个页面;

  6、暗网数据采集,搜索引擎暂时无法抓取的数据,如存在于网络数据库中,或由于网络环境,网站不符合规范、孤岛等爬取,比如百度的“阿拉丁”项目;

  7、Grabbing 反作弊,爬取过程中经常会遇到所谓的爬取黑洞或者大量低质量页面的麻烦,这就需要爬取系统也设计一套完整的爬取防-作弊系统。如分析url特征,分析页面大小和内容,分析爬取规模对应的站点规模等;

  蜘蛛感兴趣的页面有 3 种类型:

  1.从未被抓取的新页面。

  2. 抓取的页面,但内容已更改。

  被3. 抓取但现在被删除的页面。

  

  蜘蛛不能/不喜欢爬行的内容:

  1.page 被机器人屏蔽;

  2.图片、视频、flash中的内容;

  3.Js,iframe 框架,表格嵌套;

  4. Spider 被服务器屏蔽;

  5.孤岛页面(无任何导入链接);

  6.登录后可以获得的内容;

  四种近似重复页面:

  1.完全重复页面:内容和布局格式没有区别;

  2.重复内容页面:内容相同,但布局格式不同;

  3.重复页面布局:部分重要内容相同,布局格式相同;

  4.一些重复的页面有些重要内容相同,但布局格式不同;

  典型的网页去重算法:特征提取、文档指纹生成、相似度计算

  低质量的内容页面:

  1.多个URL地址指向同一个网页和镜像站点,比如有www和没有www同时解析为一个网站;

  2.网页内容重复或接近重复,如采集内容,文字不正确或垃圾邮件;

  没有丰富的内容,如纯图片页面或搜索引擎无法识别的页面内容;

  过滤器-如何处理重复文档:

  1.低质量内容删除

  2.高质量重复文档先分组展示(重复性高表示欢迎)

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线