什么叫搜索引擎优化(搜索引擎的具体优化规则是什么?如何应对网页不断更新?)

优采云 发布时间: 2022-02-16 04:15

  什么叫搜索引擎优化(搜索引擎的具体优化规则是什么?如何应对网页不断更新?)

  1、搜索引擎的具体优化规则是什么?

  

  这种问题其实很宽泛,相当于问“怎么做SEO?”

  搜索引擎从用户搜索到最终搜索结果展示所经历的步骤是(以百度为例):

  爬,百度不知道你的网站,怎么让你排名?所以要让百度知道你,首先要通过爬取这一步;

  过滤,过滤掉低质量的页面内容;

  索引,只存储符合条件的页面;

  处理,处理搜索词,如中文分词处理,去除停用词,判断是否需要启动综合搜索,判断是否有拼写错误或错别字。

  排名,向用户展示优质页面;

  

  蜘蛛:

  由搜索引擎发送的用于发现和抓取 Internet 上的新网页的程序称为蜘蛛。它从一个已知的数据库开始,像普通用户的浏览器一样访问这些网页,并沿着网页中的链接访问更多的网页。,这个过程称为爬取;

  蜘蛛对站点的遍历和爬取策略分为深度优先和广度优先两种。

  

  蜘蛛爬行的基本过程:

  根据爬取的目标和范围,可以分为批量爬虫:清除爬取的目标和范围,达到就停止;增量爬虫:响应网页不断更新的状态,爬虫需要及时响应,一般商业引擎一般都是这个类;垂直爬虫:只针对特定领域的爬虫,根据主题进行过滤;

  爬取过程中百度官方蜘蛛攻略

  1、爬取友好性,同一站点在一段时间内的爬取频率和爬取流量不同,即错开正常用户访问高峰,不断调整,避免对被抓影响过大1、 @网站 的正常用户访问行为。

  2、常用的fetch返回码,如503、404、403、301等;

  3、对各种url重定向的识别,如http 30x、meta refresh重定向和js重定向,Canonical标签也可以认为是变相的重定向;

  4、抢优先分配,如深度优先遍历策略、广度优先遍历策略、pr优先策略、反链策略、大站点优先策略等;

  5、重复url过滤,包括url规范化识别,比如一个url收录大量无效参数但实际上是同一个页面;

  6、暗网数据的获取,暂时无法被搜索引擎抓取的数据,比如存在于网络数据库中,或者由于网络环境,网站本身不符合规范,孤岛等问题。被爬取,比如百度的“阿拉丁”程序;

  7、爬虫防作弊,爬取过程中经常会遇到所谓的爬虫黑洞或面临大量低质量页面,这就需要在爬虫系统中设计一套完整的爬虫防作弊系统。. 如分析url特征、分析页面大小和内容、分析爬取规模对应的站点规模等;

  蜘蛛感兴趣的页面有 3 类:

  1.从未抓取过新页面。

  2.使用修改过的内容爬网的页面。

  3.已抓取但现已删除的页面。

  

  1.被机器人阻止的页面;

  2.flash 中的图片、视频和内容;

  3.js、iframe框架、表格嵌套;

  4.蜘蛛被服务器拦截;

  5.岛屿页面(没有任何导入链接);

  6.登录后才能获取的内容;

  四种近似的重复页面类型:

  1.完全重复页面:内容和布局格式没有区别;

  2.内容重复的页面:内容相同,但布局格式不同;

  3.布局重复页面:部分重要内容相同,布局格式相同;

  4.部分重复页面的重要内容相同,但布局格式不同;

  典型的网页去重算法:特征提取、文档指纹生成、相似度计算

  低质量的内容页面:

  1.多个URL地址指向同一个网页和镜像站点,如带www和不带www并解析为一个网站;

  2.网页内容重复或几乎重复,如采集的内容,文字不正确或垃圾邮件;

  没有丰富的内容,如纯图片页面或搜索引擎无法识别的页面内容;

  过滤 - 如何处理重复文档:

  1.已删除低质量内容

  2.高质量重复文档优先分组展示(高重复表示欢迎)

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线