什么叫搜索引擎优化(搜索引擎的具体优化规则是什么？如何应对网页不断更新？)

优采云发布时间: 2022-02-16 04:15

　　1、搜索引擎的具体优化规则是什么？

　　这种问题其实很宽泛，相当于问“怎么做SEO？”

　　搜索引擎从用户搜索到最终搜索结果展示所经历的步骤是（以百度为例）：

　　爬，百度不知道你的网站，怎么让你排名？所以要让百度知道你，首先要通过爬取这一步；

　　过滤，过滤掉低质量的页面内容；

　　索引，只存储符合条件的页面；

　　处理，处理搜索词，如中文分词处理，去除停用词，判断是否需要启动综合搜索，判断是否有拼写错误或错别字。

　　排名，向用户展示优质页面；

　　蜘蛛：

　　由搜索引擎发送的用于发现和抓取 Internet 上的新网页的程序称为蜘蛛。它从一个已知的数据库开始，像普通用户的浏览器一样访问这些网页，并沿着网页中的链接访问更多的网页。，这个过程称为爬取；

　　蜘蛛对站点的遍历和爬取策略分为深度优先和广度优先两种。

　　蜘蛛爬行的基本过程：

　　根据爬取的目标和范围，可以分为批量爬虫：清除爬取的目标和范围，达到就停止；增量爬虫：响应网页不断更新的状态，爬虫需要及时响应，一般商业引擎一般都是这个类；垂直爬虫：只针对特定领域的爬虫，根据主题进行过滤；

　　爬取过程中百度官方蜘蛛攻略

　　1、爬取友好性，同一站点在一段时间内的爬取频率和爬取流量不同，即错开正常用户访问高峰，不断调整，避免对被抓影响过大1、 @网站的正常用户访问行为。

　　2、常用的fetch返回码，如503、404、403、301等；

　　3、对各种url重定向的识别，如http 30x、meta refresh重定向和js重定向，Canonical标签也可以认为是变相的重定向；

　　4、抢优先分配，如深度优先遍历策略、广度优先遍历策略、pr优先策略、反链策略、大站点优先策略等；

　　5、重复url过滤，包括url规范化识别，比如一个url收录大量无效参数但实际上是同一个页面；

　　6、暗网数据的获取，暂时无法被搜索引擎抓取的数据，比如存在于网络数据库中，或者由于网络环境，网站本身不符合规范，孤岛等问题。被爬取，比如百度的“阿拉丁”程序；

　　7、爬虫防作弊，爬取过程中经常会遇到所谓的爬虫黑洞或面临大量低质量页面，这就需要在爬虫系统中设计一套完整的爬虫防作弊系统。. 如分析url特征、分析页面大小和内容、分析爬取规模对应的站点规模等；

　　蜘蛛感兴趣的页面有 3 类：

　　1.从未抓取过新页面。

　　2.使用修改过的内容爬网的页面。

　　3.已抓取但现已删除的页面。

　　1.被机器人阻止的页面；

　　2.flash 中的图片、视频和内容；

　　3.js、iframe框架、表格嵌套；

　　4.蜘蛛被服务器拦截；

　　5.岛屿页面（没有任何导入链接）；

　　6.登录后才能获取的内容；

　　四种近似的重复页面类型：

　　1.完全重复页面：内容和布局格式没有区别；

　　2.内容重复的页面：内容相同，但布局格式不同；

　　3.布局重复页面：部分重要内容相同，布局格式相同；

　　4.部分重复页面的重要内容相同，但布局格式不同；

　　典型的网页去重算法：特征提取、文档指纹生成、相似度计算

　　低质量的内容页面：

　　1.多个URL地址指向同一个网页和镜像站点，如带www和不带www并解析为一个网站；

　　2.网页内容重复或几乎重复，如采集的内容，文字不正确或垃圾邮件；

　　没有丰富的内容，如纯图片页面或搜索引擎无法识别的页面内容；

　　过滤 - 如何处理重复文档：

　　1.已删除低质量内容

　　2.高质量重复文档优先分组展示（高重复表示欢迎）

0

2022-02-16

什么叫搜索引擎优化

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

什么叫搜索引擎优化(搜索引擎的具体优化规则是什么？如何应对网页不断更新？)

0 个评论

发起人