黄冈搜索引擎优化(搜索引擎的具体优化规则是什么？如何应对网页不断更新？)

优采云发布时间: 2022-03-17 08:23

　　?1、搜索引擎的具体优化规则是什么？

　　这种问题其实很宽泛，相当于问“怎么做SEO？”

　　搜索引擎从用户搜索到最终搜索结果展示所经历的步骤是（以百度为例）：

　　爬，百度不知道你的网站，怎么让你排名？所以要让百度知道你，首先要通过爬取这一步；

　　过滤，过滤掉低质量的页面内容；

　　索引，只存储符合条件的页面；

　　处理，对搜索词进行处理，如中文专用分词处理，去除停用词，判断是否需要启动综合搜索，判断是否有拼写错误或错别字。

　　排名，向用户展示优质页面；

　　蜘蛛：

　　由搜索引擎发送的用于发现和抓取 Internet 上的新网页的程序称为蜘蛛。它从一个已知的数据库开始，像普通用户的浏览器一样访问这些网页，然后沿着网页中的链接访问更多的网页，这个过程称为爬取；

　　蜘蛛对站点的遍历和爬取策略分为深度优先和广度优先两种。

　　蜘蛛爬行的基本过程：

　　根据爬取的目标和范围，可以分为

　　批量爬虫：明确爬取目标和范围，达到就停止；

　　增量爬虫：为了响应网页不断更新的状态，爬虫需要及时响应，一般商业引擎一般都是这种类型；

　　垂直爬虫：只针对特定领域的爬虫，根据主题进行过滤；

　　爬取过程中百度官方蜘蛛攻略

　　1、爬取友好性，同一站点在一段时间内的爬取频率和爬取流量不同，即错开正常用户访问高峰并不断调整，避免对被抓影响过大1、@ > @网站的正常用户访问行为。

　　2、常用的fetch返回码，如503、404、403、301等；

　　3、对各种url重定向的识别，如http 30x、meta刷新重定向和js重定向，Canonical标签也可以认为是变相的重定向；

　　4、抢优先分配，如深度优先遍历策略、广度优先遍历策略、pr优先策略、反链策略、大站点优先策略等；

　　5、重复url过滤，包括url规范化识别，例如一个url收录大量无效参数但实际上是同一个页面；

　　6、暗网数据的获取，搜索引擎暂时无法抓取的数据，比如存在于网络数据库中，或者由于网络环境，网站本身不符合规范，被爬取的孤岛等问题，如百度的“阿拉丁”程序；

　　7、爬虫防作弊，爬取过程中经常遇到所谓的爬虫黑洞或者面临大量低质量页面，这就需要在爬虫系统中设计一套完整的爬虫防作弊系统。. 如分析url特征、分析页面大小和内容、分析爬取规模对应的站点规模等；

　　蜘蛛感兴趣的页面有 3 类：

　　1.从未抓取过新页面。

　　2.使用修改后的内容爬网的页面。

　　3.已抓取但现已删除的页面。

　　什么蜘蛛不能/不喜欢爬行：

　　1.被机器人阻止的页面；

　　2.flash 中的图片、视频和内容；

　　3.js、iframe框架、表格嵌套；

　　4.蜘蛛被服务器拦截；

　　5.岛屿页面（没有任何导入链接）；

　　6.登录后才能获取的内容；

　　四种近似的重复页面类型：

　　1.完全重复页面：内容和布局格式没有区别；

　　2.内容重复的页面：内容相同，但布局格式不同；

　　3.布局重复页面：部分重要内容相同，布局格式相同；

　　4.部分重复页面的重要内容相同，但布局格式不同；

　　典型的网页去重算法：特征提取、文档指纹生成、相似度计算

　　低质量的内容页面：

　　1.多个URL地址指向同一个网页和镜像站点，如带www和不带www并解析为一个网站；

　　2.网页内容重复或几乎重复，如采集的内容，文字错误或垃圾信息；

　　没有丰富的内容，如纯图片页面或搜索引擎无法识别的页面内容；

　　过滤 - 如何处理重复文档：

　　1.已删除低质量内容

　　2.高质量重复文档优先分组展示（高重复表示欢迎）

　　关注我的头条（常州姜东），了解我的另一个文章：

　　客户 SEO 常见问题解答：搜索引擎的 SEO 规则是什么？

　　常见客户SEO问答：网站的标题怎么写

　　客户 SEO 常见问题解答：网站关键词究竟什么是布局？

　　常见客户SEO问题解答：网站关键词如何优化？

　　常见客户SEO问题解答：网站我的权限被降级了怎么办？

0

2022-03-17

黄冈搜索引擎优化

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

黄冈搜索引擎优化(搜索引擎的具体优化规则是什么？如何应对网页不断更新？)

0 个评论

发起人