什么叫搜索引擎优化(搜索引擎的具体优化规则是什么?如何应对网页不断更新?)
优采云 发布时间: 2021-12-16 04:00什么叫搜索引擎优化(搜索引擎的具体优化规则是什么?如何应对网页不断更新?)
1、搜索引擎的具体优化规则是什么?
这种问题其实很宽泛,相当于问“SEO是怎么做的?” 这是爬行规则的图片。
搜索引擎从用户搜索到最终搜索结果显示的步骤为(以百度为例):
对于爬虫,百度不知道你的网站,你怎么排名?所以要让百度知道你,首先要经过爬虫这个步骤;
过滤,过滤掉低质量的页面内容;
索引,只有符合条件的页面才会被存储;
处理,处理搜索词,比如中文特有的分词,去除停用词,判断是否需要启动综合搜索,判断是否有拼写错误或错别字。
排名,向用户展示优质页面;
蜘蛛:
搜索引擎发送的用于在互联网上寻找新网页并对其进行抓取的程序称为蜘蛛。它从一个已知的数据库开始,像普通用户的浏览器一样访问这些网页,并跟踪网页中的链接以访问更多的网页。,这个过程叫做爬行;
蜘蛛对一个站点的遍历和爬取策略分为深度优先和广度优先。
蜘蛛爬行的基本过程:
根据爬取目标和范围,可以分为批处理爬虫:清除爬取目标和范围,到达停止;增量爬虫:响应网页持续更新的状态,爬虫需要及时响应,一般商业引擎一般都做这个Category;垂直爬虫:只针对特定领域的爬虫,按主题过滤;
百度官方蜘蛛爬取过程中的策略
1、 爬取友好性,同一站点在一段时间内的爬取频率和一段时间内的爬取流量是不同的,即错开不断调整正常用户访问高峰,避免被抓到过大的影响。 网站 正常的用户访问行为。
2、常用抓取返回码,如503、404、403、301等;
3、 多个URL重定向的识别,如http 30x、meta refresh redirect和js重定向,Canonical标签也可以看作是变相的重定向;
4、 抢优先级分配,如深度优先遍历策略、广度优先遍历策略、pr优先策略、反链策略、大站优先策略等;
5、 重复URL过滤,包括URL规范化识别,例如一个URL收录大量无效参数但实际上是同一个页面;
6、 暗网数据采集,搜索引擎暂时无法捕获的数据,如存在于网络数据库中,或由于网络环境,网站不符合规范,或孤岛等抓到了,比如百度的“阿拉丁”项目;
7、抓取反作弊,抓取过程中经常会遇到所谓的抓取黑洞或者大量低质量页面的烦恼,这就需要在抓取中设计一套完整的抓取反作弊系统系统。. 如分析url特征,分析页面大小和内容,分析爬取规模对应的站点规模等;
蜘蛛感兴趣的页面有 3 种类型:
1.一个从未被爬过的新页面。
2. 已爬取但内容已更改的页面。
3.已被抓取但现在已被删除的页面。
蜘蛛不能/不喜欢爬行的内容:
1.页面被机器人拦截;
2.图片、视频、flash中的内容;
3.js、iframe框架、表格嵌套;
4.蜘蛛被服务器拦截;
5.孤岛页面(无任何导入链接);
6. 登录后才能获取的内容;
四种近似重复的网页:
1. 完全重复页面:内容和布局格式没有区别;
2. 重复内容页面:内容相同,但布局格式不同;
3. 布局重复页面:部分重要内容相同,布局格式相同;
4.有些重复的页面有些重要的内容是一样的,但是布局格式不同;
典型的网页去重算法:特征提取、文档指纹生成、相似度计算
低质量的内容页面:
1.多个URL地址指向同一个网页和镜像站点,比如有www和没有www同时解析为一个网站;
2. 网页内容重复或接近重复,如采集的内容,文字不正确或垃圾邮件;
没有丰富的内容,如纯图片页面或搜索引擎无法识别的页面内容;
过滤-如何处理重复文档:
1.删除低质量内容
2.高质量重复文档先分组展示(高重复表示欢迎)