黄冈搜索引擎优化(搜索引擎的具体优化规则是什么?如何应对网页不断更新?)
优采云 发布时间: 2022-03-17 08:23黄冈搜索引擎优化(搜索引擎的具体优化规则是什么?如何应对网页不断更新?)
?1、搜索引擎的具体优化规则是什么?
这种问题其实很宽泛,相当于问“怎么做SEO?”
搜索引擎从用户搜索到最终搜索结果展示所经历的步骤是(以百度为例):
爬,百度不知道你的网站,怎么让你排名?所以要让百度知道你,首先要通过爬取这一步;
过滤,过滤掉低质量的页面内容;
索引,只存储符合条件的页面;
处理,对搜索词进行处理,如中文专用分词处理,去除停用词,判断是否需要启动综合搜索,判断是否有拼写错误或错别字。
排名,向用户展示优质页面;
蜘蛛:
由搜索引擎发送的用于发现和抓取 Internet 上的新网页的程序称为蜘蛛。它从一个已知的数据库开始,像普通用户的浏览器一样访问这些网页,然后沿着网页中的链接访问更多的网页,这个过程称为爬取;
蜘蛛对站点的遍历和爬取策略分为深度优先和广度优先两种。
蜘蛛爬行的基本过程:
根据爬取的目标和范围,可以分为
批量爬虫:明确爬取目标和范围,达到就停止;
增量爬虫:为了响应网页不断更新的状态,爬虫需要及时响应,一般商业引擎一般都是这种类型;
垂直爬虫:只针对特定领域的爬虫,根据主题进行过滤;
爬取过程中百度官方蜘蛛攻略
1、爬取友好性,同一站点在一段时间内的爬取频率和爬取流量不同,即错开正常用户访问高峰并不断调整,避免对被抓影响过大1、@ > @网站 的正常用户访问行为。
2、常用的fetch返回码,如503、404、403、301等;
3、对各种url重定向的识别,如http 30x、meta刷新重定向和js重定向,Canonical标签也可以认为是变相的重定向;
4、抢优先分配,如深度优先遍历策略、广度优先遍历策略、pr优先策略、反链策略、大站点优先策略等;
5、重复url过滤,包括url规范化识别,例如一个url收录大量无效参数但实际上是同一个页面;
6、暗网数据的获取,搜索引擎暂时无法抓取的数据,比如存在于网络数据库中,或者由于网络环境,网站本身不符合规范,被爬取的孤岛等问题,如百度的“阿拉丁”程序;
7、爬虫防作弊,爬取过程中经常遇到所谓的爬虫黑洞或者面临大量低质量页面,这就需要在爬虫系统中设计一套完整的爬虫防作弊系统。. 如分析url特征、分析页面大小和内容、分析爬取规模对应的站点规模等;
蜘蛛感兴趣的页面有 3 类:
1.从未抓取过新页面。
2.使用修改后的内容爬网的页面。
3.已抓取但现已删除的页面。
什么蜘蛛不能/不喜欢爬行:
1.被机器人阻止的页面;
2.flash 中的图片、视频和内容;
3.js、iframe框架、表格嵌套;
4.蜘蛛被服务器拦截;
5.岛屿页面(没有任何导入链接);
6.登录后才能获取的内容;
四种近似的重复页面类型:
1.完全重复页面:内容和布局格式没有区别;
2.内容重复的页面:内容相同,但布局格式不同;
3.布局重复页面:部分重要内容相同,布局格式相同;
4.部分重复页面的重要内容相同,但布局格式不同;
典型的网页去重算法:特征提取、文档指纹生成、相似度计算
低质量的内容页面:
1.多个URL地址指向同一个网页和镜像站点,如带www和不带www并解析为一个网站;
2.网页内容重复或几乎重复,如采集的内容,文字错误或垃圾信息;
没有丰富的内容,如纯图片页面或搜索引擎无法识别的页面内容;
过滤 - 如何处理重复文档:
1.已删除低质量内容
2.高质量重复文档优先分组展示(高重复表示欢迎)
关注我的头条(常州姜东),了解我的另一个文章:
客户 SEO 常见问题解答:搜索引擎的 SEO 规则是什么?
常见客户SEO问答:网站的标题怎么写
客户 SEO 常见问题解答:网站关键词究竟什么是布局?
常见客户SEO问题解答:网站关键词如何优化?
常见客户SEO问题解答:网站我的权限被降级了怎么办?