seo优化搜索引擎工作原理(搜索引擎工作原理包括三个过程:建立索引—呈现排名)
优采云 发布时间: 2022-02-23 04:00seo优化搜索引擎工作原理(搜索引擎工作原理包括三个过程:建立索引—呈现排名)
搜索引擎的工作原理包括三个过程:网页搜索、信息预处理和索引。
细分分为:爬取-爬取-处理爬取信息-构建索引-渲染排名
一:爬行
爬取目的:创建待爬取列表
谷歌爬虫:ddos 百度爬虫:蜘蛛
1、发现:
新的 网站
被动等待:设置Robots.txt文件,放到服务器上等待爬虫自行爬取。(谷歌几个星期,百度一个月到几个月。)
主动吸引爬虫:用链接写软文,花钱买高质量高权重的网站,使用高权重的博客,在优质论坛发外链。
新内容
可以放首页,否则尽量放顶栏(总结:争取高权重位置)
横幅图像不如幻灯片,幻灯片不如文字。(总结:文字优先,图片写alt属性)
2、爬虫分析:
查看:网站日志分析。可以在日志文件中查看站长工具:查看爬取频率。太高会导致服务器崩溃。
问题及解决方法:网站访问突然为0
先去现场网站收录看看有没有处罚
分析日志爬虫,记录IP(蜘蛛,用户)
统计代码问题
3、爬取策略:
深度优先:到第一层栏目底部(100万-1000万页)
广度优先:对等列单独采集(100 万页)
混合:两者的混合(50-1 亿页)
4、爬行者爬行障碍:
txt 文件设置不正确。服务器本身的问题(动态IP频繁出现,服务器不稳定)时间过长,搜索引擎爬虫懒得直接抓取。爬行动物陷阱
二:抢
1.网页本身必须符合W3C标准
页眉信息:状态码:200(正常访问)、404(死链接)、301(永久重定向)、302(临时重定向谨慎)、403(禁止访问)、5xx(数据库问题) 代码:建议使用utf-8,gb2312在国外打开是乱码。
2.TDK关键词:
标题:我们希望爬虫在进入某个页面时能看到我们的主要内容。
长度:33个汉字文章,25个汉字足够两个英文字符算一个字符
位置:关键词位置前置
次数:不要重复太多(列可以强调关键词,最重要的放在前面)
可读性:考虑用户体验
原创性:蜘蛛喜欢新鲜事物
关键字:5-7个首页,5-6个一级栏目,4-5个二级栏目,3-4个列表页,2-3个主题。Deion:(列必须写在 关键词 周围)
效果:提高点击率
密度:3-8%
长度:80个汉字
原创性别:有益收录
可读性:用户体验注意事项
号召性用语:活动、促销等的页面。
3、公共部门:
搜索引擎不会爬取重复的部分(爬虫更喜欢新鲜的原创东西,重复的内容不利于爬取)
4、导航:
Primary Navigation、Secondary Navigation、Left Navigation、SEO Navigation(标签)、Breadcrumb Navigation(不要使用 JS)、
5、广告:
横幅图片不如幻灯片,幻灯片不如文字(总结:文字优先,图片写alt属性)。文本适合爬虫爬行。
6、文字:
关键词:次数合适,密度适中3-8%,位置靠前(金华站长工具可以找到)
标签:唯一性,在整个页面上最重要的东西。包括关键词、关键词尽量放在前面标签:不唯一,次要。
可以添加其他属性
属性:只能用于
,意在告诉蜘蛛对图片的解读
属性:为链接添加描述性文字,为用户提供更清晰的含义
三:对抓取结果进行处理(预处理)
爬取后,爬虫将其压缩成数据包返回给数据库
相关性:由于百度算法的上下文分析+语义分析,网站不会出现不相关的内容,否则搜索引擎也会省略权威:各种奖项、网络评价、申请百度客服增加信任度。
注:权限不足造成的影响:同一篇文章文章,由于信任级别,可能被文章转载发表,但落后于他人网站。
去重:一个链接不能有多个页面,同一个关键词不能指向不同的链接,同一个关键词的不同链接不应该出现在同一个页面上。
四:创建索引
搜索引擎索引是反向构建的