输入关键字 抓取所有网页(做seo很大程度是做关键词的基本目标,才有更好的转化率)
优采云 发布时间: 2022-02-21 12:05输入关键字 抓取所有网页(做seo很大程度是做关键词的基本目标,才有更好的转化率)
很大程度上,做SEO就是做关键词排名。将关键词设为首页是SEO的基本目标。只有首页的排名,才能有更好的展示机会和更高的转化率。
一、搜索原理
网络蜘蛛是网络蜘蛛。如果把互联网比作蜘蛛网,那么蜘蛛就是在网上四处爬行的蜘蛛。网络蜘蛛通过网页的链接地址寻找网页,从网站的某个页面(通常是首页)开始,读取网页的内容,寻找网页中的其他链接地址,然后通过这些链接地址寻找下一页。一个网页,以此类推,直到所有 网站 网页都被爬取。如果把整个互联网看成一个网站,那么网络蜘蛛就可以利用这个原理爬取互联网上的所有网页。
1、抢
搜索引擎和普通访问者一样,会按照网页上的链接,一一下载我们的网页,为下一步的预处理做准备。
2、预处理
①。判断是否符合其收录规则,若符合收录规则则继续处理
②。对 文章 进行分词
将网页中的 文章 剪切成单个单词。测量文档之间的相关性并准备反向索引。并记录单词出现的位置。
③。创建倒排索引
在搜索引擎中,每个文件对应一个文件ID,文件内容表示为一系列关键词的集合
将文件 ID 到 关键词 的映射转换为 关键词 到文件 ID 的映射。
使用词索引网页的好处是搜索引擎的用户也输入了词,这样他们就可以很容易地找到相关的网页。
3、搜索
①。用户对关键词查询进行分段,取索引的交集
②.排序
重要性 - 网页静态质量得分。搜索引擎将网站的各种性能条件转化为分数,这些分数相加得到一个页面的质量分数,即所谓的权重。
一种。页面信噪比:
页面信噪比是指页面中文字与非文字的比例,页面信噪比至少要大于1。
湾。缺乏
C。链接控制:
链接控制子链接的数量和链接自然度。页面的权重是固定的,链接可以传递权重。链路越多,每条链路传输的权重越低。
d。页面浏览量
相关性——以上只能通过倒排索引来定性的知道网页和查询词是否相关,但是没有办法知道谁更相关,也就是定量的。百度处理方法:
一种。记录单词出现的位置,关键词在不同位置的权重不同。
湾。tf-idf算法,即一个词在一篇文章文章中出现次数最多,词的权重越高;一个词在整个互联网上出现的次数越多,(比如“我”、“这个词”不足以区分一个文章的话题,几乎每一个文章都会出现)越小这个词的重量。
4、常用的高级搜索命令:
site:最熟悉的SEO高级搜索命令,用于搜索一个域名下的所有文件。
inurl: 指令用于搜索查询词出现在 url 中的页面。
intitle:该命令返回页面标题中收录关键词的页面。
domain:其作用是查询域名下的反向链接(反向链接=外部链接+内部链接)。
二、指数排名
1、收录 和索引
收录:页面被百度蜘蛛发现并分析
索引:百度蜘蛛初步分析认为有意义,做建库
收录索引的关系是收录关系。可以先建一个索引收录,收录的数量大于索引的数量。
百度表示,第三方提供的所谓收录查询是不可靠的。
1-1、索引文章行列式:
可信度;
文章质量;
更新频率;
网站结构体;
熊掌号和站点地图对百度有推广作用收录;
网站的年龄和体重影响百度收录对网站的影响。
1-2、加速页面索引方法:
做好网站TDK,不要修改;
积累优质网站内容;
每日定期和定量更新;
提交百度等搜索引擎,包括站点地图、熊掌号等;
重点制作熊掌号。目前熊爪号的提交已经可以做到移动站收录的80%以上;
有针对性、定期发布优质外链。
2、文章质量判断(百度官方)
①。观众
受众的规模代表了用户检索需求的规模。
②。稀缺
稀缺性主要描述了互联网页面的独特性。
③.质量
a 不能是死链接,网站访问速度是否令人满意。
b 主要内容是否完整,版式和字体是否易于阅读,广告是否过多。
c 信息是否丰富,是否满足扩展的次要需求。
④。老化
3、原创识别判断
①。释放时间——蜘蛛抓到的日期
②.锚文本链接——网站页面有多少个外部链接
③.信息指纹——文章内容的相似度
4、标题优化方法
搜索引擎搜索到的内容的标题往往就是网页标题的内容,搜索引擎给标题赋予了很高的权重。
①。标题流畅、吸引人且文章现实。
②。标题必须为原创,收录核心关键词和长尾词,与内容关键词保持一致
③。写作要符合搜索引擎的习惯,少用标点符号
④。长度适当,控制在22个汉字以内
5、内容优化方法
主要分为两部分:一部分是原创/伪原创,另一部分是采集素材库回顾。
至少第一段需要纯原创,最好有可搜索的内容,整个段落要根据玩家的搜索需求来写。
正文最好有条不紊地分成小标题
基于内容的 伪原创 方法
寻找有价值的文章,最好当天发布,或者使用爬虫爬取的数据库重写
有价值的 文章 可读性强、目标明确且引人注目。
①。修改文章的开头和结尾部分:
重新总结第一段和最后一段,打乱文中的顺序,去掉一些不相关的。添加透视。
②。对原文进行拆分重组:找几个相关的文章合并成一个新的文章
③。相关内容的组合与组合
④。将 文章 翻译成其他语言
⑤。使用论坛、博客、新媒体等方式挖掘文章
6、图像优化方法
搜索引擎已经具备一定的能力来识别大多数图像的 原创 属性
图片的算法主要包括计算hash值、pHash算法和SIFT算法,对目标图像进行编码形成“指纹”并存储。
①。给图片添加水印;
②。改变原图的纵横比,或者直接截取图片的某一部分;
③。图片长宽比尽量接近121*75,接近百度搜索显示的缩略图大小;
④。缩略图内部链接,相比文字链接,更能吸引访问者点击,关注相关性。
⑤。添加alt描述可以增强页面的主题关键词,但是注意不要堆放关键词。
⑥。百度越来越喜欢原创的内容,其实图片也是页面的一部分。
7、关键词优化方法
关键词类别:核心关键词;相关关键词;长尾 关键词; 错误 关键词; 不常见 关键词
①。从用户的角度考虑,想想用户在搜索时使用了什么词
②,不超过5个,一般3个:主关键词,辅助关键词,潜在长尾关键词
③、关键词密度不超过2% - 8%(根据需要,不是绝对的)