seo搜索引擎优化考试题(SEO优化之seo搜索引擎优化方法)
优采云 发布时间: 2022-02-21 02:01seo搜索引擎优化考试题(SEO优化之seo搜索引擎优化方法)
一、seo 搜索引擎优化。
一)SEO的六个步骤:
1、关键词分析(也称为关键词位置)
这是SEO最重要的部分。关键词分析包括:
①关键词后续成交量分析
②竞争对手分析
③关键词与网站相关性分析
④关键词布局
⑤关键词排名预测
2、网站架构分析
网站结构符合搜索引擎的爬虫偏好,有利于SEO。网站架构分析包括:
① 消除 网站 糟糕的架构设计
② 实现树状目录结构
③网站导航和链接优化
3、网站目录和页面优化
SEO不仅仅是为了让网站首页在搜索引擎中有好的排名,更重要的是让网站的每一页都带来流量。
4、内容发布和链接放置。
搜索引擎喜欢定期更新网站内容,所以合理安排网站内容的发布时间是SEO的重要技巧之一。链接排列将整个网站有机地连接起来,让搜索引擎了解每个页面和关键词的重要性,实现参考是第一点的关键词排列。友谊链接活动也在此时启动。
5、与搜索引擎对话
看SEO在搜索引擎中的效果,通过site:你的域名,知道网站的收录和更新。为了更好地与搜索引擎沟通,建议使用 Google网站Administrator Tools。
6、网站流量分析
网站流量分析从SEO结果指导下一步的SEO策略,对网站的用户体验优化也有指导意义。流量分析工具推荐谷歌流量分析。
二)搜索引擎的组成:
1、网页抓取系统:
--检测系统:蜘蛛。
蜘蛛在抓取 Internet 时检测到 网站 的 URL。
--下载系统
URL指向的页面通过下载系统下载到搜索引擎的服务器上,然后将页面交给数据分析系统。
2、数据分析系统
--数据分析系统:当数据分析系统从网络爬虫系统获取下载的页面时,首先进行数据分析,去除不相关的文字或网站重复内容。
--数据处理系统:
进行页面文字处理,然后判断处理后的页面内容是否符合收录标准。它被移交给存储系统,但没有被删除。
3、存储数据系统
保存收录的页面,然后定期检查保存的页面是否有更新。
4、缓存系统
存储搜索引擎认为高价值的内容。用户在搜索某一个关键词时,经常会看到收录的数量是几千万,但是搜索引擎只显示1000条,也就是说只有1000条放在缓存系统中. 找到他们正在寻找的东西的最快方法。
5、显示系统
用户搜索会在显示屏上返回信息。
三)搜索引擎收录原理(简单流程):
1、找到网站的URL并下载页面。
2、判断页面质量是否符合收录标准,如果符合则页面为收录,否则删除。
3、判断收录页面是否更新,更新页面快照。
四)搜索引擎收录页面的详细流程(网络爬虫的基本工作流程)
①蜘蛛在爬取整个互联网时遇到一个 URL。
② 提取URL,根据网站的权重和相关性插入到URL队列中。
③ 解析DNS到URL。
④ 如果无法解析 DNS,则将 URL 添加到 URL 队列中。如果解释成功,则进行下一步。
⑤分析URL内容。
蜘蛛首先查找你的 网站 robots 文件,根据你的 网站 robots 规则判断是否抓取你的页面。
如果 robots 文件不存在,则返回 404 错误。搜索引擎将继续抓取您的 网站 内容。
⑥判断网页是否符合收录标准,如果不符合,则将URL加入URL队列。如果满足 收录 条件,则下载 Web 内容。
⑦当搜索引擎获取到下载网页的内容后,会提取页面上的URL,并继续将该URL添加到URL队列中。然后取页面数据做进一步分析。
⑧ 判断网页内容是否符合收录标准。如果符合收录标准,将页面提交到数据库,并存储在云数据存储硬盘中。不符合条件的删除。
⑨ 当用户搜索某个关键词时,搜索引擎会将部分高度相关的内容放入临时缓存区,以减少查询时间。
⑩ 浏览器只向用户显示缓存的一部分。
⑪ 对于存储在硬盘中的页面,搜索引擎会定期根据网站的权重判断页面是否更新,是否达到放入缓存区的标准。已删除的页面或不符合 收录 条件的页面也将被删除。
参考:
搜索引擎优化的原理是什么
SEO从业者必须了解搜索引擎的工作原理
二、网络爬虫。
一)从爬虫的角度划分互联网
互联网的所有网页可以分为五个部分:
1、下载了未过期的网页
2、下载过期网页
抓取的网页实际上是互联网内容的镜像和备份。互联网动态变化。互联网上的一些内容发生了变化。此时,抓取的网页已经过期。
3、要下载的页面
URL 队列中要抓取的那些页面
4、已知页面
还没有被爬取,也不在待爬取的URL队列中,但是通过分析已经爬取的页面或者待爬取URL对应的页面可以得到URL,认为是已知的网页。
5、不可知的网页
爬虫不能直接爬取下载的文件。
二)爬虫的爬取策略
1、深度优先策略
深度优先遍历策略是指网络爬虫会从起始页开始,一个接一个的链接,处理完该行再到下一个起始页,继续跟踪该链接。我们以下图为例,遍历的路径:AFG EHI BCD。
2、广度优先遍历策略
广度优先遍历策略的基本思想是将新下载的网页中找到的链接直接插入待爬取URL队列的末尾。也就是说,网络爬虫会先爬取起始网页链接的所有网页,然后选择其中一个链接的网页,继续爬取该网页链接的所有网页。或者以上图为例,遍历路径:ABCDEF GHI
3、反向链接计数策略
反向链接数是指从其他网页指向一个网页的链接数。反向链接的数量表示网页内容被他人推荐的程度。因此,在很多情况下,搜索引擎的爬取系统会使用这个指标来评估网页的重要性,从而确定不同网页的爬取顺序。
在真实的网络环境中,由于广告链接、作弊链接的存在,反向链接数不能完全等于重要程度。因此,搜索引擎往往考虑一些可靠的反向链接数。
4、部分PageRank策略
Partial PageRank算法借鉴了PageRank算法的思想:对于下载的网页,与待爬取的URL队列中的URL一起,形成一组网页,计算每个页面的PageRank值. URL 按 PageRank 值排序,并按该顺序抓取页面。
如果每次抓取一个页面,就重新计算PageRank值,一种折中方案是:每抓取K个页面后,重新计算一次PageRank值。但是这种情况还会有一个问题:对于已经下载下来的页面中分析出的链接,也就是我们之前提到的未知网页那一部分,暂时是没有PageRank值的。为了解决这个问题,会给这些页面一个临时的PageRank值:将这个网页所有入链传递进来的PageRank值进行汇总,这样就形成了该未知页面的PageRank值,从而参与排序。
5、OPIC 政策
该算法实际上为页面分配了一个重要性分数。在算法开始之前,所有页面都会获得相同的初始*敏*感*词*。当某个页面P被下载时,P的*敏*感*词*分配给从P分析的所有链接,P的*敏*感*词*被清空。根据*敏*感*词*数量对待爬取URL队列中的所有页面进行排序。
6、大网站优先策略
所有待爬取的URL队列中的网页都按照它们所属的网站进行分类。网站需要下载的页面较多,请先下载。这种策略也称为大站点优先策略。
参考:
网络爬虫基本原理(一)