如何实现搜索引擎优化(搜索引擎中的页面主要分为四种页面(一)_搜索引擎)
优采云 发布时间: 2021-11-13 18:02如何实现搜索引擎优化(搜索引擎中的页面主要分为四种页面(一)_搜索引擎)
从搜索引擎的角度来看,互联网上的页面主要有四种类型,即已爬取的页面、待爬取的页面、可爬取的页面和暗网。
四种网页类型讲解,熟悉网站页面分类
顾名思义,爬取的网页就是蜘蛛爬过的网站的内容。待爬取的是尚未爬取但已进入等待列表的内容。可爬网页面是未被发现但已经存在的页面,而暗网则是搜索引擎无法找到需要手动提交才能通过链接自爬发现的页面。
通常我们分析的页面爬取主要是在非暗网上的页面爬取。每个搜索引擎都有自己独特的暗网爬行算法。我们不会做太多分析。
爬取搜索引擎的策略主要有两种,即广度优先策略和深度优先策略。
广度优先策略解释
大多数网页除了自己的链接之外还有很多链接。比如详情页有相关新闻、相关案例等的链接,当搜索引擎访问一个页面时,该页面的所有链接依次存储在数据库中,然后发现该页面进行迭代爬取,然后进行排列将新发现的 URL 放入数据库进行爬取,按照这个逻辑依次爬取就是广度优先策略。如图:捕获序列为1-2、3、4-5-11-6-12-3-7-13-8-14。用图文了解自我。
深度优先策略说明
根据页面上的一个链接逐层获取,直到获取到最后一个链接,然后再回到初始位置以同样的方式获取其余的链接,这就是深度优先策略。
无论是广度优先还是深度优先策略,只要有足够的时间,搜索引擎都可以抓取所有页面,但优先考虑的是搜索引擎的抓取能量,无法保证页面抓取的全面性。搜索引擎受到影响。自身资源的限制不得不考虑爬取页面的优先级。还有另外两种爬行策略。
重要网页优先抓取策略
搜索引擎判断一个页面的重要性,主要是从自身的质量和权重来判断。另一个重要因素是导入链接的数量。比如首页的导入链接,必须从更多的页面开始,所以首页的优先级也比较高。
大站点链接优先策略
很明显,大站优先是搜索一组对它有偏好的大网站,自身权重比较高。这里的权重不仅与公关有关,而且与信任有关。这并不意味着人是强大的。即使是高权重的搜索引擎也喜欢它。很多B2B网站内容也很大,但是搜索引擎无法很好的抓取页面内容。相对来说,一些比较好的网站可以有很好的活跃度,所以发新闻可以增加活跃度,发到各大站首页也可以实现即时采集。
总之,搜索引擎的资源是有限的。在搜索引擎资源有限的情况下,尽量依靠外链来引导蜘蛛,增加网站的权重。这是网站SEO搜索引擎优化长期运营的重中之重