博客搜索引擎优化(家喻户晓，一个网坐的流量能大致分红部分：爬虫(crawler))

优采云发布时间: 2022-03-30 06:19

　　众所周知，一个网站的流量大致可以分为三部分：直接访问、referer和搜索引擎。其实那部分搜索也可以属于参考页的范畴，但是太重要了，所以我们只好把它作为一个独立的分析模块拿出来。一般来说，这三个部分的比例会根据互联网站点的性质和发展情况而有所不同。例如，对于门户网站，直接访问的百分比通常应该很高，否则“门户”一词将失去意义。同样，对于一些提供服务的网站，搜索部分应该更高，因为当用户需要寻找服务时，百度或谷歌往往是第一个坐的位置。对于这三个部分的流量，将有不同的策略和回合来增加您自己网站的流量。在这篇文章中，作者主要关注搜索引擎。

　　让我们介绍一下今天的主角——爬虫。爬虫是搜索引擎获取网络资源的重要途径。通过网络爬虫，搜索引擎可以有机地获取当前互联网上的最新网页，为后续的分析关键词、排序等提供素材。既然爬虫那么重要，我们就应该给他提供一些合适的“食物” ” 对于爬虫（这里不想提太多的技术分析，比如广度优先、深度优先、内容相关性、网页重要性等，这些都是留给每个研发人员关心的事情。在这里我只是想描述一些概念性的观点，适合大家理解和讨论）。但是这里一个非常重要的概念是爬虫是有礼貌的，不会被忽视。它将在其“用户代理”中声称“我是某某搜索引擎的爬虫”。这对我们来说是一个很好的机会，因为机器毕竟不同于人，要达到人类最好的视觉效果，搜索引擎可能很难分析页面，反之亦然。通过检测爬虫的circle方法，可以交出一个只适合机器看的完整页面，但完全不影响真实用户的用户体验。而且，随着时间的发展，爬虫开始变得越来越智能，一些爬虫，比如google，已经可以理解页面本身的javascript（但不包括这种外部的javascript），所以如果你不想要爬虫去某一个如果链接完整的话，可以写成javascript。至于如何在html中编写各种标签，对搜索引擎是有好处的。网上已经有很多文章的解释，本文不再赘述。

　　爬虫的另一个重要但无奈的特点是爬虫资源有限。特别是对于一些较小的搜索引擎，他们会设计自己的一套算法来决定是否让爬虫访问某个页面。如果页面不够“重要”（由每个引擎自己定义），并且资源不够，则该页面将被忽略。我们做个实验，去百度网站输出“site:”，会显示“大约69.4万篇文章”，然后去搜狗网站试试，会看到“找到6页”。这也是给所有想做搜索引擎优化的人敲响了*敏*感*词*，这个时候不要太在意（小规模搜索引擎）的后果。购买一些关键词

0

2022-03-30

博客搜索引擎优化

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

博客搜索引擎优化(家喻户晓，一个网坐的流量能大致分红部分：爬虫(crawler))

0 个评论

发起人

AI时代内容工厂

博客搜索引擎优化(家喻户晓，一个网坐的流量能大致分红部分：爬虫(crawler))

0 个评论

发起人

相关问题