博客搜索引擎优化(家喻户晓,一个网坐的流量能大致分红部分:爬虫(crawler))
优采云 发布时间: 2022-03-30 06:19博客搜索引擎优化(家喻户晓,一个网坐的流量能大致分红部分:爬虫(crawler))
众所周知,一个网站的流量大致可以分为三部分:直接访问、referer和搜索引擎。其实那部分搜索也可以属于参考页的范畴,但是太重要了,所以我们只好把它作为一个独立的分析模块拿出来。一般来说,这三个部分的比例会根据互联网站点的性质和发展情况而有所不同。例如,对于门户网站,直接访问的百分比通常应该很高,否则“门户”一词将失去意义。同样,对于一些提供服务的网站,搜索部分应该更高,因为当用户需要寻找服务时,百度或谷歌往往是第一个坐的位置。对于这三个部分的流量,将有不同的策略和回合来增加您自己网站的流量。在这篇文章中,作者主要关注搜索引擎。
让我们介绍一下今天的主角——爬虫。爬虫是搜索引擎获取网络资源的重要途径。通过网络爬虫,搜索引擎可以有机地获取当前互联网上的最新网页,为后续的分析关键词、排序等提供素材。既然爬虫那么重要,我们就应该给他提供一些合适的“食物” ” 对于爬虫(这里不想提太多的技术分析,比如广度优先、深度优先、内容相关性、网页重要性等,这些都是留给每个研发人员关心的事情。在这里我只是想描述一些概念性的观点,适合大家理解和讨论)。但是这里一个非常重要的概念是爬虫是有礼貌的,不会被忽视。它将在其“用户代理”中声称“我是某某搜索引擎的爬虫”。这对我们来说是一个很好的机会,因为机器毕竟不同于人,要达到人类最好的视觉效果,搜索引擎可能很难分析页面,反之亦然。通过检测爬虫的circle方法,可以交出一个只适合机器看的完整页面,但完全不影响真实用户的用户体验。而且,随着时间的发展,爬虫开始变得越来越智能,一些爬虫,比如google,已经可以理解页面本身的javascript(但不包括这种外部的javascript),所以如果你不想要爬虫去某一个如果链接完整的话,可以写成javascript。至于如何在html中编写各种标签,对搜索引擎是有好处的。网上已经有很多文章的解释,本文不再赘述。
爬虫的另一个重要但无奈的特点是爬虫资源有限。特别是对于一些较小的搜索引擎,他们会设计自己的一套算法来决定是否让爬虫访问某个页面。如果页面不够“重要”(由每个引擎自己定义),并且资源不够,则该页面将被忽略。我们做个实验,去百度网站输出“site:”,会显示“大约69.4万篇文章”,然后去搜狗网站试试,会看到“找到6页”。这也是给所有想做搜索引擎优化的人敲响了*敏*感*词*,这个时候不要太在意(小规模搜索引擎)的后果。购买一些 关键词