搜索引擎工作的四个过程:抓取、过滤、输出结果

优采云 发布时间: 2021-05-24 03:14

  搜索引擎工作的四个过程:抓取、过滤、输出结果

  搜索引擎工作的主要原理是用户在搜索引擎上搜索关键词,然后搜索引擎将以排名方式在搜索引擎上显示用户搜索的信息。搜索引擎为用户显示的每个搜索结果都对应于Internet上的一个页面。

  从搜索引擎到搜索引擎向用户显示搜索引擎,搜索引擎显示的搜索结果必须经历四个过程:爬网,过滤,索引和输出结果。

  第一步:爬行

  如果您有网站,则在更新网站并生成一些新页面时(此处以百度为例),百度搜索引擎会将蜘蛛发送到您的网站进行抓取, spider抓取网站的速度非常快,通常它会通过首页抓取整个网站(前提是您的网站可以抓取页面,例如网站背景,通常网站禁止抓取,当您告诉蜘蛛无法爬行时,蜘蛛将不会爬行。

  Baiduspider(或百度蜘蛛)将使用搜索引擎系统的计算来确定要爬网的网站以及爬网的内容和频率。搜索引擎的计算过程将参考您的网站历史效果,例如内容是否足够高,是否存在对用户不友好的设置,是否存在过多的搜索引擎优化行为等等。

  当您的网站生成新内容时,Baiduspider将访问和爬网到Internet页面上的链接。如果您未设置任何外部链接以指向网站中的新内容,则Baiduspider无法对其进行爬网。对于已抓取的内容,搜索引擎将记录已抓取的页面,并根据这些页面对用户的重要性以不同的频率安排抓取和更新工作。

  百度搜索引擎的爬虫或爬虫会将通过爬网而抓取的页面文件存储到百度的临时数据库中。

  您需要注意的是,有一些爬网软件会伪装成Baiduspider来为各种目的对您的网站进行爬网。这可能是不受控制的爬网行为,在严重的情况下可能会影响它。到网站的正常运行。单击此处以识别Baiduspider的真实性。

  第2步:过滤

  百度将抓取的页面放入临时数据库后,它将过滤数据,并过滤掉一些无用的(已重复的内容和一些低质量的内容)。

  并非Internet上的所有网页对用户都是有意义的,例如一些明显的欺骗用户的网页,无效链接,空白内容网页等。这些网页对用户,网站管理员和百度没有足够的价值,因此百度会自动过滤这些内容,以避免给用户和您的网站带来不必要的麻烦。

  第3步:创建索引

  百度将一个接一个地标记和识别已爬网的内容,并将这些标记存储为结构化数据,例如网页标记标题,metadescripiton,网页外部链接和描述以及搜寻记录。同时,将识别并存储网页中的关键词信息以匹配用户搜索的内容。

  Spider分解,分析和过滤已爬网的页面文件,并将有用的页面文件以大表的形式存储在数据库中。这个过程就是索引

  第4步:输出结果

  在用户输入的

  关键词上,百度将对其进行一系列复杂的分析,并根据分析结论,在索引库中找到与之最匹配的一系列网页,并按照输入关键词的需求强度以及网页的优缺点,然后将最终得分排列并显示给用户。

  当Spider通过过滤将一些有用的页面保存到数据库中时,表示网站这些页面已经收录,它将通过排名向用户显示这些收录的有用页面。 ,例如,当用户在百度上搜索“搜索引擎的工作原理”时,单击搜索后将出现一些有关“搜索引擎的工作原理”的相关信息。这是显示内容:输出结果

  爬行蜘蛛有两种方法:主动和被动

  有效:当您的网站生成新页面时,百度会将蜘蛛发送到您的网站以进行爬网。

  被动:被动意味着网站生成新页面时,百度不会发送蜘蛛到网站进行爬网,那么您可以使用百度网站管理员工具或百度页面提交等。生成新页面链接并将其提交给百度,告诉百度您的网站有一个新页面

  蜘蛛会定期爬到您的网站。通常,您的网站更新速度更快,并且爬虫的出现频率更高。如果您的网站更新缓慢。蜘蛛来的次数较少。即使您的网站没有更新,蜘蛛也会定期访问您的网站

  总而言之,如果您想通过搜索引擎为用户提供更好的体验,则需要对网站进行严格的内容构建,使其更符合用户的浏览需求。您需要注意的是,网站的内容构造始终需要考虑一个问题,即它对用户是否有价值。对用户没有价值的网站没有用

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线