搜索引擎如何抓取网页(搜索引擎好的搜集策略是优先搜集重要的网页,他们并不是平行的抓取)

优采云 发布时间: 2022-02-19 21:17

  搜索引擎如何抓取网页(搜索引擎好的搜集策略是优先搜集重要的网页,他们并不是平行的抓取)

  面对海量的网页,搜索引擎不会并行抓取每个网页,因为无论搜索引擎数据库如何扩展,都跟不上网页的增长速度。搜索引擎会优先抓取最重要的网页。保存数据库一方面对普通用户也有帮助,因为对于用户来说,他们不需要大量的结果,只需要最重要的结果。所以一个好的采集策略是先采集重要的网页,这样最重要的网页才能在最短的时间内被抓取到。那么搜索引擎如何首先抓取最重要的网页呢?通过分析海量网页的特征,搜索引擎认为重要网页具有以下基本特征,虽然不一定完全准确,但大多数情况下是这样的:1)一个网页被其他网页链接的特点,如果被多次链接或者被重要网页链接,就是非常重要的网页;2)一个网页的父网页被链接了很多次或者是一个重要的网页例如一个网页是一个网站的内页,但是它的主页被链接了很多次,而且主页也链接到这个网页,也就是说这个网页也比较重要;3)page 内容被转载并广为传播。4) 网页的目录深度较小,便于用户浏览。“URL目录深度”在这里定义为:网页URL除域名部分外的目录层次,即如果URL为.domain,则目录深度为0;如果是 。domain/cs,目录深度为1,以此类推。需要注意的是,URL目录深度小的网页并不总是重要的,目录深度大的网页也并非都是不重要的。一些学术论文的网页网址具有较长的目录深度。

  大多数重要度高的网页都会同时具备以上四个特征。5)先采集网站首页,给首页分配高权重。网站的数量远小于网页的数量,重要的网页必须从这些网站首页链接,所以采集工作应优先获取尽可能多的网站@ > 主页尽可能。问题来了。当搜索引擎开始抓取网页时,可能不知道该网页是链接还是转载。也就是说,一开始,他无法知道前三项的特点。,这些因素只有在获得网页或几乎任何网页链接结构后才能知道。那么如何解决这个问题呢?那是,特征 4 和特征 5 在爬取的时候可以知道,只有特征 4 可以判断一个 URL 是否符合网页的内容(在爬取网页之前)而不需要知道。“重要”的标准,网页URL目录深度的计算就是对字符串的处理。统计结果表明,一般 URL 的长度小于 256 个字符,使得 URL 目录深度的判断更容易实现。因此,特征 4 和特征 5 是最有价值的采集策略确定的指导因素。但是,特征 4 和 5 有局限性,因为链接的深度并不能完全表明页面的重要性。那么如何解决这个问题呢?搜索引擎采用如下方法: 1) URL 权重设置:

  2) 将 URL 初始权重设置为固定值。3) 如果URL中出现一次“/”、“?”或“&”字符,则权重减1,如果出现一次“search”、“proxy”或“gate” , 权重减去一个值;最多为零。(收录“?”或“&”的URL是带参数的形式,需要通过请求的程序服务获取网页,而不是搜索引擎系统关注的静态网页,因此权重相应降低. 收录“search”、“proxy””或“gate”,表示该网页很可能是搜索引擎检索到的结果页面,即代理页面,因此应降低权重)。4) 为未访问的 URL 选择策略。因为权重小并不一定代表不重要,所以要给一定的机会去采集权重小的未访问的URL。选择未访问URL的策略可以采用轮询的方式,根据权重选择一个,随机选择一个,或者随机选择N次。搜索引擎在爬取大量网页时,进入了解读网页前三个特征的阶段,然后通过大量算法判断网页质量,然后给出相对排名. 本文由51荷叶茶提供。51heyecha/webmaster原创 选择未访问URL的策略可以采用轮询的方式,根据权重选择一个,随机选择一个,或者随机选择N次。搜索引擎在爬取大量网页时,进入了解读网页前三个特征的阶段,然后通过大量算法判断网页质量,然后给出相对排名. 本文由51荷叶茶提供。51heyecha/webmaster原创 选择未访问URL的策略可以采用轮询的方式,根据权重选择一个,随机选择一个,或者随机选择N次。搜索引擎在爬取大量网页时,进入了解读网页前三个特征的阶段,然后通过大量算法判断网页质量,然后给出相对排名. 本文由51荷叶茶提供。51heyecha/webmaster原创 然后通过大量的算法判断网页的质量,然后给出相对排名。本文由51荷叶茶提供。51heyecha/webmaster原创 然后通过大量的算法判断网页的质量,然后给出相对排名。本文由51荷叶茶提供。51heyecha/webmaster原创

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线