搜索引擎如何抓取网页(搜索引擎如何首先抓取最重要的网页?(图))

优采云发布时间: 2022-01-24 15:20

　　搜索引擎如何优先抓取最重要的页面？面对大量的网页，搜索引擎不会并行抓取每个网页，因为无论搜索引擎数据库如何扩展，都跟不上网页的增长速度。搜索引擎会优先抓取最重要的网页。一方面，保存数据库对普通用户也有帮助，因为对于用户来说，他们不需要大量的结果，只需要最重要的结果。所以一个好的采集策略是先采集重要的网页，这样最重要的网页才能在最短的时间内被抓取到。那么搜索引擎如何首先抓取最重要的网页呢？通过分析大量网页的特点，搜索引擎认为，重要网页具有以下基本特征，虽然不一定完全准确，但大部分情况下确实如此：网页链接的特征，如果被多次链接或被重要网页链接，是一个非常重要的网页；一个网页的父网页被多次链接或者被重要网页链接，比如一个网页是网站的内页，但是它的首页被多次链接，首页page也链接到这个页面，也就是说这个页面也比较重要；页面目录深度小，便于用户浏览。“URL目录深度”这里定义为：网页URL除域名部分外的目录级别，即URL，目录深度为0；如果是，则目录深度为 1，等等。需要注意的是，URL目录深度小的网页并不总是重要的，目录深度大的网页也并非都是不重要的。一些学术论文的网页网址具有较长的目录深度。

　　大多数具有高重要性的网页将同时具有上述所有特征。5)先采集网站首页，给首页分配高权重。网站的数量远小于网页的数量，重要的网页必须从这些网站首页链接，所以采集工作应优先获取尽可能多的网站@ > 主页尽可能。问题来了。当搜索引擎开始抓取网页时，可能不知道该网页是链接还是转载。换句话说，一开始他无法知道前三项的特征，这些因素只有在获得网页或几乎任何网页链接结构后才能知道。那么如何解决这个问题呢？那是，特点4是可以在不知道网页内容的情况下（在抓取网页之前）判断一个URL是否满足“重要”标准，网页的URL目录深度的计算是基于string 统计结果表明，一般 URL 的长度小于 256 个字符，便于实现 URL 目录深度的判别。因此，对于采集策略的确定，特征是最值得考虑的。但是，功能有局限性，因为链接的深度并不能完全表明该页面的重要性。那么如何解决这个问题呢？搜索引擎采用以下方法： URL权重的设置：根据URL的目录深度来确定。深度就是减了多少重量，最小权重为零。URL 的初始权重设置为固定值。字符“/”和“?” 出现在网址中。URL 是参数的形式。它需要通过请求的程序服务获取网页，而不是搜索引擎系统关注的静态网页。因此，权重相应减少。

　　收录“search”、“proxy”或“gate”，表示该网页最有可能是搜索引擎检索到的结果页面，即代理页面，因此应降低权重）。选择未访问 URL 的策略。因为权重小并不一定代表不重要，所以要给一定的机会去采集权重小的未访问的URL。选择未访问URL的策略可以采用轮询的方式，根据权重选择一个，随机选择一个，或者随机选择一个。当搜索引擎爬取大量网页时，就进入了解读网页前三个特征，然后通过大量算法判断网页质量的阶段，然后给出相对排名。详情请登录

0

2022-01-24

搜索引擎如何抓取网页

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

搜索引擎如何抓取网页(搜索引擎如何首先抓取最重要的网页?(图))

0 个评论

发起人