搜索引擎在处理大量的网页时会有一定的策略

优采云发布时间: 2021-06-23 00:01

　　搜索引擎处理大量网页。一方面，为了节省带宽、计算和存储资源，另一方面，为了满足用户的搜索需求，利用有限的资源来抓取有价值的网页。因此，搜索引擎在处理大量网页时有一定的策略。本文简要介绍了网络抓取的主要策略，如广度优先、深度遍历策略、不重复抓取策略、大站优先策略、不完整pagerank策略、OCIP策略、协同抓取策略。

　　深度优先，深度优先的遍历策略；广度优先的原因是重要的网页往往靠近*敏*感*词*网站；万维网的深度没有我们想象的那么深，而是出乎意料的深（中文万维网只有17个直径和长度，即任意两个网页之间可以访问17次）；多轨协同爬行深度优先的不利结果：容易导致爬虫陷入死区，不宜重复爬行；不应该抓住机会；

　　解决以上两个缺点的方法是深度优先爬取和非重复爬取策略；为了防止爬虫用宽度优先爬行无限爬行，必须爬到一定深度。达到这个深度后，万维网的直径和长度，限制度，停止爬行。当抓取在深度处停止时，太深而无法抓取的页面总是希望从其他*敏*感*词*网站更经济地到达。

　　限制抓取深度会破坏无限循环的条件。即使发生循环，也会在有限次数后停止。评价：广度优先、深度优先的遍历策略可以有效保证爬行过程的严密性，即在爬行过程（遍历路径）中，总是爬取同一个域名下的网页，而其他域名下的网页域名很难抓取。少。

　　不重复爬取策略保证一个变化不大的网页只能爬取一次，防止重复爬取占用大量CPU和带宽资源，从而集中有限的资源区域来爬取更重要的资源和更高质量的页面。 Larser网站优先级通常是*敏*感*词*的网站优质内容，网页质量一般较高。从网站的角度衡量网页的重要性是有一定依据的。对于URL队列中待抓取的页面，下载优先级由等待下载的页面数量决定。

　　下载页面（不完整网页的子集）的部分pagerank策略（partial pagerank）和待抓取的URL队列中的URL组成一组页面，在该集合中计算pagerank；经过计算，将要爬取的pagerank URL队列中的页面按照pagerank分数从高到低排序，形成一个SE。那是履带式拼接。应按顺序向下爬取的 URL 列表。因为pagerank是一个全局算法，即当所有页面都下载完后，计算结果是可靠的，但是爬虫在爬行过程中只能接触到部分页面，所以爬行时无法进行可靠的pagerank计算，所以是称为这是一个不完整的 pagerank 策略。

　　OCIP策略（在线页面重要性计算）字面意思是“在线页面重要性计算”，是一种改进的pagerank算法。在算法开始之前，每个 Internet 页面都被分配了相同的值。当一个页面p被下载时，p将自己的值平均分配给页面中收录的链接，同时清空自己的值。对于需要抓取的URL队列中的网页，根据现有值的大小，优先下载值较大的网页。

　　协同爬取策略（爬取加速策略）可以通过增加爬虫数量来提高整体爬取速度，但需要将工作量分解为不同的网络爬虫，保证分工明确，防止多个爬虫同时上同一个页面爬，浪费资源。

　　通过分解网络主机的IP地址，爬虫只能抓取一个中小型网站的网页段。出于经济原因，通常在一台服务器上提供不同的网络服务，使得多个域名对应一个IP Segment；而新浪、搜狐等大型网站通常使用负载均衡的IP gro。向上技术，同一个域名对应多个。 IP地址。因此，这种方法是不方便的。通过对网页域名进行分解，爬虫只能抓取网页的域名部分，为不同的爬虫分配不同的域名。

0

2021-06-23

搜索引擎优化规则

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

搜索引擎在处理大量的网页时会有一定的策略

0 个评论

发起人