c爬虫抓取网页数据(网络爬虫的爬行策略和存储方法介绍-上海怡健医学)

优采云发布时间: 2021-11-08 20:02

　　网络爬虫是指按照一定的规则自动爬取网络上的程序（模拟手动登录网页的方式）。简单的说，就是你在网上看到的页面内容被获取并存储。网络爬虫的爬取策略分为深度优先和广度优先。下图展示了从A到B到D到E到C到F的深度优先遍历方法（ABDECF）和广度优先遍历方法ABCDEF。

　　网络爬虫实现原理

　　1、获取初始网址。初始URL地址可以由用户手动指定，也可以由用户指定的一个或多个初始抓取网页确定。

　　2、根据初始 URL 抓取页面，获取新 URL。获取初始URL地址后，首先需要抓取对应URL地址中的网页。在对应的URL地址中抓取网页后，将网页存储在原创数据库中，在抓取网页的同时发现新的URL爬行过程。

　　3、将新的 URL 放入 URL 队列。第二步，获取下一个新的URL地址后，将新的URL地址放入URL队列中。

　　4、从 URL 队列中读取新的 URL，并根据新的 URL 抓取网页。同时，从新的网页中获取新的URL，重复上面提到的爬取过程。

　　5、满足爬虫系统设置的停止条件时停止爬行。在写爬虫的时候，一般都会设置相应的停止条件。如果不设置停止条件，爬虫会一直爬到无法获取新的URL地址。如果设置了停止条件，则爬虫会在满足停止条件时停止爬行。

0

2021-11-08

c爬虫抓取网页数据

0 个评论

要回复文章请先登录或注册