c爬虫抓取网页数据(网络爬虫的爬行策略和存储方法介绍-上海怡健医学)

优采云 发布时间: 2021-11-08 20:02

  c爬虫抓取网页数据(网络爬虫的爬行策略和存储方法介绍-上海怡健医学)

  网络爬虫是指按照一定的规则自动爬取网络上的程序(模拟手动登录网页的方式)。简单的说,就是你在网上看到的页面内容被获取并存储。网络爬虫的爬取策略分为深度优先和广度优先。下图展示了从A到B到D到E到C到F的深度优先遍历方法(ABDECF)和广度优先遍历方法ABCDEF。

  

  网络爬虫实现原理

  1、获取初始网址。初始URL地址可以由用户手动指定,也可以由用户指定的一个或多个初始抓取网页确定。

  2、 根据初始 URL 抓取页面,获取新 URL。获取初始URL地址后,首先需要抓取对应URL地址中的网页。在对应的URL地址中抓取网页后,将网页存储在原创数据库中,在抓取网页的同时发现新的URL爬行过程。

  3、将新的 URL 放入 URL 队列。第二步,获取下一个新的URL地址后,将新的URL地址放入URL队列中。

  4、 从 URL 队列中读取新的 URL,并根据新的 URL 抓取网页。同时,从新的网页中获取新的URL,重复上面提到的爬取过程。

  5、满足爬虫系统设置的停止条件时停止爬行。在写爬虫的时候,一般都会设置相应的停止条件。如果不设置停止条件,爬虫会一直爬到无法获取新的URL地址。如果设置了停止条件,则爬虫会在满足停止条件时停止爬行。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线