网页抓取数据百度百科(Python常见网页解析器实现实战:简单爬虫架构运行流程(组图))

优采云 发布时间: 2021-09-26 21:03

  网页抓取数据百度百科(Python常见网页解析器实现实战:简单爬虫架构运行流程(组图))

  爬虫简介

  爬虫,或者说网络爬虫,可以理解为在互联网上爬行的蜘蛛。互联网就像一个大网络。爬虫是在这个网络上四处爬行的蜘蛛。如果它遇到一个资源,它会抓住它。

  一句话描述爬虫:一个自行爬取互联网信息的程序

  

  爬行动物的作用

  把互联网数据给我用!

  

  简单的爬虫架构

  

  运行过程

  

  URL 管理器 URL 简介

  URL,即Uniform Resource Locator,也就是我们所说的网址。统一资源定位符是互联网上可用资源的位置和访问方式的简明表示,是互联网上标准资源的地址。Internet 上的每个文件都有一个唯一的 URL,其中收录指示文件位置以及浏览器应如何处理它的信息。

  URL格式由三部分组成:

  爬虫在爬取数据时,必须要有目标网址才能获取数据。因此,它是爬虫获取数据的基本依据。

  网址管理器

  管理要爬取的网址集合和已爬取的网址集合

  目的:防止重复爬行和循环爬行

  

  URL管理器的几种常见实现方法

  Python 中的常见网络下载器

  urllib 使用简单

  import urllib.request

# 核心方法

response = urllib.request.urlopen("http://www.baidu.com")

# 输出请求结果

print(response.read().decode('utf-8'))

  urllib 使用简单 两个

  import urllib.request

# 创建request

request = urllib.request.Request("http://www.baidu.com")

# 获取相应体

response = urllib.request.urlopen(request)

# 输出

print(response.read().decode("utf-8"))

  网页解析器

  从网页获取有价值数据的工具

  传奇:

  

  Python常用网页解析器实现实战:通过用户输入条目和数量爬取百度百科条目相关内容目录结构:

  |-- Baike_spider(文件夹)

|-- spider_main.py(爬虫调度器————程序入口,管理各个模块)

|-- url_manager.py(URL 管理器————管理 url)

|-- html_downloader.py (网页下载器————通过url获取网页内容)

|-- html_parser.py (网页解析器————通过网页内容解析出新的 url 和 新的内容)

|-- html_outputer.py (输出————将获取到的数据输出)

  用到的知识点:

  传送门:Baike_spider

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线