网页抓取数据百度百科(Python常见网页解析器实现实战：简单爬虫架构运行流程(组图))

优采云发布时间: 2021-09-26 21:03

　　爬虫简介

　　爬虫，或者说网络爬虫，可以理解为在互联网上爬行的蜘蛛。互联网就像一个大网络。爬虫是在这个网络上四处爬行的蜘蛛。如果它遇到一个资源，它会抓住它。

　　一句话描述爬虫：一个自行爬取互联网信息的程序

　　爬行动物的作用

　　把互联网数据给我用！

　　简单的爬虫架构

　　运行过程

　　URL 管理器 URL 简介

　　URL，即Uniform Resource Locator，也就是我们所说的网址。统一资源定位符是互联网上可用资源的位置和访问方式的简明表示，是互联网上标准资源的地址。Internet 上的每个文件都有一个唯一的 URL，其中收录指示文件位置以及浏览器应如何处理它的信息。

　　URL格式由三部分组成：

　　爬虫在爬取数据时，必须要有目标网址才能获取数据。因此，它是爬虫获取数据的基本依据。

　　网址管理器

　　管理要爬取的网址集合和已爬取的网址集合

　　目的：防止重复爬行和循环爬行

　　URL管理器的几种常见实现方法

　　Python 中的常见网络下载器

　　urllib 使用简单

　　import urllib.request

# 核心方法

response = urllib.request.urlopen("http://www.baidu.com")

# 输出请求结果

print(response.read().decode('utf-8'))

　　urllib 使用简单两个

　　import urllib.request

# 创建request

request = urllib.request.Request("http://www.baidu.com")

# 获取相应体

response = urllib.request.urlopen(request)

# 输出

print(response.read().decode("utf-8"))

　　网页解析器

　　从网页获取有价值数据的工具

　　传奇：

　　Python常用网页解析器实现实战：通过用户输入条目和数量爬取百度百科条目相关内容目录结构：

　　|-- Baike_spider（文件夹）

|-- spider_main.py（爬虫调度器————程序入口，管理各个模块）

|-- url_manager.py（URL 管理器————管理 url）

|-- html_downloader.py （网页下载器————通过url获取网页内容）

|-- html_parser.py （网页解析器————通过网页内容解析出新的 url 和新的内容）

|-- html_outputer.py （输出————将获取到的数据输出）

　　用到的知识点：

　　传送门：Baike_spider

0

2021-09-26

网页抓取数据百度百科

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网页抓取数据百度百科(Python常见网页解析器实现实战：简单爬虫架构运行流程(组图))

0 个评论

发起人