网页抓取数据百度百科(Python常见网页解析器实现实战:简单爬虫架构运行流程(组图))
优采云 发布时间: 2021-09-26 21:03网页抓取数据百度百科(Python常见网页解析器实现实战:简单爬虫架构运行流程(组图))
爬虫简介
爬虫,或者说网络爬虫,可以理解为在互联网上爬行的蜘蛛。互联网就像一个大网络。爬虫是在这个网络上四处爬行的蜘蛛。如果它遇到一个资源,它会抓住它。
一句话描述爬虫:一个自行爬取互联网信息的程序
爬行动物的作用
把互联网数据给我用!
简单的爬虫架构
运行过程
URL 管理器 URL 简介
URL,即Uniform Resource Locator,也就是我们所说的网址。统一资源定位符是互联网上可用资源的位置和访问方式的简明表示,是互联网上标准资源的地址。Internet 上的每个文件都有一个唯一的 URL,其中收录指示文件位置以及浏览器应如何处理它的信息。
URL格式由三部分组成:
爬虫在爬取数据时,必须要有目标网址才能获取数据。因此,它是爬虫获取数据的基本依据。
网址管理器
管理要爬取的网址集合和已爬取的网址集合
目的:防止重复爬行和循环爬行
URL管理器的几种常见实现方法
Python 中的常见网络下载器
urllib 使用简单
import urllib.request
# 核心方法
response = urllib.request.urlopen("http://www.baidu.com")
# 输出请求结果
print(response.read().decode('utf-8'))
urllib 使用简单 两个
import urllib.request
# 创建request
request = urllib.request.Request("http://www.baidu.com")
# 获取相应体
response = urllib.request.urlopen(request)
# 输出
print(response.read().decode("utf-8"))
网页解析器
从网页获取有价值数据的工具
传奇:
Python常用网页解析器实现实战:通过用户输入条目和数量爬取百度百科条目相关内容目录结构:
|-- Baike_spider(文件夹)
|-- spider_main.py(爬虫调度器————程序入口,管理各个模块)
|-- url_manager.py(URL 管理器————管理 url)
|-- html_downloader.py (网页下载器————通过url获取网页内容)
|-- html_parser.py (网页解析器————通过网页内容解析出新的 url 和 新的内容)
|-- html_outputer.py (输出————将获取到的数据输出)
用到的知识点:
传送门:Baike_spider