php用正则表达抓取网页中文章(Chapter07||抽取数据之正则表达式在说,先说 )
优采云 发布时间: 2022-04-01 19:16php用正则表达抓取网页中文章(Chapter07||抽取数据之正则表达式在说,先说
)
第七章 | 用于提取数据的正则表达式
在说正则表达式之前,先说一下下面的网页结构
根据网站的组成结构,网站可以分为以下两种
一、网站介绍1、网站
对于爬虫:
无论是静态的还是动态的网站,HTML页面“隐藏”有价值的数据信息
使用网络爬虫提取信息需要了解页面的 HTML 标签使用和分布
2、HTML 语言
一个完整的 HTML 文件包括:
一般HTML文件的编写遵循以下格式:
3、从网页中提取数据
借助Python网络库,构建的爬虫可以爬取HTML页面的数据
通过以下方式从抓取的页面数据中提取有价值的数据:
二、正则表达式
面对复杂的HTML页面,往往需要提取出需要的信息,比如ID号等。
使用简短的字符串表达式来匹配此信息:
正则表达式具有独立的语法和处理引擎。在支持正则表达式的语言中,正则表达式的语法是一致的
不同的编程语言实现支持不同数量的语法:
1、正则表达式工作流程
2、正则表达式语言
正则表达式语言由两种基本字符类型组成
3、正则表达式的分组
如果要匹配重复的字符串,用括号()包裹目标字符串
分组可以分为两种形式:
4、正则表达式捕获5、非捕获组和捕获组
eg: 匹配 0 到 100 范围内的整数
三、重新库
re 是一个专门用于处理正则表达式的 Python 模块,通常具有以下功能:
下面依次解释