php用正则表达抓取网页中文章(Chapter07||抽取数据之正则表达式在说,先说 )

优采云 发布时间: 2022-04-01 19:16

  php用正则表达抓取网页中文章(Chapter07||抽取数据之正则表达式在说,先说

)

  第七章 | 用于提取数据的正则表达式

  在说正则表达式之前,先说一下下面的网页结构

  根据网站的组成结构,网站可以分为以下两种

  一、网站介绍1、网站

  ​对于爬虫:​

  无论是静态的还是动态的网站,HTML页面“隐藏”有价值的数据信息

  使用网络爬虫提取信息需要了解页面的 HTML 标签使用和分布

  2、HTML 语言

  一个完整的 HTML 文件包括:

  一般HTML文件的编写遵循以下格式:

  3、从网页中提取数据

  借助Python网络库,构建的爬虫可以爬取HTML页面的数据

  通过以下方式从抓取的页面数据中提取有价值的数据:

  二、正则表达式

  面对复杂的HTML页面,往往需要提取出需要的信息,比如ID号等。

  使用简短的字符串表达式来匹配此信息:

  正则表达式具有独立的语法和处理引擎。在支持正则表达式的语言中,正则表达式的语法是一致的

  ​不同的编程语言实现支持不同数量的语法:​

  

  1、正则表达式工作流程

  

  2、正则表达式语言

  正则表达式语言由两种基本字符类型组成

  3、正则表达式的分组

  如果要匹配重复的字符串,用括号()包裹目标字符串

  分组可以分为两种形式:

  4、正则表达式捕获5、非捕获组和捕获组

  eg: 匹配 0 到 100 范围内的整数

  

  三、重新库

  re 是一个专门用于处理正则表达式的 Python 模块,通常具有以下功能:

  

  下面依次解释

  

  

  

  

  

  

  

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线