php用正则表达抓取网页中文章(Python编写爬虫表达式的常用方法及使用方法)
优采云 发布时间: 2021-12-15 06:43php用正则表达抓取网页中文章(Python编写爬虫表达式的常用方法及使用方法)
正则表达式(regular expression)是一种字符串匹配模式或规则,可用于检索和替换符合特定规则的文本。正则表达式几乎适用于所有的编程语言,无论是前端语言JavaScript,还是很多后端语言如Python、Java、C#等,这些语言都提供了相应的功能和模块来支持正则表达式,如 Python 的 re 模块提供了正则表达式的常用方法。
在 Python 编写爬虫的过程中,通常使用 re 模块作为解析方法。通过查看网页元素得到网页的大致结构,然后通过解析模块提取出你想要的网页信息,最终实现数据的抓取。本节简要说明正则表达式的基本语法。
注意:在学习本节知识之前,您应该已经掌握了正则表达式的使用。
正则表达式元字符
下表列出了常用的正则表达式元字符:
元字符
正则表表达式元字符
量词
正则表达式量词
字符集
有时会有由各种字符组成的字符组。这在正则表达式中用 [] 表示。最后,如果你的时间不是很紧,想快速提高python,最重要的是不怕吃苦,建议你可以组团:[832357663],那真的很好,很多人进步很快,你不用怕苦!大家可以去补充看看~
如下:
正则表达式字符集
贪婪模式非贪婪模式
正则表达式默认为贪婪匹配,即尽可能多的向后匹配字符。例如{n,m}表示匹配前的内容出现n到m次(n小于m)。在贪婪模式下,首先匹配 m 为目标,在非贪婪模式下,内容尽可能少地向后匹配,即匹配 n 次就足够了。在学习Python的道路上,我们经常会遇到很多问题,我们的问题放在一起不是问题。可以在编辑中找到管一达一起学习,也可以私信“01”获取学习干货,遇到什么问题也可以及时向编辑提问。
将贪婪模式转换为非贪婪模式的方法非常简单。可以通过添加“?”来实现。在元字符之后,如下图:
正则表达式转义
如果使用正则表达式匹配特殊字符,需要在字符前加上\表示转换。常见的特殊字符如下: