Ipidea丨网络爬虫正则表达式的使用
优采云 发布时间: 2020-06-17 08:00
## 网络爬虫正则表达式的使用
---
我们在处理网页文本内容时有时会碰到一些特殊的情况网络爬虫 正则表达式,或者须要匹配某类字符串方式,通常都会用到正则表达式。许多程序语言都支持使用正则表达式,python中正则表达式可以实现字符串的匹配、检索和替换等功能,是一个比较强悍的工具。
### 1.正则表达式句型
Python中实现正则表达式功能一般使用re模块,可以实现对文本字符串的匹配,检索和替换,但不仅引入正则模块网络爬虫 正则表达式,还须要把握正则表达式字符和基本句型,才能正确使用python进行正则表达式提取。
部分常用的正则表达式:
| 字符 | 功能 |
| :--: | :--: |
| \ |转义字符,标记下一个字符为特殊字符|
| ^ |匹配输入字符串的开始位置|
| $ |匹配输入字符串的结束位置|
| * |匹配上面的子表达式零次或多次 |
| + |匹配上面的子表达式一次或多次 |
| ? |匹配上面的子表达式零次或一次 |
| . |匹配除“\n”之外的任何单个字符 |
| () | 匹配括弧里的表达式 |
| \d | 匹配一个数字字符 |
| \D | 匹配一个非数字字符 |
| \w |匹配包括顿号的任何词组字符|
| \W |匹配任何非词组字符|
|{n}|n是一个非负整数,匹配确定的n次|
|{n,m}|m和n均为非负整数,其中n<=m。最少匹配n次且最多匹配m次|
|[x,y,z]| 匹配一组字符集 |
| \^[x,y,z] | 匹配不在[]中的字符 |
| a\|b | 匹配a或b |