Ipidea丨网络爬虫正则表达式的使用

优采云 发布时间: 2020-06-17 08:00

  

  ## 网络爬虫正则表达式的使用

  ---

  我们在处理网页文本内容时有时会碰到一些特殊的情况网络爬虫 正则表达式,或者须要匹配某类字符串方式,通常都会用到正则表达式。许多程序语言都支持使用正则表达式,python中正则表达式可以实现字符串的匹配、检索和替换等功能,是一个比较强悍的工具。

  ### 1.正则表达式句型

  Python中实现正则表达式功能一般使用re模块,可以实现对文本字符串的匹配,检索和替换,但不仅引入正则模块网络爬虫 正则表达式,还须要把握正则表达式字符和基本句型,才能正确使用python进行正则表达式提取。

  部分常用的正则表达式:

  | 字符 | 功能 |

  | :--: | :--: |

  | \ |转义字符,标记下一个字符为特殊字符|

  | ^ |匹配输入字符串的开始位置|

  | $ |匹配输入字符串的结束位置|

  | * |匹配上面的子表达式零次或多次 |

  | + |匹配上面的子表达式一次或多次 |

  | ? |匹配上面的子表达式零次或一次 |

  | . |匹配除“\n”之外的任何单个字符 |

  | () | 匹配括弧里的表达式 |

  | \d | 匹配一个数字字符 |

  | \D | 匹配一个非数字字符 |

  | \w |匹配包括顿号的任何词组字符|

  | \W |匹配任何非词组字符|

  |{n}|n是一个非负整数,匹配确定的n次|

  |{n,m}|m和n均为非负整数,其中n<=m。最少匹配n次且最多匹配m次|

  |[x,y,z]| 匹配一组字符集 |

  | \^[x,y,z] | 匹配不在[]中的字符 |

  | a\|b | 匹配a或b |

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线