php用正则表达抓取网页中文章(如何利用Python语言提取文中特定内容?(一))

优采云 发布时间: 2022-01-10 08:01

  php用正则表达抓取网页中文章(如何利用Python语言提取文中特定内容?(一))

  正则表达式是一种特殊的字符序列,可以帮助您轻松地检查字符串是否与特定模式匹配。

  Python 从 1.5 开始添加了 re 模块,它提供 Perl 风格的正则表达式模式。

  re 模块为 Python 语言带来了完整的正则表达式功能。

  compile 函数从模式字符串和可选标志参数生成正则表达式对象。这个对象有一系列正则表达式匹配和替换的方法。

  re 模块还提供与这些方法完全相同的功能,它们将模式字符串作为其第一个参数。

  如何使用正则表达式提取文本中的特定内容?功能介绍:

  pile():该函数用于生成正则表达式,是匹配的核心部分。它用于定义您需要如何匹配以及匹配什么。更多详情请参考菜鸟教程。

  2.re.findall():该函数用于在指定的字符串中进行匹配。

  提取具体内容:

  1.在一段文本或字符串中从某位置XXX提取特定内容到某位置X:pile('XXX.+X'),例如:

  import re

str='abcd1234efg'

pattern=re.compile('ab.+ef') #匹配从ab开始,到ef结束的内容

result=pattern.findall(str)

print(result)

  运行结果如下

  ['abcd1234ef']

  2.在一段文本或字符串中从某位置XXX提取特定内容到某位置X:pile('XXX(.+)X')

  import re

str='abcd1234efg'

pattern=re.compile('ab(.+)ef') #匹配ab与ef之间的内容

result=pattern.findall(str)

print(result)

  运行结果如下

  ['cd1234']

  所以从这两个匹配可以看出,两者的主要区别在于有无(),一个很实用的方法~~

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线