php用正则表达抓取网页中文章(如何利用Python语言提取文中特定内容?(一))
优采云 发布时间: 2022-01-10 08:01php用正则表达抓取网页中文章(如何利用Python语言提取文中特定内容?(一))
正则表达式是一种特殊的字符序列,可以帮助您轻松地检查字符串是否与特定模式匹配。
Python 从 1.5 开始添加了 re 模块,它提供 Perl 风格的正则表达式模式。
re 模块为 Python 语言带来了完整的正则表达式功能。
compile 函数从模式字符串和可选标志参数生成正则表达式对象。这个对象有一系列正则表达式匹配和替换的方法。
re 模块还提供与这些方法完全相同的功能,它们将模式字符串作为其第一个参数。
如何使用正则表达式提取文本中的特定内容?功能介绍:
pile():该函数用于生成正则表达式,是匹配的核心部分。它用于定义您需要如何匹配以及匹配什么。更多详情请参考菜鸟教程。
2.re.findall():该函数用于在指定的字符串中进行匹配。
提取具体内容:
1.在一段文本或字符串中从某位置XXX提取特定内容到某位置X:pile('XXX.+X'),例如:
import re
str='abcd1234efg'
pattern=re.compile('ab.+ef') #匹配从ab开始,到ef结束的内容
result=pattern.findall(str)
print(result)
运行结果如下
['abcd1234ef']
2.在一段文本或字符串中从某位置XXX提取特定内容到某位置X:pile('XXX(.+)X')
import re
str='abcd1234efg'
pattern=re.compile('ab(.+)ef') #匹配ab与ef之间的内容
result=pattern.findall(str)
print(result)
运行结果如下
['cd1234']
所以从这两个匹配可以看出,两者的主要区别在于有无(),一个很实用的方法~~