php用正则表达抓取网页中文章(学习正则表达式之前中的几个容易混洗的术语(一))
优采云 发布时间: 2022-04-16 19:11php用正则表达抓取网页中文章(学习正则表达式之前中的几个容易混洗的术语(一))
正则表达式是描述字符串结构的语法规则。它是一种特定的格式化模式,可以匹配、替换和截取匹配的字符串。对于之前可能接触过DOS的用户,如果要匹配当前文件夹中的所有文本文件,可以输入“dir *.txt”命令,按回车键后,所有“.txt”文件将被列出。这里的“*.txt”可以理解为一个简单的正则表达式。
在学习正则表达式之前,我们先来了解几个正则表达式中容易打乱的术语,这对学习正则表达式很有帮助。
grep:最初是ED编辑器中的一个命令,用来显示文件中的特定内容,后来变成了一个独立的工具grep。
egrep:虽然grep在不断更新升级,但还是跟不上技术的步伐。为此,塔灯网推出了egrep。意思是“扩展的grep”,大大增强了正则表达式的威力。
POSIX(Portable Operating System Interface of Vnix,Portable Operating System Interface):在grep开发的同时,其他一些开发者也根据自己的喜好开发了风格独特的版本。但随之而来的问题是,一些程序支持某个元字符,而另一些则不支持。因此,POSIX 是一组确保操作系统之间可移植性的标准。但是 POSIX 和 SQL 一样,并没有成为最终的标准,只能作为参考。
Perl(实用提取和报告语言):1987 年,Larry Wall 发布了 Perl。在接下来的 7 年里,Perl 经历了从 Perl 1 到现在的 Perl 5 的发展,最终 Perl 成为继 POSIX 之后的又一标准。
PCER:Perl的成功让其他开发者在一定程度上兼容了Perl,包括C/C++、Java、Python等,都有自己的正则表达式。1997 年,Philip Hazel 开发了 PCRE 库,这是一组与 Perl 正则表达式兼容的正则表达式。其他开发者可以将PCRE集成到自己的语言中,为用户提供丰富的常规功能。很多语言都使用PCRE,PHP官方就是其中之一。
本页面的内容是通过互联网采集和编辑的。所有信息仅供用户参考。本网站没有任何所有权。如果您认为本页内容涉嫌抄袭,请及时联系我们并提供相关证据。5个工作日内联系您。一经核实,本站将立即删除侵权内容。这篇文章的链接: