php用正则表达抓取网页中文章(正则表达式就是描述字符排列模式的一种自定义的语法规则名)

优采云 发布时间: 2021-10-25 06:05

  php用正则表达抓取网页中文章(正则表达式就是描述字符排列模式的一种自定义的语法规则名)

  刚接触正则表达式的网友都觉得有点繁琐和高深莫测。实际上,正则表达式是描述字符排列模式的自定义语法规则名称。在 PHP 提供的系统函数中,该模式用于执行字符串的匹配、搜索、替换、拆分等操作。它的应用非常广泛。比如常见的就是用正则表达式来验证用户在表单中提交的用户名、密码、邮箱、*敏*感*词*号、电话号码是否合法;当用户发布文章时,输入的URL会添加所有对应的链接;根据所有标点计算文章中的句子总数;从网页等中抓取某种格式的数据。正则表达式不是 PHP 本身的产物,你会在很多领域看到它的应用。除了Perl、C#、Java语言的应用外,我们B/S软件开发中还可以应用到Linux操作系统、前端JavaScript脚本、后端脚本PHP、MySQL数据库等。

  正则表达式也称为模式表达式。它具有非常完整的语法体系,可以编写模式,并提供灵活直观的字符处理方法。通过构造具有特定传递模式的模式,将它们与输入的字符串信息进行比较,并实现字符串匹配、搜索、替换和分割操作,可以在特定功能中使用正则表达式。下面给出的三种模式都是按照正则表达式的语法规则构造的。代码显示如下:

  "/[A-zA-z]+:[∧\s]*/" //匹配URL的正则表达式

  "/<(\s*?)[∧>]*>.*?<∧1>|<.*?/>/i" //匹配HTML标签的正则表达式

  "∧w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*/" //匹配正则表达式E-邮件地址模式

  不要被上面例子中被认为是乱码的字符串吓到。它们是根据正则表达式的语法规则构建的模式。它们是由普通字符和特殊字符组成的字符串。而且,这些模式字符串必须在特定的正则表达式函数中使用才能有效。学完本章后,他们中的一些人可以自由应用此类代码。PHP 支持两组正则表达式处理函数库。PCRE(Perl Compatible Regular Expression)库提供的一组与Perl语言兼容的正则表达式函数,使用以前缀preg命名的函数,表达式应收录在分隔符中,如斜线(/)。另一个是 POSLX(*敏*感*词*操作系统接口)扩展语法的正则表达式函数,使用以前缀“preg_”命名的函数。两组函数的功能基本相似,执行效率略有不同。一般来说,要实现同样的功能,使用PCRE库提供的正则表达式效率略有优势。因此,本文主要介绍以“preg_”为前缀的正则表达式函数。使用 PCRE 库提供的正则表达式效率略有优势。因此,本文主要介绍以“preg_”为前缀的正则表达式函数。使用 PCRE 库提供的正则表达式效率略有优势。因此,本文主要介绍以“preg_”为前缀的正则表达式函数。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线