php用正则表达抓取网页中文章(正则表达式非常复杂的业务逻辑及应用开发的逻辑 )

优采云 发布时间: 2021-12-09 18:06

  php用正则表达抓取网页中文章(正则表达式非常复杂的业务逻辑及应用开发的逻辑

)

  概述

  正则表达式,一个非常古老而强大的文本处理工具,只需要很短的表达式语句就可以快速实现非常复杂的业务逻辑。如果你精通正则表达式,你的开发效率可以大大提高。

  根据下面提供的规律,可以使用提供的工具生成代码

  1. 验证密码强度

  密码的强度必须收录大小写字母和数字的组合,不能使用特殊字符,长度在8-10之间。

  ^(?=.*\\d)(?=.*[a-z])(?=.*[A-Z]).{8,10}$

  8到16位数字必须有小写字母+大写字母+特殊字符+数字,不分先后顺序

  (?=^.{8,16}$)(?=.*\d)(?=.*\W+)(?=.*[a-z])(?=.*[A-Z])(?!.*\n).*$

  2. 验证中文

  字符串只能是中文。

  ^[\\u4e00-\\u9fa5]{0,}$

  3. 由数字、26 个英文字母或下划线组成的字符串

  ^\\w+$

  4. 验证电子邮件地址

  与密码一样,以下是电子邮件地址合规性的定期检查声明。

  [\\w!#$%&'*+/=?^_`{|}~-]+(?:\\.[\\w!#$%&'*+/=?^_`{|}~-]+)*@(?:[\\w](?:[\\w-]*[\\w])?\\.)+[\\w](?:[\\w-]*[\\w])?

  5. 验证*敏*感*词*号码

  以下是*敏*感*词*号码的定期验证。15 或 18 位数字。

  15位数字:

  ^[1-9]\\d{7}((0\\d)|(1[0-2]))(([0|1|2]\\d)|3[0-1])\\d{3}$

  18个地方:

  ^[1-9]\\d{5}[1-9]\\d{3}((0\\d)|(1[0-2]))(([0|1|2]\\d)|3[0-1])\\d{3}([0-9]|X)$

  6. 检查日期

  对于“yyyy-mm-dd”格式的日期检查,已考虑平闰年。

  ^(?:(?!0000)[0-9]{4}-(?:(?:0[1-9]|1[0-2])-(?:0[1-9]|1[0-9]|2[0-8])|(?:0[13-9]|1[0-2])-(?:29|30)|(?:0[13578]|1[02])-31)|(?:[0-9]{2}(?:0[48]|[2468][048]|[13579][26])|(?:0[48]|[2468][048]|[13579][26])00)-02-29)$

  7. 查看金额

  金额验证,精确到小数点后2位。

  ^[0-9]+(.[0-9]{2})?$

  8. 验证手机号码

  以下是中国以13、15、18开头的手机号码的正则表达式。(前两位可根据目前国内采集号进行扩充)

  ^(13[0-9]|14[5|7]|15[0|1|2|3|5|6|7|8|9]|18[0|1|2|3|5|6|7|8|9])\\d{8}$

  9. 判断IE的版本

  IE还没有完全替代,很多页面还需要版本兼容。以下是IE版本检查的表达式。

  ^.*MSIE [5-8](?:\\.[0-9]+)?(?!.*Trident\\/[5-9]\\.0).*$

  10. 验证 IP-v4 地址

  IP4 正则声明。

  \\b(?:(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\\.){3}(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\\b

  11. 验证 IP-v6 地址

  IP6 正则声明。

  (([0-9a-fA-F]{1,4}:){7,7}[0-9a-fA-F]{1,4}|([0-9a-fA-F]{1,4}:){1,7}:|([0-9a-fA-F]{1,4}:){1,6}:[0-9a-fA-F]{1,4}|([0-9a-fA-F]{1,4}:){1,5}(:[0-9a-fA-F]{1,4}){1,2}|([0-9a-fA-F]{1,4}:){1,4}(:[0-9a-fA-F]{1,4}){1,3}|([0-9a-fA-F]{1,4}:){1,3}(:[0-9a-fA-F]{1,4}){1,4}|([0-9a-fA-F]{1,4}:){1,2}(:[0-9a-fA-F]{1,4}){1,5}|[0-9a-fA-F]{1,4}:((:[0-9a-fA-F]{1,4}){1,6})|:((:[0-9a-fA-F]{1,4}){1,7}|:)|fe80:(:[0-9a-fA-F]{0,4}){0,4}%[0-9a-zA-Z]{1,}|::(ffff(:0{1,4}){0,1}:){0,1}((25[0-5]|(2[0-4]|1{0,1}[0-9]){0,1}[0-9])\\.){3,3}(25[0-5]|(2[0-4]|1{0,1}[0-9]){0,1}[0-9])|([0-9a-fA-F]{1,4}:){1,4}:((25[0-5]|(2[0-4]|1{0,1}[0-9]){0,1}[0-9])\\.){3,3}(25[0-5]|(2[0-4]|1{0,1}[0-9]){0,1}[0-9]))

  12. 检查网址的前缀

  在应用开发中,经常需要区分请求是HTTPS还是HTTP。一个url的前缀可以通过下面的表达式来提取,然后进行逻辑判断。

  if (!s.match(/^[a-zA-Z]+:\\/\\//))

{

s = 'http://' + s;

}

  13. 提取网址链接

  以下表达式可以过滤掉一段文本中的 URL。

  ^(f|ht){1}(tp|tps):\\/\\/([\\w-]+\\.)+[\\w-]+(\\/[\\w- ./?%&=]*)?

  14.文件路径和扩展名验证

  验证windows下的文件路径和扩展名(下例中的.txt文件)

  ^([a-zA-Z]\\:|\\\\)\\\\([^\\\\]+\\\\)*[^\\/:*?"|]+\\.txt(l)?$

  15. 提取颜色十六进制代码

  有时需要提取网页中的颜色代码,可以使用如下表达式。

  16. 提取网页图片

  如果要提取网页中的所有图片信息,可以使用以下表达式。

  \\< *[img][^\\>]*[src] *= *[\\"\\&#x27;]{0,1}([^\\"\\&#x27;\\ >]*)

  17. 提取页面超链接

  提取 html 中的超链接。

  (\\s*(?!.*\\brel=)[^>]*)(href="https?:\\/\\/)((?!(?:(?:www\\.)?&#x27;.implode(&#x27;|(?:www\\.)?&#x27;, $follow_list).&#x27;))[^"]+)"((?!.*\\brel=)[^>]*)(?:[^>]*)>

  18. 查找 CSS 属性

  通过以下表达式,您可以搜索匹配的 CSS 属性。

  ^\\s*[a-zA-Z\\-]+\\s*[:]{1}\\s[a-zA-Z0-9\\s.#]+[;]{1}

  19. 提取评论

  如果需要去掉HMTL中的注释,可以使用下面的表达式。

  20. 匹配 HTML 标签

  以下表达式可以匹配 HTML 中的标签属性。

<p>

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线