php用正则表达抓取网页中文章(js正则表达式replace校验基本日期格式的20个正则表达式代码 )
优采云 发布时间: 2022-01-03 00:09php用正则表达抓取网页中文章(js正则表达式replace校验基本日期格式的20个正则表达式代码
)
下一篇:js正则表达式替换匹配
敏感词过滤,使用replace方法将匹配的敏感词变成*相同长度的字符串
pattern = /北京|*敏*感*词*/g
target = '我爱北京*敏*感*词*,*敏*感*词*上太阳升'
console.log(
target.replace(pattern, (str) => {
console.log(str)
return Array(str.length).fill('*').join('')
})
)
北京
*敏*感*词*
*敏*感*词*
我爱*****,***上太阳升
改变年份的显示,将2017-1-2改为2017.1.2
pattern = /(\d+)(-)/g
target = '2017-1-2'
console.log(
target.replace(
pattern,
($0, $1, $2) => {
console.log($0, $1, $2)
//replace()中如果有子项,
//第一个参数:$0(匹配成功后的整体结果 2013- 6-),
// 第二个参数 : $1(匹配成功的第一个分组,这里指的是\d 2013, 6)
//第三个参数 : $1(匹配成功的第二个分组,这里指的是- - - )
return $1 + '.'; //分别返回2013. 6.
}
)
)
2017- 2017 -
1- 1 -
2017.1.2
去掉首尾空字符,匹配首尾空字符,然后用‘’替换
// 替换空字符,用*代替空格
pattern = /^\s+|\s+$/g
target = ' abc \n'
res = target.replace(pattern, '')
console.log(res, res.length);
abc 3
正则表达式通常用于验证字段或任意字符串,例如以下用于验证基本日期格式的 JavaScript 代码:
var reg = /^(\\d{1,4})(-|\\/)(\\d{1,2})\\2(\\d{1,2})$/;
var r = fieldValue.match(reg);
if(r==null)alert('Date format error!');
以下20个正则表达式,由工匠编译,前端开发中经常用到。
1.验证密码强度
密码的强度必须收录大小写字母和数字的组合,不能使用特殊字符,长度在8-10之间。
^(?=.*\\d)(?=.*[a-z])(?=.*[A-Z]).{8,10}$
2.验证中文
字符串只能是中文。
^[\\u4e00-\\u9fa5]{0,}$
3. 由数字、26 个英文字母或下划线组成的字符串
^\\w+$
4. 验证电子邮件地址
与密码相同,以下是E-mail地址合规性的定期检查声明。
[\\w!#$%&'*+/=?^_`{|}~-]+(?:\\.[\\w!#$%&'*+/=?^_`{|}~-]+)*@(?:[\\w](?:[\\w-]*[\\w])?\\.)+[\\w](?:[\\w-]*[\\w])?
5.验证*敏*感*词*号码
以下是*敏*感*词*号码的定期验证。 15 或 18 位数字。
15 人:
^[1-9]\\d{7}((0\\d)|(1[0-2]))(([0|1|2]\\d)|3[0-1])\\d{3}$
18 人:
^[1-9]\\d{5}[1-9]\\d{3}((0\\d)|(1[0-2]))(([0|1|2]\\d)|3[0-1])\\d{3}([0-9]|X)$
6. 验证日期
“yyyy-mm-dd”格式的日期验证已被考虑用于平闰年。
^(?:(?!0000)[0-9]{4}-(?:(?:0[1-9]|1[0-2])-(?:0[1-9]|1[0-9]|2[0-8])|(?:0[13-9]|1[0-2])-(?:29|30)|(?:0[13578]|1[02])-31)|(?:[0-9]{2}(?:0[48]|[2468][048]|[13579][26])|(?:0[48]|[2468][048]|[13579][26])00)-02-29)$
7.查看金额
金额验证,精确到小数点后两位。
^[0-9]+(.[0-9]{2})?$
8.验证手机号码
以下是中国13、15、18开头的手机号码的正则表达式。 (前两位可根据目前国内采集号进行扩充)
^(13[0-9]|14[5|7]|15[0|1|2|3|5|6|7|8|9]|18[0|1|2|3|5|6|7|8|9])\\d{8}$
9.判断IE版本
IE 还没有完全替代,很多页面还需要版本兼容。以下是IE版本检查的表达式。
^.*MSIE [5-8](?:\\.[0-9]+)?(?!.*Trident\\/[5-9]\\.0).*$
10. 验证 IP-v4 地址
IP4 正则声明。
\\b(?:(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\\.){3}(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\\b
11. 验证 IP-v6 地址
IP6 正则声明。
(([0-9a-fA-F]{1,4}:){7,7}[0-9a-fA-F]{1,4}|([0-9a-fA-F]{1,4}:){1,7}:|([0-9a-fA-F]{1,4}:){1,6}:[0-9a-fA-F]{1,4}|([0-9a-fA-F]{1,4}:){1,5}(:[0-9a-fA-F]{1,4}){1,2}|([0-9a-fA-F]{1,4}:){1,4}(:[0-9a-fA-F]{1,4}){1,3}|([0-9a-fA-F]{1,4}:){1,3}(:[0-9a-fA-F]{1,4}){1,4}|([0-9a-fA-F]{1,4}:){1,2}(:[0-9a-fA-F]{1,4}){1,5}|[0-9a-fA-F]{1,4}:((:[0-9a-fA-F]{1,4}){1,6})|:((:[0-9a-fA-F]{1,4}){1,7}|:)|fe80:(:[0-9a-fA-F]{0,4}){0,4}%[0-9a-zA-Z]{1,}|::(ffff(:0{1,4}){0,1}:){0,1}((25[0-5]|(2[0-4]|1{0,1}[0-9]){0,1}[0-9])\\.){3,3}(25[0-5]|(2[0-4]|1{0,1}[0-9]){0,1}[0-9])|([0-9a-fA-F]{1,4}:){1,4}:((25[0-5]|(2[0-4]|1{0,1}[0-9]){0,1}[0-9])\\.){3,3}(25[0-5]|(2[0-4]|1{0,1}[0-9]){0,1}[0-9]))
12.检查网址前缀
在应用开发中,经常需要区分请求是HTTPS还是HTTP。一个url的前缀可以通过下面的表达式提取出来,然后进行逻辑判断。
if (!s.match(/^[a-zA-Z]+:\\/\\//))
{
s = 'http://' + s;
}
13. 提取网址链接
下面的表达式可以过滤掉一段文本中的 URL。
^(f|ht){1}(tp|tps):\\/\\/([\\w-]+\\.)+[\\w-]+(\\/[\\w- ./?%&=]*)?
14. 文件路径和扩展名验证
验证windows下的文件路径和扩展名(下例中的.txt文件)
^([a-zA-Z]\\:|\\\\)\\\\([^\\\\]+\\\\)*[^\\/:*?"|]+\\.txt(l)?$
15. 提取颜色十六进制代码
有时需要提取网页中的颜色代码,可以使用如下表达式。
^#([A-Fa-f0-9]{6}|[A-Fa-f0-9]{3})$
16.提取网页图片
如果要提取网页中的所有图片信息,可以使用以下表达式。
\\< *[img][^\\\\>]*[src] *= *[\\"\\']{0,1}([^\\"\\'\\ >]*)
17. 提取页面超链接
在 html 中提取超链接。
(]*)(href="https?:\\/\\/)((?!(?:(?:www\\.)?'.implode('|(?:www\\.)?', $follow_list).'))[^"]+)"((?!.*\\brel=)[^>]*)(?:[^>]*)>
18. 查找 CSS 属性
通过以下表达式,您可以搜索匹配的 CSS 属性。
^\\s*[a-zA-Z\\-]+\\s*[:]{1}\\s[a-zA-Z0-9\\s.#]+[;]{1}
19. 提取评论
如果需要去掉HMTL中的注释,可以使用下面的表达式。
20. 匹配 HTML 标签
HTML 中的标签属性可以通过以下表达式进行匹配。
<p>