ToB企服应用市场:ToB评测及商务社交产业平台
标题:
JAVA入门基础_从零开始的培训_JAVA中的正则表达式(处理文本的利器)
[打印本页]
作者:
郭卫东
时间:
2022-9-6 01:04
标题:
JAVA入门基础_从零开始的培训_JAVA中的正则表达式(处理文本的利器)
目录
正则表达式
基本语法
源码解析(基于上述代码)
Matcher.find()方法
Matcher.group(int group)方法
二个常用类
Pattern(相当于一个正则表达式)
Pattern.compile()方法
Pattern.matches()方法
Matcher(匹配)
元字符
JAVA中的转义字符以及需要转义的字符
字符匹配符
选择匹配符
限定符
定位符
分组组合和反向引用符(配合使用)
捕获分组、非捕获分组、反向引用
捕获分组
非捕获分组
反向引用(内部、外部)
应用实例
实现不区分大小写
贪婪匹配、非贪婪匹配(懒惰匹配)
常用元字符练习
获取汉字
获取邮政编码:要求是1-9开头的六位数
QQ号码:要求1-9开头的一个(5位数-10位数)
手机号码:以13、14、15、18开头的11位数
URL:匹配一个URL网址,可以带端口及不带端口
按照如下电子邮件规则编写正则表达式
要求匹配到整数或者小数,要求考虑正数及负数
对一个url进行解析
非捕获分组练习
获取Windows10和Windows11中的Windows,不包括Windows12、Windows2018中的Windows
获取不包括Windows10和Windows11中的Windows,其他的都要,例如Windows12、Windows2018中的Windows
反向引用练习(注意与捕获分组使用)
实现匹配1221、2332、4554之类的数字
要求满足前面是一个五位数,加一个-号,后续是一个九位数,每3位要相同
解决结巴语句,例如:今今...,,天也是...个好..好好好....日日子转换为 今天是个好日子
正则表达式
基本语法
public class RegExpTest {
public static void main(String[] args) {
// 1. 定义一个模板(正则表达式),示例中的正则表达式:表示匹配4个相连的数字
String regex = "(\\d\\d)(\\d\\d)";
Pattern pattern = Pattern.compile(regex);
// 2. 创建需要被匹配的内容
String content = "2022年,今天风和日丽,并且天气也不错1011,你喜欢5410的风景吗?";
// 3. 获取到一个匹配器
Matcher matcher = pattern.matcher(content);
// 4. 循环获取内容,在正则表达式中,每2个小括号,代表一组,示例中有2组
while (matcher.find()) {
String result = matcher.group(0);
System.out.println(result);
}
}
}
复制代码
源码解析(基于上述代码)
Matcher.find()方法
// 4.1 Matcher.find()方法,若是匹配到了内容,则返回true,否则返回false,每2个小括号,代表一组,示例中有2组
// 接下来将会分析匹配到第一个字符串时,源码中所进行的操作,之后的以此类推。
// 4.1.1 该方法会将匹配字符串的第一个元素的索引赋值给Matcher.groups[0]
// 例如第一次匹配到2022,其中第一个元素的索引为0,那么就赋值为0
// 4.1.2 将匹配到的第一个字符串的最后一个元素的索引+1赋值给Matcher.groups[1]
// 例如第一次匹配到2022,最后一个元素的索引为3,那么就赋值为4
// 4.1.3 将匹配字符串中的”第一组分组“的第一个元素的索引赋值给Matcher.groups[2]
// 例如匹配到的字符串为2022,第一组为20,其中第一个元素的索引为0,因此赋值0
// 4.1.4 将匹配字符串中的”第一组分组“的最后一个元素的索引 + 1赋值给Matcher.groups[3]
// 例如匹配到的字符串为2022,第一组为20,其中最后一个元素的索引为1,因此赋值 1 + 1 = 2
// 4.1.5 将匹配字符串中的”第二组分组“的第一个元素的索引赋值给Matcher.groups[4]
// 例如匹配到的字符串为2022,第二组为22,其中第一个元素的索引为2,因此赋值2
// 4.1.6 将匹配字符串中的”第二组分组“的最后一个元素的索引赋值给Matcher.groups[5]
// 例如匹配到的字符串为2022,第二组为22,其中最后一个元素的索引为3,因此赋值 3 + 1 = 4
复制代码
Matcher.group(int group)方法
// 5. 使用Matcher.group()方法来获取匹配到的字符串数据
// 接下来将基于第一次匹配到字符串2022时进行分析
// 5.1 当输入group(0)时,执行到getSubSequence(groups[group * 2], groups[group * 2 + 1]).toString()
//5.1.1 这个getSubSequence方法相当于substring方法,用于截取传递的content的数据
//5.1.2 因此当传入0时,groups[group * 2] 相当于 0 * 2 = groups[0] = 0,
// groups[group * 2 + 1] 相当于 0 * 2 + 1 = groups[1] = 4.
// 而substring方法又是包含头而不包含尾的,content.substring(0, 4),就能取出2022了呗
// 5.2.3 因此当传入1时,groups[group * 2] 相当于 1 * 2 = groups[2] = 0,
// groups[group * 2 + 1] 相当于 1 * 2 + 1 = groups[3] = 2.
// 就相当于content.substring(0, 2),就能取出第一组:20,接下来的就以此类推了
// 5.2 结论
// group(0) 取出的是匹配的字符串
// group(1) 取出的是第匹配到的字符串的第一组子串
// group(2) 取出的是第匹配到的字符串的第二组子串
/* 源码如下:
if (first < 0)
throw new IllegalStateException("No match found");
if (group < 0 || group > groupCount())
throw new IndexOutOfBoundsException("No group " + group);
if ((groups[group*2] == -1) || (groups[group*2+1] == -1))
return null;
return getSubSequence(groups[group * 2], groups[group * 2 + 1]).toString();
*/
复制代码
二个常用类
Pattern(相当于一个正则表达式)
Pattern.compile()方法
// 1. 定义一个模板(正则表达式),示例中的正则表达式:表示匹配4个相连的数字
String regex = "(\\d\\d)(\\d\\d)";
Pattern pattern = Pattern.compile(regex);
复制代码
Pattern.matches()方法
public class RegExp01 {
public static void main(String[] args) {
// 1. 创建一个字符串
String content = "abc abcde abcdefg";
// 2. 定义一个正则表达式
// String regExp = "abc";
String regExp = "abc.*"; // 这个可以匹配整个字符串,所以Pattern.matches(regExp, content);为true
// 3. 进行正则表达式与字符串的整体匹配,也就是看正则表达式能够匹配完一整个字符串。
boolean matches = Pattern.matches(regExp, content);
// 4. 执行输出结果,这里为true
System.out.println("是否完整匹配整个字符串:" + matches);
}
}
复制代码
Matcher(匹配)
// 2. 创建需要被匹配的内容
String content = "2022年,今天风和日丽,并且天气也不错1011,你喜欢5410的风景吗?";
// 3. 获取到一个匹配器
Matcher matcher = pattern.matcher(content);
复制代码
元字符
JAVA中的转义字符以及需要转义的字符
JAVA中的转义字符为两个反斜杠: "\"
需要转义的字符如下
所有的括号,包括小括号、中括号、大括号: "() [] {}"
所有的斜杠,包括正斜杠、反斜杠:"/ "
所有的限定符,包括点、问号、加号、大括号(重复):". ? + {}"
还有一个美元符号跟一个异或符号: "$ ^"
字符匹配符
字符匹配符作用正则示例匹配结果示例[ ]可接收的字符列表"[qwtg]":表示匹配qwtg中任意的一个字符q、w、t、g[^ ]不接收的字符列表"[^qwtg]":表示匹配除了qwtg以外的任意字符a、e、y、d[-]连字符、可以写[a-z]、[A-Z]、[1-9]"[A-Z]":表示匹配大写字母A-Z中的任意一个字符A、B、C、D、Z.匹配除了\n以外的任意字符"a..b":匹配a开头,中间匹配2个除了\n的任意字符,b结尾abcb、a%&b、a68b\\d匹配数字,等价于[1-9]"\\d":表示匹配任意一个数字8、9、5、1、2\\D匹配非数字,等价于[^1-9]"\\D":表示匹配任意一个非数字U、d、@、$、{\\w匹配字母数字下划线,等价于[a-zA-Z_]"\\w":表示匹配一个字母或数字或下划线a、b、e、a、6、1、_\\W匹配非字母数字下划线,等价于[^a-zA-Z_]"\\W":表示匹配一个非字母或数字或下划线!、#、@、%、(、*、/、-
选择匹配符
选择匹配符作用正则示例匹配结果示例|表示可以匹配多个表达式、相当于或"ab|bc|cd" : 表示可以匹配ab或者bc或者cdab、bc、cd
限定符
限定符作用正则示例匹配结果示例?表示匹配0个或者1个"\\d[abc]?":表示匹配一个数字开头、而后可以跟abc中的任意一个字母,也可以不跟1a、3b、5c、1、5+表示匹配1个或多个"\\d[795]+":表示匹配一个数字开头、而后至少由一个数字7、9、5任意组合的字符串17、175、395、5957759*表示匹配0个或多个"\\w[1-9]*":表示匹配一个字母或数字、下划线开头,而后跟0个或者人一个1~9之间的字符z12、w98、s125468{n}其中的n代表数量、限定匹配多少个字符"\\d{3}":匹配连续3个数字159、512、202、894{n,}表示匹配的字符最少为n个,没有最多的限制"\\d{2,}":匹配最少2个数字或者更多10、14、6661、23421、2341234、124{n,m}表示匹配的字符最少为n个,最多为m个"\\d{2,4}":匹配最少2个数字,最多4个数字19、98、559、5598、1125、558
定位符
定位符作用正则示例匹配结果示例^匹配字符串的开头"^\\d[a-z]{2}":表示匹配一个数字开头(整个字符串),2个字母结尾例如1ab13这个字符串能够呗匹配到,但是d1ab这个字符串匹配不到$匹配字符串的结尾"\\d[a-z]{2}$":表示匹配一个数字开头,2个字母结尾(字符串结尾)例如1ab这个字符串能够呗匹配到,但是2abc这个字符串匹配不到\\b匹配字符串的边界"abc\\b":表示匹配字符串边界的abc,例如一个字符串"abc adsabc asdfabcd abcsw"可以匹配到2个abc\\B匹配字符串的非边界(反过来)"abc\\B":表示匹配字符串非边界的abc,例如一个字符串"babc adsabc asdfabcd abcsw"只能匹配到最后一个子串abcsw中的一个abc
分组组合和反向引用符(配合使用)
捕获分组、非捕获分组、反向引用
捕获分组
捕获分组构造形式作用正则示例匹配结果示例(pattern)分组捕获"(\\d\\d)(\\d\\d)":匹配4个数字,分成了2组可以group(1)和group(2)取出第一组和第二组的字符串(? pattern)命名捕获"(? \\d\\d)(? \\d\\d)":匹配4个数字,分成了2组可以group(1)和group(2)以及group("g1") 和 group("g2")取出
非捕获分组
非捕获分组构造形式作用正则示例匹配结果示例(?:pattern)匹配但不捕获该分组,也就是调用group()方法时无法取出该分组"快乐(?: 水|果|花)":不会将(?: pattern)中的表达式放入group()分组中快乐水、快乐果、快乐花(?=pattern)非捕获匹配"Windows(?=2022|2021)"可以匹配到"Windwos2022"或"Windwos2021"中的"Windows"(?!pattern)与上一个相反"Windows(?=2022|2021)"可以匹配到"Windwos2014"或"Windwos98"中的"Windows",但就是匹配不到"Windwos2022"或"Windows2021"中的"Windwos"
反向引用(内部、外部)
我们先来看一个需求:需要匹配一串连续的4个数字,并且保证第一位数字与第四位数字相同,第二位数字与第三位数字相同。例如:1001、8448、4554
反向引用的语法:
在正则表达式内部使用时候只需要 "
\group
",这里的group表示引用
第几组
在正则表达式外部时使用"
$group
",例如matcher.replaceAll()方法4
第几组是根据正则表达式中的捕获分组来决定的,第一个括号是第一组,以此类推
具体的使用将会在应用实例中演示
应用实例
实现不区分大小写
如下正则表达式:
"abc" :表示匹配abc,区分大小写
"(?i)abc": 表示匹配abc,不区分大小写
"ab(?i)c": 表示匹配时,c不区分大小写
"a((?i)b)c":表示匹配时,b不区分大小写
贪婪匹配、非贪婪匹配(懒惰匹配)
如果想要实现非贪婪匹配,需要在限定符后添加一个"?"也就是问号。
例如有一个字符串"aaa",正则表达式为:"a+",此时默认为贪婪匹配,因此只有一个结果:"aaa"
例如有一个字符串"aaa",正则表达式为:"a+?",此时为非贪婪匹配,因此可以匹配到3个结果:"a"、"a"、"a"
常用元字符练习
获取汉字
public class RegExp02 {
public static void main(String[] args) {
String content = "今天 你 没想到 吧";
// 正则表达式
String regExp = "[\\u4e00-\\u9fa5]+";
Pattern pattern = Pattern.compile(regExp);
Matcher matcher = pattern.matcher(content);
// 记录找到了多少组
int count = 0;
while (matcher.find()) {
System.out.println("找到了,这是第" + ++count + "组:" + matcher.group(0));
}
}
}
复制代码
获取邮政编码:要求是1-9开头的六位数
public class RegExp02 {
public static void main(String[] args) {
String content = "15812 595125 951236 015487 6514 25654 00154";
// 正则表达式
String regExp = "[1-9]\\d{5}";
Pattern pattern = Pattern.compile(regExp);
Matcher matcher = pattern.matcher(content);
// 记录找到了多少组
int count = 0;
while (matcher.find()) {
System.out.println("找到了,这是第" + ++count + "组:" + matcher.group(0));
}
}
}
复制代码
QQ号码:要求1-9开头的一个(5位数-10位数)
public class RegExp02 {
public static void main(String[] args) {
String content = "2571986664aaf257198666dsf25719#$!02121/*-abcadsf";
// 正则表达式
String regExp = "[1-9]\\d{4,9}";
Pattern pattern = Pattern.compile(regExp);
Matcher matcher = pattern.matcher(content);
// 记录找到了多少组
int count = 0;
while (matcher.find()) {
System.out.println("找到了,这是第" + ++count + "组:" + matcher.group(0));
}
}
}
复制代码
手机号码:以13、14、15、18开头的11位数
public class RegExp02 {
public static void main(String[] args) {
String content = "15277303777a2134a1427730377734098asdf1527730377adf";
// 正则表达式
String regExp = "1[3|4|5|8]\\d{9}";
Pattern pattern = Pattern.compile(regExp);
Matcher matcher = pattern.matcher(content);
// 记录找到了多少组
int count = 0;
while (matcher.find()) {
System.out.println("找到了,这是第" + ++count + "组:" + matcher.group(0));
}
}
}
复制代码
URL:匹配一个URL网址,可以带端口及不带端口
public class RegExp02 {
public static void main(String[] args) {
// String content = "https://vip.iqiyi.com/cps_pc.html?a=b&b=c";
String content = "https://vip.iqiyi.com:3918/cps_pc.html?a=b&b=c";
// 正则表达式
String regExp = "^(http|https)://([\\w+.]+)(:\\d+)?/[\\w.]+\\??[\\S]*$";
Pattern pattern = Pattern.compile(regExp);
Matcher matcher = pattern.matcher(content);
while (matcher.find()) {
System.out.println("找到了:" + matcher.group(0));
}
}
}
复制代码
按照如下电子邮件规则编写正则表达式
只能有一个@
@前面是用户名,可以是a-z A-Z 0-9 _ - 等字符
@后面是域名,域名只能是英文字母,比如sohu.com或baidu.org.cn
public class RegExp02 {
public static void main(String[] args) {
String content = "codeStars@163.com.cn";
// 正则表达式
String regExp = "^[\\w-]+@[a-zA-Z0-9.]*[a-zA-Z0-9]+$";
if (content.matches(regExp)) {
System.out.println("匹配成功");
}else {
System.out.println("匹配失败");
}
}
}
复制代码
要求匹配到整数或者小数,要求考虑正数及负数
public class RegExp02 {
public static void main(String[] args) {
// 需要限制00.45、-00.45之类的错误输入格式
// 123 -345 34.89 -87.9 -0.01 0.45 -00.45
String content = "-0.01";
// 正则表达式
String regExp = "^[+-]?([\\d+|0?])\\.?\\d+$";
Pattern pattern = Pattern.compile(regExp);
Matcher matcher = pattern.matcher(content);
while (matcher.find()) {
System.out.println("找到:" + matcher.group(0));
}
}
}
复制代码
对一个url进行解析
获取到协议: http或https
域名是什么?
端口是什么?
文件名是什么?
public class RegExp02 {
public static void main(String[] args) {
String content = "https://mail.163.com:8080/register/success.htm";
// 正则表达式思路
// 1. 先获取到协议(http|https),以及增加固定的分隔符 ://
// 2. 获取域名([\\w.]+)
// 3. 获取端口([:\\d]+)
// 4. 过滤不需要捕获的内容(?:[\\w]+/)+
// 5. 获取文件名 ([\\w.]+)
String regExp = "(http|https)://([\\w.]+)([:\\d]+)(?:[\\w]+/)+([\\w.]+)";
Pattern pattern = Pattern.compile(regExp);
Matcher matcher = pattern.matcher(content);
while (matcher.find()) {
System.out.println("协议为:" + matcher.group(1));
System.out.println("域名为:" + matcher.group(2));
System.out.println("端口为:" + matcher.group(3));
System.out.println("资源名称为:" + matcher.group(4));
}
}
}
复制代码
非捕获分组练习
获取Windows10和Windows11中的Windows,不包括Windows12、Windows2018中的Windows
public class RegExp02 {
public static void main(String[] args) {
String content = "Windows2211 Windows10 Windows11 Windows12 Windows2018";
// 正则表达式 获取Windows10和Windows11中的Windows,不包括Windows12、Windows2018中的Windows
String regExp = "Windows(?=10|11)";
Pattern pattern = Pattern.compile(regExp);
Matcher matcher = pattern.matcher(content);
while (matcher.find()) {
System.out.println("找到:" + matcher.group(0));
System.out.println("索引开始位置为:" + matcher.start());
System.out.println("索引结束位置为:" + (matcher.end() - 1));
}
}
}
复制代码
获取不包括Windows10和Windows11中的Windows,其他的都要,例如Windows12、Windows2018中的Windows
public class RegExp02 {
public static void main(String[] args) {
String content = "Windows2211 Windows10 Windows11 Windows12 Windows2018";
// 正则表达式 获取不包括Windows10和Windows11中的Windows,其他的都要,例如Windows12、Windows2018中的Windows
String regExp = "Windows(?!10|11)";
Pattern pattern = Pattern.compile(regExp);
Matcher matcher = pattern.matcher(content);
while (matcher.find()) {
System.out.println("找到:" + matcher.group(0));
System.out.println("索引开始位置为:" + matcher.start());
System.out.println("索引结束位置为:" + (matcher.end() - 1));
}
}
}
复制代码
反向引用练习(注意与捕获分组使用)
实现匹配1221、2332、4554之类的数字
public class RegExp02 {
public static void main(String[] args) {
String content = "4554 2662 1234 8448 9119 1331 5897 2222";
// 正则表达式
String regExp = "(\\d)(\\d)\\2\\1";
Pattern pattern = Pattern.compile(regExp);
Matcher matcher = pattern.matcher(content);
while (matcher.find()) {
System.out.println("找到:" + matcher.group(0));
}
}
}
复制代码
要求满足前面是一个五位数,加一个-号,后续是一个九位数,每3位要相同
例如:13541-555222111、59511-666333444
public class RegExp02 {
public static void main(String[] args) {
String content = "13541-555222111、59511-666333444、12465-123456789";
// 正则表达式
String regExp = "\\d{5}-(\\d)\\1{2}(\\d)\\2{2}(\\d)\\3{2}";
Pattern pattern = Pattern.compile(regExp);
Matcher matcher = pattern.matcher(content);
while (matcher.find()) {
System.out.println("找到:" + matcher.group(0));
}
}
}
复制代码
解决结巴语句,例如:今今...,,天也是...个好..好好好....日日子转换为 今天是个好日子
public class RegExp02 {
public static void main(String[] args) {
String content = "今今...,,天也是...个好..好好好....日日子";
// 正则表达式
// 思路
// 1. 先将所有其他的特殊符号去除掉,由于该字符串中只有. 和 , 所以只放了2个
String regExp = "[.,\\s]+";
Pattern pattern = Pattern.compile(regExp);
Matcher matcher = pattern.matcher(content);
// 1.1 将找到的特殊符号都替换成空字符串,该行执行后content就变成了:今今天也是个好好好好日日子
content = matcher.replaceAll("");
// 编写正则表达式,匹配一个非空字符而后必须有1个或多个与其一样的字符
regExp = "(\\S)\\1+";
// 2. 重新创建Pattern和Matcher
pattern = Pattern.compile(regExp);
matcher = pattern.matcher(content);
// 3. 使用replaceAll方法来替换掉,需要使用到外部引用$
// 上面编写的正则表达式会找到3个字符串,分别为:今今、好好好好、日日
// 底层会循环的调用find()方法,相当于找到一个字符串,就用其第一组的内容替换整个字符串,以此类推就能全部替换
String newContent = matcher.replaceAll("$1");
System.out.println(newContent); // 输出结果:今天也是个好日子
}
}
复制代码
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!
欢迎光临 ToB企服应用市场:ToB评测及商务社交产业平台 (https://dis.qidao123.com/)
Powered by Discuz! X3.4