java正则如何取出匹配的内容-CFANZ编程社区

Java正则表达式提取匹配内容的方案

正则表达式是一种强大的文本匹配工具，它能够用来搜索、替换符合某个模式的字符串。在Java中，我们可以使用java.util.regex包下的类来实现正则表达式的功能。本文将介绍如何使用Java正则表达式提取匹配的内容，并以一个具体问题为例进行演示。

问题描述

假设我们有一个文本文件，里面包含了多个用户的电子邮件地址，格式如下：

用户A的邮件是: userA@example.com
用户B的邮件是: userB@example.com
用户C的邮件是: userC@example.com

我们的任务是从这个文本中提取所有的电子邮件地址。

正则表达式解析

电子邮件地址通常遵循一定的格式，例如：username@example.com。一个简单的正则表达式可以表示为：

\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b

这个正则表达式解释如下：

\b 表示单词边界，确保我们匹配的是整个电子邮件地址。
[A-Za-z0-9._%+-]+ 匹配电子邮件用户名部分，可以包含字母、数字、下划线、点、百分号、加号和减号。
@ 是电子邮件地址中必须有的符号。
[A-Za-z0-9.-]+ 匹配域名部分，可以包含字母、数字、点和减号。
\. 匹配点符号。
[A-Z|a-z]{2,} 匹配顶级域名，至少两个字母。

Java代码实现

首先，我们需要导入必要的包：

import java.util.regex.Matcher;
import java.util.regex.Pattern;

然后，我们可以编写一个方法来提取文本中的电子邮件地址：

public List<String> extractEmails(String text) {
    List<String> emails = new ArrayList<>();
    String regex = "\\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\\.[A-Z|a-z]{2,}\\b";
    Pattern pattern = Pattern.compile(regex);
    Matcher matcher = pattern.matcher(text);

    while (matcher.find()) {
        emails.add(matcher.group());
    }

    return emails;
}

序列图

以下是使用正则表达式提取电子邮件地址的序列图：

sequenceDiagram
    participant User as U
    participant Text as T
    participant Regex as R
    participant Emails as E

    U->>T: 输入文本
    T->>R: 应用正则表达式
    R->>E: 提取匹配的电子邮件
    E->>U: 返回电子邮件列表

流程图

以下是使用Java正则表达式提取电子邮件地址的流程图：

flowchart TD
    A[开始] --> B{是否有文本输入?}
    B -- 是 --> C[编译正则表达式]
    B -- 否 --> Z[结束]
    C --> D[创建Matcher对象]
    D --> E{是否有匹配?}
    E -- 是 --> F[添加到电子邮件列表]
    E -- 否 --> G[继续查找]
    F --> H[返回电子邮件列表]
    G --> E
    H --> Z