java 文件去掉UTF BOM-CFANZ编程社区

Java文件去掉UTF BOM

1. 什么是UTF BOM？

UTF BOM（Byte Order Mark）是一种用于标识Unicode文件编码方式的特殊字符序列。它在文件开头以字节序列的形式存在，用于指示文件的编码方式和字节序。UTF BOM是可选的，大部分情况下并不需要使用。但是，有些编辑器在保存文件时会自动添加UTF BOM，导致文件无法被一些不支持UTF BOM的程序正确识别。

UTF BOM的字节序列为：EF BB BF（对应UTF-8编码）或FE FF（对应UTF-16编码）。对于UTF-8编码，UTF BOM的作用是用来标识文件的编码方式是UTF-8；对于UTF-16编码，UTF BOM的作用是用来标识文件的字节序是大端序（Big Endian）。

2. 如何去掉UTF BOM？

在Java中，我们可以通过读取文件内容并重新写入新文件的方式去掉UTF BOM。以下是一个示例代码，演示了如何去掉UTF BOM：

import java.io.*;

public class UTFBOMRemover {

    public static void removeBOM(File sourceFile, File targetFile) throws IOException {
        try (InputStreamReader isr = new InputStreamReader(new FileInputStream(sourceFile), "UTF-8");
             BufferedReader br = new BufferedReader(isr);
             FileWriter fw = new FileWriter(targetFile)) {

            // 读取文件内容，跳过UTF BOM
            br.mark(3); // 标记流位置，以便之后重新定位
            if (br.read() != 0xFEFF) {
                br.reset(); // 不是UTF BOM，则重新定位到起始位置
            }

            // 写入新文件
            String line;
            while ((line = br.readLine()) != null) {
                fw.write(line);
                fw.write(System.lineSeparator());
            }
        }
    }

    public static void main(String[] args) {
        File sourceFile = new File("source.txt");
        File targetFile = new File("target.txt");

        try {
            removeBOM(sourceFile, targetFile);
            System.out.println("UTF BOM removed successfully.");
        } catch (IOException e) {
            System.out.println("Failed to remove UTF BOM: " + e.getMessage());
        }
    }
}

上述代码中，removeBOM方法接收源文件和目标文件作为参数，用于去掉源文件中的UTF BOM并将内容写入目标文件。在方法内部，我们使用InputStreamReader和FileReader来读取文件内容，使用BufferedReader来读取文件的每一行。首先，我们使用mark方法对流进行标记，然后读取第一个字符，如果不是UTF BOM，则使用reset方法重新定位到起始位置；如果是UTF BOM，则继续读取文件内容。最后，我们使用FileWriter来写入新文件的内容。

在main方法中，我们定义了源文件和目标文件，并通过调用removeBOM方法来去掉UTF BOM。如果成功去掉了UTF BOM，则打印成功消息；如果发生了I/O异常，则打印失败消息。

3. 流程图

下面是去掉UTF BOM的流程图：

flowchart TD

    subgraph Remove UTF BOM
    A(打开源文件) --> B(读取文件内容)
    B --> C{判断是否为UTF BOM}
    C -- 是 --> D(跳过UTF BOM)
    C -- 否 --> E(重新定位到起始位置)
    E --> D
    D --> F(写入新文件)
    end

    subgraph Exception Handling
    F -- 发生异常 --> G(打印失败消息)
    G --> H(结束)
    end

    subgraph Success Handling
    F -- 无异常 --> I(打印成功消息)
    I --> H
    end

    A --> B --> C --> D --> F
    F --> G
    G --> H
    I --> H