java utf 编码-CFANZ编程社区

Java UTF 编码

简介

UTF（Unicode Transformation Format）是一种用于表示Unicode字符的编码格式。在Java中，字符串是以Unicode编码方式存储的。UTF编码有多种形式，常见的有UTF-8、UTF-16和UTF-32。本文将介绍UTF编码的概念、不同编码方式的特点以及在Java中的应用。

UTF-8

UTF-8是一种可变长度编码方式，它使用1~4个字节来表示Unicode字符。UTF-8编码中，ASCII字符使用1个字节表示，而非ASCII字符使用2~4个字节表示。UTF-8编码的特点如下：

兼容ASCII：UTF-8编码可以表示所有的ASCII字符，ASCII字符在UTF-8中只占用1个字节。
可变长度：UTF-8编码使用不同长度的字节表示不同范围的Unicode字符，节省存储空间。
自同步性：UTF-8编码中，每个字符的第一个字节的高位表示该字符使用的字节数，后续字节使用特定的前缀标识字节序列。这样可以准确地定位每个字符的起始位置，便于解码。

在Java中，UTF-8编码是默认的编码方式。可以使用以下代码将字符串从UTF-8编码转换为字节数组：

String str = "Hello, 世界!";
byte[] bytes = str.getBytes(StandardCharsets.UTF_8);

UTF-16

UTF-16是一种固定长度编码方式，它使用2或4个字节来表示Unicode字符。UTF-16编码的特点如下：

平衡性：UTF-16编码中，所有字符都使用2个字节表示，无论是ASCII字符还是非ASCII字符。这样可以保持字符串的平衡性，便于处理。
代理对：UTF-16编码使用代理对（Surrogate Pair）表示Unicode字符超过基本多文种平面（BMP）的范围。代理对由两个16位的码元组成，共同表示一个字符。

在Java中，UTF-16编码是String类内部使用的编码方式。可以使用以下代码将字符串从UTF-16编码转换为字节数组：

String str = "Hello, 世界!";
byte[] bytes = str.getBytes(StandardCharsets.UTF_16);

UTF-32

UTF-32是一种固定长度编码方式，它使用4个字节来表示Unicode字符。UTF-32编码的特点如下：

简单直观：UTF-32编码中，每个字符都使用4个字节表示，不需要特殊的处理。
固定长度：UTF-32编码中，所有字符都使用4个字节表示，无论是ASCII字符还是非ASCII字符。这样可以保持统一的长度，并且不需要考虑代理对。

在Java中，UTF-32编码不是常用的编码方式，也没有直接的方法将字符串转换为UTF-32编码的字节数组。但可以使用以下代码将字符串转换为UTF-32编码的字节数组：

String str = "Hello, 世界!";
ByteBuffer buffer = Charset.forName("UTF-32").encode(str);
byte[] bytes = buffer.array();

编码与解码

在Java中，字符串的编码与解码可以通过Charset类来实现。Charset类提供了一组静态常量，表示不同的字符集和编码方式。可以使用Charset.forName(String charsetName)方法获取指定字符集的Charset对象。

示例代码如下：

String str = "Hello, 世界!";
Charset charset = Charset.forName("UTF-8");

// 编码
ByteBuffer encodedBuffer = charset.encode(str);
byte[] encodedBytes = encodedBuffer.array();

// 解码
CharBuffer decodedBuffer = charset.decode(ByteBuffer.wrap(encodedBytes));
String decodedString = decodedBuffer.toString();

以上代码将字符串str使用UTF-8编码为字节数组encodedBytes，然后再解码为字符串decodedString。

字符编码转换

在Java中，可以使用InputStreamReader和OutputStreamWriter来进行字符编码的转换。InputStreamReader将字节流转换为字符流，OutputStreamWriter将字符流转换为字节流。这两个类都