Java String保存字符串的機制

Posted on 2021-05-20 by WalkonNet

String 真的是 Immutable 的嗎

Java 中的 Unicode 字符串會按照 Latin1（所有的字符都小於 0xFF 時）或者 UTF16 的編碼格式保存在 String 中，保存為 byte 數組：

private final byte[] value;

通常所說的 Immutable 都是指 final bytes 在 String 初始化後就不會修改，所有字符串的相關操作都是不會修改原數組而是創建新的副本。

但是數組元素理論上是可以修改的，比如下面通過反射的方式，將字符串常量 abc 修改為 Abc：

    public static void main(String[] args) {
     setFirstValueToA("abc");
        String replaced = new String("abc");
        System.out.println(replaced); // Abc
    }
    
    private static void setFirstValueToA(String str) {
        Class<String> stringClass = String.class;
        try {
            Field value = stringClass.getDeclaredField("value");
            value.setAccessible(true);
            byte[] bytes = (byte[]) value.get(str);
            bytes[0] = 0x41; // A
 
        } catch (NoSuchFieldException | IllegalAccessException e) {
            e.printStackTrace();
        }
    }

字符串數組如何保存為字節數組

通過如下代碼測試幾個字符串數組：

    public static void main(String[] args) {
        printString("abc");
        printString("中文");
        printString("abc中文");
        printString("abc");
    }
    private static void printString(String str) {
        System.out.println("======>" + str);
        // return the UTF-16 char[] size
        System.out.println("length: " + str.length());
        // Use default Encoding (UTF-8)
        System.out.println("getBytes: " + str.getBytes().length);
        // Convert UTF-16 char[] to char
        System.out.println("codePointCount: " + str.codePointCount(0, str.length()));
        // Get the UTF-16 char[]
        System.out.println("toCharArray: " + str.toCharArray().length);
        // The UTF-16 char[] to bytes
        System.out.println("internal value: " + getStringInternalValueLength(str));
    }

結果如下：

internal value

首先解釋下 String 的 value 字段計算方式：

所有字符都小於 0xFF 時，采用 Latin1 Character Encoding 來保存 Unicode code point，也就是每個字符都用一個 byte 來保存。比如“ABC”
上述條件不滿足時，采用 UTF-16 Character Encoding 來保存，也就是每個字符都用 2 個或者 4 個 byte 來保存。

Unicode 是 Coded Character Set，將幾乎所有的人類文字映射到 code point 符號，通常格式為 U+xxxx，xxxx 為 16 進制整數，表達范圍為 U+0000～U+10FFFF。code point 符號是文字的規范化標記，但是實際保存時肯定還是要保存為字節數組的。這些不同的保存方式就是 Character Encoding，比如 UTF-8，還有 Java String 內部采用的 UTF-16。

UTF-16 是一種將 Unicode code point 表達成字符數組的編碼方式，對於 U+0000～U+FFFF，直接按照 2 個字節保存（細分的話還有大端字節序和小端字節序的區別）；對於 U+10000～U+10FFFF，會先轉化為一對 U+D800～U+DFFF 范圍內的 code point（surrogate pair），再將這兩個 code point 按照前面的規則保存。之所以選擇這個范圍，是因為這個 Unicode 區間還沒有被分配有效的字符，因此可以和前面的規則區分。

“中文”這兩個漢字的 Unicode code point 非別為 U+4E2d、U+6587，大於 0xFF，所以保存 byte 長度為 4；”abc中文” 中存在不滿足條件的字符，所以全部用 UTF-16 保存，它們都是 2 個 byte 的，所以長度為 10。

“” 的 Unicode code point 為 U+1F60A，根據 UTF-16 規范，U+10000～U+10FFFF 需要轉化為 surrogate pair 之後再保存成 byte，轉換後為 U+D83D、U+DE0A，因此 “abc” 的字節長度為 10。

toCharArray()

Java 中 char 的大小為 2 個字節，剛好可以表示一個 U+0000～U+FFFF 的 Unicode 符號。

Latin1 編碼時，char 數組為 byte 數組的填充，高字節為 0；UTF-16 編碼時，相當於轉化過 surrogate pair 後的 Unicode 編碼數組，其中 0xD800～0xDFFF 范圍內的為 surrogate 字符。

“abc” 時為 Latin1 編碼，所以 char 數組大小等於 bytes 數組；“abc中文” 時為 UTF-16 編碼，所以 char 數組大小等於 bytes 數組的一半。

codePointCount()

toCharArray 方法將轉化後的 surrogate pair 也算在內，因此實際長度可能大於字符長度。而 codePointCount 就能去除 surrogate pair 的影響，返回初始的字符長度，它會將連續兩個 surrogate pair 隻計數一次。

String.length

該方法就是 toCharArray 數組的長度，受到 surrogate pair 的影響，可能大於字符長度。

str.getBytes().length

String 內部是通過 UTF-16 編碼保存的字節數組，當通過 getBytes 方法返回時，是需要指定 Encoding 的，默認采用 UTF-8，因此會將 UTF-16 的字節數組轉化為 UTF-8 的字節數組，每個 Unicode 符號在 UTF-8 編碼後長度為 1～4 字節。

        System.out.println("abc".getBytes(UTF_8).length); // 3
        System.out.println("中".getBytes(UTF_8).length); // 3
        System.out.println("文".getBytes(UTF_8).length); // 3
        System.out.println("".getBytes(UTF_8).length); // 4

最後

到此這篇關於Java String保存字符串的機制的文章就介紹到這瞭,更多相關Java String保存字符串內容請搜索WalkonNet以前的文章或繼續瀏覽下面的相關文章希望大傢以後多多支持WalkonNet！

Java String保存字符串的機制

String 真的是 Immutable 的嗎

字符串數組如何保存為字節數組

internal value

toCharArray()

codePointCount()

String.length

str.getBytes().length

最後

推薦閱讀：

發佈留言取消回覆

近期文章

String 真的是 Immutable 的嗎

字符串數組如何保存為字節數組

internal value

toCharArray()

codePointCount()

String.length

str.getBytes().length

最後

推薦閱讀：

發佈留言 取消回覆

近期文章

標籤

發佈留言取消回覆