Go語言中的UTF-8實現

Posted on 2021-04-26 by WalkonNet

計算機剛誕生的時候，計算機內的字符可以全部由 ASCII 來表示，ASCII 字符的長度是 7 位，可以表示 128 個字符，對於美國等國傢來說是夠瞭，但是對於世界上的其他國傢，特別是東亞國傢，文字不是由字母組成，漢字就有幾萬個，ASCII 碼根本不夠用。

字符本質就是對應計算機中的一個數值，既然不夠用，那麼解決方法就是把這個范圍擴大，Unicode 的出現就解決瞭這個問題，它包括瞭世界上所有的字符，每一個字符都對應一個數值，這個數值被稱之為 Unicode 碼點。

但是 Unicode 也不是沒有缺點，因為表示的范圍大，所以每一個 Unicode 都需要 4 個字節來表示，但是對於原本的 ASCII 編碼，本來隻需要一個字節，現在也需要 4個字節，這樣會浪費很多存儲。

UTF-8 的出現解決瞭這個問題，它解決問題的思路是讓每個字符選擇自己的大小，需要多少字節就用多少。對於占不同字節的字符，有不同的表示格式：

1 字節：0xxxxxxx
2 字節：110xxxxx 10xxxxxx
3 字節：1110xxxx 10xxxxxx 10xxxxxx
4 字節：11110xxx 10 xxxxxx 10xxxxxx 10xxxxxx

通過識別每個字符串的頭部來判斷占幾個字節。

每個 Unicode 字符都對應一個碼點，在字符串中，可以對碼點進行轉義，使用 \uhhhh 表示 16 位碼點，使用 \Uhhhhhhhh 來表示 32 位碼點，每一個 h 都代表一個十六進制的數字。

這裡有一點比較特殊，對於碼點值小於 256 的文字符號可以使用單個十六進制的數字來表示，比如 ‘A’ 可以使用 ‘\x41’ 來表示，對於大於 256 的碼點，就必須使用 \u 或者 \U 來轉義。

Go 語言對於 UTF-8 的支持很好，這裡有一點很有意思，Go 語言的兩位作者 Ken Thompson 和 Rob Pike 同時也是 UTF-8 的發明者，Go 語言對 UTF-8 的支持贏在起跑線。

Go 語言總是使用 UTF-8 來處理源文件，同時也是優先使用 UTF-8 來處理字符串。所以上面說到的那些 Unicode 字符的轉義被 Go 直接處理，比如下面三個字符串在 Go 語言中是等價的:

"世界"
"\u4e16\u754c"
"\U00004e16\U0000u754c"

Go 字符串使用隻讀的 []byte 來存儲，所以字符串值是不變的，這樣做更安全，效率也很高：

s := "left root"
t := s
s += ", right root"

fmt.Println(s) // left root, right root
fmt.Println(t) // left root

在上面的例子中， s 的值出現瞭變化，但是 t 的值還是舊的字符串。由於是 [] byte 是 slice 類型，所以字符串的截取操作效率很高，但是在字符串截取的過程中，就會出現一些坑。
Go 中的字符串底層使用瞭隻讀的 []byte 來存儲，所以**本質上 Go 語言中的字符串是使用字節來表示，而不是字符表示，**理解這一點很重要。

str := "hello world"
fmt.Println(str[:2]) // he

str = "你好，世界"
fmt.Println(str[:2]) // ��，這個符號用來表示 UTF-8 裡面的未知字符，碼點是

非 ASCII 碼的字符一般占用的字節會超過一個，如果直接截取，就會導致截取不到正確的位置，從而亂碼。在上面的例子中，一個中文字符占 3 個字節，隻有嚴格按照字節數來截取才能獲取到顯示正常的字符：

str = "你好，世界"
fmt.Println(str[:3]) // 你

那麼在這個時候，如果要按照字符截取，就需要把字符串轉成 []rune，每個 rune 都代表一個 UTF-8 中的碼點，對 []rune 按照字符截取就不會出現亂碼：

str = "你好，世界"
runeStr := []rune(str)
fmt.Println(string(runeStr[:1])) // 你

把字符串轉成 []rune，就是把字符串轉成 UTF-8 碼點，而不是 []byte，rune 其實就是 int32 類型。

Go 語言中有一個專門 unicode/utf8 包來處理 utf8 字符。由於每個字符占據的字節可能不一樣，所以字符數和字節數大小是兩回事：

s := "Hello, 世界" // 逗號是半角符號
fmt.Println(len(s))                    // 13
fmt.Println(utf8.RuneCountInString(s)) // 9

如果要獲取字符占據的總字節數，就使用 len 方法，如果需要計算字符的個數，那就需要使用 utf8.RuneCountInString 方法。
這個包裡面還提供瞭其他常用函數：

// 判斷是否符合 utf8 編碼：
func Valid(p []byte) bool
func ValidRune(r rune) bool
func ValidString(s string) bool
// 判斷 rune 所占的字節數
func RuneLen(r rune) int
// 判斷字節串或者字符串中的 rune 字符數
func RuneCount(p []byte) int
func RuneCountInString(s string) int
// 對 rune 的編碼和解碼
func EncodeRune(p []byte, r rune) int
func DecodeRune(p []byte) (r rune, size int)
func DecodeRuneInString(s string) (r rune, size int)
func DecodeLastRune(p []byte) (r rune, size int)
func DecodeLastRuneInString(s string) (r rune, size int)

除瞭 utf8 包之外， unicode 包對提供瞭一系列 IsXX 函數來 rune 的檢查：

func Is(rangeTab *RangeTable, r rune) bool // 是否是 RangeTable 類型的
func In(r rune, ranges ...*RangeTable) bool  // 是否是 ranges 中任意一個類型的字符
func IsControl(r rune) bool  // 是否是控制字符
func IsDigit(r rune) bool  // 是否是阿拉伯數字字符，即 0-9
func IsGraphic(r rune) bool // 是否是圖形字符
func IsLetter(r rune) bool // 是否是字母
func IsLower(r rune) bool // 是否是小寫字符
func IsMark(r rune) bool // 是否是符號字符
func IsNumber(r rune) bool // 是否是數字字符，包含羅馬數字
func IsOneOf(ranges []*RangeTable, r rune) bool // 是否是 RangeTable 中的一個
func IsPrint(r rune) bool // 是否是可打印字符
func IsPunct(r rune) bool // 是否是標點符號
func IsSpace(r rune) bool // 是否是空格
func IsSymbol(r rune) bool // 是否符號字符
func IsTitle(r rune) bool // 字符串中的每個單詞的第一個字符是否是大寫
func IsUpper(r rune) bool // 是否是大寫字符

RangeTable 是對所有 Unicode 字符的分類，比如驗證一個字符是否是漢字：

r := '中'
result := unicode.Is(unicode.Han, r)
fmt.Println(result) // true

其中 unicode.Han 就是 RangeTable 類型，表示漢字。

到此這篇關於Go語言中的UTF-8實現的文章就介紹到這瞭,更多相關Go語言UTF-8內容請搜索WalkonNet以前的文章或繼續瀏覽下面的相關文章希望大傢以後多多支持WalkonNet！

Go語言中的UTF-8實現

推薦閱讀：

發佈留言取消回覆

近期文章

推薦閱讀：

發佈留言 取消回覆

近期文章

標籤

發佈留言取消回覆