Python有關Unicode UTF-8 GBK編碼問題詳解

Posted on 2022-08-18 by WalkonNet

1.統一碼（Unicode）

Unicode也叫萬國碼、單一碼，是計算機科學領域裡的一項業界標準，包括字符集、編碼方案等。對於世界上所有的語言文字再unicode中都可以查看到。【漢】字的編碼解釋官網https://www.unicode.org/cgi-bin/GetUnihanData.pl?codepoint=6C49

unicode編碼就是為瞭統一世界上的編碼，有一個統一的規范。但是它還存在一些問題。

Unicode的問題

需要註意的是，Unicode隻是一個符號集，它隻規定瞭符號的二進制代碼，卻沒有規定這個二進制代碼應該如何存儲。

比如，漢字“嚴”的unicode是十六進制數4E25，轉換成二進制數足足有15位（100111000100101），也就是說這個符號的表示至少需要2個字節。表示其他更大的符號，可能需要3個字節或者4個字節，甚至更多。

這裡就有兩個嚴重的問題

第一個：如何才能區別unicode和ascii？計算機怎麼知道三個字節表示一個符號，而不是分別表示三個符號呢？
第二個：我們已經知道，英文字母隻用一個字節表示就夠瞭，如果unicode統一規定，每個符號用三個或四個字節表示，那麼每個英文字母前都必然有二到三個字節是0，這對於存儲來說是極大的浪費，文本文件的大小會因此大出二三倍，這是無法接受的。

它們造成的結果是：

出現瞭unicode的多種存儲方式，也就是說有許多種不同的二進制格式，可以用來表示unicode。
unicode在很長一段時間內無法推廣，直到互聯網的出現。

2.UTF-8編碼

互聯網的普及，強烈要求出現一種統一的編碼方式。UTF-8就是在互聯網上使用最廣的一種unicode的實現方式。其他實現方式還包括UTF-16和UTF-32，不過在互聯網上基本不用。重復一遍，這裡的關系是，UTF-8是Unicode的實現方式之一。

UTF-8最大的一個特點，就是它是一種變長的編碼方式。它可以使用1~4個字節表示一個符號，根據不同的符號而變化字節長度。

UTF-8的編碼規則很簡單，隻有二條：

對於單字節的符號，字節的第一位設為0，後面7位為這個符號的unicode碼。因此對於英語字母，UTF-8編碼和ASCII碼是相同的。
對於n字節的符號（n>1），第一個字節的前n位都設為1，第n+1位設為0，後面字節的前兩位一律設為10。剩下的沒有提及的二進制位，全部為這個符號的unicode碼。

Python代碼舉例：

a = '\u6c49' # 漢的unicode編碼
print(a)
a = '漢'
print("漢字utf8格式：",a.encode('utf8'))
print('漢字unicode格式：',a.encode('unicode_escape'))
print('漢字gbk格式：',a.encode('gbk'))
print('漢字gb2312格式：',a.encode('gb2312'))
# 輸出結果
漢
漢字utf8格式： b'\xe6\xb1\x89'
漢字unicode格式： b'\\u6c49'
漢字gbk格式： b'\xba\xba'
漢字gb2312格式： b'\xba\xba'

可以看到以上結果，漢字的漢通過print打印時用的是unicode編碼，存儲時使用utf8,也即是我們保存文件時常用的編碼

with open('xxx.txt','w',encoding='utf-8') as f:
    f.write(xxx)

打開的時候也要指定文件編碼

with open(file_path, encoding='utf-8') as f:
    f.read()

當使用gbk編碼保存的文件使用utf8打開時會報錯,使用gbk打開即可

with open(r'gbk.txt','r',encoding='utf8') as f:
    print(f.read())
    
(result, consumed) = self._buffer_decode(data, self.errors, final)
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xd5 in position 0: invalid continuation byte

總結

UNICODE是一個符號集合,對全世界的語言都對應一個符號編碼
UTF-8是UNICODE在計算機中存儲時的具體體現，是存儲方案
UTF-16同理
UTF-32同理
GB 2312 或 GB 2312-80 是一個簡體中文字符集的中國國傢標準，全稱為《信息交換用漢字編碼字符集·基本集》，又稱為GB0，由中國國傢標準總局發佈，1981年5月1日實施。
GBK: 漢字國標擴展碼,基本上采用瞭原來GB2312-80所有的漢字及碼位，並涵蓋瞭原Unicode中所有的漢字20902，總共收錄瞭883個符號， 21003個漢字及提供瞭1894個造字碼位。

參考鏈接

到此這篇關於Python有關Unicode UTF-8 GBK編碼問題詳解的文章就介紹到這瞭,更多相關Python Unicode UTF-8 GBK編碼內容請搜索WalkonNet以前的文章或繼續瀏覽下面的相關文章希望大傢以後多多支持WalkonNet！

Python有關Unicode UTF-8 GBK編碼問題詳解

目錄

1.統一碼（Unicode）

2.UTF-8編碼

總結

推薦閱讀：

發佈留言取消回覆

近期文章

目錄

1.統一碼（Unicode）

2.UTF-8編碼

總結

推薦閱讀：

發佈留言 取消回覆

近期文章

標籤

發佈留言取消回覆