Java在創建文件時指定編碼的實現方法
前言:最近,學習瞭Java IO流的相關的知識,想通過讀寫文件的方式練習和鞏固所學知識。在使用File類創建文件時,突然想到,我該如何指定文件使用的編碼呢? 進而想到,應該如何查看一個文件的編碼呢?
一、問題分析
先去互聯網上查找答案,結果如下:
FileInputStream fis=new FileInputStream(“xxxx.txt”); OutputStreamWriter osw=new OutputStreamWriter(fis,“UTF-8”);
上面的代碼大概意思是在寫入文件時,寫入的字符使用UTF-8編碼,和我預想的不一樣,我想在創建文件的同時指定編碼。像下面這樣,
File myfile = new File("test.txt”, “UTF-8”); if (!myfile.exists()) myfile.createNewFile();
於是,我去查看Java API 8官方文檔,File沒有提供可以指定字符編碼的構造函數。
同時也沒提供set或者get等其他訪問字符字符編碼的方法,說明字符編碼不是文件的固有屬性。像文件創建時間,文件修改時間,是否可讀、可寫、可執行,這些都是文件的固有屬性,或者說元信息,它們是文件的一部分。
二、字符編碼
我們知道,計算機中存儲的任何信息都是01串,文字也不例外。
對於字符的處理包括兩個過程:編碼和解碼
編碼:把字符"映射“到01串
解碼:把01串"映射“到字符
不同的字符編碼,例如GBK、UTF-8,編碼和解碼使用的規則不同。
對於同樣的文本字符串:“中國”,使用UTF-8編碼保存,一般使用三個字節保存一個漢字,(底層的01字符串的16進制形式)。
使用GBK編碼保存,使用兩個字節表示一個漢字。
當我們在文本編輯器中寫好文字保存時,編輯器會根據你設置的字符編碼類型將文本”映射“成01串。
你設置的字符類型,僅僅是編輯器把文字編碼成成10串的轉換規則而已,並不是文本的屬性。
在編輯器打開文本文件時,顯示的不是底層的01串,而是文字,是因為編輯器使用某種文字編碼,把01串解碼為字符。如果,解碼時,使用的字符編碼和編碼時的一致或者兼容,就可以正確顯示文本。如果解碼時,使用的字符編碼和編碼時的不一致或者不兼容,就會亂碼。
例如,我有一個文本文件使用的是GBK編碼,內容是”明月幾時有“,
我使用VS code (微軟的一款非常好用的文本編輯器)打開文件,用術語說,就是解碼文件。其默認使用的文字編碼是UTF-8,解碼相同。但是,因為我的文本底層是GBK編碼的01串(兩個字節一個字符),使用UTF-8解碼01串,由於編碼,解碼不一致,必然會導致亂碼。這時,隻要手動選擇對應的GBK編碼,解碼文件就不會亂碼瞭。
亂碼也從側面說明瞭,字符編碼不是文件的固有屬性。
扯瞭這麼多,就是為瞭說明這一點:字符編碼就是解碼和編碼時用的規則,不是文件的固有屬性。
我不禁產生疑惑,為什麼當初不把字符編碼設置為文件屬性的一部分呢?
假設可以設置,並且設置為GBK,那麼操作系統需要維護改功能。像一個文件是不可寫的,那麼有程序試圖寫文件,操作系統會拒絕寫入一樣,操作系統必須寫入的字節必須是滿足GBK編碼要求,那麼每次寫入字節,操作系統都需要檢查該字節的合法性,這需要非常大的性能開銷,甚至是無法實現的,因為有些特殊字節即可以表示GBK,也可以表示UTF-8,是有歧義的。在說,做這一些的意義是什麼,為瞭編輯器可以在打開文件的時候,可以根據編碼屬性選擇正確的編碼嗎?沒有必要,智能的編輯器,可以根據內容的前幾個字節,推斷出你的01串使用瞭什麼編碼。另外,你也可以手動設置解碼所用的字符編碼。
三 、問題解決
在創建文件的時候,無法指定文件的編碼。在將文字寫入(例如文本編輯器的Ctrl + S
保存,本質執行的就是寫入操作)文件時,可以選擇將文字轉換為01串的編碼規則。
針對Java程序,代碼如下,正是文章最開始提及的代碼:
FileInputStream fis=new FileInputStream(“xxxx.txt”); OutputStreamWriter osw=new OutputStreamWriter(fis,“UTF-8”);
到此這篇關於Java在創建文件時指定編碼的實現方法的文章就介紹到這瞭,更多相關Java創建文件時指定編碼內容請搜索WalkonNet以前的文章或繼續瀏覽下面的相關文章希望大傢以後多多支持WalkonNet!
推薦閱讀:
- Java詳解IO流創建讀取與寫入操作
- Java文件管理操作的知識點整理
- Java I/O流使用示例詳解
- Java中的字節,字符輸出流與字節和字符輸入流的簡單理解
- Java inputstream和outputstream使用詳解