C++項目基於HuffmanTree實現文件的壓縮與解壓縮功能

Posted on 2021-08-26 by WalkonNet

1.創建優先級隊列要使用自己寫的仿函數
2.自定義類型結構體類型相加和仿函數要重載operator+和operator>
3.剔除在HuffmanTree出現0次的字符，不用統計出現0次的字符
4.如果在解壓縮時，最後一個字節的壓縮數據不滿8個比特位，則在解壓縮過程中如何處理？
5.在解壓縮源文件中有漢字，解壓縮過時出現亂碼，怎麼處理？
6.文件中包含多行文本時解壓縮出現亂碼

四、測試結果

1.字符文件
2.文本文件
3.圖片文件
4.如果對壓縮結果二次或者多次壓縮，會不會每次都變小
5.Huffman壓縮有無出現壓縮結果變大的可能

前言

一、文件壓縮

1.文件壓縮的概念

在這裡插入圖片描述

文件壓縮是指在不丟失有用信息的前提下，縮減數據量以減少存儲空間，提高其傳輸、存儲和處理效率，或按照一定的算法對文件中數據進行重新組織，減少數據的冗餘和存儲的空間的一種技術方法。

2.為什麼需要壓縮

①緊縮數據存儲容量，減少存儲空間。
②可以提高數據傳輸的速度，減少帶寬占用量，提高通訊效率。
③對數據的一種加密保護，增強數據在傳輸過程中的安全性。

3.壓縮的分類

有損壓縮:有損壓縮是利用瞭人類對圖像或聲波中的某些頻率成分不敏感的特性，允許壓縮過程中損失一定的信息；雖然不能完全恢復原始數據，但是所損失的部分對理解原始圖像的影響縮小，卻換來瞭大得多的壓縮比，即指使用壓縮後的數據進行重構，重構後的數據與原來的數據有所不同，但不影響人對原始資料表達的信息造成誤解。
無損壓縮:對文件中數據按照特定的編碼格式進行重新組織，壓縮後的壓縮文件可以被還原成與源文件完全相同的格式，不會影響文件內容，對於數碼圖像而言，不會使圖像細節有任何損失。

在這裡插入圖片描述

4.壓縮的方法

壓縮的目的是讓文件變小，減少文件所占的存儲空間。

專有名詞采用的固定短語：比如：南昌大學，簡稱南大或者昌大，就可以提到壓縮的目的，但隻能針對於大傢所熟知的專有名詞。

縮短文件中重復的數據：比如文件中存放數據為：mnoabczxyuvwabc123456abczxydefgh
對文件中重復數據使用(距離，長度)對進行替換，壓縮之後的結果為：mnoabczxyuvw(9,3)123456(18, 6)defgh。

在這裡插入圖片描述

給文件中每個字節找一個更短的編碼：比如文件中存放數據為：ABBBCCCCCDDDDDDD。

采用靜態等長編碼壓縮： 00010101 10101010 10000000 00000000。

在這裡插入圖片描述

采用動態不等長編碼壓縮：10010110 11011111 11111100 00000000。

在這裡插入圖片描述

文件16個字節，壓縮完成之後占4個字節，可以起到壓縮的目的。

二、HuffmanTree文件壓縮與解壓縮

1.HuffmanTree的概念

在認識哈夫曼樹之前，你必須知道以下幾個基本術語：

①什麼是路徑？

在一棵樹中，從一個結點往下可以達到的結點之間的通路，稱為路徑。
在這裡插入圖片描述

②什麼是路徑長度？

某一路徑所經過的“邊”的數量，稱為該路徑的路徑長度。
在這裡插入圖片描述
如圖，該路徑經過瞭3條邊，因此該路徑的路徑長度為3。

③什麼是結點的帶權路徑長度？

若將樹中結點賦給一個帶有某種含義的數值，則該數值稱為該結點的權。從根結點到該結點之間的路徑長度與該結點的權的乘積，稱為該結點的帶權路徑長度。
在這裡插入圖片描述
如圖，葉子結點I的帶權路徑長度為 3 × 3 = 9 。

④什麼是樹的帶權路徑長度？

樹的帶權路徑長度規定為所有葉子結點的帶權路徑長度之和，記為WPL。
在這裡插入圖片描述
如圖，該二叉樹的帶權路徑長度 WPL= 2 × 2 + 2 × 6 + 3 × 1 + 3 × 3 + 2 × 2 = 32

⑤什麼是哈夫曼樹？

給定n個權值作為n個葉子結點，構造一棵二叉樹，若該樹的帶權路徑長度達到最小，則稱該二叉樹為哈夫曼樹，也被稱為最優二叉樹。

根據樹的帶權路徑長度的計算規則，我們不難理解：樹的帶權路徑長度與其葉子結點的分佈有關。
即便是兩棵結構相同的二叉樹，也會因為其葉子結點的分佈不同，而導致兩棵二叉樹的帶權路徑長度不同。

在這裡插入圖片描述

那如何才能使一棵二叉樹的帶權路徑長度達到最小呢？
根據樹的帶權路徑長度的計算規則，我們應該盡可能地讓權值大的葉子結點靠近根結點，讓權值小的葉子結點遠離根結點，這樣便能使得這棵二叉樹的帶權路徑長度達到最小。

2.HuffmanTree的構建

下面給出一個非常簡潔易操作的算法，來構造一棵哈夫曼樹：
1、初始狀態下共有n個結點，結點的權值分別是給定的n個數，將他們視作n棵隻有根結點的樹。
2、合並其中根結點權值最小的兩棵樹，生成這兩棵樹的父結點，權值為這兩個根結點的權值之和，這樣樹的數量就減少瞭一個。
3、重復操作2，直到隻剩下一棵樹為止，這棵樹就是哈夫曼樹。

例如，現給定5個數，分別為1、2、2、3、6，要求構建一棵哈夫曼樹。
動圖演示：

在這裡插入圖片描述