解析HashMap中的put方法執行流程
引言
在Java集合中,HashMap的重要性不言而喻,作為一種存儲鍵值對的數據結構,它在日常開發中有著非常多的應用場景,也是面試中的高頻考點,本篇文章就來分析一下HashMap集合中的put方法。
HashMap底層數據結構
先來瞭解一下HashMap底層的數據結構,它實質上是一個散列表,在數據結構課程中,我們應該都學習過散列表,它是通過關鍵碼值而直接進行訪問的一種數據結構,比如存儲這樣的一個序列:5,12,7,6,1,3。我們首先需要設定一個hash函數,通過該函數就能夠定位每個元素存儲的位置,比如hash函數為 H(k) = k % 6,那麼每個元素的存儲位置即為:1,0,1,0,1,3,此時問題就出現瞭,有幾個元素的存儲位置計算後發現是一樣的,而一個位置不可能存放兩個值,這就是hash沖突。
解決哈希沖突的方式有很多:
- 線性探測法
- 偽隨機數法
- 鏈地址法
若是采用較為簡單的線性探測法,則將產生沖突的元素向後移動一個位置,若是仍然有沖突,則繼續後移一位,由此可得每個元素的存儲位置:
在HashMap中,它的設計當然是要精妙很多的,查閱其源碼:
static class Node<K,V> implements Map.Entry<K,V> { final int hash; final K key; V value; Node<K,V> next; Node(int hash, K key, V value, Node<K,V> next) { this.hash = hash; this.key = key; this.value = value; this.next = next; } public final K getKey() { return key; } public final V getValue() { return value; } public final String toString() { return key + "=" + value; } public final int hashCode() { return Objects.hashCode(key) ^ Objects.hashCode(value); } public final V setValue(V newValue) { V oldValue = value; value = newValue; return oldValue; } public final boolean equals(Object o) { if (o == this) return true; if (o instanceof Map.Entry) { Map.Entry<?,?> e = (Map.Entry<?,?>)o; if (Objects.equals(key, e.getKey()) && Objects.equals(value, e.getValue())) return true; } return false; } }
我們發現瞭這樣的一個內容類,它是一個Node節點,由此,我們可以猜測,HashMap對於沖突的解決辦法采用的是鏈地址法,那麼HashMap數據的真正存放位置是在哪呢?
transient Node<K,V>[] table;
就是這樣的一個Node數組。
put方法的執行流程
我們直接通過一個程序來理解HashMap中put方法的執行流程,在put方法中,HashMap需要經歷初始化、存值、擴容、解決沖突等等操作:
public static void main(String[] args) { Map<String, String> map = new HashMap<>(); map.put("name", "zs"); map.put("age", "20"); map.put("name", "lisi"); map.forEach((k, v) -> { System.out.println(k + "--" + v); }); }
這段程序的運行結果我們都知道是name--lisi age -- 20
,那為什麼是這個結果呢?源碼能夠告訴我們答案。
首先執行第一行代碼,調用HashMap的無參構造方法:
public HashMap() { this.loadFactor = DEFAULT_LOAD_FACTOR; // all other fields defaulted }
在構造方法中,隻是設置瞭一個loadFactor的成員變量,它表示的是hash表的負載因子,默認值為0.75,至於這個負載因子是什麼,我們後面再說。
接下來程序會執行put方法:
public V put(K key, V value) { return putVal(hash(key), key, value, false, true); }
put方法又調用瞭putVal方法,並傳入瞭key的hash,key,value等等參數,所以先來計算key的hash:
static final int hash(Object key) { int h; return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16); }
這個hash是用來計算插入位置的,我們放到後面說,計算完key的hash後,它將調用putVal方法:
final V putVal(int hash, K key, V value, boolean onlyIfAbsent, boolean evict) { Node<K,V>[] tab; Node<K,V> p; int n, i; if ((tab = table) == null || (n = tab.length) == 0) n = (tab = resize()).length; if ((p = tab[i = (n - 1) & hash]) == null) tab[i] = newNode(hash, key, value, null); else { Node<K,V> e; K k; if (p.hash == hash && ((k = p.key) == key || (key != null && key.equals(k)))) e = p; else if (p instanceof TreeNode) e = ((TreeNode<K,V>)p).putTreeVal(this, tab, hash, key, value); else { for (int binCount = 0; ; ++binCount) { if ((e = p.next) == null) { p.next = newNode(hash, key, value, null); if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st treeifyBin(tab, hash); break; } if (e.hash == hash && ((k = e.key) == key || (key != null && key.equals(k)))) break; p = e; } } if (e != null) { // existing mapping for key V oldValue = e.value; if (!onlyIfAbsent || oldValue == null) e.value = value; afterNodeAccess(e); return oldValue; } } ++modCount; if (++size > threshold) resize(); afterNodeInsertion(evict); return null; }
該方法的前三行先定義瞭一個Node類型的數組和一個變量,並判斷類成員中的table是否為空,前面我們已經說到,這個table就是真正來存儲數據的數組,它的初始值肯定為空,所以會觸發resize方法:
final Node<K,V>[] resize() { Node<K,V>[] oldTab = table; int oldCap = (oldTab == null) ? 0 : oldTab.length; int oldThr = threshold; int newCap, newThr = 0; if (oldCap > 0) { if (oldCap >= MAXIMUM_CAPACITY) { threshold = Integer.MAX_VALUE; return oldTab; } else if ((newCap = oldCap << 1) < MAXIMUM_CAPACITY && oldCap >= DEFAULT_INITIAL_CAPACITY) newThr = oldThr << 1; // double threshold } else if (oldThr > 0) // initial capacity was placed in threshold newCap = oldThr; else { // zero initial threshold signifies using defaults newCap = DEFAULT_INITIAL_CAPACITY; newThr = (int)(DEFAULT_LOAD_FACTOR * DEFAULT_INITIAL_CAPACITY); } if (newThr == 0) { float ft = (float)newCap * loadFactor; newThr = (newCap < MAXIMUM_CAPACITY && ft < (float)MAXIMUM_CAPACITY ? (int)ft : Integer.MAX_VALUE); } threshold = newThr; @SuppressWarnings({"rawtypes","unchecked"}) Node<K,V>[] newTab = (Node<K,V>[])new Node[newCap]; table = newTab; if (oldTab != null) { for (int j = 0; j < oldCap; ++j) { Node<K,V> e; if ((e = oldTab[j]) != null) { oldTab[j] = null; if (e.next == null) newTab[e.hash & (newCap - 1)] = e; else if (e instanceof TreeNode) ((TreeNode<K,V>)e).split(this, newTab, j, oldCap); else { // preserve order Node<K,V> loHead = null, loTail = null; Node<K,V> hiHead = null, hiTail = null; Node<K,V> next; do { next = e.next; if ((e.hash & oldCap) == 0) { if (loTail == null) loHead = e; else loTail.next = e; loTail = e; } else { if (hiTail == null) hiHead = e; else hiTail.next = e; hiTail = e; } } while ((e = next) != null); if (loTail != null) { loTail.next = null; newTab[j] = loHead; } if (hiTail != null) { hiTail.next = null; newTab[j + oldCap] = hiHead; } } } } } return newTab; }
這個resize方法其實是相當復雜的,但我們撿出重要的代碼來看,因為table的初始值為null,所以一定會進入下面的分支:
else { // zero initial threshold signifies using defaults newCap = DEFAULT_INITIAL_CAPACITY; newThr = (int)(DEFAULT_LOAD_FACTOR * DEFAULT_INITIAL_CAPACITY); }
它設置瞭兩個變量的值,newCap = 16,newThr = 0.75 * 16 = 12,其中newCap就是本次需要創建的table數組的容量,而newThr就是實際隻能存儲的容量大小。
對於一個散列表,如果讓其每個位置都占滿元素,那麼一定是已經產生大量的沖突瞭,但若是隻讓小部分位置存儲元素,又會浪費散列表的空間,由此,前輩們經過大量的計算,得出散列表的總容量 * 0.75之後的值是散列表最合適的存儲容量,這個0.75就被稱為散列表中的負載因子。所以,HashMap在第一次調用put方法時會創建一個總容量為16的Node類型數組(前提是調用無參構造方法),但實際上隻有12的容量可以被使用,當第13個元素插入時,就需要考慮擴容。
接下來就是初始化table數組:
threshold = newThr; @SuppressWarnings({"rawtypes","unchecked"}) Node<K,V>[] newTab = (Node<K,V>[])new Node[newCap]; table = newTab;
通過調用resize方法,我們就獲得瞭一個容量為16的Node數組,緊接著就執行:
if ((p = tab[i = (n - 1) & hash]) == null) tab[i] = newNode(hash, key, value, null);
還記得這個hash變量嗎?它就是前面求得的key的hash值,通過n(table數組的長度,即:16)減1並與hash值做一個與運算,即可得到該數據的存儲位置,它類似於文章開篇提到的hash函數 H(k) = k % 6,它做的也是這個操作,hash % n。需要註意,若是求模操作中,除數是2的冪次,則求模操作可以等價於與其除數減1的與操作,即:hash & (n – 1),因為&操作的效率是要高於求模運算的,所以HashMap會將n設計為2的冪次。
求得數據需要插入的位置後,就需要判斷當前位置是否有元素,現在table數組中沒有任何數據,所以第一次判斷一定是null,符合條件,執行代碼:tab[i] = newNode(hash, key, value, null);
,創建瞭一個節點,並存入hash值,key、value及其指針域:
Node<K,V> newNode(int hash, K key, V value, Node<K,V> next) { return new Node<>(hash, key, value, next); }
最後執行:
++modCount; if (++size > threshold) resize(); afterNodeInsertion(evict);
判斷當前容量size是否超過瞭閾值threshold,若是超過瞭,還需要調用resize方法進行擴容。
到這裡,第一個數據name:zs
就插入成功瞭。
第二個數據age:20
在這裡就不作分析瞭,它和name的插入流程是一樣的,我們分析一下第三個數據name:lisi
的插入,這裡涉及到瞭一個key重復的問題,來看看HashMap是如何處理的。
首先仍然是調用putVal方法,並計算key的hash值,然後判斷當前table是否為空,這次table肯定不為空,所以直接走到:
if ((p = tab[i = (n - 1) & hash]) == null) tab[i] = newNode(hash, key, value, null);
仍然通過(n - 1) & hash
計算數據的插入位置,結果發現要插入的位置已經有元素瞭,就是name:zs
,此時就產生瞭沖突,執行:
Node<K,V> e; K k; if (p.hash == hash && ((k = p.key) == key || (key != null && key.equals(k)))) e = p;
現在的p就是name:zs
,通過p的hash與當前數據key的hash比較,發現hash值相同,繼續比較p的key,即:name與當前數據的key是否相同,發現仍然相同,此時就將p交給e管理,最後執行:
if (e != null) { // existing mapping for key V oldValue = e.value; if (!onlyIfAbsent || oldValue == null) e.value = value; afterNodeAccess(e); return oldValue; }
此時e不為null,所以將e中的value值設置為當前數據的value值,由此,HashMap便成功將key為name的值修改為瞭lisi,並返回瞭原值zs。
總結
綜上所述,我們能夠得到以下結論:
- HashMap的總容量一定是2的冪次方,即使通過構造函數傳入一個不是2的冪次方的容量,HashMap也會將其擴充至與其最接近的2的冪次方的值;比如傳入總容量為10,則HashMap會自動將容量擴充至16
- 若是調用HashMap的無參構造方法,則將在第一次執行put方法時初始化一個總容量為16,實際可用容量為12的Node數組
- 當實際容量超過閾值時,HashMap會進行擴容,擴容至原容量的2倍
- HashMap的put方法執行流程:首先判斷當前table是否為空,若為空,則初始化,若不為空,則根據key的hash計算得到插入位置,再判斷該位置是否有元素,若無元素,則直接插入,若有元素,則判斷原位置數據的hash值與待插入數據的hash值是否相同,若相同,則繼續比較值,若值不同,則創建一個新的Node節點,並使用尾插法將其插入到原數據的節點後面形成鏈表,若值相同,則采用待插入數據的值覆蓋原數據的值,並返回原數據的值
- HashMap采用鏈地址法解決hash沖突,所以當某個鏈表的長度大於8,並且table數組的長度大於64,則當前鏈表會被轉換為紅黑樹,若table數組的長度尚未達到64,則進行擴容;當鏈表長度小於6,則會將紅黑樹轉回鏈表
- 因為HashMap會根據key的hash值計算插入位置,所以key的數據類型一定要重寫hashCode方法,否則會出現兩個相同的key結果hash值不相同的情況,也需要重寫equals方法,否則equals方法將比較的是地址值
到此這篇關於解析HashMap中的put方法的文章就介紹到這瞭,更多相關HashMap put方法內容請搜索WalkonNet以前的文章或繼續瀏覽下面的相關文章希望大傢以後多多支持WalkonNet!
推薦閱讀:
- Java詳細分析講解HashMap
- JDK8中的HashMap初始化和擴容機制詳解
- Java京東面試題之為什麼HashMap線程不安全
- 深入理解Java中的HashMap
- 基於hashmap 的擴容和樹形化全面分析