解析HashMap中的put方法執行流程

引言

在Java集合中,HashMap的重要性不言而喻,作為一種存儲鍵值對的數據結構,它在日常開發中有著非常多的應用場景,也是面試中的高頻考點,本篇文章就來分析一下HashMap集合中的put方法。

HashMap底層數據結構

先來瞭解一下HashMap底層的數據結構,它實質上是一個散列表,在數據結構課程中,我們應該都學習過散列表,它是通過關鍵碼值而直接進行訪問的一種數據結構,比如存儲這樣的一個序列:5,12,7,6,1,3。我們首先需要設定一個hash函數,通過該函數就能夠定位每個元素存儲的位置,比如hash函數為 H(k) = k % 6,那麼每個元素的存儲位置即為:1,0,1,0,1,3,此時問題就出現瞭,有幾個元素的存儲位置計算後發現是一樣的,而一個位置不可能存放兩個值,這就是hash沖突。
解決哈希沖突的方式有很多:

  • 線性探測法
  • 偽隨機數法
  • 鏈地址法

若是采用較為簡單的線性探測法,則將產生沖突的元素向後移動一個位置,若是仍然有沖突,則繼續後移一位,由此可得每個元素的存儲位置:

在這裡插入圖片描述

在HashMap中,它的設計當然是要精妙很多的,查閱其源碼:

static class Node<K,V> implements Map.Entry<K,V> {
    final int hash;
    final K key;
    V value;
    Node<K,V> next;

    Node(int hash, K key, V value, Node<K,V> next) {
        this.hash = hash;
        this.key = key;
        this.value = value;
        this.next = next;
    }

    public final K getKey()        { return key; }
    public final V getValue()      { return value; }
    public final String toString() { return key + "=" + value; }

    public final int hashCode() {
        return Objects.hashCode(key) ^ Objects.hashCode(value);
    }

    public final V setValue(V newValue) {
        V oldValue = value;
        value = newValue;
        return oldValue;
    }

    public final boolean equals(Object o) {
        if (o == this)
            return true;
        if (o instanceof Map.Entry) {
            Map.Entry<?,?> e = (Map.Entry<?,?>)o;
            if (Objects.equals(key, e.getKey()) &&
                Objects.equals(value, e.getValue()))
                return true;
        }
        return false;
    }
}

我們發現瞭這樣的一個內容類,它是一個Node節點,由此,我們可以猜測,HashMap對於沖突的解決辦法采用的是鏈地址法,那麼HashMap數據的真正存放位置是在哪呢?

transient Node<K,V>[] table;

就是這樣的一個Node數組。

put方法的執行流程

我們直接通過一個程序來理解HashMap中put方法的執行流程,在put方法中,HashMap需要經歷初始化、存值、擴容、解決沖突等等操作:

public static void main(String[] args) {
    Map<String, String> map = new HashMap<>();
    map.put("name", "zs");
    map.put("age", "20");
    map.put("name", "lisi");
    map.forEach((k, v) -> {
        System.out.println(k + "--" + v);
    });
}

這段程序的運行結果我們都知道是name--lisi age -- 20,那為什麼是這個結果呢?源碼能夠告訴我們答案。

首先執行第一行代碼,調用HashMap的無參構造方法:

public HashMap() {
    this.loadFactor = DEFAULT_LOAD_FACTOR; // all other fields defaulted
}

在構造方法中,隻是設置瞭一個loadFactor的成員變量,它表示的是hash表的負載因子,默認值為0.75,至於這個負載因子是什麼,我們後面再說。
接下來程序會執行put方法:

public V put(K key, V value) {
    return putVal(hash(key), key, value, false, true);
}

put方法又調用瞭putVal方法,並傳入瞭key的hash,key,value等等參數,所以先來計算key的hash:

static final int hash(Object key) {
    int h;
    return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);
}

這個hash是用來計算插入位置的,我們放到後面說,計算完key的hash後,它將調用putVal方法:

final V putVal(int hash, K key, V value, boolean onlyIfAbsent,
               boolean evict) {
    Node<K,V>[] tab; Node<K,V> p; int n, i;
    if ((tab = table) == null || (n = tab.length) == 0)
        n = (tab = resize()).length;
    if ((p = tab[i = (n - 1) & hash]) == null)
        tab[i] = newNode(hash, key, value, null);
    else {
        Node<K,V> e; K k;
        if (p.hash == hash &&
            ((k = p.key) == key || (key != null && key.equals(k))))
            e = p;
        else if (p instanceof TreeNode)
            e = ((TreeNode<K,V>)p).putTreeVal(this, tab, hash, key, value);
        else {
            for (int binCount = 0; ; ++binCount) {
                if ((e = p.next) == null) {
                    p.next = newNode(hash, key, value, null);
                    if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st
                        treeifyBin(tab, hash);
                    break;
                }
                if (e.hash == hash &&
                    ((k = e.key) == key || (key != null && key.equals(k))))
                    break;
                p = e;
            }
        }
        if (e != null) { // existing mapping for key
            V oldValue = e.value;
            if (!onlyIfAbsent || oldValue == null)
                e.value = value;
            afterNodeAccess(e);
            return oldValue;
        }
    }
    ++modCount;
    if (++size > threshold)
        resize();
    afterNodeInsertion(evict);
    return null;
}

該方法的前三行先定義瞭一個Node類型的數組和一個變量,並判斷類成員中的table是否為空,前面我們已經說到,這個table就是真正來存儲數據的數組,它的初始值肯定為空,所以會觸發resize方法:

final Node<K,V>[] resize() {
    Node<K,V>[] oldTab = table;
    int oldCap = (oldTab == null) ? 0 : oldTab.length;
    int oldThr = threshold;
    int newCap, newThr = 0;
    if (oldCap > 0) {
        if (oldCap >= MAXIMUM_CAPACITY) {
            threshold = Integer.MAX_VALUE;
            return oldTab;
        }
        else if ((newCap = oldCap << 1) < MAXIMUM_CAPACITY &&
                 oldCap >= DEFAULT_INITIAL_CAPACITY)
            newThr = oldThr << 1; // double threshold
    }
    else if (oldThr > 0) // initial capacity was placed in threshold
        newCap = oldThr;
    else {               // zero initial threshold signifies using defaults
        newCap = DEFAULT_INITIAL_CAPACITY;
        newThr = (int)(DEFAULT_LOAD_FACTOR * DEFAULT_INITIAL_CAPACITY);
    }
    if (newThr == 0) {
        float ft = (float)newCap * loadFactor;
        newThr = (newCap < MAXIMUM_CAPACITY && ft < (float)MAXIMUM_CAPACITY ?
                  (int)ft : Integer.MAX_VALUE);
    }
    threshold = newThr;
    @SuppressWarnings({"rawtypes","unchecked"})
        Node<K,V>[] newTab = (Node<K,V>[])new Node[newCap];
    table = newTab;
    if (oldTab != null) {
        for (int j = 0; j < oldCap; ++j) {
            Node<K,V> e;
            if ((e = oldTab[j]) != null) {
                oldTab[j] = null;
                if (e.next == null)
                    newTab[e.hash & (newCap - 1)] = e;
                else if (e instanceof TreeNode)
                    ((TreeNode<K,V>)e).split(this, newTab, j, oldCap);
                else { // preserve order
                    Node<K,V> loHead = null, loTail = null;
                    Node<K,V> hiHead = null, hiTail = null;
                    Node<K,V> next;
                    do {
                        next = e.next;
                        if ((e.hash & oldCap) == 0) {
                            if (loTail == null)
                                loHead = e;
                            else
                                loTail.next = e;
                            loTail = e;
                        }
                        else {
                            if (hiTail == null)
                                hiHead = e;
                            else
                                hiTail.next = e;
                            hiTail = e;
                        }
                    } while ((e = next) != null);
                    if (loTail != null) {
                        loTail.next = null;
                        newTab[j] = loHead;
                    }
                    if (hiTail != null) {
                        hiTail.next = null;
                        newTab[j + oldCap] = hiHead;
                    }
                }
            }
        }
    }
    return newTab;
}

這個resize方法其實是相當復雜的,但我們撿出重要的代碼來看,因為table的初始值為null,所以一定會進入下面的分支:

else {               // zero initial threshold signifies using defaults
    newCap = DEFAULT_INITIAL_CAPACITY;
    newThr = (int)(DEFAULT_LOAD_FACTOR * DEFAULT_INITIAL_CAPACITY);
}

它設置瞭兩個變量的值,newCap = 16,newThr = 0.75 * 16 = 12,其中newCap就是本次需要創建的table數組的容量,而newThr就是實際隻能存儲的容量大小。

對於一個散列表,如果讓其每個位置都占滿元素,那麼一定是已經產生大量的沖突瞭,但若是隻讓小部分位置存儲元素,又會浪費散列表的空間,由此,前輩們經過大量的計算,得出散列表的總容量 * 0.75之後的值是散列表最合適的存儲容量,這個0.75就被稱為散列表中的負載因子。所以,HashMap在第一次調用put方法時會創建一個總容量為16的Node類型數組(前提是調用無參構造方法),但實際上隻有12的容量可以被使用,當第13個元素插入時,就需要考慮擴容。

接下來就是初始化table數組:

threshold = newThr;
@SuppressWarnings({"rawtypes","unchecked"})
Node<K,V>[] newTab = (Node<K,V>[])new Node[newCap];
table = newTab;

通過調用resize方法,我們就獲得瞭一個容量為16的Node數組,緊接著就執行:

if ((p = tab[i = (n - 1) & hash]) == null)
    tab[i] = newNode(hash, key, value, null);

還記得這個hash變量嗎?它就是前面求得的key的hash值,通過n(table數組的長度,即:16)減1並與hash值做一個與運算,即可得到該數據的存儲位置,它類似於文章開篇提到的hash函數 H(k) = k % 6,它做的也是這個操作,hash % n。需要註意,若是求模操作中,除數是2的冪次,則求模操作可以等價於與其除數減1的與操作,即:hash & (n – 1),因為&操作的效率是要高於求模運算的,所以HashMap會將n設計為2的冪次。

求得數據需要插入的位置後,就需要判斷當前位置是否有元素,現在table數組中沒有任何數據,所以第一次判斷一定是null,符合條件,執行代碼:tab[i] = newNode(hash, key, value, null);,創建瞭一個節點,並存入hash值,key、value及其指針域:

Node<K,V> newNode(int hash, K key, V value, Node<K,V> next) {
    return new Node<>(hash, key, value, next);
}

最後執行:

++modCount;
if (++size > threshold)
    resize();
afterNodeInsertion(evict);

判斷當前容量size是否超過瞭閾值threshold,若是超過瞭,還需要調用resize方法進行擴容。
到這裡,第一個數據name:zs就插入成功瞭。

第二個數據age:20在這裡就不作分析瞭,它和name的插入流程是一樣的,我們分析一下第三個數據name:lisi的插入,這裡涉及到瞭一個key重復的問題,來看看HashMap是如何處理的。

首先仍然是調用putVal方法,並計算key的hash值,然後判斷當前table是否為空,這次table肯定不為空,所以直接走到:

if ((p = tab[i = (n - 1) & hash]) == null)
    tab[i] = newNode(hash, key, value, null);

仍然通過(n - 1) & hash計算數據的插入位置,結果發現要插入的位置已經有元素瞭,就是name:zs,此時就產生瞭沖突,執行:

Node<K,V> e; K k;
if (p.hash == hash &&
    ((k = p.key) == key || (key != null && key.equals(k))))
    e = p;

現在的p就是name:zs,通過p的hash與當前數據key的hash比較,發現hash值相同,繼續比較p的key,即:name與當前數據的key是否相同,發現仍然相同,此時就將p交給e管理,最後執行:

if (e != null) { // existing mapping for key
    V oldValue = e.value;
    if (!onlyIfAbsent || oldValue == null)
        e.value = value;
    afterNodeAccess(e);
    return oldValue;
}

此時e不為null,所以將e中的value值設置為當前數據的value值,由此,HashMap便成功將key為name的值修改為瞭lisi,並返回瞭原值zs。

總結

綜上所述,我們能夠得到以下結論:

  • HashMap的總容量一定是2的冪次方,即使通過構造函數傳入一個不是2的冪次方的容量,HashMap也會將其擴充至與其最接近的2的冪次方的值;比如傳入總容量為10,則HashMap會自動將容量擴充至16
  • 若是調用HashMap的無參構造方法,則將在第一次執行put方法時初始化一個總容量為16,實際可用容量為12的Node數組
  • 當實際容量超過閾值時,HashMap會進行擴容,擴容至原容量的2倍
  • HashMap的put方法執行流程:首先判斷當前table是否為空,若為空,則初始化,若不為空,則根據key的hash計算得到插入位置,再判斷該位置是否有元素,若無元素,則直接插入,若有元素,則判斷原位置數據的hash值與待插入數據的hash值是否相同,若相同,則繼續比較值,若值不同,則創建一個新的Node節點,並使用尾插法將其插入到原數據的節點後面形成鏈表,若值相同,則采用待插入數據的值覆蓋原數據的值,並返回原數據的值
  • HashMap采用鏈地址法解決hash沖突,所以當某個鏈表的長度大於8,並且table數組的長度大於64,則當前鏈表會被轉換為紅黑樹,若table數組的長度尚未達到64,則進行擴容;當鏈表長度小於6,則會將紅黑樹轉回鏈表
  • 因為HashMap會根據key的hash值計算插入位置,所以key的數據類型一定要重寫hashCode方法,否則會出現兩個相同的key結果hash值不相同的情況,也需要重寫equals方法,否則equals方法將比較的是地址值

到此這篇關於解析HashMap中的put方法的文章就介紹到這瞭,更多相關HashMap put方法內容請搜索WalkonNet以前的文章或繼續瀏覽下面的相關文章希望大傢以後多多支持WalkonNet!

推薦閱讀: