java Object的hashCode方法的計算邏輯分析

Posted on 2021-12-22 by WalkonNet

1. 背景介紹

在為重寫hashCode方法的時候，看到hashCode打印出的數據像是一個地址值，很是好奇。

加之最近在研讀jvm源碼，特此一探究竟，看看在hotspot中hashCode究竟是如何實現的。

2. 調用過程梳理

java的Object代碼

public native int hashCode();

通過官產jdk的Object.class的源碼, 發現hashCode被native修飾. 因此這個方法應該是在jvm中通過c/c++實現

jvm的hashCode相關代碼

首先觀察Object.java對應的Object.c代碼

// 文件路徑: jdk\src\share\native\java\lang\Object.c
static JNINativeMethod methods[] = {
    {"hashCode",    "()I",                    (void *)&JVM_IHashCode}, // 這個方法就是我們想看的hashCode方法
    {"wait",        "(J)V",                   (void *)&JVM_MonitorWait},
    {"notify",      "()V",                    (void *)&JVM_MonitorNotify},
    {"notifyAll",   "()V",                    (void *)&JVM_MonitorNotifyAll},
    {"clone",       "()Ljava/lang/Object;",   (void *)&JVM_Clone},
};

進一步進入到jvm.h文件中, 這個文件中包含瞭很多java調用native方法的接口

// hotspot\src\share\vm\prims\jvm.h
/*
 * java.lang.Object
 */
JNIEXPORT jint JNICALL
JVM_IHashCode(JNIEnv *env, jobject obj); // 此時定瞭已hashCode方法的接口, 具體實現在jvm.cpp中

// hotspot\src\share\vm\prims\jvm.cpp
// java.lang.Object ///
JVM_ENTRY(jint, JVM_IHashCode(JNIEnv* env, jobject handle))
  JVMWrapper("JVM_IHashCode");
  // as implemented in the classic virtual machine; return 0 if object is NULL
  return handle == NULL ? 0 : ObjectSynchronizer::FastHashCode (THREAD, JNIHandles::resolve_non_null(handle)) ; // 如果object為null, 就返回0; 否則就調用ObjectSynchronizer::FastHashCode
JVM_END

進入到ObjectSynchronizer::FastHashCode

// hotspot\src\share\vm\runtime\synchronizer.cpp
intptr_t ObjectSynchronizer::FastHashCode (Thread * Self, oop obj) {
// ....
 // 在FastHashCode方法中有一段關鍵代碼:
 if (mark->is_neutral()) {
     hash = mark->hash();              // 首先通過對象的markword中取出hashCode
     if (hash) {                       // 如果取調到瞭, 就直接返回
       return hash;
     }
     hash = get_next_hash(Self, obj);  // 如果markword中沒有設置hashCode, 則調用get_next_hash生成hashCode
     temp = mark->copy_set_hash(hash); // 生成的hashCode設置到markword中
     // use (machine word version) atomic operation to install the hash
     test = (markOop) Atomic::cmpxchg_ptr(temp, obj->mark_addr(), mark);
     if (test == mark) {
       return hash;
     }
 }
// ....
}

生成hashCode的方法get_next_hash, 可以支持通過參數配置不同的生成hashCode策略

// hotspot\src\share\vm\runtime\synchronizer.cpp
static inline intptr_t get_next_hash(Thread * Self, oop obj) {
  intptr_t value = 0 ;
  // 一共支持6中生成hashCode策略, 默認策略值是5
  if (hashCode == 0) {
  // 策略1: 直接通過隨機數生成
     value = os::random() ;
  } else if (hashCode == 1) {
     // 策略2: 通過object地址和隨機數運算生成
     intptr_t addrBits = cast_from_oop<intptr_t>(obj) >> 3 ;
     value = addrBits ^ (addrBits >> 5) ^ GVars.stwRandom ;
  } else if (hashCode == 2) {
  // 策略3: 永遠返回1, 用於測試
     value = 1 ;            // for sensitivity testing
  } else if (hashCode == 3) {
  // 策略4: 返回一個全局遞增的序列數
     value = ++GVars.hcSequence ;
  } else if (hashCode == 4) {
  // 策略5: 直接采用object的地址值
     value = cast_from_oop<intptr_t>(obj) ;
  } else {
     // 策略6: 通過在每個線程中的四個變量: _hashStateX, _hashStateY, _hashStateZ, _hashStateW
     // 組合運算出hashCode值, 根據計算結果同步修改這個四個值
     unsigned t = Self->_hashStateX ;
     t ^= (t << 11) ;
     Self->_hashStateX = Self->_hashStateY ;
     Self->_hashStateY = Self->_hashStateZ ;
     Self->_hashStateZ = Self->_hashStateW ;
     unsigned v = Self->_hashStateW ;
     v = (v ^ (v >> 19)) ^ (t ^ (t >> 8)) ;
     Self->_hashStateW = v ;
     value = v ;
  }
  value &= markOopDesc::hash_mask; // 通過hashCode的mask獲得最終的hashCode值
  if (value == 0) value = 0xBAD ;
  assert (value != markOopDesc::no_hash, "invariant") ;
  TEVENT (hashCode: GENERATE) ;
  return value;
}

3. 關於hashCode值的大小

前面以及提交到hashCode生成後, 是存儲在markword中, 我們在深入看一下這個markword

// hotspot\src\share\vm\oops\markOop.hpp
class markOopDesc: public oopDesc {
 private:
  // Conversion
  uintptr_t value() const { return (uintptr_t) this; }
 public:
  // Constants
  enum { age_bits                 = 4,
         lock_bits                = 2,
         biased_lock_bits         = 1,
         max_hash_bits            = BitsPerWord - age_bits - lock_bits - biased_lock_bits,
         hash_bits                = max_hash_bits > 31 ? 31 : max_hash_bits, // 通過這個定義可知, hashcode可占用31位bit. 在32位jvm中,  hashCode占用25位
         cms_bits                 = LP64_ONLY(1) NOT_LP64(0),
         epoch_bits               = 2
  };
  
}

4. 驗證

package test;
/***
 * 可以通過系列參數指定hashCode生成策略
 * -XX:hashCode=2
 */
public class TestHashCode {
    public static void main(String[] args) {
        Object obj1 = new Object();
        Object obj2 = new Object();
        System.out.println(obj1.hashCode());
        System.out.println(obj2.hashCode());
    }
}

通過-XX:hashCode=2這種形式, 可以驗證上述的5中hashCode生成策略

5. 總結

在64位jvm中, hashCode最大占用31個bit; 32位jvm中, hashCode最大占用25個bit

hashCode一共有六種生成策略

序號	hashCode策略值	描述
1	0	直接通過隨機數生成
2	1	通過object地址和隨機數運算生成
3	2	永遠返回1, 用於測試
4	3	返回一個全局遞增的序列數
5	4	直接采用object的地址值
6	其他	通過在每個線程中的四個變量: _hashStateX, _hashStateY, _hashStateZ, _hashStateW 組合運算出hashCode值, 根據計算結果後修改這個四個值

默認策略采用策略6, 在globals.hpp文件中定義

  product(intx, hashCode, 5,                                                \
          "(Unstable) select hashCode generation algorithm")

以上為個人經驗，希望能給大傢一個參考，也希望大傢多多支持WalkonNet。

java Object的hashCode方法的計算邏輯分析

目錄

1. 背景介紹

2. 調用過程梳理

java的Object代碼

jvm的hashCode相關代碼

3. 關於hashCode值的大小

4. 驗證

5. 總結

推薦閱讀：

發佈留言取消回覆

近期文章

目錄

1. 背景介紹

2. 調用過程梳理

java的Object代碼

jvm的hashCode相關代碼

3. 關於hashCode值的大小

4. 驗證

5. 總結

推薦閱讀：

發佈留言 取消回覆

近期文章

標籤

發佈留言取消回覆