java Object的hashCode方法的計算邏輯分析

1. 背景介紹

在為重寫hashCode方法的時候,看到hashCode打印出的數據像是一個地址值,很是好奇。

加之最近在研讀jvm源碼,特此一探究竟,看看在hotspot中hashCode究竟是如何實現的。

2. 調用過程梳理

java的Object代碼

public native int hashCode();

通過官產jdk的Object.class的源碼, 發現hashCode被native修飾. 因此這個方法應該是在jvm中通過c/c++實現

jvm的hashCode相關代碼

首先觀察Object.java對應的Object.c代碼

// 文件路徑: jdk\src\share\native\java\lang\Object.c
static JNINativeMethod methods[] = {
    {"hashCode",    "()I",                    (void *)&JVM_IHashCode}, // 這個方法就是我們想看的hashCode方法
    {"wait",        "(J)V",                   (void *)&JVM_MonitorWait},
    {"notify",      "()V",                    (void *)&JVM_MonitorNotify},
    {"notifyAll",   "()V",                    (void *)&JVM_MonitorNotifyAll},
    {"clone",       "()Ljava/lang/Object;",   (void *)&JVM_Clone},
};

進一步進入到jvm.h文件中, 這個文件中包含瞭很多java調用native方法的接口

// hotspot\src\share\vm\prims\jvm.h
/*
 * java.lang.Object
 */
JNIEXPORT jint JNICALL
JVM_IHashCode(JNIEnv *env, jobject obj); // 此時定瞭已hashCode方法的接口, 具體實現在jvm.cpp中
// hotspot\src\share\vm\prims\jvm.cpp
// java.lang.Object ///
JVM_ENTRY(jint, JVM_IHashCode(JNIEnv* env, jobject handle))
  JVMWrapper("JVM_IHashCode");
  // as implemented in the classic virtual machine; return 0 if object is NULL
  return handle == NULL ? 0 : ObjectSynchronizer::FastHashCode (THREAD, JNIHandles::resolve_non_null(handle)) ; // 如果object為null, 就返回0; 否則就調用ObjectSynchronizer::FastHashCode
JVM_END

進入到ObjectSynchronizer::FastHashCode

// hotspot\src\share\vm\runtime\synchronizer.cpp
intptr_t ObjectSynchronizer::FastHashCode (Thread * Self, oop obj) {
// ....
 // 在FastHashCode方法中有一段關鍵代碼:
 if (mark->is_neutral()) {
     hash = mark->hash();              // 首先通過對象的markword中取出hashCode
     if (hash) {                       // 如果取調到瞭, 就直接返回
       return hash;
     }
     hash = get_next_hash(Self, obj);  // 如果markword中沒有設置hashCode, 則調用get_next_hash生成hashCode
     temp = mark->copy_set_hash(hash); // 生成的hashCode設置到markword中
     // use (machine word version) atomic operation to install the hash
     test = (markOop) Atomic::cmpxchg_ptr(temp, obj->mark_addr(), mark);
     if (test == mark) {
       return hash;
     }
 }
// ....
}

生成hashCode的方法get_next_hash, 可以支持通過參數配置不同的生成hashCode策略

// hotspot\src\share\vm\runtime\synchronizer.cpp
static inline intptr_t get_next_hash(Thread * Self, oop obj) {
  intptr_t value = 0 ;
  // 一共支持6中生成hashCode策略, 默認策略值是5
  if (hashCode == 0) {
  // 策略1: 直接通過隨機數生成
     value = os::random() ;
  } else if (hashCode == 1) {
     // 策略2: 通過object地址和隨機數運算生成
     intptr_t addrBits = cast_from_oop<intptr_t>(obj) >> 3 ;
     value = addrBits ^ (addrBits >> 5) ^ GVars.stwRandom ;
  } else if (hashCode == 2) {
  // 策略3: 永遠返回1, 用於測試
     value = 1 ;            // for sensitivity testing
  } else if (hashCode == 3) {
  // 策略4: 返回一個全局遞增的序列數
     value = ++GVars.hcSequence ;
  } else if (hashCode == 4) {
  // 策略5: 直接采用object的地址值
     value = cast_from_oop<intptr_t>(obj) ;
  } else {
     // 策略6: 通過在每個線程中的四個變量: _hashStateX, _hashStateY, _hashStateZ, _hashStateW
     // 組合運算出hashCode值, 根據計算結果同步修改這個四個值
     unsigned t = Self->_hashStateX ;
     t ^= (t << 11) ;
     Self->_hashStateX = Self->_hashStateY ;
     Self->_hashStateY = Self->_hashStateZ ;
     Self->_hashStateZ = Self->_hashStateW ;
     unsigned v = Self->_hashStateW ;
     v = (v ^ (v >> 19)) ^ (t ^ (t >> 8)) ;
     Self->_hashStateW = v ;
     value = v ;
  }
  value &= markOopDesc::hash_mask; // 通過hashCode的mask獲得最終的hashCode值
  if (value == 0) value = 0xBAD ;
  assert (value != markOopDesc::no_hash, "invariant") ;
  TEVENT (hashCode: GENERATE) ;
  return value;
}

3. 關於hashCode值的大小

前面以及提交到hashCode生成後, 是存儲在markword中, 我們在深入看一下這個markword

// hotspot\src\share\vm\oops\markOop.hpp
class markOopDesc: public oopDesc {
 private:
  // Conversion
  uintptr_t value() const { return (uintptr_t) this; }
 public:
  // Constants
  enum { age_bits                 = 4,
         lock_bits                = 2,
         biased_lock_bits         = 1,
         max_hash_bits            = BitsPerWord - age_bits - lock_bits - biased_lock_bits,
         hash_bits                = max_hash_bits > 31 ? 31 : max_hash_bits, // 通過這個定義可知, hashcode可占用31位bit. 在32位jvm中,  hashCode占用25位
         cms_bits                 = LP64_ONLY(1) NOT_LP64(0),
         epoch_bits               = 2
  };
  
}

4. 驗證

package test;
/***
 * 可以通過系列參數指定hashCode生成策略
 * -XX:hashCode=2
 */
public class TestHashCode {
    public static void main(String[] args) {
        Object obj1 = new Object();
        Object obj2 = new Object();
        System.out.println(obj1.hashCode());
        System.out.println(obj2.hashCode());
    }
}

通過-XX:hashCode=2這種形式, 可以驗證上述的5中hashCode生成策略

5. 總結

在64位jvm中, hashCode最大占用31個bit; 32位jvm中, hashCode最大占用25個bit

hashCode一共有六種生成策略

序號 hashCode策略值 描述
1 0 直接通過隨機數生成
2 1 通過object地址和隨機數運算生成
3 2 永遠返回1, 用於測試
4 3 返回一個全局遞增的序列數
5 4 直接采用object的地址值
6 其他 通過在每個線程中的四個變量: _hashStateX, _hashStateY, _hashStateZ, _hashStateW 組合運算出hashCode值, 根據計算結果後修改這個四個值

默認策略采用策略6, 在globals.hpp文件中定義

  product(intx, hashCode, 5,                                                \
          "(Unstable) select hashCode generation algorithm")  

以上為個人經驗,希望能給大傢一個參考,也希望大傢多多支持WalkonNet。

推薦閱讀: