精选HashMap面试题
HashMap应该算是Java后端工程师面试的必问题,因为其中的知识点太多,很适合用来考察面试者的Java基础。
HashMap的内部数据结构
JDK1.8版本使用数组 + 链表 / 红黑树;
JDK1.7版本使用数组 + 链表;
为什么在JDK1.8后会使用到红黑树?链表和红黑树转换的条件是什么?
HashMap在追求O(1)的时间复杂度上做出了很大优化,最能表现的地方就是链表树化,在链表中如果只有一个节点是符合O(1)的时间复杂度的,假如链表的长度为k 那么时间复杂度就为O(k) 当这个k = N时,这时时间复杂度就会变为O(N),所以jdk1.8在空间复杂度和时间复杂度上做取舍,当链表长度大于8时就会将数据结构转换成红黑树,因为树状结构的特殊性,时间复杂度就会转换成O(logN)。
参考泊松概率函数(Poisson distribution)链表长度到达 8 的概率是 0.00000006 ,不到千万分之一。所以绝大多数情况下,在 hash 算法正常的时,不太会出现链表转红黑树的情况。其次,TreeNode 相比普通的 Node 来说,会有两倍的空间占用。并且在长度比较小的情况下,红黑树的查找性能和链表是差别不大的。O(N) 和 O(logN) 只有在N比较大的时候效率才会比较低。毕竟 HashMap 是 JDK 提供的基础数据结构,必须在空间和时间做抉择。所以,选择链表是空间复杂度优先,选择红黑树是时间复杂度优化。在绝大多数情况下,不会出现需要红黑树的情况。
HashMap的数据插入原理
- 判断数组是否为空,构造方法
#HashMap()
是需要执行#resize()
方法后才会初始化的,这时做的就是这个操作。 - 根据key的hash值,通过 (n - 1) & hash 计算当前应当存放在数组的下标 index
- 查看table[index]是否存在数据,不存在就创建一个Node节点存放到table[index]中。
- 存在数据的话说明发送了hash冲突,继续判断key是否一致,key一致则将新的value替换原数据。
- 不一致的话,判断当前节点是否为树节点,如果是树节点则创建树节点插入红黑树中。
- 如果不是树节点,则创建普通的Node节点加入链表中,判断链表长度是否达到8,达到8的话会转换成红黑树。
- 插入完成后判断当前节点数是否大于长度阈值,如果大于长度阈值的话则执行
#resize()
方法进行扩容(原数组的两倍)
HashMap的长度限制
HashMap的长度必须为2的N次方,因为需要保证HashMap的位运算的结果,具体为(n-1) & hash
和hash % n
俩者会在2的N次方的情况下等价,考虑到性能,所以就需要长度为2的N次方。
如果使用的#HashMap(int initialCapacity)
或者#HashMap(int initialCapacity, float loadFactor)
构造函数实例化,传入的initialCapacity
不是2的N次方的话,则会执行#tableSizeFor(int cap)
方法,将初始化大小设置为大于initialCapacity
的2的N次方,例如:传的是10,初始化大小为16。
HashMap的hash()算法,为什么要这样设计?
hash函数是先拿到key的hashCode值,然后让hashCode的高16位和低16位做异或操作。
具体函数,key.hashCode() ^ (key.hashCode() >>> 16),这个叫扰动函数,这么设计有两个原因:
- 一定要尽可能的降低hash碰撞,越分散越好。
- 算法要尽可能的高效,因为是高频操作,因此采用位运算。
头插法和尾插法
jdk1.7时使用的是头插,1.8时使用的是尾插,简单的说就是,如果put时节点是个链表,在1.7时是将原有的链表作为当前新节点的后继节点,在1.8时新节点是放置到链表的最后。
因为1.7头插法扩容时,头插法会使链表发生反转,多线程环境下会产生死循环。
HashMap是线程安全的吗?
不是,在多线程环境下,1.7 会产生死循环、数据丢失、数据覆盖的问题,1.8 中会有数据覆盖的问题。
那你平常怎么解决这个线程不安全的问题?
Java中有HashTable、以及ConcurrentHashMap可以实现线程安全的Map。
- HashTable是直接在操作方法上加synchronized关键字,锁住整个数组,粒度比较大;
- ConcurrentHashMap使用分段锁,降低了锁粒度,让并发度大大提高。
ConcurrentHashMap的分段锁的实现原理
ConcurrentHashMap成员变量使用volatile 修饰,免除了指令重排序,同时保证了内存可见性,另外使用CAS操作和synchronized结合实现赋值操作,多线程操作只会锁住当前操作index的节点。
HashMap链表树化和红黑树退化
链表树化的阈值是8,红黑树转链表阈值为6,前面说过,链表长度到达 8 的概率大概位千万分之一,所以在空间复杂度和时间复杂度上来说已经够用了,至于为什么转回来是6,如果链表的长度一直在7、8徘徊,会一致发送树化和退化操作,比较损耗性能。
个人博客:https://wei.itart.icu/