6-HashSet底层结构和源码分析
介绍汇总:
- HashSet的全面介绍
- HashSet底层机制阐明
- HashSet实践训练
1-HashSet的全面介绍
- HashSet 实现了 Set 接口
- HashSet 现实上是 HashMap(源码)
- public HashSet() {
- map = new HashMap<>();
- }
复制代码
- 可以存放 null 值,但是只能有一个 null
- HashSet 不保证元素是有序的,取决于 hash 后,在确定索引的结果。
- 不能有重复元素、对象。
- 实践训练
- HashSet hashSet = new HashSet();
- hashSet.add("lucy") ; // 可以加入
- hashSet.add("lucy") ; // 不可加入
- hashSet.add(new Dog("tom")) ; // 可以加入
- hashSet.add(new Dog("tom")) ; // 可以加入
- // 经典面试题
- hashSet.add(new String("mark")) ; // 可以加入
- hashSet.add(new String("mark")) ; // 不可加入
- // 虽然创建了两个内容相同、地址不同的字符串对象,
- // 但是这两个字符串对象的 hash 值是相同的
- // 满足了 hashSet 底层中的 hash 值相同,但是地址不同
- // 而还有一个条件就是调用元素的equals方法进行比较
- // String 的 equals 方法中比较的时候字符串内容
- // 所以会相等,是为相同元素,无法加入 hashSet 中
- System.out.println("====HashSet中列表元素有" + hashSet + "====");
- // 区分 String 对象以及 hash 值为啥相同
- // 不同对象(意味着地址值不同),hash 相同(这是由于字符串为常量,返回的都是常量池中的哈希值,因为都为 tom ,所以 hashCode 计算时为同一个值)
- String tom = new String("tom");
- System.out.println("tom的哈希值为" + tom.hashCode());
- System.out.println(System.identityHashCode(tom));
- String tom1 = new String("tom");
- System.out.println("tom1的哈希值为" + tom1.hashCode());
- System.out.println(System.identityHashCode(tom1));
- /*
- 在Java中,对象存储在堆内存中,但Java的内存模型并不允许直接访问或获取对象的实际内存地址。
- 然而,如果你需要区分不同的对象实例,可以使用System.identityHashCode(Object x)方法。
- 这个方法返回的是对象的系统标识哈希码,它在对象的生命周期内是唯一的(除非对象被垃圾回收后,其内存位置被重新分配给另一个对象)。
- 虽然这个哈希码不是实际的内存地址,但它可以用于区分不同的对象实例。
- 需要注意的是,hashCode()方法和System.identityHashCode(Object x)方法返回的值是不同的。
- hashCode()方法返回的是对象根据自己的哈希码算法计算出的哈希码,而System.identityHashCode(Object x)方法返回的是对象的系统标识哈希码,
- 它是由JVM在对象的生命周期内分配的,并且不会改变(除非对象被垃圾回收)。
- */
复制代码 2-HashSet底层机制阐明
- package set;
- import java.util.Arrays;
- public class HashSetStructure {
- @SuppressWarnings({"all"})
- public static void main(String[] args) {
- // 模拟一个 HashSet 的底层(HashMap 的底层结构)
- // 1. 创建一个数组,数组的类型是 Node[] ,或者该数组称为 表
- // 这里表的容量或长度为 16,是因为 HashMap 初始化后第一次添加数据,会将表的容量默认为 16
- Node[] table = new Node[16];
- System.out.println("====表中元素有" + Arrays.toString(table) + "====");
- // 2. 创建数据结点
- Node john = new Node("john", null);
- // 3. 将数据结点存入表中
- table[2] = john ;
- Node jack = new Node("jack", null);
- // 4. 将数据结点 jack 挂载到 john 之后,形成一个链表
- john.next = jack ;
- Node rose = new Node("Rose", null);
- // 此时索引为 2 的链表中已存在两个数据结点,当该链表达到一定长度,
- // 以及表的容量达到一定大小,该链表就会开始树化,也就是形成红黑树
- // 这样做的目的是提高数据管理效率
- jack.next = rose ;
- Node lucy = new Node("lucy", null);
- table[3] = lucy ;
- // HashSet 的底层或者可以说是 HashMap 的底层结构(因为HashSet 的底层中维护了一个 HashMap )
- // 数组 + 链表 + 红黑树
- }
- }
- /**
- * 数据结点,存储数据和链接的下一个数据结点,便于形成链表
- */
- class Node {
- // 存放数据
- Object item ;
- // 指向下一个结点
- Node next ;
- public Node(Object item, Node next) {
- this.item = item;
- this.next = next;
- }
- @Override
- public String toString() {
- return "Node{" +
- "item=" + item +
- ", next=" + next +
- '}';
- }
- }
复制代码
- HashSet 添加元素底层流程结论
- HashSet 底层是 HashMap
- 添加一个元素时,先得到 hash 值(并不是直接通过 hashcode 方法获得的值,有一个专门的算法会将 hashcode 的值进行转化),然后会根据算法将 hash 转成 表 的索引值
- 找到存储数据表 table ,查看这个索引位置是否已经存放数据元素
- 若没有,直接存入
- 若有,调用 equals 比力,若相同,就放弃添加,若不相同,则添加到最后
- 在 Java 8 中,若一条链表的元素个数超过 TREEIFY_THRESHOLD (默认链表树化的门槛或阈值为 8 ),而且 表 table 的容量 => MIN_TREEIFY_CAPACITY(默认表树化的门槛或阈值为 64),就会进行树化(红黑树)
- HashSet 添加元素底层源码流程分析

- // 添加元素的核心方法有 hash、putval、resize、treeifyBin、putTreeVal
- // hash
- // 根据传入的 Key 对象生成对应的 hash 值
- // 若为 null ,则 hash = 0
- // 若不为 null ,则先获取 Key 对象的 hashcode 值然后按位异或 hashcode 值的逻辑右移 16 位
- static final int hash(Object key) {
- int h;
- return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);
- }
- // resize
- // 扩容
- final Node<K,V>[] resize() {
- // 获取当前表
- Node<K,V>[] oldTab = table;
- // 获取当前表容量
- // 若当前表为空,说明当前表可能是刚初始化的表,则表的容量也为 0
- // 若当前表不为空,当前表的容量为 oldTab.length
- int oldCap = (oldTab == null) ? 0 : oldTab.length;
- // 获取当前扩容警戒值
- int oldThr = threshold;
- // 初始化当前表扩容后的新容量、新扩容警戒值
- int newCap, newThr = 0;
- // 判断当前表的容量,若是满足此种情况,说明已经扩过容了,不是初始化状态了
- // 嵌套条件判断
- // (1) 当前表达到或超出最大默认容量,仅需改变当前扩容警戒值,然后返回当前表
- // (2) 按当前表的容量扩容二倍给新表且小于默认最大容量,同时还满足当前表大于默认初始容量(16),
- // 则新扩容警戒值变为原来的 2 倍,等待之后进行扩容即可
- if (oldCap > 0) {
- if (oldCap >= MAXIMUM_CAPACITY) {
- threshold = Integer.MAX_VALUE;
- return oldTab;
- }
- else if ((newCap = oldCap << 1) < MAXIMUM_CAPACITY &&
- oldCap >= DEFAULT_INITIAL_CAPACITY)
- newThr = oldThr << 1; // double threshold
- }
- // 判断当前扩容警戒值,满足这一条件说明是通过 HashMap(int) 或者 HashMap(int,float) 初始化的 HashMap
- // 将原本在初始化的 threshold 的值(这就是指定的初始化容量)赋给 newCap
- // 此时,处理完 newCap 等待后续处理 newThr ,在等待扩容就行了
- else if (oldThr > 0) // initial capacity was placed in threshold
- newCap = oldThr;
- // 此为 HashMap()初始化的 HashSet 进行首次扩容
- // 等待扩容即可
- else { // zero initial threshold signifies using defaults
- newCap = DEFAULT_INITIAL_CAPACITY;
- newThr = (int)(DEFAULT_LOAD_FACTOR * DEFAULT_INITIAL_CAPACITY);
- }
- // 此判断是为了处理通过 HashMap(int) 或者 HashMap(int,float) 初始化的 HashMap
- // 的 newThr ,完毕之后等待扩容即可
- if (newThr == 0) {
- float ft = (float)newCap * loadFactor;
- newThr = (newCap < MAXIMUM_CAPACITY && ft < (float)MAXIMUM_CAPACITY ?
- (int)ft : Integer.MAX_VALUE);
- }
- // 将扩容后的扩容警戒值赋给实际对象的扩容警戒值
- threshold = newThr;
- @SuppressWarnings({"rawtypes","unchecked"})
- // 根据 newCap 进行扩容
- Node<K,V>[] newTab = (Node<K,V>[])new Node[newCap];
- // 将扩容后的新表赋给实际对象的表
- table = newTab;
- // 将原有表的数据全部复制到当前新表(上一步已替换)
- if (oldTab != null) {
- for (int j = 0; j < oldCap; ++j) {
- Node<K,V> e;
- if ((e = oldTab[j]) != null) {
- oldTab[j] = null;
- if (e.next == null)
- newTab[e.hash & (newCap - 1)] = e;
- else if (e instanceof TreeNode)
- ((TreeNode<K,V>)e).split(this, newTab, j, oldCap);
- else { // preserve order
- Node<K,V> loHead = null, loTail = null;
- Node<K,V> hiHead = null, hiTail = null;
- Node<K,V> next;
- do {
- next = e.next;
- if ((e.hash & oldCap) == 0) {
- if (loTail == null)
- loHead = e;
- else
- loTail.next = e;
- loTail = e;
- }
- else {
- if (hiTail == null)
- hiHead = e;
- else
- hiTail.next = e;
- hiTail = e;
- }
- } while ((e = next) != null);
- if (loTail != null) {
- loTail.next = null;
- newTab[j] = loHead;
- }
- if (hiTail != null) {
- hiTail.next = null;
- newTab[j + oldCap] = hiHead;
- }
- }
- }
- }
- }
- return newTab;
- }
-
- // putval
- // 存储数据
- final V putVal(int hash, K key, V value, boolean onlyIfAbsent, boolean evict) {
- Node<K,V>[] tab; Node<K,V> p; int n, i;
- // 判断当前表
- // 1. 获取当前表,并确认是否为空,说明当前表可能为刚初始化的 HashMap (HashSet)
- // 2. 获取当前表的长度,并确认是否为空,说明当前表可能执行过 clear 方法
- // 满足任一条件后,进行容量处理,并获取处理后的表的长度
- if ((tab = table) == null || (n = tab.length) == 0)
- n = (tab = resize()).length;
- // 根据 hash 值计算索引值,并获取索引上的数据元素,然后判断是否为空
- // 若为空,直接将该数据元素插入该索引
- if ((p = tab[i = (n - 1) & hash]) == null)
- tab[i] = newNode(hash, key, value, null);
- // 若不为空,开始进行数据比对
- else {
- Node<K,V> e; K k;
- // 先与索引上的数据结点进行比对
- // 以下是相同的数据元素,会直接赋给 e ,然后返回旧值,代表元素重复
- // 从 hash 和 key 或者 equals(可自定义) 来进行判断
- // 相同元素的 hash 值是相同的,所以这个要注意有个哈希值控制方法
- // 不同对象的哈希值一定是不同的,但 String 对象除外,之前介绍过
- // 而且可以通过重写 equals 和 hashCode 来达到对于同一类的对象如何
- // 为相同的可以进行控制
- if (p.hash == hash &&
- ((k = p.key) == key || (key != null && key.equals(k))))
- e = p;
- // 树结点的实例
- // 是的话进行树结点的元素比对和存储
- else if (p instanceof TreeNode)
- e = ((TreeNode<K,V>)p).putTreeVal(this, tab, hash, key, value);
- // 链表
- else {
- // binCount 是统计链表的元素个数,不包括索引上的数据结点
- for (int binCount = 0; ; ++binCount) {
- // 查看 p 是否有下一个结点
- // 若为 null 的话,直接插入元素即可
- // 然后再来判断链表元素个数是否达到树化条件
- // 结束循环,之后处理 e
- if ((e = p.next) == null) {
- p.next = newNode(hash, key, value, null);
- if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st
- treeifyBin(tab, hash);
- break;
- }
- // p 的下一个结点不为 null
- // 进行元素比对,和之前的方式一样
- // 元素一致的话就结束循环,之后处理 e
- if (e.hash == hash &&
- ((k = e.key) == key || (key != null && key.equals(k))))
- break;
- p = e;
- }
- }
- // 判断 e 是否存在值
- // 若有的话,则说明有重复元素
- if (e != null) { // existing mapping for key
- V oldValue = e.value;
- if (!onlyIfAbsent || oldValue == null)
- e.value = value;
- afterNodeAccess(e);
- return oldValue;
- }
- }
- // 每一次修改都会统计
- ++modCount;
- // 修改成功后就将大小 + 1
- // 然后查看大小是否达到警戒扩容值
- // 这个警戒扩容值是针对存储了多少元素的,不是仅对于表中存储的
- // 数据个数进行是否扩容的,还包括其链表或者红黑树的数据元素的
- if (++size > threshold)
- resize();
- afterNodeInsertion(evict);
- // 返回 null 意味着成功插入
- return null;
- }
- // treeifyBin 树化(红黑树)
- // 树化需要满足链表个数(8)和表的容量(>= 64)
- // 当满足链表个数的话,表容量不满足,就先进行表容量的扩容
- // 还有一个重要点就是当红黑树的个数小于等于 6 的话,红黑树又会转成链表,此过程称为剪枝
- // 关于剪枝仅是提一下
- final void treeifyBin(Node<K,V>[] tab, int hash) {
- int n, index; Node<K,V> e;
- if (tab == null || (n = tab.length) < MIN_TREEIFY_CAPACITY)
- resize();
- else if ((e = tab[index = (n - 1) & hash]) != null) {
- TreeNode<K,V> hd = null, tl = null;
- do {
- TreeNode<K,V> p = replacementTreeNode(e, null);
- if (tl == null)
- hd = p;
- else {
- p.prev = tl;
- tl.next = p;
- }
- tl = p;
- } while ((e = e.next) != null);
- if ((tab[index] = hd) != null)
- hd.treeify(tab);
- }
- }
复制代码 注:上方代码仅是解释每行代码的大致作用,需要 debug 进行梳理流程。
[code] HashSet hashSet = new HashSet(); // HashSet 底层是 HashMap ,利用差别的数字(hash 一样平常也不相同) // 以是存储的位置都在内部数组表上,仅模拟内部数组表的扩容 /*for (int i = 1 ; i |