Java 和 C# 的 HashSet 处理数组上的异同

本文揭示了Java和C#中HashSet处理int[]和ArrayList的不同之处,Java利用ArrayList元素的HashCode求和导致对象被视为同一,而C#默认使用内存地址。理解这一差异有助于优化数据去重和集合操作。

开发板推荐:天空星STM32F407VET6开发板

超高性价比 STM32主控 | 超高主频 | 一板兼容百芯 | 比赛神器 | 沉金彩色丝印

最近在做算法题的时候发现同样是使用 HashSet,Java 的解法有效但是 c# 的解法就是错的。问题就出在 List 类型的 HashCode 的计算上。我们来看下面的 Java 和 C# 代码的输出结果:

Java 使用 HashSet 存储 int[] 以及 ArrayList:

public class ArrayHashsetTest {
    public static void Run()
    {
    	// int arrays
        int[] nums1 = {1, 2, 3};
        int[] nums2 = {1, 2, 3};

        HashSet<int[]> arraySet = new HashSet<>();

        arraySet.add(nums1);
        arraySet.add(nums2);

        System.out.println(String.format("Int arrays in hash set: %d", arraySet.size()));

		// array lists
        ArrayList<Integer> list1 = new ArrayList<>(List.of(1, 2, 3));
        ArrayList<Integer> list2 = new ArrayList<>(List.of(1, 2, 3));

        HashSet<ArrayList> listSet = new HashSet<>();
        listSet.add(list1);
        listSet.add(list2);

        System.out.println(String.format("Array lists in hash set: %d", listSet.size()));
    }
}

运行结果:
在这里插入图片描述
C# 的 HashSet 存储 int[] 以及 List 的代码:

class ArrayHashsetTest
    {
        public static void Run()
        {
            int[] nums1 = new int[] { 1, 2, 3 };
            int[] nums2 = new int[] { 1, 2, 3 };

            HashSet<int[]> arraySet = new HashSet<int[]>();

            arraySet.Add(nums1);
            arraySet.Add(nums2);

            Console.WriteLine($"Arrays in hash set: {arraySet.Count}");

            List<int> list1 = new List<int>(nums1);
            List<int> list2 = new List<int>(nums2);

            HashSet<List<int>> listSet = new HashSet<List<int>>();

            listSet.Add(list1);
            listSet.Add(list2);

            Console.WriteLine($"Lists in hash set: {listSet.Count}");

        }
    }

运行结果:

在这里插入图片描述

分析

存储两个的 int[] {1, 2, 3} Java 和 c# 的 HashSet 都认为存储了两个不同的对象。但是存储两个 list {1, 2, 3} Java 的 HashSet 认为只存储了一个,而 c# 认为存储了2个。HashSet 只会存储不同的对象在集合中。同样是 list {1, 2, 3} 是什么让 Java 的 HashSet 认为对象是相同的。

我们来看看 ArrayList 的 HashCode 算法:

public int hashCode() {
    int expectedModCount = modCount;
    int hash = hashCodeRange(0, size);
    checkForComodification(expectedModCount);
    return hash;
}

int hashCodeRange(int from, int to) {
    final Object[] es = elementData;
    if (to > es.length) {
        throw new ConcurrentModificationException();
    }
    int hashCode = 1;
    for (int i = from; i < to; i++) {
        Object e = es[i];
        hashCode = 31 * hashCode + (e == null ? 0 : e.hashCode());
    }
    return hashCode;
}

我们可以看到 ArrayList 的 HashCode 的是由它存储的元素的 HashCode 求和算出来的,也就是说对于 {1, 2, 3} 它们每次的 HashCode 之和肯定是一样的。这就是为什么虽然是两个不同的 ArrayList 但是只要他们存储的内容相同,HashSet 就会认为它们相同。

我没有在 c# 的 list 源码中找到 HashCode 算法,c# list 没有重写 HashCode 所以它还是使用的内存地址来比较两个对象的异同,即使它们存储的对象的值是相同的。

总结

Java 的 ArrayList 因为使用了子元素的 HashCode 之和来算出自己的 HashCode 所以只要子元素都相同,HashSet 就会只存储一个 ArrayList 对象。这有助于我们使用 HashSet 自动清除相同的对象,哪怕是数组对象,而 c# 的 list 即使存储的元素相同,HashSet 也不能区分对象的异同,所以我们不能使用 c# 的 HashSet 来保存唯一的数组对象。

参考

C# List 源码
本文中的 c# 代码
本文中的 Java 代码

开发板推荐:天空星STM32F407VET6开发板

超高性价比 STM32主控 | 超高主频 | 一板兼容百芯 | 比赛神器 | 沉金彩色丝印

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

surfirst

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值