最近在做算法题的时候发现同样是使用 HashSet,Java 的解法有效但是 c# 的解法就是错的。问题就出在 List 类型的 HashCode 的计算上。我们来看下面的 Java 和 C# 代码的输出结果:
Java 使用 HashSet 存储 int[] 以及 ArrayList:
public class ArrayHashsetTest {
public static void Run()
{
// int arrays
int[] nums1 = {1, 2, 3};
int[] nums2 = {1, 2, 3};
HashSet<int[]> arraySet = new HashSet<>();
arraySet.add(nums1);
arraySet.add(nums2);
System.out.println(String.format("Int arrays in hash set: %d", arraySet.size()));
// array lists
ArrayList<Integer> list1 = new ArrayList<>(List.of(1, 2, 3));
ArrayList<Integer> list2 = new ArrayList<>(List.of(1, 2, 3));
HashSet<ArrayList> listSet = new HashSet<>();
listSet.add(list1);
listSet.add(list2);
System.out.println(String.format("Array lists in hash set: %d", listSet.size()));
}
}
运行结果:

C# 的 HashSet 存储 int[] 以及 List 的代码:
class ArrayHashsetTest
{
public static void Run()
{
int[] nums1 = new int[] { 1, 2, 3 };
int[] nums2 = new int[] { 1, 2, 3 };
HashSet<int[]> arraySet = new HashSet<int[]>();
arraySet.Add(nums1);
arraySet.Add(nums2);
Console.WriteLine($"Arrays in hash set: {arraySet.Count}");
List<int> list1 = new List<int>(nums1);
List<int> list2 = new List<int>(nums2);
HashSet<List<int>> listSet = new HashSet<List<int>>();
listSet.Add(list1);
listSet.Add(list2);
Console.WriteLine($"Lists in hash set: {listSet.Count}");
}
}
运行结果:

分析
存储两个的 int[] {1, 2, 3} Java 和 c# 的 HashSet 都认为存储了两个不同的对象。但是存储两个 list {1, 2, 3} Java 的 HashSet 认为只存储了一个,而 c# 认为存储了2个。HashSet 只会存储不同的对象在集合中。同样是 list {1, 2, 3} 是什么让 Java 的 HashSet 认为对象是相同的。
我们来看看 ArrayList 的 HashCode 算法:
public int hashCode() {
int expectedModCount = modCount;
int hash = hashCodeRange(0, size);
checkForComodification(expectedModCount);
return hash;
}
int hashCodeRange(int from, int to) {
final Object[] es = elementData;
if (to > es.length) {
throw new ConcurrentModificationException();
}
int hashCode = 1;
for (int i = from; i < to; i++) {
Object e = es[i];
hashCode = 31 * hashCode + (e == null ? 0 : e.hashCode());
}
return hashCode;
}
我们可以看到 ArrayList 的 HashCode 的是由它存储的元素的 HashCode 求和算出来的,也就是说对于 {1, 2, 3} 它们每次的 HashCode 之和肯定是一样的。这就是为什么虽然是两个不同的 ArrayList 但是只要他们存储的内容相同,HashSet 就会认为它们相同。
我没有在 c# 的 list 源码中找到 HashCode 算法,c# list 没有重写 HashCode 所以它还是使用的内存地址来比较两个对象的异同,即使它们存储的对象的值是相同的。
总结
Java 的 ArrayList 因为使用了子元素的 HashCode 之和来算出自己的 HashCode 所以只要子元素都相同,HashSet 就会只存储一个 ArrayList 对象。这有助于我们使用 HashSet 自动清除相同的对象,哪怕是数组对象,而 c# 的 list 即使存储的元素相同,HashSet 也不能区分对象的异同,所以我们不能使用 c# 的 HashSet 来保存唯一的数组对象。

本文揭示了Java和C#中HashSet处理int[]和ArrayList的不同之处,Java利用ArrayList元素的HashCode求和导致对象被视为同一,而C#默认使用内存地址。理解这一差异有助于优化数据去重和集合操作。

197

被折叠的 条评论
为什么被折叠?



