C#集合数据去重的5种方式及对比分析

2025-03-25 14:07 开发作者：追逐时光者

BenchmarkDotNet介绍

BenchmarkDotNet是一个基于.NET开源、功能全面、易于使用的性能基准测试框架，它为.NET开发者提供了强大的性能评估和优化能力。通过自动化测试、多平台支持、高级统计分析和自定义配置等特性，BenchmarkDotNet帮助开发者更好地理解和优化软件系统的性能表现。

使用HashSet去重

C# 中的 HashSet 是一种集合类型，它确保其中的元素是唯一的，不允许重复值的存在。当你尝试向 HashSet 中添加一个重复的元素时，HashSet 会忽略重复的值，而不会引发错误。这使得 HashSet 成为一个非常方便的数据结构，用于存储一组唯一的元素，并且在需要时可以高效地进行查找、插入和删除操作，注意HashSet中的元素是无序的。

        /// <summary>
        /// 使用HashSet去重
        /// TODO:HashSet是一个集合类，它的特点是不允许重复元素，可以方便地实现去重功能。
        /// </summary>
        public static void HashSetDuplicate()
        {
            var dataSource = new List<int>() { 1, 2, 3, 2, 5, 88, 99, 99, 100, 88, 30, 50, 15, 100, 99, 99, 2, 3 };
            HashS编程et<int> uniqueData = new HashSet<int>(dataSource);

            Console.WriteLine(string.Join(", ", uniqueData));
        }

使用循环遍历去重

        /// <summary>
        /// 直接循环遍历去重
        /// </summary>
        public static void LoopTraversalDuplicate()
        {
            var dataSource = new List<int>() { 1, 2, 3, 2, 5, 88, 99, 99, 100, 88, 30, 50, 15, 100, 99, 99, 2, 3 };
            var uniqueData = new List<int>();
            foreach (var item in dataSource)
            {
                //if (!uniqueData.Any(x => x == item))
                //if (!uniqueData.Exists(x => x == item))
                if (!uniqueData.Contains(item))
                {
                    uniqueData.Add(item);
                }
            }
            Console.WriteLine(string.Join(", ", uniqueData));
        }

使用Linq的Distinct()方法去重

Linq中的Distinct()方法用于从集合中筛选出不重复的元素。Distinct()方法基于元素的相等性来进行筛选，并返回一个包含不重复元素的新序列。底层实现还是使用到了HashSet。

        /// <summary>
        /// 使用Linq的Distinct()方法去重
        /// </summary>
        public static void DistinctDuplicate()
        {
            var dataSource = new List<int>() { 1, 2, 3, 2, 5, 88, 99, 99, 100, 88, 30, 50, 15, 100, 99, 99, 2, 3 };
            var uniqueData = dataSource.Distinct().ToList();

            Console.WriteLine(string.Join(", ", uniqueData));
        }

使用Linq的GroupBy()方法去重

GroupBy()方法将原始集合中的元素进行分组，根据指定的键或条件进行分组。每个分组都会有一个唯一的键，通过将原始集合分组并选择每个分组中的第一个元素，实现了去重的效果。

        /// <summary>
        /// 使用Linq的GroupBy()方法去重
        /// </summary>
        public static void GroupByDuplicate()
        {
            var dataSource = new List<int>() { 1, 2, 3, 2, 5, 88, 99, 99, 100, 88, 30, 50, 15, 100, 99, 99, 2, 3 };

            //GroupBy()方法将原始集合中的元素进行分组，根据指定的键或条件进行分组。每个分组都会有一个唯一的键，通过将原始集合分组并选择每个分组中的第一个元素，实现了去重的效果。
            var uniqueData = dataSource.GroupBy(item => item).Select(group => group.First()).ToList();

            Console.WriteLine(string.Join(", ", uniqueData));
        }

使用自定义的比较器和循环遍历

        /// <summary>
        /// 使用自定义的比较器和循环遍历
        /// </summary>
       python public static void CustomEqualityComparerDuplicate()
        {
            var dataSource = new List<int>() { 1, 2, 3, 2, 5, 88, 99, 99, 100, 88, 30, 50, 15, 100, 99, 99, 2, 3 };
            var uniqueData = new List<int>();
            foreach (var item in dataSource)
            {
                if (!uniqueData.Contains(item, new CustomEqualityComparer()))
                {
                    uniqueData.Add(item);
                }
            }
            Console.WriteLine(string.Join(", ", uniqueData));
        }

        /// <summary>
        /// 自定义的比较器
        /// </summary>
        public class CustomEqualityComparer : IEqualityComparer<int>
        {
            public bool Equals(int x, int y)
            {
                return x == y;
            }

            public int GetHashCode(int obj)
            {
                return obj.GetHashCode();
            }
        }

性能基准对比测试分析

接下来我们使用BenchmarkDotNet对这5种集合去重的方式进行性能基准对比测试分析。

测试代码

using BenchmarkDotNet.Attributes;

namespace BenchmarkDotNetExercise
{
    [MemoryDiagnoser]//记录内存分配情况
    public class DataSetDeduplicationBenchmark
    {
        private List<int> dataSource;

        public DataSetDeduplicationBenchmark()
        {
            // 生成大量重复数据  
            dataSource = Enumerable.Repeat(Enumerable.Range(1, 100), 10000).SelectMany(x => x).ToList();
        }

        /// <summary>
        /// 使用HashSet去重
        /// TODO:HashSet是一个集合类，它的特点是不允许重复元素，可以方便地实现去重功能。
        /// </summary>
        [Benchmark]
        public void HashSetDuplicate()
        {
            HashSet<int> uniqueData = new HashSet<int>(dataSource);
        }

        /// <summary>
        /// 直接循环遍历去重
        /// </summary>
        [Benchmark]
        public void LoopTraversalDuplicate()
        {
            var uniqueData = new List<int>();
            foreach (var item in dataSource)
            {
                //if (!uniqueData.Any(x => x == item))
                //if (!uniqueData.Exists(x => x == item))
                if (!uniqueData.Contains(item))
                {
                    uniqueData.Add(item);
                }
            }
        }

        /// <summary>
        /// 使用Linq的Distinct()方法去重
        /// </summary>
        [Benchmark]
        public void DistinctDuplicate()
        {
            var uniqueData = dataSource.Distinct().ToList();
        }

        /// <summary>
        /// 使用Linq的GroupBy()方法去重
        /// </summary>
        [Benchmark]
        public void GroupByDuplicate()
        {
            //GroupBy()方法将原始集合中的元素进行分组，根据指定的键或条件进行分组。每个分组都会有一个唯一的键，通过将原始集合分组并选择每个分组中的第一个元素，实现了去重的效果。
            var uniqueData = dataSource.GroupBy(item => item).Select(group => group.First()).ToList();
        }

        /// <summary>
        /// 使用自定义的比较器和循环遍历
        /// </summary>
        [Benchmark]
        public void CustomEqualityComparerDuplicate()
        {
            var uniqueData = new List<int>();
            foreach (var item in dataSource)
            {
                if (!uniqueData.Contains(item, new CustomEqualityComparer()))
                {
                    uniqueData.Add(item);
                }
            }
        }

        /// <summary>
        /// 自定义的比较器
        /// </summary>
        public class CustomEqualityComparer : IEqualityComparer<int>
        {
            public bool Equals(int x, int y)
            {
                return x == y;
            }

            public int GetHashCode(int obj)
            {http://www.devze.com
                return obj.GetHashCode();
            }
        }
    }
}

分析生成的报告

C#集合数据去重的5种方式及对比分析

Method	Mean	Error	StdDev	Gen0	Gen1	Gen2	Allocated
HashSetDuplicate	7.043 ms	0.0546 ms	0.0511 ms	343.7500	343.7500	343.7500	18169.63 KB
LoopTraversalDuplicate	7.385 ms	0.0309 ms	0.0274 ms	-	-	-	1.16 KB
DistinctDuplicate	7.034 ms	0.0497 ms	0.0465 ms	343.7500	343.7500	343.7500	18170.1 KB
GroupByDuplicate	12.685 ms	0.1025 ms	0.0958 ms	2265.6250	1781.2500	515.6250	12843.65 KB
CustomEqualityComparerDuplicate编程客栈	25.608 ms	0.1826 ms	0.1708 ms	3812.5000	-	-	23438.68 KB

说明：

Mean: 所有测量值的算术平均值。
Error: 99.9% 置信区间的一半。
StdDev: 所有测量值的标准差。
Gen0: 第 0 代 GC 每 1000 次操作收集一次。
Gen1: 第 1 代 GC 每 1000 次操作收集一次。
Gen2: 第 2 代 GC 每 1000 次操作收集一次。
Allocated: 每次操作分配的内存（仅托管内存，包含所有内容，1KB = 1024B）。
1 ms: 1 毫秒（0.001 秒）。

以上就是C#集合数据去重的5种方式及对比分析的详细内容，更多关于C#集合数据去重的资料请关注编程客栈(www.devze.com)其它相关文章！

继续阅读：C#数据去重 C#集合 C#集合数据去重 C#集合数据去重的方式

C#集合数据去重的5种方式及对比分析

目录

BenchmarkDotNet介绍

使用HashSet去重

使用循环遍历去重

使用Linq的Distinct()方法去重

使用Linq的GroupBy()方法去重

使用自定义的比较器和循环遍历

性能基准对比测试分析

测试代码

分析生成的报告

更多精彩内容

精彩评论

最新开发

C++ JSON库nlohmann指南

Go语言中数据压缩与解压的实现

C++使用nlohmann/json库解析和处理JSON数据的操作指南

C++中protected，private，public三者的区别详解

C++标准库中的Stack(堆栈)和Queue(队列)详解

开发排行榜

springboot后端存储富文本内容的思路与步骤(含图片内容)

PyCharm运行python测试,报错“没有发现测试”/“空套件”的解决

return base64.b64encode(b).decode(

基于C语言实现钻石棋游戏的示例代码

Sublime Text 3解决中文乱码问题（实测可用）