【MySql】字符集与排序规则对开发有哪些影响

发表于 2021-02-28 分类于数据库
本文字数： 13k 阅读时长 ≈ 12 分钟

任何计算机存储数据，都需要字符集，因为计算机存储的数据其实都是二进制编码，将一个个字符，映射到对应的二进制编码的这个映射就是字符编码（字符集）。这些字符如何排序呢？决定字符排序的规则就是排序规则。

查看内置字符集与比较规则

通过show charset;命令，可以查看所有的字符集。
以下仅展示了我们常用的字符集：

+----------+---------------------------------+---------------------+--------+
| Charset  | Description                     | Default collation   | Maxlen |
+----------+---------------------------------+---------------------+--------+
| latin1   | cp1252 West European            | latin1_swedish_ci   |      1 |
| ascii    | US ASCII                        | ascii_general_ci    |      1 |
| gb2312   | GB2312 Simplified Chinese       | gb2312_chinese_ci   |      2 |
| cp1250   | Windows Central European        | cp1250_general_ci   |      1 |
| gbk      | GBK Simplified Chinese          | gbk_chinese_ci      |      2 |
| utf8     | UTF-8 Unicode                   | utf8_general_ci     |      3 |
| utf8mb4  | UTF-8 Unicode                   | utf8mb4_general_ci  |      4 |
| utf16    | UTF-16 Unicode                  | utf16_general_ci    |      4 |
| utf32    | UTF-32 Unicode                  | utf32_general_ci    |      4 |
+----------+---------------------------------+---------------------+--------+

ascii：共收录128个字符，包括空格、标点符号、数字、大小写字母和一些不可见字符。由于总共才128个字符，所以可以使用1个字节来进行编码
latin1：共收录256个字符，是在ASCII字符集的基础上又扩充了128个西欧常用字符(包括德法两国的字母)，也可以使用1个字节来进行编码。
gb2312: 收录了汉字以及拉丁字母、希腊字母、日文平假名及片假名字母、俄语西里尔字母。其中收录汉字6763个，其他文字符号682个，兼容ASCII字符集。这是一个变长字符集，如果该字符在ascii字符集中，则采用1字节编码，否则采用两字节。
gbk: GBK是在gb2312基础上扩容后的标准。收录了所有的中文字符。同样的，这是一个变长字符集，如果该字符在ascii字符集中，则采用1字节编码，否则采用两字节。
utf8和utf8mb4: 收录地球上能想到的所有字符，而且还在不断扩充。这种字符集兼容ASCII字符集，采用变长编码方式，编码一个字符需要使用1～4个字节。MySQL为了节省空间，其中的utf8是标准 UTF8 阉割后的，只有1~3字节编码的字符集，基本包含了所有常用的字符。如果还要使用 enoji 表情，那么需要使用utf8mb4，这个是完整的 UTF8 字符集。
utf16: 不同于utf8，utf16用两个字节或者四个字节编码字符，可以理解为utf8的不节省空间的一种形式
utf32: 固定用四个字节编码字符，可以理解为utf8的不节省空间的一种形式

通过查看information_schema.character_sets表，也可以看到所有的字符集：

mysql> select * from information_schema.character_sets where character_set_name = "utf8";
+--------------------+----------------------+---------------+--------+
| CHARACTER_SET_NAME | DEFAULT_COLLATE_NAME | DESCRIPTION   | MAXLEN |
+--------------------+----------------------+---------------+--------+
| utf8               | utf8_general_ci      | UTF-8 Unicode |      3 |
+--------------------+----------------------+---------------+--------+
1 row in set (0.06 sec)

通过show collation;命令，可以查看所有的字符集，我们这里来查看utf8mb4的排序规则：

mysql> show collation like 'utf8mb4%';
+------------------------+---------+-----+---------+----------+---------+
| Collation              | Charset | Id  | Default | Compiled | Sortlen |
+------------------------+---------+-----+---------+----------+---------+
| utf8mb4_general_ci     | utf8mb4 |  45 | Yes     | Yes      |       1 |
| utf8mb4_bin            | utf8mb4 |  46 |         | Yes      |       1 |
| utf8mb4_unicode_ci     | utf8mb4 | 224 |         | Yes      |       8 |
| utf8mb4_icelandic_ci   | utf8mb4 | 225 |         | Yes      |       8 |
| utf8mb4_latvian_ci     | utf8mb4 | 226 |         | Yes      |       8 |
| utf8mb4_romanian_ci    | utf8mb4 | 227 |         | Yes      |       8 |
| utf8mb4_slovenian_ci   | utf8mb4 | 228 |         | Yes      |       8 |
| utf8mb4_polish_ci      | utf8mb4 | 229 |         | Yes      |       8 |
| utf8mb4_estonian_ci    | utf8mb4 | 230 |         | Yes      |       8 |
| utf8mb4_spanish_ci     | utf8mb4 | 231 |         | Yes      |       8 |
| utf8mb4_swedish_ci     | utf8mb4 | 232 |         | Yes      |       8 |
| utf8mb4_turkish_ci     | utf8mb4 | 233 |         | Yes      |       8 |
| utf8mb4_czech_ci       | utf8mb4 | 234 |         | Yes      |       8 |
| utf8mb4_danish_ci      | utf8mb4 | 235 |         | Yes      |       8 |
| utf8mb4_lithuanian_ci  | utf8mb4 | 236 |         | Yes      |       8 |
| utf8mb4_slovak_ci      | utf8mb4 | 237 |         | Yes      |       8 |
| utf8mb4_spanish2_ci    | utf8mb4 | 238 |         | Yes      |       8 |
| utf8mb4_roman_ci       | utf8mb4 | 239 |         | Yes      |       8 |
| utf8mb4_persian_ci     | utf8mb4 | 240 |         | Yes      |       8 |
| utf8mb4_esperanto_ci   | utf8mb4 | 241 |         | Yes      |       8 |
| utf8mb4_hungarian_ci   | utf8mb4 | 242 |         | Yes      |       8 |
| utf8mb4_sinhala_ci     | utf8mb4 | 243 |         | Yes      |       8 |
| utf8mb4_german2_ci     | utf8mb4 | 244 |         | Yes      |       8 |
| utf8mb4_croatian_ci    | utf8mb4 | 245 |         | Yes      |       8 |
| utf8mb4_unicode_520_ci | utf8mb4 | 246 |         | Yes      |       8 |
| utf8mb4_vietnamese_ci  | utf8mb4 | 247 |         | Yes      |       8 |
+------------------------+---------+-----+---------+----------+---------+
26 rows in set (0.13 sec)

同样的，通过查询information_schema.collations也可以：

mysql> select * from information_schema.collations where character_set_name = "utf8mb4";
+------------------------+--------------------+-----+------------+-------------+---------+
| COLLATION_NAME         | CHARACTER_SET_NAME | ID  | IS_DEFAULT | IS_COMPILED | SORTLEN |
+------------------------+--------------------+-----+------------+-------------+---------+
| utf8mb4_general_ci     | utf8mb4            |  45 | Yes        | Yes         |       1 |
| utf8mb4_bin            | utf8mb4            |  46 |            | Yes         |       1 |
| utf8mb4_unicode_ci     | utf8mb4            | 224 |            | Yes         |       8 |
| utf8mb4_icelandic_ci   | utf8mb4            | 225 |            | Yes         |       8 |
| utf8mb4_latvian_ci     | utf8mb4            | 226 |            | Yes         |       8 |
| utf8mb4_romanian_ci    | utf8mb4            | 227 |            | Yes         |       8 |
| utf8mb4_slovenian_ci   | utf8mb4            | 228 |            | Yes         |       8 |
| utf8mb4_polish_ci      | utf8mb4            | 229 |            | Yes         |       8 |
| utf8mb4_estonian_ci    | utf8mb4            | 230 |            | Yes         |       8 |
| utf8mb4_spanish_ci     | utf8mb4            | 231 |            | Yes         |       8 |
| utf8mb4_swedish_ci     | utf8mb4            | 232 |            | Yes         |       8 |
| utf8mb4_turkish_ci     | utf8mb4            | 233 |            | Yes         |       8 |
| utf8mb4_czech_ci       | utf8mb4            | 234 |            | Yes         |       8 |
| utf8mb4_danish_ci      | utf8mb4            | 235 |            | Yes         |       8 |
| utf8mb4_lithuanian_ci  | utf8mb4            | 236 |            | Yes         |       8 |
| utf8mb4_slovak_ci      | utf8mb4            | 237 |            | Yes         |       8 |
| utf8mb4_spanish2_ci    | utf8mb4            | 238 |            | Yes         |       8 |
| utf8mb4_roman_ci       | utf8mb4            | 239 |            | Yes         |       8 |
| utf8mb4_persian_ci     | utf8mb4            | 240 |            | Yes         |       8 |
| utf8mb4_esperanto_ci   | utf8mb4            | 241 |            | Yes         |       8 |
| utf8mb4_hungarian_ci   | utf8mb4            | 242 |            | Yes         |       8 |
| utf8mb4_sinhala_ci     | utf8mb4            | 243 |            | Yes         |       8 |
| utf8mb4_german2_ci     | utf8mb4            | 244 |            | Yes         |       8 |
| utf8mb4_croatian_ci    | utf8mb4            | 245 |            | Yes         |       8 |
| utf8mb4_unicode_520_ci | utf8mb4            | 246 |            | Yes         |       8 |
| utf8mb4_vietnamese_ci  | utf8mb4            | 247 |            | Yes         |       8 |
+------------------------+--------------------+-----+------------+-------------+---------+
26 rows in set (0.11 sec)

每个字符集都有一个默认的排序规则：IS_DEFAULT 为 Yes。
比较规则名称以与其关联的字符集的名称开头，可以用通过这个开头查询所有的字符集，也可以查询information_schema.collations精确指定字符集
字符集后面跟着的是语言编码，因为utf8mb4包含了所有字符，不同国家的文字语言排序肯定不一样。
最后末尾的ci代表case insensitive，大小写不敏感，所有可能的后缀如下所示：
- ai: accent insensitive 不区分重音
- as: accent sensitive 区分重音
- ci: case insensitive 不区分大小写
- cs: case sensitive 区分大小写
- bin: binary 以二进制方式比较

应用字符集与比较规则

字符集与比较规则配置有四个级别：

MySQL实例级别
库级别
表级别
字段级别
指定的级别粒度越小，则以粒度越小的字符集还有比较规则优先。例如指定MySQL实例级别字符集是utf8mb4，指定某个表字符集是latin1，那么这个表的所有字段如果不指定的话，编码就是latin1

由于字符集和比较规则是互相有联系的，如果我们只修改了字符集，比较规则也会跟着变化，如果只修改了比较规则，字符集也会跟着变化，具体规则如下：

只修改字符集，则比较规则将变为修改后的字符集默认的比较规则。
只修改比较规则，则字符集将变为修改后的比较规则对应的字符集。

实例级别

通过两个系统变量来指定实例级别的字符集与排序规则。

配置文件：

[server]
character_set_server=utf8mb4
collation_server=utf8mb4_general_ci

启动之后，可以查看并修改这两个变量。

mysql>  show variables like 'character_set_server';
+----------------------+---------+
| Variable_name        | Value   |
+----------------------+---------+
| character_set_server | utf8mb4 |
+----------------------+---------+
1 row in set (0.06 sec)

mysql> show variables like 'collation_server';
+------------------+--------------------+
| Variable_name    | Value              |
+------------------+--------------------+
| collation_server | utf8mb4_general_ci |
+------------------+--------------------+
1 row in set (0.05 sec)

mysql> set character_set_server = 'utf8mb4';
Query OK, 0 rows affected (0.00 sec)

mysql> set collation_server = 'utf8mb4_general_ci';
Query OK, 0 rows affected (0.00 sec)

库级别

创建数据库的时候，可以指定字符集还有排序规则。

1
2
3

mysql> create database test_db character set utf8mb4 collate utf8mb4_general_ci;
Query OK, 1 row affected (0.01 sec)

不指定的话，就用实例级别的字符集还有排序规则。

查看当前数据库的字符集还有排序规则则是通过use命令指定数据库之后，查看character_set_database变量以及collation_database 来实现：

mysql> show variables like 'character_set_database';
+------------------------+---------+
| Variable_name          | Value   |
+------------------------+---------+
| character_set_database | utf8mb4 |
+------------------------+---------+
1 row in set (0.07 sec)

mysql> show variables like 'collation_database';
+--------------------+--------------------+
| Variable_name      | Value              |
+--------------------+--------------------+
| collation_database | utf8mb4_general_ci |
+--------------------+--------------------+
1 row in set (0.09 sec)

就算设置这两个变量，也是无效的：

mysql> set character_set_database = 'utf8';
Query OK, 0 rows affected (0.00 sec)

mysql> show variables like 'character_set_database';
+------------------------+---------+
| Variable_name          | Value   |
+------------------------+---------+
| character_set_database | utf8mb4 |
+------------------------+---------+
1 row in set (0.09 sec)

修改数据库的字符集还有排序规则的方式：

mysql> alter database test_db character set = 'utf8';
Query OK, 1 row affected (0.01 sec)

mysql> show variables like 'character_set_database';
+------------------------+-------+
| Variable_name          | Value |
+------------------------+-------+
| character_set_database | utf8  |
+------------------------+-------+
1 row in set (0.08 sec)

这个更新只会对新建的表如果没指定字符集和排序规则的生效，并不会更新老表的字符集还有排序规则。

表级别

可以在创建时指定字符集合排序规则，不指定的话，用数据库的字符集还有排序规则，也可以修改字符集和排序规则。


mysql> create table test (name varchar(32)) character set utf8mb4 collate utf8mb4_bin;
Query OK, 0 rows affected (0.04 sec)

mysql> show create table test;
+-------+---------------------------------------------------------------------------------------------------------------------------------------+
| Table | Create Table                                                                                                                          |
+-------+---------------------------------------------------------------------------------------------------------------------------------------+
| test  | CREATE TABLE `test` (
  `name` varchar(32) COLLATE utf8mb4_bin DEFAULT NULL
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_bin |
+-------+---------------------------------------------------------------------------------------------------------------------------------------+
1 row in set (0.09 sec)

mysql> alter table test character set = 'utf8';
Query OK, 0 rows affected (0.02 sec)
Records: 0  Duplicates: 0  Warnings: 0

mysql> show create table test;
+-------+--------------------------------------------------------------------------------------------------------------------------------------+
| Table | Create Table                                                                                                                         |
+-------+--------------------------------------------------------------------------------------------------------------------------------------+
| test  | CREATE TABLE `test` (
  `name` varchar(32) CHARACTER SET utf8mb4 COLLATE utf8mb4_bin DEFAULT NULL
) ENGINE=InnoDB DEFAULT CHARSET=utf8 |
+-------+--------------------------------------------------------------------------------------------------------------------------------------+
1 row in set (0.06 sec)

可以看出，仅仅是表的字符集还有排序规则变了，对于已有字段，并没有改变编码和排序规则。

列级别

可以在创建表的时候，指定不同的列有不同的字符集和排序规则，也可以修改列的字符集和排序规则：

mysql> create table test (name varchar(32) character set utf8 collate utf8_bin) character set utf8mb4 collate utf8mb4_bin;
Query OK, 0 rows affected (0.03 sec)

mysql> show create table test;
+-------+-------------------------------------------------------------------------------------------------------------------------------------------------------+
| Table | Create Table                                                                                                                                          |
+-------+-------------------------------------------------------------------------------------------------------------------------------------------------------+
| test  | CREATE TABLE `test` (
  `name` varchar(32) CHARACTER SET utf8 COLLATE utf8_bin DEFAULT NULL
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_bin |
+-------+-------------------------------------------------------------------------------------------------------------------------------------------------------+
1 row in set (0.09 sec)

mysql> alter table test modify column name  varchar(32) COLLATE latin1_bin;
Query OK, 0 rows affected (0.09 sec)
Records: 0  Duplicates: 0  Warnings: 0

mysql> show create table test;
+-------+-----------------------------------------------------------------------------------------------------------------------------------------------------------+
| Table | Create Table                                                                                                                                              |
+-------+-----------------------------------------------------------------------------------------------------------------------------------------------------------+
| test  | CREATE TABLE `test` (
  `name` varchar(32) CHARACTER SET latin1 COLLATE latin1_bin DEFAULT NULL
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_bin |
+-------+-----------------------------------------------------------------------------------------------------------------------------------------------------------+
1 row in set (0.09 sec)

MySQL客户端字符编码问题

有时候，我们会遇到字符编码不一致导致的程序问题。例如我们的 Java 程序，使用 jdbc 链接。读取的数据，打印出来是乱码。或者是，MySQL 无法识别我们客户端发来的命令。这涉及到字符编码问题。我们需要保持 Java 程序的字符编码与 JDBC 链接指定的字符编码一致，这样才不会有乱码的问题。

指定 Java 程序编码：通过启动参数：-Dfile.encoding=UTF-8 设置默认的字符编码（java.nio.charset.Charset.defaultCharset();）是utf-8（对应 MySQL 的utf8还有utf8mb4）。

指定 JDBC 链接编码：

1 2	jdbc:mysql://127.0.0.1:3306/test?characterEncoding=utf8

mysql客户端命令行指定字符集

1 2	mysql -h 127.0.0.1 -P 3306 -u root --default-character-set=utf8mb4 -p

之后查看有关编码的环境变量，都是和设置的这个字符集一样。

mysql> SHOW VARIABLES LIKE 'character_set_client';
+----------------------+---------+
| Variable_name        | Value   |
+----------------------+---------+
| character_set_client | utf8mb4 |
+----------------------+---------+
1 row in set, 1 warning (0.00 sec)

mysql> SHOW VARIABLES LIKE 'character_set_connection';
+--------------------------+---------+
| Variable_name            | Value   |
+--------------------------+---------+
| character_set_connection | utf8mb4 |
+--------------------------+---------+
1 row in set, 1 warning (0.00 sec)

mysql> SHOW VARIABLES LIKE 'character_set_results';
+-----------------------+---------+
| Variable_name         | Value   |
+-----------------------+---------+
| character_set_results | utf8mb4 |
+-----------------------+---------+
1 row in set, 1 warning (0.00 sec)

其中：

character_set_client: 服务器解码请求时使用的字符集
character_set_connection：服务器处理请求时将字符集转换成这个字符集处理。操作具体列时，在转换为具体列的编码。
character_set_results:服务器向客户端返回数据时使用的字符集

MySQL 设计这三个编码的时候，出于以下考虑：

一个 MySQL，可能有多种不同语言和操作系统或者国家的客户端，所以通过设置character_set_client还有character_set_results进行兼容。
由于操作具体列数据的时候需要编码转换，如果character_set_connection和字段一致的话，就不用转换了，所以设置character_set_connection可以让 MySQL 用一种编码理解命令统一处理，同时设置character_set_connection为最常用的可以减少转换。

一般情况下，保持这三个一致就好。我们就设置好连接使用的字符集就行了。

【CRON】表达式速成指南

发表于 2021-02-14
本文字数： 1.5k 阅读时长 ≈ 1 分钟

https://www.quchao.net/Crontab.html

前言

最近随着某些羊毛软件日益繁多，接触CRON 表达式也很频繁，很多人其实并不是很了解 CRON，也有人经常问我，在这里就给大家讲解一下如何写 CRON 表达式，当然如果你感觉浪费时间枯燥无味，也可以直接用下面我写的例子直接修改为自己的，指南分为速成版跟进阶版，根据需要进行阅读。

介绍

Linux Crontab是用来定期执行程序的命令。

当安装完成操作系统之后，默认便会启动此任务调度命令。

Crond 命令每分钟会定期检查是否有要执行的工作，如果有要执行的工作便会自动执行该工作。

速成

表达式有好几种字段规范，如：Quantumult X(俗称“圈X”)支持 5 位或 6 位，他们的区别就是有没有秒的支持（6位左面第一个就是秒，5位就是左面第一位是分），以此往前类推 秒分时日月_周(礼拜几），所以最大值应该是59秒 59分 23点 31日 12月 7礼拜天。

# 五位说明：
*    *    *    *    *
-    -    -    -    -
|    |    |    |    |
|    |    |    |    +----- 星期
|    |    |    +---------- 月份
|    |    +--------------- 日
|    +-------------------- 时
+------------------------- 分

# 六位说明：
*    *    *    *    *    *
-    -    -    -    -    -
|    |    |    |    |    |
|    |    |    |    |    +----- 星期
|    |    |    |    +---------- 月份
|    |    |    +--------------- 日
|    |    +-------------------- 时
|    +------------------------- 分
+------------------------------ 秒

# 实例：
*/4 7-22/1 * * *    # 每天7-22点 每4分钟执行一次
*/4 * * * *         # 全天4分钟一次
*/14 * * * *        # 全天14分钟执行一次
1 0 * * *           # 每天 0点1分执行
0 9 * * *           # 每天9点执行
0 9,12,18 * * *     # 每天9点 12点 18点分别执行一次
0 0-16/8 * * *      # 每天0点 8点 16点各一次
30 18 * * *         # 每天18点30分
10 */4 * * *        # 每天每4小时10分执行一次
1 2 1,8,16,24/1 * * # 每月1 8 16 24日 凌晨2点1分执行
0 * * * *           # 每1小时执行一次

高阶

字段	是否必填	允许值	允许特殊字符	备注
秒	是	0–59	*``,``-	标准实现不支持此字段。
分钟	是	0–59	*``,``-
小时	是	0–23	*``,``-
日	是	1–31	*``,``-``?``L``W	?``L``W只有部分软件实现了
月	是	1–12 or JAN–DEC	*``,``-
星期	是	0–7 or SUN–SAT	*``,``-``?``L``#	?``L``#只有部分软件实现了
Linux和Spring的允许值为0-7，0和7为周日
Quartz的允许值为1-7，1为周日
年份	否	1970–2099	*``,``-	标准实现不支持此字段。

标准字段

逗号用于分隔列表。例如，在第5个字段(星期几)中使用 MON,WED,FRI 表示周一、周三和周五。

连字符定义范围。例如，2000-2010 表示2000年至2010年期间的每年，包括2000年和2010年。

除非用反斜杠()转义，否则命令中的百分号(%)会被替换成换行符，第一个百分号后面的所有数据都会作为标准输入发送给命令。

结语

最后附上在线执行工具，如果你不确定表达式的写法，或者无法解读，把 CRON 表达式贴上确定一下。 https://tool.lu/crontab
网友分享 https://crontab.guru/

【CSharp】集合去重Distinct

发表于 2021-01-11 分类于编程路上
本文字数： 3.2k 阅读时长 ≈ 3 分钟

转自：https://www.cnblogs.com/CreateMyself/p/12863407.html

前言

关于C#中默认的Distinct方法在什么情况下才能去重，这个就不用我再多讲，针对集合对象去重默认实现将不再满足，于是乎我们需要自定义实现来解决这个问题，接下来我们详细讲解几种常见去重方案，孰好孰歹自行判之。

分组

首先给出我们需要用到的对象，如下：

public class Person
{
    public string Name { get; set; }
    public int Age { get; set; }
}

接下来我们添加100万条数据到集合中，如下：

var list = new List<Person>();
for (int i = 0; i < 1000000; i++)
{
    list.Add(new Person() { Age = 18, Name = "jeffcky" });
}

接下来我们对年龄和名称进行分组，然后取第一条即可达到去重，如下：

1
2
3

list = list.GroupBy(d => new { d.Age, d.Name })
    .Select(d => d.FirstOrDefault())
    .ToList();

扩展方法（HashSet去重）

我们知道在C#中HashSet对于重复元素会进行过滤筛选，所以我们写下如下扩展方法，遍历集合元素，最后利用HashSet进行过滤达到去重目的，如下：

public static IEnumerable<TSource> Distinct<TSource, TKey>(
        this IEnumerable<TSource> source,
        Func<TSource, TKey> keySelector)
{
    var hashSet = new HashSet<TKey>();
    
    foreach (TSource element in source)
    {
        if (hashSet.Add(keySelector(element)))
        {
            yield return element;
        }
    }
}

最后调用上述扩展方法即可去重，如下：

1	list = list.Distinct(d => new { d.Age, d.Name }).ToList();

扩展方法（IEqualityComparer去重）

在实际项目中有很多通过具体实现类实现该接口，通过重写Equals和HashCode比较属性值来达到去重目的，因为对于每一个类都得实现对应比较器，所以并不通用，反而利用上述方式才是最佳，其实我们大可借助该比较接口实现通用解决方案，对于每一个类都得实现一个比较器的原因在于，我们将属性比较放在类该接口内部，如果我们将属性比较放在外围呢，这个时候就达到了通用解决方案，那么我们怎么实现呢，通过委托来实现，实现该接口的本质无非就是比较HashCode，然后通过Equals比较其值，当比较HashCode时，我们强制其值为一个常量（比如0），当重写Equals方法我们调用委托即可，如下：

public static class Extensions
{
    public static IEnumerable<T> Distinct<T>(
        this IEnumerable<T> source, Func<T, T, bool> comparer)
        where T : class
        => source.Distinct(new DynamicEqualityComparer<T>(comparer));

    private sealed class DynamicEqualityComparer<T> : IEqualityComparer<T>
        where T : class
    {
        private readonly Func<T, T, bool> _func;

        public DynamicEqualityComparer(Func<T, T, bool> func)
        {
            _func = func;
        }

        public bool Equals(T x, T y) => _func(x, y);

        public int GetHashCode(T obj) => 0;
    }
}

最终通过指定属性进行比较即可去重，如下：

1	list = list.Distinct((a, b) => a.Age == b.Age && a.Name == b.Name).ToList();

性能比较

以上3种常见方式我们已经介绍完毕了，当数据量比较小时，我们大可忽略对集合进行各种操作所带来的性能，但是一旦数据量很大时，我们可能需要考虑性能，能节省一点时间或许有必要，于是乎，在上述100万条数据前提下，我们来分析其耗时情况，如下：

var list = new List<Person>();
for (int i = 0; i < 1000000; i++)
{
    list.Add(new Person() { Age = 18, Name = "jeffcky" });
}

var time1 = Time(() =>
{
    list.GroupBy(d => new { d.Age, d.Name })
        .Select(d => d.FirstOrDefault())
        .ToList();
});
Console.WriteLine($"分组耗时：{time1}");

var time2 = Time(() =>
{
    list.Distinct(d => new { d.Age, d.Name }).ToList();
});
Console.WriteLine($"HashSet耗时：{time2}");

var time3 = Time(() =>
{
    list.Distinct((a, b) => a.Age == b.Age && a.Name == b.Name).ToList();
});
Console.WriteLine($"委托耗时：{time3}");


static long Time(Action action)
{
    var stopwatch = new Stopwatch();
    stopwatch.Start();
    action();
    stopwatch.Stop();
    return stopwatch.ElapsedMilliseconds;
}

总结

上述结果耗时大小比较理论应该不会出现逆转的情况，只是多少的问题，数据量较少时理论上差异也很明显，本文对于去重方式只是基于性能角度来分析，还是那句话大部分情况下，我们完全不需要考虑这些问题，不过，作为程序员的我们可能也想写出高性能、高质量的代码吧，有时候多考虑考虑也无妨，对自身有个好的代码质量要求也未尝不可，也还是那句话，孰好孰歹，自行判之。