unicode与UTF-8

原创于 2026-04-23 14:48:05 发布 · 369 阅读

本内容遵循CC 4.0 BY-SA版权协议

一、Unicode 和 UTF-8

准确地说，Unicode 和 UTF-8 不是同一层面的东西，它们不是“另一个编码”的并列关系，而是“标准”与“实现”的从属关系。

一个更精准的比喻是：Unicode 是“字典”，而 UTF-8 是“翻译员”。

Unicode 本身只是一个字符集（Character Set）。它的工作是：

例如，它规定了：

但请注意，Unicode 只负责定义这些编号，它并不规定这些编号在计算机里具体怎么存储。就像字典只告诉你每个词的意思，但没告诉你怎么把这些词写成电报码发出去。

UTF-8 是 Unicode 的一种编码方案（Encoding Scheme）。它的工作是：

充当“翻译员”，将 Unicode 字典里的“码点”翻译成计算机能存储和传输的字节序列。
它采用了一种非常聪明的“变长”策略，核心特点是兼容 ASCII 且节省空间：
1. 英文字符：只用 1个字节，和古老的 ASCII 编码完全一样，实现了无缝兼容。
2. 常用汉字：通常用 3个字节。
3. 生僻字、Emoji：会用 4个字节。

所以，UTF-8 是“如何使用 Unicode 标准”的一种具体规则。

有的！UTF-8 只是众多“翻译员”中最出名、最常用的一位。除了它，还有：

它们都是 Unicode 的“实现方式”，只是规则不同，适用于不同场景。

表格

概念	是什么？	做什么？	比喻
Unicode	字符集 (标准)	为每个字符分配唯一的码点	一本全球统一的“字符字典”
UTF-8	编码方案 (实现)	将码点转换为可存储的字节	一位高效且兼容旧系统的“翻译员”