Python编码探秘：为什么你的十六进制字符串变成了‘\xe4\xb8\xad‘这种鬼画符？

原创

于 2026-03-02 07:48:48 发布 · 903 阅读

Python编码探秘：为什么你的十六进制字符串变成了'\xe4\xb8\xad'这种鬼画符？

如果你在Python开发中处理过中文文本，大概率遇到过这种令人困惑的场景：一个看似正常的字符串，打印出来却变成了一堆像\xe4\xb8\xad这样的“鬼画符”。更让人头疼的是，这些字符在Python 2.7和Python 3.x中的表现还不一样，有时候能正常显示，有时候却乱码，有时候甚至直接抛出UnicodeDecodeError。

这背后其实隐藏着计算机处理文本的深层逻辑——字符编码。理解这个机制，不仅能帮你解决眼前的乱码问题，更能让你在编写国际化应用、处理多语言数据时游刃有余。今天我们就深入Python编码的底层世界，看看这些“鬼画符”究竟从何而来，又该如何驯服它们。

1. 编码基础：从比特到字符的映射游戏

要理解Python中的编码问题，首先得明白计算机是如何“认识”文字的。计算机只懂0和1，所有文字在它眼中都是一串二进制数字。字符编码就是一套翻译规则，告诉计算机“这个二进制序列代表哪个字符”。

1.1 ASCII：英语世界的简单约定

早期的计算机主要在美国使用，只需要处理英文字母、数字和一些符号。ASCII（American Standard Code for Information Interchange）应运而生，用7位二进制数（0-127）表示128个字符。

# ASCII字符的编码示例
print(ord('A'))  # 输出: 65
print(chr(65))   # 输出: 'A'
print(hex(ord('A')))  # 输出: '0x41'

ASCII编码简单直接，但有个致命缺陷：它无法表示中文、日文、阿拉伯文等非英语字符。一个字节（8位）最多只能表示256种可能，而汉字就有数万个。

1.2 Unicode：全球字符的统一身份证

为了解决多语言问题，Unicode诞生了。它为世界上所有文字系统的每个字符分配一个唯一的数字编号，这个编号叫做“码点”（Code Point）。

字符	Unicode码点（十六进制）	Unicode码点（十进制）
A	U+0041	65
中	U+4E2D	20013
😊	U+1F60A	128522

Unicode只是一个字符集，定义了字符和码点的对应关系，但并没有规定这个码点在计算机中如何存储。这就引出了各种Unicode编码方案。

1.3 UTF-8：智能的变长编码

UTF-8是目前最流行的Unicode编码方案，它的聪明之处在于变长设计：

ASCII字符（U+0000到U+007F）：1个字节，与ASCII完全兼容
大部分常用字符（U+0080到U+07FF）：2个字节
基本多文种平面字符（U+0800到U+FFFF）：3个字节，包括大部分汉字
其他平面字符（U+10000到U+10FFFF）：4个字节

UTF-8的编码规则可以用这个表格概括：

Unicode码点范围（十六进制）	UTF-8编码格式（二进制）
0000 0000 - 0000 007F	0xxxxxxx
0000 0080 - 0000 07FF	110xxxxx 10xxxxxx
0000 0800 - 0000 FFFF	1110xxxx 10xxxxxx 10xxxxxx
0001 0000 - 0010 FFFF	11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

以汉字“中”为例：

Unicode码点：U+4E2D（二进制：0100 1110 0010 1101）
落在U+0800到U+FFFF范围，需要3个字节
按UTF-8规则填充：11100100 10111000 10101101
得到十六进制：E4 B8 AD

这就是为什么“中”字的UTF-8编码是\xe4\xb8\xad。

1.4 GBK：中文世界的本地方案

在中国，还有一套广泛使用的编码方案——GBK。它是GB2312的扩展，完全兼容GB2312，同时支持更多汉字。

编码方案	字符集范围	汉字“中”的编码
GB2312	6763个汉字	D6 D0
GBK	21003个汉字	D6 D0
UTF-8	所有Unicode字符	E4 B8 AD

注意：GBK是双字节编码，每个汉字固定用2个字节表示。而UTF-8是变长编码，大部分汉字用3个字节。

2. Python 2 vs Python 3：编码处理的天壤之别

Python 2和Python 3在字符串处理上有根本性差异，这也是很多编码问题的根源。

2.1 Python 2的str和unicode类型

在Python 2中，有两种字符串类型：

str：实际上是字节序列（bytes）
unicode：真正的Unicode字符串

# Python 2示例
s1 = '中文'      # str类型，实际存储的是编码后的字节
s2 = u'中文'     # unicode类型，存储的是Unicode码点

print type(s1)    # <type 'str'>
print type(s2)    # <type 'unicode'>
print len(s1)     # 6（GBK编码）或 4（UTF-8编码）？
print len(s2)     # 2（字符数）

这里有个关键点：Python 2中普通的字符串字面量（没有u前缀）到底是什么编码，取决于源代码文件的编码声明。如果没有声明，Python会尝试用ASCII解码，遇到非ASCII字符就会报错。

2.2 Python 3的str和bytes类型

Python 3彻底改变了字符串模型：

str：Unicode字符串（相当于Python 2的unicode）
bytes：字节序列（相当于Python 2的str）

# Python 3示例
s1 = '中文'      # str类型，Unicode字符串
s2 = b'中文'     # 语法错误！bytes字面量只能包含ASCII字符
s3 = '中文'.encode('utf-8')  # bytes类型

print(type(s1))   # <class 'str'>
print(type(s3))   # <class 'bytes'>
print(len(s1))    # 2（字符数）
print(len(s3))    # 6（UTF-8编码的字节数）

Python 3的这种设计更加清晰：文本用str，二进制数据用bytes，两者界限分明。

2.3 编码与解码：两个世界的桥梁

无论Python 2还是Python 3，编码转换的核心操作都是encode()和decode()：

编码（encode）：将Unicode字符串转换为特定编码的字节序列
解码（decode）：将字节序列按照特定编码解释为Unicode字符串

# Python 3中的编码解码示例
text = '中文'  # Unicode字符串

# 编码为UTF-8字节序列
utf8_bytes = text.encode('utf-8')
print(utf8_bytes)  # b'\xe4\xb8\xad\xe6\x96\x87'
print(type(utf8_bytes))  # <class 'bytes'>

# 解码回Unicode字符串
decoded_text = utf8_bytes.decode('utf-8')
print(decoded_text)  # '中文'
print(decoded_text == text)  # True

在Python 2中，情况稍微复杂一些：

# Python 2中的编码解码
# -*- coding: utf-8 -*-
text = u'中文'  # 必须明确指定是unicode

# 编码
gbk_bytes = text.encode('gbk')  # 转换为GBK编码的str
utf8_bytes = text.encode('utf-8')  # 转换为UTF-8编码的str

# 解码
text_from_gbk = gbk_bytes.decode('gbk')
text_from_utf8 = utf8_bytes.decode('utf-8')