Web开发基础：序列化过程详解

原创已于 2025-01-02 18:07:24 修改 · 883 阅读

3 ·

本内容遵循CC 4.0 BY-SA版权协议

标签

#web安全 #python #web

于 2025-01-02 18:01:00 首次发布

Web开发基础专栏收录该内容

4 篇文章

订阅专栏

定义

序列化（Serialization） 是将数据结构或对象的状态转换为可存储或传输的格式的过程。简单来说，序列化就是把内存中的对象转化为一种可持久化的格式（如字节流、JSON、XML 等），这样它可以被存储到磁盘上、传输到网络中，或者在不同的进程或机器之间传递和恢复。反序列化 是将序列化的数据流重新构造为原始的对象或数据结构的过程。它是序列化的逆过程。

序列化的过程

1. 原始数据结构（对象）

假设我们有一个 Python 对象（字典类型），这是一个包含字符串、整数、布尔值和列表的混合数据结构。如下所示：

person = {
    "name": "Alice",
    "age": 30,
    "is_student": False,
    "courses": ["Math", "Science"]
}

在内存中，这个 person 对象是一个 Python 数据结构，它包含多个键值对以及一个列表。其内存表示相当复杂，因为 Python 对象的内部结构包括类型信息、数据存储位置、指针信息等。

person (dictionary)
 ├── "name" → "Bob"      (string object)
 ├── "age"  → 25         (integer object)
 └── "is_student" → True  (boolean object)

2. 序列化过程

序列化的目标是将这个复杂的数据结构转换为字节流、JSON、XML 或其他标准格式，以便存储或传输。这里以 JSON 格式为例，演示序列化的过程。

import json
# 序列化为 JSON 字符串
serialized_data = json.dumps(person)

经过序列化，person 对象变成了如下的 JSON 字符串，它从一个复杂的内存数据结构变成了一个可以跨平台的文本格式：：

{
    "name": "Alice",
    "age": 30,
    "is_student": false,
    "courses": ["Math", "Science"]
}

常见应用场景

网络通信：在分布式系统中，序列化用于将对象通过网络传输，例如远程方法调用（RMI）或 Web 服务（REST、SOAP）。
持久化存储：将对象序列化存储在磁盘、文件或数据库中，方便后续恢复应用状态，如游戏存档、用户设置等。
缓存：在内存或文件系统中存储序列化的对象，提高数据读取效率，减少重复计算。
消息队列：在消息中间件（如 Kafka、RabbitMQ）中传输序列化的消息对象，确保数据传输的完整性和顺序。
深度克隆：通过序列化与反序列化实现对象的深拷贝，避免浅拷贝带来的引用共享问题。
跨平台数据交换：将对象序列化为 JSON、XML 或其他格式，通过网络在不同平台间传输和交换数据。

常见的序列化格式

Protobuf：高效的数据传输、存储，适合跨语言服务间通信（如 gRPC）、流处理和低带宽环境。
XML：文档存储、交换，适用于需要复杂数据结构的场景（如 SOAP Web 服务）。
JSON：Web 开发、跨平台数据交换，适合轻量级数据传输和存储（如 RESTful API）。
Hessian：高性能的跨语言远程调用（RPC），适合分布式系统中服务间通信。
Avro：大数据、流处理，适合用于大数据存储和传输（如 Hadoop 和 Kafka）。
Kryo：高性能序列化，适用于分布式计算和内存优化场景（如 Apache Spark）。