【第二章】 Python 内存管理详解：存储、释放与优化

原创已于 2025-08-23 13:36:52 修改 · 1.5k 阅读

27 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#python #缓存

于 2025-08-11 21:39:12 首次发布

Python 专栏收录该内容

12 篇文章

订阅专栏

Python3.8

Conda

Python

Python 是一种高级、解释型、通用的编程语言，以其简洁易读的语法而闻名，适用于广泛的应用，包括Web开发、数据分析、人工智能和自动化脚本

Python 内存管理详解：存储、释放与优化

文章目录

Python 内存管理详解：存储、释放与优化
前言
一、Python 内存分配机制：并非直接操作系统内存
- 1.1内存池：小对象的 “专属仓库”
二、数据类型的内存存储：可变与不可变的差异
- 2.1 不可变类型：内存复用与缓存
- 2.2 可变类型：存储引用而非值
三、引用计数：Python 内存管理的 “基石”
- 3.1 引用计数的增减规则
四、垃圾回收：解决引用计数的 “死角”
五、内存释放：自动与手动的平衡
- 5.1 自动释放：无需干预的常规操作
- 5.2 手动释放：特殊场景的补充
六、内存泄漏：常见原因与避免方法
七、内存优化技巧：写出更 “轻量” 的代码
- 7.1 使用生成器（Generator）代替列表
- 7.3 避免创建不必要的对象
总结

前言

Python 作为一门高级编程语言，其一大特性是自动内存管理—— 开发者无需像 C/C++ 那样手动分配和释放内存。但理解 Python 内存管理的底层机制，能帮助我们写出更高效、更稳定的代码，避免内存泄漏等问题。本文将从内存分配、数据存储、引用计数、垃圾回收、内存释放及优化技巧等方面，全面解析 Python 的内存相关知识，并结合实例说明。

一、Python 内存分配机制：并非直接操作系统内存

Python 的内存分配并非直接调用操作系统的malloc/free函数，而是通过内存池机制（Pymalloc）实现高效管理。这种机制的核心是 “分级管理”，减少频繁与操作系统交互的开销。

1.1内存池：小对象的 “专属仓库”

Python 将内存分配分为三级：

一级分配：直接调用操作系统的内存管理函数（如malloc），用于分配大对象（通常指大于 256 字节的对象）。
二级分配：通过内存池（Pymalloc）管理小对象（小于等于 256 字节），如int、str、list等。内存池会预先向操作系统申请一块连续内存，再将其分割为更小的块分配给小对象。
三级分配：针对特定类型的小对象（如整数、字符串），Python 会进一步优化，通过 “缓存” 复用已有对象（如小整数池、字符串驻留）。

举例：小对象与大对象的分配差异

import sys

# 小对象（int，28字节，小于256字节）
a = 100
print(sys.getsizeof(a))  # 输出：28

# 大对象（列表，包含1000个元素，远超256字节）
b = [i for i in range(1000)]
print(sys.getsizeof(b))  # 输出：8056（因Python版本略有差异）

小对象a由内存池分配，释放后不会立即归还给操作系统，而是留在池中供后续复用。
大对象b直接调用系统内存分配，释放后会归还给操作系统。

二、数据类型的内存存储：可变与不可变的差异

Python 中数据类型分为不可变类型（如int、str、tuple）和可变类型（如list、dict、set），它们的内存存储方式截然不同。

2.1 不可变类型：内存复用与缓存

不可变类型的对象创建后，其值无法修改（若修改，会创建新对象）。为节省内存，Python 会对常用的不可变对象进行 “缓存” 或 “复用”。

（1）小整数池：-5 到 256 的整数永久缓存

Python 预定义了-5到256的整数对象，这些对象在程序启动时就被创建，且不会被销毁。所有引用这些整数的变量，都会指向同一个内存地址。

举例：小整数池的复用

a = 100
b = 100
print(id(a) == id(b))  # 输出：True（指向同一内存）

c = 257
d = 257
print(id(c) == id(d))  # 输出：False（257不在小整数池，创建新对象）

（2）字符串驻留：复用相同字符串

对于符合条件的字符串（仅包含字母、数字、下划线），Python 会启用 “字符串驻留” 机制，相同内容的字符串会复用同一内存地址。

举例：字符串驻留

s1 = "hello_world"
s2 = "hello_world"
print(id(s1) == id(s2))  # 输出：True（驻留复用）

s3 = "hello world"  # 包含空格，不符合驻留条件
s4 = "hello world"
print(id(s3) == id(s4))  # 输出：False（未驻留，创建新对象）

2.2 可变类型：存储引用而非值

可变类型（如list、dict）的对象的值可以修改，其内存中存储的是元素的引用（地址），而非元素本身。这意味着：

可变对象的修改不会创建新对象（仅修改内部引用）。
多个变量引用同一可变对象时，修改其中一个会影响所有变量。

举例：列表的引用存储

# 创建列表（可变对象）
list1 = [1, 2, 3]
list2 = list1  # list2与list1指向同一内存地址

# 修改list2，list1也会变化
list2.append(4)
print(list1)  # 输出：[1, 2, 3, 4]
print(id(list1) == id(list2))  # 输出：True（地址未变）

三、引用计数：Python 内存管理的 “基石”

Python 主要通过引用计数（Reference Counting）跟踪对象的生命周期：每个对象都有一个引用计数器，当计数器为 0 时，对象会被立即释放。

3.1 引用计数的增减规则

（1）引用计数增加的场景：

对象被赋值给变量（如a = [1]）。
对象作为参数传递给函数（如func(a)，函数内部会新增引用）。
对象被放入容器（如列表、字典，容器会新增引用）。

（2）引用计数减少的场景：

变量被重新赋值（如a = 2，原列表的引用计数减 1）。
变量离开作用域（如函数执行结束，局部变量的引用计数减 1）。
使用del语句删除变量（如del a，对象的引用计数减 1）。
对象从容器中移除（如list.pop(0)，被移除元素的引用计数减 1）。

举例：用sys.getrefcount()查看引用计数
sys.getrefcount(obj)可返回对象的引用计数（注意：该函数本身会临时增加一次引用，因此结果比实际多 1）。

import sys

a = [1, 2]  # 引用计数：1（赋值）
print(sys.getrefcount(a))  # 输出：2（函数调用临时+1）

b = a  # 引用计数：2（新增引用）
print(sys.getrefcount(a))  # 输出：3

del b  # 引用计数：1（删除b的引用）
print(sys.getrefcount(a))  # 输出：2

a = None  # 引用计数：0（a不再指向原列表）
# 此时列表被释放，无法再访问

四、垃圾回收：解决引用计数的 “死角”

引用计数虽高效，但无法解决循环引用（两个对象互相引用，导致计数永远不为 0）。为此，Python 引入了垃圾回收机制（Garbage Collection），通过 “标记 - 清除” 和 “分代回收” 处理循环引用。

4.1 循环引用：引用计数的盲区

当两个对象互相引用时，即使没有外部引用，它们的引用计数也不会为 0，导致内存无法释放。

举例：循环引用问题

# 创建两个列表，互相引用
a = []
b = []
a.append(b)  # a引用b
b.append(a)  # b引用a

# 删除外部引用
del a
del b

# 此时a和b的引用计数仍为1（互相引用），引用计数无法释放它们

4.2 标记 - 清除：识别不可达对象

“标记 - 清除” 是垃圾回收的核心算法，用于解决循环引用：

标记阶段：从根对象（如全局变量、栈中的变量）出发，标记所有可达对象（能被直接或间接引用的对象）。
清除阶段：遍历所有对象，清除未被标记的对象（不可达对象），释放其内存。

4.3 分代回收：提高回收效率

为减少垃圾回收的开销，Python 引入 “分代回收”：

将对象分为 3 代（0、1、2），新创建的对象为 0 代。
每代对象都有一个阈值，当垃圾回收次数达到阈值时，触发该代的回收。
存活越久的对象（代数越高），回收频率越低（假设 “老对象更可能被长期使用”）。

举例：用gc模块手动触发垃圾回收
gc模块可控制垃圾回收，gc.collect()会强制触发一次垃圾回收。

import gc
import sys

# 禁用自动垃圾回收（默认开启）
gc.disable()

# 创建循环引用
a = []
b = []
a.append(b)
b.append(a)

# 记录初始对象数量
before = len(gc.get_objects())

# 删除外部引用
del a
del b

# 手动触发垃圾回收
collected = gc.collect()

# 查看回收结果
after = len(gc.get_objects())
print(f"回收的对象数量：{before - after}")  # 输出：2（a和b被回收）

五、内存释放：自动与手动的平衡

Python 内存释放以自动为主，但也支持手动干预。需要注意的是，内存释放的行为与对象大小、内存池机制相关。

5.1 自动释放：无需干预的常规操作

小对象（内存池分配）：释放后会留在内存池，供后续复用（不会立即归还给操作系统）。
大对象（系统内存分配）：释放后会直接归还给操作系统。

这就是为什么有时程序内存占用 “看起来没减少”—— 小对象可能仍在内存池中。

5.2 手动释放：特殊场景的补充

通常无需手动释放内存，但以下场景可考虑：

循环引用较多，自动回收不及时。
大型程序需要主动释放内存以避免峰值。

手动释放的方式：

del语句：删除变量引用（减少计数）。
gc.collect()：强制触发垃圾回收。

举例：手动释放大型列表

import gc

# 创建大型列表（占用大量内存）
big_list = [i for i in range(10**6)]

# 删除引用
del big_list

# 强制回收（对于大对象，通常立即释放）
gc.collect()

六、内存泄漏：常见原因与避免方法

内存泄漏指对象不再被使用，但内存未被释放，导致程序占用内存越来越高。Python 中常见的内存泄漏原因及解决方法如下：

6.1 未释放的全局变量

全局变量的生命周期与程序一致，若存储大量数据且未清空，会导致内存泄漏。

举例：全局变量泄漏

# 全局变量存储大量数据
global_list = []

def add_data():
    # 持续向全局列表添加数据，未清理
    for i in range(10**4):
        global_list.append(i)

# 多次调用后，global_list占用大量内存且不会释放
for _ in range(100):
    add_data()

解决：尽量使用局部变量，或定期清空全局变量（如global_list.clear()）。

6.2 未处理的循环引用

虽然垃圾回收能处理循环引用，但某些场景下（如对象有__del__方法）可能导致回收失败。

举例：带__del__的循环引用

import gc

class A:
    def __del__(self):
        print("A被销毁")

class B:
    def __del__(self):
        print("B被销毁")

a = A()
b = B()
a.b = b
b.a = a

del a
del b

gc.collect()  # 无法回收（__del__导致回收顺序冲突）

解决：避免在循环引用的对象中使用__del__方法。

6.3 未关闭的外部资源

文件、数据库连接、网络套接字等外部资源若未关闭，会导致内存泄漏（资源句柄占用内存）。

举例：未关闭的文件

# 错误：打开文件后未关闭
def read_file():
    f = open("large_file.txt", "r")
    data = f.read()  # 文件句柄未释放

# 多次调用后，累积大量未关闭的文件句柄
for _ in range(100):
    read_file()

解决： 使用with语句自动关闭资源：

python
def read_file():
    with open("large_file.txt", "r") as f:  # 自动关闭
        data = f.read()

七、内存优化技巧：写出更 “轻量” 的代码

了解内存管理机制后，可通过以下技巧减少内存占用：

7.1 使用生成器（Generator）代替列表

生成器按需生成元素，而非一次性存储所有元素，适合处理大量数据。

举例：生成器 vs 列表

# 列表：一次性生成100万个元素，占用大量内存
big_list = [i*2 for i in range(10**6)]

# 生成器：仅在迭代时生成元素，内存占用极低
big_generator = (i*2 for i in range(10**6))
7.2 用__slots__限制类的属性
默认情况下，类实例通过字典存储属性，占用较多内存。__slots__可指定允许的属性，减少内存占用。

举例：__slots__优化类内存

python
class Person:
    __slots__ = ["name", "age"]  # 仅允许这两个属性
    def __init__(self, name, age):
        self.name = name
        self.age = age

# 对比：无__slots__的类实例内存更大
class Person2:
    def __init__(self, name, age):
        self.name = name
        self.age = age

p1 = Person("Alice", 30)
p2 = Person2("Bob", 25)

print(sys.getsizeof(p1))  # 输出：64（因版本差异略有不同）
print(sys.getsizeof(p2))  # 输出：112（字典占用额外内存）

7.3 避免创建不必要的对象

例如，字符串拼接用join代替+（+会创建多个临时对象），循环中避免重复创建对象。

举例：高效字符串拼接

# 低效：每次+创建新字符串
s = ""
for i in range(1000):
    s += str(i)

# 高效：join一次性拼接
parts = []
for i in range(1000):
    parts.append(str(i))
s = "".join(parts)