【集成算法】LightGBM：集成学习中的高效梯度提升算法

最新推荐文章于 2026-06-21 09:59:00 发布

原创最新推荐文章于 2026-06-21 09:59:00 发布 · 705 阅读

7 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#算法 #集成学习 #机器学习

【机器学习-深度学习】算法专栏收录该内容

112 篇文章

订阅专栏

LightGBM：集成学习中的高效梯度提升算法

1. 什么是集成学习和Boosting？

集成学习（Ensemble）：就像请一群不同的人一起出主意，最后把大家的意见综合起来，往往比单独听一个人的想法更靠谱。在机器学习中，就是把很多"弱"模型（弱学习器）凑在一起，组合成一个"强"模型，预测效果更好。

Boosting（提升）：是一种"接力赛"式的集成方法：第一棵小树（弱模型）先上场，尽力把训练数据学一遍；第二棵小树看第一棵学得哪里不够好（哪里犯了错误），专门去纠正它；第三棵再去修正前两棵没做好的一块…一棵接一棵，最后把它们"加权"组合，整体表现就很强了。

2. 什么是LightGBM？

LightGBM（Light Gradient Boosting Machine），顾名思义，就是「轻量级的梯度提升机」。它也是基于Boosting的思想，用一棵棵"决策树"来做接力赛，但在速度和内存上做了很多优化。

为什么使用LightGBM？

训练速度快
- 传统的梯度提升树（如XGBoost）要遍历所有特征来找最佳分裂点，数据多、特征多就慢。
- LightGBM先把连续数值型特征分箱（binning）成直方图，用直方图来找分裂点，速度提升很多。
内存占用低
- 分箱后数据变成整数（每个样本只记一个箱号），比原始浮点数更省空间。
更高的准确率
- 它采用**Leaf-wise（叶子优先）**生长策略：每次都在当前所有叶子中选出「能让损失减少最多」的那个叶子去分裂，而不是像传统算法那样按层（Level-wise）分裂。
- 这样做虽然可能会让树长得更深、更不平衡，但整体误差下降更快，模型更强。
支持大规模数据&类别特征
- 对超大规模数据也能跑；
- 对类别特征（categorical）可以直接处理，不用手动做One-Hot编码。

3. LightGBM的核心原理

3.1 问题与目标函数

给定训练集 ${(x_i, y_i)}_{i=1}^n$ ，我们要学习一个模型F(x)，使得对某种损失函数 $L (y, F (x))$ 的经验风险最小化，并加上正则化项：

$L(F) = ∑_{i=1}^n L(y_i, F(x_i)) + Ω(f)$

其中模型F是由K棵树f_k组成的加法模型：

$F(x) = ∑_{k=1}^K f_k(x), f_k ∈ F$

F表示回归树的函数空间。

3.2 树的正则化

对单棵树f的复杂度定义为：

$Ω(f) = γT + λ∑_{j=1}^T w_j^2$

其中：

T是树的叶子数
$w_j$ 是第j片叶子的权重（输出值）
γ和λ是超参数，用于控制树的大小和叶权重的范数

3.3 二阶泰勒展开与梯度直方图

LightGBM采用梯度提升（Gradient Boosting）的逐步添加思想。在第m步时，模型为：

$F_m(x) = ∑_{k=1}^{m-1} f_k(x)$

要新增一棵树f_m，使得总目标最小：

$L^m= ∑_{i=1}^n L(y_i, F_{m-1}(x_i) + f_m(x_i)) + Ω(f_m)$ + 常数

对 $f_m$ 作二阶泰勒展开：

$L(y_i, F_{m-1}(x_i) + f_m(x_i)) ≈ L(y_i, F_{m-1}(x_i)) + g_i f_m(x_i) + (1/2)h_i f_m(x_i)^2$

其中：

$g_i = ∂L(y_i, F_{m-1}(x_i))/∂F_{m-1}(x_i)$
$hi=∂2L(yi,Fm−1(xi))/∂Fm−1(xi)2h_i = ∂²L(y_i, F_{m-1}(x_i))/∂F_{m-1}(x_i)²$

去掉常数项，优化目标变为：

$L^(m) = ∑_{i=1}^n [g_i f_m(x_i) + (1/2)h_i f_m(x_i)^2] + Ω(f_m)$

3.4 最优叶权重与分裂增益

假设当前树 $f_m$ 有T片叶子，第j片叶子对应的样本集合为 $I_j$ ，并令该叶子的输出值为常数 $w_j$ 。

则：

$_{i=1}^n [g_i f_m(x_i) + (1/2)h_i f_m(x_i)^2] = ∑_{j=1}^T [G_j w_j + (1/2)H_j w_j^2]$

其中：

$G_j = ∑_{i∈I_j} g_i$
$H_j = ∑_{i∈I_j} h_i$

加上正则化，对每个 $w_j$ 求导并令导数为零，得到最优解：

$w_j* = -G_j/(H_j + λ)$

将其代回，可得该棵树的最优目标值（负的"分裂增益"）：

$L = -G_j^2/(2(H_j + λ)) + γ$

3.5 分裂增益（Gain）

在某个节点上，如果把样本集I按某特征某阈值分为左右两部分 $I_L$ 和 $I_R$ ，则分裂带来的增益为：

$Gain = [G_L^2/(2(H_L + λ)) + G_R^2/(2(H_R + λ))] - (G_L + G_R)^2/(2(H_L + H_R + λ)) - γ$

其中：

$G_L, H_L$ ：左子集的梯度和二阶导和
$G_R, H_R$ ：右子集的梯度和二阶导和
γ：分裂的惩罚，避免过度分裂

3.6 直方图优化与Leaf-wise策略

1. 直方图分箱（Histogram Binning）

对每个连续特征，先将取值域划分为B个箱（bins），样本只记录箱编号。
这样在寻找分裂点时，不再按样本逐一扫描，而是按箱聚合：每个箱维护 $g_i$ 和 $h_i$ ，速度和内存占用大幅下降。

2. Leaf-wise生长

传统GBDT（如XGBoost）的Level-wise：逐层对所有叶子同时分裂。
LightGBM的Leaf-wise：每一步只挑一个叶子（当前所有叶子中Gain最大的）进行分裂，直到满足最大叶数或最小增益阈值。
优点：更快降低损失；缺点：生成的树可能更不平衡、更深，需要通过max_depth、min_data_in_leaf控制。

4. LightGBM的完整算法流程

# 输入：训练集{(x_i, y_i)}，迭代次数M，学习率η，树参数(max_leaves, λ, γ, min_gain_to_split,...)
# 初始化：F_0(x) = argmin_c ∑_i L(y_i, c)  # 常数预测
for m = 1 to M:
    # 1. 计算当前预测F_{m-1}(x_i)，以及梯度g_i和二阶导h_i
    # 2. 构建一棵新树f_m：
    a. 初始化只有一个叶子的树，样本集合I={1...n}
    b. 维护一个"候选叶子列表"，初始为根节点
    c. while树叶子数< max_leaves:
        i. 对候选叶子j，按直方图计算所有特征所有分裂点的Gain_j
        ii. 找到全局最大的Gain*，对应叶子j*和分裂点s*
        iii. 若Gain* < min_gain_to_split: break
        iv. 在叶子j*上按s*分裂成左右叶子，更新候选叶子列表
    d. 对所有叶子j，计算最优权重w_j* = -G_j/(H_j + λ)
    # 3. 更新模型：F_m(x) = F_{m-1}(x) + η · f_m(x)
# 输出：最终模型F_M(x)

5. 实际案例：加州房价预测

5.1 数据集简介

选用California Housing（加州房价）数据集
包含约20000条样本，8个数值型特征
目标是预测房屋中位价（单位：10万美元）

5.2 代码实现

5.2.1 数据加载与预处理

import pandas as pd
import numpy as np
from sklearn.datasets import fetch_california_housing
from sklearn.model_selection import train_test_split
from lightgbm import LGBMRegressor
import matplotlib.pyplot as plt

# 1. 加载加州房价数据集
data = fetch_california_housing(as_frame=True)
X = data.data  # 特征：8个数值列
y = data.target  # 目标：房价中位数（单位：10万美元）

# 2. 划分训练集和测试集（80%/20%）
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

5.2.2 初始模型训练与评估

# 3. 初始模型训练
model_initial = LGBMRegressor(objective='regression', random_state=42)
model_initial.fit(X_train, y_train)

# 4. 初始模型评估
y_pred_initial = model_initial.predict(X_test)
rmse_initial = np.sqrt(mean_squared_error(y_test, y_pred_initial))
mae_initial = mean_absolute_error(y_test, y_pred_initial)
r2_initial = r2_score(y_test, y_pred_initial)

print(f"Initial RMSE: {rmse_initial:.4f}")
print(f"Initial MAE: {mae_initial:.4f}")
print(f"Initial R2: {r2_initial:.4f}")

5.2.3 特征重要性可视化

# 5. 特征重要性可视化
importances = model_initial.feature_importances_
features = X.columns
indices = np.argsort(importances)

plt.figure(figsize=(8, 6))
plt.barh(features[indices], importances[indices], 
         color=['#FF5733','#33FF57','#3357FF','#FF33A8','#33FFF5','#F5FF33','#A833FF','#FF8F33'])
plt.xlabel("Feature Importance")
plt.title("Initial Feature Importance")
plt.tight_layout()
plt.show()

5.2.4 预测值vs实际值散点图

# 6. 预测值 vs 实际值散点图
plt.figure(figsize=(6, 6))
plt.scatter(y_test, y_pred_initial, alpha=0.5, s=20, color='lime')
plt.plot([y_test.min(), y_test.max()], [y_test.min(), y_test.max()], 'r--', linewidth=2)
plt.xlabel("Actual Values")
plt.ylabel("Predicted Values")
plt.title("Actual vs Predicted (Initial)")
plt.tight_layout()
plt.show()

5.2.5 超参数调优

# 7. 超参数调优
from sklearn.model_selection import GridSearchCV

param_grid = {
    'n_estimators': [100, 200, 300],
    'num_leaves': [31, 50, 70],
    'learning_rate': [0.1, 0.05, 0.01],
    'max_depth': [-1, 10, 20]
}

grid = GridSearchCV(
    estimator=LGBMRegressor(random_state=42),
    param_grid=param_grid,
    cv=5,
    scoring='neg_mean_squared_error',
    n_jobs=-1,
    verbose=2
)
grid.fit(X_train, y_train)
print("Best Parameters:", grid.best_params_)

5.2.6 优化后模型评估

# 8. 优化后模型评估
model_opt = grid.best_estimator_
y_pred_opt = model_opt.predict(X_test)
rmse_opt = np.sqrt(mean_squared_error(y_test, y_pred_opt))
mae_opt = mean_absolute_error(y_test, y_pred_opt)
r2_opt = r2_score(y_test, y_pred_opt)

print(f"Optimized RMSE: {rmse_opt:.4f}")
print(f"Optimized MAE: {mae_opt:.4f}")
print(f"Optimized R2: {r2_opt:.4f}")

5.2.7 性能对比柱状图

# 9. 性能对比柱状图
metrics = ['RMSE', 'MAE', 'R2']
initial_vals = [rmse_initial, mae_initial, r2_initial]
opt_vals = [rmse_opt, mae_opt, r2_opt]

x = np.arange(len(metrics))
width = 0.35

plt.figure(figsize=(7, 5))
plt.bar(x - width/2, initial_vals, width, label='Initial', color='deepskyblue')
plt.bar(x + width/2, opt_vals, width, label='Optimized', color='coral')
plt.xticks(x, metrics)
plt.ylabel("Value")
plt.title("Performance Comparison")
plt.legend()
plt.tight_layout()
plt.show()

6. LightGBM的优缺点

优点：

训练速度快、内存占用低
- LightGBM使用直方图分箱技术将连续特征离散化，从而减少计算量和内存使用。
- 采用叶子优先（leaf-wise）的生长策略，能更快地降低训练误差，在大规模数据集上表现尤为突出。
高精度与优秀的泛化能力
- 通过二阶泰勒展开，利用梯度和Hessian信息，LightGBM可以更准确地计算分裂增益。
- 正则化机制（如叶子权重的L2正则化、分裂惩罚γ等）帮助防止过拟合。
对大规模数据和高维数据的良好支持
- LightGBM可以高效处理上亿条记录的数据，并且能够直接处理类别特征（无需手动做One-Hot编码）。
良好的可扩展性与灵活性
- 丰富的超参数调控机制（例如num_leaves、max_depth、feature_fraction等）使得用户可以根据不同的数据特征和业务需求进行细致调优。

缺点：

树结构不平衡可能导致过拟合风险
- 由于采用叶子优先的策略，生成的树结构往往比较不平衡，部分情况下会造成过拟合。
- 需要借助max_depth、min_data_in_leaf等参数来限制树的深度和叶子的样本数。
对类别特征处理较为敏感
- 虽然LightGBM内部能直接处理类别特征，但在类别特征取值较多或类别间分布不平衡时，可能出现信息利用不足的情况。
调参过程相对复杂
- 由于提供了较多超参数，调参时需要综合考虑多种指标（速度、准确率、泛化能力）。

7. 与其他算法的对比

算法	优点	缺点
LightGBM	- 训练速度快、内存占用低- 适合大规模、高维数据- 内置直方图优化、支持类别特征直接处理	- 生成的树可能不平衡，存在过拟合风险- 对部分参数较为敏感，调参过程较复杂
XGBoost	- 理论成熟，广泛使用- 支持二阶梯度信息- 模型解释性较好，调参较为稳定	- 对大规模数据训练速度相对较慢- 内存占用较高- 在处理类别特征时需手动预处理（如One-Hot编码）
CatBoost	- 对类别特征处理能力强，无需额外预处理- 内置均衡处理类别特征，降低过拟合风险	- 训练速度一般较LightGBM略慢- 模型调参选项较少，灵活性较低- 在某些场景下精度可能略低于XGBoost或LightGBM