【统计分析】皮尔逊相关系数检验

最新推荐文章于 2026-04-04 10:14:47 发布

原创最新推荐文章于 2026-04-04 10:14:47 发布 · 1.4k 阅读

10 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#算法 #python #深度学习

统计分析核心：皮尔逊相关系数检验｜原理+公式+Python实战全攻略

皮尔逊相关系数检验是衡量两个连续变量线性关系强度与方向的基础统计方法，也是本科数理统计、研究生数据分析与机器学习特征筛选的必学内容。

一、皮尔逊相关系数（r）是什么？一句话看懂

皮尔逊相关系数（r）= 衡量两个变量“线性相关程度”的数字

核心特点：

取值范围：-1 ≤ r ≤ 1
r = +1：完美正相关（一个变量增，另一个必增）
r = -1：完美负相关（一个变量增，另一个必减）
r = 0：无线性相关（变量变化无规律关联）
|r| 越接近1：线性关系越强；越接近0：线性关系越弱

直观例子

学习时间与考试成绩：r≈0.8（强正相关）
温度与羽绒服销量：r≈-0.7（强负相关）
身高与考试成绩：r≈0（无线性相关）

二、核心原理：为什么r能衡量线性关系？

皮尔逊相关系数的本质是**“标准化后的协方差”**，核心逻辑是：

先看两个变量偏离各自均值的“同步程度”（协方差）
再通过标准差消除量纲影响（比如“小时”和“分数”的单位差异）
最终得到0-1之间的标准化结果

1. 核心公式（必须掌握）

$\frac{\sum_{i=1}^n (X_i - \overline{X})(Y_i - \overline{Y})}{\sqrt{\sum_{i=1}^n (X_i - \overline{X})^2 \cdot \sum_{i=1}^n (Y_i - \overline{Y})^2}}$

分子：协方差的核心部分（衡量X和Y的“同步偏差”）
分母：X和Y的标准差乘积（标准化因子，消除单位影响）

2. 公式拆解（通俗理解）

$(Xi−X‾)(X_i - \overline{X})$ ：第i个X值偏离X均值的程度
$(Yi−Y‾)(Y_i - \overline{Y})$ ：第i个Y值偏离Y均值的程度
分子求和：如果X和Y“同增同减”，乘积为正，求和后为正值（正相关）；反之则为负值（负相关）
分母：保证结果被限制在-1到1之间

3. 关键性质

只测线性关系：如果变量是非线性关系（如U型、抛物线），r可能接近0
对称性：r(X,Y) = r(Y,X)（X对Y和Y对X的相关程度相同）
对异常值敏感：极端值会严重扭曲r的结果
无因果性：只说明“相关”，不代表“X导致Y”或“Y导致X”

三、皮尔逊相关系数检验（假设检验流程）

计算出r后，需要通过假设检验判断：这个相关系数是否显著（不是随机误差导致）

1. 明确假设

原假设 $H_0$ ：两个变量无线性关系（r=0）
备择假设 $H_1$ ：两个变量有线性关系（r≠0，双尾检验）

2. 计算检验统计量（t值）

$\frac{r \cdot \sqrt{n-2}}{\sqrt{1 - r^2}}$

n：样本量
自由度 $df = n - 2$

3. 判断规则

计算p值（或查t分布表找临界值）
若p < 0.05（显著性水平）：拒绝 $H_0$ ，认为线性关系显著
若p ≥ 0.05：不能拒绝 $H_0$ ，认为线性关系不显著

四、Python 完整实战（学生学习时间vs考试成绩）

1. 导入库+生成数据

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from scipy.stats import pearsonr

# 固定随机种子（结果可复现）
np.random.seed(42)

# 生成模拟数据：1000个学生的学习时间和考试成绩
n = 1000
study_time = np.random.normal(loc=5, scale=1.5, size=n)  # 学习时间：均值5小时，标准差1.5
exam_scores = 50 + 10 * study_time + np.random.normal(0, 10, size=n)  # 成绩=基础分+学习时间贡献+噪声

# 构建DataFrame
data = pd.DataFrame({
    'StudyTime': study_time,
    'ExamScores': exam_scores
})

# 查看数据前5行
print(data.head())

2. 描述性统计

# 查看数据基本信息（均值、标准差、最值等）
print(data.describe())

3. 可视化：散点图（直观看关系）

plt.figure(figsize=(10, 6))
sns.scatterplot(
    x='StudyTime', y='ExamScores', 
    data=data, color='orange', s=50, edgecolor='black', alpha=0.7
)
plt.title('学习时间 vs 考试成绩 散点图', fontsize=14)
plt.xlabel('学习时间（小时）', fontsize=12)
plt.ylabel('考试成绩（分）', fontsize=12)
plt.grid(alpha=0.3)
plt.show()

4. 计算皮尔逊相关系数+假设检验

# 计算相关系数r和p值
corr_r, p_value = pearsonr(data['StudyTime'], data['ExamScores'])

print("===== 皮尔逊相关系数检验结果 =====")
print(f"相关系数 r = {corr_r:.4f}")
print(f"p值 = {p_value:.4f}")

# 显著性判断
alpha = 0.05
if p_value < alpha:
    print(f"结论：p < {alpha}，拒绝原假设，学习时间与考试成绩存在显著线性关系 ✅")
else:
    print(f"结论：p ≥ {alpha}，不能拒绝原假设，线性关系不显著 ❌")

5. 可视化：添加回归线（更直观）

plt.figure(figsize=(10, 6))
sns.regplot(
    x='StudyTime', y='ExamScores', 
    data=data, 
    scatter_kws={'color': 'orange', 's': 50, 'edgecolor': 'black', 'alpha': 0.7},
    line_kws={'color': 'blue', 'lw': 2}
)
plt.title('学习时间 vs 考试成绩 回归线', fontsize=14)
plt.xlabel('学习时间（小时）', fontsize=12)
plt.ylabel('考试成绩（分）', fontsize=12)
plt.grid(alpha=0.3)
plt.show()

6. 异常值处理（优化结果）

皮尔逊相关系数对异常值敏感，需先检测并处理：

# 1. 检测异常值（基于箱线图规则）
def remove_outliers(df, col):
    q1 = df[col].quantile(0.25)
    q3 = df[col].quantile(0.75)
    iqr = q3 - q1
    lower_bound = q1 - 1.5 * iqr
    upper_bound = q3 + 1.5 * iqr
    return df[(df[col] >= lower_bound) & (df[col] <= upper_bound)]

# 去除成绩异常值
data_clean = remove_outliers(data, 'ExamScores')

# 2. 重新计算相关系数
corr_r_clean, p_value_clean = pearsonr(data_clean['StudyTime'], data_clean['ExamScores'])
print(f"\n===== 去除异常值后结果 =====")
print(f"相关系数 r = {corr_r_clean:.4f}")
print(f"p值 = {p_value_clean:.4f}")

五、常见问题与注意事项（避坑指南）

r=0 不代表无关系：可能是非线性关系（如U型）
异常值必须处理：先通过箱线图、Z-score法去除极端值
数据需近似正态分布：小样本时若数据严重不正态，需换用斯皮尔曼相关系数
样本量不能太小：n≥30时结果更可靠，n<10可能导致检验失效
相关≠因果：比如“冰淇淋销量”和“溺水人数”正相关，但不是因果关系（真正原因是“气温”）

六、皮尔逊相关系数 vs 其他相关方法（对比表）

方法	适用场景	优点	缺点
皮尔逊相关系数	连续变量+线性关系	计算快、直观、可检验显著性	只测线性、对异常值敏感、需正态分布
斯皮尔曼秩相关系数	连续/序数变量+单调关系（含非线性）	对异常值不敏感、无需正态分布	不能反映线性强度、仅适用于单调关系
肯德尔相关系数	小样本+顺序数据	小样本准确、对单调关系有效	计算复杂、效率低
互信息	任意关系（线性/非线性）	捕捉所有关系、无分布假设	计算复杂、无明确方向、不直观