机器学习:回归、降维与聚类分析
1. 回归模型指标
Scikit - learn 提供了许多指标函数,用于评估估计器的预测效果,并比较不同估计器,以便为特定研究选择最佳的估计器。这些指标会因估计器类型而异。例如,在数字数据集分类案例研究中使用的 sklearn.metrics 模块的 confusion_matrix 和 classification_report 函数,就是专门用于评估分类估计器的众多指标函数中的两个。
对于回归估计器,常用的指标有决定系数(也称为 $R^2$ 分数)和均方误差。
- $R^2$ 分数 :范围从 0.0 到 1.0,1.0 表示最佳。$R^2$ 分数为 1.0 意味着估计器能根据自变量的值完美预测因变量的值;$R^2$ 分数为 0.0 则表示模型基于自变量的值无法进行任何准确的预测。计算 $R^2$ 分数的代码如下:
from sklearn import metrics
# 假设 expected 是预期结果数组,predicted 是预测结果数组
metrics.r2_score(expected, predicted)
- 均方误差 :计算每个预期值和预测值之间的差异(误差),将每个差异平方,然后计算这些平方值的平均值。在比较估计器时,均方误差值最接近 0 的估计器最适合数据。计算均方误差的代码如下:
超级会员免费看
订阅专栏 解锁全文

1613

被折叠的 条评论
为什么被折叠?



