sklearn 决策树(分类树、回归树)的重要参数、属性、方法理解

最新推荐文章于 2022-11-25 19:07:46 发布

原创最新推荐文章于 2022-11-25 19:07:46 发布 · 4.5k 阅读

41 ·

本内容遵循CC 4.0 BY-SA版权协议

标签

#决策树 #机器学习 #python

机器学习基础专栏收录该内容

29 篇文章

订阅专栏

本文详细介绍了sklearn决策树的重要参数，包括分类树的criterion（推荐设为'gini'）、splitter（推荐设为'best'）、max_depth、min_samples_leaf、min_samples_split、max_features（推荐设为'log2'）和class_weight（推荐设为'balanced'），以及回归树的criterion（默认设为'mse'）。同时讨论了各参数的适用场景和调整建议。

决策分类树

引入

from sklearn.tree import DecisionTreeClassifier
# 全部参数
DecisionTreeClassifier(criterion='gini',splitter='best',max_depth=None, \
                       min_samples_split=2,min_samples_leaf=1, \
                       min_weight_fraction_leaf=0.0,max_features=None, \
                       random_state=None,max_leaf_nodes=None, \
                       min_impurity_decrease=0.0,min_impurity_split=1e-07, \
                       class_weight=None, presort=False)

重要参数

1，criterion

字符串类型，默认值为 ‘gini’。这个参数指定划分子树的评估标准：

‘entropy’，使用基于信息熵的方法，即计算信息增益
‘gini’，使用基尼系数（Gini Impurity）

**推荐设置为 ‘gini’，**因为（1）基尼系数的计算过程相对简单，而计算信息增益需要进行对数运算。（2）使用信息增益作为划分标准时，在使用高纬度数据或者噪声很多的数据时容易过拟合。

2，splitter

字符串类型，默认值为’best’。这个参数用于指定切分原则：

’best’，优先选择重要特征构造分支
‘random’，构造分支的时候更随机，一定程度上减少过拟合

默认的 ‘best’ 适合样本量不大的时候，而如果样本数据量量非常大，此时决策树构建推荐‘random’。

3，max_depth

数值型，默认值None。这是与剪枝相关的参数，设置为None时，树的节点会一直分裂，直到：（1）每个叶子都是“纯”的；（2）或者叶子中包含⼩于min_sanples_split个样本。

推荐从 max_depth = 3 尝试增加，观察是否应该继续加大深度。

合适的取值可以是 [3, 5, 8, 15, 25, 30, None]

如果max_leaf_nodes参数非None，则忽略此项

4，min_samples_leaf

数值型，默认值1，指定每个叶子结点包含的最少的样本数。参数的取值除了整数之外，还可以是浮点数，此时（min_samples_leaf * n_samples）向下取整后的整数是每个节点的最小样本数。
此参数设置的过小会导致过拟合，反之就会欠拟合。调整过程：

从min_samples_leaf=5开始上下调整。
对于类别不多的分类问题，设置为1通常是合理的选择。
当叶节点包含样本数量差异很大时，建议设置为浮点数。

推荐的取值可以是：[1, 2, 5, 10]

5，min_samples_split

数值型，默认值2，指定每个内部节点(非叶子节点)包含的最少的样本数。与min_samples_leaf这个参数类似，可以是整数也可以是浮点数。

推荐的取值是：[1, 2, 5, 10, 15, 100]

6，max_features

可以为整数、浮点、字符或者None，默认值为None。此参数用于限制分枝时考虑的特征个数，超过限制个数的特征都会被舍弃。

如果是整数，则每次切分只考虑max_features个特征。
如果是浮点数，每次切分只考虑max_features*n_features个特征(max_features指定百分⽐)。
如果是字符串‘auto’，则max_features等于n_features。
如果是字符串‘sqrt’，则max_features等于sqrt(n_features)。
如果是字符串‘log2’，则max_features等于log2(n_features)。
如果是字符串None，则max_features等于n_features。

推荐的取值为：[‘log2’, ‘sqrt’, None]

7，class_weight

可以是列表、字典、或者字符串’balanced’，还可以是默认值None。这个参数主要是用于样本不平衡数据集，当设置为None时，所有类别样本权重都为1。也可以利用列表或者字典手动设置各个类别样本的权重，将样本较少的类别赋予更大的权重。当设置为’balanced’时，会自动根据样本出现的频率计算权重，即 n_samples / (n_classes * np.bincount(y))
推荐的设置为：[None, ‘balanced’]

重要属性

1，feature_importances_ ，给出了各个特征对模型的重要性。

2，tree_ ，一个Tree对象，即底层的决策树。

重要方法

1，fit(X,y) : 训练模型。
2，predict(X) : 用模型预测，返回预测值。
3，predict_proba(X) : 返回一个数组，数组元素依次为各个样本属于各个类别的概率值。
4，score(X, y) : 返回在(X, y)上预测的准确率(accuracy)。

决策回归树

引入方式如下：

from sklearn.tree import DecisionTreeRegressor
# 全部参数
DecisionTreeRegressor(criterion='mse', splitter='best', max_depth=None, \
						min_samples_split=2, min_samples_leaf=1, \
						min_weight_fraction_leaf=0.0, max_features=None, \
						random_state=None, max_leaf_nodes=None, \
						min_impurity_decrease=0.0,min_impurity_split=None, \
						presort='deprecated',  ccp_alpha=0.0)