Python机器学习——Sklearn学习笔记

最新推荐文章于 2024-09-09 11:06:22 发布

原创

最新推荐文章于 2024-09-09 11:06:22 发布 · 2k 阅读

·

1

·

本文深入探讨Sklearn库在机器学习中的应用，涵盖数据预处理、特征工程、分类、回归及聚类算法，通过实战案例解析KNN、决策树、逻辑回归等模型的原理与实践，适合初学者及进阶学习。

Sklearn 学习笔记

人工智能->机器学习->深度学习所属分支

图片.png

学习资源来自网站https://www.bilibili.com/video/av39137333

数据分析框架

如何多维度对手头的数据进行描述

数据分析汇总用到的统计学基础知识

机器学习知识域思维导图

图片.png

图片.png

图片.png

图片.png

图片.png

图片.png

机器学习简要介绍

图片.png

图片.png

图片.png

图片.png

特征工程为将预处理过的数据转化为可以被算法所用的数据 date string 类型转为可处理的数据类型

数据集&sklearn基本介绍

图片.png

图片.png

图片.png

图片.png

sklearn 数据集导入

*用导入数据集名称代替

图片.png

图片.png

图片.png

图片.png

数据集返回值是继承自py的字典可以用dataset.key得到value
图片.png

图片.png

数据集的划分训练集和测试集

图片.png

图片.png

随机数种子和testsize根据需求可不填随机数种子决定盲抽哪些数据当做测试
而在当比较不同算法性能时需要控制随机数种子变量一致！！这时候需要自行设定
返回值顺序要格外注意！取名见下

图片.png

图片.png

特征工程介绍

精度差距：算法（基本都用现成，差别不大）+特征值提取

图片.png

图片.png

图片.png

图片.png

pandas处理缺失值某些错误值拿到干净的数据用于学习
何为特征提取？
文本，图像分类时将字符串等无法处理的数据转换为可以用数学公式计算的数值如onehot编码（对每一种类别都平等看待，让编码方式不表示各类的大小关系如001 010 011就隐含了大小比较）
图片.png

图片.png

sparse=True（默认）表明返回的是稀疏矩阵表示形式（数据结构中讲过只表示非0项及其在矩阵中所在位置）见下方
transform dictionary（字典数组） to vector/matrix（数值）
将数据集中每一个样本都转化为一个同维度向量 one hot编码，多个向量构成一个矩阵下面的应用将类别转为one hot编码牺牲了存储空间但保证了各类别的平等
图片.png

图片.png

为了解决使用onehot编码导致矩阵稀疏的缺陷，fit transform使用稀疏矩阵的表示方式来压缩空间左下图
图片.png

图片.png

下图为上述三个函数的使用方法
图片.png

图片.png

应用场景：用于像泰坦尼克数据集中有 pclass sex等多个特征的情况而这些特征的取值范围一般都固定且比较少此时可以将这些特征统统使用字典特征抽取得到稀疏矩阵
图片.png

图片.png

文本特征提取：

图片.png

图片.png

stop_words参数指定不考虑哪些无实际意义的词可以上网查询常见停用词表
transfer.fit_transform(data)默认返回稀疏矩阵格式可以用toarray函数转化为正常矩阵

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。