44、机器学习：回归、降维与聚类分析

最新推荐文章于 2026-06-17 15:24:14 发布

原创最新推荐文章于 2026-06-17 15:24:14 发布 · 48 阅读

0 GEO检测

标签

#机器学习 # 回归模型 # 降维

收录于

Python与数据科学：从入门到精通专栏收录该内容

58 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

机器学习：回归、降维与聚类分析

1. 回归模型指标

Scikit - learn 提供了许多指标函数，用于评估估计器的预测效果，并比较不同估计器，以便为特定研究选择最佳的估计器。这些指标会因估计器类型而异。例如，在数字数据集分类案例研究中使用的 sklearn.metrics 模块的 confusion_matrix 和 classification_report 函数，就是专门用于评估分类估计器的众多指标函数中的两个。

对于回归估计器，常用的指标有决定系数（也称为 $R^2$ 分数）和均方误差。
- $R^2$ 分数 ：范围从 0.0 到 1.0，1.0 表示最佳。$R^2$ 分数为 1.0 意味着估计器能根据自变量的值完美预测因变量的值；$R^2$ 分数为 0.0 则表示模型基于自变量的值无法进行任何准确的预测。计算 $R^2$ 分数的代码如下：

from sklearn import metrics
# 假设 expected 是预期结果数组，predicted 是预测结果数组
metrics.r2_score(expected, predicted)

均方误差 ：计算每个预期值和预测值之间的差异（误差），将每个差异平方，然后计算这些平方值的平均值。在比较估计器时，均方误差值最接近 0 的估计器最适合数据。计算均方误差的代码如下：

订阅专栏解锁全文

会员秒杀 ¥9.9 重磅福利

超级会员免费看

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

wine

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

订阅专栏

Scala 机器学习快速启动指南（二）

龙哥盟

08-30

1613

在无监督学习中，在训练阶段向系统提供一个输入集。与监督学习相反，输入对象没有标记其类别。虽然在分类分析中训练数据集是标记的，但在现实世界中收集数据时，我们并不总是有这种优势，但我们仍然希望找到数据的重要值或隐藏结构。在 2016 年的 NeuralIPS 上，Facebook AI 首席科学家 Yann LeCun 介绍了蛋糕类比“如果智能是一块蛋糕，无监督学习就是蛋糕本身，监督学习就是蛋糕上的糖霜，强化学习就是蛋糕上的樱桃。我们知道如何制作糖霜和樱桃，但我们不知道如何制作蛋糕。

参与评论您还未登录，请先登录后发表或查看评论

44、数据探索分析相关知识与方法

nokia的博客

11-25

本文系统介绍了数据探索分析中的核心概念、方法与工具，涵盖聚类分析、数据可视化、降维技术等多个关键领域。详细阐述了如k-means、层次聚类、PCA、LLE等算法的原理与应用，并结合MATLAB等工具展示了实际操作流程。通过iris数据集的案例分析，呈现了从数据清洗到结果展示的完整探索流程。同时探讨了交互式可视化、并行计算、贝叶斯理论等进阶内容，展望了数据探索在人工智能与大数据背景下的智能化发展趋势。

聚类算法与机器学习实践

cicd6pipeline的博客

09-10

580

本文深入探讨了聚类算法的定义、常见算法（如K-Means、DBSCAN、高斯混合模型）及其应用场景，如非线性降维、异常检测等。介绍了标签传播的实现方式、主动学习的用例及实施步骤、异常检测与新奇检测的区别。通过Olivetti人脸数据集展示了聚类和降维的具体实践，并讨论了逻辑回归与感知机的差异、Sigmoid函数在MLP中的作用、模型优化方法、自定义层与模型的使用场景等关键机器学习话题。

机器学习项目实战合集列表

热门推荐

张陈亚的博客

11-06

1万+

机器学习项目实战合集列表

AI 学习路线 04：机器学习到底在学什么？从分类、回归到模型评估

qq_40600379的博客

06-16

455

机器学习到底在学什么？监督学习、无监督学习、强化学习有什么区别？为什么要划分训练集、验证集、测试集？什么是过拟合、欠拟合、泛化能力？回归、分类、聚类分别解决什么问题？怎么选择常见算法？为什么不能只看准确率？这篇文章会尽量用图、例子和实战代码，把机器学习的基础框架讲清楚。

浅谈机器学习与神经网络

weixin_70221721的博客

06-15

518

简要介绍ML的分类方法以及神经网络

基于机器学习的设备故障预测分析方法

技术日常

06-15

545

数据准备（ation数据处理（Mergings——特征工程（Featureengineering:lagfeaturestatic feature——建模（Modeling:Bin-class, regression,multi-class）——训练、仿真（Training,Simulation——决策（Decision++Binaryc。

基于机器学习的中文文本抑郁症风险检测系统，包括NLP与传统机器学习的抑郁症识别，准确率92%

weixin_49081159的博客

06-15

445

抑郁症作为一种常见的精神障碍，严重影响着全球数亿人的身心健康和社会功能。传统的抑郁症诊断主要依赖临床访谈和量表评估，存在主观性强、效率低等问题。本文设计并实现了一个基于机器学习的中文文本抑郁症风险检测系统，该系统通过对心理咨询文本的多维特征提取与融合，结合多种机器学习算法，实现对正常、疑似、明确三种风险等级的自动分类。系统采用Flask框架构建Web应用，集成了用户管理、单条预测、批量分析、数据可视化及管理员后台等完整功能。在特征工程方面，系统实现了包括情感词频、LIWC心理语言学特征、词性分布、句子结构等

《图解机器学习-第二章》：数据、特征、标签：机器学习到底在学什么？

404 Not Found

06-14

502

模型学的不是数据本身，而是特征和标签之间的映射关系。数据是原料，特征是加工后的食材，模型是厨师。同样的数据，特征工程做得好，模型就能化腐朽为神奇；做得差，再好的算法也是巧妇难为无米之炊。

《图解机器学习-第一章》：机器学习到底是什么？

404 Not Found

06-13

395

你有没有这种感觉——刷抖音的时候，它好像比你自己还懂你？点开一条短视频，下一条居然刚好也是你想看的。这背后藏着一门让计算机学会"思考"的技术。今天就来聊聊它。

人工智能机器学习的偏置项剖析

张晨光老师的播客

06-15

454

英 /ˌɪntəˈsept/ 美 /ˌɪntərˈsept/

功率半导体器件对比文档：Si MOSFET / IGBT / SiC MOS / GaN HEMT

最新发布

V_youhang的博客

06-17

376

本文系统对比了四种主流功率半导体器件（SiMOSFET、IGBT、SiCMOSFET、GaNHEMT）的技术特性与应用场景。从基础概念入手，分析了禁带宽度对器件性能的影响，区分了单极与双极器件导电机制差异。通过工作原理阐释和参数对比表，详细比较了四类器件在耐压范围、开关速度、导通特性等方面的差异。重点解析了各器件的优劣势：硅器件成熟低价但性能受限，SiC器件适合高压高温场景，GaN擅长高频应用但耐压不足。最后提出选型决策树，指出不同应用场景的最优选择，并展望了宽禁带半导体的发展趋势。

《图解机器学习-第三章》：训练、验证、测试：三分数据，缺一不可！

404 Not Found

06-14

286

说到底，数据划分是为了解决一个问题：模型到底是真的学到了规律，还是只是记住了训练数据？验证集和测试集，就是用来回答这个问题的"探路石"。

【机器学习】神经网络

Eddie_hyh的博客

06-15

330

2. 为什么神经网络需要多个输入？为了处理多个特征。例如预测房价：结合面积、卧室数、地段等多个因素，比只看面积准确得多。随机（通常是很小的随机数）。事先设定的超参数，不能直接知道设大还是设小合适。通常做法：从常见值开始试（如0.01或0.001），观察loss变化：有些问题太复杂，一层（输入→输出）学不会。每个隐藏层的神经元，把上一层的多个输出加权求和再激活 → 相当于把小特征拼成更大的特征。以识别手写数字为例：单个神经元识别的特征通常很难直接理解，往往需要多个神经元的输出组合，才能形成人类能理解的特征（

机器学习周报四十九

weixin_60864619的博客

06-14

282

本周阅读了和高斯泼溅人体重建的三篇论文的方法部分，并且对每个方法的优缺点进行总结，为下一步研究指明方向。本周阅读了这三篇人体重建的论文，关于GauHuman在上个星期已经进行了复现，下一步工作是复现3DGA的实验。

深度学习联邦学习与隐私保护机器学习 —— 数据不动模型动（七十六）

hello.reader

06-13

283

机制MMM满足ϵ\epsilonϵ-差分隐私，若对相邻数据集DD′D, D'DD′PMD∈SPMD′∈S≤eϵPMD′∈SPMD∈S≤eϵ→ 一条记录的有无，对输出概率影响很小。

基于 CFD 与机器学习的氧化铝纳米流体汽车散热器冷却性能智能预测

y2715163545的博客

06-17

382

论文来源：Scientific Reports（2026, 16:16382）研究主题：结合数值模拟 (CFD)、实验测试与机器学习 (ML)，探究不同浓度Al2O3（氧化铝）- 乙二醇 (EG) 纳米流体对汽车散热器冷却性能的提升效果，并建立性能快速预测模型。该研究补齐了乙二醇基氧化铝纳米流体在汽车散热器领域的研究短板，通过 “仿真 - 实验 - 机器学习” 融合方案，完整验证了纳米流体的热、水力性能，明确 5%Al2O3为最佳使用浓度，同时搭建了低成本、高效率的性能预测模型。冷却液入口温度：80 ℃；

基于机器学习的新闻分类系统

wyh293的博客

06-15

252

随着互联网信息爆炸式增长，每日产生的新闻文本数量已达亿级规模，传统人工分类方式已无法满足时效性与准确性需求。新闻自动分类作为自然语言处理（NLP）的核心任务之一，对内容聚合、个性化推荐、舆情监控及媒体智能运营具有重要价值。本文设计并实现了一个端到端的基于机器学习的新闻分类系统，融合文本预处理、特征工程、多模型对比与集成优化策略。系统采用TF-IDF与Word2Vec双路径特征表示，构建SVM、朴素贝叶斯、随机森林及BERT微调四类分类器，并引入Stacking集成框架提升泛化能力。实验基于...

机器学习之定义与三大范式

木梓油

06-16

301

本文系统梳理了机器学习的定义演变与三大学习范式。从历史发展看，机器学习概念始于1952年塞缪尔的跳棋程序，经多位学者不断完善：塞缪尔提出"不依赖显式编程的学习能力"（1956）、兰利强调"通过经验改善算法性能"（1996）、米切尔建立"任务-经验-性能"三要素框架（1997），到墨菲从概率视角定义模式识别与预测（2012）。机器学习主要分为三大范式：监督学习通过标注数据建立输入输出映射；无监督学习自主挖掘数据结构；强化学习通过环境反馈优化决策策略。这些范式共同构成机器学习方法论体系，推动着从ImageNet

基于层次聚类的UCI动物园数据集分析与实现

ZHW-鲜橙大AI课题组的博客

06-17

248

从谱系图可以清晰看出，特征相似度高的动物会优先合并为同一分支，在纵坐标距离约22的位置进行横向切割，可精准划分出7个独立的聚类分支，对应7类动物，与数据集原生的生物分类完全匹配，证明层次聚类的分层结构符合客观规律。轮廓系数越接近1，代表簇内样本相似度高、簇间差异大，聚类效果最优；相比于单链接、全链接距离算法，Ward法能够最大程度保证每一个聚类内部样本特征高度相似、聚类之间差异明显，生成的聚类结构紧凑、分类边界清晰，有效避免了聚类松散、分类错乱的问题，适配本实验0-1二值特征+少量数值特征的混合数据集。