2023级大数据学习与分析学习笔记

原创已于 2026-06-27 16:55:37 修改 · 317 阅读

3 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#学习 #笔记

于 2026-06-22 19:50:29 首次发布

第一次课

1.数据分析：

用适当的统计分析方法对收集来的大量数据进行分析。提取有用信息和形成结论而对数据加以详细研究和概括总结的过程

2.数据挖掘：

从大量的数据中通过算法搜索隐藏于其中信息的过程，是数据库知识发现中的一个步骤。

3.数据仓库：

为企业的决策制定，提供所有类型数据支持的战略集合。它是单个数据存储，处于数据分析和决策支持目的而创建。为需要业务智能的企业，提供业务流程改进，成本质量控制等方面的指导。

4.大数据的特性理解：规模大、多样化、高速性、价值化、准确性、动态性、可视化、合法化

5.大数据的定义：体量大、快速和多样化的信息资产，需用高效率和创新性的信息技术加以处理，以提高发现洞察，作出决策和优化流程能力。

6.数据挖掘的任务：

描述性（descriptive）：刻画目标数据中数据的一般性质

预测性（pri）：对当前数据进行归纳，以便预测

7.关联规则：

-目的：分析变量之间的依赖关系。

-应用场景：购物分析、医疗信息、气象预测、推荐系统

8.K-Means聚类：

-（1）选择K个点作为初始质心

-（2）Repeat:

·将每个点指派到最近的之心，形成K个簇

·重新计算每个簇的质心

（3）直到质心不发生变化

4.大数据的特性：规模大、多样化、高速性、价值化、准确性、动态性、可视化、合法化

5.大数据的定义：体量大、快速和多样化的信息资产，需要高效率和创新型的信息技术加以处理，以提高发现洞察、做出决策和优化流程能力。

第二次课

1.K-Means聚类

（1）选择K个点作为初始质心

（2）Repeat:

将每个点指派到最近的质心，形成K个簇

重新计算每个簇的质心

（3）直到质心不发生变化

2.分类

分类是一种典型的有监督学习问题，建立数据特征和数据类别之间的映射关系的模型。

（1）标定的训练数据

（2）训练过程：根据目标输出与实际输出的误差信号来调节参数

（3）目标：找到样本到标签的最佳映射

（4）应用场景：垃圾邮件分类、病理切片分类、客户流失预警、客户风险

评估、房价预测等。

（5）典型方法

全局：神经网络，支持向量机，决策树、贝叶斯分类

局部：K近邻、CBR（Case-base reasoning）

3.回归：

是一种确定两种或两种以上变量问相互依赖的定量关系的有监督学习方法，建立连续

函数模型。

应用场景：

（1）流行病学：吸烟对死亡率和发病率影响的早期证据来自采用了回归分析的观察性证据

（2）金融：资本资产定价模型利用线性回归以及Beta系数的概念分析和计算投资的系统风险

（3）经济学：预测消费支出，固定投资支出，存货投资。一国出口产品购买，劳动力需求，劳动力供给。

4.场景：

假设你们是一位老师，教一门课《科学与技术》，学期到一半的时候，期中考试。根据你已经拿

到的信息，提前识别期末的时候，那些同学会不及格。对于预测出来不会及格的同学，谈话，辅导

，叫家长。

（1）问题定义：

目标：预测学生期末考试及格还是不及格

特点：这是不是一个典型二分类问题。Logistic回归正是解决这类问题的经典算法。

（2）收集数据

上一届学生的期中成绩，数据，以及期末成绩

学生id	期中考试成绩	前半学期缺课次数	期末成绩及格为1，不及格为0
1	85	1	1
2	78	2	1
3	92	0	1
4	45	5	0
5	60	4	0
6	30	8	0

（3）Logistic回归在做什么？

会尝试画一条直线直接预测（及格1，不及格0），但是这会产生大于1和小于0的数。Logistic回

归的巧妙之处在于，他先计算一个数，然后通过一个特珠的sigmoid函数，将这个分数转换为一个

0道1之间的数。

（4）模型训练

我们将数据输入SPSS或Python代码里面进行Logistic回归训练后，模型会计算出最佳系数a.D.c

假设结果如下：

截距项a=-5.5

期中成的系数D=0.1

缺勤次数的系数C=-1.2

模型解读：

期中成绩的系数是正数：说明期中成绩越高，通过考试的几率越大。

缺勤次数的系数是负数：说明缺勤次数越多，通过考试的概率越小。而且这个系数的绝对值更大

，总味着在当前系数中，缺勤对于不及格的影响比期中成绩的影响更大，

5.进行预测

现在对自己班级学生的数据，进行预测

学生：a

特征：期中成绩50，缺勤次数=2

带入：z=-5.5+0.1*期中考试成绩+（-1.2）*缺勤次数 z=-2.9

计算供率P=1/（1+e2.9）≈0.052

结果：a同学通过考试的概率只有5.2%，如果概率没有大于50%，那么模型预测a同学不会及格。

学生b

特征：期中成绩=80，缺勤次数=1

第三次课

1.大数据

2.多维度：

多维度=多角度、多特征、多属性一起分析

3.初始数据存在杂乱性

（1）不完整（本应记录的数据项为空值或缺失）

（2）含噪声（数据中存在错误值、异常值或干扰信息）

（3）杂乱性（数据格式不统一、命名不规范、存在重复记录或语义冲突）

4.数据预处理

数据预处理是指对数据进行挖掘之前要做的一些处理，包括对原始数据进行抽取、清洗、集成、转换、加载、离散和规约等一系列处理，以达到数据挖掘算法对数据要求的最低标准。

一般来说，数据预处理的步骤包括数据清洗、数据集成、数据变换、数据规约，每个步骤又有一些小的细分点，但在做数据预处理时这四个步骤未必都要执行。

第四次课

1.缺失值清洗：

（1）删除法：根据删除的不同角度，可以分为行删除法和列删除法，行删除法删除观测样本，相当于通过减少样本量来换取信息的完整度，列删除法删除变量，相当于通过减少样本的属性来换取信息的完整度。

（2）替换法：针对不同的变量，有不同的替换规则，当缺失值所属的变量为数值型时，用该变量下其他数值的均值替换缺失值；当缺失值所属的变量为非数值型时，用该变量下其他观测值的中位数或众数替换缺失值。

（3）插补法：插补法分为回归插补和多重插补，回归插补是指将插补的变量作为因变量，将其他变量作为自变量，利用回归模型进行拟合，多重插补是指从一个包含缺失值的数据集中生产一组完整的数据，如此多次进行插补，产生缺失值的一个随机样本。

2.异常值清洗：

异常值清洗包括异常值的识别和异常值的处理。

（1）异常值的识别通常用单变量散点图和箱型图来处理，把图形中远离正常范围的点当做异常值。

（2）异常值的处理包括删除含有异常值的观测结果（当样本量少时直接删除会造成样本量不足，改变变量的分布），把异常值当做缺失值（利用现有的信息，将其当作缺失值进行填补），用平均值修正（用前后两个观测值的均值修正该异常值），不处理。在进行异常值处理时要先找到异常值出现的可能原因，再判断异常值是否应该舍弃。

3.逻辑错清洗：

这部分的工作是去掉使用简单逻辑推理就可以直接发现问题的一些数据，防止分析结果走偏。主要包含去重、去掉不合理值、修正矛盾内容这几个步骤。

（1）去重：对于各个特征值完全相同的两条或多条数据，只保留其中的一条数据，删除其中的数据，数据不完全相同，但从业务角度看是同一个数据。

（2）去掉不合理值：根据业务常识，或者使用箱型图等工具发现数据中的不合理的特征值。

（3）修正矛盾内容：有些字段间有逻辑关系，但是时实际获得初始数据中他们之间有矛盾。

4.数据变换：

数据变换就是被数据转化成适当的形式，满足软件或分析理论的需要。数据变换策略包括光滑、聚集、数据泛化、属性构造、简单函数变换、规范化和连续属性离散化。

（1）光滑：例子：某学生一学期的数学测验成绩分别为：78、85、6-、92、88，为了消除单次考试失常的噪声，采用移动平均法，计算连续三次成绩的均值：第一次（78+85+60）/3=74.3，第二次（85+60+92）/3=79，第三次（60+92+88）/3=80，光滑后的序列（74.3、79、80）更能反映学生的稳定水平。

（2）聚集：例子：学校需要统计各年级的平均成绩，将全校所有学生的考试成绩按年级分组，计算每个年级的平均分、最高分和最低分，从而将书欠条个体数据汇总为几个年级的统计指标。

（3）数据泛化：例子：在学生画像中，原始数据记录了每个学生的具体年龄，为了分析不同学段的学习特点，将年龄泛化为概念层，6-8岁归为低年级，9-11岁归为中年级，12-14归为高年级。

（4）属性构造（Attribute Construction）

例子：根据学生的“作业提交时间”和”作业截止时间”，构造一个新属性“提交提前量”（截止时间

减去提交时间，单位为小时），这个系属性可以帮助分析学生的拖延程度与成绩的关系。

（5）简单函数变换（Simple Function Transformation）

例子：某次期末考试的成绩分布严重右偏（多数学生分数集中在低分段），为了满足后续统计分

析（如t检验）对正态性的要求，对成绩取自然对数，变换后的数据更接近正态分布。

（6）规范化（Normalization）

例子：在综合评价学生时，需要将“期末成绩”（0-100分）和“课堂互动次数”（0-50次）两个指标

合并。为了消除量纲影响，采用最小-最大规范化，将两个指标都映射到［0,1区间，再技权重求

和得到综合评分。

（7）连续属性离散化（Discretization）

例子：将学生的考试成绩（0-100的连续值）划分为离散等级：优秀（≥90）、良好（75-89）、

及格（60-74）、不及格（<60）•这样便于进行等级评定和规则挖掘（如关联规则“数学优秀一物

理良好”）

第五次课

一、数据规约

数据规约是指在尽可能保持数据原貌的前提下，最大限度精简数据量。数据规约能够降低无效错误的数据对建模的影响，缩短处理时间，缩小存储数据的空间。

数据规约分类：属性规约，数值规约

（一）属性规约（减少列/特征）：

通过选择或组合原有属性，减少数据表中的字段（列）数量，同时保留原始数据的主要信息。

例子1：特征选择（删除无关属性）

例子2：特征提取（主成分分析）

（二）数值规约：

定义：通过选择替代的、较小的数据表示形式，减少数据记录的条数或数据的精度

例子1：抽样（减少行数）

某市教育局需要分析全市50万名中小学生的体质健康数据

例子2：数据离散化（降低精度）

某校记录了1000名学生每次考试的具体分数（0-100的连续值），要做学生等级评定

例子3：聚类块（用中心点代替群体）

某在线教育平台有10万名活跃用户，需要分析不同学习风格的群体

实验：

列名	含义
Gender	性别。通常为分类变量，如“男”“女”
Nationality	国籍。学生所属的国籍类别
PlaceofBirth	出生地。学生的出生地点（通常与国家或地区有关）
StageID	教育阶段表示。表示学生当前所处的学段，例如小学、初中、高中等
GradeID	年级标识。具体年级，如G1、G2··········或者对应某个年级的编码
SectionID	班级/组别标识。同一学年的不同班级或教学班
Topic	课程主题\学科。正在学习的课程名称（如数学、语文、科学等）
Semester	学期。第一学期或第二学期
Relation	学生与监护人的关系。例如父母、祖父母、其他亲属等。
RaisedHands	举手次数。学生在课堂上的举手互动次数（数值型）
VisitedResources	课程访问资源的次数。学生登录或者浏览教学资源（如在线材料）的次数
AnnouncementsView	查看公告次数。学生查看学校或课程通知的次数
Discussion	课程讨论参与情况。可能是参与讨论的次数或是否参与的标识
ParentAnsweringSurvey	家长是否回应调查问卷。通常为二元变量（是/否），表示家长是否完成了学校调查
ParentSchoolSatisfaction	家长对学校的满意度。等级变量（如好、一般、差，或数值评价）
StudentAbsenceDays	学生缺勤天数。统计该学生在统计周期内缺席的总天数（通常按少于7天、7天以上等分类）
Class	最终分类标签/成绩等级。表示学生的学业表现或结果类别（例如低、中、高，或是否表现差异）

实验一：

（一）预览处理

1.新建：将源—Excel拖入工作区

2.导入需要分析的Excel表

3.输出—建立连接

4.运行

5.数据审核—建立连接—运行

6.缺失值丢失处理—删除空值、丢弃

（未处理前）

（过程图）

（处理后结果图）

（1）

（未处理前）

（过程）

（结果图）

（2）

（未处理前）

（过程）

（结果）

第六次课

一、数据降维

数据降维概述

特征＝具体的属性（如“年龄”）
维度=这些属性的个数（如“年收入、学历”→3维)
降维的本质：减少特征的数量，但不破坏数据的核心结构。降维后，新生成的每个“成分”可能
不再是原始意义上的特征，而是特征的组合，但维度（新特征的数量）变小了。

数据降维的概念
数据降维，也称为维数约简，是指将原始高维特征空间里的点投影到一个
低维空间中，使得新的空间维度低于原始特征空间维度，以减少数据维数。
在投影过程中，新的特征将保持原有特征的一些性质，同时也有一些原始特
征会消失。数据降维的优势是降低数据维度，便于数据计算和可视化，其更
深层次的意义在于提取有效信息和摒弃无用信息。

举例说明
例子1：游戏玩家数据

·特征：“击杀”“死亡”“助攻”“补刀”“经济”“插眼”——这6个具体的列就是特征。
·维度：数据维度=6(因为有6个特征）。
·降维后，我们用“整体实力”“激进程度”“辅助倾向”这3个新特征代替原始6个，此时维度变为3。
引入:

游戏背景
一款MOBA游戏中-每名玩家在单局游戏中的表现可以用几十个甚至上百个指标来衡量：
·基础数据：击杀数、死亡数、助攻数、补刀数、经济、经验、推塔数、插眼数、
·高阶数据：分均伤害、分承伤、参团率、视野得分、技能命中率、对位压制差
·操作细节：APM（每分钟操作次数）、反应时间、技能连招速度
这些指标构成一个高维空间（例如100维）。如果直接使用所有指标进行玩家实力评估、匹配对
手、或推荐英雄，会带来三大问题：
1.计算复杂：匹配服务器需要在海量玩家中快速计算相似度，高维计算成本极高。
2.兄余干扰：很多指标高度相关（例如“击杀数”与“总伤害），且部分指标（如某次排位的偶然
高击杀）带有噪声。

第七次课

1.数据维度过高会加大模型复杂度，样本不足时泛华性差

模型复杂度：指模型结构或参数数量的多少。维度越高，模型需要的参数往往越多（例如线性模型每个特征对应一个系数）

泛化性：指模型在未见过的数据上的表现能力。泛化性好的模型不仅能记住训练数据，还能对新数
据做出正确预测
当特征数量远多于样本数量时（比如100个样本、1000个特征），模型很容易“记住”训练数据中的
噪声和偶然模式，而不是学习到真正的规律一一这叫过拟合。过拟合的模型在训练集上表现完美，
但在新数据上表现很差，即泛化性差。
游戏例子：假设我们只有1000个玩家的数据，但用了100个游戏指标。一个过于复杂的模型可能会
学到“某次击杀数恰好与某个英雄皮肤相关”这种虚假规律，导致在匹配新玩家时完全失效。

2.数据降维可以去除数据属性之间的共线性

共线性：指两个或多个特征之间存在高度相关性。例如“击杀数”和“总伤害数”往往强相关，“补刀数”和“经济”也基本同步
共线性会带来问题：
·模型无法稳定区分每个特征的独立贡献，参数估计波动大。
·增加计算冗余，浪费算力。
降维（如PCA）通过将原始特征线性组合成少数几个不相关的新特征，直接消除了共线性。这些新
特征彼此正交（独立），不再互相干扰。
游戏例子：原始特征中“击杀”和“伤害”高度相关，降维后它们被合并到“整体实力”这个新维度中，不
再存在共线性问题。

3.降低模型复杂度，降低模型训练时间

模型复杂度：降维后，特征数量从几百个减少到几十个甚至几个，模型需要学习的参数数量大幅减少。例如逻辑回归模型的系数数量等于特征数，降维后系数变少，模型结构更简单。

个人理解：模型复杂度就是模型要学习的参数多少，降维后，让模型更简单、学的更快更稳。
训练时间：模型训练的计算量通常与特征数量成正比（甚至更高）。特征减少后，每次迭代的计算
量下降，训练速度自然提升。
游戏例子：匹配系统原本需要在100维空间里计算玩家相似度，降维到5维后，距离计算速度提升
20倍，匹配时间从十几秒缩短到3秒内。

4.提高模型的鲁棒性和泛化性

鲁棒性：指模型对噪声、异常值、数据微小变化的容忍能力。高维数据中常含有随机噪声，降维时会舍弃那些方差很小或主要代表噪声的成分，使模型不再受干扰影响，因此更稳健

个人理解：模型抗干扰能力，

泛化性：降维去除了冗余信息和噪声，迫使模型关注数据中最重要的模式。从而减少了过拟合的风险，使模型在新数据上表现更好。
游戏例子：玩家单局游戏可能有偶然的“超神”或“超鬼”，这些异常值在高维原始数据中会造成剧烈
波动。降维后，这些偶然噪声被过滤（因为它们不属于主要变化方向），模型评估的是玩家长期稳
定的实力风格，匹配更公平，对新对局的预测也更准。

第八次课

二、特征选择

1.定义：

特征选择是从n个特征中选择m（m<n）个特征，将剩下的n-m个特征舍弃，选择最优特征子集，以达到特征冗余最小化，并实现模型与目标相关性的最大化。在特征选择中按照某个标准对原有特征进行简化，并去掉一些冗余特征。被选择的m特征没有任何变化，只是原有特征的一个子集，因此特征选择具有更好的可读性和可解释性。

2.特征选择数据降维方法

选择策略——从特征属性出发考虑

·采用这种选择策略时，尽量找出携带信息量较大，信息区分性较大的特征属性。

测量特征属性取值离散程度的一个重要指标是标准差或变异系数。标准差越大，说明特征属性的取值越离散。而变异系数主要用于多个特征属性离散程度的比较。

1. 若某数值型特征属性的变异系数小于某个标准值，则视该特征属性为不重要。
2. 若某数值型特征属性的标准差小于某个标准值，则视该特征属性为不重要。
3. 对于分类型特征属性，计算该特征属性在各类中的取值比例，若比例低于某个标准值，则视该特征属性为不重要。
4. 若某个特征属性的缺失值大于某个标准值，则视该特征属性为不重要。

解释：
标准差和变异系数是统计学中衡量数据离散程度（即数据点之间的差异大小）的两个常用指标。
特征选择中，它们帮助我们判断一个数值型特征是否携带足够的信息量—如果所有样本在该特征上的取值都差不多（离散程度小），那么这个特征就难以区分不同的样本，可以被剔除。

（1）标准差 (Standard Deviation)：

定义：标准差是各数据点与均值之差的平方和的平均信的平方根。它反映了数据相对于均值的平均波动大小。

理解：标准差与原始数据具有相同的单位。标准差越大，说明数据越分散，取值范围越宽；标准差越小，说明数据越集中在均值附近。
游戏例子（沿用之前的数据）：
•特征”击杀”：所有玩家的平均击杀为5.2标准差为2.1。这意味着大部分玩家的击杀数落在5.2+2.15.22.1即3.1~7.3的范围内，分布较分散，有区分度。
•特征”补刀”：均值为180，标准差为45。虽然45看起来不小，但相对于均值180而言，波动相对较小（见下文变异系数）。
在特征选择中的用法：设一个绝对阈值，例如”标准差＜1.0的特征视为不重要”。但问题在于，不同特征的单位不同（比如击杀的单位是个，经济的单位是千），直接比较绝对标准差没有意义。
因此，通常更推荐使用变异系数。

(2)变异系数

定义：是标准差与平均值的比值，用于消除量纲和均值大小的影响，从而比较不同特征之间的相对离散程度

理解：变异系数是一个无量纲的纯数。它衡量的是相对于均值水平的波动大小。例如，两组数据：
第一组均值为100、标准差为10；第二组均值为10、标准差为5。绝对标准差（10vs 5）不能直接比较，但变异系数分别为0.1和 0.5，说明第二组数据的相对波动更大。
游戏例子：

(3)为什么不能只依赖标准差？

标准差受量纲和均值大小喜响。例如：
• 特征A：人均收入（单位：元），均值为 5000，标准差为1000 CV=0.2
• 特征B：击杀数（单位：个），均值为5，标准差为2 CV=0.4
虽然特征 A 的绝对标准差（1000）远大于特征B（2），但相对离散程度却更小（0.2<0.4），说明人均收入这个特征在所有样本中变化不大，区分度不如击杀数。如果直接用标准差阈值，可能会错误地保留收入而剔除击杀。

选择策略一从输入特征属性与输出特征属性的相关性度考虑

如果某输入特征属性和输出特征属性之间的相关性强，则该输入特征属性需要被选入。可以比较计算输入特征属性与输出特征属性之间的相关系数，若相关系数比例低于某个标准值，则该输入特征属性应视为不重要的特征属性。特征属性间的相关性通常可以用皮尔逊相关系数计算。皮尔逊相关系数（Pearson Correlation Coefficient）是一种被广泛使用的线性相关性度量方法，它通常用来计算两个数值型特征属性的相关性。皮尔逊相关系数本质上是两个向量之间的协方差，可以反映均值上下波动的一种趋势。

三、特征提取

1.定义：

特征提取是通过函数映射从原始特征中提取新特征的过程，通过特征提取可以得到另外一组新特征。特征提取后的新特征不再是原有特征的子集，而是原有特征的线性（或者非线性）映射。特征提取的本质是从原始高维空间向低维空间投影，减少特征数量，从而达到数据降维的目的

2.特点：

·生成新特征：新特征是原始特征的数学组合（如加权和、非线性映射），没有直观地业务含义。

·可能丢失可解释性：例如PCA生成的主成分是“击杀*伤害*0.5+....”，很难直接解释

·方法：PCA（主成分分析）、LDA（线性判别分析）、t-SNE、自编码器等

游戏例子：用PCA将100个指标压缩成5个主成分，每个主成分都是所有原始指标的线性组合。虽然整体实力这个维度可以被近似解释，但它并不等同于任何原始指标

3. 特征提取数据降维方法分类

（1）基于线性映射的数据降维方法：

主成分分析法(Principal Component Analysis，PCA)、线性判别分析法(Linear Discriminant Analysis，LDA)、因子分析法(Factor Analysis，FA)等。

①主成分分析法

主成分分析法(PCA)是最常用的线性降维方法，它的目标是通过某种线性投影，将高维的数据映射到低维的空间中，并期望所投影的维度上数据的方差最大，以此在使用较少的数据维度的情况下，保留较多原有的数据特征。

主成分分析法力求在降维之后能够最大程度地保持数据的内在信息，因此，它是丢失原始数据信息最少的一种线性降维方法。

主成分分析法根据投影方向上的数据方差大小来衡量某一维度的重要性。但是通过投影处理后，对数据的区分作用并不大，反而可能使得数据点揉杂在一起，无法区分，这导致在很多情况下主成分分析法的分类效果并不好。

因此，主成分分析法的优点是能够提取最主要的信息，同时保证误差最小；缺点是它将线性映射，却忽略了类别属性，而它所忽略的投影方向有可能刚好包含了重要的区分性所有的样本(特征属性集合)作为一个整体去对待，去寻找一个均方误差最小的最优信息

例子：学生成绩数据（3门科目，降维到2个主成分）

假设我们有100名学生，记录他们在3门科目上的成绩：数学、语文、英语。
此外，我们知道每个学生的文理分科标签：理科生（擅长数学）或文科生（擅长语文）。

a.原始数据分布（3维空间）

• 所有学生的成绩都在60~100分之间。

• 理科生：数学普遍很高（85~100），语文中等（70~85），英语中等（75~90）。

• 文科生：语文普遍很高（85~100），数学中等（70~85），英语中等（75~90）。

• 两类学生在英语上高度重叠。

整个数据集的整体方差：数学和语文的方差都较大（因为两类学生擅长不同科目），英语方差也中等。但关键在于：区分文理科的最强方向是数学-语文的差异（即“数学-语文”这个维度）。

b.PCA的计算过程

PCA会计算3个主成分（每个都是数学、语文、英语的线性组合）：

• PC1（方差最大）：大约是 0.6*数学 + 0.6*语文 + 0.5*英语（正相关于“总成绩”）。因为大部分学生的总成绩差异（60~100）是总方差的主要来源。

• PC2（方差次大）：大约是 0.7*数学 - 0.7*语文 + 0.0*英语（正相关于“数学-语文”），这正是区分文理科的关键方向。但它的方差小于PC1，因为总成绩的波动比“数语差”的波动更明显。

• PC3（方差最小）：包含一些噪声和英语的剩余变异。

c.PCA降维到2个特征

如果保留PC1和PC2（丢掉PC3），这属于特征提取——每个学生现在用两个新特征（PC1得分，PC2得分）表示。这两个新特征（注：此处工具栏遮挡部分文字，原句应为“这两个新特征是数学、语文、英语科目的线性组合”）。

关键问题：在这个降维结果中，PC2（分类关键方向）被保留了，按理说应该还能分类。但如果在某些数据集中，PC2的方差甚至小于PC3，或者我们只允许保留1个特征（降到1维），就会丢掉PC2。

d.展示PCA丢失分类信息的典型场景

为了更符合你的预期（多特征且PCA会丢失分类信息），考虑下面这个更现实的配置：

原始特征（4个）：

• F1, F2, F3：三个高度相关的测量值（比如三种不同方法测量的“总体能力”），方差都很大，但对区分两类几乎无用。

• F4：一个方差较小但对分类极关键的指标（比如某种特定的生物标记物）。

PCA的第一主成分会大约等于 (F1+F2+F3)/3（方差巨大），第二主成分可能是 (F1-F2)/√2（方差中等），第三主成分可能是 (F1+F2-2F3)/√6（方差小），第四主成分（方差最小）才约等于F4（或与F4高度相关）。

如果我们将4维降到2维，PCA会选择前两个主成分（几乎不含F4的信息），从而完全丢失分类关键特征。虽然每个主成分仍是所有原始特征的线性组合，但F4的系数在前两个主成分中几乎为零，所以分类信息被丢弃了。

e.对比特征选择

如果采用特征选择，你可以直接保留F4（即使方差小），而抛弃F1,F2,F3。但PCA做不到这一点，因为它只看方差，F4贡献的方差太小，会被排到末尾的主成分中，一旦降维到低于原始维数，这些低方差主成分就被丢弃。

②因子分析法

因子分析法(FA)是研究从变量群中提取共性因子的统计方法，最早由英国心理学家斯皮尔曼提出。他发现学生的各科成绩之间存在着一定的相关性，某一单科成绩好的学生，往往其他各科成绩也比较好，从而推想是否存在某些潜在的共性因子或者某些一般的智力因素，影响学生的学习成绩。

因子分析法可以在许多变量中找出隐藏的具有代表性的因子。将相同本质的变量归入一个因子，可减少变量的数目，还可检验变量间关系的假设。因子分析是一种减少变量个数、降低数据维度的多元统计分析方法。有效减少参与建模的变量个数，又不造成数据特征的大量丢失，是因子分析法的核心所在

总结:

• 从变量群中提取共性因子：从5科成绩中提取“语言能力”和“数理能力”两个共性因子。

• 减少变量个数：5个观测变量降成2个因子。

• 不造成数据特征的大量丢失：两个因子保留了原始变量之间的相关结构，预测成绩分布时误差较小。

• 检验变量间关系的假设：可以验证“语文和历史是否属于同一因子”“数学和物理是否属于同一因子”等假设。

（2）基于核函数的数据降维方法

核函数是隐含着一个从低维空间到高维空间的映射，这个映射可以把低维空间中线性不可分的数据变成线性可分的数据。
主要有核独立成分分析法(Kernel Independent Component Analysis，KICA)、核主成分分析法(Kernel Principal Component Analysis，KPCA)、核判别分析法(Kernel Discriminant Analysis，KDA)等。

（3）基于流形数据的降维方法

多维缩放(Multiple Dimensional Scaling，MDS)、等度量映射降维(Isometric Feature Mapping，ISOMAP，)、拉普拉斯映射(Laplacian Eigenmaps，LE)、局部线性嵌入降维(Locally Linear Embedding，LLE)、t-分布随机邻居嵌入(t-distributed Stochastic Neighbor Embedding，t-SNE)、一致流形逼近与投影降维(Uniform Manifold Approximation and Projection for Dimension Reduction，UMAP)等。

第九次课

实验二：

步骤：

筛选：删除不重要或者有问题的数据、记录或者个案。（标准差，变异系数）

设置特征选择，设置筛选数据质量问题的筛选标准

排序：对剩下数据排序并根据重要程度给他们分级。相关性（皮尔逊）

选择：确定要在后续模型中使用的功能子集

（一）筛选：设置特征选择，设置筛选数据质量问题的筛选标准

(原始数据）

（二）数据字段重要性程度计算方法的设置

（三）不同字段的重要性指标计算方法

目标	输入	排序方法
分类	分类	Pearson.似然比，克莱姆系数，Lambda
分类	分类和数值	Pearson，似然比
数值	分类	F统计量
数值	数值	T统计量

(Class—运行—编辑)

这个代表每个字段重要性的排名

打×代表过滤掉的字段

（预览）

发现已经过滤掉两个字段了，目前只有15个字段

一、背景：为什么需要检验是否适合做因子分析？

因子分析的核心是从变量间的相关性中提取公共因子。如果原始变量之间基本不相关（近似独立），那么就没有 “公共因子” 存在的必要，强行做因子分析只会得到无意义的结果。

因此，在实施因子分析之前，需要统计检验来回答两个问题：

变量间是否有足够的相关性？（否则无法提取公共因子）
相关性的强度是否适合因子模型？（太弱或太强都不好）

KMO 检验和 Bartlett 球形检验就是针对这两个问题设计的标准。

二、KMO 检验（Kaiser-Meyer-Olkin）

1. 定义

KMO 统计量比较的是简单相关系数与偏相关系数的大小：

• 简单相关系数：反映两个变量直接的相关程度（如语文和数学的相关系数 r=0.6）。

• 偏相关系数：在控制其他变量影响后，两个变量之间的净相关程度（如控制英语、物理、历史后，语文和数学的偏相关系数）。

2. 计算公式（理解即可）

分子是所有变量对之间简单相关系数的平方和。
分母再加上所有偏相关系数的平方和。

3. 直观解释

• 如果变量间共享强公共因子，那么控制其他变量后，偏相关系数会变得很小（因为公共因子已被其余变量解释）。此时分子大、分母小，KMO 接近 1。

• 如果变量间几乎独立（或仅有微弱的、零散的、不能被公共因子统一解释的相关性），那么偏相关系数不会明显小于简单相关系数，KMO 会较小（< 0.5）。

KMO 值范围	适合程度
> 0.9	极适合（marvelous）
0.8 – 0.9	适合（meritorious）
0.7 – 0.8	尚可（middling）
0.6 – 0.7	勉强（mediocre）
0.5 – 0.6	不太适合（miserable）
< 0.5	非常不适合（unacceptable）

三、Bartlett 球形检验（Bartlett's Test of Sphericity）

1. 原假设与备择假设

• 原假设 H_0：总体相关矩阵是一个单位矩阵（即所有变量的对角为1，非对角为0）。这意味着变量在总体中相互独立，没有任何相关性。

• 备择假设 H_1：总体相关矩阵不是单位矩阵，变量之间存在显著的相关性。

2. 检验统计量

Bartlett 球形检验基于相关矩阵的行列式，构造一个近似服从 \chi^2 分布的统计量。
如果原假设成立，相关矩阵的行列式接近于 1（因为独立变量组成的相关矩阵是单位阵，行列式=1）。

3. 结果解读

• p值 < 0.05（或 < 0.01）：拒绝原假设，认为变量之间存在显著的相关性，适合做因子分析。

• p值 ≥ 0.05：不能拒绝原假设，变量间没有显著相关性，不适合做因子分析。

注意：Bartlett 检验对样本量敏感，大样本下即使微弱的相关也会变得显著。所以单凭 p 值 < 0.05 还不够，还需结合 KMO 判断相关性强度。

总结

检验	作用	标准	本例结果
KMO	判断变量间相关性强弱（偏相关是否足够小）	> 0.7 较好，> 0.6 勉强可用	0.82 → 适合
Bartlett 球形检验	判断相关矩阵是否为单位阵（变量是否独立）	p < 0.05 适合	p = 0.000 → 适合

两者通常同时使用：

KMO 保证相关性强度足够（避免因子过少）。
Bartlett 保证相关性显著非零（避免因子为零）。

如果 KMO 很低（<0.5）或 Bartlett 检验不显著（p≥0.05），则不应继续做因子分析，而应考虑删除部分变量或者采用其他降维方法（如 PCA 或直接变量聚类）。

第十次课

实验三：因子分析法

1.导入数据.......

2.将Class设置为目标，其他所有字段都设置为输入

3.设置主成分、因子

专家：用于设置“主成分分析/因子”节点的因子提取模式的等相关参数。模型有7种

（运行主成分分析因子）

共同度表（Communalities）方差解释表（Total Variance Explained）因子载荷矩阵（Component Matrix）

● 决策树的特点:

决策树体现了输入变量和目标变量取值的逻辑关系
与很多同样可以实现分类预测的算法相比，决策树的最大特点是：分类预测是基于逻辑的，即利用 IF...THEN...的形式。通过输入变量取值的布尔运算(逻辑比较)，预测目标变量的取值。

如该图所示决策树体现的逻辑关系有：
IF 消费频率="经常" THEN 打算购买；
IF (消费频率="偶尔")且(收入水平="高收入"或收入水平="中收入") THEN 打算购买；
IF 消费频率="从未" THEN 不打算购买；
IF (消费频率="偶尔")且(收入水平="低收入") THEN 不打算购买。

● 决策树的生长:

① “差异下降是否显著？”
是指分组样本中目标变量取值的差异性是否随决策树的生长(分组的进行)而显著减小。有效的决策树分支(分组)应当使枝(组)中样本的目标变量取值尽快趋同，差异迅速下降。

分支准则的确定涉及下述两方面问题。
① 如何从众多的输入变量中选择一个当前最佳的分组变量。
② 如何从分组变量的众多取值中找到一个最佳的分割点，不同的运用决策树的算法，如 C5.0、CHAID、QUEST、CART 等算法采用不同的策略，具体将在后面讨论。

② “到达叶子节点”的一般标准是，节点中样本的目标变量均为相同类别，或达到用户指定的停止生长标准。

● 决策树的修剪:

(1) 决策树的预修剪:
预修剪主要用来限制决策树的充分生长。预修剪最直接的方法主要有以下两种：
① 事先指定决策树生长的最大深度，决策树生长到指定深度后就不再继续生长。
② 事先指定样本量的最小值，每个节点所含样本量不应低于该值，否则相应节点不能继续分支。

预修剪能有效阻止决策树的充分生长，但要求对变量取值分布有较清晰的把握，对参数需反复尝试。否则很可能因参数值不合理而导致决策树深度过浅，使得决策树的代表性“过于一般”，从而无法实现对新数据的准确预测。

◆ C5.0算法

概述：C5.0 算法用于生成多分支的决策树，决策树的核心问题之一是决策树分支准则的确定，C5.0 算法以信息增益率为标准确定最佳分组变量和分割点，其核心概念是信息熵。
应用：SPSS Modeler 软件中的 C5.0 算法通过“建模”选项卡中的 C5.0 节点实现。

概述:信息熵是信息论中的基本概念。该理论认为:
① 信息传递(信息通信)是通过一个由信源、信道和信宿组成的传递系统实现的。其中，信源是信
息的发送端，信宿是信息的接收端。
② 传递系统存在于一个随机干扰环境之中，因此传递系统传递的信息存在随机误差。如果将发
送的信息U1,U2..Ur记为U，接收的信息V1,V2.Vr记为V，那么信道可看做信道模型，记为P(UIV)。
信道模型P(U|V)是一个条件概率矩阵，表示为:

信息可用来消除不确定性，信息量的大小可由消除的不确定性大小来计量。信息量的数学定义为

信息熵是信息量的数学期望，是信源发出信息前的平均不确定性，也称先验熵，信息熵的数学定义为：

如果信息熵等于0，表示只存在唯一的信息发送可能，即P（Ui）=1，通信过程中不存在不确定性；如果信源的k个信号有相同的发送概率，即对所有的Ui都有P（Ui）=1/k，则信息熵达到最大，即不确定性达最大。所以，P（Ui）差别越小，信息熵就越大，平均不确定性也越大；P（Ui）差别越大，信息熵就越小，平均不确定性也越小。

信息熵：测量“不确定性”的尺子

核心思想：一条信息包含的信息量，等于它带来的“惊讶程度”。
• 越确定的事情，发生了也没多少信息量（比如”太阳从东边升起）。
• 越不确定的事情，一旦发生，信息量就很大（比如“明天股市暴跌10%）。

信息熵就是衡量一个随机变量平均不确定性的指标。公式为：

◆ 信息增益

Ent(Uly)称为条件熵或信道疑度，表示信宿收到V后，仍然对发出信号U存在的不确定性(后验不确定性)的度量值，这是由随机干扰引起的。通常情况下，Ent(U|V)<Ent(U)。于Gains(U,V)=Ent(U)-Ent(UV就称为信息增益，，反映的是佬息消除随机不确定性的程度。

当已知信号U的概率分布为P(U)，且信宿收到信号Vj后，发出信号的概率分布变为P(U|Vj)，于是信源的平均不确定性变为：

Ent(U|Vj)称为后验熵，表示信宿收到信息vj后所获得的对发出信号U的信息不确定性的度量值。
由于收到的信号V是个随机变量，故后验熵的数学期望为：

◆ C5.0算法的决策树生长算法

(1) 从众多的输入变量中选择一个当前最佳的分组变量。
下图为“Learning.xlsx”文件的数据。

决策树将输出变量“是否合格”看成信源发出的信息U，把输入变量看成信宿接收到的一系列信息V。在实际通信之前，也就是在决策树建立之前，输出变量对信宿来讲完全是随机的，把 yes 看作U1(9/14)，把 no 看作U2(5/14)，其平均不确定性为

把T1中的A看成t11，B看成t12，C看成t13，在实际通信过程中，也就是决策树建
立过程中，随着信宿接收到信息，也就考察了输入变量(如T1)，则条件熵为:

C5.0算法的信息增益率

显然，数据调整之后计算得到的结果比数据调整前增大了为解决这个问题，C5.0 算法以信息增益率作为选择标准，即不仅考虑信息增益的大小程度，还兼顾考虑为获得信息增益所付出的“代价”，信息增益率的数学定义为:
可见，如果输入变量 V有较多的分类值，则它的信息熵会偏大，而信息增益率会因此降低，进而消除了类别数目大小所带来的影响。

C5.0算法的推理规则集

C5.0算法不但能够构造决策树，还可以生成推理规则集(一般可以表述为IF...THEN..形式)。
PRISM 算法是生成推理规则的一般算法，该算法的基本思路为:确定输出变量中的一个类别
(称为期望类别)后，完成以下步骤。
① 在当前样本范围(开始时为全部样本)内，寻找一条推理规则，使其能够在最大限度“覆盖
属于该类别的样本。
② 在 M 个样本范围内，按照正确覆盖率最大的原则确定附加条件，得到一个再小一些的样
本范围。在此基础上不断附加“逻辑与”条件，不断缩小样本范围，直到推理规则不再“覆盖
属于其他类别的样本时，一条推理规则就形成了。
③ 从当前样本集合中剔除已经被正确“覆盖”的样本，并检査剩余样本中是否有属于期望类
别的样本。如果有，则重新回到第①步，否则结束。

期末实验：

1.变量文件

源—变量文件—导入文件——应用确定

2.导出

字段选项—导出——建立连接

编辑导出——导出字段：Na_to_K 公式：Na/K

（多了Na_to_K）

3.过滤器

字段选项——过滤器——连接

编辑过滤器——删除Na、K，保留Na_to_K来替代Na、K

4.类型

字段选项——类型——连接——编辑——找到Drug(将角色改为目标）

5.分区

字段选项——分区——连接——编辑——训练分区大小和测试分区大小

训练分区大小和测试分区大小：一般是73分/82分，加上验证分区大小一般是721

（为什么这样分？）‌

训练集占70%‌：确保模型有足够样本学习数据规律，避免因数据不足导致欠拟合或高方差；
‌测试集占30%‌：提供足够独立样本评估泛化能力，使性能估计（如准确率、AUC）具有统计可靠性；

6.建模——C5.0

连接——编辑

对C5.0编辑的相关具体内容描述

运行C5.0

查看结果

第十一次课

关联规则

关联分析在大规模数据集中寻找关联关系。
这些关系可以分为两种形式:
■频繁项集
■关联规则
它们是两种递进的抽象形式，并且前者是后者的抽象基础。

频繁项集的相关定义

k项集:k个元素组成的一个集合称为k项集。
共现:频繁项集一般暗示了某些事物之间总是结伴或成对出现，即共现。这种共现关系可能是因果关系，也可能是相关关系。

频繁项集的特征

当前，针对频繁项集挖掘算法的研究大致有以下四个特征
在遍历方向上，采取自底向上、自顶向下以及混合遍历的方式。
在搜索策略上，采取深度优先和宽度优先策略。
在项集的产生上，着眼于是否会产生候选项集，
在数据库的布局上，从垂直和水平两个方向考虑数据库的布局。

关联规则的定义

关联规则，一般是指两种事物之间可能存在很强的关系，它更关注的是事物之间的互相依赖和条件先验关系，暗示了组内某些属性不仅共现，而且还存在明显的相关和因果关系。所以，关联规则是准确率这个指标的一种度量关系。
定义:假设I是一个项目的集合，给定一个事务数据库，数据库中的每个事务T都包含I的一个子集X并且都有一个唯一的标识符TID ，如果在事务中能够发现一些同时包含项目子集了和项目子集r的事务的百分比特别高那么就认为X和Y之间存在关联关系，这种关联关系就称为关联规则。

关联规则--置信度

置信度是关联规则准确度的测量指标，描述了包含项目子集X的事务中同时也包含项目子集Y的概率，反映出现条件下出现的可能性。
定义:在一个事务数据库中同时包含项目子集X的事务中同时包含项目
子集Y的比例，即同时包含项目子集X和项目子集Y的事务占包含项目
子集了的事务的比例，就称为规则 X-Y的置信度。可以表示为:

其中，|T(X)表示包含项目子集 X的事务数。

关联规则

一个理想的关联规则应该具有较高的置信度和支持度。若某规则的支持度较高但置信度较低，说明规则的可信程度较差:若规则的置信度高但支持度低，说明该规则不具有普遍性，即使实际应用价值不大。

举例：

规则:{牛奶}→{面包}
(买了牛奶的顾客也会买面包)
计算支持度
同时包含牛奶和面包的交易:T1、T2、T5→共3笔
总交易数:5
Support(牛奶U面包)=3/5=0.6(60%)
计算置信度
包含牛奶的交易:T1、T2、T3、T5→共4笔
Confidence(牛奶一面包)=3/4=0.75(75%)

解读:
60% 的支持度表示“牛奶+面包”组合在全部交易中出现频率较高，是一个常见的组合。
75% 的置信度表示:买了牛奶的顾客中，有75% 会同时购买面包，说明二者关联性较强。