part1 概念体系
描述性统计可以进行四个维度的分析:分布分析、对比分析、构成分析、相关性分析。

part2 概念定义和主要用途
2.1分布分析:
- 算数平均数:
定义:数据简单加和除以数据个数
优点:考虑了每一个数据的作用
缺点:数据量小时,容易受极端值影响
应用场景: 所有权重相等的,汇总结果为加和形式的,求平均水平的场景 - 加权平均数:
定义:给每个数据项特定的权重,再求均值
优点:可以结合先验的经验/相对的比重,人工设定数据项的影响力
缺点:先验经验可能不准确
应用场景: 各种指数的计算(价格指数、上证指数等) - 几何平均数:
定义:所有数据相乘之后再开方
优点:相比算数平均,受极端值影响较小
缺点:若变量有负值,则几何平均就会成为复数或者虚数;若数值中有0,则算数平均为0
应用场景: 当汇总结果为乘积的形式时 - 中位数:
定义:按照大小排序,位于中间的一个数/两个数的均值
优点:不易受极端值的影响
缺点:当数据比较离散时,则中位数意义不大;当数据分布偏态时,中位数代表性会受影响
应用场景: 未知~~ - 众数:
定义:出现次数最多的数
优点:不易受数据中极端数值的影响
缺点:当数据呈多峰分布时,没有代表性
应用场景: - 四分位数:
定义:把数据集排序后分成四等分


1850

被折叠的 条评论
为什么被折叠?



