基于PCA和Kmeans的餐馆地区分类研究

原创

已于 2025-06-10 23:56:32 修改 · 1.2k 阅读

于 2025-06-08 14:44:40 首次发布

开发板推荐：天空星STM32F407VET6开发板

超高性价比 STM32主控 | 超高主频 | 一板兼容百芯 | 比赛神器 | 沉金彩色丝印

点击查看

1. 实践任务说明

对《中国2019年分地区连锁餐饮企业数据》中的7个经营指标（V2-V8）进行主成分分析（PCA），通过降维提取核心特征。首先标准化数据，然后计算主成分的方差贡献率，按累积贡献率≥85%确定保留的主成分数量，最终输出降维后的主成分得分及因子载荷矩阵，简化后续分析。

基于K-Means聚类算法对餐饮企业数据进行分析，首先读取true_restaurant.csv文件中的PC1指标数据并进行标准化处理，确保数据可比性；其次采用肘部法确定最佳聚类数K，通过计算K值范围（1-10）内的误差平方和（SSE）并绘制变化曲线，选择拐点处对应的K值作为最佳聚类数；然后使用K-Means算法进行聚类分析，将各地区划分为K个具有相似特征的群组；最后生成三种关键可视化图表（肘部法曲线图展示SSE随K值变化趋势、数轴分布图展示各样本点及其所属聚类、谱系图展示各地区间相似性关系）并输出详细分类结果表格，包含各地区所属类别及各类别的PC1统计特征（均值、标准差、极值等），同时结合业务背景分析各类别特征差异，为餐饮企业区域市场分析提供数据支持。

2. 数据预处理

2.1 指标选择---PCA降维处理

restaurant.csv文件是《中国2019年分地区连锁餐饮企业基本情况统计》。这个数据文件中共有9个变量，分别是V1~V9，分别表示地区、总店数、门店总数、年末从业人数年末餐饮营业面积、餐位数、营业额、商品购进总额、统一配送商品购进额。

对数据样本进行分析可知，样本数目（地区）并不多，但是其指标有v2到v8，共七个，如果同时根据七个指标来对样本进行分类的话，Kmeans算法的计算量会很大，计算速度会较慢：而且通过对指标简单的分析，我们可以看到其中有些指标有重合的现象，即指标总店数和门店总数是相关的两个指标，商品购进总数和统一配送商品购进总额也是同样的反映了这家店的成本大小。所以我们可以使用PCA算法对这个样本做一个简单分析，得出新的指标，来做后续的分析。

这里对PCA做一些简单的原理解释：主成分分析（PCA）是一种降维方法，通过线性变换将高维

开发板推荐：天空星STM32F407VET6开发板

超高性价比 STM32主控 | 超高主频 | 一板兼容百芯 | 比赛神器 | 沉金彩色丝印

点击查看

标签