24、时间序列聚类：k-Shape、k-Means与HDBSCAN算法对比

最新推荐文章于 2026-03-18 00:30:48 发布

原创最新推荐文章于 2026-03-18 00:30:48 发布 · 158 阅读 GEO检测

earth

关注

标签

#时间序列聚类 #k-Shape #k-Means

分类人工智能

收录于

解锁无监督学习的奥秘专栏收录该内容

25 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

时间序列聚类：k-Shape、k-Means与HDBSCAN算法对比

1. k-Shape算法简介

k-Shape算法是一种强大的时间序列聚类算法，它使用归一化的互相关来计算聚类中心，并在每次迭代中更新时间序列到这些聚类的分配。该算法具有以下特点：
- 尺度和位移不变性 ：不受数据尺度和位移的影响。
- 领域无关性 ：可应用于多个领域。
- 可扩展性 ：迭代细化过程的复杂度与序列数量呈线性关系，且所需参数调整极少。

k-Shape与k-Means算法类似，都采用迭代方法根据数据与最近聚类中心的距离将数据分配到不同组。但关键区别在于k-Shape使用基于形状的距离计算方法，该方法依赖于互相关。

2. 使用k-Shape对ECGFiveDays数据集进行时间序列聚类

2.1 数据准备

我们将使用UCR时间序列集合中的数据，由于文件大小超过100MB，需从UCR时间序列网站下载。该集合是最大的带类标签的时间序列数据集公共集合，共包含85个数据集，来自多个领域，可用于测试模型在不同领域的性能。每个时间序列仅属于一个类，可用于验证聚类结果。

首先，加载必要的库：

'''Main'''
import numpy as np
import pandas as pd
import os, time, re
import pickle, gzip, datetime
from os import listdi

阅读完本文您可以尝试下面操作：

订阅专栏解锁全文

会员秒杀 ¥9.9 重磅福利

超级会员免费看

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

展开全部

收起

复制链接

分享到 QQ

分享到新浪微博

扫一扫

Kshape 聚类-python实现

11-29

Kshape 聚类项目包含数据集里面包含一个数据集，以及py文件和jupyter文件另外，代码对应的有相关注释。

参与评论您还未登录，请先登录后发表或查看评论

k-shape时间序列聚类(tslearn)

热门推荐

fitzgerald0的博客

08-23

3万+

时间序列聚类概述 时间序列数据挖掘从技术角度来讲，一般有四种时间序列预测，时间序列分类，时间序列聚类，时间序列异常检测基本上包含了机器学习的几大领域由于时序数据的特殊性，所以每一个方面都与截面数据挖掘有所区别。本文主要讲讲时序聚类中的k-shape算法，和以往的风格一样，重在算法实现。时间序列数据的聚类，关键在于如何定义相似度。比如基于时间序列特征（len，max,min,std,lag）等可以使用 KMeans算法进行聚类。除了使用欧式距离以外，还可以使用dtw等方法，以及动态规划原理，对时间序列.

时间序列聚类算法论文《k-Shape: Efficient and Accurate Clustering of Time Series》

Chauncy的博客

09-09

5674

ABSTRACT 聚类是最流行的数据挖掘方法之一。这不仅仅是因为聚类问题具有很强的探索性，还因为它可以作为其他技术的预处理步骤或子过程。本文提出一种的新的时间序列聚类算法——K-shape算法。该算法依赖于一个可度量的迭代优化过程，创建同构的、分割良好的群簇。K-shape聚类算法依赖使用了规范化之后的互相关系数作为距离的度量，在每次迭代中使用它来更新聚类对聚类时间序列的分配。 1. INTRODUCTION 聚类是应用非常广泛的一项技术，因为它不需要监督和数据标注。大多数时间序列分析技术，包

时间序列聚类算法-《k-Shape: Efficient and Accurate Clustering of Time Series》解读

qq_28900249的博客

11-13

2万+

摘要本文提出了一个新颖的时间序列聚类算法k-shape，该算法的核心是迭代增强过程，可以生成同质且较好分离的聚类。该算法采用标准的互相关距离衡量方法，基于此距离衡量方法的特性，提出了一个计算簇心的方法，在每一次迭代中都用它来更新时间序列的聚类分配。作者通过大量和具有最好距离衡量方法的划分聚类，分层聚类，谱聚类比较的实验证明k-shape的鲁棒性。总之，k-shape是准确、高效的时间序列算法。...

k-Shape：高效准确的聚类方法

weixin_44028734的博客

03-06

1654

时间数据在许多学科中的扩散和无处不在，已经对时间序列的分析和挖掘产生了极大的兴趣。聚类是最流行的数据挖掘方法之一，不仅因为它的探索性，而且作为其他技术的预处理步骤或子程序。常用的有-means聚类算法。本文介绍了一种新的时间序列聚类算法k-Shape。k-Shape依赖于一个可扩展的迭代优化过程，它创建同质和良好分离的集群。作为距离度量，k-Shape使用标准化的交叉相关。基于距离度量的性质，我们开发了一种计算聚类质心的方法，在每次迭代中使用聚类质心来更新时间序列对聚类的分配。

高维多元时序数据聚类

qq_25368751的博客

11-30

5780

收集数据的能力不断增强，使我们有可能收集大量的异构数据。在可用的异构数据中，时间序列代表着尚未被充分探索的信息母体。当前的数据挖掘技术在分析时间序列时存在多个缺点，尤其是在应同时分析多个时间序列（即多维时间序列）以从数据中提取知识时。

24、时间序列聚类算法：k-shape、k-means与HDBSCAN对比分析

ttt77的博客

11-14

152

本文系统比较了k-shape、k-means和HDBSCAN三种时间序列聚类算法在ECGFiveDays、ECG5000及85个UCR数据集上的性能。通过调整后Rand指数评估聚类效果，分析显示k-shape和HDBSCAN在聚类准确性上优于k-means，尤其适用于复杂形状的时间序列；而k-means运行效率更高。文章提供了完整的实验流程与代码实现，为时间序列聚类算法的选择提供了实践依据。

文本聚类效果差？5种主流算法性能测试帮你找到最佳方案

qq_35485206的博客

08-08

611

本文采用Billingsmoore提供的文本聚类示例数据集，该数据集包含925个英语句子，每个句子都标注了相应的主题类别。登录后复制1.2.3.4.5.6.7.登录后复制1.该数据集呈现良好的平衡性分布，几乎所有类别都包含约90个句子样本。虽然还存在其他聚类算法如BIRCH、Affinity Propagation等，但这些算法在数据集规模、嵌入向量维度和计算成本方面存在显著局限性，因此实用价值有限。

【告别k-means】k-Shape高效准确的聚类方法-完整Matlab代码

weixin_44028734的博客

03-07

997

k-shape

论文阅读_时序聚类K-Shape

谢彦的技术博客

12-26

5063

基本信息论文题目：k-Shape: Efficient and Accurate Clustering of Time Series 论文地址：https://dl.acm.org/doi/10.1145/2949741.2949758 相关源码：https://github.com/tslearn-team/tslearn/ 用法示例：https://tslearn.readthedocs.io/en/stable/auto_examples/clustering/plot_kshape.htm

利用kmeans或kshape聚类分析对归一化的无量纲时间-降雨序列进行聚类

全栈若城,专注知识分享

06-07

1796

利用kmeans或kshape聚类分析对归一化的无量纲时间-降雨序列进行聚类（分类，区分降雨雨型的差异）

k-Shape: Efficient and Accurate Clustering of Time Series解读

SCS199411的博客

06-03

4485

k-Shape: Efficient and Accurate Clustering of Time Series John Paparrizos Luis Gravano Columbia University ACM SIGMOD 2015 主要贡献提出一种新的对尺度和漂移具有不变性的距离度量提出一种新的计算聚类中心的方法提出一种通用性强的时间序列聚类算法——k-shape算法 ...

tslearn使用轮廓系数（silhouette_score）评估KShape聚类效果

虚拟-Worder的博客

08-11

2万+

前言 tslearn和sklearn一样，是一款优秀的机器学习框架，tslearn更偏向于处理时间序列问题，如其聚类模块就包含了DTW（Dynamic Time Warping）等算法及变种，也提供了轮廓系数对聚类效果评估，十分方便。但可惜，tslearn似乎没有提供对KShape聚类的评估方法，而且tslearn用的人也不多，官方文档也是很 “简洁”，网上也搜不到多少相关文章，所以这里也就记录下自己的踩坑过程轮廓系数评估接口调用先看官方例子，这里X是一个三维的numpy数组，代表20段时间序

k-shape时间序列聚类实战：从原理到tslearn实现

最新发布

weixin_29062671的博客

03-18

207

本文深入探讨了k-shape时间序列聚类算法，从原理到tslearn实现全面解析。通过形状距离（Shape-based Distance）计算，k-shape能有效识别时间序列的形状相似性，适用于传感器监测、用户行为分析等场景。文章详细介绍了算法原理、数据预处理技巧及tslearn实战指南，帮助读者掌握这一强大的时间序列分析工具。

SIGMOD 2025 | 突破效率瓶颈！清华团队提出数据库内时序聚类新方法

xx_nm98的博客

04-09

1646

效率*

23、时间序列聚类算法：k-Shape、k-Means与HDBSCAN的比较

code8的博客

09-29

146

本文系统比较了k-Shape、k-Means和HDBSCAN三种时间序列聚类算法在多个数据集上的性能。通过在ECG5000等85个UCR时间序列数据集上的实验，评估了各算法在训练集和测试集上的调整兰德指数，并分析了其在不同数据分布、长度和复杂度下的表现。结果表明，k-Means平均性能最优但并非适用于所有场景，而k-Shape和HDBSCAN在特定条件下更具优势。文章还提供了基于数据特点、规模和计算资源的算法选择建议，并展望了未来改进方向。

Python用KShape对时间序列进行聚类和肘方法确定最优聚类数k可视化

拓端研究室TRL

08-05

1053

全文链接：http://tecdat.cn/?p=27078时序数据的聚类方法该算法按照以下流程执行。使用基于互相关测量的距离标度（基于形状的距离：SBD）根据 1 计算时间序列聚类的质心。（一种新的基于质心的聚类算法，可保留时间序列的形状）划分成每个簇的方法和一般的kmeans一样，但是在计算距离尺度和重心的时候使用上面的1和2。相关视频importpandasaspd#读取数据帧，将...

时序聚类论文|k-Shape: Efficient and Accurate Clustering of Time Series

Wdradon的博客

10-11

3394

k-Shape: Efficient and Accurate Clustering of Time Series提要PRELIMINARIES基本概念时间序列距离度量时序聚类算法时间序列的平均技术（簇质心）K-shape聚类算法时间序列的形状相似性互相关度量（Cross-correlation measure）互相关度量的规范化问题提要 k-Shape依赖于一个可伸缩的迭代细化过程，该过程创建均匀且分离良好的簇。作为距离度量，K形使用互相关度量的归一化版本，以便在比较它们的同时考虑时间序列的形状。基于距