异常值检测与二元因果推断方法研究
在数据分析领域,异常值检测和因果关系推断是两个重要的研究方向。异常值检测有助于发现数据中的特殊情况,而因果关系推断则能揭示变量之间的因果联系。本文将介绍一种新的异常值检测方法和二元因果推断方法,并对它们的性能进行评估。
异常值检测方法
传统的基于距离和密度的异常值检测算法存在一定的局限性,它们往往只能分别有效地检测两种不同类型的异常值,而不能同时检测全局和局部异常值。此外,经典的基于距离的异常值检测算法无法区分全局异常值和边界数据点。为了解决这些问题,研究人员提出了一种新的异常值检测方法。
合成数据集实验
在合成数据集上的实验结果表明,新方法在检测所有异常值方面没有问题,并且在三个合成数据集中明显提供了最佳的排名。而其他方法在检测所有异常值方面或多或少存在不足。
以图 6 的结果为例,这是一个全局异常值检测的情况,但检测过程受到不同密度聚类的直接连接的干扰。在检测前 6 个异常值时,RBDA 方法遗漏了 C,但其他方法(DB、DB - Max、LOF、INFLO 和新方法)都正确地检测到了所有 6 个异常值,只是排名不同。左下角的图显示了通过公式 (4) 阈值化的相应 SOMnn - dist 值,它正确地识别出了这 6 个异常值。
真实数据集实验
为了测试新方法在真实数据集上的性能,研究人员使用了从 UCI 下载的 LYMPHOGRAPHY 数据集。该数据集有 148 个实例,18 个属性,包含 4 个类别。其中类别 2 和 3 分别有 81 和 61 个实例,其余两个类别共有 6 个实例(分别为 2 和 4),由于数量较少,这些实例被视为异常值(即稀有类别
超级会员免费看
订阅专栏 解锁全文

505

被折叠的 条评论
为什么被折叠?



