异常检测的方法整理

本文介绍了异常检测的基本思想,包括基于模型、邻近度、密度和人参与程度的分类。重点讨论了统计方法、K近邻、基于密度的检测,如DBSCAN、LOF等,并分析了各自的优缺点。此外,还探讨了基于聚类的异常检测,特别是K-means算法在异常检测中的应用及其对离群点得分的影响,以及K的选择策略。
  1. 基本思想都是利用一个算法给出某个点的离群点得分,根据阈值找到离群点
  2. 分类
    1. 基于方法的分类
      1. 基于模型的技术
        1. 比如我们的数据是一个高斯分布,那么一个对象不能很好地拟合这个分布,就会被认为是一个异常点
      2. 基于邻近度的技术
        1. 通常在对象之间定义邻近性度量,并且许多异常检测方法都基于邻近度。
          1. 异常对象是远离大部分其他对象的点。
      3. 基于密度的技术
        1. 对象的密度估计可以相对直接地计算,特别是当对象之间存在邻近度度量时,低密度区域中的对象相对远离近邻。
        2. 比如温度10,20,30,40,突然一个操作选择了100,那么从密度来看可能就会被检测出来
    2. 基于人参与的程度
      1. 监督的异常检测
        1. 需要异常类和正常类的训练集
          1. 可能要采取crowdsource或者自己标注了,人力成本比较高
        2. 但是会更加准确
      2. 非监督的异常检测
        1. 许多实际情况下,没有提供类标号,那么我们要自动分配类标记
          1. 典型的,聚类
      3. 半监督的异常检测
        1. 有时,训练数据包含被标记的正常数据,但是没有关于异常对象的信息。
        2. 目标是使用有标记的正常对象的信息,对于给定的对象集合,发现异常标号或得分。这种情况下,被评分对象集中许多相关的离群点的出现并不影响离群点的评估。然而很多实际情况下,可能很难发现代表正常对象的小集合。
  3. 几种主要类型的算法
    1. 统计方法
      1. 基本统计方法
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值