关联分析算法Apriori Python

最新推荐文章于 2022-12-30 21:06:00 发布

原创最新推荐文章于 2022-12-30 21:06:00 发布 · 525 阅读

0 ·

本内容遵循CC 4.0 BY-SA版权协议

标签

#机器学习

本文深入探讨了Apriori算法，一种高效的数据挖掘技术，用于发现购物篮分析中的物品关联规则。通过实例解释了支持度、置信度和提升度的概念，展示了Apriori算法如何在超市购买记录中寻找频繁项集。

本文参考： zzzzMing

在美国有这样一家奇怪的超市，它将啤酒与尿布这样两个奇怪的东西放在一起进行销售，并且最终让啤酒与尿布这两个看起来没有关联的东西的销量双双增加。这家超市的名字叫做沃尔玛。

你会不会觉得有些不可思议？虽然事后证明这个案例确实有根据，美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布，而丈夫们在买尿布后又随手带回了他们喜欢的啤酒。但这毕竟是事后分析，我们更应该关注的，是在这样的场景下，如何找出物品之间的关联规则。接下来就来介绍下如何使用Apriori算法，来找到物品之间的关联规则吧。

一. Apriori关联分析概述
选择物品间的关联规则也就是要寻找物品之间的潜在关系。要寻找这种关系，有两步，以超市为例

找出频繁一起出现的物品集的集合，我们称之为频繁项集。比如一个超市的频繁项集可能有{{啤酒,尿布},{鸡蛋,牛奶},{香蕉,苹果}}
在频繁项集的基础上，使用关联规则算法找出其中物品的关联结果。
简单点说，就是先找频繁项集，再根据关联规则找关联物品。

为什么要先找频繁项集呢？还是以超市为例，你想想啊，我们找物品关联规则的目的是什么，是为了提高物品的销售额。如果一个物品本身购买的人就不多，那么你再怎么提升，它也不会高到哪去。所以从效率和价值的角度来说，肯定是优先找出那些人们频繁购买的物品的关联物品。

既然要找出物品的关联规则有两步，那我们也一步一步来。我们会先介绍如何用Apriori找出物品的频繁项集，然后下一篇会在Apriori处理后的频繁项集的基础上，进行物品的关联分析。

二. Apriori算法基础概念
在介绍Apriori算法之前，我们需要先了解几个概念，别担心，我们会结合下面的例子来进行说明的。

这些是一个超市里面的一部分购买商品记录：
商品清单

2.1 关联分析的几个概念
支持度（Support）：支持度可以理解为物品当前流行程度。计算方式是：

支持度 = （包含物品A的记录数量） / （总的记录数量）

用上面的超市记录举例，一共有五个交易，牛奶出现在三个交易中，故而{牛奶}的支持度为3/5。{鸡蛋}的支持度是4/5。牛奶和鸡蛋同时出现的次数是2，故而{牛奶，鸡蛋}的支持度为2/5。

置信度（Confidence）：置信度是指如果购买物品A，有较大可能购买物品B。计算方式是这样：

置信度( A -> B) = （包含物品A和B的记录数量） / （包含 A 的记录数量）

举例：我们已经知道，(牛奶，鸡蛋)一起购买的次数是两次，鸡蛋的购买次数是4次。那么Confidence(牛奶->鸡蛋)的计算方式是Confidence(牛奶->鸡蛋)=2 / 4。

提升度（Lift）：提升度指当销售一个物品时，另一个物品销售率会增加多少。计算方式是：

提升度( A -> B) = 置信度( A -> B) / (支持度 A)

举例：上面我们计算了牛奶和鸡蛋的置信度Confidence(牛奶->鸡蛋)=2 / 4。牛奶的支持度Support(牛奶)=3 / 5，那么我们就能计算牛奶和鸡蛋的支持度Lift(牛奶->鸡蛋)=0.83
当提升度(A->B)的值大于1的时候，说明物品A卖得越多，B也会卖得越多。而提升度等于1则意味着产品A和B之间没有关联。最后，提升度小于1那么意味着购买A反而会减少B的销量。

其中支持度和Apriori相关，而置信度和提升度是下一篇寻找物品关联规则的时候会用到。

2.2 Apriori算法介绍
Apriori的作用是根据物品间的支持度找出物品中的频繁项集。通过上面我们知道，支持度越高，说明物品越受欢迎。那么支持度怎么决定呢？这个是我们主观决定的，我们会给Apriori提供一个最小支持度参数，然后Apriori会返回比这个最小支持度高的那些频繁项集。

说到这里，有人可能会发现，既然都知道了支持度的计算公式，那直接遍历所有组合计算它们的支持度不就可以了吗？

是的，没错。确实可以通过遍历所有组合就能找出所有频繁项集。但问题是遍历所有组合花的时间太多，效率太低，假设有N个物品，那么一共需要计算2^N-1次。每增加一个物品，数量级是成指数增长。而Apriori就是一种找出频繁项集的高效算法。它的核心就是下面这句话：

某个项集是频繁的，那么它的所有子集也是频繁的。

这句话看起来是没什么用，但是反过来就很有用了。

如果一个项集是 非频繁项集，那么它的所有超集也是非频繁项集。

在这里插入图片描述
三. Apriori算法实战

import apyori
data = [['豆奶', '莴苣'],
        ['莴苣', '尿布', '葡萄酒', '甜菜'],
        ['豆奶', '尿布', '葡萄酒', '橙汁'],
        ['莴苣', '豆奶', '尿布', '葡萄酒'],
        ['莴苣', '豆奶', '尿布', '橙汁']]

aa = apyori.apriori(transactions=data, min_support=0.3, min_confidence=0.6, min_lift=0.2)
result = apyori.apriori(transactions=data)
for i in result:
        print(i)

apriori其他参数说明:

'''
min_support -- The minimum support of relations (float).最小支持度，可用来筛选项集
min_confidence -- The minimum confidence of relations (float).最小可信度，可用来筛选项集
min_lift -- The minimum lift of relations (float).最小提升度
max_length -- The maximum length of the relation (integer).最大物品组合数，默认是None，不做限制。如果只需要计算两个物品组合的话，便将这个值设置为2。
'''

以上就是关联算法Apriori的简单实现