机器学习算法（一）——关联规则Apriori算法及R语言实现方法

最新推荐文章于 2024-05-20 20:31:10 发布

原创

最新推荐文章于 2024-05-20 20:31:10 发布 · 1w 阅读

标签

#数据挖掘机器学习 R语言关联规则

收录于

本文介绍了机器学习中的关联规则算法Apriori，包括其逐层搜索的迭代方法，以及支持度、置信度和提升度的概念。通过R语言展示了Apriori算法的应用，并探讨了算法优化策略，如散列技术、事务压缩和动态项集计数等。同时，文章提到了Apriori算法的不足，如可能产生大量候选项集和需要多次数据库扫描。

关联规则算法算是一种十分常用的机器学习算法，无论是面试还是日后工作中都会经常出现，那么本篇小博就记录一下自己学习关联规则经典算法Apriori的笔记。

1、概述

Apriori算法是用一种称为逐层搜索的迭代方法，从项集长度k=1开始，选出频繁的k=1项集，根据先验性质：频繁项集的子集一定是频繁的（逆否命题：非频繁项集的超集一定是非频繁的，通俗的说就是某件事发生的概率很低，比这件事发生条件更严苛的事情发生的概率会更低），筛选k=2项集中的频繁项集，以此迭代k=3...。每迭代一次都要完整的扫描一次数据库。

2、关联规则三度：

支持度：占比

置信度：条件概率

提升度：相关性

3、R语言示例代码如下：（小众语言的辛酸：选项里没有。。）

library(arules)
#从rattle包中读入数据
dvdtrans <- read.csv(system.file("csv", "dvdtrans.csv",package="rattle"))
str(dvdtrans)
#将数据转化为合适的格式
data <- as(split(dvdtrans$Item,dvdtrans$ID),"transactions")
da