关联规则算法算是一种十分常用的机器学习算法,无论是面试还是日后工作中都会经常出现,那么本篇小博就记录一下自己学习关联规则经典算法Apriori的笔记。
1、概述
Apriori算法是用一种称为逐层搜索的迭代方法,从项集长度k=1开始,选出频繁的k=1项集,根据先验性质:频繁项集的子集一定是频繁的(逆否命题:非频繁项集的超集一定是非频繁的,通俗的说就是某件事发生的概率很低,比这件事发生条件更严苛的事情发生的概率会更低),筛选k=2项集中的频繁项集,以此迭代k=3...。每迭代一次都要完整的扫描一次数据库。
2、关联规则三度:
支持度:占比
置信度:条件概率
提升度:相关性
3、R语言示例代码如下:(小众语言的辛酸:选项里没有。。)
library(arules)
#从rattle包中读入数据
dvdtrans <- read.csv(system.file("csv", "dvdtrans.csv",package="rattle"))
str(dvdtrans)
#将数据转化为合适的格式
data <- as(split(dvdtrans$Item,dvdtrans$ID),"transactions")
da

本文介绍了机器学习中的关联规则算法Apriori,包括其逐层搜索的迭代方法,以及支持度、置信度和提升度的概念。通过R语言展示了Apriori算法的应用,并探讨了算法优化策略,如散列技术、事务压缩和动态项集计数等。同时,文章提到了Apriori算法的不足,如可能产生大量候选项集和需要多次数据库扫描。
——关联规则Apriori算法及R语言实现方法&spm=1001.2101.3001.5002&articleId=45155771&d=1&t=3&u=0b73f1f988934ebc9392572bfa7f57ac)
9827

被折叠的 条评论
为什么被折叠?



