机器学习算法(一)——关联规则Apriori算法及R语言实现方法

本文介绍了机器学习中的关联规则算法Apriori,包括其逐层搜索的迭代方法,以及支持度、置信度和提升度的概念。通过R语言展示了Apriori算法的应用,并探讨了算法优化策略,如散列技术、事务压缩和动态项集计数等。同时,文章提到了Apriori算法的不足,如可能产生大量候选项集和需要多次数据库扫描。

关联规则算法算是一种十分常用的机器学习算法,无论是面试还是日后工作中都会经常出现,那么本篇小博就记录一下自己学习关联规则经典算法Apriori的笔记。

1、概述

Apriori算法是用一种称为逐层搜索的迭代方法,从项集长度k=1开始,选出频繁的k=1项集,根据先验性质:频繁项集的子集一定是频繁的(逆否命题:非频繁项集的超集一定是非频繁的,通俗的说就是某件事发生的概率很低,比这件事发生条件更严苛的事情发生的概率会更低),筛选k=2项集中的频繁项集,以此迭代k=3...。每迭代一次都要完整的扫描一次数据库。

2、关联规则三度:

支持度:占比

置信度:条件概率

提升度:相关性

3、R语言示例代码如下:(小众语言的辛酸:选项里没有。。)

library(arules)
#从rattle包中读入数据
dvdtrans <- read.csv(system.file("csv", "dvdtrans.csv",package="rattle"))
str(dvdtrans)
#将数据转化为合适的格式
data <- as(split(dvdtrans$Item,dvdtrans$ID),"transactions")
da
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值