winograd卷积实践

winograd卷积基本原理参考:

Winograd算法实现卷积原理

winograd把卷积拆分为4个步骤过程图示:

3bca824ab28073aec94ca22b9759f1d7.png

注意这张图里面隐藏了input和output channel。实际上每个空间维度里面还包含了batch和in/out channel维度。 

winograd卷积优点: 通过特殊算法降低了计算量,从而获得加速效果。

winograd卷积缺点: 1,传统的卷积采用一个算子即可实现,而winograd分为4个算子,而input, weight transform后的数据量比原来卷积的输入大了很多倍,这使得这4个算子的访存量激增,但采用一个或多个算子融合这4个计算步骤的某几个非常困难。这个访存倍增的缺点使得winograd卷积不一定能够真正获得加速,只有在带宽相对较大而算力偏低的场景有效,而带宽不足,算力很大的硬件上,winograd不见得能加速。2,winograd卷积数值精度比传统卷积和img2col算法差,tile size越大,理论加速比越高,但数值精度越差,可能导致结果不可用。

输入数据格式为[n, h, w, c],input transform后格式原始的论文[Fast Algorithms for Convolutional Neural Networks]的格式是[ho/2*w0/2, 16, n, ci],实际也常用[n, ho/2*w0/2, 16, 1, ci]。ho, wo是输出height和width尺寸,除以2是因为两个相邻元素共享一个4x4矩阵。

输入变换是空间维乘以变换矩阵,由于每个空间维元素实际上对应于一个2维向量,实际上相当于每个空间维元素对应的的向量之间做各种乘加运算。如下图。

weight原始格式为[c0, ci, h, w],这里h = w = 3, 先处理为[h, w, ci, co], 然后weight transform转换后为[4*4, ci, co]。

转换后的输入和weight做batch矩阵乘得到数据格式为[n, ho/2*w0/2, 4*4, 1, co]。

最后做输出transform得到格式为[n, ho/2*w0/2, 2*2, co],也就是[n, ho, wo, co]

输入变换计算过程,假设输入x的4x4空间维内容标记为a-p(可以借助Matl

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Luchang-Li

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值