winograd卷积实践

原创

已于 2024-11-16 00:21:19 修改 · 3.4k 阅读

·

2

·

于 2022-11-28 16:54:12 首次发布

winograd卷积基本原理参考：

Winograd算法实现卷积原理

winograd把卷积拆分为4个步骤过程图示：

注意这张图里面隐藏了input和output channel。实际上每个空间维度里面还包含了batch和in/out channel维度。

winograd卷积优点: 通过特殊算法降低了计算量，从而获得加速效果。

winograd卷积缺点: 1，传统的卷积采用一个算子即可实现，而winograd分为4个算子，而input, weight transform后的数据量比原来卷积的输入大了很多倍，这使得这4个算子的访存量激增，但采用一个或多个算子融合这4个计算步骤的某几个非常困难。这个访存倍增的缺点使得winograd卷积不一定能够真正获得加速，只有在带宽相对较大而算力偏低的场景有效，而带宽不足，算力很大的硬件上，winograd不见得能加速。2，winograd卷积数值精度比传统卷积和img2col算法差，tile size越大，理论加速比越高，但数值精度越差，可能导致结果不可用。

输入数据格式为[n, h, w, c]，input transform后格式原始的论文[Fast Algorithms for Convolutional Neural Networks]的格式是[ho/2*w0/2, 16, n, ci]，实际也常用[n, ho/2*w0/2, 16, 1, ci]。ho, wo是输出height和width尺寸，除以2是因为两个相邻元素共享一个4x4矩阵。

输入变换是空间维乘以变换矩阵，由于每个空间维元素实际上对应于一个2维向量，实际上相当于每个空间维元素对应的的向量之间做各种乘加运算。如下图。

weight原始格式为[c0, ci, h, w]，这里h = w = 3, 先处理为[h, w, ci, co], 然后weight transform转换后为[4*4, ci, co]。

转换后的输入和weight做batch矩阵乘得到数据格式为[n, ho/2*w0/2, 4*4, 1, co]。

最后做输出transform得到格式为[n, ho/2*w0/2, 2*2, co]，也就是[n, ho, wo, co]

输入变换计算过程，假设输入x的4x4空间维内容标记为a-p（可以借助Matl

标签

#卷积 #winograd #推理 #引擎 #算子

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Luchang-Li 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。