winograd卷积基本原理参考:
winograd把卷积拆分为4个步骤过程图示:

注意这张图里面隐藏了input和output channel。实际上每个空间维度里面还包含了batch和in/out channel维度。
winograd卷积优点: 通过特殊算法降低了计算量,从而获得加速效果。
winograd卷积缺点: 1,传统的卷积采用一个算子即可实现,而winograd分为4个算子,而input, weight transform后的数据量比原来卷积的输入大了很多倍,这使得这4个算子的访存量激增,但采用一个或多个算子融合这4个计算步骤的某几个非常困难。这个访存倍增的缺点使得winograd卷积不一定能够真正获得加速,只有在带宽相对较大而算力偏低的场景有效,而带宽不足,算力很大的硬件上,winograd不见得能加速。2,winograd卷积数值精度比传统卷积和img2col算法差,tile size越大,理论加速比越高,但数值精度越差,可能导致结果不可用。
输入数据格式为[n, h, w, c],input transform后格式原始的论文[Fast Algorithms for Convolutional Neural Networks]的格式是[ho/2*w0/2, 16, n, ci],实际也常用[n, ho/2*w0/2, 16, 1, ci]。ho, wo是输出height和width尺寸,除以2是因为两个相邻元素共享一个4x4矩阵。
输入变换是空间维乘以变换矩阵,由于每个空间维元素实际上对应于一个2维向量,实际上相当于每个空间维元素对应的的向量之间做各种乘加运算。如下图。
weight原始格式为[c0, ci, h, w],这里h = w = 3, 先处理为[h, w, ci, co], 然后weight transform转换后为[4*4, ci, co]。
转换后的输入和weight做batch矩阵乘得到数据格式为[n, ho/2*w0/2, 4*4, 1, co]。
最后做输出transform得到格式为[n, ho/2*w0/2, 2*2, co],也就是[n, ho, wo, co]
输入变换计算过程,假设输入x的4x4空间维内容标记为a-p(可以借助Matl


143

被折叠的 条评论
为什么被折叠?



