一、文章主要内容总结
该研究聚焦“视觉Transformer(ViT)是否比新生儿视觉系统更‘数据饥渴’”这一核心问题,通过“数字孪生”实验设计,对新生雏鸡与ViT模型进行平行对照研究,核心内容如下:
- 研究背景:ViT在计算机视觉任务中表现优异且与生物大脑存在计算相似性,但普遍认为其训练需海量数据,而新生动物(如雏鸡)在贫瘠视觉环境中仅通过少量经验即可掌握目标识别能力,因此ViT能否作为生物视觉学习的模型存在争议。
- 实验设计:
- 首先,在严格控制的环境中饲养新生雏鸡,仅提供单一物体的视觉经验,测试其视角不变性目标识别能力;
- 其次,利用Unity 3D引擎构建虚拟饲养舱(数字孪生环境),模拟雏鸡的第一视角视觉流,生成训练数据;
- 最后,采用两种ViT算法(自研的ViT-CoT和现有VideoMAE),以时间为监督信号进行自监督训练,并用与雏鸡相同的任务和刺激进行测试,同时以CNN(SimCLR-CLTT)作为对照。
- 核心发现:
- ViT(包括ViT-CoT和VideoMAE)在与雏鸡相同的贫瘠视觉环境中,仅通过单一物体的视觉数据,即可习得视角不变性目标识别能力,性能与雏鸡相当,证明ViT并非比新生儿视觉系统更“数据饥渴”;
- 不同规模的ViT架构(1-9个注意力头/层)在数据利用效率上差异不大,且训练数据量增加会稳步提升性能;
- CNN因具备空间归纳偏置,性能略高于ViT,但ViT

订阅专栏 解锁全文

422

被折叠的 条评论
为什么被折叠?



