2025_NIPS_Are Vision Transformers More Data Hungry Than Newborn Visual Systems?

一、文章主要内容总结

该研究聚焦“视觉Transformer(ViT)是否比新生儿视觉系统更‘数据饥渴’”这一核心问题,通过“数字孪生”实验设计,对新生雏鸡与ViT模型进行平行对照研究,核心内容如下:

  1. 研究背景:ViT在计算机视觉任务中表现优异且与生物大脑存在计算相似性,但普遍认为其训练需海量数据,而新生动物(如雏鸡)在贫瘠视觉环境中仅通过少量经验即可掌握目标识别能力,因此ViT能否作为生物视觉学习的模型存在争议。
  2. 实验设计
    • 首先,在严格控制的环境中饲养新生雏鸡,仅提供单一物体的视觉经验,测试其视角不变性目标识别能力;
    • 其次,利用Unity 3D引擎构建虚拟饲养舱(数字孪生环境),模拟雏鸡的第一视角视觉流,生成训练数据;
    • 最后,采用两种ViT算法(自研的ViT-CoT和现有VideoMAE),以时间为监督信号进行自监督训练,并用与雏鸡相同的任务和刺激进行测试,同时以CNN(SimCLR-CLTT)作为对照。
  3. 核心发现
    • ViT(包括ViT-CoT和VideoMAE)在与雏鸡相同的贫瘠视觉环境中,仅通过单一物体的视觉数据,即可习得视角不变性目标识别能力,性能与雏鸡相当,证明ViT并非比新生儿视觉系统更“数据饥渴”;
    • 不同规模的ViT架构(1-9个注意力头/层)在数据利用效率上差异不大,且训练数据量增加会稳步提升性能;
    • CNN因具备空间归纳偏置,性能略高于ViT,但ViT
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值