【WIP】【VLA&VLM——InternVL系列】

原创

已于 2025-07-19 22:28:15 修改 · 709 阅读

·

27

·

标签

#深度学习 #人工智能

于 2025-07-04 19:46:36 首次发布

InternVL 3.0

[paper]https://arxiv.org/pdf/2504.10479

主要的改进点在于：1）是一个“原生”VLM模型，而不是拼接的VIsionEnc+LLM，这个主要会体现在训练手段上；2）采用V2PE编码，支持更长token的位置编码；3）引入SFT和MPO两种post-pretrain手段提升效果；4）test-time scaling优化训练；

主要改进点

V2PE
常规编码对不同模态的token，均按照1去递增位置编码。而V2PE对text token仍保持1递增，而对于图像token，采用小于1的分数进行递增。 $\delta$ 的取值是 ${1....\frac{1}{256}}$ ，训练时随机取其中的某一个值，测试时根据seq长度灵活调整；
笔者理解这样做有个两个好处：1）有效避免pos emb超出限制，并且有助于扩大token上限。2）对于一张图片切分出的tile，编码保持在1以内，有助于更好理解图片不同块之间的关系？但是随机取值，某一个图片的tile还是无法编码在同一个单位内

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。