VIT, LLM, VLM, VLA的区别

最新推荐文章于 2026-03-29 18:08:30 发布

原创最新推荐文章于 2026-03-29 18:08:30 发布 · 443 阅读

1 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#ai

收录于

DeepLearning 专栏收录该内容

7 篇文章

订阅专栏

ViT图像分类-中文-日常物品

阿里开源图像识别

                    
模型模型全称技术领域输入输出应用代表
VITVition Transformer计算机视觉图像图像类别、目标框等图像分类、图像分割、目标检测等VIT, Swin Transformer
LLMLarge Language Model自然语言处理文本文本智能客服、内容创作ChatGPT, LLaMA, Deekseek, Qwen
VLMVision Language Model多模态图像+文本文本图像描述、视觉问答、多模态检索CLIP, LLaVA
VLAVision Language Action Model具身智能图像+文本动作执行机器人、机器狗、自动驾驶agent

模型	模型全称	技术领域	输入	输出	应用	代表
VIT	Vition Transformer	计算机视觉	图像	图像类别、目标框等	图像分类、图像分割、目标检测等	VIT, Swin Transformer
LLM	Large Language Model	自然语言处理	文本	文本	智能客服、内容创作	ChatGPT, LLaMA, Deekseek, Qwen
VLM	Vision Language Model	多模态	图像+文本	文本	图像描述、视觉问答、多模态检索	CLIP, LLaVA
VLA	Vision Language Action Model	具身智能	图像+文本	动作执行	机器人、机器狗、自动驾驶	agent