| 模型 | 模型全称 | 技术领域 | 输入 | 输出 | 应用 | 代表 |
|---|---|---|---|---|---|---|
| VIT | Vition Transformer | 计算机视觉 | 图像 | 图像类别、目标框等 | 图像分类、图像分割、目标检测等 | VIT, Swin Transformer |
| LLM | Large Language Model | 自然语言处理 | 文本 | 文本 | 智能客服、内容创作 | ChatGPT, LLaMA, Deekseek, Qwen |
| VLM | Vision Language Model | 多模态 | 图像+文本 | 文本 | 图像描述、视觉问答、多模态检索 | CLIP, LLaVA |
| VLA | Vision Language Action Model | 具身智能 | 图像+文本 | 动作执行 | 机器人、机器狗、自动驾驶 | agent |
VIT, LLM, VLM, VLA的区别
最新推荐文章于 2026-03-29 18:08:30 发布
ViT图像分类-中文-日常物品
阿里开源图像识别
您可能感兴趣的与本文相关的镜像
ViT图像分类-中文-日常物品
图文对话
PyTorch
Cuda
阿里开源图像识别

1565

被折叠的 条评论
为什么被折叠?



