零一万物Yi-Large模型支持情况：Llama-Factory最新兼容列表

原创于 2025-12-11 09:21:26 发布 · 622 阅读

18 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#Llama-Factory # Yi-Large # 微调

Llama Factory

LLaMA Factory 是一个简单易用且高效的大型语言模型（Large Language Model）训练与微调平台。通过 LLaMA Factory，可以在无需编写任何代码的前提下，在本地完成上百种预训练模型的微调

Llama-Factory 全面支持 Yi-Large：从微调到部署的工程实践

在大模型落地日益加速的今天，一个现实问题摆在许多开发者面前：如何用有限的算力资源，快速将像 Yi-Large 这样的国产大模型适配到具体业务场景中？传统微调流程动辄需要编写复杂的训练脚本、手动处理数据格式、反复调试显存配置，对非算法背景的团队几乎是不可逾越的门槛。

而开源项目 Llama-Factory 正在改变这一局面。它不仅率先实现了对零一万物 Yi 系列模型的完整兼容，更通过一系列工程创新，把原本需要数周才能走通的微调链路压缩到了“点几下鼠标就能跑通”的程度。更重要的是，这套框架已经在金融客服、法律文书生成、教育辅导等多个真实场景中验证了其稳定性和实用性。

统一抽象层：让100+种模型“即插即用”

面对 LLaMA、Qwen、Baichuan、ChatGLM、Yi 等五花八门的大模型架构，最头疼的问题是什么？不是训练，而是加载——每个模型都有自己独特的 tokenizer 实现、位置编码方式和结构定义。早期开发者常常要为一个新模型写一堆胶水代码，稍有不慎就报错 AutoModel can't infer model type。

Llama-Factory 的解法很聪明：它在 Hugging Face Transformers 的基础上构建了一层统一模型抽象层，本质上是一个动态映射系统。当你输入 01-ai/Yi-6B 时，框架会自动读取模型配置中的 model_type 字段（这里是 "yi"），然后查表匹配对应的处理逻辑——包括使用哪个 tokenizer、是否启用 RoPE 插值、最大上下文长度是多少等等。

这个机制的强大之处在于它的扩展性。对于尚未被官方支持的新模型，你只需添加一个简单的 JSON 配置文件注册架构信息，无需修改主干代码即可接入整个训练流水线。这也解释了为什么 Llama-Factory 能如此迅速地支持 Yi-Large —— 社区贡献者仅用两天时间就完成了适配补丁。

更贴心的是，框架还能根据模型规模智能推荐超参初值。比如当你加载 Yi-34B 时，它会自动建议使用梯度累积 + QLoRA 的组合，并预设合理的 batch size 和学习率范围，大大减少了试错成本。

from llmtuner import ModelArguments, DataTrainingArguments, TrainingArguments
from llmtuner.train.tune import run_tuning

model_args = ModelArguments(
    model_name_or_path="01-ai/Yi-6B",
    trust_remote_code=True  # 必须开启以加载自定义模型结构
)

data_args = DataTrainingArguments(
    dataset="alpaca_en",
    max_source_length=512,
    max_target_length=512
)

training_args = TrainingArguments(
    output_dir="output/yi-6b-lora",
    do_train=True,
    per_device_train_batch_size=4,
    learning_rate=1e-4,
    num_train_epochs=3.0,
    fp16=True,
    logging_steps=10,
    save_steps=1000,
    evaluation_strategy="no",
    optim="adamw_torch",
    lr_scheduler_type="cosine"
)

run_tuning(model_args, data_args, training_args)

这段代码展示了什么叫“极简主义 API”。仅仅几十行配置，就完成了从模型加载到训练启动的全过程。其中 trust_remote_code=True 是关键，它允许加载那些不在 Transformers 原生支持列表中的模型（如 Yi）。整个过程无需关心底层是 GPT-NeoX 还是 Mistral 架构，一切都被封装好了。

LoRA 与 QLoRA：消费级显卡跑动 34B 模型的秘密

如果说统一抽象层解决了“能不能跑”的问题，那么 LoRA 和 QLoRA 技术栈则真正回答了“能不能高效跑”的挑战。

我们都知道，全参数微调一个 34B 模型通常需要 8×A100（80GB）这样的豪华配置，普通团队根本无力承担。而 LoRA 的出现改变了游戏规则：它假设权重更新具有低秩特性，只在注意力层的 q_proj 和 v_proj 上插入两个小矩阵 A 和 B（形状分别为 d×r 和 r×k，r ≪ d），冻结原始权重，仅训练这些新增参数。

这意味着什么？以 Yi-34B 为例，原始参数量约 340 亿，若设置 rank=64，则可训练参数减少至约 5000 万，仅为原来的 0.15%。这已经足够让人兴奋了，但 QLoRA 更进一步——它引入三项黑科技：

NF4 量化：将预训练模型的权重转为 4-bit Normal Float 存储；
双重量化（Double Quantization）：连 LoRA 适配器本身的权重也进行压缩；
Paged Optimizers：利用 CUDA 显存分页机制避免 OOM 错误。

三者结合后，奇迹发生了：Yi-34B 的 QLoRA 微调可以在单张 RTX 3090（24GB）上稳定运行。这对于中小企业来说意味着巨大的成本节约——不必再依赖云厂商按小时计费的高端实例，本地工作站就能完成领域适配。

实际配置也很直观。你可以通过 YAML 文件或命令行指定 LoRA 参数：

lora_rank: 64
lora_alpha: 16
lora_dropout: 0.05
target_modules: ["q_proj", "v_proj"]
quantization_bit: 4

CUDA_VISIBLE_DEVICES=0 python src/train.py \
    --stage sft \
    --do_train \
    --model_name_or_path 01-ai/Yi-34B \
    --dataset alpaca_en \
    --finetuning_type lora \
    --lora_target q_proj,v_proj \
    --output_dir ./output/yi-34b-q-lora \
    --per_device_train_batch_size 1 \
    --gradient_accumulation_steps 8 \
    --learning_rate 3e-4 \
    --num_train_epochs 3.0 \
    --fp16 \
    --plot_loss \
    --quantization_bit 4 \
    --trust_remote_code

这里的关键参数是 --quantization_bit 4 和较小的 batch size。虽然训练速度会比全精度慢一些，但显存占用从数百 GB 降到 <24GB，换来的是完全不同的可行性边界。实验数据显示，在多数指令跟随任务上，QLoRA 能达到全微调 95% 以上的性能表现，性价比极高。

WebUI：点击式微调如何成为现实？

技术再强大，如果操作复杂也会被束之高阁。Llama-Factory 最具颠覆性的设计之一，就是基于 Gradio 构建的可视化 WebUI 界面。它让产品经理、运营人员甚至客户自己都能参与模型定制过程。

想象这样一个画面：你在浏览器打开 http://localhost:7860，看到一个清晰的控制面板。左侧选择基础模型（支持下拉框选 01-ai/Yi-6B 或上传本地路径），中间选择微调方法（Full / LoRA / QLoRA），右侧填写数据集名称和训练轮数。点击“开始训练”后，页面自动切换到监控视图，实时显示 loss 曲线、GPU 利用率、显存占用等指标。

这一切的背后其实是前后端协同的结果：
- 前端采用 React + Ant Design 构建交互界面；
- 后端通过 FastAPI 接收用户操作并生成对应 CLI 命令；
- 所有日志通过 WebSocket 流式回传，前端用 ECharts 渲染图表；
- 权限模块支持 JWT 登录认证，适合多用户共享环境。

import gradio as gr
from llmtuner.webui.interface import create_ui

def launch_web():
    with gr.Blocks() as demo:
        create_ui()
    demo.launch(
        server_name="0.0.0.0",
        server_port=7860,
        share=False,
        inbrowser=True
    )

if __name__ == "__main__":
    launch_web()

这个入口脚本看似简单，却承载了整套系统的易用性承诺。你可以把它打包进 Docker 容器，部署成团队内部的“模型工厂”，让不同部门的人都能自助式地训练专属助手。