Laguna XS.2震撼发布:330亿参数MoE模型如何重新定义本地智能编码体验?
【免费下载链接】Laguna-XS.2 项目地址: https://ai.gitcode.com/hf_mirrors/poolside/Laguna-XS.2
Laguna XS.2是一款拥有330亿总参数的混合专家(Mixture-of-Experts)模型,专为本地机器上的智能编码和长周期任务设计。它采用滑动窗口注意力(Sliding Window Attention)技术,在40层中的30层实现了按头选通,既保证了推理速度,又降低了KV缓存需求,重新定义了本地智能编码体验。
核心亮点:为什么Laguna XS.2值得关注?
混合注意力架构:平衡性能与效率
Laguna XS.2采用了独特的混合注意力布局,结合了滑动窗口注意力(SWA)和全局注意力机制,两者比例为3:1(共40层)。这种设计使模型在处理长文本时既能保持上下文理解能力,又能有效控制计算资源消耗。每个token仅激活30亿参数,让330亿参数的大模型能够在普通设备上高效运行。
极致优化的本地部署能力
得益于FP8量化的KV缓存技术,Laguna XS.2显著降低了每个token的内存占用。这使得这款330亿参数的模型能够在配备36GB RAM的Mac电脑上流畅运行,真正实现了"大模型,本地跑"的愿景。目前已在Ollama平台提供支持,普通用户也能轻松体验。
原生推理支持与工具调用能力
模型内置了交错式思维(interleaved thinking)支持,能够在工具调用之间进行推理,并可根据请求启用或禁用思考过程。这种设计特别适合智能编码场景,使模型能够像人类开发者一样逐步分析问题、调用工具并验证结果。
商业友好的开源许可
Laguna XS.2采用Apache 2.0开源许可,允许商业和非商业用途的自由使用和修改,为开发者和企业提供了灵活的应用空间。
技术规格:深入了解模型架构
基础参数配置
- 训练阶段:预训练、后训练和强化学习三阶段
- 总参数:330亿,每token激活30亿参数
- 优化器:Muon
- 层数:40层(10层全局注意力,30层滑动窗口注意力)
- 专家数量:256个专家+1个共享专家
- 滑动窗口:512个token
- 模态:文本到文本
- 上下文窗口:131,072个token
- 推理支持:带保留思考的交错式推理
创新技术解析
Laguna XS.2在configuration_laguna.py中定义了独特的架构配置,包括每层可变的注意力头数、混合MLP层类型(密集型和稀疏型)以及专家路由缩放因子等创新设计。这些配置使模型能够根据不同任务动态调整计算资源分配,在保持高性能的同时优化资源消耗。
在modeling_laguna.py中实现的LagunaSparseMoeBlock类,展示了模型如何结合共享专家和路由专家的输出,通过 LagunaTopKRouter 选择最相关的专家,并使用 LagunaExperts 处理计算,实现了高效的专家混合机制。
性能评测:Laguna XS.2 vs 同类模型
Laguna XS.2在多项编码任务基准测试中表现出色,特别是在SWE-bench系列评测中展现了强大的代码理解和生成能力:
| 模型 | 总参数规模 | SWE-bench Verified | SWE-bench Multilingual | SWE-bench Pro (Public Dataset) | Terminal-Bench 2.0 |
|---|---|---|---|---|---|
| Laguna XS.2 | 33B | 68.2% | 62.4% | 44.5% | 30.1% |
| Devstral Small 2 | 24B dense | 68.0% | 55.7% | - | 22.5% |
| Gemma 4 31B IT | 31B dense | 52.0% | 51.7% | 35.7% | 42.9% |
| Qwen3.5-35B-A3B | 35B | 69.2% | 60.3% | 44.6% | 40.5% |
数据来源:Laude Institute’s Harbor Framework,使用统一的评估参数(temperature=0.7,top_k=20)
快速上手:三种简单的使用方式
1. 通过pool工具(推荐)
pool是一款轻量级终端编码代理,支持Agent Client Protocol (ACP):
curl -fsSL https://downloads.poolside.ai/pool/install.sh | bash
pool
登录后即可使用,还可自动配置Zed和JetBrains编辑器:
pool acp setup --editor zed|jetbrains
2. 使用Ollama本地部署
ollama pull laguna-xs.2
ollama launch pool --model laguna-xs.2
3. 源码安装(适合开发者)
git clone https://gitcode.com/hf_mirrors/poolside/Laguna-XS.2
cd Laguna-XS.2
pip install -r requirements.txt
使用Transformers库加载模型:
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
model_id = "poolside/Laguna-XS.2"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
model_id,
dtype=torch.bfloat16,
device_map="auto",
)
控制推理过程:启用/禁用思考能力
Laguna XS.2默认启用推理思考功能,会在工具调用前后生成思考过程。你可以通过以下方式控制这一行为:
启用思考(默认)
inputs = tokenizer.apply_chat_template(
messages,
add_generation_prompt=True,
return_tensors="pt",
enable_thinking=True, # 启用思考
).to(model.device)
禁用思考
completion = client.chat.completions.create(
model="poolside/laguna-xs.2",
messages=[{"role": "user", "content": "Write a retry wrapper with exponential backoff."}],
extra_body={"chat_template_kwargs": {"enable_thinking": False}},
stream=True
)
对于智能编码场景,我们建议启用思考功能,并在对话历史中保留推理过程,以获得最佳性能。
许可证与负责任使用
Laguna XS.2采用Apache 2.0许可证,允许商业和非商业用途。该模型专为软件工程和智能编码设计,使用时请确保符合Poolside的可接受使用政策。
如发现安全漏洞或安全问题,请报告至security@poolside.ai。
无论是个人开发者还是企业用户,Laguna XS.2都提供了强大而灵活的本地智能编码解决方案。通过创新的混合专家架构和优化的本地部署能力,它正在重新定义我们对本地AI模型的期望。现在就尝试部署,体验330亿参数模型带来的智能编码新体验吧!
【免费下载链接】Laguna-XS.2 项目地址: https://ai.gitcode.com/hf_mirrors/poolside/Laguna-XS.2
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考



