通义千问发布Qwen-Image-Layered模型，Agent实战表现不佳？港中文&美团提出TwiG框架

最新推荐文章于 2026-04-28 03:36:38 发布

原创最新推荐文章于 2026-04-28 03:36:38 发布 · 817 阅读

16 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

收录于

AI资讯

1. 通义千问发布Qwen-Image-Layered模型，实现图片分层精准编辑突破
通义千问团队正式推出全新图像生成模型Qwen-Image-Layered，该模型以自研创新架构打破传统AI图片编辑局限，通过“图层拆解”技术将静态图片自动分解为语义独立的RGBA图层，可实现重新着色、物体替换等精准编辑操作，其核心亮点包括RGBA-VAE技术、VLD-MMDiT架构及多阶段进化能力。
技术报告:https://arxiv.org/abs/2512.15603
GitHub: https://github.com/QwenLM/Qwen-Image-Layered
ModelScope: https://www.modelscope.cn/models/Qwen/Qwen-Image-Layered
Hugging Face: https://huggingface.co/Qwen/Qwen-Image-Layered
Demo: https://www.modelscope.cn/studios/Qwen/Qwen-Image-Layered

2. 开源工具PromptFill上线，以“填空式”交互降低AI绘画提示词创作门槛
一款名为PromptFill的开源结构化提示词生成工具正式推出，专为Nano Banana、Stable Diffusion等AI绘画工具设计。该工具通过将复杂提示词拆解为独立“变量”，提供填空、点选、拖拽等可视化交互方式，并内置智能词库分类，支持自定义关键词、实时预览、一键复制导出及多模板保存，还保障本地数据隐私安全，有效解决了AI绘画中提示词编写门槛高、格式易出错、记忆负担重等痛点。工具已迭代至v0.5版本，适配桌面与手机双端，获开源社区好评，特别适合新手、内容创作者及专业设计师，推动AI绘画向“人人可创”方向演进，用户可通过GitHub仓库免费试用。
GitHub：https://github.com/TanShilongMario/PromptFill/

3. 强化学习首次系统性突破文本到3D生成，AR3D-R1实现高质量推理驱动建模
上海人工智能实验室、西北工业大学等机构联合提出首个强化学习增强的文本到3D自回归模型AR3D-R1，系统性解决了3D生成中空间复杂性高、奖励设计难等挑战。该研究引入层次化强化学习范式Hi-GRPO，通过分离全局结构推理与局部纹理精修优化生成流程，并提出新基准MME-3DR评估模型隐式推理能力。实验表明，AR3D-R1在Kernel Distance（0.156）和CLIP Score（29.3）上显著领先，在复杂空间结构、机械可供性等任务中生成质量显著提升，标志着RL在3D生成领域的突破性进展。
GitHub：https://github.com/Ivan-Tang-3D/3DGen-R1
论文：https://arxiv.org/pdf/2512.10949

4. Agent实战表现不佳？新研究指出“适应性”是关键瓶颈
UIUC、斯坦福等12所高校联合发布51页Agent系统综述，提出以“适应性”为核心的2×2分类框架，将现有方法划分为优化Agent本身（A1/A2）与优化工具（T1/T2）两大维度，并指出工具优化范式（T2）在数据效率上显著优于端到端训练——仅需2400条样本即可达到传统方法17万条数据的效果。研究进一步提出协同适应、持续适应、安全适应与高效适应四大前沿方向，为破解Agent“演示强、实战弱”困境提供了系统性指导。
论文：https://arxiv.org/abs/2512.16301
GitHub：https://github.com/pat-jj/Awesome-Adaptation-of-Agentic-AI

5. 视觉Tokenizer的Scaling Law首次突破：MiniMax开源VTP框架，解决生成模型性能瓶颈
MiniMax海螺视频团队开源了视觉分词器预训练框架VTP，首次揭示了视觉Tokenizer也存在明确的Scaling Law。传统两阶段生成模型中，Tokenizer仅依赖像素级重建会导致生成性能饱和甚至下降，而VTP通过联合优化理解（图文对比学习）、重建（细节保留）与生成（自监督结构学习）三大目标，使Tokenizer具备语义理解能力。实验表明，VTP在生成质量、训练效率上显著优于传统方案，且性能随算力投入持续提升，为生成模型优化提供了新方向。
GitHub：https://github.com/MiniMax-AI/VTP
论文：https://arxiv.org/abs/2512.13687v1
Hugging Face：https://huggingface.co/collections/MiniMaxAI/vtp

6. 港中文&美团提出TwiG框架：让AI「边画边想」，突破复杂视觉生成瓶颈
香港中文大学与美团联合团队提出全新视觉生成范式Thinking-while-Generating（TwiG），通过“生成-思考-再生成”的循环机制，使模型在作图过程中多次暂停并进行文本推理，实现对空间关系、物体数量等复杂逻辑的精准控制。该框架涵盖“何时思考、思考什么、如何修正”三个维度，在Zero-Shot、SFT和强化学习（RL）阶段均显著提升生成质量，尤其通过GRPO策略使模型在T2I-CompBench++测试中达到与主流模型相当甚至更优的表现，为多模态生成引入可解释性与动态修正能力。
论文：https://arxiv.org/abs/2511.16671
项目主页：https://think-while-gen.github.io

参考