1. 通义千问发布Qwen-Image-Layered模型,实现图片分层精准编辑突破
通义千问团队正式推出全新图像生成模型Qwen-Image-Layered,该模型以自研创新架构打破传统AI图片编辑局限,通过“图层拆解”技术将静态图片自动分解为语义独立的RGBA图层,可实现重新着色、物体替换等精准编辑操作,其核心亮点包括RGBA-VAE技术、VLD-MMDiT架构及多阶段进化能力。
技术报告:https://arxiv.org/abs/2512.15603
GitHub: https://github.com/QwenLM/Qwen-Image-Layered
ModelScope: https://www.modelscope.cn/models/Qwen/Qwen-Image-Layered
Hugging Face: https://huggingface.co/Qwen/Qwen-Image-Layered
Demo: https://www.modelscope.cn/studios/Qwen/Qwen-Image-Layered
2. 开源工具PromptFill上线,以“填空式”交互降低AI绘画提示词创作门槛
一款名为PromptFill的开源结构化提示词生成工具正式推出,专为Nano Banana、Stable Diffusion等AI绘画工具设计。该工具通过将复杂提示词拆解为独立“变量”,提供填空、点选、拖拽等可视化交互方式,并内置智能词库分类,支持自定义关键词、实时预览、一键复制导出及多模板保存,还保障本地数据隐私安全,有效解决了AI绘画中提示词编写门槛高、格式易出错、记忆负担重等痛点。工具已迭代至v0.5版本,适配桌面与手机双端,获开源社区好评,特别适合新手、内容创作者及专业设计师,推动AI绘画向“人人可创”方向演进,用户可通过GitHub仓库免费试用。
GitHub:https://github.com/TanShilongMario/PromptFill/
3. 强化学习首次系统性突破文本到3D生成,AR3D-R1实现高质量推理驱动建模
上海人工智能实验室、西北工业大学等机构联合提出首个强化学习增强的文本到3D自回归模型AR3D-R1,系统性解决了3D生成中空间复杂性高、奖励设计难等挑战。该研究引入层次化强化学习范式Hi-GRPO,通过分离全局结构推理与局部纹理精修优化生成流程,并提出新基准MME-3DR评估模型隐式推理能力。实验表明,AR3D-R1在Kernel Distance(0.156)和CLIP Score(29.3)上显著领先,在复杂空间结构、机械可供性等任务中生成质量显著提升,标志着RL在3D生成领域的突破性进展。
GitHub:https://github.com/Ivan-Tang-3D/3DGen-R1
论文:https://arxiv.org/pdf/2512.10949
4. Agent实战表现不佳?新研究指出“适应性”是关键瓶颈
UIUC、斯坦福等12所高校联合发布51页Agent系统综述,提出以“适应性”为核心的2×2分类框架,将现有方法划分为优化Agent本身(A1/A2)与优化工具(T1/T2)两大维度,并指出工具优化范式(T2)在数据效率上显著优于端到端训练——仅需2400条样本即可达到传统方法17万条数据的效果。研究进一步提出协同适应、持续适应、安全适应与高效适应四大前沿方向,为破解Agent“演示强、实战弱”困境提供了系统性指导。
论文:https://arxiv.org/abs/2512.16301
GitHub:https://github.com/pat-jj/Awesome-Adaptation-of-Agentic-AI
5. 视觉Tokenizer的Scaling Law首次突破:MiniMax开源VTP框架,解决生成模型性能瓶颈
MiniMax海螺视频团队开源了视觉分词器预训练框架VTP,首次揭示了视觉Tokenizer也存在明确的Scaling Law。传统两阶段生成模型中,Tokenizer仅依赖像素级重建会导致生成性能饱和甚至下降,而VTP通过联合优化理解(图文对比学习)、重建(细节保留)与生成(自监督结构学习) 三大目标,使Tokenizer具备语义理解能力。实验表明,VTP在生成质量、训练效率上显著优于传统方案,且性能随算力投入持续提升,为生成模型优化提供了新方向。
GitHub:https://github.com/MiniMax-AI/VTP
论文:https://arxiv.org/abs/2512.13687v1
Hugging Face:https://huggingface.co/collections/MiniMaxAI/vtp
6. 港中文&美团提出TwiG框架:让AI「边画边想」,突破复杂视觉生成瓶颈
香港中文大学与美团联合团队提出全新视觉生成范式Thinking-while-Generating(TwiG),通过“生成-思考-再生成”的循环机制,使模型在作图过程中多次暂停并进行文本推理,实现对空间关系、物体数量等复杂逻辑的精准控制。该框架涵盖“何时思考、思考什么、如何修正”三个维度,在Zero-Shot、SFT和强化学习(RL)阶段均显著提升生成质量,尤其通过GRPO策略使模型在T2I-CompBench++测试中达到与主流模型相当甚至更优的表现,为多模态生成引入可解释性与动态修正能力。
论文:https://arxiv.org/abs/2511.16671
项目主页:https://think-while-gen.github.io
参考
- https://www.aibase.com/zh/news
- https://mp.weixin.qq.com/s/TXDDAbEgGC1UW6qskyKG6A
- https://mp.weixin.qq.com/s/AeVRWpknYzt0_tawTQTZWQ
- https://mp.weixin.qq.com/s/ne5gllskdjDKaDvyqXLvYQ
- https://mp.weixin.qq.com/s/Bvr-ixLNuIIismHLIkxNdw

510

被折叠的 条评论
为什么被折叠?



