DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation
论文链接
代码链接

这篇文章提出了一个新的个性化文生图模型方法:DreamBooth。给定几张参考图片,然后微调预训练的文生图模型,使得模型具备生成这些图片对应的特定物体的能力。在推理阶段,只需输入包含该特定物体的场景提示词,即可生成处于指定场景的特定物体的图片。

论文中指出,文生图模型微调会面临两个威胁:language drift和reduced output diversity。为了解决这两个威胁,作者使用了一个先验保存损失项,即下面的损失函数公式(2)的第二项。该项对使用原始的文生图模型生成的样本微调模型的过程进行约束,以保持微调后的模型的先验知识不被遗忘,对应上面的图3下方的黄色模型的微调过程。公式中的第一项,将参考图片对应的知识嵌入到模型中,对应上面的图3上方的黄色模型的微调过程。

DreamBooth在量化评估比较和用户偏好调查中均优于基准方法:

本文提出DreamBooth方法,通过微调预训练的文本到图像模型,使其能在给定参考图片后生成特定物体。解决语言漂移和输出多样性问题的关键是引入先验保存损失,DreamBooth在量化评估和用户测试中表现出色。

6498

被折叠的 条评论
为什么被折叠?



