【RealFill】一种新的用于图像补全的生成式模型

文章目录

RealFill
- 1. 背景
- 2. 模型结构
- - 2.1 Training 流程
  - 2.2 Inference 阶段
- 3. 应用场景
- - 3.1 outpainting
  - 3.2 Inpainting
- 4. 局限性

RealFill

论文链接：https://arxiv.org/abs/2309.16668

项目地址：https://realfill.github.io/

代码仓库：https://github.com/thuanz123/realfill 截止国庆假期前夕，代码尚未公开完整。

1. 背景

虽然模型可以在未知区域生成高质量、合理的图像内容，但由于缺乏真实场景的上下文信息，这些模型幻觉出的内容必然是不真实的。只依赖于prompts，缺乏参考图像。比如说衣服变了，类似于生成视频中的一致性不好等问题。

本文定义了一个全新的问题：「真实图像补全」Authentic Image Completion。

RealFill 是首个通过在过程中添加更多的条件（即添加参考图像）来扩展生成型图像修复模型表达力的方法。

RealFill 模型的优势是可以使用少量的场景参考图像进行个性化设置，而这些参考图像无须与目标图像对齐，甚至可以在视角、光线条件、相机光圈或图像风格等方面有极大的差异。一旦完成个性化设置，RealFill 就能够以忠实于原始场景的方式，用视觉上引人入胜的内容来补全目标图像。

2. 模型结构

在这里插入图片描述
$I_{ref}$ ：输入的参考图像。
$I_{tgt}$ ：输入的目标图像。
$I_{out}$ ：Training阶段的输出，通常为一个集合，进行筛选。
$I_{gen}$ ：Inference阶段的输出。

2.1 Training 流程

输入：3~5张 reference images & target images & prompt
输出：output images
Loss：

对于reference images:

随机进行mask
训练lora
放入diffusion model

模型仅仅对mask掉的部分进行loss计算。

最终生成的 ${I_{out}}$ 集合，如果生成的图像与参考图像之间的对应关系较差或不够准确，它们就会被筛选掉，不会被包含在最终的生成结果中。

2.2 Inference 阶段

为了保证非生成部分能够更好的还原，对 $I_{tgt}$ 的非mask区域，设置 $\alpha$ 通道，保证 $I_{tgt}$ 的还原性良好。

3. 应用场景

3.1 outpainting

在这里插入图片描述
给定左侧的参考图像，RealFill 能够在右侧绘制相应的目标图像。将白盒内的区域作为已知像素提供给网络，并生成白盒外的区域。结果表明，RealFill 产生高质量的图像忠实于参考，即使参考和目标之间存在显着差异，包括视点、光圈、照明、图像风格和物体运动的变化。

3.2 Inpainting

在这里插入图片描述
给定左边的参考图像，RealFill不仅能够去除目标图像中不希望看到的物体，忠实地揭示遮挡的内容(左列)，而且还能够在场景中插入对象，尽管参考图像和目标图像之间的视点变化显著(右列)。在左下角的例子中，参考图像和目标图像之间的孔径也不同，RealFill不仅恢复了杯子后面的建筑物，而且保持了目标图像中看到的适当数量的模糊。