深度生成图像 (Depth2img) 是Stable diffusion v2 中一个未被充分重视的模型。它是图像生成图像(img2img)的增强功能,在生成新图像时利用了深度信息。
在本教程中,我们将深入了解它是什么、如何安装和使用它以及它可以为您做什么。
深度图像可以做什么
通过图像深度,您可以更好地分别控制主题和背景的合成。
假设我想把《爱乐之城》中的浪漫场景变成一场摔跤比赛……
我们稍后将讨论更多细节,但现在只需将深度生成图像视为图像生成图像的增强版本。它们的使用方式完全相同——给定图像和文本提示词,它将生成一个新图像。
假设我使用提示词
两个男人摔跤的照片
photo of two men wrestling
对于图像生成图像和深度生成图像。下面是降噪强度从 0.4 到 1.0 变化的结果。(请记住,降噪强度越高,图像变化就越大。)
比较图像生成图像和深度生成图像。
让我们看看图像生成图像的生成(顶行)。我们遇到了一个问题:在低降噪强度下,图像变化不够。在高降噪强度下,我们确实看到了两个摔跤手,但原始构图丢失了。
深度生成图像解决了这个问题。您可以将降噪强度一直提高到 1(最大值),而不会丢失原始成分!
现在您知道深度图像可以做什么了,让我们看看它是如何工作的。
那么什么是图像深度?
在图像生成图像中,Stable diffusion将图像和提示词作为输入。图像生成基于图像和提示词。最终图像的颜色和形状与输入图像类似。
在深度生成图像中,Stable diffusion同样将图像和提示词作为输入。该模型首先使用MIDaS估计输入图像的深度图,MIDaS 是 2019 年开发的 AI 模型,用于估计单眼深度感知(即从单个视图估计深度)。然后,Stable diffusion使用深度图作为图像生成的额外条件。
换句话说,深度生成图像使用三个条件来生成新图像:(1)文本提示词,(2)原始图像和(3)深度图。
配备深度图后,模型对场景的三维组成有了一定的了解。前景物体和背景的图像生成可以分离。
深度图
您不需要提供深度图来使用深度生成图像。本节展示深度图用于教学目的。
深度图是与编码深度信息的原始图像大小相同的简单灰度图像。全白色表示该物体距离您最近。黑色意味着更远。
以下是由 MIDaS 估计的图像及其深度图的示例。
让我们将图像和深度图结合起来(使用Depthy)。将指针悬停在图像上即可查看效果。
如果您想详细了解深度图像如何在更深层次上工作,请参阅模型架构。
安装深度生成图像模型
如何安装
要在 AUTOMATIC1111 GUI 中安装深度到图像模型:
- 下载模型文件(512-深度-ema.ckpt)
- 下载 配置文件,将其重命名为
512-depth-ema.yaml
将它们都放在模型目录中:
stable-diffusion-webui/models/Stable-diffusion
如何使用
要使用该模型,请按左上角检查点下拉框旁边的刷新按钮。选择512-depth-ema.ckpt
加载模型。
请注意,深度模型可用于图像生成图像和Inpainting局部重绘,但不能用于文本生成图像。如果您尝试这样做,您将看到错误。
要使用该模型,请转到img2img选项卡。请按照img2img和Inpainting说明进行使用。
从模型名称可以看出,这是一款512模型。这意味着当新图像的至少一侧为 512 像素时效果最佳。
一些使用建议
现在我们将介绍一些用例。
img2img 的替代品
假设您有一张这样的肖像照片。
原始肖像图像。
你想要有一些多样性,包括一位亚洲女性。但你已经在他周围设计了额外的元素,所以你不希望这个人的形状发生改变。
你可以使用 img2img 来做到这一点,但你不能将降噪强度设置得太高,因为你会失去原来的形状。
使用 img2img,这是你能做的最好的事情:
图像到图像。提示词:一个美丽快乐的亚洲女人,拥有完美细致的眼睛、细致的面部特征、细致的皮肤、自然光线、长发。去噪强度:0.58。
形状有些变化,但还不算太糟糕。但去噪强度仍然太低,无法偏离原始人的肤色。也没有遵循长发提示词。
现在的困境是:将去噪强度增加到 1 会得到我们想要的结果,但我们会失去原始形状:
图像到生成像具有相同的提示,但去噪强度设置为 1。
使用深度到图像模型可以让我们将去噪强度设置为 1,而不会丢失原始形状:
具有相同提示词且去噪强度设置为 1 的图像深度。
请注意,该男子的形状被完全保留,并且Stable diffusion以某种方式弄清楚如何渲染长发。
Inpainting 局部重绘
您可以类似地在Inpainting中使用深度生成图像,用于修复缺陷或创建新的东西。
如果您关心保留原始构图,则需要使用深度图像。
使用深度图像模型进行局部重绘。
风格转移
深度生成图像的优点是您可以将denoising strength降噪强度一直调至 1,而不会丢失构图。这使得将场景转换为不同的风格变得容易。
这里有些例子:
偷个姿势
使用Stable diffusion很难生成特定的人体姿势。通过深度图像,您可以使用具有所需姿势的照片作为基础图像。将降噪强度设置为 1,您就可以开始工作了!姿势将完全保留图像深度。照片可以是电影场景、一幅画或用手机拍摄的照片。
不再需要额外的四肢、奇怪的手和无休止的修复来修复姿势!
总结
深度生成图像是图像生成图像的绝佳替代方案,尤其是当您想要保留场景的构图时。
这个强大的工具自发布以来并没有引起太多关注。我希望这篇文章能够启发您考虑将其纳入您的工作流程中。
您可能感兴趣