Stable Diffusion 模型介绍以及一些常见模型

模型,有时称为检查点checkpoint文件,是预先训练的Stable diffusion权重,旨在生成一般或特定类型的图像。

模型可以生成什么图像取决于用于训练它们的数据。如果训练数据中不存在猫,则模型将无法生成猫的图像。同样,如果您只用猫图像训练模型,它只会生成猫。

我们将介绍哪些模型,一些常见的模型(v1.4v1.5F222Anything V3Open Journey v4),以及如何安装、使用和合并它们。

这是初学者指南系列的第 4 部分。
阅读第 1 部分:零基础初学者指南
阅读第 2 部分:提示词构建
阅读第 3 部分:inpainting

微调模型

什么是微调fine-tuning?

微调是机器学习中的常用技术。它需要一个在宽数据集上训练的模型,并在窄数据集上训练更多。

经过微调的模型将偏向于生成与数据集相似的图像,同时保持原始模型的多功能性。

为什么要使用微调?

Stable diffusion固然很好,但并不是万能的。例如,它可以通过提示词中带有关键字“anime”来生成动漫风格图像。但生成动漫子类型的图像可能很困难。您可以使用子类型的图像微调模型,而不是修改提示。

如何进行微调?

两种主要的微调方法是(1)额外训练和(2)Dreambooth。它们都以v1.4v1.5等基本模型开始。

额外的训练是通过使用您感兴趣的附加数据集训练基本模型来实现的。例如,您可以使用老式汽车的附加数据集训练 Stable Diffusion v1.5,以使汽车的美学偏向于子类型。

Dreambooth最初由 Google 开发,是一种将自定义主题注入文本生成图像模型的技术。即使 3-5 个图像也可以进行微调。您可以给自己拍几张照片,然后使用 Dreambooth 将自己放入模型中。使用 Dreambooth 训练的模型需要特殊的关键字来触发模型。

还有另一种不太流行的微调技术,称为文本反转textual inversion(有时称为嵌入Embedding)。目标与 Dreambooth 类似:仅通过几个示例将自定义主题注入到模型中。专门为新对象创建一个新关键字。仅对文本嵌入Embedding网络进行微调,同时保持模型的其余部分不变。通俗地说,这就像用现有的词语来描述一个新的概念。

模型

有两组模型:v1 和 v2。我将在本节介绍 v1 模型,在下一节介绍 v2 模型。

有数千个经过微调的Stable diffusion模型。这个数字每天都在增加。以下是可用于一般用途的模型列表。

Stable diffusion v1.4

模型页

下载链接

Stability AI 于 2022 年 8 月发布的 v1.4 模型被认为是第一个公开可用的Stable diffusion模型。

您可以将 v1.4 视为通用模型。大多数时候,按原样使用就足够了,除非您对某些样式非常挑剔。

Stable diffusion v1.5

模型页

下载链接

v1.5 由 Stability AI 的合作伙伴 Runway ML 于 2022 年 10 月发布。该模型基于 v1.2 进行了进一步训练。

模型页面没有提及改进是什么。与 v1.4 相比,它产生的结果略有不同,但尚不清楚它们是否更好。

与 v1.4 一样,您可以将 v1.5 视为通用模型。

根据我的经验,v1.5 作为初始模型是一个不错的选择,并且可以与 v1.4 互换使用。

F222

下载链接

F222最初是为了生成裸体而训练的,但人们发现它有助于生成具有正确身体部位关系的美丽女性肖像。有趣的是,与您可能想象的相反,它非常擅长生成美观的服装。

F222适合拍摄人像。它很容易产生裸体。在提示词中包含“连衣裙Dress”和“牛仔裤jeans”等衣服术语。

在这篇文章中查看更多逼真的照片风格模型。

Anything V3

模型页

下载链接

Anything V3是一种经过训练可生成高质量动漫风格图像的特殊用途模型。您可以在文本提示词中使用danbooru 标签(例如 1girl、白发 1girl, white hair)。

它在把名人塑造成动漫风格过程中很有用,然后可以与说明性元素无缝融合。

一个缺点是它产生的女性体型不成比例。可以用 F222 来调整。

Open Journey

模型页

下载链接

Open Journey 是一个使用Mid Journey v4生成的图像进行微调的模型它具有不同的美感,是一个很好的通用模型。

触发关键字:mdjrny-v4 style

模型对比

以下是具有相同提示词和种子的这些模型的比较。

最佳模型

有数千种可用的Stable Diffusion模型。其中许多是专用模型,旨在生成特定风格。你应该从哪里开始?

以下是我不断回顾的一些最佳模型:

DreamShaper

Dreamshaper模型针对介于照片写实和计算机图形之间的肖像插画风格进行了微调它很容易使用,如果你喜欢这种风格,你就会喜欢它。

模型页面

下载链接

Deliberate v2

Deliberate v2是另一个必备模型,可以渲染逼真的插图。结果可能出奇的好。每当您有良好的提示词时,请切换到此模型,看看您会得到什么!

下载链接

Realistic Vision v2

Realistic Vision v2用于生成任何现实的东西。详细了解如何生成现实的人

下载链接

ChilloutMix

模型页

ChilloutMix 是一个用于生成照片质量的亚洲女性的特殊模型。它就像 F222 的亚洲版本。与韩国人风格Embedding嵌入ulzzang-6500-v1 一起使用来生成像 k-pop 这样的女孩。

与 F222 一样,它有时会生成裸体。在提示词中使用“dress”和“jeans”等衣服术语来抑制,在否定提示词中使用“nude”。

Protogen v2.2(动漫)

Protogen v2.2 非常经典。它生成具有良好品味的插图和动漫风格图像。

Protogen v2.2 模型页面

下载链接

GhostMix幽灵混音

GhostMix采用 90 年代经典动漫《攻壳机动队》风格进行训练。您会发现它对于生成机器人和机器人很有用。

下载链接

Waifu-diffusion

下载链接

Waifu Diffusion 是一种日本动漫风格。

墨朋克Inkpunk Diffusion

下载链接

Inkpunk Diffusion 是一个经过 Dreambooth 训练的模型,具有非常独特的插画风格。

触发关键字:nvinkpunk

发现更多模型

您可以在Huggingface找到更多模特

Civita是另一个搜索模型的绝佳资源。

v2 模型

Stability AI发布了新系列模型版本2。目前已发布2.02.1模型。v2模型的主要变化是

  • 除了 512×512 像素外,还提供更高分辨率的 768×768 像素版本。
  • 您无法再生成露骨内容,因为色情材料已从培训中删除。

您可能会假设每个人都已开始使用 v2 模型。然而,Stable diffusion社区发现2.0模型中的图像看起来更糟。人们也很难使用名人名字和艺术家名字等强大的关键词。

2.1模型部分解决了这些问题。开箱后的图像看起来更好。更容易产生艺术风格。

到目前为止,大多数人还没有完全转向 2.1 模型。许多人偶尔会使用它们,但大部分时间都花在 v1 模型上。

如果您决定尝试 v2 模型,请务必查看这些提示词,以避免一些常见的问题。

如何安装和使用模型

这些说明仅适用于 v1 型号。v2.0v2.1的话请看这个说明。

要在 AUTOMATIC1111 GUI 中安装模型,请下载checkpoint (.ckpt) 文件并将其放置在以下文件夹中

stable-diffusion-webui/models/Stable-diffusion/

检查点下拉框旁边的重新加载按钮

您应该会看到刚刚放入的检查点文件可供选择。选择新的检查点文件以使用该模型。

或者,您可以按“生成”下的“iPod”按钮

将出现模型面板。选择检查点checkpoint选项卡并选择一个模型。

如果您不熟悉 AUTOMATIC1111 GUI, 快速入门指南中包含的 Colab notebook中已预加载了一些模型。

合并两个模型

要使用 AUTOMATIC1111 GUI 合并两个模型,请转至检查点合并checkpoint merger选项卡,然后在主模型 (A)辅助模型 (B)中选择要合并的两个模型。

调整乘数(M)来调整两个模型的相对权重。设置为 0.5 会将两个模型合并为同等重要。

“运行”后,新的合并模型将可供使用。

合并模型的示例

以下是将F222Anything V3合并为相同权重 (0.5)的示例图像:

比较 F222、Anything V3 和 Merged(各 50%)

合并后的模型介于现实的 F222 和动画 Anything V3 风格之间。它是生成人物插画艺术的一个非常好的模型。

其他模型类型

四种主要类型的文件可以称为“模型”。让我们澄清一下,这样你就知道人们在谈论什么。

  • 检查点模型Checkpoint models:这些是真正的Stable diffusion模型。它们包含生成图像所需的所有内容。不需要额外的文件。它们很大,通常为 2 – 7 GB。它们是本文的主题。
  • 文本倒置Textual inversions:也称为嵌入Embedding。它们是定义新关键字以生成新对象或样式的小文件。它们很小,通常为 10 – 100 KB。您必须将它们与检查点模型一起使用。
  • LoRA 模型:它们是检查点模型的小补丁文件,用于修改样式。它们通常为 10-200 MB。您必须将它们与检查点模型一起使用。
  • 超网络Hypernetworks:它们是添加到检查点模型的附加网络模块。它们通常为 5 – 300 MB。您必须将它们与检查点模型一起使用。

总结

在这篇文章中,我介绍了什么是Stable diffusion模型、它们是如何制作的、一些常见的模型以及如何合并它们。当您心中有特定的风格时,使用模型可以让您的生活更轻松。

这是初学者指南系列的第 4 部分。

《Stable Diffusion 模型介绍以及一些常见模型》有20条评论

发表评论