Stable Diffusion AI:零基础初学者指南(+在线演示)

想学习stable diffusion吗?本初学者指南适用于stable diffusion或其他 AI 图像生成器零经验的新手。

您将获得stable diffusion的概述和一些基本的有用技巧。

尝试本页上的stable diffusion AI。这是最好的学习方式!

这是初学者指南系列的第一部分。

阅读第 2 部分: 提示词构建

阅读第 3 部分: inpainting(局部重绘)

阅读第 4 部分: 模型

什么是stable diffusion?

Stable Diffusion AI 是一种用于生成 AI 图像的潜在扩散模型。这些图像可以是逼真的,就像相机拍摄的图像一样,也可以是艺术风格的,就像由专业艺术家制作的一样。

而且特别好的一点它是免费的 – 您可以在您的电脑上运行它。

如何使用stable diffusion?

您需要给它一个描述图像的提示词。例如:

stable diffusion会将这个提示词变成如下图所示的图像。

gingerbread house, diorama, in focus, white background, toast , crunch cereal

姜饼屋,西洋镜,焦点,白色背景,烤面包,脆麦片

您可以从同一提示词生成任意数量的变体。

stable diffusion有什么优势?

还有类似的文本到图像生成服务,例如 DALLEMidJourney 。为什么要stable diffusion?stable diffusion的优点是

  • 开源:许多爱好者创建了免费的工具和模型。
  • 专为低功耗计算机设计:免费或运行成本低廉。

stable diffusion是免费的吗?

在您自己的Windows 或 Mac 计算机上运行时,Stable Diffusion 可以免费使用。在线服务可能会花费您少量的费用,因为有人需要为您提供运行所需的硬件。

尝试stable diffusion在线演示

了解stable diffusion的最好方法就是亲自尝试。

尝试下面的stable diffusion图像生成器。以下是四个简单的步骤。

  1. 闭上你的眼睛。
  2. 想象一下您想要制作的图像。
  3. 尽可能详细地用文字描述图像。(为了获得最佳效果,请务必涵盖主题和背景并使用大量描述性词语)
  4. 写在下面的提示输入框中。
  5. 您可以保留否定提示不变。

以下是您可以尝试的简单提示示例列表。

一只可爱的西伯利亚猫在海滩上奔跑
a cute Siberian cat running on a beach

梵高风格的机器人
a cyborg in style of van Gogh


法国斗牛犬战士在场上,数字艺术,有吸引力,美丽,复杂的细节,详细的脸,超详细的闭上眼睛,佐罗眼罩,artstation,环境光


french-bulldog warrior on a field, digital art, attractive, beautiful, intricate details, detailed face, hyper-detailed closed eyes,zorro eye mask, artstation, ambient light

切换模型看看效果。 您将在本指南的最后部分 了解模型。

  • Stable Diffusion v1.5:官方基础模型。适合各种风格。
  • Realistic Vision v2.0:擅长生成照片风格的逼真图像。
  • Anything v3.0:动漫风格。
    您可能已经注意到,图像可能会被击中或丢失。不用担心; 有很多方法可以改善图像。

stable diffusion能做什么?

1. 从文本生成图像

stable diffusion最基本的用法是文本到图像(txt2img)。以下是您可以使用stable diffusion生成的一些图像示例。

动漫风格

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

写实风格

学习如何生成 现实的人和 现实的 街头人物 。

景观

幻想

艺术风格

动物

了解 如何生成动物 。

2. 从另一个图像生成一个图像

图像到图像 (img2img) 使用stable diffusion将一幅图像转换为另一幅图像。

下面是一个将我画的苹果变成逼真的例子。( 教程 )


图像到图像根据输入图像和提示生成图像。

3. 照片编辑

您可以使用 inpainting(局部重绘)来重新生成 AI 或 真实 图像的一部分。这与 Photoshop 的新生成填充功能相同,但免费。

4.制作视频

制作具有stable diffusion的视频有两种主要方法:(1) 从文本提示生成 (2) 从另一个参考视频生成。

Deforum 是一种根据文本提示制作视频的流行方法。您可能在社交媒体上见过其中之一。看起来像这样。

第二种方法是使用stable diffusion对视频进行风格化。请参阅 视频到视频教程 。


原来的


动画片

这是一个更高级的话题。在深入研究之前最好先掌握文本到图像和图像到图像的知识。

如何使用stable diffusion?

在线服务生成

对于绝对的初学者,我建议使用上面的免费在线生成器或其他 在线服务 。您可以开始生成,而无需进行设置的麻烦。

Stable diffusion webui

免费在线生成器的缺点是功能非常有限。

如果免费的在线服务不能满足的工作需求,可以使用Stable diffusion Webui。一整套工具可供您使用。例如:

  • 先进的提示词技巧 。
  • 使用inpainting(局部重绘) 重新生成图像的一小部分。
  • 根据输入图像生成图像( 图像到图像 )
  • 通过给出指令 来编辑图像。
    AUTOMATIC1111 Stable diffusion WebUI是一个受欢迎的选择。请参阅 快速入门指南以设置 Google Colab 云服务器。如果您有合适的 PC,在您的 PC 上运行它也是一个不错的选择。 请参阅Windows 和 Mac 的安装指南。

如何打造一个好的提示词?

要制作一个好的提示词, 需要学习很多东西。但基本的是尽可能详细地描述你的主题。确保包含强大的关键字来定义样式。

使用 提示词生成器 是学习的好方法。对于初学者来说,学习一组强大的关键字及其预期效果至关重要。这就像学习新语言的词汇一样。 您还可以在此处 找到关键字和注释的简短列表。

生成高质量图像的捷径是复用现有提示词。前往提示词集合,选择您喜欢的图像,然后窃取提示词!缺点是您可能不明白为什么它会生成高质量的图像。阅读注释并更改提示词即可查看效果。

或者,使用 Playground AI 等图像收集网站。选择您喜欢的图像并重新混合提示词。但这可能就像大海捞针一样寻找高质量的提示词。

构建良好提示的经验法则

两条规则:(1)详细且具体,(2)使用强大的关键词。

详细且具体

尽管人工智能突飞猛进,但stable diffusion仍然无法读懂你的想法。您需要尽可能详细地描述您的图像。

假设您想要生成一张街景中的女性照片。简单的提示

街上的一个女人
a woman on street

给你一个像这样的图像:

好吧,您可能不希望生成祖母,但这在技术上符合您的提示词。你不能责怪stable diffusion……

所以,你应该多写一些。

一位年轻的女士,棕色的眼睛,头发亮点,微笑,穿着时尚的商务休闲装,坐在外面,安静的城市街道,边缘照明
a young lady, brown eyes, highlights in hair, smile, wearing stylish business casual attire, sitting outside, quiet city street, rim lighting

看到巨大的差异。所以,要努力提高你的 提示词 技能!

使用强大的关键词

有些关键字比其他关键字更强大。例子是

  • 名人名字(例如艾玛·沃特森)
  • 艺术家姓名(例如梵高)
  • 艺术媒介(例如插图、绘画、照片)
    仔细使用它们可以将图像引导到您想要的方向。

您可以在构建提示词的基础知识 中了解有关提示词构建和示例关键字的更多信息。

想作弊吗?就像做作业一样,您可以使用 ChatGPT 来生成提示!

这些参数是什么?我应该更改它们吗?

大多数 在线图像生成器 允许您更改一组有限的参数。以下是一些重要的内容:

  • Image Size 图像尺寸 :输出图像的尺寸。标准尺寸为 512×512 像素。将其更改为纵向或横向尺寸会对图像产生很大影响。例如,使用 肖像尺寸 生成全身图像。
  • Sampling steps 迭代步骤 :至少使用 20 个步骤。如果您看到模糊的图像,请增加。
  • CFG Scale 提示词引导系数:典型值为 7。如果您希望图像更多地遵循提示,请增加值。
  • seed 种子值 :-1 生成随机图像。如果您想要相同的图像,请指定一个值。
    请参阅 其他设置的建议 。

我应该生成多少张图像?

在测试提示时,您应该始终生成多个图像。

当对提示进行较大更改时,我会一次生成 2-4 个图像,以便加快搜索速度。当进行小的更改以增加看到可用内容的机会时,我会一次生成 4 个。

有些提示只能在一半或更少的时间内起作用。因此,不要根据一张图像就取消提示。

修复图像缺陷的常见方法

当你看到社交媒体上分享的令人惊叹的人工智能图像时,它们很可能经过了一系列的后处理步骤。我们将在本节中讨论其中的一些内容。

面部修复

左:原始图像。右:面部修复后。

在 AI 艺术家社区中众所周知,stable diffusion不擅长生成面部。很多时候,生成的面孔存在伪影。

我们经常使用经过训练来恢复人脸的图像 AI 模型,例如 CodeFormer ,AUTOMATIC1111 GUI 具有内置支持。看看 如何打开它 。

您知道 v1.4 和 v1.5 模型有修复眼睛的更新吗?查看如何安装 VAE 。

通inpainting(局部重绘)修复小瑕疵

第一次尝试很难获得您想要的图像。更好的方法是生成具有良好构图的图像。 然后用修补法 修复缺陷。

下面是修复之前和之后的图像示例。使用原始修复提示在 90% 的情况下都有效。

左:有缺陷的原始图像。右:面部和手臂通过修补固定。

还有其他技术可以解决问题。阅读有关解决 常见问题的 更多信息。

什么是自定义模型?

Stability AI 及其合作伙伴发布的官方模型称为基础模型。 基本 模型的 一些 示例包括stable diffusion 1.4、1.5、2.0 和 2.1 。

自定义模型 是根据基本模型进行训练的。目前,大多数模型都是从 v1.4 或 v1.5 开始训练的。他们接受额外数据的训练,以生成特定样式或对象的图像。

对于定制模型而言,只有天空才是极限。它可以是动漫风格、迪士尼风格、另一个 AI 的风格。你说出它的名字。

以下是 5 种不同型号的比较。


由 5 个不同模型生成的图像。

合并两个模型 以创建介于两者之间的样式也很容易。

我应该使用哪种型号?

如果您刚开始,请坚持使用基本模型。有很多值得学习和玩耍的东西,可以让你忙上几个月。

基本模型的两个主要组是 v1 和 v2。v1 型号为 1.4 和 1.5。v2 型号为 2.0 和 2.1。

您可能认为应该从较新的 v2 型号开始。人们仍在试图弄清楚如何使用 v2 模型。v2 的图像不一定比 v1 的图像好。

如果您是stable diffusion的新手,我建议您使用 v1.5模型。

如何训练新模型?

使用stable diffusion的优点是您可以完全控制模型。如果您愿意,您可以创建具有独特风格的自己的模型。训练模型的两种主要方法:(1) Dreambooth 和(2) embedding 。

Dreambooth 被认为更强大,因为它微调了整个模型的重量。Embedding使模型保持不变,但找到描述新主题或风格的关键字。

您可以在dreambooth 文章中通过 Colab 来尝试。

负面提示词

您在提示词中输入您想看到的内容。你把你不想看到的东西放在否定提示词中。并非所有stable diffusion服务都支持负面提示。它对于 v1 模型来说很有价值,对于 v2 模型来说是必须的。对于初学者来说,使用通用的否定提示并没有什么坏处。阅读有关负面提示的更多信息:

  • 负面提示如何发挥作用?
  • 如何使用负面提示?

如何通过stable diffusion制作大幅印刷品?

对于 v1 模型,stable diffusion的原始分辨率为 512×512 像素。您不应生成宽度和高度与 512 像素偏差太大的图像。使用以下尺寸设置生成初始图像。

  • 横向图像:将高度设置为 512 像素。将宽度设置得更高,例如 768 像素(2:3 宽高比)
  • 竖向图像:将宽度设置为 512 像素。将高度设置得更高,例如 768 像素(3:2 宽高比)
    如果您将初始宽度和高度设置得太高,您将看到重复的主题。

下一步是放大图像。免费的 AUTOMATIC1111 GUI 附带一些流行的 AI 升级器。

  • 阅读 本教程, 了解 AI 升级器的初学者指南。
  • 阅读 本教程 以获取更高级的用法。

如何控制构图?

stable diffusion技术正在迅速改进。有几种方法。

图像到图像

您可以要求stable diffusion在生成新图像时大致遵循输入图像。这称为 图像到图像 。下面是使用鹰的输入图像生成龙的示例。输出图像的组成遵循输入。


输入图像


输出图像

ControlNet

ControlNet 类似地使用输入图像来指导输出。但它可以提取特定信息,例如人体姿势。下面是使用 ControlNet 从输入图像复制人体姿势的示例。


输入图像


输出图像

除了人体姿势之外,ControlNet 还可以提取其他信息,例如轮廓。

区域提示词

您可以使用名为Regional Prompter 的 扩展指定图像某些部分的提示。此技术对于仅在图像的某些部分绘制对象非常有帮助。

下面是将狼放置在左下角并将头骨放置在右下角的示例。

阅读 区域提示词器 教程以了解更多使用方法。

图像深度

图像深度 是通过输入图像控制构图的另一种方法。它可以检测输入图像的前景和背景。输出图像将遵循相同的前景和背景。下面是一个例子。


输入图像


输出图像

生成特定主题

现实的人

您可以使用stable diffusion来生成照片风格的逼真人物。让我们看一些示例。

归根结底是使用正确的提示和经过训练的特殊模型来产生照片风格的逼真人类。 在生成真实人物 的教程中了解更多信息。

动物

动物是stable diffusion用户中最受欢迎的主题。

这是一些示例。

阅读生成动物 的教程以了解如何操作。

下一步

现在您已经完成了初学者指南的第一个教程!查看其余的。

这是初学者指南系列的第 1 部分。

阅读第 2 部分: 提示词构建 。

阅读第 3 部分: inpainting 局部重绘。

阅读第 4 部分: 模型 。

《Stable Diffusion AI:零基础初学者指南(+在线演示)》有15条评论

发表评论