Stable Diffusion WebUI AUTOMATIC1111: 入门指南

Stable Diffusion WebUI AUTOMATIC1111: 入门指南

Stable Diffusion web UI (简称AUTOMATIC1111 or A1111)是高级用户的实际GUI。多亏热情的社区,大多数新功能首先来到这个免费的Stable Diffusion GUI。但它并不是最容易使用的软件,因为缺少文件,它提供的大量功能可能令人望而生畏。

本指南将教您如何使用AUTOTMATIC1111 GUI。您可以将其用作教程。你可以一步一步地学习很多例子。

您也可以将本指南用作参考手册。跳过它,看看那里有什么。当您真正需要使用某个功能时,请返回到它。

你会看到很多例子来证明设置的效果,因为我相信这是唯一能说明问题的方法。

下载并安装Web UI

您可以在Windows、Mac或Google Colab上使用Stable Diffusion Web UI。.

阅读快速入门指南,决定使用哪种Stable Diffusion。

“文本到图像”选项卡

当您第一次启动GUI时,您将看到txt2img选项卡。该选项卡完成了稳定扩散的最基本功能:将文本提示转换为图像

基本用途

如果这是您第一次使用AUTOMATIC111,您可能需要更改这些设置。

Stable Diffusion Checkpoint:选择您想要的模型。第一次用户可以使用v1.5基本模型

提示词Prompt:描述您希望在图像中看到的内容。下面是一个例子,有关教程,请参见提示词构建的完整指南。

萨尔瓦多·达利的超现实主义猫画

A surrealist painting of a cat by Salvador Dali

Width and height:输出图像的大小。使用v1模型时,应将至少一侧设置为512像素。例如,对于纵横比为2:3的人像图像,将宽度设置为512,将高度设置为768。

Batch size:每次要生成的图像数。在测试提示时,您希望至少生成一些提示,因为每个提示都不同。

最后,点击Generate按钮。经过短暂的等待,您将获得您的图像!

默认情况下,您将获得合成缩略图的附加图像。

您可以将图像保存到本地存储中。首先,使用主图像画布下方的缩略图选择图像。右键单击图像以显示上下文菜单。您应该有保存图像或将图像复制到剪贴板的选项。

这就是你需要了解的基本知识!本节的其余部分将更详细地解释每个函数。

图像生成参数

Txt2img选项卡

Stable Diffusion checkpoint是用于选择模型的下拉菜单。你需要把模型文件放在文件夹stable-diffusion-webui > models > Stable-diffusion。请参阅有关安装型号的更多信息。

下拉菜单旁边的刷新按钮用于刷新型号列表。当您刚将一个新模型放入模型文件夹并希望更新列表时,就会使用它。

Prompt文本:将您想要看到的内容放在图像中。要详细具体。使用一些屡试不爽的关键词。您可以在这里找到一个简短的列表,或者在提示生成器中找到一个更广泛的列表。

Negative Prompt文本框:放置您不想看到的内容。使用v2型号时,应使用否定提示。您可以使用通用的否定提示。有关详细信息,请参阅本文

Sampling method采样方法:用于去噪过程的算法。我使用DPM++2M Karras是因为它很好地平衡了速度和质量。有关更多详细信息,请参阅本节。您可能希望避免使用任何原始采样器(带a的采样器),因为即使在较大的采样步骤下,它们的图像也不稳定。这使得调整图像变得困难。

Sampling steps采样步骤:去噪过程的采样步骤数。越多越好,但也需要更长的时间。25个步骤适用于大多数情况。

Width and height:输出图像的大小。对于v1型号,您应该将至少一侧设置为512像素。例如,对于纵横比为2:3的人像图像,将宽度设置为512,将高度设置为768。使用v2-768px型号时,至少将一侧设置为768。

Batch count:运行图像生成管道的次数。

Batch size:每次运行管道时要生成的图像数。

生成的图像总数等于批计数乘以批大小。您通常会更改批量大小,因为它更快。只有在遇到内存问题时,才会更改批处理计数。

CFG scale分类器自由制导量表(Classifier Free Guidance scale)是一个参数,用于控制模型应在多大程度上尊重您的提示。

1–大多数情况下忽略您的提示。

3–要更有创造力。

7–遵循提示和自由之间的良好平衡。

15–更多地遵守提示。

30–严格遵守提示。

下图显示了使用固定种子值更改CFG的效果。您不希望将CFG值设置得过高或过低。如果CFG值过低,Stable Diffusion将忽略您的提示。图像的颜色过高时会饱和。

Seed

Seed: 用于在潜在空间中生成初始随机张量的种子值。实际上,它控制图像的内容。生成的每个图像都有自己的种子值。如果设置为-1,AUTOMATIC111将使用随机种子值。

固定种子的一个常见原因是固定图像的内容并调整提示。假设我使用以下提示生成了一个图像。

女人的照片,连衣裙,城市夜晚的背景

photo of woman, dress, city night background

我喜欢这张图片,想调整提示,在她的手腕上添加手镯。将种子设置为此图像的值。种子值在图像画布下方的日志消息中。

图像的种子值(高亮显示)在日志消息中

将此值复制到种子值输入框中。或者使用“回收”按钮复制种子值。


现在将术语“bracelet”添加到提示中

photo of woman, dress, city night background, bracelet

女人的照片,连衣裙,城市夜晚的背景,手镯

你会看到她手腕上戴着手镯的类似照片。

这个场景可能会完全改变,因为一些关键词足够强大,可以改变构图。您可以在稍后的采样步骤中尝试交换关键字

使用dice icon将种子设置回-1(随机)。


Extra seed选项

选中“Extra”选项将显示“Extra Seed menu”菜单。

变体种子(Variation seed):您要使用的附加种子值。

变异强度(Variation strength)种子变异种子之间的插值程度。将其设置为0将使用种子值。将其设置为1将使用变异种子值。

下面是一个例子。假设您已经从相同的提示和设置中生成了2个图像。它们有自己的种子值1和3。

第一个图像:种子值为1


第二个图像:种子值为3

您希望生成这两个图像的混合。您可以将种子设置为1,将变体种子设置为3,并在0和1之间调整变体强度。在下面的实验中,变异强度允许您在两个种子之间产生图像内容的转换。当变化强度从0增加到1时,女孩的姿势和背景逐渐变化。

根据宽度/高度调整种子大小:如果更改图像大小,即使使用相同的种子,图像也会发生巨大变化。此设置试图在调整图像大小时修复图像的内容。您将把新的尺寸放在宽度高度滑块中,并把原始图像的宽度和高度放在这里。将原始种子值放入种子输入框中。将变异强度设置为0可忽略变异种子。

假设你喜欢这张512×800的图片,种子值为3。

512×800

即使在保持相同seed值的情况下,更改图像大小时,构图也会发生剧烈变化。

512×600

512×744设置不同的尺寸会极大地改变图像

当你从高度和宽度设置打开调整大小种子时,你会用新的尺寸得到更接近原始尺寸的东西。它们并不完全相同,但很接近。

512×600
512×744图像与原始图像更接近,具有调整大小种子选项

恢复面部(Restore faces)

恢复面部应用为恢复面上的缺陷而训练的附加模型。以下是前后示例。

原始的
面部恢复

在使用“恢复面”之前,必须指定要使用的面部恢复模型(Restore Faces)。首先,访问“设置”选项卡。导航到“面部恢复”部分。选择一个面恢复模型。CodeFormer是一个不错的选择。将CodeFormer权重设置为0以获得最大效果。请记住单击“应用设置”按钮以保存设置!

返回txt2img选项卡。选中“Restore Faces”。人脸恢复模型将应用于您生成的每个图像。

如果发现应用程序会影响面上的样式,则可能需要关闭面恢复。或者,可以增加CodeFormer权重参数以减少效果。

平铺(Tiling)

使用“平铺”选项可以生成可以平铺的周期性图像。下面是一个例子。

花朵图案

此图像可以像壁纸一样平铺

2×2 tiled

使用Stable Diffusion的真正有价值之处是允许您创建任何图像的图案,而不仅仅是传统图案。你所需要的只是想出一个文本提示。

Hires. fix.

high-resolution fix”选项应用向上缩放器来放大图像。您需要这样做,因为Stable Diffusion的原生分辨率为512像素(对于某些v2型号为768像素)。图像太小,不适合多种用途。

为什么不能将宽度和高度设置得更高,比如1024像素?偏离原生分辨率会影响构图,并产生问题,如用双头生成图像。

检查Hires. fix 以启用高分辨率修复

放大器(Upscaler):选择要使用的放大镜,有关入门知识,请参阅本文

各种潜在的放大选项缩放潜在空间中的图像。它是在文本到图像生成的采样步骤之后完成的。该过程类似于图像对图像

其他选择是传统和人工智能升级的混合。有关详细信息,请参阅AI升级文章。

Hires steps:仅适用于潜在的升迁者。它是放大潜像之后的采样步骤数。

去噪强度(Denoising strength):仅适用于潜在的放大。此参数的含义与图像对图像中的含义相同。它控制在执行Hires采样步骤之前添加到潜像的噪声。

现在让我们来看看将下面的图像放大到2倍的效果,使用潜影作为放大镜。

原始图像
0.4
0.65
0.9

潜在放大的去噪强度必须高于0.5,否则,您将得到模糊的图像。

出于某种原因,它必须大于0.5才能获得清晰的图像。设置得太高会使图像发生很大变化。

使用潜在的放大器的好处是缺乏ESRGAN等其他放大器可能引入的放大伪像。Stable Diffusion的解码器产生图像,确保风格一致。缺点是它会在一定程度上改变图像,这取决于去噪强度的值。

高档系数(upscale factor)控制图像的放大倍数。例如,将其设置为2可将512×768像素的图像缩放为1024×1536像素。

或者,您可以指定“将宽度调整为”和“将高度调整为”的值来设置新的图像大小。

通过用ESRGAN这样的AI升级器,您可以避免设置正确的去噪强度的麻烦。通常,将txt2img和升级分为两个步骤会给您带来更大的灵活性。我不使用高分辨率修复选项,而是使用额外页面进行放大。

“生成”按钮下的按钮

从左到右:

  1. 读取最后一个参数: 它将填充所有字段,以便在按下“生成”按钮时生成相同的图像。请注意,将设置种子和模型覆盖。如果这不是您想要的,请将种子设置为-1并删除覆盖。


种子值和模型替代将高亮显示

2.垃圾箱图标(Trash icon):删除当前提示和否定提示。

3.模型图标(Model icon):显示额外的网络。此按钮用于在提示中插入超网络(inserting hypernetworks)、嵌入(embeddings)LoRA短语。

可以使用以下两个按钮加载和保存提示和否定提示。这个集合被称为样式。它可以是一个像艺术家名字一样的短语,也可以是完整的提示。

4.加载样式(Load style):您可以从下面的样式下拉菜单中选择多个样式。使用此按钮可以将它们插入到提示和否定提示中。

5.保存样式(Save style):保存提示和否定提示,您需要命名样式。

图像文件操作(Image file actions)

您会发现一排按钮用于对生成的图像执行各种功能。从左到右…

打开文件夹Open folder:打开图像输出文件夹。它可能不适用于所有系统。

保存Save:保存图像。单击后,它将在按钮下方显示一个下载链接。如果您选择图像网格,它将保存所有图像。

压缩Zip:压缩图片以供下载。

发送到img2img:将所选图像发送到img2img选项卡。

发送到修复inpainting:将所选图像发送到img2img选项卡中的修复选项卡。

发送到附加功能extras:将所选图像发送到“附加功能”选项卡。

Img2img 选项卡

img2img选项卡是使用图像到图像函数的地方。大多数用户会访问此选项卡来修复图像并将其转换为另一个图像。

图像到图像

img2img选项卡中的一个日常用例是执行…图像到图像。您可以根据基础图像的合成创建新图像。

步骤1:将基础图像拖放到img2img页面上的img2img选项卡中。

基础图像

步骤2:调整宽度或高度,使新图像具有相同的纵横比。您应该在图像画布中看到一个矩形框,指示纵横比。在上面的横向图像中,我将宽度设置为760,同时将高度保持在512。

步骤3:设置采样方法采样步骤。我通常使用DPM++2M卡拉斯25步。

步骤4:将批量大小设置为4。

步骤5:为新图像写一个提示。我将使用以下提示。

龙的真实感插图

步骤6:按下生成按钮生成图像。调整去噪强度并重复。以下是具有不同去噪强度的图像。

0.4
0.6
0.8

由img2img生成的具有各种去噪强度的图像。

有许多设置与txt2img共享,我只想解释一下新的。

调整大小模式(Resize mode):如果新图像的宽高比与输入图像的宽比不同,有几种方法可以调和差异。

  • 只调整大小(Just resize)”缩放输入图像以适应新的图像尺寸。它会拉伸或挤压图像。
  • 裁剪并调整大小(Crop and resize)”使新的图像画布适合输入图像。拆下不合适的零件。原始图像的纵横比将被保留。
  • 调整大小并填充”将输入图像放入新的图像画布中。额外的部分用输入图像的平均颜色填充。纵横比将被保留。
  • 只是调整大小(潜在高档)”类似于“只是调整尺寸”,但缩放是在潜在空间中完成的。使用大于0.5的去噪强度以避免图像模糊。

只需调整大小
裁剪并调整大小
调整大小并填充
仅调整大小(潜在高档)调整大小模式

去噪强度(Denoising strength):控制图像的变化程度。如果设置为0,则不会发生任何更改。如果输入图像设置为1,则新图像不会跟随输入图像。0.75是一个很好的起点,有很多变化。

你可以使用内置的script poor man’s的画外画:用于扩展图像。请参见outpainting guide

草图(Sketch)

您可以绘制初始图片,而不是上传图像。启动webui时,应使用以下参数启用颜色草图工具。(它已经在《快速入门指南》中的Google Colab笔记本中启用)

--gradio-img2img-tool颜色草图

步骤1:导航到img2img页面上的“草图”选项卡。

步骤2:将背景图像上传到画布。您可以使用下面的黑色或白色背景。

黑色背景

白色背景

步骤3:绘制你的作品。启用颜色绘制工具后,您应该能够使用颜色绘制。

步骤4:写一个提示。

获奖房屋

步骤5:按生成

为图像对图像绘制自己的图片

你不必从头开始画。可以使用草图功能修改图像。下面是一个去除辫子的例子,方法是将辫子涂上油漆,然后进行一轮图像对图像的旋转。使用滴管工具从周围区域拾取颜色。

修补(Inpainting)

也许img2img选项卡中最常用的功能是修复。你在txt2img选项卡中生成了一个你喜欢的图像。但有一个小缺陷,你想重新生成它。

假设您已经在txt2img选项卡中生成了以下图像。您想要重新生成人脸,因为它是乱码的。您可以使用“发送到修复(Send to inpaint)”按钮将图像从txt2img选项卡发送到img2img选项卡。

当切换到img2img页面的“修复”选项卡时,您应该会看到您的图像。使用画笔工具在要重新生成的区域上创建遮罩

像图像大小这样的参数设置正确,因为您使用了“发送到修复”功能。你通常会调整

  • 去噪强度:从0.75开始。减少可更改更多。增加以减少变化。
  • 蒙版内容:原创
  • 蒙版模式:修复蒙版
  • 批量:4

按下生成按钮。选一个你喜欢的。

修补草图(Inpaint sketch)

修复草图结合了修复和草图。它允许您像在草图选项卡中一样进行绘制,但仅重新生成绘制区域,未上漆的区域保持不变。下面是一个例子。


修复草图
修复草图的结果

修复上传(Inpaint upload)

通过Inpaint上载,可以上载单独的遮罩文件,而不是绘制它。

批量(Batch)

Batch允许您对多个图像进行修复或逐图像执行。

从图像中获取提示(Get prompt from an image)

AUTOMATIC111的Interogate CLIP按钮将您上传到img2img选项卡的图像,并猜测提示。当你想处理不知道提示的图像时,它很有用。要从图像中获得猜测提示,请执行以下操作:

步骤1:导航到img2img页面

步骤2:将图像上传到img2img选项卡

步骤3:单击“Interrogate  CLIP”按钮。

提示文本框中将显示一个提示。

Interrogate DeepBooru按钮提供了类似的功能,只是它是为动画图像设计的。

粗化(Upscaling)

您将转到“附加(Extra)”页面以放大图像。为什么您需要AUTOMATIC111来放大图像?你可以使用电脑上通常无法使用的人工智能升级器。你可以在这里免费使用人工智能升级服务。

基本用途(Basic Usage)

按照以下步骤升级图像。

步骤1:导航到“附加”页面。

步骤2:将图像上传到图像画布。

步骤3:在调整大小标签下设置“按比例缩放”。新图像的每一面都会大很多倍。例如,比例因子为4的200×400图像将变为800×1600。

第4步:选择“放大1”。一种流行的通用人工智能升级工具是R-ESRGAN 4x+。

第5步:按生成。你应该在右边得到一个新的图像。

确保以全分辨率检查新图像。例如,可以在新选项卡中打开新图像并禁用自动调整。如果缩小,放大可能会产生您可能会忽略的工件。

例如,即使你不需要放大4倍,它仍然可以将其放大到4倍,然后再调整大小。这有助于提高清晰度。

缩放比例:您可以在“缩放比例”选项卡中指定要调整大小的尺寸,而不是设置缩放因子。

放大(Upscalers)

AUTOMATIC111默认情况下提供了一些升级版。

放大”:“放大”下拉菜单列出了几个内置选项。您也可以安装自己的。有关说明,请参阅文章AI升级

LanczosNearest是老派的升级版。它们没有那么强大,但行为是可以预测的。

ESRGANR-ESRGANScuNetSwinIR是人工智能的升级版。他们可以通过虚构内容来提高分辨率。有些是针对粒子样式进行训练的。找出它们是否适合你的形象的最好方法是测试它们。我现在可能听起来像是一张破唱片,但一定要以全分辨率仔细观察图像。

放大倍数2:有时,你想把两个放大倍数的效果结合起来。使用此选项可以组合两个放大的结果。混合量由“放大2可见性”滑块控制。值越高,表示放大2越多。

找不到你喜欢的升级版?您可以从模型库中安装其他升级程序。请参阅安装说明

面部修复(Face Restoration)

可以选择在放大过程中恢复面。有两种选择:(1)GFPAGAN和(2)CodeFormer。设置其中任何一个的可见性以应用校正。作为缩略图的规则,您应该设置最低的值,这样图像的样式就不会受到影响。

PNG 信息(info)

许多稳定扩散GUI,包括AUTOMATIC111,都会将生成参数写入图像png文件。这是一个快速返回生成参数的方便功能。

如果图像是由AUTOMATIC111生成的,则可以使用“发送到”按钮将参数快速复制到各个页面。

当您在网上找到图像并想查看提示是否留在文件中时,它很有用。

即使对于未生成的图像,此功能也可能有所帮助。您可以将图像及其尺寸快速发送到页面。

检查点合并(Checkpoint merger)

AUTOMATIC111的检查点合并用于合并两个或多个模型。您最多可以组合3个模型来创建一个新模型。它通常用于混合两个或多个模型的样式。但是,不能保证合并结果。它有时会产生不想要的伪影。

初级模型(A、B、C): 输入模型。合并将根据显示的公式进行。公式将根据所选的插值方法而变化。

插值方法(Interpolation methods):

  • 无插值(No interpolation): 仅使用模型A。这是用于文件转换或替换VAE
  • 加权和(Weighted sum): Merge two models A and B, with multiplier weight M applying to B. The formula is A * (1 – M) + B * M.
  • 添加差异(Add difference): Merge three models using the formula A + (B – C) * M.

检查点格式(Checkpoint format)

  • ckpt: 原始检查点模型格式
  • 安全张量(safetensors): 安全张量是Hugging Face开发的一种新的模型格式。它是安全的,因为与ckpt模型不同,加载safe Tensor模型不会执行任何恶意代码,即使它们在模型中也是如此。

Bake in VAE:将VAE解码器替换为选定的解码器。它是为了用稳定发布的更好的版本取代原来的版本。

训练(Train)

训练页面用于培训模型。它目前支持文本反转(嵌入)和超网络。我在使用AUTOMATIC111进行训练时运气不好,所以我不会涉及这一部分。

设置(Settings)

AUTOMATIC111的设置页面上有一个详细的设置列表。在这篇文章中,我将无法单独介绍它们。这里有一些你要检查的。

请确保在更改任何设置后单击“应用设置”。

面部修复(Face Restoration)

请确保选择默认的面部恢复方法,CodeFormer是一个很好的选择。

稳定扩散(Stable Diffusion)

下载并选择Stability发布的VAE,以改善v1模型中的眼睛和面部。

快速设置(Quick Settings)

您可以在顶部启用自定义快捷方式。

在“设置”页面上,单击左侧面板上的“显示所有页面”。

搜索单词“快速设置”可进入“快速设置字段”。

有很多设置可供选择。例如,以下选项可启用剪辑跳过和自定义图像输出目录的快捷方式。


保存设置并重新加载Web UI后,您将在页面顶部看到新的快捷方式。

自定义输出目录在组织图像时非常方便。

 

《Stable Diffusion WebUI AUTOMATIC1111: 入门指南》有4条评论

发表评论