开发一个流程来构建良好的提示词是每个Stable Diffusion用户解决的第一步。本文目标是写下我所知道的有关提示词的所有内容,以便您可以在一处了解所有内容。
剖析一个好的提示
一个好的提示需要详细、具体。一个好的过程是查看关键字类别列表并决定是否要使用其中任何一个。
关键字类别是
- 主题
- 媒介
- 风格
- 艺术家
- 网站
- 分辨率
- 额外细节
- 颜色
- 灯光
提示词生成器中提供了每个类别的广泛关键字列表。您还可以在此处找到简短的列表。
您不必包含所有类别的关键字。将它们视为清单以提醒您可以使用哪些内容。
让我们回顾一下每个类别,并通过添加每个类别的关键字来生成一些图像。我将使用 v1.5 基本模型。为了单独查看提示词的效果,我暂时不会使用反向提示词。别担心,我们将在本文的后面部分研究反向提示词。所有图像均由 DPM++ 2M Karas 采样器的 30 个步骤生成,图像尺寸为 512×704。
主题
主题是您想在图像中看到的内容。一个常见的错误是关于这些主题写得不够多。
假设我们想要生成一个施展魔法的女术士。新手可能会写
一个女巫
A sorceress
这就留下了太多的想象空间。你希望女巫看起来怎么样?有什么形容她的词可以缩小她的形象吗?她穿什么?她到底施展了什么魔法?她是站立、奔跑还是漂浮在空中?背景场景是什么?
Stable Diffusion无法读懂我们的想法。我们必须准确地说出我们想要什么。
对于人物生成来说,一个常见的技巧是使用名人的名字。它们具有很强的效果,是控制拍摄对象外观的绝佳方法。但是,请注意,这些名称不仅可能改变脸部,还可能改变姿势和其他东西。
作为演示,让我们将女术士塑造得像艾玛·沃特森(Emma Watson),这是《Stable Diffusion》中最常用的关键字。假设她强大而神秘,并且使用闪电魔法。我们希望她的服装非常细致,这样她就会看起来很有趣。
艾玛·沃特森饰演强大的神秘女巫,施展闪电魔法,细致的服装
Emma Watson as a powerful mysterious sorceress, casting lightning magic, detailed clothing
她的名字对模特的影响如此之大。我认为她在Stable Diffusion用户中很受欢迎,因为她看起来体面、年轻,并且在各种场景中保持一致。
媒介
媒介是用来制作艺术品的材料。例如插图、油画、3D 渲染和摄影。媒介具有很强的效果,因为仅一个关键字就可以极大地改变风格。
让我们添加关键字“数字绘画digital painting”。
艾玛·沃特森饰演强大的神秘女巫,施展闪电魔法,细致的服装,数字绘画
Emma Watson as a powerful mysterious sorceress, casting lightning magic, detailed clothing, digital painting
我们看到了我们所期望的!图像从照片变成了数字绘画。
风格
风格是指图像的艺术风格。例子包括印象派、超现实主义、pop艺术等。
让我们在提示词中添加超现实、幻想、超现实、全身(hyperrealistic, fantasy, surrealist, full body)。
艾玛·沃特森饰演强大的神秘女巫,施展闪电魔法,细致的服装,数字绘画,超写实,奇幻,超现实主义,全身
Emma Watson as a powerful mysterious sorceress, casting lightning magic, detailed clothing, digital painting, hyperrealistic, fantasy, Surrealist, full body
也许这些关键词已经被前面的关键词所暗示了。但我想保留它也没什么坏处。
艺术家
艺术家的名字是强有力的修饰语。它们允许您使用特定艺术家作为参考来调整精确的风格。使用多个艺术家名字来融合他们的风格也很常见。现在让我们加上超级英雄漫画艺术家Stanley Artgerm Lau和19 世纪肖像画家Alphonse Mucha 。
艾玛·沃特森扮演强大的神秘女巫,施展闪电魔法,细致的服装,数字绘画,超现实主义,幻想,超现实主义,全身,作者:Stanley Artgerm Lau 和 Alphonse Mucha
Emma Watson as a powerful mysterious sorceress, casting lightning magic, detailed clothing, digital painting, hyperrealistic, fantasy, Surrealist, full body, by Stanley Artgerm Lau and Alphonse Mucha
我们可以看到两位艺术家的风格很好地融合并产生了效果。
网站
Artstation和Deviant Art等小众图形网站聚集了许多不同流派的图像。在提示中使用它们是引导图像走向这些风格的可靠方法。
让我们将artstation添加到提示中。
艾玛·沃特森扮演强大的神秘女巫,施展闪电魔法,详细的服装,数字绘画,超现实主义,幻想,超现实主义,全身,作者:Stanley Artgerm Lau 和 Alphonse Mucha,artstation
Emma Watson as a powerful mysterious sorceress, casting lightning magic, detailed clothing, digital painting, hyperrealistic, fantasy, Surrealist, full body, by Stanley Artgerm Lau and Alphonse Mucha, artstation
这不是一个巨大的变化,但图像看起来确实像你在 Artstation 网站上看到的那样。
分辨率
分辨率代表图像的清晰度和细节程度。让我们添加高度详细且锐化焦点的关键字。highly detailed, sharp focus.
艾玛·沃特森饰演强大的神秘女巫,施展闪电魔法,详细的服装,数字绘画,超现实主义,幻想,超现实主义,全身,作者:Stanley Artgerm Lau 和 Alphonse Mucha,artstation,高度详细,锐化焦点
Emma Watson as a powerful mysterious sorceress, casting lightning magic, detailed clothing, digital painting, hyperrealistic, fantasy, Surrealist, full body, by Stanley Artgerm Lau and Alphonse Mucha, artstation, highly detailed, sharp focus
效果可能不是很大,因为之前的图像已经非常清晰和详细。但添加也没什么坏处。
额外细节
其他细节是锦上添花以修改图像。我们将添加科幻、美丽和反乌托邦的元素,为图像增添一些氛围。
艾玛·沃特森饰演强大的神秘女巫,施展闪电魔法,细致的服装,数字绘画,超现实主义,幻想,超现实主义,全身,作者:Stanley Artgerm Lau 和 Alphonse Mucha,artstation,高度详细,锐利的焦点,科幻,惊人的美丽,反乌托邦的
Emma Watson as a powerful mysterious sorceress, casting lightning magic, detailed clothing, digital painting, hyperrealistic, fantasy, Surrealist, full body, by Stanley Artgerm Lau and Alphonse Mucha, artstation, highly detailed, sharp focus, sci-fi, stunningly beautiful, dystopian
颜色
您可以通过添加颜色 关键字来控制图像的整体颜色。您指定的颜色可能会显示为色调或对象中。
让我们使用关键字iridescent gold为图像添加一些金色。
艾玛·沃特森饰演强大的神秘女巫,施展闪电魔法,细致的服装,数字绘画,超现实主义,幻想,超现实主义,全身,作者:Stanley Artgerm Lau 和 Alphonse Mucha,artstation,高度细致,锐利聚焦,科幻,美得惊人,反乌托邦,虹彩金
Emma Watson as a powerful mysterious sorceress, casting lightning magic, detailed clothing, digital painting, hyperrealistic, fantasy, Surrealist, full body, by Stanley Artgerm Lau and Alphonse Mucha, artstation, highly detailed, sharp focus, sci-fi, stunningly beautiful, dystopian, iridescent gold
黄金出来了,太棒了!
灯光
任何摄影师都会告诉您灯光是创造成功图像的关键因素。照明关键字会对图像的外观产生巨大影响。让我们为提示词添加电影灯光和黑暗。
艾玛·沃特森饰演强大的神秘女巫,施展闪电魔法,细致的服装,数字绘画,超现实主义,幻想,超现实主义,全身,作者:Stanley Artgerm Lau 和 Alphonse Mucha,artstation,高度详细,锐利的焦点,科幻,惊人的美丽,反乌托邦,虹彩金色,电影灯光,黑暗
Emma Watson as a powerful mysterious sorceress, casting lightning magic, detailed clothing, digital painting, hyperrealistic, fantasy, Surrealist, full body, by Stanley Artgerm Lau and Alphonse Mucha, artstation, highly detailed, sharp focus, sci-fi, stunningly beautiful, dystopian, iridescent gold, cinematic lighting, dark
这样就完成了我们的示例提示词。
您可能已经注意到,在主题中添加了一些关键字后,图像已经相当不错了。在构建Stable Diffusion的提示词时,通常不需要有很多关键字即可获得良好的图像。
反向提示词
使用反向提示是引导图像的另一种好方法,但你不是放入你想要的东西,而是放入你不想要的东西。它们不需要是对象。它们也可以是样式和不需要的属性。(例如丑陋、变形)
对于v2 模型来说,使用反向提示词是必须的。如果没有它,图像看起来会远不如 v1 的图像。对于 v1 模型来说,它们是可选的,但我经常使用它们,因为它们要么有帮助,要么无害。
我将使用通用的反向提示词。如果您想了解它是如何工作的,您可以阅读更多相关内容。
丑陋、平铺、手画得不好、脚画得不好、脸画得不好、出框、多余的肢体、毁容、变形、身体出框、解剖结构不良、水印、签名、切断、对比度低、曝光不足、曝光过度、不好艺术、初学者、业余、扭曲的脸、模糊、草稿、颗粒状
ugly, tiling, poorly drawn hands, poorly drawn feet, poorly drawn face, out of frame, extra limbs, disfigured, deformed, body out of frame, bad anatomy, watermark, signature, cut off, low contrast, underexposed, overexposed, bad art, beginner, amateur, distorted face, blurry, draft, grainy
反向提示词帮助图像更加突出。
建立良好提示词的流程
迭代提示词构建
您应该将提示词构建视为一个迭代过程。正如您从上一节中看到的,只需在主题中添加几个关键字,图像就可以非常好。
我总是从一个简单的提示词开始,只包含主题、媒介和风格。一次至少生成 4 张图像,看看您会得到什么。大多数提示词并不是 100% 有效。您想了解他们在统计上可以做什么。
迭代一次最多添加两个关键字。同样,生成至少 4 张图像来评估其效果。
使用反向提示词
如果您刚开始,可以使用通用反向提示词。
将关键字添加到反向提示词可以是迭代过程的一部分。关键字可以是你想要避免的物体或身体部位(由于 v1 模型不太擅长渲染手,所以在否定提示中使用“hand”来隐藏它们也是一个不错的主意。)
提示词语法
您可以修改关键词的权重
以下语法适用于 AUTOMATIC1111 GUI。您可以在Windows、 Mac或 Google Colab上使用此 GUI 。
关键词权重
(此语法适用于 AUTOMATIC1111 GUI。)
您可以通过语法调整关键字的权重(keyword: factor)
。factor
是一个值,小于 1 表示不太重要,大于 1 表示更重要。
比如我们可以调整dog
下面提示中关键词的权重
狗,巴黎的秋天,华丽,美丽,大气,氛围,薄雾,烟雾,火,烟囱,雨,湿,原始,水坑,融化,滴水,雪,小溪,郁郁葱葱,冰,桥,森林,玫瑰,鲜花,作者:stanley artgerm lau、greg rutkowski、thomas kindkade、alphonse mucha、loish、norman rockwell。
dog, autumn in paris, ornate, beautiful, atmosphere, vibe, mist, smoke, fire, chimney, rain, wet, pristine, puddles, melting, dripping, snow, creek, lush, ice, bridge, forest, roses, flowers, by stanley artgerm lau, greg rutkowski, thomas kindkade, alphonse mucha, loish, norman rockwell.
(狗:0.5)
狗
(狗:1.5)
增加dog的权重
往往会产生更多的狗。减少它往往会产生更少。并不总是对每张图像都是如此。但从统计意义上来说确实如此。
该技术可以应用于主题关键字和所有类别,例如风格和照明。
() 和 [] 语法
(此语法适用于 AUTOMATIC1111 GUI。)
调整关键字强度的一种等效方法是使用()
和[]
。(keyword)
将关键字的强度增加 1.1 倍,与 相同(keyword:1.1)
。[keyword]
将强度降低 0.9 倍,与 相同(keyword:0.9)
。
您可以使用其中的多个,就像在代数中一样……效果是乘法的。
(关键字):1.1
((关键字)):1.21
(((关键字))):1.33
同样,使用多个的效果[]
是
[关键字]:0.9
[[关键字]]:0.81
[[[关键字]]]:0.73
关键词混合
(此语法适用于 AUTOMATIC1111 GUI。)
您可以混合使用两个关键字。正确的术语是“提示词调度”。语法是
[关键字1:关键字2:
factor
]
factor
控制在哪一步将关键字 1 切换到关键字 2。它是 0 到 1 之间的数字。
例如,如果我使用提示词
【乔·拜登:唐纳德·特朗普:0.5】的油画肖像
Oil painting portrait of [Joe Biden: Donald Trump: 0.5]
30 个采样步骤。
这意味着步骤 1 到 15 中的提示是
乔·拜登的油画肖像
Oil painting portrait of Joe Biden
并且第16步到第30步的提示词变为
唐纳德·特朗普的油画肖像
Oil painting portrait of Donald Trump
该因素决定了关键字何时更改。30 步 x 0.5 = 15 步后。
改变因素的效果是两位总统不同程度地融合在一起。
这是关键字混合的一个非常重要的规则的完美示例:第一个关键字决定全局组成。早期的扩散步骤决定了整体构图。后面的步骤会完善细节。
测验:如果你交换唐纳德·特朗普和乔·拜登位置,你会得到什么?
混合面孔
一个常见的用例是借鉴演员的经验,创建具有特定外观的新面孔。例如,[Emma Watson: Amber heard: 0.85],40步迭代。
当仔细选择两个名称并调整系数时,我们可以精确地获得我们想要的外观。
提示词到提示词
使用关键字混合,您可以实现类似于提示词到提示词的效果,通过编辑生成高度相似的图像对。以下两个图像是使用相同的提示词生成的,除了提示词中把apple替换
为fire的时机
。种子和步数保持相同。
该系数需要仔细调整。它是如何工作的?这背后的理论是图像的整体构图是由早期扩散过程决定的。一旦扩散被困在一个小空间内,交换任何关键词都不会对整体图像产生很大的影响。只会改变一小部分。
提示词可以多长?
根据您使用的Stable Diffusion服务,提示词中可以使用的关键字可能有最大数量。在基本的Stable Diffusion v1 模型中,该限制是 75 个tokens。
请注意,token与单词不同。Stable Diffusion 使用的CLIP 模型会自动将提示词转换为token,。如果你输入一个它以前没有见过的单词,它会被分成 2 个或更多子单词,直到它知道它是什么。它所知道的单词称为token。例如,梦想dream是一个token,海滩beach是一个token。但dreambeach是两个token,因为模型不知道这个单词,因此模型将单词分解为它知道的单词dream
和beach
which 。
AUTOMATIC1111 中提示词限制
AUTOMATIC1111 没有token限制。如果提示包含超过 75 个token(CLIP 的限制),它将启动另外 75 个令牌的新块,因此新的“限制”变为 150。该过程可以永远继续,或者直到您的计算机内存不足……
每个 75 个令牌块都被独立处理,并且在输入 Stable Diffusion 的U-Net之前将生成的表示连接起来。
在AUTOMATIC1111中,您可以通过查看提示输入框右上角的小框来检查token的数量。
AUTOMATIC1111 中的token计数器
检查关键词
您看到人们使用关键字这一事实并不意味着它有效。就像做作业一样,我们都抄袭对方的提示词,有时不假思索。
您只需将关键字用作提示词即可检查关键字的有效性。例如,v1.5模型是否认识美国画家Henry Asencio?我们根据提示来检查一下
亨利·阿森西奥
henry asencio
认识的!
Artstation 网站的Wlop作者关键词?
沃洛普
wlop
看起来不管用。这就是为什么你不应该使用“by wlop”。这只是增加噪音。
作者约瑟芬·沃尔Josephine Wall的关键词是好使的:
您可以使用此技术来检查混合两个或多个艺术家的效果。
亨利·阿森西奥,约瑟芬·沃尔
Henry asencio, Josephine Wall
限制变化
为了擅长构建提示词,您需要像Stable Diffusion一样思考。它的核心是一个图像采样器,生成我们人类可能认为它合法且良好的像素值。你甚至可以在没有提示词的情况下使用它,它会生成许多不相关的图像。用技术术语来说,这称为无条件或无引导扩散。
提示词是一种将扩散过程引导至与其匹配的采样空间的方法。我刚才说过,提示词需要详细、具体。这是因为详细的提示词缩小了采样空间。让我们看一个例子。
城堡
castle
城堡,蓝天背景
castle, blue sky background
城堡广角视图,蓝天背景
wide angle view of castle, blue sky background
通过在提示词中添加更多描述性关键字,我们缩小了城堡的采样范围。在第一个示例中,我们要求提供任意城堡的图像。然后我们要求只获取那些有蓝天背景的。最后我们要求拍成广角照片。
您在提示词中指定的越多,图像的差异就越小。
关联效应
属性关联
有些属性是强相关的。当你指定一个时,你就会得到另一个。Stable Diffusion生成最有可能产生意外关联效应的图像。
假设我们想要生成蓝眼睛女性的照片。
一位年轻女性,蓝眼睛,头发亮点,坐在餐厅外,穿着白色衣服,侧光
a young female with blue eyes, highlights in hair, sitting outside restaurant, wearing a white outfit, side light
如果我们换成棕色眼睛会怎样?
一位年轻女性,棕色眼睛,头发亮点,坐在餐厅外,穿着白色衣服,侧光
a young female with brown eyes, highlights in hair, sitting outside restaurant, wearing a white outfit, side light
我在提示词中没有指定种族。但由于蓝眼睛的人主要是欧洲人,因此产生了白人。棕色眼睛在不同种族中更为常见,因此您会看到更加多样化的种族样本。
刻板印象和偏见是人工智能模型中的一个大话题。我在本文中只讨论技术方面。
名人名字关联
每个关键词都有一些意想不到的关联。对于名人名字来说尤其如此。一些演员喜欢在拍照时摆出特定的姿势或穿着特定的服装,因此在训练数据中也是如此。如果你仔细想想,模型训练只不过是通过关联学习。如果泰勒·斯威夫特(在训练数据中)总是跷二郎腿,模型就会认为跷二郎腿也是泰勒·斯威夫特。
提示词:泰勒·斯威夫特在未来高科技反乌托邦城市中的全身数字绘画
full body taylor swift in future high tech dystopian city, digital painting
当您在提示词中使用泰勒·斯威夫特时,您可能意味着使用她的脸。但拍摄对象的姿势和服装也会产生影响。可以通过单独使用她的名字作为提示来研究效果。
姿势和服装是全局的。如果您想要她的脸而不是她的姿势,您可以使用关键字混合在稍后的采样步骤中将她换掉。
艺术家姓名关联
也许最突出的关联例子是使用艺术家名字时。
19 世纪捷克画家 Alphonse Mucha 在肖像提示中很受欢迎,因为这个名字有助于产生有趣的装饰,而且他的风格与数字插图非常融合。但它也经常在背景中留下标志性的圆形或圆顶形图案。它们在户外环境中可能看起来不自然。
提示词:Alphonse Mucha 的 [艾玛·沃森:泰勒·斯威夫特:0.6] 的数字绘画。(30步)
digital painting of [Emma Watson:Taylor Swift: 0.6] by Alphonse Mucha. (30 steps)
嵌入Embedding是关键字
嵌入Embedding,只不过是关键字的组合。你可以期望他们做的比他们声称的要多一些。
让我们看看以下 Ironman 不使用嵌入做饭的基本图像。
提示词:钢铁侠在厨房做饭。iron man cooking in kitchen.
Style-Empire是我喜欢使用的Embedding,因为它为肖像图像添加了暗色调并创建了有趣的灯光效果。由于它是在夜间街景图像上进行训练的,因此您可以预期它会添加一些黑色,也许还有建筑物和街道。请参阅下面添加了Embedding的图像。
提示:钢铁侠在厨房做饭风格-帝国。iron man cooking in kitchen Style-Empire.
注意一些有趣的效果
- 第一张图片的背景变成了夜晚的城市建筑。
- 钢铁侠倾向于露脸。也许训练图像是肖像?
因此,即使嵌入的目的是修改样式,它也只是一堆关键字,可能会产生意想不到的效果。
自定义模型的效果
使用自定义模型是实现样式的最简单方法。这也是Stable Diffusion的独特魅力。由于开源社区庞大,数百个自定义模型可以免费使用。
使用模型时,我们需要注意关键字的含义可能会发生变化。对于样式来说尤其如此。
让我们再次以Henry Asencio亨利·阿森西奥为例。在 v1.5 中,仅他的名字就会生成:
使用DreamShaper,一个针对肖像插图进行微调的模型,相同的提示词
这是一种非常体面但又截然不同的风格。该模型具有生成清晰漂亮的面孔的强大基础,这一点已在此处揭示。
因此,请务必在自定义模型中使用样式时进行检查。梵高可能不再是梵高了!
特定区域的提示词
您知道可以为图像的不同区域指定不同的提示词吗?
例如,您可以将月亮放在左上角:
或者在右上角:
您可以使用区域提示器扩展来做到这一点。这是控制图像构图的好方法!
《Stable Diffusion 提示词权威指南》有4条评论