Stable Diffusion最流行的用途之一是生成逼真的人物。它们看起来就像从相机拍摄的一样真实。在这篇文章中,您将学习生成照片风格肖像图像的机制。您将了解用于生成现实人物的提示、模型和升级器。
软件
我们将使用 AUTOMATIC1111 Stable Diffusion GUI 来生成逼真的人物。您可以在Windows、 Mac或 Google Colab上使用此 GUI 。
提示词
在本节中,您将学习如何逐步构建逼真照片风格的高质量提示词。
让我们从坐在餐厅外面的一位女士的简单提示开始。让我们使用v1.5 基本模型。
提示词:
photo of young woman, highlight hair, sitting outside restaurant, wearing dress
年轻女子的照片,突出头发,坐在餐厅外,穿着裙子
模型: v1.5
采样方式Sampling method:DPM++ 2M Karras
采样步数Sampling steps:20
提示词引导系数CFG Scale:7
尺寸size:512×768
嗯,效果不太满意……
否定提示
让我们添加一个否定提示词。这个否定提示词非常简单。它的目的是产生更好的解剖结构并避免非现实的风格。
否定提示词:
disfigured, ugly, bad, immature, cartoon, anime, 3d, painting, b&w
毁容、丑陋、不良、不成熟、卡通、动漫、3D、绘画、黑白
女性看起来更好。上半身看起来还不错。
但下半身的解剖结构仍然存在问题。还有很大的改进空间。
光照关键词
摄影师工作的很大一部分是设置良好的灯光。一张好的照片有有趣的灯光。这同样适用于Stable diffusion。让我们添加一些光照关键字和控制视角的关键字。
- 边缘照明rim lighting
- 演播室灯光 studio lighting
- 看着相机looking at the camera
提示词:
photo of young woman, highlight hair, sitting outside restaurant, wearing dress, rim lighting, studio lighting, looking at the camera
年轻女子的照片,突出头发,坐在餐厅外,穿着裙子,边缘照明,工作室照明,看着相机
反向提示词:
disfigured, ugly, bad, immature, cartoon, anime, 3d, painting, b&w
毁容、丑陋、不良、不成熟、卡通、动漫、3D、绘画、黑白
照片立刻看起来更有趣了。您可能会注意到解剖结构不太正确。不用担心。有很多方法可以修复它。我会在文章的后面部分告诉你。
相机关键词
dslr、超画质、8K、UHD 等关键词可以提高图像质量。
提示词:
photo of young woman, highlight hair, sitting outside restaurant, wearing dress, rim lighting, studio lighting, looking at the camera, dslr, ultra quality, sharp focus, tack sharp, dof, film grain, Fujifilm XT3, crystal clear, 8K UHD
年轻女子的照片, 突出头发, 坐在餐厅外, 穿着裙子, 边缘照明, 工作室照明, 看着相机, 单反相机, 超品质, 锐焦, 锐利, 自由度, 胶片颗粒, Fujifilm XT3, 晶莹剔透, 8K UHD
反向提示词:
disfigured, ugly, bad, immature, cartoon, anime, 3d, painting, b&w
毁容、丑陋、不良、不成熟、卡通、动漫、3D、绘画、黑白
我不能说它们绝对更好,但包含它们肯定不会有什么坏处……
面部细节
最后,一些关键词可以作为锦上添花来描述眼睛和皮肤。这些关键词旨在渲染更真实的面孔。
- 高度细致的光泽眼睛
- 高细节皮肤
- 皮肤毛孔
- highly detailed glossy eyes
- high detailed skin
- skin pores
使用这些关键字的副作用是使拍摄对象更靠近相机。
将它们放在一起,我们得到以下最终提示词。
提示词:
photo of young woman, highlight hair, sitting outside restaurant, wearing dress, rim lighting, studio lighting, looking at the camera, dslr, ultra quality, sharp focus, tack sharp, dof, film grain, Fujifilm XT3, crystal clear, 8K UHD, highly detailed glossy eyes, high detailed skin, skin pores
年轻女子的照片, 突出头发, 坐在餐厅外, 穿着裙子, 边缘照明, 工作室照明, 看着相机, 单反相机, 超品质, 锐焦, 锐利, 自由度, 胶片颗粒, Fujifilm XT3, 晶莹剔透, 8K UHD 、高细节光泽眼睛、高细节皮肤、皮肤毛孔
反向提示词:
disfigured, ugly, bad, immature, cartoon, anime, 3d, painting, b&w
毁容、丑陋、不良、不成熟、卡通、动漫、3D、绘画、黑白
您是否对基础模型能够生成这些高质量的逼真图像感到惊讶?我们甚至还没有使用特殊的逼真模型。只会变得更好。
控制面孔
混合两个名字
您想在多个图像中生成相同的外观吗?一个技巧是利用名人。他们的外表是他们身体上最容易辨认的部分。所以它们保证是一致的。
但我们通常不想使用他们的脸。他们太容易辨认了。您想要一张具有特定外观的新面孔。
诀窍是使用提示词调度来混合两个面部。AUTOMATIC1111 中的语法是
[person 1: person2: factor]
Factor是 0 到 1 之间的数字。它表示关键字从人物 1 切换到人物 2 时占总步数的分数。例如,[Ana de Armas:Emma Watson:0.5] 包含 20 步,表示提示使用步骤 1 – 10 中使用Ana de Armas ,步骤 11-20 中使用Emma Watson 。
您只需将其放入提示词中即可,如下所示。
迅速的:
photo of young woman, [Ana de Armas:Emma Watson:0.5], highlight hair, sitting outside restaurant, wearing dress, rim lighting, studio lighting, looking at the camera, dslr, ultra quality, sharp focus, tack sharp, dof, film grain, Fujifilm XT3, crystal clear, 8K UHD, highly detailed glossy eyes, high detailed skin, skin pores
年轻女子的照片,[安娜·德·阿玛斯:艾玛·沃森:0.5],突出头发,坐在餐厅外,穿着裙子,边缘照明,工作室照明,看着相机,数码单反相机,超品质,锐焦,锐利,自由度,胶片颗粒, Fujifilm XT3, 晶莹剔透, 8K UHD, 高细节光泽眼睛, 高细节皮肤, 皮肤毛孔
负面提示
disfigured, ugly, bad, immature, cartoon, anime, 3d, painting, b&w
毁容、丑陋、不良、不成熟、卡通、动漫、3D、绘画、黑白
[安娜·德·阿玛斯:艾玛·沃特森:0.5]
[艾梅柏·希尔德:艾玛·沃特森:0.5]
[安娜·肯德里克:丽莎·索维林 0.5]
通过仔细调整系数,您可以调整两张脸的比例。
混合一个名字
您是否注意到使用两个名字时背景和构图发生了巨大变化?这就是联想效应。女演员的照片通常与某些场景相关,例如颁奖典礼。
整体图像由第一个关键字决定比较多,因为采样器在前几个步骤中去噪最多。
利用这个想法,我们可以在前几步中使用“women”,然后只在后面替换为名人的名字。这样可以保留构图,同时将普通面孔与名人融合在一起。
提示词是这样的:
photo of young [woman:Ana de Armas:0.4], highlight hair, sitting outside restaurant, wearing dress, rim lighting, studio lighting, looking at the camera, dslr, ultra quality, sharp focus, tack sharp, dof, film grain, Fujifilm XT3, crystal clear, 8K UHD, highly detailed glossy eyes, high detailed skin, skin pores
年轻的照片[女人:Ana de Armas:0.4],突出头发,坐在餐厅外,穿着连衣裙,边缘照明,工作室照明,看着相机,数码单反相机,超品质,锐焦,粘性锐利,自由度,胶片颗粒, Fujifilm XT3,晶莹剔透,8K UHD,高细节光泽眼睛,高细节皮肤,皮肤毛孔
负面提示可以保持不变。
disfigured, ugly, bad, immature, cartoon, anime, 3d, painting, b&w
毁容、丑陋、不良、不成熟、卡通、动漫、3D、绘画、黑白
使用这种技术,我们可以在一定程度上控制脸部的同时保持构图。
脸部inpainting 重绘
inpainting是一种既能保持构图又能完全控制脸部的技术。
在 txt2img 选项卡中生成图像后,单击“发送到inpaint”。
在Inpaint画布中,画一个遮盖脸部的面具。
现在修改提示词以包括两个面部的混合。例如
photo of young [Emma Watson: Ana de Armas: 0.4], highlight hair, sitting outside restaurant, wearing dress, rim lighting, studio lighting, looking at the camera, dslr, ultra quality, sharp focus, tack sharp, dof, film grain, Fujifilm XT3, crystal clear, 8K UHD, highly detailed glossy eyes, high detailed skin, skin pores
年轻的照片 [艾玛·沃森:安娜·德·阿玛斯:0.4],突出头发,坐在餐厅外,穿着裙子,边缘照明,工作室照明,看着相机,数码单反相机,超品质,锐焦,锐利,自由度,胶片颗粒, Fujifilm XT3, 晶莹剔透, 8K UHD, 高细节光泽眼睛, 高细节皮肤, 皮肤毛孔
将去噪强度denoising strength设置为 0.75,批量大小batch size设置为 8。点击“生成”并挑选效果最好的一个。
修复缺陷
您不需要一次性生成具有正确解剖结构的逼真人物。重新生成部分图像相当容易。
让我们看一个例子。下图看起来还不错,只是手臂变形了。
要修复此问题,请首先单击发送到Inpaint,将图像和参数发送到 img2img 选项卡的修复部分。
在 img2img 选项卡的修复画布中,在有问题的区域上绘制遮罩。
将“种子seed”设置为 -1(随机),将去噪强度denoising strength设置为 1,将批量大小batch size设置为 8。
您可以尝试inpaint area设置 – 整个图片或仅蒙版。
点击生成。
如果没有满意的,请再次按“生成”。
您不需要一次性完成完美的修复。您可以通过修复迭代地优化图像。当您看到图像朝正确方向移动时,请按“发送到inpaint”。
现在你正在按照新形象行事。逐渐降低去噪强度(denoising strength),以保留图像的内容。下面是进行第二轮修复的示例。去噪强度设置为0.6。
模型
到目前为止,我们仅使用 Stable Diffusion v1.5 基础模型来生成逼真的人物。您知道有经过专门训练来生成逼真图像的模型吗?
当您使用它们时,事情只会变得更好。
您将了解一些常用的。我们将学习
- F222
- Hassan blend 1.4
- Realistic Vision v2
- Chillout Mix
- Dreamlike Photoreal
- URPM
我将使用相同的提示词
photo of young woman, highlight hair, sitting outside restaurant, wearing dress, rim lighting, studio lighting, looking at the camera, dslr, ultra quality, sharp focus, tack sharp, dof, film grain, Fujifilm XT3, crystal clear, 8K UHD, highly detailed glossy eyes, high detailed skin, skin pores
年轻女子的照片, 突出头发, 坐在餐厅外, 穿着裙子, 边缘照明, 工作室照明, 看着相机, 单反相机, 超品质, 锐焦, 锐利, 自由度, 胶片颗粒, Fujifilm XT3, 晶莹剔透, 8K UHD 、高细节光泽眼睛、高细节皮肤、皮肤毛孔
以及否定提示
disfigured, ugly, bad, immature, cartoon, anime, 3d, painting, b&w
毁容、丑陋、不良、不成熟、卡通、动漫、3D、绘画、黑白
我将包含每个模型的直接下载链接。您只需将链接复制并粘贴到我们的AUTOMATIC1111 Colab 笔记本中的“Model_from_URL”字段即可。
警告
- 几乎所有这些都容易产生露骨的图像。在提示中使用服装术语,例如在提示词中使用“dress”,在否定提示中使用“nude”来抑制它们。
- 有些型号有自己更严格的许可证。在使用它们或将它们合并到产品中之前请阅读它们。
F222
直接下载链接:
https://huggingface.co/acheong08/f222/resolve/main/f222.ckpt
F222 生成具有漂亮服装的逼真人物。遗憾的是,该模型已不再开发。
Hassan blend 1.4
直接下载链接
https://huggingface.co/hassanblend/hassanblend1.4/resolve/main/HassanBlend1.4_Safe.safetensors
Hassan Blend v1.4 在大量露骨图像上进行了微调。
Realistic Vision v2.0
直接下载链接
https://civitai.com/api/download/models/29460
Realistic Vision v2 是用于生成照片风格图像的全方位模型。除了写实的人物之外,对动物和场景也有好处。
根据我的经验,解剖学非常好。
Chillout Mix
直接下载链接
https://civitai.com/api/download/models/11745
Chillout Mix 是 F222 的亚洲版本。它经过训练可以生成照片风格的亚洲人。
Dreamlike Photoreal
直接下载链接
https://huggingface.co/dreamlike-art/dreamlike-photoreal-2.0/resolve/main/dreamlike-photoreal-2.0.ckpt
Dreamlike Photoreal是一款全方位的照片风格模型。肖像图像往往有点饱和。
URPM
直接下载链接
https://civitai.com/api/download/models/15640
URPM 是一个使用显式图像进行微调的模型。解剖学通常非常好。图像与 Realistic Vision v2 类似,但更加精致。
比较
为了让大家直接比较真实模型,我使用ControlNet来修复姿势。(稍后会详细介绍)
使用相同的提示词、否定提示词和种子seed。
Stable Diffusion v1.5
F222
Hassan Blend 1.4
Realistic Vision v2
Chillout Mix
dream like photoreal
URPM
特写视图:
Stable Diffusion v1.5
F222
Hassan Blend 1.4
Realistic Vision v2
Chillout Mix
Dreamlike photo real
URPM
您最喜欢哪一个现实模型?请在评论中告诉我!
LoRA、超网络hypernetwork、textual inversion
您可以通过补充LoRA、超网络和文本反转textual inversion等模型修饰符来进一步调入模型。
找到它们的最佳地点是civitai。
韩国审美
通过将Ulzzang-6500与 Chillout Mix结合使用,可以实现韩国偶像的外观。
较暗的图像
epi_noiseoffset是一种 LoRA,可以在Stable Diffusion中产生比正常情况更暗的图像。使用深色关键词,如“黑暗工作室”、“夜晚”、“昏暗灯光”等。
提示词:
night, (dark studio:1.3) photo of young woman, highlight hair, sitting outside restaurant, wearing dress, rim lighting, studio lighting, looking at the camera, dslr, ultra quality, sharp focus, tack sharp, dof, film grain, Fujifilm XT3, crystal clear, 8K UHD, highly detailed glossy eyes, high detailed skin, skin pores <lora:epiNoiseoffset_v2:1>
夜晚,(暗工作室:1.3)年轻女子的照片,突出头发,坐在餐厅外,穿着裙子,边缘照明,工作室照明,看着相机,数码单反相机,超品质,锐焦,锐利,自由度,胶片颗粒, Fujifilm XT3,晶莹剔透,8K UHD,高细节光泽眼睛,高细节皮肤,皮肤毛孔 <lora:epiNoiseoffset_v2:1>
负面提示:
disfigured, ugly, bad, immature, cartoon, anime, 3d, painting, b&w
毁容、丑陋、不良、不成熟、卡通、动漫、3D、绘画、黑白
下图是使用 URPM 模型生成的。
Celebrity LoRA
有大量粉丝制作 LoRA 模型向他们最喜欢的艺术家致敬。
衣服
这款中国汉服LoRA(应用于Chillout Mix)非常适合生成美丽的传统汉服。
控制姿势
ControlNet
ControlNet已成为控制人体姿势和肖像构图的事实上的标准。
但如何获取参考图像呢?一种简单的方法是访问Unsplash等免费照片网站。使用“男人”、“女人”、“站”、“坐”等关键词进行搜索。您会找到构图正确的图像。
使用 openpose ControlNet。有关详细信息,请参阅ControlNet文章。
ControlNet 两人
如果没有 ControlNet,几乎不可能控制场景中两个或更多人的构图和姿势。现在,您只需找到一个参考图像,就可以开始做生成了。
参考图片。
Chillout Mix
Realistic Vision v2
放大器Upscaler
SD v1 模型的原始分辨率为 512×512 像素。为了防止出现重复字符等问题,您应该至少将一侧设置为 512 像素。
因此,图像可能太小,无法供以后使用。
您可以使用AI 放大器来放大图像,而不必担心图像变得模糊。当您放大图像时,他们能够创建内容来填充细节。
针对现实人物使用放大器的技巧
关于真实照片放大器的几点要点
- 大多数放大器都会改变图像。
- 尝试应用两个放大器。第一个是传统的,比如 Lanczos。第二个是 AI 放大器,例如 R-ESRGAN。您应该尽可能使用最少量的 AI 放大器upscaler。
- 面部修复也是如此。全力应用它会引入伪影。使用您能用得最少的量。
- 您可以扩展至超出您需要的规模。然后将其缩小。这样,放大后的图像有点模糊也没事。
ControlNet不使用放大器
使用 ControlNet 时,您可以尝试生成具有最终分辨率的图像。它之所以可行,是因为 ControlNet 可以修复姿势并防止常见问题,例如生成两个重复的头部或身体。
继续尝试将图像尺寸设置为例如 1200×800。
放大后使用图像生成图像
要消除由放大器引入的伪影,您可以使用低降噪强度(例如 0.1 到 0.3)执行图像生成图像,同时保持提示相同。
这个技巧可以让模型生成与模型风格一致的细节,同时又不会过多改变图像。
缺点是图像会略有改变,具体取决于您使用的去噪强度。
改进细节
要同时改善细节和高档,请使用ControlNet Tile upscale。
总结
下面是一些要点。
- 从模型部分开头的样板提示词和否定提示词开始。您可以通过更改来自定义图像
- 种族– 非裔美国人、西班牙裔、俄罗斯人、欧洲人……
- 发型——长发、短发、发髻、马尾辫、辫子……
- 服装——连衣裙、上衣、牛仔裤、夹克。访问您最喜欢的服装店的网站并获取一些关键词提示。
- 活动– 他或她正在做什么
- 周围环境– 繁忙的街道、房子内、海滩上……
- 选择模型
- F222或Realistic Vision v2,适合平衡、现实的人。
- Hassan Blend v1.4或URPM打造更精致的外观。
- 适合亚洲人的Chillout Mix。
- SD 1.5如果你想炫耀你最高的提示技巧……
- 添加LoRA、文本反转或超网络来达到您想要的效果。
- 以良好的构图为目标。不要害怕使用多轮修复来修复缺陷或重新生成面部。
- 将ControlNet与库存照片结合使用,以获得良好的姿势和构图。
- 对 AI 放大器保持温和态度。
画廊
最后,一个现实人物的画廊……
《通过Stable Diffusion生成真实的人物形象》有3条评论