Stable Diffusion SDXL Beta模型

Stability AI发布了一个名为SDXL Beta(Stable Diffusion XL Beta)的新模型的预览。他们没有告诉我们太多关于该模型的信息,但是任何想测试它的人都可以使用它。

这个Stable Diffusion SDXL模型有什么新功能?它的长处和短处是什么?让我们来看看。

什么是SDXL模型

SDXL模型是目前正在训练中的一种新模型。它还不是一个成品模型。事实上,当它发布时,它甚至可能不会被称为SDXL型号。

我们所知道的是,这是一个更大的模型,有更多的参数和一些未公开的改进。它是一个v2模型,而不是v3模型(不管这意味着什么)。

如何使用SDXL模型

SDXL模型目前可在稳定AI的官方图像生成器DreamStudio上获得。要使用SDXL模型,请在模型菜单中选择SDXL Beta

在DreamStudio中选择SDXL Beta型号

您需要注册才能使用该模型。注册后,您将获得一些免费积分。

改进

我将重点介绍到目前为止我看到的SDXL型号的一些改进。

清晰的文本

也许最引人注目的能力是生成清晰文本的能力。这在v1或v2.1型号中是不可能的。

SDXL生成的文本并不总是准确的(正如您可以在下面的Stable Diffusion文本中看到的)。但它比v2.1要好得多,更不用说v1型号了。

提示词:一位女士坐在餐厅里,手里拿着一份写着“Menu(菜单)”的菜单的照片

Photo of a woman sitting in a restaurant holding a menu that says “Menu”

提示词:一名男子举着写着“Stable Diffusion”的牌子的照片“Stable Diffusion”

Photo of a man holding a sign that says “Stable Diffusion”

提示词:一位年轻的女性举着一块写着“Stable Diffusion”的牌子,头发突出,坐在餐厅外,棕色的眼睛,穿着连衣裙,侧灯

a young female holding a sign that says “Stable Diffusion”, highlights in hair, sitting outside restaurant, brown eyes, wearing a dress, side light

更好的人体解剖学

Stable Diffusion长期以来在生成正确的人体解剖结构方面存在问题。常见的情况是肢体多余或缺失。你通常会使用重绘来纠正它们。或者,最近,您可以使用ControlNet的“Open Pose”功能从参考图像中复制姿势。

我很高兴看到SDXL测试版在这方面有所改进。让我们看一个例子。

提示词为:

一位身穿瑜伽服、三角形姿势、傍晚海滩、边缘照明的女性照片

Photo of a woman in yoga outfit, triangle pose, beach in evening, rim lighting

以下是SDXL Beta版的图片




与下面的v1.5版本的图像进行比较




这并不完美,但人体姿势在SDXL中要好得多!

更有美感的图像

生成的图像可能非常不同。请看使用相同的提示词生成的以下图像。

v1.5
v2.2.2 SDXL Beta

照片风格的肖像在SDXL测试版中非常好。我想说它比v1.5更好。

提示词:一个女人的照片

photo shot of a woman

v1.5
v2.2.2 SDXL Beta
v1.5
v2.2.2 SDXL Beta

更准确的图像

与v1型号相比,理解提示词的能力有所提高。

在v1.5模型中,关键字duotone总是生成黑白图像。SDXL Beta生成多种颜色的双色调图像。这是一个进步。

提示词:duotone 女性肖像

duotone portrait of a woman

v1.5
v2.2.2 SDXL Beta

由于SDXL Beta是一个v2模型,它配备了一个更大的文本模型。您可以期望它比v1模型更好地理解您的提示词。事实上,这就是我们所看到的。

让我们看看由以下提示词生成的带有两个主题的图像。

坐在人类旁边的机器人大朋友,贝壳风格的鬼魂,动漫壁纸

提示词:big robot friend sitting next to a human, ghost in the shell style, anime wallpaper

v1.5
v2.2.2 SDXL Beta

v1.5版本的模型一贯忽略了提示中有两个主题,机器人和人类。但是SDXL Beta模型能够理解提示并生成更正确的图像。(我希望机器人能更大,但这是向前迈出的一步。)

同样,照片风格的图像也更准确。请参阅以下提示次和图像。

提示词:一个年轻人,头发突出,棕色眼睛,穿着白衬衫和蓝色牛仔裤,在背景是火山的海滩上

a young man, highlights in hair, brown eyes, in white shirt and blue jean on a beach with a volcano in background

v1.5
v2.2.2 SDXL Beta

艺术风格artistic styles

我检查了一些艺术风格。有一些微妙的变化,但我不能说它们是好是坏。只是不一样。

v1.5和SDXL Beta都产生了Edward Hopper的风格。尽管它们始终不同。

提示词:爱德华·霍珀的《纽约市》

New York city by Edward Hopper

v1.5
v2.2.2 SDXL Beta

v1.5准确地生成了Leonid Afremov的风格。SDXL测试版中缺少明显的彩色棋盘笔触。它产生了一种插图风格,有趣的是,它仍然保留了地面上的独特反射。

提示词:Leonid Afremov的《纽约市》

New York city by Leonid Afremov

v1.5
v2.2.2 SDXL Beta

v1.5和SDXL Beta都产生了一些接近威廉·阿道夫·布格罗( William-Adolphe Bouguereau)风格的东西。SDXL贝塔的图像更接近布格罗创作的典型学术画作。一般来说,SDXL Beta版的肖像会显示更多面部细节。

提示词:威廉·阿道夫·布格罗的作品 美丽女人肖像

Portrait of beautiful woman by William-Adolphe Bouguereau

v1.5
v2.2.2 SDXL Beta

样式转换

也许是这个预览模型出现了故障。有时,风格可能会随着添加关键词而突然改变。

例如,我从这个生成照片样式的提示词开始。

提示词:一个年轻人,头发突出,棕色眼睛,穿着白衬衫和蓝色牛仔裤,在背景是火山的海滩上

a young man, highlights in hair, brown eyes, in white shirt and blue jean on a beach with a volcano in background



现在我想加一条黄色围巾。

提示词:一个年轻人,头发突出,棕色眼睛,戴着黄色围巾,穿着白色衬衫和蓝色牛仔裤,在背景是火山的海滩上

a young man, highlights in hair, brown eyes, wearing a yellow scarf, in white shirt and blue jean on a beach with a volcano in background


突然间,图像变成了动漫风格。这种情况发生在一些关键词上。这几乎就像是该模型融入了一些卡通风格,并渴望转换到这种风格。

希望这个问题能在发布版本中得到解决。

个人看法

以下是我对SDXL Beta模型的看法:

  • Stable Diffusion最终生成正确的文本!
  • 比v2.1版本和(在较小程度上)v1.5版本更美观。
  • 如提示词中所述,图像更加准确。
  • 人体解剖学越来越好。
  • 不需要像v2.1那样多的反向提示词
  • 在肖像画方面特别突出。
  • 模型中的一些特殊故障需要在发布前修复。

最后,还有一些来自SDXL测试版模型的图片。







发表评论