关注、星标下方公众号,和你一起绘梦


(资料图片)

作者 | 梁唐

出品 | 公众号:Ai绘画梁(ID:ai_drawer)

大家好,我是梁唐。

我把之前画蒂法的教程同步到知乎,有小伙伴给我留言,问我为什么画出来的蒂法看起来灰蒙蒙的,是不是哪里没配置好?

关注公众号Ai绘画梁,回复【教程】从零开始学习。

其实并不是配置的问题,而是VAE的问题。

有些眼尖的小伙伴可能已经注意到了,在左上角模型选择的旁边有一个模型的VAE的选项。这里就是用来配置VAE的地方。

如果我们这里选择无,模型使用anything-v4.5的话,画出来的图片就会显得有些灰蒙蒙的,比如这样:

如果我们这里选上VAE,还是同样的提示词和参数,得到的图片就会一下子艳丽起来:

然而这并不是固定的,比如我这里换一个模型,但VAE仍然选择无,得到的图片就没有饱和度不够的问题:

所以要不要设置VAE并不是必须的,要根据模型的效果进行调整。关于VAE的原理我们放到最后来讲,萌新可以简单理解成图片的滤镜即可。不同的VAE相当于不同的滤镜,得到的图片饱和度以及细节会有细微的差别,图片的内容基本完全一致。

如果大家使用的是整合包的话,我们可以在模型管理里面直接下载。因为VAE的数量比较少,并且效果比较接近。所以我们就选排在前面的几种即可。

如果使用的是云服务器的话,由于VAE通常都比较小,手动下载再上传也不算太麻烦。我们放在主目录models/VAE路径下即可。

我把我常用的几种都上传到了云盘里,有需要的话在公众号Ai绘画梁后台回复004获取下载链接。

最后来简单介绍一下VAE的原理,VAE的英文全文是Variational Auto-Encoder,即变分自动编码器。自动编码器(auto-encoder)在深度学习场景当中广泛使用,它的目的是还原原始的输入系统,从而学习一个对复杂信息的编码。

比如下图就是一个对手写数字进行的自动编码器,它的输入和输出都是一个28 x 28的图片。而中间层则维度很小,是一个10维的向量。我们输入图片,经过encoder编码成一个10维的向量,再通过解码器将它还原成原本28 x 28的输入。这说明了什么,说明了我们通过编码器,将原本28 x 28的信息编码成了一个10维的向量上,大大压缩了信息密度。

这里的VAE本质上也是一种auto-encoder,只不过应用的场景是Ai绘画,它的结构仍然是一个auto-encoder的结构:

下图是知乎大佬SeASnAkE分享的stable diffusion的模型结构图,我们可以特别关注一下VAE的应用位置。虽然中间的模型结构无比复杂,但VAE在其中起的仍然是自动编码降低信息维度提升信息密度的目的。

那为什么有的模型不加VAE影响就比较大,而有些模型则影响很小呢?

这是因为不同的模型结构也有所区别,有些模型已经内置了训练好的VAE,而有些没有。实际上根据我个人的使用和测试,大部分模型都已经内置了VAE,即使我们不手动勾选也顶多生成的图片饱和度比较低,类似于有点灰蒙蒙的感觉。而勾选VAE的话,则会起到一个类似于滤镜或者HDR的效果。

如果是那些训练时候没有内置VAE的模型,我们不选择对应的VAE的话,得到的图片可能是人类无法欣赏的……

一般模型的作者都会在主页写清楚VAE的相关事项,我们在下载之前稍微注意查看一下即可。

关注我,不再错过AI绘画前沿~