Stable Diffusion能力强、功能多、插件广,本文拟概述SD的全流程,方便梳理算法各结构的关系
SD整体流程
SD是一个基于latent扩散模型的文本生成图像模型。SD的核心来源于Latent Diffusion这个工作,常规的扩散模型是基于像素的生成模型,而Latent Diffusion是基于隐变量的生成模型。它先采用一个autoencoder将图像压缩到latent空间,然后用扩散模型来生成图像的latents,最后送入autoencoder的decoder模块就可以得到生成的图像。
基于latent的扩散模型的优势在于计算效率更高效,因为图像的latent空间要比图像pixel空间要小,这也是SD的核心优势。文生图模型往往参数量比较大,基于pixe