35张图，直观理解Stable Diffusion

【资料图】

作者｜Jay Alammar

翻译｜杨婷、徐佳渝

最近，AI图像生成引人注目，它能够根据文字描述生成精美图像，这极大地改变了人们的图像创作方式。Stable Diffusion作为一款高性能模型，它生成的图像质量更高、运行速度更快、消耗的资源以及内存占用更小，是AI图像生成领域的里程碑。

在接触了AI图像生成以后，你可能会好奇这些模型背后的工作原理。

下面是对Stable Diffusion工作原理的概述。

Stable Diffusion用途多样，是一款多功能模型。首先它可以根据文本生成图像(text2img)。上图是从文本输入到图像生成的示例。除此之外，我们还可以使用Stable Diffusion来替换、更改图像（这时我们需要同时输入文本和图像）。

下面是Stable Diffusion的内部结构，了解内部结构可以让我们更好地理解Stable Diffusion的组成、各组成部分的交互方式、以及各种图像生成选项/参数的含义。

1Stable Diffusion的组成

Stable Diffusion并不是一个单一模型，而是由多个部分和模型一起构成的系统。

从内部来看，首先我们可以看到一个文本理解组件，这个组件将文本信息转化为数字表示（numeric representation）以捕捉文本意图。

这部分主要对ML进行大概介绍，文章后续还会讲解更多细节。可以说这个文本理解组件（文本编码器）是一个特殊的Transformer语言模型（严格来说它是一个CLIP模型的文本编码器）。将文本输入到 Clip 文本编码器得到特征列表，对于文本中的每一个word/token 都有会得到一个向量特征。

然后将文本特征作为图像生成器的输入，图像生成器又由几部分组成。

图像生成器两步骤：

1-图像信息创建器（Image information creator）

图像信息创建器是Stable Diffusion特有的关键部分，也是其性能远超其他模型的原因。

图像信息创建器运行多个step生成图像信息。Stable Diffusion接口（interfaces）和库（libraries）的step参数一般默认为50或100。

图像信息创建器完全在图像信息空间（亦称潜在空间）上运行，这让Stable Diffusion比以前在像素空间（pixel space）上运行的扩散模型速度更快。从技术上讲，图像信息创建器由UNet神经网络和调度算法组成。

“扩散”一词描述了图像信息创建器中发生的事情。因为图像信息创建器对信息作了逐步处理，所以图像解码器（image decoder）才能随后产出高质量图像。

2-图像解码器（Image Decoder）

图像解码器根据图像信息创建器的信息绘制图像，它只用在过程结束时运行一次，以生成最终的像素图像。

这样就构成了Stable Diffusion的三个主要组成部分，每个部分都有自己的神经网络：

ClipText：用于文本编码。输入: 文本。输出: 77个token embeddings向量，每个向量有768维。

UNet+调度程序：在信息（潜在）空间中逐步处理信息。输入: 文本embeddings和一个初始化的多维数组（结构化的数字列表，也称为张量）组成的噪声。输出：经过处理的信息数组。

自动编码解码器（Autoencoder Decoder）：使用经过处理的信息数组绘制最终图像。输入：经过处理的信息数组（维数：(4,64,64)）输出: 生成的图像（维数：（3,512,512），即（红/绿/蓝；宽，高）)。

到底何为扩散（Diffusion）？

扩散是发生在粉色区域图像信息创建器组件中的过程。这一部分有一个表示输入文本的token embeddings和一个随机初始化的图像信息数组，这些数组也被称为latents，在这个过程中会产生一个信息数组，图像解码器（Image Decoder）使用这个信息数组生成最终图像。

扩散是循序渐进逐步发生的，每一步都会增加更多的相关信息。为了更加直观地了解这个过程，我们可以检查随机latents数组，看它是否转化为了视觉噪音（visual noise）。在这种情况下，视觉检查（Visual inspection）是通过图像解码器进行的。

扩散分为多个step，每个step都在输入的latents数组上运行，并且会产生另一个latents数组，这个数组更类似于输入文本以及模型在模型训练时的所有图像中获取的所有视觉信息。

我们可以对一组这样的latents数组执行可视化，看看每一步都添加了什么信息。这一过程令人叹为观止。

视频链接：

在这种情况下，步骤2和4之间发生了一些特别有意思的事情，就好像轮廓是从噪音中浮现出来的。

推荐内容

35张图，直观理解Stable Diffusion

铁矿石价格疯涨引关注 发改委12天内三次“打铁”-环球关注

“今年春节，我在西宁过”

粤水电：子公司联合中标3.5亿元项目-天天观焦点

临近春节 注意食品安全

女方不同意离婚男方咋做

科安达1月18日盘中涨停-环球今日报

2023房地产工作重在增信心、防风险、促转型

过年期间，大容量固态U盘应该如何选？三款高性价比型号选哪款？-天天看点

opporeno怎么设置一键拨号_opporeno2怎么开启智能拨号-每日关注

编程的终结；展望2023年AI系统方向；AI的下一个阶段-全球观速讯

招商证券(香港)：维持药明生物增持评级 目标价118港元-天天报资讯

福建新冠病毒感染在线咨询和热线服务

2023重庆南岸区春节有什么好玩的？-环球微头条

蔚蓝锂芯(002245.SZ)：约1.12亿股定增股份将于1月20日解禁上市

Web3 基金会公布第 16 批 Grant 资助名单！-热闻

1月16日江苏百川高科醋酸乙酯报价持稳-当前聚焦

突传噩耗！刘晓庆深夜官宣悲痛消息，管虎101岁父亲管宗祥去世-全球看热讯

重磅外资项目开年接连落地-环球播报

贵州3名幼童失踪一夜在山上获救，家属：很奇怪，下雪后他们衣服是干的-世界快资讯

不见阳光的伤感句子(共537句)

进出口银行外贸产业贷款余额达2.87万亿元-当前热门

川投能源: 四川川投能源股份有限公司关于控股子公司四川川投田湾河开发有限责任公司为其控股公司提供担保的公告

铭利达(301268.SZ)发预增 2022年净利润4亿至4.28亿元 同比增长170%至189%-热门看点

九龙证券|岸人民币突破6.75关口！多股尾盘闪崩-天天亮点

1月12日基金净值：博时优质鑫选一年持有期混合A最新净值0.7849，涨0.06%-当前报道

金陵药业股东户数下降10.46%，户均持股8.5万元

32篇年度最佳AI论文；Python编译器Codon开源；ChatGPT的前世今生-环球观热点

广州绿十字一独董兼职多达七家，两版招股书产能数据“变脸”-快报

仕净科技：中标项目较多，其中包括通威太阳能盐城组件项目、阿特斯高效电池项目、沐邦高科新能源高效光伏电池项目等-动态

晋江2023年度无偿献血工作启动-每日观察

孟晚舟携神秘老公现身！穿“娃娃裙”戴大钻戒，“望夫眼”充满崇拜

温岭工量刃具(01379.HK)与峤岭投资订立厂房物业及宿舍租赁协议-天天讯息

2023年成都春节活动一览（持续更新）-环球快资讯

光华股份：暂时没有与抗病毒粉末涂料的厂商开展合作-全球聚看点

广深铁路（601333）1月10日主力资金净买入474.40万元

艾伯维(ABBV)和Anima Biotech合作发现mRNA调制器-全球快资讯

Steam同时在线人数超3300万，中国发行商才赚总收入3%

滴水贷逾期13个月多久会上征信系统-当前速递

东莞市住建局明确：首套房（无贷款记录）最低首付20%

中国可穿戴设备行业发展前景及趋势全面预测 各应用场景渗透率将不断提高

湖南省常德市委原常委、原副市长涂碧波被查

江河纸业IPO因关联交易、财务数据等问题被否，中信证券执业存疑-时快讯

女子晒6本结婚证4本离婚证！丈夫回应：这是最后一次，说啥也不离了

SaaS行业都在裁员，海外：行业进步；国内：走投无路

南瓜和虾可以一起吃吗?-全球消息

七年深耕西南打磨软实力，成都将迎来第二座大悦城

爱笑的易海欣，谢谢你！-世界微资讯

2022车市销量成绩单：自主品牌强势崛起 “中国智造”加速出海-天天速读

谷实生物拟投资700万设立子公司哈尔滨谷实青丰农牧有限公司持股70%-热门看点

美国一警察被控多次性侵女囚，还逼迫她们看色情影像-每日快看

1月上半月全国空气质量以良至轻度污染为主 首要污染物均为PM2.5-世界报道

OneFlow源码解析：静态图与运行时

ChatGPT的一小步，NLP范式转变的一大步-当前时讯

TorchDynamo初探：Python ByteCode的动态修改-天天观察

如何看待PyTorch 2.0？

ChatGPT进化的秘密-世界快报

对比PyTorch、TensorFlow、JAX、Theano，我发现都在关注两大问题-环球头条

DevEco Studio 3.1差异化构建打包，提升多版本应用开发效率-天天热门

YOLOv5全面解析教程①：网络结构逐行代码解读

OpenAI掌门人Sam Altman：AI的下一个发展阶段

下载量突破10亿，MinIO的开源启示录-世界快播

用一张图说一说 ChatGPT 内部技术工作流程

一块RTX 3090加速训练YOLOv5s，时间减少11个小时，速度提升20%-全球最新

YOLOv5全面解析教程①：网络结构逐行代码解析-环球头条

Stable Diffusion 2.0 来了

OneFlow源码解析：自动微分机制-当前时讯

开源风暴吞噬AI界？从Stable Diffusion的爆火说起-世界观速讯

OneFlow-ONNX v0.6.0正式发布-世界速讯

大模型狂潮背后：AI基础设施的“老化”与改造工程-全球观焦点

李白：你的模型权重很不错，可惜被我没收了

Compose Material 3 稳定版现已发布 | 2022 Android 开发者峰会

腾讯魏巍：Eunomia云原生资源编排优化

打造高安全数字基础设施：中国电子云服务关键行业的宣言-天天热门

Moka发布“人才数字经济”四大趋势：数智化是关键

OPPO广告联盟战略升级，全面提升开发者变现效率-天天热门

边缘计算在视频直播场景的应用与实践

Milvus 2.1 版本更新 - 简单可信赖、性能持续提升-天天播报

京东杨业飞：京东云原生大规模实践之路-全球热资讯

铁矿石价格疯涨引关注发改委12天内三次“打铁”-环球关注

临近春节注意食品安全

招商证券(香港)：维持药明生物增持评级目标价118港元-天天报资讯

铭利达(301268.SZ)发预增 2022年净利润4亿至4.28亿元同比增长170%至189%-热门看点

中国可穿戴设备行业发展前景及趋势全面预测各应用场景渗透率将不断提高

1月上半月全国空气质量以良至轻度污染为主首要污染物均为PM2.5-世界报道

我国探月工程有了新进展第四期已立项

我国首个静止轨道Q/V频段星地通信试验系统成功运行填补了我国相关领域系统的建设和研究空白

我国成功发射遥感三十三号02星主要用于科学试验、国土资源普查、农产品估产及防灾减灾等领域

“轩岚诺”加强成为今年首个超强台风明起影响我国东部海域

中国高铁今日装船出海首次出口国外用于印尼雅万高铁建设工作

2022未来科学大奖获奖名单公布李文辉、杨学明、莫毅明获奖