开源风暴吞噬AI界？从Stable Diffusion的爆火说起-世界观速讯

近日，文本生成图像模型Stable Diffusion背后的公司Stability AI宣布获得了1.01亿美元超额融资，估值达10亿美元，这家基于开源社区的“草根”企业的风头一时间甚至盖过了业界顶级研究机构OpenAI。

本文作者认为，尽管开源项目存在商业模式、开源许可协议等方面的挑战，但通过良好开源社区的驱动，AI项目的技术发展、应用广度和创造空间都有了意想不到的发展，正如开源“吞噬”软件1.0，“开源AI”运动将在软件2.0时代不可阻挡。OneFlow社区对此进行了编译。

(资料图片仅供参考)

作者｜swyx

翻译｜胡燕君、贾川

文本转图像模型的发展周期历时数年：

2020年7月：OpenAI发文介绍Image GPT模型，将语言模型应用到图像领域。

2022年3月：AI图像生成平台Midjourney启动Beta版本测试。

2022年4月：OpenAI宣布允许一定数量的用户对其AI图像生成工具DALL-E 2 进行“研究性试用”。

2022年5月：Google以论文形式公布其文本-图像生成模型Imagen，Imagen由PyTorch实现。

2022年7月：OpenAI 通过UI/API开放DALL-E 2进行公开测试，参与公测的用户须先进入等待名单。

2022年7月：Midjourney通过Discord通讯平台发布消息表示即将进行公开测试。

2022年8月：文本-图像生成模型Stable Diffusion发布，这是一款基于OpenRAIL-M许可的开源模型。

2022年9月：OpenAI取消DALL-E 2的等待名单。

GPT-3从公布到被复制历时10个月：

2020年5月：OpenAI以论文形式公开GPT-3，并在随后的6月发布了未公开的Beta版API。

2020年7月：非营利开源研究组织EleutherAI成立，成为OpenAI的替代者。

2020年9月：Microsoft获得GPT-3的独家授权。

2021年1月：EleutherAI公布其800G数据集The Pile。

2021年3月：EleutherAI公布了分别含13亿和27亿参数的两版开源GPT-Neo模型（GPT-Neo是对GPT-3的克隆版）。

2021年11月：OpenAI取消GPT-3的等待名单，开发人员可以直接报名使用其API。

2022年5月：Meta公布大型语言模型OPT-175B，供研究人员使用，还公布了模型日志和开源许可证明。

2022年6月：俄罗斯互联网巨头Yandex公布了YaLM-100B，这是一个基于Apache-2许可的类GPT开源模型。

2022年7月：HuggingFace公开了BLOOM-176B，一个基于RAIL许可证明的大型语言模型。

GPT-2从公布到被复制历时6个月：

2019年2月，OpenAI宣布GPT-2诞生，为了避免模型遭到不良利用（如被用于制造虚假新闻等），当时决定不将模型完全开源；3月，OpenAI放弃“非营利机构”的定位，成立OpenAI LP（有限合伙公司），声称进入“有限营利”经营模式。

8月，两名计算机硕士复制出GPT-2并将其对外公开，称为OpenGPT-2。

11月，经过谨慎的分阶段逐步公布，OpenAI终于完全开源了含15亿参数的GPT-2模型。

上述时间线已经过高度精简，实际发展史还可追溯到2015年提出的扩散模型（Diffusion Model）、2017年提出的Transformer模型，以及更早之前对生成对抗网络（GANs）的研究。

有趣的是，2022年9月，OpenAI基于MIT许可公开了其Whisper语音转文本模型，并且不设置付费API。当然，语音转文本功能遭到不良利用的可能性较低，所以此类模型的开源风险也更低，但也有观点认为，OpenAI此次的开源决定是受到Stable Diffusion开源后爆红的影响。

Dreambooth：开源社区掌舵项目发展

一个先进的开源社区可以发挥魔法般的作用。专业的研究团队或资金充足的团队或许可以开发出很好的基础模型，但只有开源社区才能更好地将各种用例产品化，并且优化模型的实际落地使用。

最能体现这一点的例子是Dreambooth的发展。Dreambooth是一个文本转图像模型，支持经小样本学习（Few-Shot Learning）后生成精调图像，生成的图像既可保留主体的精细特征，又能为主体切换任意背景。

Dreambooth体现了文本转图像模型的理想优化方向，因为它不止需要用户下载模型直接运行，还需要用户根据样本图像进行精细训练，但原始端口需要的内存太大，大多数用户的训练设备都无法满足条件。

2022年9月，Corridor Digital的一则YouTube视频展示了Dreambooth的神奇功能，视频运用文本-图像生成模型根据视频创作者本人照片生成特效人物图像，很快爆火（视频：https://www.youtube.com/watch?v=W4Mcuh38wyM）。

这是Dreambooth的发展历程：

2022年8月26日，Dreambooth宣布诞生；12天后公布了开源端口；又过了25天后，训练Dreambooth的所需内存空间降低了79%；10月8日，Dreambooth已经能在8GB GPU上训练。

对Dreambooth的优化大多数由Xavier Xiao和Shivam Shrirao通过GitHub完成，意大利工程师Matteo Serva也提供了帮助。Xavier Xiao来自新加坡，博士主攻生成模型与优化，现就职于AWS AI；Shivam Shrirao，计算机视觉高级工程师，现居印度。这两位都并非Dreambooth原始团队的成员。

现在，容易优化的地方都已优化完毕，于是有人开始担心：继续优化下去的投入产出比会越来越低，但后来这种担心不攻自破。8月份时，Stable Diffusion可以在内存为5~10GB的GPU上运行——商用GPU的内存一般为6~12GB，苹果产品都有统一内存（Unified Memory）。到了9月，Stable Diffusion已能在iPhone XS上运行。