近日,文本生成图像模型Stable Diffusion背后的公司Stability AI宣布获得了1.01亿美元超额融资,估值达10亿美元,这家基于开源社区的“草根”企业的风头一时间甚至盖过了业界顶级研究机构OpenAI。
本文作者认为,尽管开源项目存在商业模式、开源许可协议等方面的挑战,但通过良好开源社区的驱动,AI项目的技术发展、应用广度和创造空间都有了意想不到的发展,正如开源“吞噬”软件1.0,“开源AI”运动将在软件2.0时代不可阻挡。OneFlow社区对此进行了编译。
(资料图片仅供参考)
作者|swyx
翻译|胡燕君、贾川
文本转图像模型的发展周期历时数年:
2020年7月:OpenAI发文介绍Image GPT模型,将语言模型应用到图像领域。
2022年3月:AI图像生成平台Midjourney启动Beta版本测试。
2022年4月:OpenAI宣布允许一定数量的用户对其AI图像生成工具DALL-E 2 进行“研究性试用”。
2022年5月:Google以论文形式公布其文本-图像生成模型Imagen,Imagen由PyTorch实现。
2022年7月:OpenAI 通过UI/API开放DALL-E 2进行公开测试,参与公测的用户须先进入等待名单。
2022年7月:Midjourney通过Discord通讯平台发布消息表示即将进行公开测试。
2022年8月:文本-图像生成模型Stable Diffusion发布,这是一款基于OpenRAIL-M许可的开源模型。
2022年9月:OpenAI取消DALL-E 2的等待名单。
GPT-3从公布到被复制历时10个月:
2020年5月:OpenAI以论文形式公开GPT-3,并在随后的6月发布了未公开的Beta版API。
2020年7月:非营利开源研究组织EleutherAI成立,成为OpenAI的替代者。
2020年9月:Microsoft获得GPT-3的独家授权。
2021年1月:EleutherAI公布其800G数据集The Pile。
2021年3月:EleutherAI公布了分别含13亿和27亿参数的两版开源GPT-Neo模型(GPT-Neo是对GPT-3的克隆版)。
2021年11月:OpenAI取消GPT-3的等待名单,开发人员可以直接报名使用其API。
2022年5月:Meta公布大型语言模型OPT-175B,供研究人员使用,还公布了模型日志和开源许可证明。
2022年6月:俄罗斯互联网巨头Yandex公布了YaLM-100B,这是一个基于Apache-2许可的类GPT开源模型。
2022年7月:HuggingFace公开了BLOOM-176B,一个基于RAIL许可证明的大型语言模型。
GPT-2从公布到被复制历时6个月:
2019年2月,OpenAI宣布GPT-2诞生,为了避免模型遭到不良利用(如被用于制造虚假新闻等),当时决定不将模型完全开源;3月,OpenAI放弃“非营利机构”的定位,成立OpenAI LP(有限合伙公司),声称进入“有限营利”经营模式。
8月,两名计算机硕士复制出GPT-2并将其对外公开,称为OpenGPT-2。
11月,经过谨慎的分阶段逐步公布,OpenAI终于完全开源了含15亿参数的GPT-2模型。
上述时间线已经过高度精简,实际发展史还可追溯到2015年提出的扩散模型(Diffusion Model)、2017年提出的Transformer模型,以及更早之前对生成对抗网络(GANs)的研究。
有趣的是,2022年9月,OpenAI基于MIT许可公开了其Whisper语音转文本模型,并且不设置付费API。当然,语音转文本功能遭到不良利用的可能性较低,所以此类模型的开源风险也更低,但也有观点认为,OpenAI此次的开源决定是受到Stable Diffusion开源后爆红的影响。
1
Dreambooth:开源社区掌舵项目发展
一个先进的开源社区可以发挥魔法般的作用。专业的研究团队或资金充足的团队或许可以开发出很好的基础模型,但只有开源社区才能更好地将各种用例产品化,并且优化模型的实际落地使用。
最能体现这一点的例子是Dreambooth的发展。Dreambooth是一个文本转图像模型,支持经小样本学习(Few-Shot Learning)后生成精调图像,生成的图像既可保留主体的精细特征,又能为主体切换任意背景。
Dreambooth体现了文本转图像模型的理想优化方向,因为它不止需要用户下载模型直接运行,还需要用户根据样本图像进行精细训练,但原始端口需要的内存太大,大多数用户的训练设备都无法满足条件。
2022年9月,Corridor Digital的一则YouTube视频展示了Dreambooth的神奇功能,视频运用文本-图像生成模型根据视频创作者本人照片生成特效人物图像,很快爆火(视频:https://www.youtube.com/watch?v=W4Mcuh38wyM)。
这是Dreambooth的发展历程:
2022年8月26日,Dreambooth宣布诞生;12天后公布了开源端口;又过了25天后,训练Dreambooth的所需内存空间降低了79%;10月8日,Dreambooth已经能在8GB GPU上训练。
对Dreambooth的优化大多数由Xavier Xiao和Shivam Shrirao通过GitHub完成,意大利工程师Matteo Serva也提供了帮助。Xavier Xiao来自新加坡,博士主攻生成模型与优化,现就职于AWS AI;Shivam Shrirao,计算机视觉高级工程师,现居印度。这两位都并非Dreambooth原始团队的成员。
现在,容易优化的地方都已优化完毕,于是有人开始担心:继续优化下去的投入产出比会越来越低,但后来这种担心不攻自破。8月份时,Stable Diffusion可以在内存为5~10GB的GPU上运行——商用GPU的内存一般为6~12GB,苹果产品都有统一内存(Unified Memory)。到了9月,Stable Diffusion已能在iPhone XS上运行。