1. 2022年最佳AI论文32篇:DALL·E 2、Stable Diffusion、ChatGPT等入选
大模型和文生图、跨模态是今年毫无疑问的热点,此外也有多篇GAN等视觉领域的文章。GitHub上还有这些论文的短视频和文字解读、代码链接等。
从论文的主要贡献机构来看(有些机构虽然有贡献但排名较后有挂名嫌疑的,都被忽略不计了),似乎可以反映出各公司在AI领域的江湖地位:第一档:Google 8篇,Meta 6篇雄踞前二名,OpenAI 3篇但有两篇影响力巨大的(DALL·E 2和ChatGPT),如果按代表作评价,可能不会输给两巨头。第二档:NVIDIA有2.5篇。第三档:国内腾讯、百度、微软(出自亚研院)各1篇。国外有三星、迪士尼各1篇。Snap、Adobe都是0.5篇。
(资料图片仅供参考)
高校总共5.5篇,不如两巨头一家,相比之下要逊色很多。其中:特拉维夫有1.5篇位居第一,但慕尼黑的Stable Diffusion影响巨大,应该视为第一档;CMU、南洋理工各1篇,第二档;南加大和伯克利各0.5篇,第三档。
链接:
https://github.com/louisfb01/best_AI_papers_2022
https://hub.baai.ac.cn/view/22798
2. 吴恩达的2022年终盘点:生成式AI、ViT、大模型
在过去的一年,生成式AI迎来爆发式增长,由人工智能生成的图片在社交平台疯狂传播,引发大量争议的同时也推动了投资;视觉 Transformer(ViT) 的工作也出现爆炸性增长,在过去一年中,研究人员共计发表超过 17,000 篇 ViT 论文;AlphaCode、Codex 等的推出便利了开发者,大受欢迎;与此同时,研究人员也在不断拓宽语言模型的边界,在解决可信度、偏见和实时性等问题方面做出持续不断的努力。
链接:
https://mp.weixin.qq.com/s/nagtjtYD98OlJlyddt78Aw
3. 2022出圈的ML研究:爆火的Stable Diffusion、通才智能体Gato,LeCun转推
今日,ML & NLP 研究者、Meta AI 技术产品营销经理、DAIR.AI 创始人 Elvis S. 对 2022 年热度很高的 12 篇机器学习论文进行了汇总。帖子很火,还得到了图灵奖得主 Yann LeCun 的转推。
链接:
https://mp.weixin.qq.com/s/zdc2pixGvLNwCZsaWkM7JA
4. ChatGPT进化的秘密
ChatGPT 是怎么变得这么强的?它的各种强大的能力到底从何而来?在这篇文章中,作者试图剖析 ChatGPT 的突现能力(Emergent Ability),追溯这些能力的来源,希望能够给出一个全面的技术路线图,来说明 GPT-3.5 模型系列以及相关的大型语言模型是如何一步步进化成目前的强大形态。作者希望这篇文章能够促进大型语言模型的透明度,成为开源社区共同努力复现 GPT-3.5 的路线图。
链接:
https://mp.weixin.qq.com/s/dPpO18g3V4xqHUsEBKrXJQ
5. 狂揽两千星,速度百倍提升,高性能Python编译器Codon开源
作为高性能 Python 编译器,Codon 可将 Python 代码编译为本机机器代码,而无需任何运行时开销。在单线程上,Python 的典型加速大约为 10-100 倍或更多。Codon 的性能通常与 C/C++ 的性能相当。与 Python 不同,Codon 支持本机多线程,这可以使速度提高很多倍。Codon 可通过插件基础结构进行扩展,它允许用户合并新的库、编译器优化甚至关键字。
Codon 框架是完全模块化和可扩展的,允许无缝集成新模块、编译器优化、领域特定语言等,并积极为生物信息学和量化金融等多个领域开发新的 Codon 扩展。
链接:
https://mp.weixin.qq.com/s/p29go0yNMaWJfSxXRLGe9g
6. xNN:支付宝端侧深度学习框架
2017 年是支付宝第一次引入 AR 实景扫福,通过扫描任意“福”字帮助大家去集收集福卡。当时的福字识别模型选择服务端服务部署的技术方案,为了在活动期间识别福字,需要调用大量的服务端部署资源来部署识别模型;另一方面,DL 在云端则意味着数据必须上传。即使不考虑计算压力,从网络延时、流量、隐私保护等角度,也给用户体验带来种种限制。因此,对相当多的应用来说,DL 模型前移到移动端部署可以看作是一种刚需。
链接:
https://mp.weixin.qq.com/s/ca4NvwJ9XSI2UCLvuONgWQ
7. OneFlow源码解析:自动微分机制
深度学习框架一般通过自动微分(autograd)机制计算梯度并反向传播。本文尝试通过一个简单的例子,粗浅地观察一下OneFlow的autograd的实现机制。
链接:
https://mp.weixin.qq.com/s/EmDuuCXHe6-kXRk0MTaDJA
8. CUDA笔记(一):解析OneFlow Element-Wise算子实现
Elemet-Wise算子指的是针对输入Tensor进行逐元素操作,比如ReLU就是针对输入Tensor的每个值进行判断是否大于0,大于0的话输出就是输入否则就是0。
链接:
https://mp.weixin.qq.com/s/_pj-fa-SJ7cFdFaB9tYSWg
9. Meta千亿参数大模型OPT-IML「升级版」来了,完整模型和代码公布
今年五月,MetaAI官宣发布了基于1750亿参数的超大模型OPT-175B,还对所有社区免费开放。12月22日,该模型的更新版本OPT-IML(Open Pre-trained Transformer)正式上线,Meta称其「对2000个语言任务进行了微调,包含1750 亿个参数」,还将为非商业研究用途免费开放。
链接:
https://mp.weixin.qq.com/s/LEcXYLjMxjN4MVDs8JP4xg
10. 一块RTX 3090加速训练YOLOv5s,时间减少11个小时,速度提升20%
凭借对YOLOv5的性能分析以及几个简单的优化,OneFlow团队将单RTX 3090 FP32 YOLOv5s的训练速度提升了近20%。对于需要迭代300个Epoch的COCO数据集来说,One-YOLOv5相比Ultralytics/YOLOv5缩短了11.35个小时的训练时间。本文将分享所有优化技术,如果你是一名PyTorch和OneFlow的使用者,尤其日常和检测模型打交道但资源相对受限,那么本文的优化方法将对你有所帮助。
链接:
https://mp.weixin.qq.com/s/LjbYGkjXgb5FkEn_cHXnpQ
11. YOLOv5全面解析教程①:网络结构逐行代码解读
本教程也同样适用于 Ultralytics/YOLOv5,因为 One-YOLOv5 仅仅是换了一个运行时后端而已,计算逻辑和代码相比 Ultralytics/YOLOv5 没有做任何改变,欢迎 star 。
链接:
https://mp.weixin.qq.com/s/qfZIKgBdHNwPDp5ng0Y_Qw
12. Stable Diffusion 2.0 相比 1.5 是倒退吗?Prompt 实验给你真相
SD 2.0 在 Reddit 上招来群嘲,人们抱怨,SD 旧版本的 prompt,在 2.0 下不仅不再管用,甚至效果明显有倒退,生物体结构扭曲错乱,质感奇怪。拿来跟讨巧又低门槛的 Midjourney v4 一比较,简直是场噩梦。
作者对 SD2 的第一印象也跟社区差不多,不小的挫败和失望。过去珍藏的prompt 跑完能看的不多。但抛弃旧思路,经过几组的 prompt 实验后,他又信心大振,发现了 Stable Diffusion 2.0 的很多亮点和优势。
链接:
https://mp.weixin.qq.com/s/oCzq8zwDnMNi-XdjJ5uZJA
13. OneFormer:一个Transformer统治通用图像分割
论文提出了OneFormer,这是第一个基于transformer的多任务通用图像分割框架,该框架只需要使用单个通用架构、单个模型和单个数据集进行一次训练,就可以在语义、实例和全景分割任务上胜过现有框架,尽管后者需要使用多次资源在每个任务上单独训练。
链接:
https://mp.weixin.qq.com/s/X1LwOipmq86C82F4m3la-Q
14. Vision Transformer这两年
在NLP领域取得巨大成功后,Transformer架构在计算机视觉方面的作用日渐凸显,成为越来越普遍的CV工具。自2020年10月Vision Transformer模型推出以来,人们开始高度关注Transformer模型在计算机视觉上的应用。
恰逢Vision Transformer推出两周年之际,借此机会我们对其稍作介绍,并讨论这两年来发展出的多种Vision Transformer模型变体以及Transformer在计算机视觉应用方面面临的各种挑战。
链接:
https://mp.weixin.qq.com/s/GW3bbdVMY3MwFm8W-xpYdw
其他人都在看
ChatGPT进化的秘密
李白:你的模型权重很不错,可惜被我没收了
单RTX 3090训练YOLOv5s,时间减少11小时
OpenAI掌门Sam Altman:AI下一个发展阶段
对比四大深度学习框架,我发现都关注两大问题
比快更快,开源Stable Diffusion刷新作图速度
OneEmbedding:单卡训练TB级推荐模型不是梦