全球首个完全开源的指令跟随大模型；T5到GPT-4最全盘点-每日消息

1. Dolly 2.0：世界上第一个完全开源的指令跟随LLM

(资料图片)

两周前，Databricks发布了类ChatGPT的大型语言模型 (LLM)Dolly，其训练成本不到 30 美元。今天，他们发布了 Dolly 2.0，这是业内第一个开源的指令跟随LLM，并根据高质量的人类生成的指令数据集（15000个prompt/response pairs）进行了微调。Dolly 2.0 基于EleutherAI pythia模型系列，是一个具有12B参数的语言模型。

他们正在完全开源 Dolly 2.0，包括训练代码、数据集和模型权重，这些都可以商用。这意味着，任何组织都可以创建、拥有和定制强大的 LLM，并且无需支付 API 访问费用或与第三方共享数据。

链接： 1. https://huggingface.co/databricks； 2. https://www.databricks.com/blog/2023/04/12/dolly-first-open-commercially-viable-instruction-tuned-llm

2. 大型语言模型综述全新出炉：从T5到GPT-4最全盘点

考虑到 LLMs 的快速技术进步，中国人民大学的二十几位研究者通过背景知识、关键发现和主流技术等三方面回顾了 LLMs 的最新进展，尤其关注 LLMs 的预训练、自适应调优、使用和能力评估。此外他们还总结和开发 LLMs 的可用资源，讨论了未来发展方向等问题。对于领域内研究人员和工程师而言，这份综述是一份极其有用的学习资源。

链接：

https://mp.weixin.qq.com/s/7HRr55Md2Wl6EHQMGioumw

3. OpenAI创始人：GPT-4的研究起源和构建心法

GPT模型所取得的成就令人艳羡，不过这建立在OpenAI数年的技术探索和坚定信念上。作为深度参与了GPT模型从0到1生产过程，以及推动GPT研究和工程落地的主要“幕后推手”，Brockman对此深有体会，“它并非试图像快速致富那样昙花一现，而是一直在缓慢积累价值，才有了指数级增长带来的巨大回报。”

链接：

https://mp.weixin.qq.com/s/hO1ZdqgOjpA328luobQ9eg

4. ChatGPT作者John Schulman：我们成功的秘密武器

新增的对话数据固然重要，不过，让ChatGPT更容易推断出用户的意图，产生质变的根本原因是已在InstructGPT使用的“人类反馈的强化学习（RLHF）”技术，OpenAI联合创始人、研究科学家John Schulman认为，RLHF才是ChatGPT的秘密武器（secret sauce）。本文中，我们可以看到ChatGPT技术演进的脉络和不曾在论文中被描述的细节，以及OpenAI团队的下一步研究方向。

链接：

https://mp.weixin.qq.com/s/sDeBYMvAwbJr5_tj7Q20-w

5. 千亿参数开源大模型BLOOM背后的技术

近年来，语言模型越训越大已成为常态。大家通常会诟病这些大模型本身的信息未被公开以供研究，但很少关注大模型训练技术这种背后的知识。本文旨在以 1760 亿参数的语言模型 BLOOM 为例，阐明训练此类模型背后的软硬件工程和技术要点，以促进大家对大模型训练技术的讨论。

链接：

https://zhuanlan.zhihu.com/p/615839149

6. 分布式训练的十大常见错误和解决方案

大型语言模型（LLM）时代，分布式训练势在必行，因为数据和模型权重很少能同时放到一张卡上。然而，ML 中的分布式训练非常复杂且容易出错，其中隐藏着许多陷阱，可能会在模型训练过程中引发巨大问题。本文将介绍分布式模型训练中十个最常见的错误，并将针对每个错误提出解决方案。

链接： https://neptune.ai/blog/distributed-training-errors

6.5. AutoGPT太火了，无需人类插手自主完成任务

近日，AI 界貌似出现了一种新的趋势：自主人工智能。这不是空穴来风，最近一个名为 AutoGPT 的研究开始走进大众视野。特斯拉前 AI 总监、刚刚回归 OpenAI 的 Andrej Karpathy 也为其大力宣传，并在推特赞扬：「AutoGPT 是 prompt 工程的下一个前沿。」

链接：

https://mp.weixin.qq.com/s/bV1tPc7hNn2z06YOpzyanw

7. 理解大型语言模型（入门阅读清单）

由于Transformer对每个人的研究工作产生了如此大的影响，作者罗列了一个阅读清单供机器学习研究人员和从业者入门LLM。

链接： https://sebastianraschka.com/blog/2023/llm-reading-list.html?

8. 大模型汇总（10亿级参数规模以上）

大模型（大型语言模型，LLMs）是当下AI和NLP研究与产业中最重要的方向之一。本文将对当下的主流大模型进行总结。参数规模在1B以上的模型视为大模型。

链接：https://zhuanlan.zhihu.com/p/611403556

9. ML系统入门资料整理（tvm&mlir&llvm）

对于想入门mlsys或者想深入学习某种编译器的开发者来说，希望这个资料可以成为不错的起点。

链接：https://zhuanlan.zhihu.com/p/618229430

10. 谈谈对OpenAI Triton的一些理解

Triton应该算是笔者看到的基于MLIR编译技术路径实现，性能和功能均可满足一部分实际需求且得到了生产检验，并且在主流AI加速器上解决了计算密集算子开发需求的第一个开源工作。

链接： https://zhuanlan.zhihu.com/p/613244988

11. mperf：移动/嵌入式平台算子性能调优利器

在移动/嵌入式平台，为了最大程度发挥硬件算力，对算子极致性能的追求变成必然，不同于桌面/服务器平台，移动/嵌入式平台在算子性能调优方面可选择的工具很少。mperf 是一个微架构层次的算子性能调优工具箱，主要面向移动/嵌入式平台的 CPU/GPU 核心，目标是“为构建一个更接近闭环的算子调优反馈回路”提供系列基础工具。

链接：https://zhuanlan.zhihu.com/p/610346564

12. 小型Python编译器项目入门

适合对编译优化、高性能计算、GPU编程感兴趣，完全零基础的同学也没问题，但是需要熟悉Python编程。

编译器和测试部分代码完全用Python编写，算子的部分使用cupy的rawKernel功能将cuda代码编译成一个Python函数。目前已完成了第一个模块的代码部分，共分为5天，每一天的所有代码加起来不超过100行，简单易懂。

链接：https://zhuanlan.zhihu.com/p/603352525

13. CUDA编程：常用技巧/方法

不管你是在学习CUDA，还是在优化算子，掌握一些CUDA编程技巧，能够提升你的工作效率，甚至找到更优解。本文主要是介绍一些常用的技巧/方法，并配上实践code，希望对读者有所帮助。

链接：https://zhuanlan.zhihu.com/p/584501634

14. NCCL源码解析①：初始化及ncclUniqueId的产生

NCCL是英伟达开源的GPU通信库，支持集合通信和点对点通信。

链接：

https://mp.weixin.qq.com/s/_SOmkGoo9DblXb8ddyEeaQ

15. 适配PyTorch FX，OneFlow让量化感知训练更简单

OneFlow紧随其后添加了针对OneFlow的fx，即One-fx，在安装One-fx之后，用户可以直接调用oneflow.fx，也可以直接通过import onefx as fx进行使用。

链接：

https://mp.weixin.qq.com/s/O8yGUuTL-o_gHQV4xez_nQ

16. One-YOLOv5 v1.2.0发布：支持分类、检测、实例分割

新版本同步了Ultralytics YOLOv5的上游分支v7.0，同时支持分类、目标检测、实例分割任务；支持flask_rest_api；支持使用 wandb 对实验跟踪和可视化功能；oneflow_hub_support_pilimage；为每个batch的compute_loss部分减少一次h2d和cpu slice_update操作；优化 bbox_iou 函数和模型滑动平均部分，大幅提升训练性能；

兼容FlowFlops，训练时可以展示模型的FLOPs

链接：

https://mp.weixin.qq.com/s/bkEkInaF7Ht7KsdXUFkw-Q

其他人都在看

“ChatGPT们”的淘金时代

大型语言模型的推理演算

GPT-4创造者：第二次改变AI浪潮的方向

谷歌科学家：ChatGPT秘密武器的演进与局限

比快更快，开源Stable Diffusion刷新作图速度

OneEmbedding:单卡训练TB级推荐模型不是梦

GLM训练加速：性能最高提升3倍，显存节省1/3

欢迎Star、试用OneFlow: github.com/Oneflow-Inc/oneflow/http://github.com/Oneflow-Inc/oneflow/