Google发布9 exaflop算力的Cloud TPU v4 Pods集群并进入公开预览阶段目前只在俄克拉荷马州提供

在其I/O开发者大会上，Google今天宣布公开预览Google Cloud的Cloud TPU v4 Pods完整集群。Google在去年的I/O大会上推出了其Tensor处理单元的第四次迭代，一个TPU Pod由4096个这样的芯片组成。每个芯片的峰值性能为275 teraflops，每个pod承诺的综合计算能力1.1 exaflops。

Google现在在其俄克拉荷马州的数据中心运营着一个由八个这样的Pod组成的完整集群，其峰值聚合性能达9 exaflops。Google认为就累积计算能力而言，这是世界上最大的公开可用的ML中心，同时以90%的无碳能源运行。

那些集群是由具有ML(机器学习)能力的超级计算机提供的(意味着它们非常适合ML工作负载，如NLP、推荐模型等。这些超级计算机是使用ML硬件--例如GPU(图形处理单元)以及CPU和内存构建的。凭借9 exaflops，我们相信我们拥有最大的公开可用的ML集群。

在2021年的I/O大会上，Google的首席执行官Sundar Pichai说，公司很快就会有"几十个TPU v4 Pods在我们的数据中心上线，其中许多将以90%或接近90%的无碳能源运行。而我们的TPUv4 Pods将在今年晚些时候提供给我们的云客户"。显然，这比计划的时间要长一些，但考虑到背景是我们正处于全球芯片短缺的情况下，这些毕竟是定制芯片。

在今天的发布之前，Google与研究人员合作，让他们接触这些集群。研究人员回馈称对TPU v4以其快速的互连和优化的软件栈提供的性能和可扩展性感到满意，并喜欢用新的TPU VM架构设置他们自己的互动开发环境的能力，以及使用他们首选框架的灵活性，包括JAX、PyTorch或TensorFlow，

Google表示，用户将能够对新的云TPU v4集群和它的Pod进行切割，以满足他们的需求，无论是访问四个芯片(这是TPU虚拟机的最低限度)还是数千个芯片(但也不能太多，因为只有这么多芯片可以用)。

截至目前，这些集群只在俄克拉荷马州提供。"我们对各种地点进行了广泛的分析，并确定俄克拉荷马州，以其特殊的无碳能源供应，是托管这种集群的最佳地点。我们的客户几乎可以从任何地方访问它，"一位发言人解释说。