这个用整块晶圆做的芯片,性能超乎想象
- 发布日期: 2021-08-10 浏览次数: 1697
内容
Cerebras Systems及其晶圆级硬件由于其完全非传统的制造方法在业界引起了轰动。他们没有像AI中的所有其他参与者一样构建一个专用于机器学习的大芯片,而是瞄准了一个完全不同的扩展途径。他们奉行将整个晶圆制成单个芯片的策略。该硬件已显示出令人惊讶的多功能性,甚至在其他高性能计算应用程序中也取得了突破性进展。
这是由一个简单的观察结果驱动的,即摩尔定律已经显著放缓。大幅增加晶体管数量的唯一途径是增加每个芯片中的硅数量。Cerebras正在开发他们的第二代产品Cerebras WSE-2。该芯片的尺寸为215mmx215mm。
与可用的最大GPU Nvidia A100相比,Cerebras取得了巨大的优势,尤其是在将片上40GB的内存带宽与A100的类似大小的HBM内存进行比较时。Cerebras拥有令人难以置信的高结构带宽,远远超过GPU到GPU的互连。
Cerebras通过在水冷机箱中提供它来驯服他们的20KW野兽。作为参考,Nvidia A100的功率范围从250W到500W,具体取决于配置。在创建这种冷却解决方案时必须特别小心。由于该芯片的尺寸和功耗,诸如硅和其他组件的不同热膨胀等问题成为主要问题。
长期以来,半导体制造受限于裸片尺寸,一直受到掩模版的限制。掩模版限制为33×26,这意味着这是ASML的光刻浸入式步进器可以在晶片上图案化的最大尺寸。Nvidia 最大的芯片都在800mm^2的低范围内,主要是因为超越这个范围是不可能的。 Cerebras WSE实际上是在掩模版限制范围内的晶圆上的许多芯片。他们没有沿着芯片之间的划线将芯片切割开,而是开发了一种跨芯片线的方法。这些导线与实际芯片分开图案化,并允许芯片相 以经典方式构建芯片时,通常会存在缺陷。因此,必须丢弃来自每个晶片的多个芯片或必须禁用芯片的元件。Nvidia通常将这种做法用于他们的GPU。每一代都存在禁用更大比例内核的持续趋势,而在当前一代Ampere中,大约有12%的内核被禁用。 Cerebras通过在每个标线子芯片(reticle sub-chip)上添加2行额外的核心来解决这个问题。这些芯片内的互连是2D网格,其中每个核心在垂直和水平方向上连接。它们还为每个对角线核心提供额外的互连。这允许对有缺陷的核心进行布线,并且软件仍然可以识别2D网格。 在这个2D网格中,Cerebras设定了几个目标。他们希望所有内存都保留在芯片上,而不必等待片外内存缓慢。唯一的外部连接是到主机系统。每个内核都有细粒度的并行性(fine grained parallelism ),彼此之间不共享任何内容。它们是具有MIMD能力的节能通用内核,并拥有自己的本地存储器。 主要用例是机器学习训练或推理。网络层被映射到晶片大小的芯片区域。每个矩形块对应一个层,有趣的是这被称为“Colorado”。卷积、矩阵向量和矩阵乘法是在每一层的核心上计算的。2D网格处理网络每一层内和网络层之间的核心间通信。互连接。实际上,芯片可以扩展到超出掩模版的限制。