微软下一代自研 Maia 人工智能
芯片的发布日期从原定的 2025 年推迟至 2026 年。这一变动引起了科技行业的广泛关注,也为 AI 芯片市场的发展增添了新的变数。
延迟的主要原因在于下一代芯片 Braga 面临着诸多设计难题。在开发过程中,微软需要整合 OpenAI 的新功能需求,这使得芯片在模拟运行时出现了不稳定问题。为了解决这些问题,微软不得不将量产时间推迟至少六个月。分析师预计,Braga 的性能可能不及 2024 年英伟达发布的 Blackwell 芯片,这无疑会影响微软在 AI 芯片市场的竞争力。
不过,微软并未因这次推迟而停下脚步。公司已经规划了后续代号为 Braga - R 和 Xylia 的芯片路线图,旨在巩固其在云 AI 领域的领导地位。此次推迟也提醒了整个业界,自研芯片虽然前景广阔,但技术门槛极高,微软仍需在创新与现实可行性之间找到平衡。
回顾微软在 AI 芯片领域的发展历程,2023 年 11 月,在 Microsoft Ignite 大会上,微软首次发布了 Maia 系列的首款产品 ——Azure Maia 100 AI 芯片和 Cobalt 100
CPU。这两款芯片专为云基础设施和训练大规模语言模型进行了优化设计,通过微软内部构建的垂直集成方案,显著提升了性能、功耗和成本效率。
Maia 100 作为微软定制 AI 加速器系列的开篇之作,以其先进的规格脱颖而出。该芯片尺寸约为 820 平方毫米,采用台积电 5 纳米制程技术,集成了 1050 亿个
晶体管,仅比 AMD MI300 GPU 少约 30%。它还首次支持 8 - bit 以下的 MX 数据类型,能够加速模型训练和推理过程。此前微软宣称,Maia 100 性能直追英伟达 H100,同时能节省约 30% 的成本,凸显了其在减少对外部 GPU 依赖方面的战略价值。
在技术架构方面,Maia 100 芯片采用了台积电的 N5 工艺和 COWOS - S 中介层技术,大幅提升了集成度,同时优化了能耗管理。该芯片集成了大型片上 SRAM,并结合四个 HBM2E 芯片,实现了每秒 1.8TB 的总带宽和 64GB 的存储容量,充分满足了 AI 数据处理的高要求。
在计算性能上,Maia 100 配备了高速张量单元和矢量
处理器。高速张量单元支持多种数据类型,包括低精度的 MX 数据格式,为 AI 计算提供了强大的动力。矢量处理器则采用定制指令集架构 (ISA),支持 FP32 和 BF16 等多种数据类型,进一步提升了 AI 运算的效率。此外,Maia 100 还具备高效的 Tensor 运算能力,确保了复杂 AI 模型的高效运行。
Maia 100 的 TDP 设计为 500W,尽管支持高达 700W 的功率,但其架构设计紧密围绕现代机器学习需求展开,旨在实现的计算速度、性能和准确性。通过低精度存储数据类型和数据压缩引擎设计,Maia 100 减少了大型推理作业对带宽和容量的需求,从而降低了能耗。同时,大型 L1 和 L2 暂存器由软件管理,以实现的数据利用率和能效。
在软件开发方面,Maia 100 的硬件和软件架构均是从头开始设计,旨在更高效地运行大规模工作负载。其软件
开发工具包 (SDK) 为开发人员提供了一套全面的组件,以便将模型快速部署到 Azure OpenAI 服务。在框架集成方面,Maia 100 支持一流的 PyTorch 后端,同时提供了调试器、分析器、可视化器等开发人员工具,助力模型的调试和性能调整。编译器方面,Maia 100 提供了 Triton 编程模型和 Maia API 两种选择。