DeepSeek再开源力作:FP8通用矩阵乘法库DeepGEMM助力AI高效运算

   时间:2025-02-26 10:15 来源:ITBEAR作者:顾青青

近日,DeepSeek在开源周的活动中揭晓了其第三日的开源成果——DeepGEMM,这一项目引起了业界的广泛关注。

DeepGEMM是一个专为密集型和混合专家(MoE)通用矩阵乘法(GEMM)运算设计的FP8通用矩阵乘法库。它特别为V3/R1模型的训练和推理任务提供了强大的支持。这一开源库的出现,无疑为相关领域的研究者和开发者提供了一个高效且灵活的工具。

据DeepSeek介绍,DeepGEMM在英伟达Hopper系列GPU上的表现尤为出色,其FP8每秒万亿次浮点运算(TFLOPS)性能可高达1350以上。这一性能数据不仅展示了DeepGEMM的强大计算能力,也体现了其在处理大规模矩阵运算时的效率。

DeepGEMM的核心逻辑代码相当精炼,仅约300行。然而,尽管代码简洁,但在大多数矩阵规模下,其性能却超过了经过专家优化调整的内核。这一特点使得DeepGEMM在保持高效性的同时,也具备了良好的可读性和可维护性。

DeepGEMM还支持密集型布局以及两种混合专家(MoE)布局,这进一步拓展了其应用场景。无论是处理传统的密集型矩阵运算,还是应对复杂的混合专家模型,DeepGEMM都能够提供稳定且高效的计算支持。

DeepGEMM的即时编译功能也是其一大亮点。这一功能使得开发者能够在需要时快速编译并运行代码,从而大大提高了开发效率。同时,即时编译也有助于确保代码在不同硬件环境下的兼容性和稳定性。

 
 
更多>同类内容
全站最新
热门内容