在科技界的一次重要动向中,DeepSeek公司在近期宣布了其“开源周”活动的深入进展,于2月27日揭晓了第四日的开源成果——专注于优化并行策略的一系列技术创新。
此次公开的技术亮点涵盖了DualPipe,这是一种专为V3/R1训练设计的双向流水线并行算法,旨在通过计算与通信的重叠,显著提升效率。同时,EPLB作为V3/R1的专家并行负载均衡器,为资源分配提供了更为智能的解决方案。DeepSeek还深入分析了V3/R1中的计算通信重叠现象,为进一步优化提供了理论基础。
回顾整个“开源周”,DeepSeek的每一步都备受瞩目。活动自2月24日启动以来,已陆续向公众开放了多个核心代码库。首日,Flash MLA作为首个开源项目,为机器学习领域注入了新的活力。紧接着,在2月25日,DeepSeek推出了DeepEP,这是一个专为MoE(混合专家)模型训练和推理设计的EP通信库,进一步推动了模型处理能力的边界。
而到了2月26日,DeepSeek再次发力,开源了DeepGEMM库。这一库支持FP8(8位浮点数)通用矩阵乘法运算,不仅适用于密集型计算,还完美契合混合专家(MoE)架构,为高性能计算领域带来了新的可能。
DeepSeek的这一系列开源举措,不仅展示了其在人工智能领域的深厚积累,也体现了其开放共享、推动行业进步的企业精神。随着“开源周”的持续深入,更多前沿技术有望被更多开发者所掌握,共同推动技术的创新与发展。