近日,据南华早报报道,阿里巴巴旗下的云计算服务部门宣布了一项重大进展,在其平台上推出了名为DeepSeek的人工智能(AI)模型。此前,已有其他大型科技公司向客户提供这家中国初创公司的开源系统。
阿里云通过微信发布的声明详细介绍了这一创新。声明指出,用户可以在其平台上实现从模型训练、部署到推理的全过程,而且无需编写任何代码。这一平台极大地简化了模型开发的流程,为开发者和企业用户带来了前所未有的快捷、高效和便利的AI开发与应用体验。
阿里云用户现在可以登录其PAI模型库,这是一个包含多个开源大型语言模型(LLM)的资源库。在这里,用户可以选择DeepSeek的AI模型,并将其部署到自己的推理和文本生成应用程序中。PAI模型库中的DeepSeek-V3和DeepSeek-R1是这家杭州初创公司最先进的AI模型,据称它们的开发成本和计算能力仅为构建主要LLM技术所需成本的一小部分。
阿里云还提供了这些模型的精简版本,如DeepSeek-R1-Distill-Qwen-7B。LLM技术是OpenAI的ChatGPT等生成式AI服务背后的关键技术,而开源则使得公众可以访问软件程序的源代码,从而允许第三方开发人员对其进行修改、共享设计、修复链接或扩展功能。
蒸馏是一种训练较小模型以模仿较大、更复杂模型行为的方法,同时显著降低计算成本。这种做法在希望缩小模型规模同时保持类似性能的公司中非常普遍。阿里云上个月发布的全新Qwen 2.5-Max模型,在性能上与DeepSeek-V3相媲美,这一举措反映了大型科技公司对这家初创公司模型的日益支持。
华为技术有限公司的云计算部门也加入了这一行列。在农历新年假期期间,他们与人工智能基础设施初创公司SiliconFlow合作,使DeepSeek的V3和R1模型能够在华为的Ascend平台上供用户使用。华为云在一份声明中表示,该平台的性能与DeepSeek模型在全球高端图形处理单元上的运行情况相匹配。
云计算技术使企业能够通过互联网管理或分发一系列软件和其他数字资源,就像电网中的电力一样,是一种按需服务。这些资源存储在数据中心内,为企业提供了极大的灵活性和效率。中国社交媒体和视频游戏巨头腾讯控股也开始在其云计算平台上支持DeepSeek的R1推理模型,用户只需在该平台上执行一个简单的三分钟设置过程。
顶级AI芯片设计师Nvidia也宣布,自周四起向其NIM微服务的用户开放DeepSeek-R1。他们称该模型为需要逻辑推理、数学、编码和语言理解的任务提供了最先进的推理能力、高推理效率以及领先的准确性。OpenAI的投资者微软上周早些时候在其Azure云计算平台和开发者平台GitHub上推出了R1支持,允许客户构建在Copilot+个人电脑上本地运行的AI应用程序。电子商务巨头亚马逊也允许开发人员通过亚马逊网络服务使用R1创建应用程序。
然而,尽管DeepSeek的高性价比AI模型受到了广泛关注,但一些专家对其突破的意义表示了质疑。复旦大学计算机科学系教授郑小青指出,DeepSeek技术报告中的V3模型的训练费用并未包括与架构、算法或数据的前期研究和实验相关的成本。郑教授在接受采访时表示,DeepSeek的成功主要源于工程优化,对芯片购买或出货的影响并不会特别巨大。