谷歌近期发布了一款名为Gemini 2.0 Flash Thinking Experimental的新型人工智能推理模型,但该模型仍处于实验阶段,根据初步测试,其性能仍有待提升。
这款新模型在谷歌的AI原型平台AI Studio中可供使用,其全称略显冗长,但功能定位明确:专注于多模态理解、推理及编码,尤其擅长解决编程、数学和物理等领域的复杂问题。AI Studio的产品负责人Logan Kilpatrick在平台上的一篇帖子中,将Gemini 2.0 Flash Thinking Experimental描述为谷歌在推理技术探索上的初步尝试。
谷歌DeepMind的首席科学家Jeff Dean也在个人帖子中透露,这款模型经过特殊训练,能够通过思维强化其推理能力。他表示,当增加推理时间计算时,模型展现出了令人鼓舞的成果。这里的推理时间计算,指的是模型在解决问题时所需的计算资源。
Gemini 2.0 Flash Thinking Experimental是基于谷歌之前发布的Gemini 2.0 Flash模型构建的,其设计理念与OpenAI的o1等推理模型相似。这类推理模型与其他人工智能的一大区别在于,它们能够进行有效的自我事实核查,从而避免陷入一些常见的人工智能陷阱。然而,推理模型通常需要更长的时间(几秒到几分钟不等)来得出解决方案。
在使用时,Gemini 2.0 Flash Thinking Experimental会在接收到提示后暂停片刻,然后考虑一系列相关提示,并在此过程中解释其推理过程。经过一段时间后,模型会给出它认为最准确的答案。但在实际测试中,这款模型也并非无懈可击。例如,当被问及单词“strawberry”中有多少个R时,它错误地回答了两个。
自OpenAI发布o1以来,谷歌并非唯一一家在推理模型领域发力的公司。许多竞争对手的人工智能实验室也纷纷推出了自己的推理模型。例如,由量化交易员资助的人工智能研究公司DeepSeek在11月初发布了其首个推理模型DeepSeek-R1的预览版。同月,阿里巴巴的Qwen团队也宣布了他们所谓的首个o1公开挑战者。
据彭博社10月份的报道,谷歌内部有多个团队正在致力于推理模型的开发。而The Information在11月份的报道中进一步透露,谷歌至少有200名研究人员专注于这项技术。这一趋势反映出业界对于改进生成式人工智能技术的迫切需求。然而,传统的扩展模型技术已经逐渐失效,难以再带来显著的改进效果。
尽管推理模型在基准测试中表现出色,但并非所有人都认为这是最佳的发展方向。一方面,推理模型的价格昂贵,因为它们需要大量的计算能力来运行。另一方面,尽管这些模型在基准测试中取得了不错的成绩,但它们能否保持这种进步速度仍然是一个未知数。
业界对于推理模型的探索仍在继续。谷歌的Gemini 2.0 Flash Thinking Experimental只是众多尝试中的一次。随着技术的不断进步和竞争的加剧,我们有理由期待未来会有更多创新性的推理模型涌现。
然而,对于当前的推理模型而言,它们仍然面临着诸多挑战和未知。如何在保证性能的同时降低成本,如何保持持续的进步速度,以及如何更好地应用于实际场景中,都是未来需要解决的问题。