OpenAI近期在人工智能领域取得了重大突破,其研究人员程璐和杨松发表了一篇关于新型连续时间一致性模型(sCM)的论文。这一模型在生成图像、视频和音频等多媒体内容方面,速度相较于传统扩散模型提升了50倍,仅需十分之一秒即可生成高质量图像。
sCM模型通过仅两个采样步骤,就能实现与传统扩散模型相当的样本质量,显著降低了计算成本和时间。这一创新使得实时生成AI应用变得更加可行,为多媒体内容的快速生成提供了新的解决方案。
扩散模型虽在生成逼真多媒体内容方面表现出色,但其采样效率低下,限制了实时应用。而sCM模型则克服了这一挑战,实现了速度与质量的双重提升。
sCM模型在ImageNet 512×512上进行了训练,可扩展至15亿个参数,同时保持了与最佳扩散模型相媲美的样本质量。基准测试显示,sCM模型在减少计算开销的同时,仍能提供顶级结果。
随着sCM模型规模的扩大,样本质量的差距进一步缩小。这一模型的成功还得益于其能够随着从中提炼知识的教师传播模型按比例扩展,使得采样步骤数的增加会进一步缩小质量差异。
sCM模型的快速采样和可扩展性为实时生成AI开辟了新的可能性,从图像生成到音频和视频合成,为需要快速、高质量输出的应用程序提供了实用解决方案。