王东
Published on 2025-03-03 / 5 Visits

【AI100问(139)】Sora可以理解世界吗?

第124期,我们介绍了由OpenAI公司开发的ChatGPT大语言模型。该模型能够学习人类的语言表达方式,理解和生成复杂的自然语言,实现人机对话。最近,OpenAI公司又推出了一款名为“Sora”的多模态大模型。这一模型可以通过文本描述生成出高质量的视频,代表了人工智能在视频内容创作领域的一次历史性突破。

Sora的问世让一个高大上的词——世界模型(World Model)——变得为人所知。什么是世界模型呢?简单地说就是真实世界的运行规律:气球放飞了会升向天空,小河的水会往低处流,太阳会东升西落,炊烟会渺渺四散。这些都是我们所处世界的客观规律。把这些规律用某种方式描述出来,就构成了一个世界模型。

Sora之所以令人惊赞,是因为它能够生成高度清晰的视频,并且这些视频看起来流畅自然、真实合理,仿佛理解了真实世界的运行规律。因此,OpenAI的研究者称Sora是一个“世界模拟器”,一个理解了世界运行规律并依据自己的理解重现自然场景的世界模型。

视频1:Sora生成的长毛猛犸象视频

事实上,“世界模型”并不是很神秘的概念。我们每个人的大脑中都有一个世界模型,保存着对周围环境的基本理解。我们可以伸手接住雪花,可以抬脚踢出足球,都是因为有这个模型的存在,它帮助我们理解周围环境并做出合理预测,从而做出恰当的应对。例如,当我们骑自行车时,大脑中的世界模型让我们对周围环境和自身状态保持清醒认知,同时对未来状态做出合理预测,使我们能够随时调整姿势以保持平衡 (McCloud, 1993; E, 2012)。

因此,科学家们很早就想到给人工智能体也设计一个世界模型,让它可以在事件发生前预测到可能的后果,从而进行类似“自醒”式的学习,这种方法被广泛应用在机器人的自主学习中。然而,传统方法建模能力有限,无法实现对现实世界的高精度模拟。Sora的出现打破了这种局面,它用一种称为Transformer的复杂神经网络实现了高精度的场景复现。有研究者认为Sora很可能已经“理解”了自然规律,不然它也不会知道视频中的场景应该如何演进。

有趣的是,图灵奖得主杨立昆对此提出了强烈质疑。他认为,Sora只是对自然界片段的随机生成,并没有真正理解自然规律,因此也不能视为一个世界模型。真正的世界模型应该建立在正确的概念空间之上,并充分考虑因果关系,否则就可能生成看似精美但却很荒谬的场景,例如四个腿的蚂蚁或不合常理的玻璃杯破裂过程。

视频2:Sora生成的四足蚂蚁

视频3:Sora生成的不合理的杯子破裂过程。在视频中,红色液体已从杯子中流出,桌子上也有玻璃碎渣,但杯子却并未破裂。

尽管存在争议,但很多人认为理解世界运行规律将是人工智能下一个关键性的里程碑。在这方面,Sora无疑是一个重要的开端。



参考文献:

[1] I-JEPA: The first AI model based on Yann LeCun’s vision for more human-like AI, https://ai.meta.com/blog/yann-lecun-ai-model-i-jepa/

[2] David Ha Jurgen Schmidhuber, https://arxiv.org/pdf/1803.10122.pdf

[3] https://medium.com/@Aaron0928/openais-sora-is-doomed-to-die-9296bf3e7fef

[4] https://openai.com/sora

[5] https://openai.com/research/video-generation-models-as-world-simulators

供稿:清华大学  王东

制作:北京邮电大学  戴维

审核:北京邮电大学  李蓝天