王东
Published on 2025-03-02 / 4 Visits

【AI100问(137)】什么是神经图灵机?

艾伦·图灵 (1912年6月23日~1954年6月7日) 在24岁时提出了被后人称为“图灵机”的通用计算模型,奠定了现代计算机诞生的理论基础。正因为这一伟大贡献,图灵被誉为“计算机科学之父”,同时为人工智能的发展准备了计算工具。


首先,让我们快速回顾一下图灵机!

图1. 图灵机示意图


图灵机由一个控制器和一条无限长的纸带组成。控制器按照既定程序操作一个读写头,在纸带上前后移动并进行内容读写,从而实现复杂的计算过程。邱奇·图灵论题对图灵机的计算能力提出了一个“猜想”:任何在算法上可计算的问题同样可由图灵机计算


那么,与图灵机相比,当前在人工智能中广泛应用的神经网络的计算能力又如何呢?


1995年,Siegelmann 和 Sontag 证明循环连接神经网络 (RNN) 是“图灵完全”的,即 RNN 的计算能力与图灵机等价。因为图灵机可以处理任何可计算问题,这意味着 RNN 本身也是一个强大的通用问题求解器。2021年,Perez 等人进一步证明,当前大模型广泛使用的 Transformer结构同样是图灵完全的。听起来很复杂,通俗来说就是,只要模型结构足够复杂,神经网络就能解决任何问题


这一发现对神经网络的研究者们来说无疑是振奋人心的,但现实中却并非那么简单,因为在训练过程中会遇到梯度消失、局部最优等各种困难。2014年,DeepMind 的研究员 Alex Graves 等人提出了一种新思路,将图灵机的框架与神经网络相结合,用神经网络模拟图灵机的控制器和读写头,并开辟一个内存空间来模拟读写纸带。这种新模型被称为“神经图灵机” [1]。

图2. 神经图灵机示意图 [2]

如图3所示,控制器 (Contorller)、读写头 (Reading 和 Writing) 都是一个神经网络。给定当前输入和前一时刻的读写内容,对存储单元 (Memory) 进行寻址,并从中读出或写入内容,经过若干次操作,即可完成目标任务。

图3. 神经图灵机的读写方式 [3]


从神经网络的角度看,这是一个具有明确结构的神经网络;从图灵机的角度看,这是一个可学习的图灵机。经过大量数据的学习,控制器能够掌握完成任务的控制逻辑。

这是一个非常了不起的进步。因为传统计算机需要依靠人为编制程序来完成任务,而现在机器可以通过自主学习来发现任务背后的规律性,实现了真正的可扩展性。例如,机器学会了100以内的加减法后,就能处理更大数值的加减运算。

回到2014年,那时神经网络只是作为一种强大的函数拟合工具。神经图灵机的出现打破了这种思维上的局限,让研究者意识到,只要训练得当,神经网络可以像图灵机一样处理任何问题。这种思维上的解放对研究者产生了巨大的激励,推动了人们勇敢地探索更复杂的网络结构和任务,包括后来出现的大语言模型等。


参考文献:

[1] Graves, Alex, Greg Wayne, and Ivo Danihelka. "Neural turing machines." arXiv preprint arXiv:1410.5401 (2014).

[2] Gulcehre, Caglar, Sarath Chandar, Kyunghyun Cho, and Yoshua Bengio. "Dynamic neural turing machine with continuous and discrete addressing schemes." Neural Computation 30, no. 4 (2018): 857-884.

[3] The Neural Turing Machine, Aidan Gomez, https://medium.com/@aidangomez/the-neural-turing-machine-79f6e806c0a1

供稿:清华大学  王东

制作:北京邮电大学  戴维

审核:北京邮电大学  李蓝天