机器需要一些指导信息才能越学越聪明。例如,拿一些袋鼠的照片给机器看,告诉它这是袋鼠,以后再见到袋鼠就认识了。这种学习方式通常称为监督学习。然而,很多时候这种手把手地指导很困难。比如,在教机器人走路时,告诉机器人如何抬腿迈步,如何保持平衡几乎是不可能的。怎么办呢?
可以想想我们小时候是怎么学会走路的。事实上,父母并没有苦口婆心地教我们要怎么迈步,只是扶着我们,让我们自己去尝试,做好了会收到成功的喜悦和父母的鼓励;做的不好,摔倒了,会感到痛。通过这些反复尝试,慢慢地就学会了走路。这是一种通过结果来提供指导信息的学习方式,通常称为强化学习。细想一下,生活中很多经验都来自于强化学习,比如老师通过判卷子培养学生解题能力,研究人员通过实验的成功与失败积累经验,作家通过投稿提高写作水平。
强化学习在人工智能领域有广泛应用。如前面提到的教机器人走路的例子,通过设计一个结果奖励机制,就可以教会机器人慢慢学会走路,而不用告诉它每一步该怎么迈。最近,加州大学伯克利分校的研究者用这种方法,用一个小时就教会了机器人行走[1,2,3]。
除此之外,强化学习也是很多强大的人工智能背后的英雄,如战胜人类顶尖围棋选手的AlphaGo[4],在星际争霸游戏中光芒万丈的 AlphaStar[5]。事实上,越是复杂的任务,人类给以直接指导的可能性就越低,强化学习就越重要。
参考文献:
[1]Wu et al., DayDreamer: World Models for Physical Robot Learning. https://arxiv.org/pdf/2206.14176.pdf
[2]https://danijar.com/project/daydreamer/
[3]http://aigraph.cslt.org/courses/08/DayDreamer.mp4
[4]https://baike.baidu.com/item/%E9%98%BF%E5%B0%94%E6%B3%95%E5%9B%B4%E6%A3%8B/19319610
[5]https://www.deepmind.com/blog/alphastar-mastering-the-real-time-strategy-game-starcraft-ii
By:清华大学 王东