人工智能里程碑,谷歌AlphaGo击败围棋冠军!

周彤 8年前 (2016-01-28)

AlphaGo突破人工智能深度学习技术。

围棋是众所周知的难,尽管计算机系统越来越发达,但是在强劲的围棋职业选手面前,一直都没能有重大突破。

但是,这个传统有了改变。

谷歌日前正式宣布程序AlphaGo打败了欧洲围棋职业选手,见证了人工智能的极大进步。

之前,计算机系统在智力游戏上已经取得了许多光辉的荣誉,战胜了许多人类顶级选手,包括国际象棋、五子棋、黑白棋、拼字游戏等等,但是在有着2500百年历史的东方游戏围棋上一直处在下风。

对此,谷歌的人工智能专家表示,这个壁垒很快就可以被打破了。AlphaGo在没有任何让子的情况下以5:0完胜法国围棋职业二段棋手樊麾,三月份即将对战韩国九段棋手李世乭。

28日上午,《自然》发表了一篇来自Google DeepMind团队,程序AlphaGo的创造者撰写的关于深度学习系统的论文,论文中表示:在程序AlphaGo中,DeepMind的研究员录入了大量职业棋手的棋谱,加起来足有3000万步,使用增强学习的方法来训练AI,可以让系统自己下棋,自己研习棋谱,当然这仅仅是第一步。如果只有这样的训练是无法突破的,为了更好的表现,研究人员开始让系统进行自我博弈,计算出比基础棋谱更多新的打点,也是靠这些新的打点来战胜人类。

DeepMind CEO Demis Hassabis表示:最重要的是,AlphaGo不仅记录着大量的棋谱,而且还有一系列的规则来指导人工智能进行独立的“思考”,通过这种让机器学习的方式可以掌握更多的比赛技巧。

DeepMind的核心技术就在于结合了“强化学习”和其他的人工智能手段,可以用于解决现实机器人执行物理任务和对环境作出回应的技术问题,即让机器人变得“自然”。

最优方案的预判能力

2014年初,在人类选手让出四子的前提下,Coulom的围棋程序“疯石(Crazystone)”在一次比赛中战胜了九段棋手依田纪基,但是此次比赛并不存在任何一方让子的情况,可以说相当公平,完全是实力的比拼。

那么人工智能想要战胜人类到底难在哪里?关键在于在强大的计算机系统也无法在合理的时间里面分析出下一步的最优走法。

1977年,IBM超级计算机“深蓝”则使用了蒙特卡洛搜索树的方式成功做到了这一点。虽说“深蓝”可以预测出对手下一步可能怎么走,计算能力远超于人类,但是围棋要复杂得多。国际象棋每一步平均只有35种走法,但是围棋在19*19的棋盘内,有361个点,从机器学习的角度看围棋最大有3^361次方种局面,大致的体量是10^170,而已经观测到的宇宙中,原子的数量才10^80。国际象棋最多也只有2^155种局面,可见围棋的难度系数有多大。

蒙特卡洛树搜索技术可以让Crazystone等系统进行更长远的计算,一旦再结合其他的技术,那么就可以对可能出现的走法进行筛选,然后分析出最优的策略。

对于顶级大师而言,他们的走法很多时候都是靠直觉,因为做棋除了需要不断的计算,还有棋感,棋手可以根据棋形来分析攻防路线。棋手Hassabis表示:好的棋形看起来会顺手得多,不仅需要棋手的计算能力,还需要审美能力,这也是围棋几千年来一直经久不衰,保持迷人魅力的原因。

2014年到2015年,Facebook、爱丁堡大学、DeepMind等人工智能研究团队一直将围棋作为人工智能突破的方向,能够让程序模仿人类的直觉是思维方式。

深度学习的自我强化

深度学习主要是靠神经网络技术,可以模拟人脑中神经元网络的软硬件网络,神经元网络是不会仅仅依靠蛮力或是预先输入的规则,而是通过大量数据的分析,来学习特定的任务。比如说你给神经网络提供大量的喵星人图片,它就可以识别喵星人;提供足够的语音,它就可以识别人类的语言;提供足够多的围棋走法,它就可以下围棋。

DeepMind,爱丁堡、Facebook的团队都希望神经网络可以像人类一样通过观看围棋来学习围棋。Facebook的最新研究表明,该方法是可行的的,将深度学习和蒙特卡洛树搜索方法相结合,Facebook已经打败了一些人类选手,虽然并不是像Crazystone和其他顶尖选手。

DeepMind显然走得更远,在3000万步走法中,它的神经网络可以以57%的准确度预测人类对手的下一步走法。Hassabis和团队通过使用强化学习的方法让这一个神经网络和自己另一个稍微有区别的版本进行作战,在两者的对决当中,系统可以评估出哪一步的效果更好,可以占领更多的棋盘区域。由此,神经网络可以判断出哪一个走法是最优的方法。

DeepMind的研究者David Silver表示:在和其他神经网络对决的数百万局之后,AlphaGo就可以自己发现新的策略,并一步步提升水平。

显然,正是这种深度学习的方法使得AlphaGo超越了其它围棋AI系统。

更值得一提的是,研究人员还会将结果反馈给第二个神经网络,通过了解前任的走法,第二个神经网络便可以使用诸多相同的技术来判断每一步的结果。这一做法有点类似于深蓝等旧系统在国际象棋上的做法,但是最关键的是AlphaGo会在下棋的过程中不断学习,分析更多的数据,而不是暴力解决所有可能的步骤。这样AlphaGo就有可能战胜人类选手了。

和其他神经网络一样,DeepMind的系统运行在配备了GPU的机器上。之前人们仅把GPU用在渲染游戏图像上,后来发现GPU在深度学习上表现很好。

Hassabis表示:装备了一定数量的GPU芯片之后,DeepMind系统在单一电脑上也可以使用。但是在与樊麾的对战当中,使用了更大的计算机网络,包括170个GPU和1200个标准CPU。大的计算机网络不仅训练了同样的系统还进行了实际对战,且借鉴了训练的结果。

虽说Hassabiss会不断改善系统,但是等到AlphaGo与韩国选手李世乭对战时,还会使用相同的配置,比赛当中系统需要连接网络,而且会“自己铺设光纤”。

无疑挑战世界冠军李世乭比樊麾的难度系数要高得多,但Coulom还是选择相信DeepMind会赢。在过去的数十年里,他一直在开发最好的系统,希望可以打败选手,现在他认为这个目标已经实现了,他坚信GPU会赢的。

结语

AlphaGo的重要性是毋庸置疑的,同样的技术还可以运用到机器人的科研当中,还有类似Siri的数字助理和金融系统里面。

深度学习创业Skymind的创始人Chris Nicholson表示:技术能用于任何对抗性问题,任何类似于游戏且需要策略的事情,包括战争、商业和交易。

但是这也是一件值得忧虑的事,就比如DeepMind的系统不仅可以自己学会下围棋,从人类提供的数学中学习,还可以自动生成数据,与自己下棋学习。特斯拉创始人埃隆·马斯克等大佬也曾多次声明,这类AI系统终究会有一天超越人类智能,完全脱离掌控。

当然现在的DeepMind的系统还在Hassabis等人的控制之下,虽说破解了复杂的游戏,但始终也仅仅只是一个游戏。AlphaGo离真正意义上的人工智能还很远,更不要提超级智能了。下棋作为一种高度结构化的情景,系统还远没有人类的理解能力。但是不可否认的是AlphaGo代表了一种方向,如果AI可以理解围棋,那么它就可以理解更多的事,从某种意义上说,宇宙不也是一种围棋吗?

人工智能已经成为一种科技发展的主流,也许超级智能的那一天真的会到来。

最后,记得关注微信公众号:镁客网(im2maker),更多干货在等你!

镁客网


科技 | 人文 | 行业

微信ID:im2maker
长按识别二维码关注

硬科技产业媒体

关注技术驱动创新

分享到