登录×
电子邮件/用户名
密码
记住我
AlphaGo

AlphaGo设计师黄士杰:“最强的学习技能在人类的脑袋里”

AlphaGo的“人肉手臂”、担任Deepmind资深研究员的黄士杰,在近期公开演讲中,分享他身为一名科学家,如何旁观机器的进步。

AlphaGo是怎么开始的?

回到一开始,AlphaGo到底是怎么开始的?起点是有三组人马的聚集:Deepmind首席执行官Demis Hassabis与AlphaGo项目领导David Silver、我、还有两位谷歌大脑(Google brain)的同事Chris Maddison和Ilya Sutskever。

Demis和David原本是剑桥大学的同学,友情深厚。对西方人来说,当1997年IBM超级电脑“深蓝”赢了西洋棋棋王卡斯巴罗夫之后,就只剩下流传几千年的中国围棋,是人工智能发展的极大挑战。一开始,很多研究人员想把研究西洋棋的技术移到围棋上,但都失败了。在2006年蒙特卡洛树搜索出来后,研究才提升一阶,让机器棋手的水平能达到业余三段,但离职业棋士一段还有距离。Demis和David心中开始藏有一个梦,希望有一天要能做出一个很强的围棋程式。

但有梦的不只有他们,故事的另一条线还有我。

在就读台湾师范大学资讯工程博士班时,我每天埋头解bug、写代码,就是希望做一个很强的围棋程序。2010年,我研发出的围棋计算机程序Erica(事实上是用我妻子的名字来命名),在计算机奥林匹亚获得 19 路围棋的冠军。虽然Erica只是单机版,但它打败了用了6台PC的日本程序Zen跟其他参赛者,就像小虾米对抗大鲸鱼。当年还在英国当教授的David,在比赛后写信问我有没有兴趣加入Deepmind,隔年我也正式加入团队,成为第40号员工。

我还记得当年面试,老板问我,能做出Erica有什么感觉?我回答,满有成就的。Demis点头,他明白我的感觉。

2014年,Google收购Deepmind,AlphaGo项目也正式浮现。Demis起初还在教书、还不是全职员工,就常三不五时走过来跟我讨论围棋项目的想法。真的要开始时,我们其实都已经有些准备。

既然决定要做围棋项目,当时我和Demis有一个共识,就是绝对不要复制Erica。Erica其实有它的极限,最勉强的就是达到业余三段,继续复制的意义不大。我们想做不一样的事,希望能运用到深度学习的原理。过了几个月,团队又增加了两个人,包括深度学习之父以及带动深度学习革命的研究者。

我们怎么判断深度学习可能应用到围棋?如果人类可以一看棋盘就知道下哪一步会是好棋,那么神经网络也可能办得到这种"直觉"。但如果人类得想五分钟才能给出答案,神经网络可能办不到。一开始,我们训练AlphaGo从人类的棋谱去学习人类的直觉。我还记得第一次测试神经网络,没想到能表现得那么好,百分之百对战都不会输,是一种碾压式的胜利。

AlphaGo第二个突破的是价值网络。我记得当David跟我说他有这样一个点子时,我还质疑,这会成吗?当我们把策略网络(Policy Network)做出来后,最强的程式可以达到70%到80%的胜率,算得上是世界最强的。但老板的目标不只于此,我们又继续找人、继续扩充团队。

这过程其实很辛苦,尝试很多,譬如网络要多深、要用什么架构?数据库有没有问题?最终检验的,还是看AlphaGo有没有变强。过了一个月之后,我们找到了问题并且解决掉,我仍然记得,旧版AlphaGo配上价值网络产生的新版AlphaGo,第一次的实验结果是达到95%的胜率,棋力非常强。可以这么说,AlphaGo的成功就是深度学习与强化学习的胜利,因为两者结合在一起,建构判断形式的价值网络(Value Network),后来也成为AlphaGo Zero的主要理论。

读者评论

FT中文网欢迎读者发表评论,部分评论会被选进《读者有话说》栏目。我们保留编辑与出版的权利。
用户名
密码

相关文章

相关话题

FT中文网客户端
点击或扫描下载
FT中文网微信
扫描关注
FT中文网全球财经精粹,中英对照
设置字号×
最小
较小
默认
较大
最大
分享×