登录×
电子邮件/用户名
密码
记住我
AlphaGo

AlphaGo设计师黄士杰:“最强的学习技能在人类的脑袋里”

AlphaGo的“人肉手臂”、担任Deepmind资深研究员的黄士杰,在近期公开演讲中,分享他身为一名科学家,如何旁观机器的进步。

当价值网络出来后,Demis希望我们能与欧洲职业一段棋手进行比赛。当下,我除了要做价值网络,还要研究平行网络搜索技术,Demis走过来说要比赛,我只想着:真的那么有信心吗?

后来我们与欧洲围棋冠军樊麾进行比赛,最终以5比0获胜,这结果其实也很不可思议。我记得樊麾输了第二盘棋后,想出去走走,会说中文的我,原本想去陪他,他挥挥手,“不用,我自己出去透透气。”

难能可贵的是,樊麾是第一个被AI打败的职业棋士,但他的态度非常正面。樊麾在第五盘棋虽然认输了,但他对AI并没有感到害怕,后来甚至也加入了团队,帮忙测试AlphaGo。

当时要把AlphaGo研究投稿到科学期刊《自然》(Nature)也是另一段有趣的故事。我们那时刚弄出价值网络、刚打败樊麾,正准备要挑战韩国职业棋手李世石九段,Demis为什么又要我们另外花时间去写论文,而不是准备比赛?为什么现在就要我们把研究秘密全部公开?

以AlphaGo研究作为封面的《自然》期刊。(来源:Deepmind网站)

Demis给了我一个很有意思的答案。他认为,我们是在做研究,科学的精神就是要互相分享,我们要推动整个领域的进步。也因为要写论文投稿,和《自然》编辑也事先谈好,在出版之前,我们不能和任何人说AlphaGo打败了樊麾。那几个月,所有人都憋著不讲,当论文刊登之后,才正式向李世石九段提出挑战。

至于后来AlphaGo和李世石的比赛,大家也都知道了。

这边要特别提到的是,TPU(Tensor Processing Unit,谷歌的高性能处理器)在研究过程中对我们有极大的帮助。自从Deepmind加入Google后,我认为Google给我们最大的帮助,就是提供了硬件设备。我还记得当时有一个GPU(图形处理器)版本,代码完全一样,但改用TPU之后,胜率变得强太多。

而AlphaGo的故事也还没结束。

就在我们打败李世石后,很多人认为AlphaGo项目是不是不动了。如果大家还记得,和李世石下棋时,第四盘棋我们输得很惨。当时我坐在李世石对面,要帮AlphaGo下那几步棋,明显知道那些下法是初学者的错误,要摆棋很痛苦,甚至会觉得我来下都比AlphaGo来得好。虽然我们最终赢了,但这一盘棋确实有很大的弱点,如果五盘棋内,有20%的错误率,这样的AI系统,你敢用吗?所以我们决定,一定要把这个弱点解决掉,不只是解决第四盘的问题,是要把AlphaGo项目全面解决。

后来过了三个月,我们就把弱点解掉了。怎么做到的?还是采用深度学习和强化学习的方法,并不是用人类知识的方法。第一,我们加强AlphaGo的学习能力,所谓学习能力就是把网络程度加深,从第一篇论文的13层加深到40层,而且是改成ResNet。第二个改变是,把策略网络和神经网络结合,让AlphaGo的直觉和判断一起训练,使两者更有一致性。这个解决后的版本,就是Master。

我那段时间一直说服团队,要带Master上线下棋测试棋力,不要等到Master完全无敌后才下棋。2016年年底,我回到台湾,当时特别低调,在线上中文围棋网站奕城和野狐申请了帐号,偷偷当职业棋士下棋。12月29号开始,我关在自己的房间里测试Master,一盘棋下一小时,一早下三盘棋,然后吃饭,下午继续,晚上吃完饭再继续,非常累,到晚上眼睛都张不开。

读者评论

FT中文网欢迎读者发表评论,部分评论会被选进《读者有话说》栏目。我们保留编辑与出版的权利。
用户名
密码

相关文章

相关话题

FT中文网客户端
点击或扫描下载
FT中文网微信
扫描关注
FT中文网全球财经精粹,中英对照
设置字号×
最小
较小
默认
较大
最大
分享×