伦敦当地时间10月18日傍晚,阿法狗(AlphaGo)再次登上世界顶级科学杂志《自然》。谷歌人工智能团队以《脱离人类认知,精通围棋游戏》为题,用整整5页的篇幅,隆重介绍了阿法狗的新版本AlphaGo Zero。
一年多前,阿法狗便是2016年1月28日当期的封面文章,一篇题为《用人工神经网络和树状研究,精通围棋》的重磅论文,介绍了这个击败欧洲围棋冠军樊麾的人工智能程序。2个月之后,阿法狗在人机大战中击败世界顶级围棋棋手李世石,从此开始征服世界之旅。
▲2016年3月9日,韩国棋手李世石九段及女儿与“阿尔法围棋”创始人德米什哈萨比斯(前左)合影 图据新华社
从“人工神经网络研究”到“脱离人类认知”,新一代的阿法狗到底有什么不同?在今年5月乌镇一役完胜人类第一高手柯洁、宣布就此封盘退役的阿法狗为何在短短数月之后又卷土重来?红星新闻记者19日晚在第一时间连线到了阿法狗之父、谷歌Deepmind公司CEO德米什哈萨比斯,他向我们独家揭秘了新一代阿法狗之谜。
德米什哈萨比斯,41岁,英国伦敦生,父亲有着希腊和塞浦路斯血统,而母亲出身于新加坡和中国人的家庭。哈萨比斯幼年是一名国际象棋神童,13岁时,他就成为该年龄段世界排名第二的象棋大师。16岁考入剑桥大学,并以双重一级荣誉学位的成绩从剑桥毕业。
有“互联网之父”之称的英国计算机科学家蒂姆伯纳斯李曾评价:哈萨比斯是这个星球上最聪明的人之一。
2014年,哈萨比斯和合作伙伴将他们创办的人工智能公司DeepMind,以4亿英镑(6.3亿美元)的价格卖给了谷歌。哈萨比斯则继续担任CEO,潜心科研。
2016年,哈萨比斯联合开发的AI(人工智能)程序阿法狗问世,击败了顶尖的人类专业围棋选手,凸显了人工智能快速扩张的潜力。
2017年4月21日,美国《时代》周刊公布本年度“全球100位最具影响力人物”榜,AlphaGo之父哈萨比斯入选该排行榜。
在3比0完胜中国天才围棋少年柯洁后,哈萨比斯曾在中国公开表示,“这次比赛聚集了围棋起源地最优秀的棋手,是阿法狗作为一个竞赛系统能够对弈的最高级别对手。因此,本次中国乌镇围棋峰会是阿法狗参加的最后对弈比赛。”
在所有人的解读中,阿法狗会就此退役。然而,对于阿法狗的升级工作从未停止,当时哈萨比斯就透露,今年DeepMind会继续发一篇论文,揭晓阿尔法狗自去年以来的升级。
于是,在当地时间本周三晚间,DeepMind再次传出爆炸性消息。只不过,这并不是对过去阿法狗的升级,而是完全创造了一个新 的 AlphaGo:AlphaGo Zero ,“零”。
新版阿法狗来势汹汹,据Deepmind团队透露,新阿法狗“零”的水平已经超过之前所有版本的阿法狗。在对阵曾赢下李世石的那版阿法狗时,AlphaGo Zero取得了100:0的压倒性战绩。而且,它是从一张白纸开始,零基础学习,在短短3天内,成为顶级高手。
▲AlphaGo Zero 成长曲线天,AlphaGo Zero此前没有储备任何关于围棋比赛的知识,只输入了围棋比赛的基本规则;第3天,AlphaGo Zero已超过了AlphaGo Lee的水平,AlphaGo Lee在2015年与世界冠军李世石的5局对弈中赢得其中4局;第21天,AlphaGo Zero已达到此前AlphaGo Master的水平,而此前这个版本的AlphaGo在网络上打败了全球范围内的60名高手,并且在2017年以3:0全胜世界冠军柯洁;第40天,AlphaGo Zero已超过此前所有AlphaGo的版本,无可争议地成为了目前全世界最强围棋玩家。而这一成果的取得全部源于其自学,没有任何人类介入,没有使用任何历史数据。图片来源:DeepMind
红星新闻记者将是否自食其言的问题抛给Deepmind团队,哈萨比斯对此解释道,“新版阿法狗零的得名正是解释了新狗与老狗的区别所在零(Zero),即完全不依靠人类数据和任何历史经验,完全依靠人工智能自身的独立思考和学习能力。”
这也解释了,乌镇人机大战以后,谷歌就宣布阿法狗退役,实际是在研究完全不同的新狗。
对于阿法狗名字的由来,团队表示颇有深意。在今年年初接受红星新闻记者专访时,阿法狗团队就曾解释过,alpha是希腊字母表的第一个字母。第一个,即开端,最初的含意。而后来横扫世界网络的Master(大师)的本名Magister,是德国作家赫尔曼黑塞晚年作品《The Glass Bead Game(玻璃球游戏)》里的一个词。
“此前的阿法狗是通过大量吸收传统围棋对战路数、学习人类的围棋招式、数据实现的,而人类知识具有昂贵、不可靠、难以获取的特点。因此,对于AI长远发展而言,必须跳过这一步,在没有人类知识输入的前提下,创造出超人类(superhuman)的计算程式。”哈萨比斯解释道。
如果说此前版本的阿法狗需要被成千上万的人类棋手训练的话,新一代的阿法狗则跳跃了这一步、完全自学成才,“它自己就是自己的老师”。
▲图a展示了程序的自我对弈过程。程序在从S1到ST的棋局中进行自我对弈。在任意位置ST,程序会用最新的神经网络程序执行计算,然后,根据计算出的搜索概率at~ t选择落子位置,根据游戏规则来决定最终位置ST,并计算出胜者z。图b展示了AlphaGo Zero中 的神经网络训练过程。神经网络以棋盘位置St输入,将它和参数通过多层传递,输出向量Pt和张量值 Vt(Pt表示几步之后可能的局面,Vt 表示 St 位置上当前玩家的胜率)。为了将Pt和搜索概率t的相似度最大化,并最小化Vt和游戏实际胜者z之间的误差,神经网络的 参数会不断更新,更新后的参数会用到如图 a 所示的下一次自我对弈迭代中。
哈萨比斯向记者表示,“零”是目前最强版本的阿法狗,“阿法狗在短短两年时间就达到如此成就,我们也相当惊喜”。
它是从一张白纸开始,零基础学习,没有使用任何人类数据,而是直接与目前世界围棋最高水平的阿法狗自身学习,“每一次的自我博弈都取得了一定程度的提升”,就这样,在短短3天内,“零”成为顶级高手。
因此,这一次,新版阿法狗并没有和任何人类高手进行人机大战,而是直接通过“自我博弈”而“自学成才”。在对阵曾赢下李世石那版阿法狗时,“零”取得了100:0的压倒性战绩。
哈萨比斯评价道,人工智能极少地使用电脑的力量并完全抛弃了人类的数据经验,这是一个里程碑式的事件。
“这两年频繁地进行人机大战和线上对垒,最终目标是什么?”上次专访阿法狗团队时,红星新闻记者就曾向他们提出过这样的问题。
当时团队解释,“最终希望能将技术应用于解决现实世界的难题。在这些测试赛之外,我们更想人类的专业棋手和阿法狗一起,共同探索更多围棋的未知领域。”
而这次的阿法狗新版“零”干脆“抛弃”人类,通过自己输入,而摘得世界围棋最顶级的那个皇冠。
那么他们如此做的目的又是什么呢?这次哈萨比斯给出了更精确的答案和目标产业,“使用这种历史性的突破,来解决现实生活中目前无法解决的问题,比如在医疗行业的蛋白质折叠问题,还有就是新材料的发明。”
这一点与哈萨比斯自身的生活息息相关。生物学研究的一个重要课题就是蛋白质如何折叠成3D结构,因为3D结构将决定蛋白质在体内如何工作和反应,患阿尔海默氏(老年痴呆)症的病人或许就是因为蛋白质的折叠方式错误。而哈萨比斯的妻子是一名意大利的分子生物学家,多年一直专注于阿兹海默症的研究。
夫妻二人会一起工作、研究,他们经常讨论怎样加速科学发现的过程,AI在其中扮演怎样的角色。妻子一直希望能取出一个氨基酸序列,然后根据其中的基因序列判断3D结构会是什么样子,这样就可以令药物研发加速5到10年,而实验室通常都要几年的时间才能搞清楚这些结构。
哈萨比斯最喜欢的音乐是电影《星际穿越》的插曲,而导演克里斯托弗诺兰是正是他的好朋友,他常和《机械姬》导演埃里克斯加兰德一起讨论宇宙、人类和人工智能的话题。哈萨比斯曾表示,《星际穿越》和他的最终目标关联紧密,“我想理解我们周围的整个宇宙:理解时间、黑洞、我们在整个宇宙中的真正地位。”
也正是如此,哈萨比斯不停地推动着对阿法狗的研究,“如果在这些实用性领域也能带入阿法狗的成就,将会极大地造福人类的生活。”哈萨比斯对红星新闻记者表示。