搜狗CEO王小川
今天我们用一个台式机,甚至一个笔记本就已经可以赢顶尖的国际象棋选手,这就使得象棋问题彻底被解决了,甚至能够让顶尖的国际选手一个兵甚至到两个兵做开局也能赢,在国际象棋里面就碾压了,底线就是围棋没法突破,有一句话很简单,搜索空间的大小,国际象棋和围棋有巨大的差距,国际象棋搜索空间其实不够大,今天笔记本够用,而现在一个围棋,意味着它的变化数比宇宙间的原子总数还要多,如果你想用暴力的方法是不可能的,你花的代价是特别的大,因此用原来的搜索方法就不行了。
我们往下进行了三步这样的变化,第一件事情其实我们还是把人已经懂得规则交给机器,这是原来的方法,所以以前的工程师不管是做下棋还是做医疗的,或者写个电饭锅的控制程序是写成一个代码交给机器,或者把数据给它,人在里面做指引,教会计算机对当前的真实物体建模型,把它变成一种特征,然后在里面去做一些我们叫做分类算法的工作,就是给它一些数据,但是人像教小孩一样的,你需要在里面把它的特征描述出来,告诉它方法,所以我觉得第一个理解是人告诉机器怎么去求解的方法,这是原来的第一个理解,这是传统的机器学习。
谷歌就是我不告诉你这个方法了,我也不知道方法是什么,像人下围棋也是棋感,跟人脸识别一样的,所以谷歌就把KGS人六段以上对弈的30万盘棋放在机器面前,就是当前在什么局势下,人是怎么落子的,30万盘棋大概有接近三千万棋局和答案就让它去记忆或者学习,学习之后机器不仅把这30万盘棋学会了,它自己这个过程里面会产生对类似问题的分析能力,所以棋局变了之后,它也能够根据以前的经验,它能够去做判断。不是记住这30万盘棋,而是30万盘棋有个番话能力,一下子就变成了人下棋的方法,数据表明,他在这30万棋里面,给它一个棋局,它往下怎么走子的仿人的能力达到了57%,就是每一百个子下下去,其中57个子跟人的第一个下法是一样的,这件事情已经有巨大的突破了。这件事情做完之后,剩下43%跟人不一样的不代表它不好,所以它具备了很高的棋力,它已经达到了五六段的水平,学习了棋感的过程,以前教它靠搜索或者规则开始建立棋感,但这并不是谷歌能力能赢人的地方,毕竟30万棋下去只是六段,它跟人的思考能力还是有段距离。
然后就进入了第三个阶段,觉得还不够,谷歌就把AlphaGo变成了神经分裂成两台机器了,就是按照刚才人下棋的方法它自己可以做少量随机的变换去下,有可能这局赢了,那局输了,就是自己跟自己打,打输的这台机器我告诉它你输了,打赢的我告诉你赢了,然后让机器倒着去推,你这步棋怎么没走好,第三步我不是给你答案也不是给你方法,只是在最终我告诉你在目标上是更接近还是更远了,你接近了我这个系统给你奖励,你赢了,然后让你倒着推,你要输了我就告诉你,自己回去算怎么输掉的,这就变成第三步的走法,这个走法也像是我们跟人互相之间的学习是有关系的,这种学习我们叫做巩固学习或者增强学习,这个学习是既不给方法也不给你答案,而是只是让你机器自己找到答案之后,我去评价你这个答案是让你更好了还是更差了。