第二章 AI复兴:深度学习+大数据=人工智能(第10/24页)
在IBM研究中心里,彼得·布朗跟着弗雷德里克·杰里耐克(Frederick Jelinek)领导的小组做语音识别。那个时代的语音识别主流是做专家系统,可IBM里的这一小撮人却悄悄搞起了概率统计模型。其中原因说出来,就完全没有了神秘感——IBM那拨人之所以去搞概率统计,倒不是真的因为他们预见到了未来,而是因为他们一时找不到语言学方面的专家。没想到,弄一大堆训练数据统计来统计去,效果还真比专家系统提升了不少,技术曙光初现。
彼得·布朗跟我透露了IBM正在研究概率统计模型的事情,但出于保密的需要,没有告诉我任何细节。我并不知道概率统计模型是不是真的好用。但基于我在奥赛罗人机对弈系统中积累的经验,我这次选择相信彼得·布朗他们的方向,也决定顺着这个思路走下去。IBM的语音识别小组要解决的是IBM关心的听写问题,目的是要用语音识别来代替打字机,代替字处理软件,他们的应用可以先根据打字者的声音进行适应性训练,要简单不少。而我要解决的是非特定语者连续语音识别问题,预先不能根据特定语者的语音进行训练,技术挑战更大。
可怎样向瑞迪教授提出我要在他计划的30多人团队之外另辟蹊径呢?我一直在犹豫,他已经向国防部立项,经费已经到位,专家系统的方向是势在必行的,我是他一手调教出来的大弟子,如果我这么不配合他的方向,他会怎么处理呢?会试着说服我继续做专家系统?会大发雷霆?还是会好言相劝?
再三思考后,我告诉自己,我必须向他坦承我的看法。我鼓足勇气,向瑞迪教授直接表达我的想法。我对他说:“我希望转投统计学的怀抱,用统计学来解决这个‘不特定语者、大词汇、连续性语音识别’的问题。”
出乎我的意料,瑞迪教授一点儿都没生气。他只是好奇地问:“那统计方法如何解决这三大问题呢?”
对此,我已思考很久。我在瑞迪教授面前,长篇大论地说了10分钟。瑞迪教授耐心听完,用他永远温和的声音告诉我:“开复,你对专家系统和统计的观点,我是不同意的,但是我可以支持你用统计的方法去做,因为我相信科学没有绝对的对错,我们都是平等的。而且,我更相信一个有激情的人是可能找到更好的解决方案的。”
那一刻,我被深深感动了。对一个教授来说,学生要用自己的方法做出一个与他唱反调的研究,教授不但没有动怒,还给予经费上的支持,这在很多地方是不可想象的。
最终的结果大家已经知道了,我硬是顺着这条概率统计的道路走了出来,还走得更远更好,研究出了比IBM发布的听写系统好很多的语音识别技术,用我自己的论文宣告了以专家系统为代表的符号主义学派(Symbolic AI)在语音识别领域的完败。
解雇语言学家的故事
我和同时代的彼得·布朗等研究者一道,将语音识别从符号主义时代推动到了统计时代。这可不是简单的技术换代,这同时也意味着,那些来不及拥抱新技术的研究者在转瞬之间,就会被时代的大潮淘汰。
在微软创办亚洲研究院后,2002年年初,我加入了Windows Vista团队,并组建了一个新部门,叫自然互动服务部。当时,比尔·盖茨总是对语音、语言、智能型助手式用户界面情有独钟,于是,他要求全公司在这方面的团队都加入我的队伍,从事相关研发。
那时候,我发现在一个语言小组里,居然有一个150人的团队都在做着“无用功”。在这150人的语言处理项目团队中,有一半是完全不懂技术的语言学家,而这些语言学家居然在指挥工程师的工作。负责这个团队的高管有一个“瑰丽”的梦想:通过语言学家的介入,逐渐地形成一道“语言彩虹”,一步步解决人机界面问题,让机器越来越多地可以理解人类的语言。