第二章 AI复兴:深度学习+大数据=人工智能(第9/24页)
另外一位著名的语音识别研究者是卡内基-梅隆大学的布鲁斯·劳埃尔(Bruce Lowerre)。他也是师从我的导师——图灵奖得主拉吉·瑞迪教授从事语音识别研究的。20世纪70年代,在拉吉·瑞迪教授的领导下,卡内基-梅隆大学研发出了当时世界上最好的两个语音识别系统,早期的一个叫Hearsay,稍晚的一个叫HARPY。
Hearsay是个很可笑的系统,我们当时管它叫“黑板架构模型”(blackboard architecture model)36。技术上讲,它其实是专家系统的一种。拉吉·瑞迪教授和他的学生们把根据语言学知识总结出来的语音和英文音素、音节的对应关系用知识判定树的方式画在黑板上,每次从系统中得到一个新的发音,就根据黑板上的知识来确定对应的是哪个音素、哪个音节、哪个单词。如果黑板上的知识无法涵盖某个新的发音,就相应地扩展黑板上的知识树。这样的系统严重依赖于人的语言学知识,基本上无法扩展,只能识别很少的一组单词,也无法适应不同人的语音特点。
布鲁斯·劳埃尔觉得Hearsay完全不靠谱,他转而用自己的方式改进专家系统,做出了名为HARPY的语音识别系统。布鲁斯·劳埃尔的思路是把所有能讲的话串成一个知识网络,把每个字打开变成单独的音节、音素,然后根据它们的相互关系,串联在网络里,并对网络进行优化,用动态规划算法快速搜索这个知识网络,找出最优解答。但因为HARPY系统的本质还是专家系统,其可扩展性和可适应性并没有好到哪里去。布鲁斯·劳埃尔的努力也无疾而终。
后来到苹果工作后,我还将布鲁斯·劳埃尔雇到苹果的语音组来工作。他比我大十几岁,是我的师兄,当时似乎已经厌倦了第一线的科研工作,在语音组里工作时非常散漫,没有太多业绩,经多次打分和测评,他被列入了需要被开除、裁撤的人员名单。我当时下了很大的决心,才摆脱了同门情谊的羁绊,将这位师兄裁掉。这个决定让我痛苦,因为它违背了我心底的怜悯和同情。师兄走的那天,我告诉他,将来有任何需要帮助的地方,我都会尽量去帮他。但布鲁斯·劳埃尔显然十分气愤,他后来参加某些会议时,甚至还在自己的名片上印了一行红字——“曾被李开复裁掉”(Fired by Kai-Fu)。
Hearsay和HARPY系统之后,为了将语音识别技术从稚嫩推向成熟,拉吉·瑞迪教授从美国国防部争取到了300万美元的经费,研发非特定语者、大词库、连续性的语音识别系统。瑞迪教授希望机器能听懂任何人的声音,而且至少可以懂得上千个词汇,能识别出人们自然连续说出的每一句话。这三个问题当时都是无解的问题,而瑞迪教授大胆地拿下项目,希望同时解决这三个问题。他在全美招聘了30多位教授、研究员、语音学家、学生、程序员。而他也期望我加入团队,并沿着当时人们普遍认为正确的专家系统的技术路线继续努力,在这30多人的队伍里面发挥重要作用。
但他怎么也没想到,我很早就对专家系统有了质疑。我之前在奥赛罗(黑白棋)人机对弈系统中的工作让我认识到,基于数据的统计建模,比模仿人类思维方式总结知识规则,更容易解决计算机领域的问题。计算机的“思维”方法与人类的思维方法之间,似乎存在着非常微妙的差异,以至于在计算机科学的实践中,越是抛弃人类既有的经验知识,依赖于问题本身的数据特征,越是容易得到更好的结果。
我尝试着脱离专家系统的研究,打算从准备数据着手,建立大型的基于语音数据的语料库,并在大规模语料库的基础上尝试基于统计模型的新方法。说起这段故事,其实还和我的另一个师兄彼得·布朗(Peter Brown)有关。彼得·布朗特别聪明,他跟当年卡内基-梅隆大学毕业的许多博士生一样,进入了那个时代科学家们最向往的几个超级乐园之一——IBM的沃森(T.J.Watson)研究中心。拉吉·瑞迪教授对此非常支持。