第二章 AI复兴:深度学习+大数据=人工智能(第8/24页)
今天回想起来,我真的有些感慨自己生不逢时。如果我晚生30年,在2010年前后读博士并从事人工智能的研究,那我一定会基于这个时代被证明最为神奇、最有效的人工智能算法——深度学习来重新打造语音识别的整个算法架构,就像今天谷歌、微软乃至国内的科大讯飞在语音识别领域所做的那样。如果我生在今天这个时代,我所开发的技术和产品一定会被亿万人使用,并深刻改变人们的生活方式。
科技发展瞬息万变,每个时代都有每个时代的领军人物和代表性的技术方向。从20世纪70年代末到20世纪90年代中,比尔·盖茨和史蒂夫·乔布斯所代表的PC时代的创业者们,缔造出微软、苹果等科技神话。从20世纪90年代末到2015年前后,谷歌、Facebook、腾讯、阿里、百度等科技巨头以及后生可畏的优步、Snapchat、美团、滴滴、小米等新兴独角兽公司,先后在互联网领域和移动互联网领域引领科技大潮。错过了PC时代的创业者,要在2010年前后去创立一家与联想、惠普、戴尔竞争的PC公司,简直就是痴人说梦。错过了互联网时代的企业家,要在今天去打造一个世界级的通用搜索引擎,就更没有任何可行性。
今天的主角是人工智能。移动互联网的浪潮尚未平息,人工智能的创投就已经进入了让创业者无比兴奋的上升期。只有顺应潮流,在对的时间做对的事情,创业才最有可能成功。
正因为如此,当人工智能开始真正在产业发展中成为核心推动力的时候,我才不无遗憾地发现,如果晚生20年,如果在今天这个时代到来前夕才开始做人工智能相关的研究,那么,我也能在一个对的时代站到科研第一线,享受科技风口带给前沿研究者的巨大机遇与挑战。
当然了,这样说有些过于机会主义。而且,今天的人工智能热潮离不开此前数十年中几代研究者的耕耘与铺垫。我当年毅然摒弃符号主义学派的方法,选择使用统计模型破解语音识别难题,将识别准确率提升了一个层次,这与今天的研究者们在统计模型基础上引入深度学习方法,真正将语音识别提升到实用化的高度是一脉相承的。这数十年里,语音识别在技术选型上的波折与起伏,不正是人工智能技术螺旋形上升、发展的一个缩影吗?
语音识别的研发故事
和其他人工智能技术相仿,我亲身参与的语音识别技术也历经了数次更新换代。
早在20世纪70年代,语音识别就曾经有过一些技术突破,小小地“火”过一阵子。有趣的是,今天异常成功的深度学习技术,当年曾在语音识别领域品尝过失败的苦涩。
在卡内基-梅隆读书时,我有个同学叫亚历山大·万贝尔(Alex Waibel),他当时就跟目前在深度学习领域拥有绝对权威地位的杰弗里·辛顿(Geoffrey Hinton)合作,将人工神经网络应用于语音识别。但很遗憾,亚历山大·万贝尔也属于生不逢时的类型,当时基于人工神经网络的深度学习技术受限于计算能力和数据不足这两大痼疾,远远达不到哪怕是可以演示的效果。我当时就很看不上亚历山大·万贝尔他们的研究,觉得在当时条件下不可能有实质性的突破。现在想想,要是我们不是在20世纪80年代,而是在今天从事基于人工神经网络的语音识别研究,那该是一件多么幸福的事!
当年做语音识别,有不少技术流派,也有不少精英参与。有一对夫妻,名叫詹姆斯·贝克(James Baker)和珍妮特·贝克(Jenet Baker),他们开发了名为“龙”(DRAGON)的语音识别技术,并一起创立了龙系统技术公司(DRAGON Systems)。之后这家公司被荷兰公司Lernout&Hauspie收购,然后Lernout&Hauspie又被卖给了著名的Nuance公司(Nuance Communications,当时叫Scan Soft)。Nuance公司是今天欧美事实上的语音技术领导者,Nuance公司的语音识别产品线中至今还保留着“龙”(DRAGON)的品牌。