03 在大数据与深度学习中蝶化的人工智能(第12/14页)
图3-5 人物关系图1
再来看另外一个例子:梁思成的儿子是谁;梁思成是谁的儿子。
图3-6 人物关系图2
如果使用传统的基于关键词的搜索技术,我们将会得到几乎相同的结果。然而,经过语义理解技术的分析,机器可以发现这两个句子的语义是完全不一样的,相应地就能从知识图谱中检索到完全不同的答案。
还有第三句话:谁是梁思成的父母。从字面上来看,这跟第二个句子不同,但是经过语义理解技术,机器发现这两个句子要找的是同一个对象。
深度学习技术进一步增强了自然语言处理能力。百度从2013年开始在搜索引擎中应用DNN模型,至今已经对这个模型进行了几十次的升级迭代,DNN语义特征是百度搜索里非常重要的一个特征。其实,不仅搜索结果相关度变得更高,在篇章理解、关注点感知和机器翻译等方面也都有大幅提升。
搜索所需要的技术基础也正是人工智能所需要的技术基础。比如就云计算来说,主管百度云工作的张亚勤认为,搜索是最大的云计算应用,没有云就没有办法做好搜索,百度是在云里出生的。
搜素引擎的继续进化
随着移动互联网和人工智能的兴起,搜索的形态在发生很大的改变。比如搜索入口变化了,除了通过网页搜索框发起搜索外,基于不同平台和硬件的搜索也在增加,语音或图像搜索部分代替了文字搜索。在人主动搜索信息的同时,信息也被推荐给需要的人。很多人从表象上看,认为这个过程是对搜索引擎的挑战。但王海峰认为,搜索引擎一直同步感知着这个变化过程。
就以“信息主动找人”来说,做Feed(信息流)是当下很多互联网企业的共识。但是“人找信息”和“信息找人”,或者搜索和Feed之间并不是非此即彼,而是相辅相成的关系,在不同场景、不同时段发生不同作用,各司其职,也会互相配合。比如有时候你需要主动找点东西,有时需要朋友推荐,有时候需要系统能猜测你的喜好并推荐。假设别人推荐一篇文章给你,阅读过程中发现一个词不太理解,这时你又需要发起搜索去查找词义。当然机器也会猜哪些词用户可能有兴趣。Feed不可能每天推送给你相同的内容,所以一条内容过了最热的时候,你再想找它又得到搜索引擎里找。在不同的状态和场景下,用户对于搜索和Feed的需求会相互转换,而如何判断这些状态和场景,正是对系统智能化的考验。有越多的数据和技术储备就越可能做好。
有了做搜索的技术储备和数据,做Feed至少在技术上是不难的。而单纯从Feed起家,想去弥补搜索和数据的缺失就比较困难。百度搜索引擎采集分析的网页量有上千亿,如此规模的大数据为百度持续提升Feed产品效果提供了必要的保障。
搜索引擎在数据洪流中持续进化,Feed只是下一个必要的环节,最终形成无所不在的搜索引擎+推荐。越来越智能化的机器可以做到“举一反三”,到最后用户只说几个词,机器就可以知晓用户想要表达的整个意思。另外还可以自动分析用户所在的位置、身份、习惯等,利用这些信息来决定向用户提供哪些搜索结果。未来在很多时候,我们无须再主动“搜索”,基于搜索引擎的Feed可以主动猜测并推送我们需要的信息。设想一下,比如在一个餐厅吃饭时,搜索引擎已经根据用户之前的搜索内容推测出用户下一步的安排,即使用户还没“问”,都会主动帮用户收集好之后需要的信息,比如当前有什么电影上映,最近的电影院在哪里等。这种设想已经在百度的产品中有所尝试。即使对于用户暂时不关注的信息,不出现在Feed里,也会合理存储起来,像一座无形的图书馆,供用户以后前往探寻。智能化的搜索引擎正在伴随我们一起成长。