我要投搞

标签云

收藏小站

爱尚经典语录、名言、句子、散文、日志、唯美图片

当前位置:在线斗牛棋牌 > 发火方式 >

为什么每次和 Siri 聊天我都一肚子火

归档日期:12-03       文本归类:发火方式      文章编辑:爱尚语录

  相反,和自己的亲朋好友另一半说话就轻松多了,比如你说 “今天上班好累啊”,你的家人、朋友就会说,“那今晚别做饭了,咱们出去吃?”

  这两年不论亚马逊的 Echo,还是 Google 的 Google Home,各种语音助手都很火。但我们可以想象一下,假如你的语音助手是个笨蛋,你和它交流起来该有多么痛苦。

  我们来设想这么个场景:你吃着东西满手都是油,或者在洗碗满手都是泡沫,总之你腾不出手摆弄你的音响。这时你突然想听一首歌,于是你对音响说:

  - 你是想听他最新的歌曲?还是榜单位置最高的歌曲?还是播放次数最高的歌曲?还是点赞次数最高的歌曲?

  这时你脸色已经很难看了,但考虑到你的人工智能是个人工智障,你还是强压怒火说,“那就 YouTube 吧”。

  - YouTube 您想听播放量最高的视频、还是评论数最高的视频、还是好评率最高的、还是最新视频?

  这么说吧,我们人和人交流,是从耳朵(听到别人讲话)、到大脑(明白别人的意思)、再到用手脚执行大脑发出的命令。

  人和机器交流也一样:先到机器的 “耳朵”,也就是负责听懂我们人类到底在说些什么的语音技术;再到负责理解这句话意思的大脑,也就是 Mosaix;再到执行命令,也就是连着 Mosaix 的各种服务。

  机器还是不太懂每句话都是什么意思、到底该怎么把它翻译成一个可以直接在网上执行的命令?这部分就是 Mosaix 做的语义理解。

  而机器之所以经常听不懂我们人类说话,是因为我们有时说话会说不清楚,也就是 “语义缺失”。

  找下五公里内最便宜的加油站” 和 “我想放松一下” 这两句话,你觉得哪句更容易被机器听懂?

  换句话说,“找下五公里内所有加油站” 这句我们人类说的话,和机器所熟悉的语言很像、没有缺失的语义,所以机器能直接把这句话翻译成它能执行的语言。

  但当机器听到 “我想放松一下” 这种非常抽象的话时,机器的内心是茫然而懵逼的,因为机器也不知道你的意思到底是播某一类的歌?某一类的电影?还是导航去什么地方。

  不过,如果一位和你很熟悉的朋友听到这句话,他/她估计就能秒懂你的意思。感情深一口闷?别逗了,谁能听懂你只说了一半的话,谁才叫和你感情深。

  这就是 Mosaix 想让机器做的事情,Mosaix 想帮机器把缺失的语义 —— 也就是我们说话太模糊的部分 —— 填进句子里,而且还不能填错、曲解你的意思。

  有意思的是,等这个技术再发展成熟些时,它对一个人的了解可能比那个人的老公或老婆还多。比如,你的老公或老婆可能记住了你喜欢 A,但他/她不知道你为什么喜欢 A,换个场景他/她又要重新死记硬背。但 Mosaix 做的 AI 就能理解其背后逻辑、因此能举一反三,不仅知其然、还知其所以然。

  这还不算完!Mosaix 除了能理解你说话的意思,还能在听懂后执行你的要求。比如你说你想听首 Justin Bieber 的歌,它还要自己决定从哪儿播放这首歌、从哪儿获取信息。如果你有 Spotify 账号,它就知道自己从 Spotify 上搜;如果你说你想看剧,那它也会自己去爱奇艺、搜狐视频之类的网站给你搜剧。

  让机器能明白你说的话到底是什么意思,只是 Mosaix 做的 “语音搜索” 这件事情的一部分。

  Mosaix = 声控搜索引擎(百度或谷歌)+ 个人语音助理(亚马逊的 Alexa 或苹果的 Siri)

  用其 Chief Scientist 劳逆的话说,Mosaix 是 “用自然对话的方式,解决 ‘搜索’ 这个本质问题”。我们刚才说的让机器听懂你说的话、比你老公 / 老婆更懂你,只是个人语音助理这部分。

  搜索得太笨 我们可以把人粗略地分成两种:在度娘或 Google 上搜 “红烧肉 做法” 的人(比如你),和搜 “红烧肉应该怎么做比较好吃呢?” 的人(比如你妈你姥姥)。如果你想得到尽量多的结果,很明显前一种更好。

  这就是传统搜索引擎的问题:它更倾向于一字一句地搜索。在人家输入 “红烧肉应该怎么做比较好吃呢?” 的时候,它不一定能把这个问题简化成 “红烧肉 做法”。

  设备不够智能 我们现在能用语音给手机下些简单的指令,但还没办法用换着法子用更高级的语音完成任务。换句话说,我们可以对 Echo 说 “把灯关了”,然后 Echo 自己就关灯,不用我们动手,这是简单声控。

  现在的电脑、电视,就停留在 “简单声控” 阶段:你可以对着电脑或电视说 “我要看《蜘蛛侠》”,然后电视自己给你播放。但如果你说 “我今天很累,来点有意思的”,电视可能就懵掉了。

  Mosaix 的解决方法是:以其 App 为入口,用它的云端服务连接电视、汽车系统、音箱...等各种设备。然后 Mosaix 在后端处理你的请求,不论你用什么设备发出请求,请求都会百川汇海发给 Mosaix,等 Mosaix 处理好后再把答案发回去。

  Mosaix 在成立之初,专门只做车上的应用,现在则计划扩张到电视、音箱等任何不需要你盯着看、可以边洗碗边听的事情上。

  所谓强监督学习,就是在训练机器听懂我们说话的过程中,由人类插手,亲自告诉机器哪句话是什么意思、应该怎么理解,因为只有人类才知道 “这句话等于那句话”。或者让机器从网上扒数据,再由人类提供反馈。

  这种方式有个问题:对于智能搜索需要面对的极大量的内容来说,强监督学习效率太低、很难规模化。

  另外,“由人类插手” 意味着无法避免人为影响,所以最后 AI 理解的内容做不到完全客观、可能会有主观色彩,而导致产生潜在的偏差。

  据劳逆介绍,现在 Siri、Alexa 等语音助理,用的都是我们上两段提到的强监督学习,强监督学习也因此被认为是正统。与之相反,很长一段时间来弱监督学习一直被当成 “非主流”。

  2017 年起,劳逆和他带领的团队就开始利用弱监督加强学习解决自然语言理解问题(顺带提一句,劳逆作为绝对的学术大牛,曾在谷歌担任资深科学家多年,是自然语言领域理解和机器学习领域的专家,也是多个学术会议和期刊的编委或主席,但接受小探采访时人却非常低调谦虚)。

  截止 2018年,他们所开发的语义引擎在自然语言问答三大公开数据集上(斯坦福 Web Question and Answering、斯坦福 WikiTableQuestions、Salesforce WikiSQL),

  力压微软、谷歌、斯坦福、耶鲁等机构,取得了弱监督条件下排名第一的好成绩。

  这证明了弱监督加强学习在自然语言理解领域的潜力。对于语义明确的问题弱监督学习可以达到非常接近强监督学习的效果。如果换成有 “语义缺失”的问题,强监督学习会遇到人类智能的瓶颈,而弱监督学习就可以轻易超越。

  如果说强监督学习是人类高手手把手教机器揣摩围棋的话,那么弱监督学习就是机器本身以围棋规则为准、自己去 “领悟”、自己去总结,从而学习下围棋的。

  围棋 AI 的代表 AlphaGo,最初是在人类棋谱的调教下,以强监督学习的方式学习下围棋,它可以 60:0 战胜人类顶尖高手。让人没想到的是,后来出现的 AlphaGoZero 青出于蓝 —— 依靠弱监督加强学习的 AlphaGoZero 让机器自己去 “领悟”,并最终以 89:11 战胜 AlphaGo。

  当然,这并不是说弱监督学习已经完全战胜强监督学习了,两者根据应用场景不同,有时难分高下,但至少随着 Mosaix 的技术突破,提供了一种 “以弱胜强” 的可能性。

  从商业角度看,Mosaix 意在把弱监督学习产品化,变成能懂你心、当你的贴心小棉袄的深度语义搜索:

  从 2017 年起,Mosaix 与上汽集团开始探索技术在出行领域的应用。在完成了预研项目的基础上,上汽北美创新中心认为 “Mosaix 在语义识别方面积累的两项独特优势 —— ‘基于位置的自然语言理解’ 和 ‘基于海外(小)语种的语义分析’ 可以帮助上汽集团差异化地进军海外、拓展国际市场。” 除了汽车,Mosaix 还与全球领先的智能电视、电商、以及机器人品牌都展开了合作。

  有预测显示,2020 年时全球 50% 的搜索将是语音搜索。那些语音搜索的内容,网上都能找到答案,但关键是怎样给整个互联网安上一个大脑,使它能够听得懂我们说的话?否则就算互联网有答案,如果它听不懂我们语音搜索时说的是什么,也还是不知道怎么回答我们 “给我放首 Justin 的歌” 之类的问题 —— 尽管 Justin 的歌就在网上。

  而 Mosaix 正是想在 “让互联网听懂我们说的话” 这个转变过程中扮演关键角色。Mosaix 的长期目标是未来某一天,人们能以更方便的模式—— 自然语言、或自然语言+屏幕交互 ——接触真正的、全新的、你直接说话它就能听懂的互联网。

  这个任务当然非常艰巨,谁也无法保证成功,但就像劳逆和 Sam 在采访结尾时说的,“梦想总是要有的,万一成功了呢?”

本文链接:http://ombrabar.com/fahuofangshi/1008.html