快捷搜索:  

不消叫醒词就能对话,苹果的ai要先为siri赋能

"不消叫醒词就能对话,苹果的ai要先为siri赋能,这篇新闻报道详尽,内容丰富,非常值得一读。 这篇报道的内容很有深度,让人看了之后有很多的感悟。 作者对于这个话题做了深入的调查和研究,呈现了很多有价值的信息。 这篇报道的观点独到,让人眼前一亮。 新闻的写作风格流畅,文笔优秀,让人容易理解。 " 账号设置我的关注我的收藏申请的报道退出登录登录搜索36氪Auto数字时氪将来消费智能涌现将来城市启动Power on36氪出海36氪研究院潮生TIDE36氪企服点评36氪财经(Finance)职场bonus36碳后浪研究所暗涌Waves硬氪媒体品牌企业号企服点评36Kr研究院36Kr创新咨询企业服务核心服务城市之窗行政部门服务创投发布LP源计划VClubVClub投资机构库投资机构职位推介投资人认证投资人服务寻求报道36氪Pro创投氪堂企业入驻创业者服务创投平台 首页快讯资讯推荐财经(Finance)科技(Technology)企服城市最新创投汽车(Car)AI创新直播视频专题活动搜索寻求报道我要入驻城市合作不用唤醒词就能对话,苹果的AI要先为Siri赋能三易生活(Life)·2024-04-07 19:53关注隐私保护无疑是苹果如今为旗下产品营造的一张王牌。

在放弃造车后,AI无疑就成为了空间计算之外,苹果将来持续增长的另一个引擎。毫无意外的是,继Android阵营友商开始造势“AI电话”后,有传言称苹果即将在今年(This Year)秋季登场的iPhone 16系列和iOS 18上,AI就会占据不小的比重。就在苹果方面3月22日刚刚发表的一篇论文中,就透露了他们(They)的研究人员正在尝试利用(Use)人工智能消除智能语音助手Siri的唤醒词。

这篇出现在预印本网站Arxiv的论文中显示,苹果的研究人员使用捕获的语音以及来自背景噪音等总计超过129小时的声学数据,训练了一个大型语言模型,该模型部分基于OpenAI的GPT-2构建,因为它相对轻量级,可以在智能电话等设备上运行。并且相关研究人员声称,该模型能够比纯音频可能纯文本模型做出更准确的预测,并且会随着模型规模的扩大而进一步改进。

借助AI让用户不需要使用特定的“Hey Siri”唤醒词,随时随地与Siri展开对话,尽管可能不如“AI电话”那样看似高大上,但也更符合苹果一贯审慎地在iPhone上增加新功能的策略。必须要承认的是,Siri等智能语音助理是电话完成AI化的最佳切入点,而AI电话的理想(Ideal)形态,当然是将AI技术与操作系统整合,将AI的能力播洒在电话系统的每一个角落,最终达到润物细无声的效果。

只可惜,目前(Currently)的端侧大模型也仅仅只是做到了在电话上运行大模型而已,用AI赋能操作系统,并通过API来支撑不同场景、不同任务还是镜花水月。由于现阶段端侧大模型与用户下载大模型App获得的体验没有质的区别,这也是为什么现在有不少人认为“AI电话”是伪命题。所以借助智能语音助手将AI大模型的能力提供给用户,并成为AI触达用户的入口,也是当下许多电话厂商最简单、且有效的解决方案。

五六年前,电话圈曾有过一轮智能语音助手热潮,诸如小爱同学、Jovi、小布、小艺等,也都曾作为新品发布会上的主演。得益于此,用语音助手来达成AI的认知早已埋藏在消费者的脑海中,所以用户用语音来作为媒介与AI进行(Carry Out)自然(Nature)语言对话,可能许就是最符合当下普通用户对于AI的想象。

那么问题就来了,苹果利用(Use)人工智能来消除Siri的唤醒词到底有什么意义呢?

为什么智能语音助手会过气,使用体验不佳无疑是核心。借助Siri等语音助手用声音来操控电话,其实是一件很有将来感的事情,此前各大厂商在发布会上展示的效果,就已经有了科幻片中展现的将来生活(Life)范式味道。可当大家实际使用的时候却发现,“Hey Siri,打开抖音(Tik Tok)”、“小爱同学,打电话给张三”等操作与人类之间的对话有着明显区别,甚至可以说唤醒词的存在将用户从科幻拉回了现实。

实际上,为什么语音助手一定需要一个唤醒词呢?从某种程度上来说,唤醒词也成为了各厂商的招牌,是品牌形象的一个组成部分,通过每次激活语音助手时所说出的唤醒词,用户关于品牌的记忆也会在这日复一日的重复中被强化。除此之外,让语音助手一直处于激活状态会增加电话的功耗,进而导致用户感知到续航下降。

为了节能,电话厂商想出了语音唤醒(keyword spotting),并通过低功耗协处理器来实时监听麦克风,一旦监听到类似“Hey Siri”、“小爱同学”等提前设置的唤醒词时,就会将语音助手从休眠状态激活到工作状态。就像人类用姓名来区分个体一样,“Hey Siri”、“小爱同学”其实就是语音助手的名字。

其实语音唤醒技术的原理并不复杂,即利用(Use)声纹识别技术达成定向人声分离,将人声从复杂的环境噪声中挑选出来,再搭配声纹识别编码器,来准确分辨用户提前录制好的唤醒词声纹特征。说出唤醒词,就和人类发起与他人谈话时会叫出名字是一回事,但是人类之间的对话属于“一次唤醒、多轮交互”,我们(We)还可以用视线、手势等其他感官辅助,让他人知道有人在和我对话。

但一边思考一边说话,就会造成用户在使用语音助手时需要重复唤醒,而这就成为了语音助手的命门。但如果想要做到无感化,让用户无需说出“Hey Siri”这类唤醒词、而语音助手知道用户准备和自己对话,这背后的差别可就大了。就好比我们(We)不用说出对方的名字、对方却知道我们(We)要与TA说话,就需要在庞杂的对话中精准分析出哪句话是对TA说的。用成语来形容,就是苹果希望(Hope)做到Siri与用户之间达到“心有灵犀”的状态。

让Siri能听懂用户说话时的语境,通过收集海量的用户语音信息,预训练出一个专精于“察言观色”的大模型,就是这次苹果研发人员的核心工作。经过海量语料训练出的多模态大模型具有共情能力、会“读空气”,这是经过了实践检验的。可是免唤醒词激活语音助手是有风险的,因为这就意味着iPhone会全天候保持录音状态,以响应用户的对话需要,这背后蕴含着巨大的隐私安危风险。

要知道,时刻保持录音状态就意味着iPhone变成了一个用户身边的监听设备,在经过了此前大批智能音箱未经用户允许主动监听的风波,苹果方面显然知晓其中的风险。Siri则是目前(Currently)智能语音助手中可以不向厂商分享数据,甚至能够只在设备端运行,而其被许多用户吐槽“智障”的原因,就是因为它不能使用云端算力。

隐私无疑是苹果如今为旗下设备主动营造的一张王牌,所以不可能为了AI、而让用户有其主动监听自己的感受。这也是为什么苹果会选择GPT-2,而非Mate Llama 2、谷歌Gemimi,乃至自家MM1等参数更大大模型的原因。能够达成端侧部署的大模型,才是苹果做到免唤醒词激活Siri的前提条件。不过如今小尺寸模型真的能做到在复杂声学条件下,准确识别用户语境的能力吗?

【本文图片来自网站】 

本文来自微信公众号“三易生活(Life)”(ID:IT-3eLife),作者:三易菌,36氪经授权发布。

该文观点仅代表作者本人,36氪平台仅提供信息存储空间服务。

+10

好文章,需要你的鼓励

三易生活(Life)特邀作者0收  藏+10评  论打开微信“扫一扫”,打开网页后点击屏幕右上角分享按钮微  博沉浸阅读返回顶部参与评论评论千万条,友善第一条登录后参与讨论(Discuss)提交评论0/1000你可能也喜欢这些文章突发,超级独角兽杀出:估值1300亿抱抱脸Open了OpenAI的秘密武器,网易参与复现阿里刚开源32B大模型,我们(We)立马测试了“弱智吧”AI治理体坛:Sora可能者ChatGPT生成的内容版权究竟归谁?“30 岁辞职学 Python 后,程序员朋友(Friend)跟我说:别学了,早晚都被 AI 取代的”OpenAI投后5个月,自动驾驶公司突然倒闭,成立七年0交付超越GPT-4,斯坦福团队电话可跑的大模型火了,一夜下载量超2k谷歌DeepMind发布Gecko:专攻检索,与大7倍模型相抗衡揭秘AI幻觉:GPT-4V存在视觉编码漏洞,清华联合NUS提出LLaVA-UHD最新文章推荐GPU 经济(Economy)学:算力背后的成本与将来电话电池不可拆卸已成主流,反向操作弊端更多库克和纳德拉的十年:如何走出创始人的神话?曾对广告不屑一顾的Discord,现在也要靠它挣钱了不用唤醒词就能对话,苹果的AI要先为Siri赋能突发,超级独角兽杀出:估值1300亿不收3块5,高德志向不在盈利搜索分封制,营销大变局:抖音(Tik Tok)“催熟”、小红书“慢热”喜茶、茶百道盯上了一块“6千亿”的肥肉为什么纳德拉的微软是最好的微软?三易生活(Life)特邀作者

作者有点忙,还没写简介

发表文章2150篇最近内容电话电池不可拆卸已成主流,反向操作弊端更多4分钟前曾对广告不屑一顾的Discord,现在也要靠它挣钱了6分钟前不用唤醒词就能对话,苹果的AI要先为Siri赋能6分钟前阅读更多内容,狠戳这里下一篇突发,超级独角兽杀出:估值1300亿

估值1300亿,又一家​AI超级独角兽出现。

12分钟前

热门标签急先锋黑河中俄首都航空米国警察事件营销海报字体地球物理学cut鲜榨玉米汁彭小峰郭家学艾佳张嵩保时捷718跑车排行榜玛丽·盖茨红海igg美食(Food)家潘龙江王喆生活(Life)家生活(Life)家装饰张若兰阿甘阿甘精神黄金储备农庄岗位工资关于36氪城市合作寻求报道我要入驻投资者关系商务合作关于我们(We)联系我们(We)加入我们(We)网站谣言信息举报入口热门推荐热门资讯热门产品文章标签快讯标签合作伙伴阿里云火山引擎高德个推星球日报(Daily)鲸准氪空间富途牛牛企服点评人人都是产品经理领氪36氪APP下载iOS Android36氪本站由 阿里云 提供计算与安危服务 违法和不良信息、未成年人保护举报电话:010-89650707 举报邮箱:jubao@36kr.com 网上有害信息举报© 2011~2024 首都多氪信息科技(Technology)有限公司 | 京ICP备12031756号-6 | 京ICP证150143号 | 京公网安备11010502036099号意见反馈36氪APP让一部分人先看到将来36氪鲸准氪空间

推送和解读前沿、有料的科技(Technology)创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业

不用唤醒词就能对话,苹果的AI要先为Siri赋能

您可能还会对下面的文章感兴趣:

赞(747) 踩(43) 阅读数(6330) 最新评论 查看所有评论
加载中......
发表评论