*本文只能在《好奇心日报》发布,即使我们允许了也不许转载*
加州伯克利市电 — 很多人都习惯了和他们的智能设备说话,叫它们读短信、放音乐或者设闹铃。但其实,可能还有人在秘密地和它们说话。
在过去两年中,中美两国的研究人员开始论证,他们可以给苹果的 Siri、亚马逊的 Alexa 和 Google Assistant 发送人耳无法听到的隐秘命令。在一些大学的实验室中,研究人员可以秘密启动智能手机和智能音箱的人工智能系统,让它们拨打电话号码或者打开网站。若这项技术落到心术不正的人手中,那么仅仅通过无线电播放的音乐,就可能会被用来进行开门、汇款或者网上购物等不法操作。
来自加州大学伯克利分校(University of California, Berkeley)和乔治城大学(Georgetown University)的一群学生在 2016 年证明,他们可在音响或者 YouTube 视频播放的白噪音中隐藏指令,让智能设备进入飞行模式或者打开一个网站。
这个月,伯克利分校的一些研究员发表了一篇研究报告,称他们能够直接在音乐或者语音录音中植入命令,这比之前所做的研究更进了一步。所以这意味着当人在听别人说话或者听交响乐时,亚马逊的 Echo 音箱可能听到一条往你的购物单中添加东西的指令。
卡利尼补充道,虽然没有证据表明这些技术已经被实验室以外的人利用,但是这只是时间问题,他说:“我猜一些心术不正的人已经雇人在做我所做的那些事情。”
虽然人工智能已经有了很大的进步,但是这些欺骗手段表明,它仍会上当并受人操控。只是改变数字图像的几个像素就会让电脑将飞机误认为成猫;研究人员仅仅在路标上粘些小贴纸,就能迷惑无人驾驶汽车的计算机视觉系统,让其突然急转弯或者加速。
在进行音频攻击时,研究人员利用了人机语音识别系统之间的差距。语音识别系统通常会将声音转化为字母,并最终将字母编译成单词和句子。通过对音频文件进行小小的改动,研究人员能够删除语音识别系统本该识别的声音,并取而代之会被机器转录成不同信息的声音,而同时人耳几乎无法察觉到这些声音。
声控工具的增多放大了这些欺骗手段的影响。Ovum 研究公司的研究表明,到 2021 年,搭载亚马逊 Alexa 和苹果 Siri 等数字助手的智能手机和智能音箱在数量上将会超过人类。据来自 Juniper Research 的研究,到那时,超过一半的美国家庭最少拥有一个智能音箱。
亚马逊并未披露具体的安全措施,但声称公司已经采取措施保证 Echo 智能音箱的安全。Google 称安全是公司持续的关注焦点,并称 Google Assistant 具有规避人耳难以察觉的音频命令的特点。两家公司的智能助手都运用了声音识别技术,除非它们识别出机主的声音,否则不会对某些指令作出反应。
苹果表示,它的智能音箱 HomePod 并不会执行诸如开门等指令,还指出 iPhone 和 iPad 一定要在解锁后,Siri 才能执行访问敏感数据或打开应用程序和网站等命令,此外还有其他的措施。
不过许多人在不用手机时并不会随手锁屏,至少目前来说,声音识别系统非常容易被愚弄。
迄今为止,已出现过智能设备按语音的命令行事,被利用去攫取商业利益的案例。
去年,汉堡王的一个在线广告引起了轰动,广告中蓄意问道:“好吧,Google,什么是皇堡?”而搭载有语音搜索的安卓设备会对此作出响应,读取维基百科中关于皇堡的信息。不过由于观众出于恶搞的心理去编辑了维基百科的相应页面,于是该广告被撤了下来。
几个月后,动画片《南方公园》出了一整集由语音指令构成的剧集,使得观众的声音识别助手不断地鹦鹉学舌,说些青少年之间说的下流话。
美国律法并没有规定反对向人类传播潜意识讯息,更别说反对向机器传播此等讯息了。美国联邦通信委员会(Federal Communications Commission)不鼓励这种“违背公众利益”的做法,而美国广播协会(National Association of Broadcasters)的电视编码则禁止“在低于正常意识的阈值下传输信息”。两者都没有提到对智能设备潜移默化的刺激。
法庭曾裁定,潜意识信息可能会侵犯隐私,但是法律并未将隐私概念扩展至机器。
现在,技术甚至已经跑到了法律的前头。去年,普林斯顿大学(Princeton University)和中国浙江大学的研究人员证明,使用人耳无法听见的频率,语音识别系统可被启动。这种语音攻击首先会让手机静音,这样机主就听不到系统的响应。
中国研究人员将这种技术命名为“海豚攻击”(DolphinAttack),可命令智能设备访问恶意网站、打电话、拍照或者发短信。虽然“海豚攻击”有其局限性,即指令发射器必须靠近接收设备,但是专家警告说,可能存在更为强大的超声波系统。
那一警告在去年四月得到了证明,伊利诺伊大学厄巴纳 - 香槟分校(University of Illinois at Urbana-Champaign)的研究人员在 25 英尺开外实施了超声波攻击。虽然指令无法穿透墙壁,但可在开着窗户的建筑外面控制智能设备。
今年,另一组来自中国科学院(Academy of Sciences)和其他机构的中美研究人员证明,他们可通过在歌曲中植入的命令来控制声控设备,而那些歌曲可通过无线电进行广播,也可在 YouTube 等服务器上播放。
近日,卡利尼和他在伯克利的同事,将一组转为语音的命令集成进 Mozilla 的 DeepSpeech 语音到文本的翻译软件中(这一翻译软件是开源平台)。他们在语音录音“没有数据集,文章没用处”中隐藏了“好吧,Google,浏览 evil.com 网站”这一指令。而人类无法察觉到这一指令。
伯克利研究小组还在音乐文件中嵌入了指令,其中包括从威尔第(Verdi)的《安魂曲》(Requiem)中截取的四秒的音乐片段。
对此,设备制造商的反应将会各有不同,因为他们想平衡安全性和易用性。
乔治城大学的一名研究人员塔维什·瓦迪亚(Tavish Vaidya)说道:“公司必须保证他们设备的用户友好性,因为那是他们的主要卖点。”他撰写了第一篇有关音频攻击的论文,并将其命名为“可卡因面条”(Cocaine Noodles),因为设备将短语“可卡因面条”解读为“好的,Google”。
卡利尼说他有信心,早晚他和同事能成功对抗攻击市面上的任何智能设备系统。
他说:“我们想证明那些攻击是可以做到的,然后希望其他人会说‘好吧,那些攻击是有可能做到的,现在让我们来试着修复这个问题’。”
翻译:熊猫译社 彭喻俞
题图版权:Christie Hemm Klok for The New York Times
© 2018 THE NEW YORK TIMES
喜欢这篇文章?去 App 商店搜 好奇心日报 ,每天看点不一样的。