Alexa, Stop Spying on Me!“: Speech Privacy Protection Against Voice Assistants
文章目錄
- Alexa, Stop Spying on Me!": Speech Privacy Protection Against Voice Assistants
- 摘要
- 兩個(gè)挑戰(zhàn)
- 主要貢獻(xiàn)
- 威脅分析
- 威脅模型
- 保護(hù)目標(biāo)
- 評(píng)估指標(biāo)
- 自動(dòng)干擾控制算法
- 選擇性干擾
- 干擾控制管道
- 最小化喚醒詞誤檢測(cè)
- 最大化私人語音靜音速率
- 什么時(shí)候恢復(fù)干擾
- 實(shí)用的干擾設(shè)計(jì)
- 無聲干擾
- 干擾單個(gè)麥克風(fēng)
- 干擾麥克風(fēng)陣列
- 實(shí)現(xiàn)
- 硬件實(shí)現(xiàn)
- 軟件實(shí)現(xiàn)
Alexa, Stop Spying on Me!": Speech Privacy Protection Against Voice Assistants
Sun K , Chen C , Zhang X . “Alexa, stop spying on me!”: speech privacy protection against voice assistants[C]// SenSys '20: The 18th ACM Conference on Embedded Networked Sensor Systems. ACM, 2020.
摘要
本文提出了MicShield, 這是第一個(gè)作為配套設(shè)備在VA語音助手上實(shí)施隱私保護(hù)的系統(tǒng)。
MicShield引入新型干擾機(jī)制,具體是指使用音素級(jí)的干擾控制管道,將合法語音命令傳遞給VA的同時(shí),混淆用戶的私人語音。
這種做法,可以有效保護(hù)用戶隱私,同時(shí)不會(huì)影響VA的響應(yīng)能力。
兩個(gè)挑戰(zhàn)
為了在不干擾語音助理日常使用的情況下保護(hù)用戶隱私,需要應(yīng)對(duì)兩個(gè)挑戰(zhàn):
主要貢獻(xiàn)
-
我們引入了一種新的概念,通過有選擇地干擾非預(yù)期的私人語音并傳遞預(yù)期的語音命令,自動(dòng)保護(hù)語音隱私免受始終開啟的麥克風(fēng)的影響。
-
我們提出了一種新的語音處理流程,利用逐幀可能性來檢測(cè)喚醒詞的開始,從而實(shí)現(xiàn)有選擇的干擾。
-
我們提出了一種用單個(gè)揚(yáng)聲器干擾整個(gè)麥克風(fēng)陣列的方法,同時(shí)避免自我干擾。
-
我們通過低成本的OTS組件制作了純離線的MicShield原型,并驗(yàn)證了它在保護(hù)語音隱私方面的有效性,而不影響語音助手的功能。
威脅分析
威脅模型
MicShield針對(duì)的場(chǎng)景是對(duì)手使用VA的始終在線麥克風(fēng)竊聽私人語音。
保護(hù)目標(biāo)
MicShield 旨在在不破壞 VA 功能的前提下,防止私密語音到達(dá) VA。
MicShield作為附加設(shè)備來執(zhí)行語音隱私保護(hù),而不修改現(xiàn)有VA的硬件/軟件。
考慮最壞的情況:
評(píng)估指標(biāo)
與傳統(tǒng)基于密碼學(xué)的安全系統(tǒng)不同,MicShield的安全性保證很難提供確切的安全保證。本文借鑒了Wyner無線安全系統(tǒng)的竊聽者模型的思想,根據(jù)MicShield的功能目標(biāo)定義了保護(hù)隱私級(jí)別、隱私泄漏率和破壞概率等指標(biāo)來評(píng)估其性能。
自動(dòng)干擾控制算法
選擇性干擾
一種直觀的做法,采用喚醒詞檢測(cè)器,檢測(cè)器不斷干擾,只有在聽到用戶定義的預(yù)喚醒詞時(shí)才會(huì)停止。然而,我們的實(shí)驗(yàn)表明,即使是像“Alexa”這樣的短喚醒詞也至少需要額外 500 毫秒。因此,聽不見的“Alexa”將不可避免地與緊跟在預(yù)喚醒詞之后的用戶語音查詢重疊——這種沖突會(huì)導(dǎo)致 VA 發(fā)生故障。
與詞級(jí)檢測(cè)相比,我們建議使用音素級(jí)特征來識(shí)別早期出現(xiàn)的喚醒詞。
當(dāng)喚醒詞的初始部分被干擾破壞時(shí),能否激活 VA?
圖 3(a) 顯示了靜音和干擾情況下喚醒詞誤檢率與預(yù)定義初始持續(xù)時(shí)間的關(guān)系。即使前 60 毫秒靜音或干擾,喚醒詞仍然可以以 95% 的準(zhǔn)確率激活,如果 MicShield 在前 60 毫秒內(nèi)停止干擾,Echo Dot 仍然能夠識(shí)別喚醒詞和后續(xù)語音命令。這對(duì)于其他常見的喚醒詞和 VA 也是如此。
干擾控制管道
最小化喚醒詞誤檢測(cè)
為了避免干擾 VA 的基本功能,干擾控制管道必須最大限度地減少喚醒詞誤檢率。需要面對(duì)兩個(gè)挑戰(zhàn):
最大化私人語音靜音速率
確保用戶私密語音盡可能被干擾信號(hào)成功地混淆。
在實(shí)際應(yīng)用中,框架音素識(shí)別模型并不完美。為了降低喚醒詞的誤檢率,我們的微調(diào)模型對(duì)喚醒詞中出現(xiàn)的音素很敏感(第4.3節(jié)),這反過來又增加了音素虛警率,定義為喚醒詞音素被錯(cuò)誤識(shí)別時(shí)的概率。這反過來又會(huì)降低私人語音靜音率。
比如MicShield可能會(huì)混淆Alexa和Apple的第一個(gè)音素,并決定不堵塞“Apple”的第一個(gè)音素。
為了解決這個(gè)問題,我們使用HMM詞典模型來跟蹤基于預(yù)期喚醒詞的音素序列模式。通過這種方法,一旦發(fā)現(xiàn)意外的音素序列,MicShield將立即重新開始干擾。因此,即使在音素級(jí)虛警率相對(duì)較高的情況下,喚醒詞識(shí)別仍然可以保持較低的虛警率。
什么時(shí)候恢復(fù)干擾
一旦 VA 回到非活動(dòng)模式,MicShield 就需要恢復(fù)干擾。 VA 返回非活動(dòng)模式主要有兩種策略。
- 它在觸發(fā)后檢測(cè)足夠長(zhǎng)的靜默期。
- 它根據(jù)語義內(nèi)容識(shí)別語音命令的結(jié)束。實(shí)用的 VA 設(shè)備采用語音活動(dòng)檢測(cè) (VAD) 方法和語義內(nèi)容解釋來實(shí)現(xiàn)這些策略。
MicShield 使用 VAD 方法 [48] 來實(shí)現(xiàn)第一個(gè)策略。例如,我們憑經(jīng)驗(yàn)發(fā)現(xiàn) Amazon Echo 和 Google Home 分別使用 7 秒和 8 秒的 VAD 閾值。
實(shí)用的干擾設(shè)計(jì)
無聲干擾
為避免打擾用戶,MicShield 使用聽不見的聲音來干擾麥克風(fēng)。
具體來說,我們使用超聲波換能器來傳輸超聲波信號(hào)。
干擾單個(gè)麥克風(fēng)
傳統(tǒng)的頻率失真干擾方法很容易干擾單個(gè)麥克風(fēng),通過傳輸白噪聲和彩色噪聲來降低語音信噪比。
實(shí)驗(yàn)表明,當(dāng)語音信噪比小于?15 dB 時(shí),頻率失真干擾可以有效地保護(hù)單麥克風(fēng) VA 的語音隱私。要在 75 dBA 的最高語音 SPL(第 3 節(jié))下將 SNR 限制在 -15 dB 以下,相應(yīng)的噪聲 SPL 應(yīng)高于 90 dBA。為了檢查這種干擾噪聲量的可行性,我們測(cè)量了單個(gè)換能器在其最大音量下產(chǎn)生的 SPL。
我們看到頻率失真干擾達(dá)到所需的 90 dBA SPL,只有當(dāng) MicShield 的超聲波換能器被放置在距離麥克風(fēng) 4 厘米以內(nèi)時(shí)。
干擾麥克風(fēng)陣列
一、基于波束成形的攻擊
采用波束成形后,語音波形和 STFT 結(jié)果比沒有波束成形的情況更接近原始音頻信號(hào)。 麥克風(fēng)波束成形對(duì)抗措施可以將語音信噪比提高12 dB。
二、增益抑制干擾。
為了有效地?fù)魯』诓ㄊ纬傻膶?duì)抗措施,我們探索了一種替代的增益抑制干擾方法。這個(gè)想法是傳輸高音量聲音以使麥克風(fēng)飽和,即迫使麥克風(fēng)達(dá)到聲學(xué)過載點(diǎn) (AOP)。當(dāng)壓倒性的輸入聲壓導(dǎo)致麥克風(fēng)輸出嚴(yán)重失真時(shí),就會(huì)出現(xiàn) AOP [56]。
需要解決兩個(gè)難題:
圖9顯示了被單頻信號(hào)干擾的私人語音的波形(見圖5(A))。顯然,麥克風(fēng)變得飽和,語音信號(hào)被削波并失真成方形波形,也失去了典型的頻域特征。我們的測(cè)試表明,混淆后的信號(hào)具有較低的PESQ為1.09,使用Amazon轉(zhuǎn)錄[39]和Google STT[40]的語音識(shí)別率為0%。
? 測(cè)量結(jié)果表明,當(dāng)聲壓級(jí)超過100-110分貝時(shí),會(huì)發(fā)生完全增益抑制。這意味著當(dāng)聲音強(qiáng)度達(dá)到該水平時(shí),設(shè)備的麥克風(fēng)無法正常放大聲音信號(hào)。在圖8(b)中,黃色區(qū)域表示在使用3W放大器的情況下,聲音源距離麥克風(fēng)小于14厘米時(shí)會(huì)發(fā)生增益抑制。然而,對(duì)于多麥克風(fēng)的語音助手來說,單個(gè)干擾源無法覆蓋整個(gè)麥克風(fēng)陣列。即使使用放大器,當(dāng)干擾源距離麥克風(fēng)陣列一定距離時(shí),增益抑制的最大半徑也只有4.5厘米,無法覆蓋一些主流智能音箱(如Google Home和Apple HomePod)的半徑范圍。
三、聲導(dǎo)設(shè)計(jì)
為了解決D2的困境,我們?cè)O(shè)計(jì)了一種物理屏蔽,它可以擴(kuò)大單個(gè)超聲換能器的覆蓋范圍,以干擾大型麥克風(fēng)陣列。我們的基本想法是利用聲波導(dǎo)重定向干擾信號(hào),使多個(gè)麥克風(fēng)完全飽和。
波導(dǎo)由長(zhǎng)度為 20 厘米并連接到單個(gè)超聲波換能器的柔性硅膠管產(chǎn)生。它表明,聲音比沒有電子管的情況更具方向性。因此,聲波導(dǎo)也隔離了 MicShield 超聲波換能器對(duì)其自身麥克風(fēng)的自干擾。因此它可以在干擾 VA 的麥克風(fēng)時(shí)繼續(xù)檢測(cè)喚醒詞。同時(shí),它提高了方向性,從而提高了聲音信號(hào)的傳播距離(見圖 8(c))。因此,如果我們可以將換能器與多個(gè)聲管連接起來,每個(gè)聲管都可以阻塞陣列中的一個(gè)麥克風(fēng)。
我們?cè)O(shè)計(jì)了一個(gè)“聲學(xué)多路復(fù)用器”來將聲學(xué)干擾信號(hào)拆分到多個(gè)管中。圖 10(b) 顯示了 3D 模型設(shè)計(jì),它包含兩個(gè)部分,即“分離器”(頂部)和“導(dǎo)向器”(底部)。超聲波換能器從“分離器”頂部發(fā)射干擾信號(hào)。 “分離器”的底部包括多個(gè)連接器,這些連接器通過管子連接到“導(dǎo)向器”。然后,“引導(dǎo)器”使用另一組管子將干擾聲引導(dǎo)到 VA 的每個(gè)麥克風(fēng),從而實(shí)現(xiàn)增益抑制干擾。
MicShield 的另一個(gè)實(shí)際問題是超聲安全問題。正如世界衛(wèi)生組織 (WHO) 所建議的那樣,當(dāng)暴露持續(xù)時(shí)間每天不超過 4 小時(shí)時(shí),40 kHz 空氣傳播聲輻射的人體暴露限值應(yīng)低于 110 dB SPL [61]。如圖 8(d) 所示,MicShield 保證傳輸?shù)?SPL 始終在安全范圍內(nèi)。此外,我們的聲波導(dǎo)設(shè)計(jì)進(jìn)一步隔離了超聲波并縮小了高聲壓級(jí)區(qū)域,以防止對(duì)用戶造成傷害。
實(shí)現(xiàn)
硬件實(shí)現(xiàn)
11a:用于單麥克風(fēng)情況
11b:用于麥克風(fēng)陣列
11c:將干擾聲音引導(dǎo)至多個(gè)麥克風(fēng)
DAC是數(shù)字模擬轉(zhuǎn)換器(Digital-to-Analog Converter)的縮寫。它是一種電子器件,將數(shù)字信號(hào)轉(zhuǎn)換為模擬信號(hào)
ADC是模擬數(shù)字轉(zhuǎn)換器(Analog-to-Digital Converter)的縮寫。它是一種電子器件,將模擬信號(hào)轉(zhuǎn)換為數(shù)字信號(hào)
軟件實(shí)現(xiàn)
三個(gè)并行線程:記錄、控制、干擾。
記錄線程:根據(jù)A階段的策略捕獲和預(yù)處理聲音信號(hào),并且利用VAD檢測(cè)是否需要發(fā)出干擾信號(hào)。
控制線程:將每個(gè)MFCC幀特征連同先前預(yù)處理幀的MFCC特征作為輸入,根據(jù)自動(dòng)干擾控制算法的結(jié)果決定是否將干擾命令傳遞給干擾線程。
干擾線程:收到堵塞控制后,干擾線程將開始堵塞。
總結(jié)
以上是生活随笔為你收集整理的Alexa, Stop Spying on Me!“: Speech Privacy Protection Against Voice Assistants的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 帮我用js写一个微信聊天那种气泡效果
- 下一篇: 【JAVA百炼成仙】特别篇——(三个IO