當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Alexa, Stop Spying on Me!“: Speech Privacy Protection Against Voice Assistants

發(fā)布時(shí)間：2024/3/13 编程问答 38 豆豆

生活随笔收集整理的這篇文章主要介紹了 Alexa, Stop Spying on Me!“: Speech Privacy Protection Against Voice Assistants 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

文章目錄

- Alexa, Stop Spying on Me!": Speech Privacy Protection Against Voice Assistants
- - 摘要
  - 兩個(gè)挑戰(zhàn)
  - 主要貢獻(xiàn)
  - 威脅分析
  - - 威脅模型
    - 保護(hù)目標(biāo)
    - 評(píng)估指標(biāo)
  - 自動(dòng)干擾控制算法
  - - 選擇性干擾
    - 干擾控制管道
    - 最小化喚醒詞誤檢測(cè)
    - 最大化私人語音靜音速率
    - 什么時(shí)候恢復(fù)干擾
  - 實(shí)用的干擾設(shè)計(jì)
  - - 無聲干擾
    - 干擾單個(gè)麥克風(fēng)
    - 干擾麥克風(fēng)陣列
  - 實(shí)現(xiàn)
  - - 硬件實(shí)現(xiàn)
    - 軟件實(shí)現(xiàn)

Alexa, Stop Spying on Me!": Speech Privacy Protection Against Voice Assistants

Sun K , Chen C , Zhang X . “Alexa, stop spying on me!”: speech privacy protection against voice assistants[C]// SenSys '20: The 18th ACM Conference on Embedded Networked Sensor Systems. ACM, 2020.

摘要

本文提出了MicShield，這是第一個(gè)作為配套設(shè)備在VA語音助手上實(shí)施隱私保護(hù)的系統(tǒng)。

MicShield引入新型干擾機(jī)制，具體是指使用音素級(jí)的干擾控制管道，將合法語音命令傳遞給VA的同時(shí)，混淆用戶的私人語音。

這種做法，可以有效保護(hù)用戶隱私，同時(shí)不會(huì)影響VA的響應(yīng)能力。

兩個(gè)挑戰(zhàn)

為了在不干擾語音助理日常使用的情況下保護(hù)用戶隱私，需要應(yīng)對(duì)兩個(gè)挑戰(zhàn)：

連續(xù)的干擾不僅會(huì)影響私人語音，而且還會(huì)抑制喚醒詞，導(dǎo)致VA對(duì)后續(xù)的合法指令沒有響應(yīng)?！窘鉀Q方案】利用了喚醒詞遵循固定音素模式這一事實(shí)，即使前幾毫秒被卡住，喚醒詞仍然可以通過自動(dòng)語音識(shí)別 (ASR) 算法識(shí)別。

需要克服基于麥克風(fēng)陣列的潛在反制措施，這些反制措施存在于大多數(shù)現(xiàn)成 (OTS) VA 中。麥克風(fēng)陣列可以通過聲學(xué)波束成形來增強(qiáng)用戶的聲音，從而削弱 MicShield 干擾的有效性。【解決方案】MicShield 通過增益抑制方法，該方法使麥克風(fēng)飽和并完全混淆私人語音（使除喚醒詞之外的聲音淹沒在噪聲之中）。我們的設(shè)計(jì)采用聲波導(dǎo)waveguides將干擾信號(hào)重定向到每個(gè)麥克風(fēng)。同時(shí)，這些波導(dǎo)避免了自我干擾的問題，確保 MicShield 本身仍然可以識(shí)別干擾信號(hào)中的喚醒詞。

主要貢獻(xiàn)

我們引入了一種新的概念，通過有選擇地干擾非預(yù)期的私人語音并傳遞預(yù)期的語音命令，自動(dòng)保護(hù)語音隱私免受始終開啟的麥克風(fēng)的影響。
我們提出了一種新的語音處理流程，利用逐幀可能性來檢測(cè)喚醒詞的開始，從而實(shí)現(xiàn)有選擇的干擾。
我們提出了一種用單個(gè)揚(yáng)聲器干擾整個(gè)麥克風(fēng)陣列的方法，同時(shí)避免自我干擾。
我們通過低成本的OTS組件制作了純離線的MicShield原型，并驗(yàn)證了它在保護(hù)語音隱私方面的有效性，而不影響語音助手的功能。

威脅分析

威脅模型

MicShield針對(duì)的場(chǎng)景是對(duì)手使用VA的始終在線麥克風(fēng)竊聽私人語音。

保護(hù)目標(biāo)

MicShield 旨在在不破壞 VA 功能的前提下，防止私密語音到達(dá) VA。

MicShield作為附加設(shè)備來執(zhí)行語音隱私保護(hù)，而不修改現(xiàn)有VA的硬件/軟件。

安全脫機(jī)，確保MicShield制造商不會(huì)對(duì)其造成威脅。

應(yīng)確保喚醒詞能觸發(fā)VA，且喚醒詞之前的隱私語音不會(huì)被識(shí)別。

需要解決（敵方使用麥克風(fēng)陣列增強(qiáng)用戶語音，削弱干擾）的問題。

考慮最壞的情況：

VA接收的A加權(quán)聲壓級(jí)（A-weighting SPL）足夠高，但是小于日常交談的最大SPL。

攻擊者知道語音源的確切位置，可以通過陣列波束形成來最大化語音增強(qiáng)。

評(píng)估指標(biāo)

與傳統(tǒng)基于密碼學(xué)的安全系統(tǒng)不同，MicShield的安全性保證很難提供確切的安全保證。本文借鑒了Wyner無線安全系統(tǒng)的竊聽者模型的思想，根據(jù)MicShield的功能目標(biāo)定義了保護(hù)隱私級(jí)別、隱私泄漏率和破壞概率等指標(biāo)來評(píng)估其性能。

靜音率：指干擾持續(xù)時(shí)間與整個(gè)語音持續(xù)時(shí)間之比。我們的目標(biāo)理論上是希望喚醒詞靜音率為0%，私人語音精音率為100%。

喚醒詞誤檢率：喚醒詞無法被正確識(shí)別的概率。設(shè)計(jì)目標(biāo)是VA在有無MicShield干擾的情況下喚醒詞誤檢率近似。

干擾效果：使用PESQ（語音質(zhì)量評(píng)估的感知評(píng)分）和語音識(shí)別率來量化干擾效果。

自動(dòng)干擾控制算法

選擇性干擾

一種直觀的做法，采用喚醒詞檢測(cè)器，檢測(cè)器不斷干擾，只有在聽到用戶定義的預(yù)喚醒詞時(shí)才會(huì)停止。然而，我們的實(shí)驗(yàn)表明，即使是像“Alexa”這樣的短喚醒詞也至少需要額外 500 毫秒。因此，聽不見的“Alexa”將不可避免地與緊跟在預(yù)喚醒詞之后的用戶語音查詢重疊——這種沖突會(huì)導(dǎo)致 VA 發(fā)生故障。

與詞級(jí)檢測(cè)相比，我們建議使用音素級(jí)特征來識(shí)別早期出現(xiàn)的喚醒詞。

當(dāng)喚醒詞的初始部分被干擾破壞時(shí)，能否激活 VA？

圖 3(a) 顯示了靜音和干擾情況下喚醒詞誤檢率與預(yù)定義初始持續(xù)時(shí)間的關(guān)系。即使前 60 毫秒靜音或干擾，喚醒詞仍然可以以 95% 的準(zhǔn)確率激活，如果 MicShield 在前 60 毫秒內(nèi)停止干擾，Echo Dot 仍然能夠識(shí)別喚醒詞和后續(xù)語音命令。這對(duì)于其他常見的喚醒詞和 VA 也是如此。

干擾控制管道

最小化喚醒詞誤檢測(cè)

為了避免干擾 VA 的基本功能，干擾控制管道必須最大限度地減少喚醒詞誤檢率。需要面對(duì)兩個(gè)挑戰(zhàn)：

音素級(jí)挑戰(zhàn)，相比于詞級(jí)識(shí)別，幀級(jí)音素級(jí)識(shí)別方法的準(zhǔn)確性較低。通過將音素識(shí)別模型訓(xùn)練為對(duì)與喚醒詞相關(guān)的特定音素敏感，最終準(zhǔn)確率達(dá)到78.7%。

詞典級(jí)挑戰(zhàn)，通過降低 B 階段的 HMM 似然閾值進(jìn)一步降低喚醒詞誤檢率。但是這樣會(huì)導(dǎo)致私人語音靜音率過低，降低抗干擾效果，因此需要考慮兩者之間的平衡。還有就是，這會(huì)增加誤報(bào)率，但這并不會(huì)影響最終結(jié)果，因?yàn)檎`報(bào)的語音信號(hào)會(huì)傳遞給VA重新處理。只要喚醒詞沒有被識(shí)別，VA就不會(huì)被激活。

最大化私人語音靜音速率

確保用戶私密語音盡可能被干擾信號(hào)成功地混淆。

在實(shí)際應(yīng)用中，框架音素識(shí)別模型并不完美。為了降低喚醒詞的誤檢率，我們的微調(diào)模型對(duì)喚醒詞中出現(xiàn)的音素很敏感(第4.3節(jié))，這反過來又增加了音素虛警率，定義為喚醒詞音素被錯(cuò)誤識(shí)別時(shí)的概率。這反過來又會(huì)降低私人語音靜音率。

比如MicShield可能會(huì)混淆Alexa和Apple的第一個(gè)音素，并決定不堵塞“Apple”的第一個(gè)音素。

為了解決這個(gè)問題，我們使用HMM詞典模型來跟蹤基于預(yù)期喚醒詞的音素序列模式。通過這種方法，一旦發(fā)現(xiàn)意外的音素序列，MicShield將立即重新開始干擾。因此，即使在音素級(jí)虛警率相對(duì)較高的情況下，喚醒詞識(shí)別仍然可以保持較低的虛警率。

什么時(shí)候恢復(fù)干擾

一旦 VA 回到非活動(dòng)模式，MicShield 就需要恢復(fù)干擾。 VA 返回非活動(dòng)模式主要有兩種策略。

它在觸發(fā)后檢測(cè)足夠長(zhǎng)的靜默期。
它根據(jù)語義內(nèi)容識(shí)別語音命令的結(jié)束。實(shí)用的 VA 設(shè)備采用語音活動(dòng)檢測(cè) (VAD) 方法和語義內(nèi)容解釋來實(shí)現(xiàn)這些策略。

MicShield 使用 VAD 方法 [48] 來實(shí)現(xiàn)第一個(gè)策略。例如，我們憑經(jīng)驗(yàn)發(fā)現(xiàn) Amazon Echo 和 Google Home 分別使用 7 秒和 8 秒的 VAD 閾值。

實(shí)用的干擾設(shè)計(jì)

無聲干擾

為避免打擾用戶，MicShield 使用聽不見的聲音來干擾麥克風(fēng)。

具體來說，我們使用超聲波換能器來傳輸超聲波信號(hào)。

干擾單個(gè)麥克風(fēng)

傳統(tǒng)的頻率失真干擾方法很容易干擾單個(gè)麥克風(fēng)，通過傳輸白噪聲和彩色噪聲來降低語音信噪比。

實(shí)驗(yàn)表明，當(dāng)語音信噪比小于?15 dB 時(shí)，頻率失真干擾可以有效地保護(hù)單麥克風(fēng) VA 的語音隱私。要在 75 dBA 的最高語音 SPL（第 3 節(jié)）下將 SNR 限制在 -15 dB 以下，相應(yīng)的噪聲 SPL 應(yīng)高于 90 dBA。為了檢查這種干擾噪聲量的可行性，我們測(cè)量了單個(gè)換能器在其最大音量下產(chǎn)生的 SPL。

我們看到頻率失真干擾達(dá)到所需的 90 dBA SPL，只有當(dāng) MicShield 的超聲波換能器被放置在距離麥克風(fēng) 4 厘米以內(nèi)時(shí)。

干擾麥克風(fēng)陣列

一、基于波束成形的攻擊

采用波束成形后，語音波形和 STFT 結(jié)果比沒有波束成形的情況更接近原始音頻信號(hào)。麥克風(fēng)波束成形對(duì)抗措施可以將語音信噪比提高12 dB。

二、增益抑制干擾。

為了有效地?fù)魯』诓ㄊ纬傻膶?duì)抗措施，我們探索了一種替代的增益抑制干擾方法。這個(gè)想法是傳輸高音量聲音以使麥克風(fēng)飽和，即迫使麥克風(fēng)達(dá)到聲學(xué)過載點(diǎn) (AOP)。當(dāng)壓倒性的輸入聲壓導(dǎo)致麥克風(fēng)輸出嚴(yán)重失真時(shí)，就會(huì)出現(xiàn) AOP [56]。

需要解決兩個(gè)難題：

干擾噪聲音量和可聽度之間的兩難選擇

圖9顯示了被單頻信號(hào)干擾的私人語音的波形(見圖5(A))。顯然，麥克風(fēng)變得飽和，語音信號(hào)被削波并失真成方形波形，也失去了典型的頻域特征。我們的測(cè)試表明，混淆后的信號(hào)具有較低的PESQ為1.09，使用Amazon轉(zhuǎn)錄[39]和Google STT[40]的語音識(shí)別率為0%。

干擾噪聲音量和覆蓋范圍之間的兩難境地

? 測(cè)量結(jié)果表明，當(dāng)聲壓級(jí)超過100-110分貝時(shí)，會(huì)發(fā)生完全增益抑制。這意味著當(dāng)聲音強(qiáng)度達(dá)到該水平時(shí)，設(shè)備的麥克風(fēng)無法正常放大聲音信號(hào)。在圖8(b)中，黃色區(qū)域表示在使用3W放大器的情況下，聲音源距離麥克風(fēng)小于14厘米時(shí)會(huì)發(fā)生增益抑制。然而，對(duì)于多麥克風(fēng)的語音助手來說，單個(gè)干擾源無法覆蓋整個(gè)麥克風(fēng)陣列。即使使用放大器，當(dāng)干擾源距離麥克風(fēng)陣列一定距離時(shí)，增益抑制的最大半徑也只有4.5厘米，無法覆蓋一些主流智能音箱（如Google Home和Apple HomePod）的半徑范圍。

三、聲導(dǎo)設(shè)計(jì)

為了解決D2的困境，我們?cè)O(shè)計(jì)了一種物理屏蔽，它可以擴(kuò)大單個(gè)超聲換能器的覆蓋范圍，以干擾大型麥克風(fēng)陣列。我們的基本想法是利用聲波導(dǎo)重定向干擾信號(hào)，使多個(gè)麥克風(fēng)完全飽和。

波導(dǎo)由長(zhǎng)度為 20 厘米并連接到單個(gè)超聲波換能器的柔性硅膠管產(chǎn)生。它表明，聲音比沒有電子管的情況更具方向性。因此，聲波導(dǎo)也隔離了 MicShield 超聲波換能器對(duì)其自身麥克風(fēng)的自干擾。因此它可以在干擾 VA 的麥克風(fēng)時(shí)繼續(xù)檢測(cè)喚醒詞。同時(shí)，它提高了方向性，從而提高了聲音信號(hào)的傳播距離（見圖 8（c））。因此，如果我們可以將換能器與多個(gè)聲管連接起來，每個(gè)聲管都可以阻塞陣列中的一個(gè)麥克風(fēng)。

我們?cè)O(shè)計(jì)了一個(gè)“聲學(xué)多路復(fù)用器”來將聲學(xué)干擾信號(hào)拆分到多個(gè)管中。圖 10(b) 顯示了 3D 模型設(shè)計(jì)，它包含兩個(gè)部分，即“分離器”（頂部）和“導(dǎo)向器”（底部）。超聲波換能器從“分離器”頂部發(fā)射干擾信號(hào)。 “分離器”的底部包括多個(gè)連接器，這些連接器通過管子連接到“導(dǎo)向器”。然后，“引導(dǎo)器”使用另一組管子將干擾聲引導(dǎo)到 VA 的每個(gè)麥克風(fēng)，從而實(shí)現(xiàn)增益抑制干擾。

MicShield 的另一個(gè)實(shí)際問題是超聲安全問題。正如世界衛(wèi)生組織 (WHO) 所建議的那樣，當(dāng)暴露持續(xù)時(shí)間每天不超過 4 小時(shí)時(shí)，40 kHz 空氣傳播聲輻射的人體暴露限值應(yīng)低于 110 dB SPL [61]。如圖 8(d) 所示，MicShield 保證傳輸?shù)?SPL 始終在安全范圍內(nèi)。此外，我們的聲波導(dǎo)設(shè)計(jì)進(jìn)一步隔離了超聲波并縮小了高聲壓級(jí)區(qū)域，以防止對(duì)用戶造成傷害。

實(shí)現(xiàn)

硬件實(shí)現(xiàn)

11a：用于單麥克風(fēng)情況

11b：用于麥克風(fēng)陣列

11c：將干擾聲音引導(dǎo)至多個(gè)麥克風(fēng)

DAC是數(shù)字模擬轉(zhuǎn)換器（Digital-to-Analog Converter）的縮寫。它是一種電子器件，將數(shù)字信號(hào)轉(zhuǎn)換為模擬信號(hào)

ADC是模擬數(shù)字轉(zhuǎn)換器（Analog-to-Digital Converter）的縮寫。它是一種電子器件，將模擬信號(hào)轉(zhuǎn)換為數(shù)字信號(hào)

軟件實(shí)現(xiàn)

三個(gè)并行線程：記錄、控制、干擾。

記錄線程：根據(jù)A階段的策略捕獲和預(yù)處理聲音信號(hào)，并且利用VAD檢測(cè)是否需要發(fā)出干擾信號(hào)。

控制線程：將每個(gè)MFCC幀特征連同先前預(yù)處理幀的MFCC特征作為輸入，根據(jù)自動(dòng)干擾控制算法的結(jié)果決定是否將干擾命令傳遞給干擾線程。

干擾線程：收到堵塞控制后，干擾線程將開始堵塞。

總結(jié)

以上是生活随笔為你收集整理的Alexa, Stop Spying on Me!“: Speech Privacy Protection Against Voice Assistants的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：帮我用js写一个微信聊天那种气泡效果
下一篇：【JAVA百炼成仙】特别篇——（三个IO