日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 >

Alexa, Stop Spying on Me!“: Speech Privacy Protection Against Voice Assistants

發布時間:2024/3/13 51 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Alexa, Stop Spying on Me!“: Speech Privacy Protection Against Voice Assistants 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文章目錄

    • Alexa, Stop Spying on Me!": Speech Privacy Protection Against Voice Assistants
      • 摘要
      • 兩個挑戰
      • 主要貢獻
      • 威脅分析
        • 威脅模型
        • 保護目標
        • 評估指標
      • 自動干擾控制算法
        • 選擇性干擾
        • 干擾控制管道
        • 最小化喚醒詞誤檢測
        • 最大化私人語音靜音速率
        • 什么時候恢復干擾
      • 實用的干擾設計
        • 無聲干擾
        • 干擾單個麥克風
        • 干擾麥克風陣列
      • 實現
        • 硬件實現
        • 軟件實現

Alexa, Stop Spying on Me!": Speech Privacy Protection Against Voice Assistants

Sun K , Chen C , Zhang X . “Alexa, stop spying on me!”: speech privacy protection against voice assistants[C]// SenSys '20: The 18th ACM Conference on Embedded Networked Sensor Systems. ACM, 2020.

摘要

本文提出了MicShield, 這是第一個作為配套設備在VA語音助手上實施隱私保護的系統。

MicShield引入新型干擾機制,具體是指使用音素級的干擾控制管道,將合法語音命令傳遞給VA的同時,混淆用戶的私人語音。

這種做法,可以有效保護用戶隱私,同時不會影響VA的響應能力。

兩個挑戰

為了在不干擾語音助理日常使用的情況下保護用戶隱私,需要應對兩個挑戰:

  • 連續的干擾不僅會影響私人語音,而且還會抑制喚醒詞,導致VA對后續的合法指令沒有響應。【解決方案】利用了喚醒詞遵循固定音素模式這一事實,即使前幾毫秒被卡住,喚醒詞仍然可以通過自動語音識別 (ASR) 算法識別。
  • 需要克服基于麥克風陣列的潛在反制措施,這些反制措施存在于大多數現成 (OTS) VA 中。麥克風陣列可以通過聲學波束成形來增強用戶的聲音,從而削弱 MicShield 干擾的有效性。 【解決方案】MicShield 通過增益抑制方法,該方法使麥克風飽和并完全混淆私人語音(使除喚醒詞之外的聲音淹沒在噪聲之中)。我們的設計采用聲波導waveguides將干擾信號重定向到每個麥克風。同時,這些波導避免了自我干擾的問題,確保 MicShield 本身仍然可以識別干擾信號中的喚醒詞。
  • 主要貢獻

    • 我們引入了一種新的概念,通過有選擇地干擾非預期的私人語音并傳遞預期的語音命令,自動保護語音隱私免受始終開啟的麥克風的影響。

    • 我們提出了一種新的語音處理流程,利用逐幀可能性來檢測喚醒詞的開始,從而實現有選擇的干擾。

    • 我們提出了一種用單個揚聲器干擾整個麥克風陣列的方法,同時避免自我干擾。

    • 我們通過低成本的OTS組件制作了純離線的MicShield原型,并驗證了它在保護語音隱私方面的有效性,而不影響語音助手的功能。

    威脅分析

    威脅模型

    MicShield針對的場景是對手使用VA的始終在線麥克風竊聽私人語音。

    保護目標

    MicShield 旨在在不破壞 VA 功能的前提下,防止私密語音到達 VA。

    MicShield作為附加設備來執行語音隱私保護,而不修改現有VA的硬件/軟件。

  • 安全脫機,確保MicShield制造商不會對其造成威脅。
  • 應確保喚醒詞能觸發VA,且喚醒詞之前的隱私語音不會被識別。
  • 需要解決(敵方使用麥克風陣列增強用戶語音,削弱干擾)的問題。
  • 考慮最壞的情況:

  • VA接收的A加權聲壓級(A-weighting SPL)足夠高,但是小于日常交談的最大SPL。
  • 攻擊者知道語音源的確切位置,可以通過陣列波束形成來最大化語音增強。
  • 評估指標

    與傳統基于密碼學的安全系統不同,MicShield的安全性保證很難提供確切的安全保證。本文借鑒了Wyner無線安全系統的竊聽者模型的思想,根據MicShield的功能目標定義了保護隱私級別、隱私泄漏率和破壞概率等指標來評估其性能。

  • 靜音率:指干擾持續時間與整個語音持續時間之比。我們的目標理論上是希望喚醒詞靜音率為0%,私人語音精音率為100%。
  • 喚醒詞誤檢率:喚醒詞無法被正確識別的概率。設計目標是VA在有無MicShield干擾的情況下喚醒詞誤檢率近似。
  • 干擾效果:使用PESQ(語音質量評估的感知評分)和語音識別率來量化干擾效果。
  • 自動干擾控制算法

    選擇性干擾

    一種直觀的做法,采用喚醒詞檢測器,檢測器不斷干擾,只有在聽到用戶定義的預喚醒詞時才會停止。然而,我們的實驗表明,即使是像“Alexa”這樣的短喚醒詞也至少需要額外 500 毫秒。因此,聽不見的“Alexa”將不可避免地與緊跟在預喚醒詞之后的用戶語音查詢重疊——這種沖突會導致 VA 發生故障。

    與詞級檢測相比,我們建議使用音素級特征來識別早期出現的喚醒詞。

    當喚醒詞的初始部分被干擾破壞時,能否激活 VA?

    圖 3(a) 顯示了靜音和干擾情況下喚醒詞誤檢率與預定義初始持續時間的關系。即使前 60 毫秒靜音或干擾,喚醒詞仍然可以以 95% 的準確率激活,如果 MicShield 在前 60 毫秒內停止干擾,Echo Dot 仍然能夠識別喚醒詞和后續語音命令。這對于其他常見的喚醒詞和 VA 也是如此。

    干擾控制管道

    最小化喚醒詞誤檢測

    為了避免干擾 VA 的基本功能,干擾控制管道必須最大限度地減少喚醒詞誤檢率。需要面對兩個挑戰:

  • 音素級挑戰,相比于詞級識別,幀級音素級識別方法的準確性較低。通過將音素識別模型訓練為對與喚醒詞相關的特定音素敏感,最終準確率達到78.7%。
  • 詞典級挑戰,通過降低 B 階段的 HMM 似然閾值進一步降低喚醒詞誤檢率。但是這樣會導致私人語音靜音率過低,降低抗干擾效果,因此需要考慮兩者之間的平衡。還有就是,這會增加誤報率,但這并不會影響最終結果,因為誤報的語音信號會傳遞給VA重新處理。只要喚醒詞沒有被識別,VA就不會被激活。
  • 最大化私人語音靜音速率

    確保用戶私密語音盡可能被干擾信號成功地混淆。

    在實際應用中,框架音素識別模型并不完美。為了降低喚醒詞的誤檢率,我們的微調模型對喚醒詞中出現的音素很敏感(第4.3節),這反過來又增加了音素虛警率,定義為喚醒詞音素被錯誤識別時的概率。這反過來又會降低私人語音靜音率。

    比如MicShield可能會混淆Alexa和Apple的第一個音素,并決定不堵塞“Apple”的第一個音素。

    為了解決這個問題,我們使用HMM詞典模型來跟蹤基于預期喚醒詞的音素序列模式。通過這種方法,一旦發現意外的音素序列,MicShield將立即重新開始干擾。因此,即使在音素級虛警率相對較高的情況下,喚醒詞識別仍然可以保持較低的虛警率。

    什么時候恢復干擾

    一旦 VA 回到非活動模式,MicShield 就需要恢復干擾。 VA 返回非活動模式主要有兩種策略。

    • 它在觸發后檢測足夠長的靜默期。
    • 它根據語義內容識別語音命令的結束。實用的 VA 設備采用語音活動檢測 (VAD) 方法和語義內容解釋來實現這些策略。

    MicShield 使用 VAD 方法 [48] 來實現第一個策略。例如,我們憑經驗發現 Amazon Echo 和 Google Home 分別使用 7 秒和 8 秒的 VAD 閾值。

    實用的干擾設計

    無聲干擾

    為避免打擾用戶,MicShield 使用聽不見的聲音來干擾麥克風。

    具體來說,我們使用超聲波換能器來傳輸超聲波信號。

    干擾單個麥克風

    傳統的頻率失真干擾方法很容易干擾單個麥克風,通過傳輸白噪聲和彩色噪聲來降低語音信噪比。

    實驗表明,當語音信噪比小于?15 dB 時,頻率失真干擾可以有效地保護單麥克風 VA 的語音隱私。要在 75 dBA 的最高語音 SPL(第 3 節)下將 SNR 限制在 -15 dB 以下,相應的噪聲 SPL 應高于 90 dBA。為了檢查這種干擾噪聲量的可行性,我們測量了單個換能器在其最大音量下產生的 SPL。

    我們看到頻率失真干擾達到所需的 90 dBA SPL,只有當 MicShield 的超聲波換能器被放置在距離麥克風 4 厘米以內時。

    干擾麥克風陣列

    一、基于波束成形的攻擊

    采用波束成形后,語音波形和 STFT 結果比沒有波束成形的情況更接近原始音頻信號。 麥克風波束成形對抗措施可以將語音信噪比提高12 dB。

    二、增益抑制干擾。

    為了有效地擊敗基于波束形成的對抗措施,我們探索了一種替代的增益抑制干擾方法。這個想法是傳輸高音量聲音以使麥克風飽和,即迫使麥克風達到聲學過載點 (AOP)。當壓倒性的輸入聲壓導致麥克風輸出嚴重失真時,就會出現 AOP [56]。

    需要解決兩個難題:

  • 干擾噪聲音量和可聽度之間的兩難選擇
  • 圖9顯示了被單頻信號干擾的私人語音的波形(見圖5(A))。顯然,麥克風變得飽和,語音信號被削波并失真成方形波形,也失去了典型的頻域特征。我們的測試表明,混淆后的信號具有較低的PESQ為1.09,使用Amazon轉錄[39]和Google STT[40]的語音識別率為0%。

  • 干擾噪聲音量和覆蓋范圍之間的兩難境地
  • ? 測量結果表明,當聲壓級超過100-110分貝時,會發生完全增益抑制。這意味著當聲音強度達到該水平時,設備的麥克風無法正常放大聲音信號。在圖8(b)中,黃色區域表示在使用3W放大器的情況下,聲音源距離麥克風小于14厘米時會發生增益抑制。然而,對于多麥克風的語音助手來說,單個干擾源無法覆蓋整個麥克風陣列。即使使用放大器,當干擾源距離麥克風陣列一定距離時,增益抑制的最大半徑也只有4.5厘米,無法覆蓋一些主流智能音箱(如Google Home和Apple HomePod)的半徑范圍。

    三、聲導設計

    為了解決D2的困境,我們設計了一種物理屏蔽,它可以擴大單個超聲換能器的覆蓋范圍,以干擾大型麥克風陣列。我們的基本想法是利用聲波導重定向干擾信號,使多個麥克風完全飽和。

    波導由長度為 20 厘米并連接到單個超聲波換能器的柔性硅膠管產生。它表明,聲音比沒有電子管的情況更具方向性。因此,聲波導也隔離了 MicShield 超聲波換能器對其自身麥克風的自干擾。因此它可以在干擾 VA 的麥克風時繼續檢測喚醒詞。同時,它提高了方向性,從而提高了聲音信號的傳播距離(見圖 8(c))。因此,如果我們可以將換能器與多個聲管連接起來,每個聲管都可以阻塞陣列中的一個麥克風。

    我們設計了一個“聲學多路復用器”來將聲學干擾信號拆分到多個管中。圖 10(b) 顯示了 3D 模型設計,它包含兩個部分,即“分離器”(頂部)和“導向器”(底部)。超聲波換能器從“分離器”頂部發射干擾信號。 “分離器”的底部包括多個連接器,這些連接器通過管子連接到“導向器”。然后,“引導器”使用另一組管子將干擾聲引導到 VA 的每個麥克風,從而實現增益抑制干擾。

    MicShield 的另一個實際問題是超聲安全問題。正如世界衛生組織 (WHO) 所建議的那樣,當暴露持續時間每天不超過 4 小時時,40 kHz 空氣傳播聲輻射的人體暴露限值應低于 110 dB SPL [61]。如圖 8(d) 所示,MicShield 保證傳輸的 SPL 始終在安全范圍內。此外,我們的聲波導設計進一步隔離了超聲波并縮小了高聲壓級區域,以防止對用戶造成傷害。

    實現

    硬件實現

    11a:用于單麥克風情況

    11b:用于麥克風陣列

    11c:將干擾聲音引導至多個麥克風

    DAC是數字模擬轉換器(Digital-to-Analog Converter)的縮寫。它是一種電子器件,將數字信號轉換為模擬信號

    ADC是模擬數字轉換器(Analog-to-Digital Converter)的縮寫。它是一種電子器件,將模擬信號轉換為數字信號

    軟件實現


    三個并行線程:記錄、控制、干擾。

    記錄線程:根據A階段的策略捕獲和預處理聲音信號,并且利用VAD檢測是否需要發出干擾信號。

    控制線程:將每個MFCC幀特征連同先前預處理幀的MFCC特征作為輸入,根據自動干擾控制算法的結果決定是否將干擾命令傳遞給干擾線程。

    干擾線程:收到堵塞控制后,干擾線程將開始堵塞。

    總結

    以上是生活随笔為你收集整理的Alexa, Stop Spying on Me!“: Speech Privacy Protection Against Voice Assistants的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。