當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

【转】智能音箱技术概览

發(fā)布時(shí)間：2023/12/15 编程问答 70 豆豆

生活随笔收集整理的這篇文章主要介紹了【转】智能音箱技术概览小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

轉(zhuǎn)自：http://blog.csdn.net/jackytintin/article/details/62040823

對(duì)于沒(méi)有使用過(guò)智能音箱的讀者，可以觀看 Echo 的官方廣告，直觀地體驗(yàn)下智能音箱。

目前的智能音箱多基于語(yǔ)音控制，其基本交互流程可以用圖1 概括：1）用戶通過(guò)自然語(yǔ)言向音箱提出服務(wù)請(qǐng)求或問(wèn)題 2）音箱拾取用戶聲?
音（音箱本地完成）并分析（一般在服務(wù)器端完成）3）音箱通過(guò)語(yǔ)言播報(bào)（音箱端）和 APP 推送（關(guān)聯(lián)的手機(jī)等）對(duì)用戶的請(qǐng)求進(jìn)行反饋。

圖1. 智能音箱基本交互方式

智能音箱可以以自然的方式（自然語(yǔ)言），為用戶提供一些常用的服務(wù)，未來(lái)還可能成為為家庭的控制中樞。

從用戶的角度，可直觀感知硬件和功能（圖2）。其中，智能音箱的功能關(guān)系到產(chǎn)品設(shè)計(jì)和用戶體驗(yàn)，直接關(guān)系到產(chǎn)品的成敗，我們會(huì)在產(chǎn)品分析的文章中進(jìn)行深入分析。本文對(duì)智能音箱的硬件及運(yùn)行在硬件之上，作為音箱“大腦”的系列算法進(jìn)行簡(jiǎn)要介紹，希望讀者能對(duì)智能音箱有更全面的了解。

圖2. 智能音箱硬件組成和功能示意

1. 硬件

圖3展示了 Echo 拆解后的部件。可以看到，智能音箱的硬件并不算復(fù)雜（相對(duì)于無(wú)人駕駛等“重型”AI 產(chǎn)品）。但正如下面我們會(huì)反復(fù)強(qiáng)調(diào)的，智能音箱的各個(gè)模塊都需要結(jié)合生產(chǎn)工藝、算法設(shè)計(jì)、產(chǎn)品體驗(yàn)等多個(gè)方面進(jìn)行細(xì)致的打磨，才能達(dá)到比較滿足的效果，而這其中做出需要多“痛苦的”折衷。

圖3. Amazon Echo 拆解圖【來(lái)源】

1.1 外觀設(shè)計(jì)

智能音箱想要成為常駐案頭的“家庭成員”，其形態(tài)必然是經(jīng)過(guò)精心設(shè)計(jì)，在形狀、大小、燈效甚至重量等因素要充分考慮在內(nèi)。圖 4 展示了一些智能音箱，讀者可根據(jù)自己的審美，判斷下哪些是想要或不想要放在家里的。

?
圖4. 音箱ID設(shè)計(jì)（按閱讀順序依次為：Amazon Echo、Google Home、叮咚、若琪、若琪月石、聯(lián)想音箱）（僅圖示設(shè)計(jì)，不代表實(shí)際產(chǎn)品尺寸）

ID 設(shè)計(jì)除了出于美學(xué)和交互設(shè)計(jì)的考慮外，還要和音腔設(shè)計(jì)（影響音效）、麥列方案（影響語(yǔ)音交互）等相互耦合，需要通盤考慮。

1.2 揚(yáng)聲器

智能音箱本質(zhì)上還是一款音箱，因此，提供用戶認(rèn)可的音質(zhì)是產(chǎn)品存在的前提。但是智能音箱在揚(yáng)聲器的選擇上，除了受到音箱尺寸限制，還要考慮麥列的拾間及后續(xù)的信號(hào)處理。

圖5. Echo 揚(yáng)聲器及音腔設(shè)計(jì)【來(lái)源】

圖6. 若琪揚(yáng)聲器及音腔設(shè)計(jì)【來(lái)源】

圖5和圖6分別展示了 Echo 和若琪的揚(yáng)聲器設(shè)計(jì)，兩者對(duì)比可以看到在選擇揚(yáng)聲器上的不同折衷和權(quán)衡。

Echo 采用封閉式揚(yáng)聲器設(shè)計(jì)，高音和低音喇叭上下相對(duì)，聲音各個(gè)方向是對(duì)稱的，這有有利于前端信號(hào)處理，但音效會(huì)受到限制。若琪采用開口式設(shè)計(jì)，喇叭朝前，這樣音效可以設(shè)計(jì)的更好，但信號(hào)處理難度會(huì)大。
僅就音效而言，音腔越大越有利于設(shè)計(jì)，但這會(huì)導(dǎo)致最后智能音箱非常笨重。也因此，許多設(shè)計(jì)上都有音腔部分略微鼓起的外觀設(shè)計(jì)（如 Google Home，叮咚）。
為了支持雙工（例如，在播放音樂(lè)的同時(shí)可以對(duì)音箱下達(dá)命令），揚(yáng)聲器的功率不能太大，這樣就限制了音箱的最大音量。反過(guò)來(lái)，如果要確保音箱有較大的音量，可能會(huì)限制雙工條件下的音箱理解用戶語(yǔ)音的靈敏度。

1.3 麥克風(fēng)陣列（Microphone Array）

麥克風(fēng)陣列（以下簡(jiǎn)稱麥列），是由一定數(shù)目的麥克風(fēng)組成，用來(lái)對(duì)聲場(chǎng)的空間特性進(jìn)行采樣并處理的系統(tǒng)。簡(jiǎn)單而言，使用麥列而非單個(gè)麥克風(fēng)，是為了在用戶距離音箱較遠(yuǎn)時(shí)，依然能夠正常的收聽(tīng)用戶的語(yǔ)音指令。智能音箱多使用環(huán)狀麥列（圖7），目前以 6（+1）麥為主流方案，也有2、4和8麥的產(chǎn)品。?

?
圖7. 6+1 麥列

麥列方案主要受成本和算法兩個(gè)因素限制。一方面，雖然麥克風(fēng)本身成本并不是特別高，但增加麥克風(fēng)數(shù)量需要配套的增加采樣等后續(xù)硬件的投入，會(huì)大大增加成本。另一方面，麥列涉及一系列算法（見(jiàn)下文），算法設(shè)計(jì)難度和計(jì)算復(fù)雜度都會(huì)隨著麥克風(fēng)數(shù)量的增加而加大。

在選擇麥克風(fēng)時(shí)，除了指向性、靈敏度、信噪比、頻響范圍、失真度等常規(guī)的參數(shù)要求，其安放位置、開口設(shè)計(jì)也要考慮ID設(shè)計(jì)和揚(yáng)聲器的位置、功放等，需要全盤考慮。

1.4 主控板

本質(zhì)上，和手機(jī)等移動(dòng)設(shè)備的主板并無(wú)差別，包括主板、CPU、存儲(chǔ)器等（如圖8）。主控板的選擇要在滿足響應(yīng)延遲的前提下，盡量壓縮成本和功耗。?

圖8. 全志G102【來(lái)源】

1.5 藍(lán)牙/WIFI

智能音箱需要服務(wù)器提供大部分功能，因此，WiFi 是不可缺少的模塊。有些音箱會(huì)通過(guò)藍(lán)牙同手機(jī)通信。

1.6 電池

目前主要的智能音箱還是依賴電源線供電，但不排除隨著電源蓄電能力和成本的改善，智能音箱會(huì)向手機(jī)一樣，脫離成為可自由移動(dòng)的設(shè)備。如果使用電池，還要結(jié)合 ID 設(shè)計(jì)、音腔設(shè)計(jì)等因素，合理選擇電池的大小和位置、充電方案等。圖 9 展示的是 Echo Tab 的電池方案。

圖 9. Echo Tab 電池方案設(shè)計(jì)【來(lái)源】

2. 算法

用戶在同音箱進(jìn)行語(yǔ)音交互的時(shí)，后臺(tái)有一系列算法在支撐的交互的正確進(jìn)行。

如圖10所示，總體而言，音箱工作時(shí)，麥列始終處于拾音狀態(tài)（持續(xù)對(duì)聲音信號(hào)進(jìn)行采樣、量化）。進(jìn)過(guò)基本的信號(hào)處理（靜音檢測(cè)、降噪等），喚醒模塊會(huì)判斷是否出現(xiàn)喚醒詞，如果是，后續(xù)語(yǔ)音會(huì)進(jìn)行更復(fù)雜的語(yǔ)音信號(hào)處理，（理想情況下）得到干凈的語(yǔ)音信號(hào)，開始真正的語(yǔ)音交互流程。?

圖10. 智能音箱交互

2.1 前端信號(hào)處理

2.1.1 語(yǔ)音檢測(cè)（VAD）

語(yǔ)音檢測(cè)（英文一般稱為 Voice Activity Detection，VAD）的目標(biāo)是，準(zhǔn)確的檢測(cè)出音頻信號(hào)的語(yǔ)音段起始位置，從而分離出語(yǔ)音段和非語(yǔ)音段（靜音或噪聲）信號(hào)。由于能夠?yàn)V除不相干非語(yǔ)音信號(hào)，高效準(zhǔn)確的 VAD 不但能減輕后續(xù)處理的計(jì)算量，提高整體實(shí)時(shí)性，還能有效提高下游算法的性能。

VAD 算法可以粗略的分為三類：基于閾值的 VAD、作為分類器的 VAD、模型 VAD。

基于閾值的 VAD：通過(guò)提取時(shí)域（短時(shí)能量、短期過(guò)零率等）或頻域（MFCC、譜熵等）特征，通過(guò)合理的設(shè)置門限，達(dá)到區(qū)分語(yǔ)音和非語(yǔ)音的目的。這是傳統(tǒng)的 VAD 方法。
作為分類器的 VAD：可以將語(yǔ)音檢測(cè)視作語(yǔ)音/非語(yǔ)音的兩分類問(wèn)題，進(jìn)而用機(jī)器學(xué)習(xí)的方法訓(xùn)練分類器，達(dá)到檢測(cè)語(yǔ)音的目的。
模型 VAD：可以利用一個(gè)完整的聲學(xué)模型（建模單元的粒度可以很粗），在解碼的基礎(chǔ)，通過(guò)全局信息，判別語(yǔ)音段和非語(yǔ)音段。

VAD 作為整個(gè)流程的最前端，需要在本地實(shí)時(shí)的完成。由于計(jì)算資源非常有限，因此，VAD 一般會(huì)采用閾值法中某種算法；經(jīng)過(guò)工程優(yōu)化的分類法也可能被利用；而模型 VAD 目前難以在本地部署應(yīng)用。

2.1.2 降噪

實(shí)際環(huán)境中存在著空調(diào)、風(fēng)扇以及其他各種各樣的噪聲。降低噪聲干擾，提高信噪比，降低后端語(yǔ)音識(shí)別的難度。?
常用的降噪算法有自適應(yīng) LMS 和維納濾波等。

2.1.3 聲學(xué)回聲消除（Acoustic Echo Cancellaction, AEC）

AEC也是一種常見(jiàn)的技術(shù)，在語(yǔ)音通話中，AEC是必不可少的基礎(chǔ)技術(shù)。?

圖11. AEC 示意【來(lái)源】?

具體的，AEC 的目的是，在音箱揚(yáng)聲器工作（播放音樂(lè)或語(yǔ)音）時(shí)，從麥克風(fēng)中收集的語(yǔ)音中，去除自身播放的聲音信號(hào)。這是雙工模式的前提。否則，當(dāng)音樂(lè)播放時(shí)，我們的聲音信號(hào)會(huì)淹沒(méi)在音樂(lè)聲中，不能繼續(xù)對(duì)音箱進(jìn)行有效的語(yǔ)音控制。

2.1.4 去混響處理

在室內(nèi)，語(yǔ)音會(huì)被墻壁等多次反射，麥克風(fēng)采集到（圖12）。混響對(duì)于人耳完全不是問(wèn)題，但是，延遲的語(yǔ)音疊加產(chǎn)生掩蔽效應(yīng)，這對(duì)語(yǔ)音識(shí)別是致命的障礙。

圖12. 混響【來(lái)源】?

對(duì)于混響，一般從兩個(gè)方面來(lái)嘗試解決：1）去混響 2）對(duì)語(yǔ)音識(shí)別的聲學(xué)模型加混響訓(xùn)練。由于真實(shí)環(huán)境的復(fù)雜性，一定的前端去混響算法還是非常有必要的。

2.1.5 聲源定位（Direction of Arrival estimation, DOA）

聲源定位是根據(jù)麥列收集的聲音語(yǔ)，確定說(shuō)話人的位置。DOA 至少有兩個(gè)用途，1）用于方位燈的展示，增強(qiáng)交互效果；2）作為波束形成的前導(dǎo)任務(wù)，確定空間濾波的參數(shù)。

聲源定位有如下常用方法有基于波束掃描的聲源定位、基于起分辨率率譜估計(jì)的聲源定位以及?基于到達(dá)時(shí)間差（Time Difference of Arrival, TDOA）的聲源定位。考慮到算法復(fù)雜性和延時(shí)，一般采用TDOA方法。

2.1.6 波束形成（Beam Forming, BF）

波束形成是利用空間濾波的方法，將多路聲音信號(hào)，整合為一路信號(hào)。通過(guò)波束形成，一方面可以增強(qiáng)原始的語(yǔ)音信號(hào)，另一方面抑制旁路信號(hào)，起到降噪和去混響的作用（圖13）。

圖13. 波形成示意圖【來(lái)源】?

2.2 喚醒

出于保護(hù)用戶隱私和減少誤識(shí)別兩個(gè)因素的考慮，智能音箱一般在檢測(cè)到喚醒詞之后，才會(huì)開始進(jìn)一步的復(fù)雜信號(hào)處理（聲源定位、波束形成）和后續(xù)的語(yǔ)音交互過(guò)程。

一般而言，喚喚醒模塊是一個(gè)小型語(yǔ)音識(shí)別引擎。由于目標(biāo)單一（檢測(cè) 出指定的喚醒詞），喚醒只需要較小的聲學(xué)模型和語(yǔ)言模型（只需要區(qū)分出有無(wú)喚醒詞出現(xiàn)），聲學(xué)打分和解碼可以很快，空間占用少，能夠在本地實(shí)時(shí)。

也有喚醒做為關(guān)鍵詞檢索（key word search）或文本相關(guān)的聲紋識(shí)別問(wèn)題來(lái)解決。

2.3 語(yǔ)音交互

語(yǔ)音交互的基本流程如圖16所示。下面分別對(duì)各個(gè)環(huán)節(jié)進(jìn)行簡(jiǎn)要介紹。?

圖14. 語(yǔ)音交互基本流程

ICASSP’17 關(guān)于對(duì)話系統(tǒng)的?tutorial?，并附有系統(tǒng)性的參考文獻(xiàn)。

2.3.1 語(yǔ)音識(shí)別（Automatic Speech Recognition, ASR）

語(yǔ)音識(shí)別的目的是將語(yǔ)音信號(hào)轉(zhuǎn)化為文本。語(yǔ)音識(shí)別技術(shù)相對(duì)成熟。目前，基于近場(chǎng)信號(hào)的、受控環(huán)境（低噪聲、低混響）下的標(biāo)準(zhǔn)音語(yǔ)音識(shí)別能夠達(dá)到很的水平。然而在智能音箱開放性的真實(shí)環(huán)境，語(yǔ)音識(shí)別依然是一個(gè)不小的挑戰(zhàn)，需要接合前端信號(hào)處理一起來(lái)優(yōu)化。

2.3.2 自然語(yǔ)言理解（Natural Language Understanding, NLU）

NLU 作為一個(gè)研究課題還遠(yuǎn)沒(méi)有被解決。但是在限定領(lǐng)域下，結(jié)合良好的產(chǎn)品設(shè)計(jì)，我們還是能夠利用現(xiàn)有技術(shù)，做出實(shí)用的產(chǎn)品。

可以將基于框架的（frame-based） NLU 分為三個(gè)子問(wèn)題去解決（圖15）：?
*?領(lǐng)域分類：識(shí)別出用戶命令所屬領(lǐng)域。其中，領(lǐng)域是預(yù)先設(shè)計(jì)的封閉集合（如產(chǎn)品設(shè)計(jì)上，音箱只支持音樂(lè)、天氣等領(lǐng)域），而每個(gè)領(lǐng)域都只支持無(wú)限預(yù)設(shè)的查詢內(nèi)容和交互方式。?
*?意圖分類：在相應(yīng)領(lǐng)域，識(shí)別用戶的意圖（如播放音樂(lè)、暫停或切換等）。意圖往往對(duì)應(yīng)著實(shí)際的操作。?
*?實(shí)體抽取（槽填充）：確定意圖（操作）的參數(shù)（如確定，具體是播放哪首歌或哪位歌手的歌曲）。

圖15. 基于框架的自然語(yǔ)言理解

2.3.3 對(duì)話管理（Diaglou Management, DM）

多輪對(duì)話對(duì)于自然的人工交互非常重要。比如，當(dāng)我們?cè)儐?wèn)“北京明天的天氣怎么？”，之后，更習(xí)慣追問(wèn)“那深圳呢？”而不是重復(fù)的說(shuō)”**深圳明天的天氣怎么？**“

在 NLU 無(wú)有得到很好解決的情況下，對(duì)話管理似乎不可能。好在限范圍下，結(jié)合產(chǎn)品設(shè)計(jì)，還是能做的不錯(cuò)。一般的作法是，將輪對(duì)話解析出的參數(shù)做為上下文（全局變量），帶入到下一輪對(duì)話；當(dāng)前輪對(duì)話，根據(jù)一定的條件判斷，是否保持在上一輪的領(lǐng)域，是否清空上下文。

不同于純粹的聊天機(jī)器的對(duì)話管理，智能音箱的對(duì)話管理還有實(shí)際的操作功能（查詢信息、提供控制指令）。

2.3.4 自然語(yǔ)言生成（Natural Language Generation, NLG）

目前完全自動(dòng)化的 NLG 方法還不成熟。實(shí)際產(chǎn)品中，多采用預(yù)先設(shè)計(jì)的文本模板來(lái)生成文本輸出。比如，播放歌曲時(shí)，生成語(yǔ)句為：“即將為您播放【歌手名】的【歌曲名】”。

2.3.5 語(yǔ)音合成（Speech Synthesis）

語(yǔ)音合成又叫做文語(yǔ)轉(zhuǎn)換（Text-to-Speech，TTS），更常見(jiàn)可能是 TTS 這一稱呼。TTS 的終極目標(biāo)是，使機(jī)器能夠像人一樣朗讀任意給定的文本。

評(píng)價(jià)實(shí)用的語(yǔ)音合成系統(tǒng)的兩個(gè)主要的標(biāo)準(zhǔn)是1）可懂度（人能夠聽(tīng)懂）和2）自然度（使人聽(tīng)著舒服）。目前，可懂度的問(wèn)題基本得到解決。參數(shù)合成和拼接合成是TTS的兩種主要合成方法，其中，參數(shù)計(jì)算量小，部署靈活，但自然較差；拼接接近真人發(fā)音，存儲(chǔ)和計(jì)算資源高，一般只能在線合成。例如，Echo 采用的基于單元選擇（unit selection）的拼接合成。

2.4 其他技術(shù)

最后，我們簡(jiǎn)單列舉一些相對(duì)成熟，但還沒(méi)有廣泛應(yīng)用于智能音箱的技術(shù)。

聲紋識(shí)別

聲紋識(shí)別是據(jù)語(yǔ)音波形反映說(shuō)話人生理和行為特征的語(yǔ)音參數(shù)，自動(dòng)識(shí)別說(shuō)話人身份的一項(xiàng)技術(shù)。微信中的聲音鎖就是聲紋技術(shù)的一項(xiàng)具體應(yīng)用。

通過(guò)聲紋識(shí)別，可以設(shè)計(jì)出更加個(gè)性化的服務(wù)。

人臉檢測(cè)

如果音箱配置為攝像頭，可以通人臉檢測(cè)，確定用戶的位置。一方面可以有更好的交互設(shè)計(jì)，另一方面可以輔助聲源定位。

人臉識(shí)別

同聲紋識(shí)別類似，人臉識(shí)別也可以用來(lái)確定用戶的身份。

總結(jié)

以上是生活随笔為你收集整理的【转】智能音箱技术概览的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。