【转】智能音箱技术概览
轉(zhuǎn)自:http://blog.csdn.net/jackytintin/article/details/62040823
對(duì)于沒(méi)有使用過(guò)智能音箱的讀者,可以觀看 Echo 的官方廣告,直觀地體驗(yàn)下智能音箱。
目前的智能音箱多基于語(yǔ)音控制,其基本交互流程可以用圖1 概括:1)用戶通過(guò)自然語(yǔ)言向音箱提出服務(wù)請(qǐng)求或問(wèn)題 2)音箱拾取用戶聲?
音(音箱本地完成)并分析(一般在服務(wù)器端完成)3)音箱通過(guò)語(yǔ)言播報(bào)(音箱端)和 APP 推送(關(guān)聯(lián)的手機(jī)等)對(duì)用戶的請(qǐng)求進(jìn)行反饋。
圖1. 智能音箱基本交互方式
智能音箱可以以自然的方式(自然語(yǔ)言),為用戶提供一些常用的服務(wù),未來(lái)還可能成為為家庭的控制中樞。
從用戶的角度,可直觀感知硬件和功能(圖2)。其中,智能音箱的功能關(guān)系到產(chǎn)品設(shè)計(jì)和用戶體驗(yàn), 直接關(guān)系到產(chǎn)品的成敗,我們會(huì)在產(chǎn)品分析的文章中進(jìn)行深入分析。本文對(duì)智能音箱的硬件及運(yùn)行在硬件之上,作為音箱“大腦”的系列算法進(jìn)行簡(jiǎn)要介紹,希望讀者能對(duì)智能音箱有更全面的了解。
圖2. 智能音箱硬件組成和功能示意
1. 硬件
圖3展示了 Echo 拆解后的部件。可以看到,智能音箱的硬件并不算復(fù)雜(相對(duì)于無(wú)人駕駛等“重型”AI 產(chǎn)品)。但正如下面我們會(huì)反復(fù)強(qiáng)調(diào)的,智能音箱的各個(gè)模塊都需要結(jié)合生產(chǎn)工藝、算法設(shè)計(jì)、產(chǎn)品體驗(yàn)等多個(gè)方面進(jìn)行細(xì)致的打磨,才能達(dá)到比較滿足的效果,而這其中做出需要多“痛苦的”折衷。
圖3. Amazon Echo 拆解圖【來(lái)源】
1.1 外觀設(shè)計(jì)
智能音箱想要成為常駐案頭的“家庭成員”,其形態(tài)必然是經(jīng)過(guò)精心設(shè)計(jì),在形狀、大小、燈效甚至重量等因素要充分考慮在內(nèi)。圖 4 展示了一些智能音箱,讀者可根據(jù)自己的審美,判斷下哪些是想要或不想要放在家里的。
?
圖4. 音箱ID設(shè)計(jì)(按閱讀順序依次為:Amazon Echo、Google Home、叮咚、若琪、若琪月石、聯(lián)想音箱)(僅圖示設(shè)計(jì),不代表實(shí)際產(chǎn)品尺寸)
ID 設(shè)計(jì)除了出于美學(xué)和交互設(shè)計(jì)的考慮外,還要和音腔設(shè)計(jì)(影響音效)、麥列方案(影響語(yǔ)音交互)等相互耦合,需要通盤考慮。
1.2 揚(yáng)聲器
智能音箱本質(zhì)上還是一款音箱,因此,提供用戶認(rèn)可的音質(zhì)是產(chǎn)品存在的前提。但是智能音箱在揚(yáng)聲器的選擇上,除了受到音箱尺寸限制,還要考慮麥列的拾間及后續(xù)的信號(hào)處理。
圖5. Echo 揚(yáng)聲器及音腔設(shè)計(jì)【來(lái)源】
圖6. 若琪揚(yáng)聲器及音腔設(shè)計(jì)【來(lái)源】
圖5和圖6分別展示了 Echo 和若琪的揚(yáng)聲器設(shè)計(jì),兩者對(duì)比可以看到在選擇揚(yáng)聲器上的不同折衷和權(quán)衡。
-
Echo 采用封閉式揚(yáng)聲器設(shè)計(jì),高音和低音喇叭上下相對(duì),聲音各個(gè)方向是對(duì)稱的,這有有利于前端信號(hào)處理,但音效會(huì)受到限制。若琪采用開口式設(shè)計(jì),喇叭朝前,這樣音效可以設(shè)計(jì)的更好,但信號(hào)處理難度會(huì)大。
-
僅就音效而言,音腔越大越有利于設(shè)計(jì),但這會(huì)導(dǎo)致最后智能音箱非常笨重。也因此,許多設(shè)計(jì)上都有音腔部分略微鼓起的外觀設(shè)計(jì)(如 Google Home,叮咚)。
-
為了支持雙工(例如,在播放音樂(lè)的同時(shí)可以對(duì)音箱下達(dá)命令),揚(yáng)聲器的功率不能太大,這樣就限制了音箱的最大音量。反過(guò)來(lái),如果要確保音箱有較大的音量,可能會(huì)限制雙工條件下的音箱理解用戶語(yǔ)音的靈敏度。
1.3 麥克風(fēng)陣列(Microphone Array)
麥克風(fēng)陣列(以下簡(jiǎn)稱麥列),是由一定數(shù)目的麥克風(fēng)組成,用來(lái)對(duì)聲場(chǎng)的空間特性進(jìn)行采樣并處理的系統(tǒng)。簡(jiǎn)單而言,使用麥列而非單個(gè)麥克風(fēng),是為了在用戶距離音箱較遠(yuǎn)時(shí),依然能夠正常的收聽(tīng)用戶的語(yǔ)音指令。智能音箱多使用環(huán)狀麥列(圖7),目前以 6(+1)麥為主流方案,也有2、4和8麥的產(chǎn)品。?
?
圖7. 6+1 麥列
麥列方案主要受成本和算法兩個(gè)因素限制。一方面,雖然麥克風(fēng)本身成本并不是特別高,但增加麥克風(fēng)數(shù)量需要配套的增加采樣等后續(xù)硬件的投入,會(huì)大大增加成本。另一方面,麥列涉及一系列算法(見(jiàn)下文),算法設(shè)計(jì)難度和計(jì)算復(fù)雜度都會(huì)隨著麥克風(fēng)數(shù)量的增加而加大。
在選擇麥克風(fēng)時(shí),除了指向性、靈敏度、信噪比、頻響范圍、失真度等常規(guī)的參數(shù)要求,其安放位置、開口設(shè)計(jì)也要考慮ID設(shè)計(jì)和揚(yáng)聲器的位置、功放等,需要全盤考慮。
1.4 主控板
本質(zhì)上,和手機(jī)等移動(dòng)設(shè)備的主板并無(wú)差別,包括主板、CPU、存儲(chǔ)器等(如圖8)。主控板的選擇要在滿足響應(yīng)延遲的前提下,盡量壓縮成本和功耗。?
圖8. 全志G102【來(lái)源】
1.5 藍(lán)牙/WIFI
智能音箱需要服務(wù)器提供大部分功能,因此,WiFi 是不可缺少的模塊。有些音箱會(huì)通過(guò)藍(lán)牙同手機(jī)通信。
1.6 電池
目前主要的智能音箱還是依賴電源線供電,但不排除隨著電源蓄電能力和成本的改善,智能音箱會(huì)向手機(jī)一樣,脫離成為可自由移動(dòng)的設(shè)備。如果使用電池,還要結(jié)合 ID 設(shè)計(jì)、音腔設(shè)計(jì)等因素,合理選擇電池的大小和位置、充電方案等。圖 9 展示的是 Echo Tab 的電池方案。
圖 9. Echo Tab 電池方案設(shè)計(jì)【來(lái)源】
2. 算法
用戶在同音箱進(jìn)行語(yǔ)音交互的時(shí),后臺(tái)有一系列算法在支撐的交互的正確進(jìn)行。
如圖10所示,總體而言,音箱工作時(shí),麥列始終處于拾音狀態(tài)(持續(xù)對(duì)聲音信號(hào)進(jìn)行采樣、量化)。進(jìn)過(guò)基本的信號(hào)處理(靜音檢測(cè)、降噪等),喚醒模塊會(huì)判斷是否出現(xiàn)喚醒詞,如果是,后續(xù)語(yǔ)音會(huì)進(jìn)行更復(fù)雜的語(yǔ)音信號(hào)處理,(理想情況下)得到干凈的語(yǔ)音信號(hào),開始真正的語(yǔ)音交互流程。?
圖10. 智能音箱交互
2.1 前端信號(hào)處理
2.1.1 語(yǔ)音檢測(cè)(VAD)
語(yǔ)音檢測(cè)(英文一般稱為 Voice Activity Detection,VAD)的目標(biāo)是,準(zhǔn)確的檢測(cè)出音頻信號(hào)的語(yǔ)音段起始位置,從而分離出語(yǔ)音段和非語(yǔ)音段(靜音或噪聲)信號(hào)。由于能夠?yàn)V除不相干非語(yǔ)音信號(hào),高效準(zhǔn)確的 VAD 不但能減輕后續(xù)處理的計(jì)算量,提高整體實(shí)時(shí)性,還能有效提高下游算法的性能。
VAD 算法可以粗略的分為三類:基于閾值的 VAD、作為分類器的 VAD、模型 VAD。
- 基于閾值的 VAD:通過(guò)提取時(shí)域(短時(shí)能量、短期過(guò)零率等)或頻域(MFCC、譜熵等)特征,通過(guò)合理的設(shè)置門限,達(dá)到區(qū)分語(yǔ)音和非語(yǔ)音的目的。這是傳統(tǒng)的 VAD 方法。
- 作為分類器的 VAD:可以將語(yǔ)音檢測(cè)視作語(yǔ)音/非語(yǔ)音的兩分類問(wèn)題,進(jìn)而用機(jī)器學(xué)習(xí)的方法訓(xùn)練分類器,達(dá)到檢測(cè)語(yǔ)音的目的。
- 模型 VAD:可以利用一個(gè)完整的聲學(xué)模型(建模單元的粒度可以很粗),在解碼的基礎(chǔ),通過(guò)全局信息,判別語(yǔ)音段和非語(yǔ)音段。
VAD 作為整個(gè)流程的最前端,需要在本地實(shí)時(shí)的完成。由于計(jì)算資源非常有限,因此,VAD 一般會(huì)采用閾值法中某種算法;經(jīng)過(guò)工程優(yōu)化的分類法也可能被利用;而模型 VAD 目前難以在本地部署應(yīng)用。
2.1.2 降噪
實(shí)際環(huán)境中存在著空調(diào)、風(fēng)扇以及其他各種各樣的噪聲。降低噪聲干擾,提高信噪比,降低后端語(yǔ)音識(shí)別的難度。?
常用的降噪算法有 自適應(yīng) LMS 和維納濾波等。
2.1.3 聲學(xué)回聲消除(Acoustic Echo Cancellaction, AEC)
AEC也是一種常見(jiàn)的技術(shù),在語(yǔ)音通話中,AEC是必不可少的基礎(chǔ)技術(shù)。?
圖11. AEC 示意【來(lái)源】?
具體的,AEC 的目的是,在音箱揚(yáng)聲器工作(播放音樂(lè)或語(yǔ)音)時(shí),從麥克風(fēng)中收集的語(yǔ)音中,去除自身播放的聲音信號(hào)。這是雙工模式的前提。否則,當(dāng)音樂(lè)播放時(shí),我們的聲音信號(hào)會(huì)淹沒(méi)在音樂(lè)聲中,不能繼續(xù)對(duì)音箱進(jìn)行有效的語(yǔ)音控制。
2.1.4 去混響處理
在室內(nèi),語(yǔ)音會(huì)被墻壁等多次反射,麥克風(fēng)采集到(圖12)。混響對(duì)于人耳完全不是問(wèn)題,但是,延遲的語(yǔ)音疊加產(chǎn)生掩蔽效應(yīng),這對(duì)語(yǔ)音識(shí)別是致命的障礙。
圖12. 混響【來(lái)源】?
對(duì)于混響,一般從兩個(gè)方面來(lái)嘗試解決:1)去混響 2)對(duì)語(yǔ)音識(shí)別的聲學(xué)模型加混響訓(xùn)練。由于真實(shí)環(huán)境的復(fù)雜性,一定的前端去混響算法還是非常有必要的。
2.1.5 聲源定位(Direction of Arrival estimation, DOA)
聲源定位是根據(jù)麥列收集的聲音語(yǔ),確定說(shuō)話人的位置。DOA 至少有兩個(gè)用途,1)用于方位燈的展示,增強(qiáng)交互效果;2)作為波束形成的前導(dǎo)任務(wù),確定空間濾波的參數(shù)。
聲源定位有如下常用方法有基于波束掃描的聲源定位、基于起分辨率率譜估計(jì)的聲源定位以及?基于到達(dá)時(shí)間差(Time Difference of Arrival, TDOA)的聲源定位。考慮到算法復(fù)雜性和延時(shí),一般采用TDOA方法。
2.1.6 波束形成(Beam Forming, BF)
波束形成是利用空間濾波的方法,將多路聲音信號(hào),整合為一路信號(hào)。通過(guò)波束形成,一方面可以增強(qiáng)原始的語(yǔ)音信號(hào),另一方面抑制旁路信號(hào),起到降噪和去混響的作用(圖13)。
圖13. 波形成示意圖【來(lái)源】?
2.2 喚醒
出于保護(hù)用戶隱私和減少誤識(shí)別兩個(gè)因素的考慮,智能音箱一般在檢測(cè)到喚醒詞之后,才會(huì)開始進(jìn)一步的復(fù)雜信號(hào)處理(聲源定位、波束形成)和后續(xù)的語(yǔ)音交互過(guò)程。
一般而言,喚喚醒模塊是一個(gè)小型語(yǔ)音識(shí)別引擎。由于目標(biāo)單一(檢測(cè) 出指定的喚醒詞),喚醒只需要較小的聲學(xué)模型和語(yǔ)言模型(只需要區(qū)分出有無(wú)喚醒詞出現(xiàn)),聲學(xué)打分和解碼可以很快,空間占用少,能夠在本地實(shí)時(shí)。
也有喚醒做為關(guān)鍵詞檢索(key word search)或文本相關(guān)的聲紋識(shí)別問(wèn)題來(lái)解決。
2.3 語(yǔ)音交互
語(yǔ)音交互的基本流程如圖16所示。下面分別對(duì)各個(gè)環(huán)節(jié)進(jìn)行簡(jiǎn)要介紹。?
圖14. 語(yǔ)音交互基本流程
ICASSP’17 關(guān)于對(duì)話系統(tǒng)的?tutorial?,并附有系統(tǒng)性的參考文獻(xiàn)。
2.3.1 語(yǔ)音識(shí)別(Automatic Speech Recognition, ASR)
語(yǔ)音識(shí)別的目的是將語(yǔ)音信號(hào)轉(zhuǎn)化為文本。語(yǔ)音識(shí)別技術(shù)相對(duì)成熟。目前,基于近場(chǎng)信號(hào)的、受控環(huán)境(低噪聲、低混響)下的標(biāo)準(zhǔn)音語(yǔ)音識(shí)別能夠達(dá)到很的水平。然而在智能音箱開放性的真實(shí)環(huán)境,語(yǔ)音識(shí)別依然是一個(gè)不小的挑戰(zhàn),需要接合前端信號(hào)處理一起來(lái)優(yōu)化。
2.3.2 自然語(yǔ)言理解(Natural Language Understanding, NLU)
NLU 作為一個(gè)研究課題還遠(yuǎn)沒(méi)有被解決。但是在限定領(lǐng)域下,結(jié)合良好的產(chǎn)品設(shè)計(jì),我們還是能夠利用現(xiàn)有技術(shù),做出實(shí)用的產(chǎn)品。
可以將基于框架的(frame-based) NLU 分為三個(gè)子問(wèn)題去解決(圖15):?
*?領(lǐng)域分類:識(shí)別出用戶命令所屬領(lǐng)域。其中,領(lǐng)域是預(yù)先設(shè)計(jì)的封閉集合(如產(chǎn)品設(shè)計(jì)上,音箱只支持音樂(lè)、天氣等領(lǐng)域),而每個(gè)領(lǐng)域都只支持無(wú)限預(yù)設(shè)的查詢內(nèi)容和交互方式。?
*?意圖分類:在相應(yīng)領(lǐng)域,識(shí)別用戶的意圖(如播放音樂(lè)、暫停或切換等)。意圖往往對(duì)應(yīng)著實(shí)際的操作。?
*?實(shí)體抽取(槽填充):確定意圖(操作)的參數(shù)(如確定,具體是播放哪首歌或哪位歌手的歌曲)。
圖15. 基于框架的自然語(yǔ)言理解
2.3.3 對(duì)話管理(Diaglou Management, DM)
多輪對(duì)話對(duì)于自然的人工交互非常重要。比如,當(dāng)我們?cè)儐?wèn)“北京明天的天氣怎么?”,之后,更習(xí)慣追問(wèn)“那深圳呢?”而不是重復(fù)的說(shuō)”**深圳明天的天氣怎么?**“
在 NLU 無(wú)有得到很好解決的情況下,對(duì)話管理似乎不可能。好在限范圍下,結(jié)合產(chǎn)品設(shè)計(jì),還是能做的不錯(cuò)。一般的作法是,將輪對(duì)話解析出的參數(shù)做為上下文(全局變量),帶入到下一輪對(duì)話;當(dāng)前輪對(duì)話,根據(jù)一定的條件判斷,是否保持在上一輪的領(lǐng)域,是否清空上下文。
不同于純粹的聊天機(jī)器的對(duì)話管理,智能音箱的對(duì)話管理還有實(shí)際的操作功能(查詢信息、提供控制指令)。
2.3.4 自然語(yǔ)言生成(Natural Language Generation, NLG)
目前完全自動(dòng)化的 NLG 方法還不成熟。實(shí)際產(chǎn)品中,多采用預(yù)先設(shè)計(jì)的文本模板來(lái)生成文本輸出。比如,播放歌曲時(shí),生成語(yǔ)句為:“即將為您播放【歌手名】的【歌曲名】”。
2.3.5 語(yǔ)音合成(Speech Synthesis)
語(yǔ)音合成又叫做文語(yǔ)轉(zhuǎn)換(Text-to-Speech,TTS),更常見(jiàn)可能是 TTS 這一稱呼。TTS 的終極目標(biāo)是,使機(jī)器能夠像人一樣朗讀任意給定的文本。
評(píng)價(jià)實(shí)用的語(yǔ)音合成系統(tǒng)的兩個(gè)主要的標(biāo)準(zhǔn)是1)可懂度(人能夠聽(tīng)懂)和2)自然度(使人聽(tīng)著舒服)。目前,可懂度的問(wèn)題基本得到解決。參數(shù)合成和拼接合成是TTS的兩種主要合成方法,其中,參數(shù)計(jì)算量小,部署靈活,但自然較差;拼接接近真人發(fā)音,存儲(chǔ)和計(jì)算資源高,一般只能在線合成。例如,Echo 采用的基于單元選擇(unit selection)的拼接合成。
2.4 其他技術(shù)
最后,我們簡(jiǎn)單列舉一些相對(duì)成熟,但還沒(méi)有廣泛應(yīng)用于智能音箱的技術(shù)。
聲紋識(shí)別
聲紋識(shí)別是據(jù)語(yǔ)音波形反映說(shuō)話人生理和行為特征的語(yǔ)音參數(shù),自動(dòng)識(shí)別說(shuō)話人身份的一項(xiàng)技術(shù)。微信中的聲音鎖就是聲紋技術(shù)的一項(xiàng)具體應(yīng)用。
通過(guò)聲紋識(shí)別,可以設(shè)計(jì)出更加個(gè)性化的服務(wù)。
人臉檢測(cè)
如果音箱配置為攝像頭,可以通人臉檢測(cè),確定用戶的位置。一方面可以有更好的交互設(shè)計(jì),另一方面可以輔助聲源定位。
人臉識(shí)別
同聲紋識(shí)別類似,人臉識(shí)別也可以用來(lái)確定用戶的身份。
總結(jié)
以上是生活随笔為你收集整理的【转】智能音箱技术概览的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 快手怎么建立亲密关系
- 下一篇: 常用音频软件:Wavesufer