后端根据百度地图真实路径距离_远场语音识别错误率降低30%,百度提基于复数CNN网络的新技术...
【12月公開課預告】,入群直接獲取報名地址
12月11日晚8點直播主題:人工智能消化道病理輔助診斷平臺——從方法到落地
12月12日晚8點直播:利用容器技術打造AI公司技術中臺
12月17日晚8點直播主題:可重構計算:能效比、通用性,一個都不能少
作者 | Just
出品 | AI科技大本營(ID:rgznai100)
距離3米甚至5米處,用戶與智能音箱對話是一個典型的遠場語音識別應用場景。
在遠場環境下,目標聲源距離拾音器較遠致使目標信號衰減嚴重,加之環境嘈雜,干擾信號眾多,最終導致信噪比較低,語音識別性能較差。為了提升遠場語音識別準確率,一般會使用麥克風陣列作為拾音器。利用多通道語音信號處理技術,增強目標信號,提升語音識別精度。
不過,傳統數字信號處理技術已經無法滿足技術發展的需求,用深度學習技術來替代麥克陣列系統中的傳統數字信號處理已經開始成為行業主流。但此前行業提出的解決方案需要和數字信號處理過程看齊的深度學習模型結構設計,嚴重影響了深度學習技術在該方向上的發揮和延伸,限制了深度學習模型的模型結構的演變,制約了技術的創新和發展。
在近日舉辦的百度大腦語音能力引擎論壇上,百度語音首席架構師賈磊提出了的基于復數卷積神經網絡(Convolutional Neural Network,CNN)的語音增強和聲學建模一體化端到端建模技術,它拋棄了數字信號處理學科和語音識別學科的各種先驗假設,模型結構設計和數字信號處理學科完全脫鉤,發揮了CNN網絡的多層結構和多通道特征提提取的優勢,同時充分發揮深度學習學科模型設計靈活自由的學科優勢。
據介紹,相較于傳統基于數字信號處理的麥克陣列算法, 該方法的錯誤率降低超過30%,目前已經被集成到百度最新發布的百度鴻鵠芯片中。
基于傳統數字信號處理的技術
目前,語音識別技術在高信噪比場景下表現良好,但在低信噪比場景下,往往表現不穩定。
典型的語音識別場景如目標聲源、非目標聲源、拾音器和語音識別軟件系統。以家居場景下的智能音箱產品為例,目標聲源是朝音箱發出指令的用戶;非目標聲源是周圍的聲音干擾,例如家電噪聲;拾音器和語音識別軟件系統是智能音箱。在拾音器拾取到的信號中,來自目標聲源的信號被稱為目標信號,來自非目標聲源的信號被稱為干擾信號。目標信號強度與干擾信號強度的比值被稱為信噪比。
遠場語音識別是一個典型的低信噪比場景,絕大多數在售的智能音箱產品系統目前所采用的多通道語音識別系統,都是由一個前端增強模塊和一個后端語音識別聲學建模模塊串聯而成的:
前端增強模塊通常包括到達方向估計(DOA)和波束生成(BF)。DOA技術主要用于估計目標聲源的方向,BF技術則利用目標聲源的方位信息,增強目標信號,抑制干擾信號。常用的DOA技術有基于到達時延的定向算法,基于空間譜估計的定向算法等。
常用的BF技術有最小方差無畸變響應波束成形(MVDR BF),線性約束最小方差波束成形(LCMV BF)和廣義旁瓣消除波束成形( GSC BF)等。這些BF技術本質上都是提升波束方向內的目標聲源方向信號的信噪比,并盡可能的抑制波束外的非目標方向信號。前端增強模塊處理后,將產生一路單麥克信號,輸入到下面的后端語音識別聲學建模模塊中。
后端語音識別聲學建模模塊,會對這一路增強后的語音信號進行深度學習建模。這個建模過程完全類似于手機上的近場語音識別的建模過程,只不過輸入建模過程的信號不是手機麥克風采集的一路近場信號,而是用基于麥克陣列數字信號處理技術增強后的一路增強信號。
近些年,前端語音增強技術也逐漸開始用深度學習來做到達方向估計(DOA)和波束生成(BF),不少論文中和產品中也都提到了用深度學習技術來替代麥克陣列系統中的傳統數字信號處理技術,也獲得了一些提升。
但是上面這一類語音增強技術大都是采用基于MSE的優化準則,從聽覺感知上使得波束內語音更加清晰,波束外的背景噪音更小。但是聽覺感知和識別率并不完全一致。而且這種方法在噪音內容也是語音內容的時候,性能會急劇下降。另外,前端語音增強模塊的優化過程獨立于后端識別模塊。該優化目標與后端識別系統的最終目標不一致。目標的不統一很可能導致前端增強模塊的優化結果在最終目標上并非最優。
另外,由于真實產品場合,聲源環境復雜,因此大多數產品都是先由DOA確定出聲源方向后,再在該方向使用波束生成形成波束,對波束內的信號的信噪比進行提升,同時抑制波束外的噪音的干擾。這樣的機制使得整個系統的工作效果都嚴重依賴于聲源定位的準確性。同時用戶第一次說喚醒詞或者是語音指令的時候,第一次的語音很難準確利用波束信息,影響了首次喚醒率和首句識別率。
2017年,谷歌團隊最早提出采用神經網絡來解決前端語音增強和語音聲學建模的一體化建模問題,文章從信號處理的Filter-and-Sum 方法出發,首先推導出時域上的模型結構,然后進一步推導出頻域上的模型結構FCLP(Factored Complex Linear Projection),相比時域模型而言大幅降低了計算量。該結構先后通過空間濾波和頻域濾波,從多通道語音中抽取出多個方向的特征,然后將特征送給后端識別模型,最終實現網絡的聯合優化。
谷歌提出的FCLP結構仍然是以信號處理方法為出發點,起源于delay and sum濾波器,用一個深度學習網絡去模擬和逼近信號波束,因此也會受限于信號處理方法的一些先驗假設。比如FCLP的最低層沒有挖掘頻帶之間的相關性信息,存在多路麥克信息使用不充分的問題,影響了深度學習建模過程的模型精度。
再比如,beam的方向(looking direction)數目被定義成10個以下,主要是對應于數字信號處理過程的波束空間劃分。這種一定要和數字信號處理過程看齊的深度學習模型結構設計,嚴重影響了深度學習技術在該方向上的發揮和延伸,限制了深度學習模型的模型結構的演變,制約了技術的創新和發展。最終谷歌學術報告,通過這種方法,相對于傳統基于數字信號處理的麥克陣列算法,得到了16%的相對錯誤率降低。
基于復數CNN的語音增強和聲學建模一體化端到端建模技術
賈磊在現場披露了基于復數卷積神經網絡(Convolutional Neural Network,CNN)的語音增強和聲學建模一體化端到端建模技術的更多細節。
具體而言,該模型底部以復數CNN為核心,利用復數CNN網絡挖掘生理信號本質特征的特點,采用復數CNN, 復數全連接層以及CNN等多層網絡,直接對原始的多通道語音信號進行多尺度、多層次的信息抽取,期間充分挖掘頻帶之間的關聯耦合信息。在保留原始特征相位信息的前提下,同時實現了前端聲源定位、波束形成和增強特征提取。該模型底部CNN抽象出來的特征,直接送入百度獨有的端到端的流式多級的截斷注意力模型中,從而實現了從原始多路麥克信號到識別目標文字的端到端一體化建模。整個網絡的優化準則完全依賴于語音識別網絡的優化準則來做,完全以識別率提升為目標來做模型參數調優。
除了模型結構外,該方法要想成功落地產品,還必須解決多路麥克的訓練數據的獲取和建模問題。要知道,目前商業語音識別系統的訓練數據,主要依靠從數據公司買來的手機上錄制的近場語音數據集合。遠場多路麥克數據由于采集設備難于獲取和周圍噪音環境難于控制,而很少存在成規模的訓練集合。
百度則研發了一種利用近場數據來模擬生成遠場訓練數據的方法:模擬一路信號傳輸到多路麥克風的信號傳輸過程,并施加混響噪音和環境加性噪音。利用該方法,他們做出數百萬遠場房間環境下的遠場多路麥可信號的模擬數據,并且成功訓練出可以達到產品上線級別的一體化聲學模型。
論壇上,搭載了該項語音技術的三款基于鴻鵠語音芯片的硬件產品全新發布:芯片模組 DSP芯片+Flash、Android 開發板DSP芯片+ RK3399、RTOS開發板DSP芯片+ESP32。此外,賈磊還描述了基于鴻鵠語音芯片的端到端軟硬一體遠場語音交互方案以及全新發布的針對智能家居、智能車載、智能IoT設備的三大場景解決方案。
此外,今年年初百度提出截斷注意力模型SMLTA,使得句子的整句識別率、方言的識別以及中英文混合的識別率顯著提升,實現了語音識別領域注意力模型的大規模工業在線產品落地。
而在語音合成領域,百度首創Tacotron+wavRNN聯合訓練,大幅提升云端合成速度。百度地圖20句話即可錄制語音導航的技術基于百度獨創的風格遷移技術Meitron模型,特點主要體現在音色轉換、多情感朗讀和韻律遷移三個方面,從而大大降低語音合成的門檻。
基于深度學習和產業應用加速突破,百度的語音技術已落地到百度App,百度地圖、小度音箱,百度輸入法等產品。百度CTO王海峰也在會上宣布,百度大腦通過AI開放平臺已開放228項技術能力,接入開發者超過150萬,而語音技術日均調用量則超過100億次。
總結
以上是生活随笔為你收集整理的后端根据百度地图真实路径距离_远场语音识别错误率降低30%,百度提基于复数CNN网络的新技术...的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: mqtt客户端_初次接触MQTT
- 下一篇: 学python什么视频教程_学习pyth