定制语音代理(智能体)的背后是什么?
定制語音代理(智能體)的背后是什么?
What’s behind the move to custom voice agents?
自動化是未來的發(fā)展方向。生活在一個現(xiàn)在的時代,希望所有的事情都能迅速得到回答、實現(xiàn)和接受。盡管有了這種根本性的轉(zhuǎn)變,許多人并不接受技術(shù)。對一些人來說,這與生活方式有關(guān):大公司可能太笨重而無法改造系統(tǒng),個人可能會被困在自己的方式中,不想學習如何使用觸摸屏。然而,對大多數(shù)人來說,歸根結(jié)底是數(shù)據(jù)——誰擁有以及如何保證安全。
解決方案?就像聲音一樣簡單。語音支持技術(shù)可以解除對自動化的需求,同時保持數(shù)據(jù)的緊密性,這是每天都在使用的東西,無論地點或平臺。隨著數(shù)字轉(zhuǎn)型對越來越多的應(yīng)用程序產(chǎn)生影響,語音代理就是答案。除了像Alexa和Google voice這樣家喻戶曉的流行語音代理之外,更多的公司正在探索構(gòu)建嵌入到這項技術(shù)中的定制語音平臺。對于希望保留和控制自己數(shù)據(jù)的公司來說,獨特的語音平臺將是前進的方向。
Behind the disruption is automation
中斷的背后是自動化
隨著物聯(lián)網(wǎng)(IoT)建立在人工智能(AI)之上,開始看到自動化需求的增長。當物聯(lián)網(wǎng)與人工智能合作時,提高了用戶對大量和廣泛的互聯(lián)網(wǎng)設(shè)備的控制能力。開始看到語音功能在家庭和其地方得到了擴展,通過谷歌語音、亞馬遜Alexa、微軟Cortana等平臺或獨特的平臺進行交互。在Harman Embedded Audio,已經(jīng)與世界上每一個語音引擎合作過,并且第一手了解了市場的廣度。看到越來越多的公司希望在自己定制的語音助手平臺上構(gòu)建支持語音的產(chǎn)品,因此可以控制數(shù)據(jù)。
The demand for voice control is growing
對語音控制的需求正在增長
這是音頻領(lǐng)域最熱門的趨勢之一。用戶界面的下一件大事,現(xiàn)在觸摸屏之類的功能幾乎無處不在,就是能夠與設(shè)備通話。聲音正在引領(lǐng)下一代人類協(xié)作。想想計算機上的自然語言處理:語音的處理方式符合機器希望聽到的聲音,但如果播放相同的處理過的文件,將是機械的和不自然的。打電話也是一樣:不會給人留下和某人在一個房間里的相同印象。這就是語音需要去的地方,上面提到的獨特的語音平臺也將隨之出現(xiàn)。
What custom voice agents look like, and what’s involved in the build
自定義語音代理的外觀,以及構(gòu)建過程中涉及的內(nèi)容
雖然每個語音解決方案都是不同的,但重要的是,所有解決方案都要足夠靈活,以便在收集和保護用戶數(shù)據(jù)的同時適應(yīng)其用例的必要要求。要實現(xiàn)這一點,任何語音代理的構(gòu)建和集成都涉及到三個主要元素。
第一種是遠場算法。使用一個頂級算法來捕捉遠場語音。在公司,使用了來自Sonique算法的四個關(guān)鍵軟件算法:噪聲抑制、噪聲消除、聲音分離和波束形成以及語音活動檢測。這些算法是專門開發(fā)用于相互結(jié)合使用,以支持語音支持的應(yīng)用程序。
是如何工作的?想想把一個聰明的演講者和一個人類做比較。DSP/SOC充當揚聲器的“大腦”,麥克風是耳朵,揚聲器是嘴巴。對來說,當有人叫名字時,大腦會消除周圍所有的噪音,把所有的能量都放在這個關(guān)鍵詞上。這就是在智能揚聲器中所取得的成就——當檢測到關(guān)鍵詞時,麥克風會使用不同的噪聲抑制技術(shù),并將所有的能量都投入到信號源上。在這個過程中,消除了周圍的大部分噪音。在聲學環(huán)境中,有許多噪聲源,如環(huán)境噪聲、本地揚聲器、暖通空調(diào)等,這些噪聲源將揚聲器的反饋信號反饋到麥克風上。每一個噪聲源都需要自己的解決方案。Sonique算法可以抑制噪音并捕捉到最好的清晰語音命令。
此外,建立一個關(guān)鍵字識別(KWS)引擎是至關(guān)重要的。KWS檢測諸如“Alexa”或“OkGoogle”之類的關(guān)鍵字來開始對話。與幾乎所有的KWS引擎供應(yīng)商合作過,每一家都是由深度神經(jīng)網(wǎng)絡(luò)提供動力的——高度可定制、始終監(jiān)聽、輕量級和嵌入式。為了在遠場語音應(yīng)用中獲得良好的客戶體驗,關(guān)鍵因素是錯誤接受率和錯誤拒絕率。在現(xiàn)實世界中,由于電視、家用電器、淋浴等外部噪聲的存在,使得音頻播放的取消效果不理想,因此要保持較低的誤報率是非常困難的。經(jīng)驗豐富的開發(fā)人員調(diào)整KWS引擎以保持較低的錯誤接受率。
最后,自動語音識別(ASR)引擎將語音轉(zhuǎn)換為文本。ASR由核心的語音到文本(STT)工具和自然語言理解(NLU)組成,后者將原始文本轉(zhuǎn)換為數(shù)據(jù)。引擎還需要技能,或者換句話說,需要一個可以提供答案的知識庫,以及反向的文本到語音工具。例如,已經(jīng)開發(fā)了一個名為E-NOVA的ASR引擎,提供多平臺、內(nèi)部集成、支持多種語言(目前有七種語言正在增長),包括可訓練模型、第三方集成支持和說話人識別。
ASR是語音技術(shù)的第一步,當提示“洛杉磯天氣如何?”時,亞馬遜Alexa、OK Google、Cortana或customer能夠做出響應(yīng)?“這是一個關(guān)鍵的部分,檢測出說話的聲音,將識別為單詞,將與給定語言中的聲音進行匹配,并最終識別出所說的單詞。因為有了ASR引擎,談話感覺很自然。而且,隨著現(xiàn)代技術(shù)的發(fā)展,大多數(shù)ASR引擎都利用了云計算。隨著諸如NLU這樣的附加技術(shù),人與計算機之間的對話變得更加智能和復(fù)雜。
圖1:語音代理中的基本處理管道。
然而,構(gòu)建定制的語音代理有許多獨特的挑戰(zhàn)。理解產(chǎn)品的環(huán)境是這個過程的關(guān)鍵挑戰(zhàn)之一,每個應(yīng)用程序都會根據(jù)具體的用例而有所不同。例如,想象一下在家里做飯,手忙得滿滿的,當該燒開水的時候,只需要向連接到管道空間的語音代理快速請求:“把水燒到x度。”這里的挑戰(zhàn)是設(shè)備是否能夠聽到說的話,以及設(shè)備將抵消多少噪音收到干凈的信號,聽到聲音。為了確保這一點,需要將語音算法調(diào)整到惡劣的環(huán)境中,需要調(diào)整麥克風的位置以便能夠拾取聲音,并且應(yīng)該使用低THD揚聲器來幫助麥克風獲得高信噪比。通過這個,將得到盡可能清晰的音頻到ASR引擎,這將導(dǎo)致問題的正確答案。
此外,想象一下在游船上:周圍的噪音和在客廳或廚房聽到的完全不同。最大的挑戰(zhàn)是訓練算法來抑制這些噪聲,并獲得干凈的音頻信號給系統(tǒng),以獲得準確的響應(yīng)。正確地實現(xiàn),一個虛擬的個人巡航輔助系統(tǒng)(如為MSC Cruises開發(fā)的系統(tǒng))可以可靠地完成圖2中所示的步驟。
圖2:典型的語音助手請求所涉及的步驟。
在這里,一個語音助理裝置在乘客室檢測到’ Hey Zoe’喚醒詞。然后,當KWS檢測到關(guān)鍵詞時,整個麥克風基于噪聲抑制算法,將能量轉(zhuǎn)移到聲源,并消除周圍的噪聲,如交流噪聲、電視、不相關(guān)噪聲、螺旋槳和發(fā)動機噪聲、風噪聲、AEC,Sonique算法被調(diào)整以消除所有這些噪聲,并獲得最干凈的信號給系統(tǒng)。然后,當系統(tǒng)收到請求時,ASR引擎將此語音轉(zhuǎn)換為文本。NLU引擎然后將此文本轉(zhuǎn)換為原始數(shù)據(jù)以獲得答案。但還沒說完。為了得到想要的答案,knowledge skill提供了請求的答案,ASR引擎將數(shù)據(jù)文本轉(zhuǎn)換為語音并通過揚聲器輸出。
另一個挑戰(zhàn)是關(guān)于錯誤率拒絕(FRR)。喚醒字FRR是衡量智能揚聲器性能的一個檢查點,其實現(xiàn)過程既耗時又昂貴。該系統(tǒng)用于驗證產(chǎn)品是否能在檢測到喚醒字時正常喚醒。要實現(xiàn)FRR,必須訓練關(guān)鍵詞。根據(jù)經(jīng)驗,將經(jīng)過訓練的模型與頂層算法相結(jié)合可以讓開發(fā)團隊克服挑戰(zhàn)并實現(xiàn)盡可能最好的FRR。在實驗室中,在各種條件下進一步測試喚醒字響應(yīng),以確保系統(tǒng)通過行業(yè)標準。
The advantages of employing unique voice agents
使用獨特的語音代理的優(yōu)勢
語音代理為用戶體驗提供了極大的價值。音樂是最大、最簡單的用例,但語音代理的價值遠不止遠程打開Spotify帳戶。聲音可以打開東西,與電器互動,燒開水,打開水龍頭等等!語音功能強大,而且代理對用戶非常了解,這就是為什么公司希望獲得自己的數(shù)據(jù)——擁有數(shù)據(jù)、存儲數(shù)據(jù)和保護數(shù)據(jù)。
語音解決方案有著廣泛的應(yīng)用,但關(guān)鍵是要利用跨平臺的技術(shù)——一種與蘋果、Windows或Android上的智能揚聲器、筆記本電腦和智能手機相關(guān)的技術(shù)——并利用收集到的數(shù)據(jù)構(gòu)建一個能夠理解、不斷學習和記住用戶需求的代理。創(chuàng)建一個獨特的語音代理可以實現(xiàn)這種使用的靈活性,同時保持數(shù)據(jù)的內(nèi)部性。
總結(jié)
以上是生活随笔為你收集整理的定制语音代理(智能体)的背后是什么?的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 人工智能在音频链中找到自己的声音
- 下一篇: TinyML设备设计的Arm内核