定制语音代理(智能体)的背后是什么?
定制語音代理(智能體)的背后是什么?
What’s behind the move to custom voice agents?
自動化是未來的發展方向。生活在一個現在的時代,希望所有的事情都能迅速得到回答、實現和接受。盡管有了這種根本性的轉變,許多人并不接受技術。對一些人來說,這與生活方式有關:大公司可能太笨重而無法改造系統,個人可能會被困在自己的方式中,不想學習如何使用觸摸屏。然而,對大多數人來說,歸根結底是數據——誰擁有以及如何保證安全。
解決方案?就像聲音一樣簡單。語音支持技術可以解除對自動化的需求,同時保持數據的緊密性,這是每天都在使用的東西,無論地點或平臺。隨著數字轉型對越來越多的應用程序產生影響,語音代理就是答案。除了像Alexa和Google voice這樣家喻戶曉的流行語音代理之外,更多的公司正在探索構建嵌入到這項技術中的定制語音平臺。對于希望保留和控制自己數據的公司來說,獨特的語音平臺將是前進的方向。
Behind the disruption is automation
中斷的背后是自動化
隨著物聯網(IoT)建立在人工智能(AI)之上,開始看到自動化需求的增長。當物聯網與人工智能合作時,提高了用戶對大量和廣泛的互聯網設備的控制能力。開始看到語音功能在家庭和其地方得到了擴展,通過谷歌語音、亞馬遜Alexa、微軟Cortana等平臺或獨特的平臺進行交互。在Harman Embedded Audio,已經與世界上每一個語音引擎合作過,并且第一手了解了市場的廣度。看到越來越多的公司希望在自己定制的語音助手平臺上構建支持語音的產品,因此可以控制數據。
The demand for voice control is growing
對語音控制的需求正在增長
這是音頻領域最熱門的趨勢之一。用戶界面的下一件大事,現在觸摸屏之類的功能幾乎無處不在,就是能夠與設備通話。聲音正在引領下一代人類協作。想想計算機上的自然語言處理:語音的處理方式符合機器希望聽到的聲音,但如果播放相同的處理過的文件,將是機械的和不自然的。打電話也是一樣:不會給人留下和某人在一個房間里的相同印象。這就是語音需要去的地方,上面提到的獨特的語音平臺也將隨之出現。
What custom voice agents look like, and what’s involved in the build
自定義語音代理的外觀,以及構建過程中涉及的內容
雖然每個語音解決方案都是不同的,但重要的是,所有解決方案都要足夠靈活,以便在收集和保護用戶數據的同時適應其用例的必要要求。要實現這一點,任何語音代理的構建和集成都涉及到三個主要元素。
第一種是遠場算法。使用一個頂級算法來捕捉遠場語音。在公司,使用了來自Sonique算法的四個關鍵軟件算法:噪聲抑制、噪聲消除、聲音分離和波束形成以及語音活動檢測。這些算法是專門開發用于相互結合使用,以支持語音支持的應用程序。
是如何工作的?想想把一個聰明的演講者和一個人類做比較。DSP/SOC充當揚聲器的“大腦”,麥克風是耳朵,揚聲器是嘴巴。對來說,當有人叫名字時,大腦會消除周圍所有的噪音,把所有的能量都放在這個關鍵詞上。這就是在智能揚聲器中所取得的成就——當檢測到關鍵詞時,麥克風會使用不同的噪聲抑制技術,并將所有的能量都投入到信號源上。在這個過程中,消除了周圍的大部分噪音。在聲學環境中,有許多噪聲源,如環境噪聲、本地揚聲器、暖通空調等,這些噪聲源將揚聲器的反饋信號反饋到麥克風上。每一個噪聲源都需要自己的解決方案。Sonique算法可以抑制噪音并捕捉到最好的清晰語音命令。
此外,建立一個關鍵字識別(KWS)引擎是至關重要的。KWS檢測諸如“Alexa”或“OkGoogle”之類的關鍵字來開始對話。與幾乎所有的KWS引擎供應商合作過,每一家都是由深度神經網絡提供動力的——高度可定制、始終監聽、輕量級和嵌入式。為了在遠場語音應用中獲得良好的客戶體驗,關鍵因素是錯誤接受率和錯誤拒絕率。在現實世界中,由于電視、家用電器、淋浴等外部噪聲的存在,使得音頻播放的取消效果不理想,因此要保持較低的誤報率是非常困難的。經驗豐富的開發人員調整KWS引擎以保持較低的錯誤接受率。
最后,自動語音識別(ASR)引擎將語音轉換為文本。ASR由核心的語音到文本(STT)工具和自然語言理解(NLU)組成,后者將原始文本轉換為數據。引擎還需要技能,或者換句話說,需要一個可以提供答案的知識庫,以及反向的文本到語音工具。例如,已經開發了一個名為E-NOVA的ASR引擎,提供多平臺、內部集成、支持多種語言(目前有七種語言正在增長),包括可訓練模型、第三方集成支持和說話人識別。
ASR是語音技術的第一步,當提示“洛杉磯天氣如何?”時,亞馬遜Alexa、OK Google、Cortana或customer能夠做出響應?“這是一個關鍵的部分,檢測出說話的聲音,將識別為單詞,將與給定語言中的聲音進行匹配,并最終識別出所說的單詞。因為有了ASR引擎,談話感覺很自然。而且,隨著現代技術的發展,大多數ASR引擎都利用了云計算。隨著諸如NLU這樣的附加技術,人與計算機之間的對話變得更加智能和復雜。
圖1:語音代理中的基本處理管道。
然而,構建定制的語音代理有許多獨特的挑戰。理解產品的環境是這個過程的關鍵挑戰之一,每個應用程序都會根據具體的用例而有所不同。例如,想象一下在家里做飯,手忙得滿滿的,當該燒開水的時候,只需要向連接到管道空間的語音代理快速請求:“把水燒到x度?!边@里的挑戰是設備是否能夠聽到說的話,以及設備將抵消多少噪音收到干凈的信號,聽到聲音。為了確保這一點,需要將語音算法調整到惡劣的環境中,需要調整麥克風的位置以便能夠拾取聲音,并且應該使用低THD揚聲器來幫助麥克風獲得高信噪比。通過這個,將得到盡可能清晰的音頻到ASR引擎,這將導致問題的正確答案。
此外,想象一下在游船上:周圍的噪音和在客廳或廚房聽到的完全不同。最大的挑戰是訓練算法來抑制這些噪聲,并獲得干凈的音頻信號給系統,以獲得準確的響應。正確地實現,一個虛擬的個人巡航輔助系統(如為MSC Cruises開發的系統)可以可靠地完成圖2中所示的步驟。
圖2:典型的語音助手請求所涉及的步驟。
在這里,一個語音助理裝置在乘客室檢測到’ Hey Zoe’喚醒詞。然后,當KWS檢測到關鍵詞時,整個麥克風基于噪聲抑制算法,將能量轉移到聲源,并消除周圍的噪聲,如交流噪聲、電視、不相關噪聲、螺旋槳和發動機噪聲、風噪聲、AEC,Sonique算法被調整以消除所有這些噪聲,并獲得最干凈的信號給系統。然后,當系統收到請求時,ASR引擎將此語音轉換為文本。NLU引擎然后將此文本轉換為原始數據以獲得答案。但還沒說完。為了得到想要的答案,knowledge skill提供了請求的答案,ASR引擎將數據文本轉換為語音并通過揚聲器輸出。
另一個挑戰是關于錯誤率拒絕(FRR)。喚醒字FRR是衡量智能揚聲器性能的一個檢查點,其實現過程既耗時又昂貴。該系統用于驗證產品是否能在檢測到喚醒字時正常喚醒。要實現FRR,必須訓練關鍵詞。根據經驗,將經過訓練的模型與頂層算法相結合可以讓開發團隊克服挑戰并實現盡可能最好的FRR。在實驗室中,在各種條件下進一步測試喚醒字響應,以確保系統通過行業標準。
The advantages of employing unique voice agents
使用獨特的語音代理的優勢
語音代理為用戶體驗提供了極大的價值。音樂是最大、最簡單的用例,但語音代理的價值遠不止遠程打開Spotify帳戶。聲音可以打開東西,與電器互動,燒開水,打開水龍頭等等!語音功能強大,而且代理對用戶非常了解,這就是為什么公司希望獲得自己的數據——擁有數據、存儲數據和保護數據。
語音解決方案有著廣泛的應用,但關鍵是要利用跨平臺的技術——一種與蘋果、Windows或Android上的智能揚聲器、筆記本電腦和智能手機相關的技術——并利用收集到的數據構建一個能夠理解、不斷學習和記住用戶需求的代理。創建一個獨特的語音代理可以實現這種使用的靈活性,同時保持數據的內部性。
總結
以上是生活随笔為你收集整理的定制语音代理(智能体)的背后是什么?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 人工智能在音频链中找到自己的声音
- 下一篇: TinyML设备设计的Arm内核