當前位置：首頁 >

语音识别真的比肩人类了？听听阿里iDST初敏怎么说

發布時間：2025/3/21 50 豆豆

生活随笔收集整理的這篇文章主要介紹了语音识别真的比肩人类了？听听阿里iDST初敏怎么说小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

語音識別真的比肩人類了？聽聽阿里iDST初敏怎么說阿里云云棲社區百家號|06-28 12:49關注摘要：語音識別真的比肩人類了嗎？各種算法之間該如何選擇？如何提升語音交互的用戶體驗？帶著這些問題，云棲社區采訪了阿里云iDST智能交互總監初敏，聽聽她是怎么說的。編者按：由中國人工智能學會、阿里巴巴以及螞蟻金服聯合主辦，CSDN、中國科學院自動化研究所承辦的第三屆中國人工智能大會（CCAI 2017）將于7月22-23日正式召開，大會期間阿里云iDST智能交互總監初敏將在“語言智能與應用”論壇上分享語音交互技術的趨勢，在此之前，阿里云云棲社區作為獨家直播合作伙伴采訪了初敏。圍繞語音交互的入口之爭正愈演愈烈，siri、echo這些產品風靡全球的同時，國內外科技巨頭、創業團隊也在暗流涌動，各種智能音箱以及語音解決方案層出不窮。毫無疑問，語音交互已經成為人工智能領域最成熟也是落地最快的技術。尤其是深度學習的起勢，讓語音識別、語音合成以及自然語言處理的發展速度提升到了一個新的高度。于是乎，各種美化宣傳撲面而來！“XXX產品識別準確率高達99%，識別準確率比肩人類！”然而，事實并非如此。市面上已有的語音交互產品或多或少都存在一些通病：在特定領域效果不錯，但超出指定范圍就差強人意了，這樣的問題讓用戶整體體驗大打折扣…語音識別真的比肩人類了嗎？各種算法之間該如何選擇？如何提升語音交互的用戶體驗？帶著這些問題，云棲社區采訪了阿里云iDST智能交互總監初敏，聽聽她是怎么說的。（注： iDST語音識別團隊曾在2016年以0.67%的準確率優勢擊敗了世界速記大賽亞軍蔣毅，據了解，iDST團隊使用了BLSTM算法，這種算法對單位時間內的計算量要求很高，為此他們做了很多針對性的優化工作，才能讓這個算法提供實時服務，并第一次在工業界進行了大規模部署。）以下內容整理自采訪錄音：云棲社區：從國內外的趨勢來看，語音交互技術的應用越來越多，您認為推動語音技術普及的主要原因是什么？初敏：語音有兩個大的方向在用，第一個把語音當成數據，例如在講座、法院，或者是客服這些場景中，之前有的會錄音，有的不錄音，講完就過去了，而現在這些語音都會記錄下來，而且還會識別成文字，這實際上是一個數據積累的過程，我們可以對這些文本化的數據進行各種分析、挖掘和加工等等。另外一個就是大家更關注的語音交互，語音交互之所以越來越被重視，我覺得是因為互聯網、智能硬件的普及。未來智能電視、智能音箱，甚至到以后的日常設備，都可以變成一個互聯網的入口，語音就是最簡單的，最直接的交互方式，是通用的輸入模式。當然現有的很多語音產品還沒有那么成功，我認為雖然現在產品比較多，但是真正好用的，讓人經常想用的卻不多。云棲社區：就像您提到的現在語音識別產品用起來其還會有各種各樣的問題，要達到真正完全可用的狀態我們還需要克服哪些難題？初敏：我覺得脫離了應用場景講識別準確率、講產品根本就是不靠譜的，大家談到的百分之多少的識別準確率理論上不存在，任何一個準確率都是在特定場景下測出來的，不同的場景測出來不一樣，做一套模型在所有場景上都達到非常高的準確率，是不太現實的。以云棲大會為例，云棲大會的Talk，語音識別準確率基本上能做到95%以上，但如果突然邀請一個特殊領域的講演者，比如醫療領域，可能就很難達到同樣好的效果，因為現有模型在醫療領域的知識積累不夠。所以，要把語音技術在各種領域普及開來，能快速針對不同場景進行模型調優和定制變得非常重要，這也是我們下面主要推進的一個方向。云棲社區：阿里在語音交互上重點做了哪些事？初敏：這兩年來我們其實做了很多工作。一方面是在算法方面的嘗試，語音這兩年進步的比較快實際上就是深度學習的成功應用，我們嘗試了各種深度學習模型，如DNN、CNN、BLSTM（雙向長短時記憶神經網絡），特別是在業界最先大規模上線了基于BLSTM的系統。同時，我們也會嘗試各種新算法。需要提到的是有些算法比較復雜，實驗效果好，但是上線就有些難度，所以我們需要進行大量的嘗試。另外，現在這些模型的訓練是復雜度挺高的，訓練的時間一般會很長，特別是當你的數據特別多的時候。模型訓練的很大一部分任務要由GPU處理，在多臺機器上的多塊GPU卡上并行訓練，才能提升模型優化的效率，因此我們也需要進行一些這種底層基礎設施的建設。另一方面，我們也在在建模單元上做一些嘗試，傳統的做法是對狀態建模（通常把一個音素切成三個狀態），現在我們成功的使用音素作為建模單元，在準確率保持的前提下，解碼效率提升高三到五倍。更大的建模單元也在嘗試中。除了語音識別，我們在語音合成、對話管理，問答等方面也做了很多工作，還包括在不同端上的信號處理，例如麥克風陣列等等都是要去實踐的。這樣才能完成語音交互的完整過程。云棲社區：在算法的選擇上是怎么考量的？初敏：算法實際上有很多，DNN是全連接的，CNN是有卷積的，然后RNN基本上是序列的，我們實驗最成功的是雙向的BLSTM，而現在還是有些其他的選擇，包括優化準則方面的變化。最終在線上系統采用什么算法，需要綜合考慮，既要看效果，同時還要考慮到計算效率，部署成本等因素。云棲社區：去年雙十一阿里ET語音交互系統有亮相，它還有哪些提升空間？初敏：ET語音交互系統確實還有改善的空間，我們平常準確率能做到95%、96%的水平，但當時主持人講的語速太快，準確率也就不盡如人意了。此外，跟主持人交互的自由度方面，也還有很多可以做的事情。云棲社區：團隊做了哪些改善方案？初敏：要在更多的場景用好就必須要有大量的數據。因為場景的磨合都是和數據有關，數據是什么場景來的，它就可以在這個場景下取得好的效果。之前我們在客服領域的數據特別多，然后還有一些就手機端的，比如說手淘，但是視頻類的就會差一些。因此，我們就有針對性的增加數據，同時增加各種可能的背景噪聲，在專門優化后，視頻里的語音的識別效果就大幅提升了。因此，快速的模型定制對語音技術的廣泛應用非常重要。我們現在花了很多時間研發系統的定制能力，這樣用戶在系統上提交數據就可以通過我們的自動流程來定制他們的模型，這個模型在他們需要的場景下可以取得比通用模型更好的效果。我們現在很多的工作是從這個角度來看。我認為將來這方面是誰的能力最強，誰就能真正在市場上快速把它用起來。目前市面上，基本上還沒有哪個團隊在提供快速定制化服務，我們是非常領先的。云棲社區：下個月舉行的CCAI大會上開設了“語言智能與應用”論壇，針對這一方向，您認為現在學術界和產業界還存在哪些痛點？初敏：就像你剛才問到的，語音識別宣傳得很好，但很多時候用起來還沒有預期的那么好，主要是因為技術到產品的落地之間還有很多工作沒有做好、做細致。語音識別不是萬能的，隨便一接就可以的用的很順暢的。技術使用起來往往需要一個迭代的過程的，需要先上線，然后在場景里收集數據去評估，優化模型，改善用戶體驗。經過幾輪迭代，才可以發揮最佳效果。其他AI技術也是相似的。今天很多AI技術的用戶很容易把技術的能力理想化，感覺一引入，就應該立竿見影的看到效果。看到實際效果不盡人意時，就會感覺有很大的落差，失望和放棄。所以，我想強調的是，一方面智能語音技術已經達到廣發應用的水平，同時在真正落地的時候，要充分認識到可能遇到的困難，有持久戰的思想準備。云棲社區：下個月您會在CCAI語音交互分論壇上分享，作為演講嘉賓您希望能給開發者帶來什么樣的幫助？初敏：語音交互技術在未來三五年內會大規模應用，這是大家都看到的趨勢，但是換句話說，大家都希望產品在目標場景中取得好的效果，但現實很殘酷，并不是每個人都是算法或者人工智能領域的資深專家，需要一個不斷學習和迭代的過程。AI技術的應用是一個系統工程，我們要有足夠的耐心去打通產品和體驗的優化鏈路，在應用中不斷提升效果。

總結

以上是生活随笔為你收集整理的语音识别真的比肩人类了？听听阿里iDST初敏怎么说的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：在Kaggle上赢得大数据竞赛的技巧和窍
下一篇：蚂蚁金服发布「定损宝」，推动图像定损技术

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

语音识别真的比肩人类了？听听阿里iDST初敏怎么说

總結