日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

解密:依图如何一年实现语音识别指标超巨头玩家

發布時間:2025/6/17 编程问答 44 豆豆
生活随笔 收集整理的這篇文章主要介紹了 解密:依图如何一年实现语音识别指标超巨头玩家 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

機器之心原創

作者:四月


年底,盡管資本寒冬的聲音不絕于耳,但勇者往往無畏。在第四波 AI 浪潮下快速成長起的「小巨頭」并沒有停下開疆拓土的腳步。人臉、語音等多模態生物識別技術的融合成為人工智能應用的發展趨勢之一。


12 月 11 日,擅長計算機視覺技術解決方案的依圖科技在北京公開展示了語音識別領域的最新技術成果,并表示將在近期開放依圖語音識別 API 接口以及部分測試數據集。同時,依圖科技還宣布,將基于其語音識別技術與微軟 Azure、華為推出聯合方案平臺。


01 最優測試結果如何保證客觀性?


活動現場,依圖首先展示了其語音識別小程序「聽寫大會」在歌詞識別、飛機機艙混響環境下的播報識別結果,以及依圖語音識別 API 在公開數據集、依圖自有數據集、非公開數據集三類數據集上的平均錯字率(CER)表現。



測試結果均以橫向對比的形式體現,橫向對比的其他主流方案包括訊飛聽見、訊飛開放平臺、云知聲開放平臺、阿里一句話、騰訊 AI 平臺、百度語音-遠場、百度語音-輸入法、百度語音-搜索。


數據集是測試結果公正性的重要依據,為體現數據集的科學性和多樣性。依圖測試過程中涉及到的公開測試數據集包括:


  • 全球最大中文普通話數據庫 AISHELL1、AISHELL2(采用 iOS 系統,Android、Mic 性能類似,省略)、中文語音語料 THCHS30、PrimeWord、ST-CMDS;

  • 依圖自有數據集包括安靜對話、混響數據集;

  • 非公開數據集,即向第三方購買的數據集,包括語音助手場景、電話閑聊、電話客服、遠場演講、口音等場景的數據。



  • 依圖科學家吳雙博士表示,該批測試完成于 2018 年 11 月底,數據覆蓋了近 60 萬字、50 小時的語料,近場/遠場跨度在 20cm-10m,涵蓋智能音箱、手機等多種設備,科技、醫療等超過 20 類話題領域。



    在上述提到的所有測試數據集和測試場景中,依圖語音的平均字錯率表現均優于科大訊飛、百度等橫向對比的主流語音方案商的開放平臺方案。字錯率是中文語音識別領域的關鍵性評估指標,一般認為字錯率在低于 3% 時不會影響可讀性,而超過 15% 則毫無可讀性。這兩個數據被視為是語音識別的兩條紅線。在不同場景下,不同算法的表現可能存在很大差異。


    活動現場,橫向對比測試結果依次呈現在大屏幕上,引來在場諸多人士拍照。這在一定程度上展示了依圖在特定測試條件下的技術領先性,同時也反映出業界所謂的「成熟」中文語音識別方案還存在諸多提升和改進空間。



    比如,在公開數據集 AISHELL-2 中,依圖短語音聽寫的字錯率為 3.71%,領先原業內領軍者約 20%。在手機進場(接近可用)場景下,依圖語音的字錯率為 3.6%,排名第二云知聲開放平臺字錯率為 4.2%,依圖語音領先云知聲開放平臺近 17%。



    比如,在非公開數據集的電話場景中第一類「電話閑聊」場景下,只有依圖語音和訊飛聽見(異步模型)在稍微接近 15% 字錯率的下限,即「勉強可用」。而排名靠后的阿里云智能語音、云知聲開放平臺、騰訊 AI 開放平臺-WeChat、訊飛開放平臺、百度開放平臺遠場方案在電話閑聊、電話客服場景下均超過了 15% 字錯率,即「毫無可讀性」。



    在遠場演講場景下,除依圖語音和訊飛聽見(異步模型)的平均字錯率達到可用容錯范圍外,阿里云智能語音、云知聲開放平臺、微信開放平臺-WeChat 流式、百度開放平臺等基本「全軍覆沒」,均明顯高于平均字錯率 15% 的下限。此外,從測試結果中也可以看到,各家算法在遠場演講場景下的表現落差較大。


    有媒體人士評價,依圖如此掀開語音識別市場「遮羞簾」的做法真是耿直!



    此外,在通用性層面,柱狀圖寬度越小,說明字錯率浮動范圍越小,算法的場景通用性越好。綜合各場景測試的結果,業界主流算法中,依圖和訊飛的算法字錯率浮動范圍相對較小。


    上述檢測結果難免觸及其他友商的利益和技術權威性,業界不少人對其客觀性和公正性提出質疑,機器之心針對該類問題與依圖科學家吳雙博士向依圖進行了交流。值得注意的是,上述橫向對比方案均為各廠商的開放平臺方案,并未完全代表各家在語音識別領域的綜合實力水平。


    1、機器之心:測試結果采用自家測試的方案,在測試方法、測試設備的公平性上如何保證?測試對象是否符合雙盲隨機原則?


    吳雙:依圖自有的數據集、算法 API 將在近期公開。在所有公開數據集上的測試結果均可復現上述結果。基于非公開的各家自有數據測試集上的不同測試結果,我建議大家都把數據集公開,用公開的測試數據集的結果體現水平,這樣大家的測試結果均可以被其他家測試驗證,公正性就有了保證。


    2、機器之心:測試結果除了與軟件算法相關,硬件設備,尤其是麥克風陣列排布影響到的拾音效果也可能間接影響語音識別的準確率。上述展示的測試結果都是基于同一款設備嗎?


    吳雙:上述測試涉及到了多種硬件設備,比如智能音箱、手機以及其他硬件設備。我們希望能夠覆蓋更多硬件設備。硬件方案的確會影響語音識別效果。但是面向不同的識別場景,我們都是調用同一套算法,同一套 API。


    02 如何實現一年超越「訊飛」們?


    相比計算機視覺技術的發展和落地,語音識別研究顯然起步更早,對應的玩家形態和市場格局也更為成熟。眾所周知地,科大訊飛在語音識別領域的積淀和商業化已有十余年歷史,近幾年 BAT 玩家的涌入也來勢洶洶,接口免費、平臺開放的政策接二連三。在看似已成定局的賽場上,依圖如何后來者「居上」?


    談到語音識別領域的研發歷程,吳雙表示,大約是一年左右不到的時間,即去年底今年初投入力量進行語音識別方案的研發,但在語義理解層面,依圖已經有所建樹,比如在醫療領域,電子病歷理解的應用。


    實際上,早在今年的一次公開活動上,依圖科技聯合創始人林晨曦曾接受相關媒體采訪時表示,依圖科技接下來會繼續進軍語音識別和自然語言處理,要在這兩個領域也做到超越人類水平。


    相比語音識別領域已有的巨頭玩家,依圖在數據量積累和模型訓練時間等核心層面均不占據優勢。但是依圖卻在短短一年時間內,數據量相比巨頭有限的情況下,在部分測試集和核心指標上超過了前者。


    對于其原因,吳雙認為,強化學習、對抗學習等技巧層面的策略大家都會跟進,做算法優化并沒有捷徑。在方法論和做事態度層面有依圖在視覺領域的經驗作為基礎。目前,依圖語音的表現是相對意義上的性能提升,平均算法性能領先 11%,在某些特定的場景下領先更多。


    對于語音市場看似產品繁多,但真實體驗卻與宣傳效果存在差距的現象,依圖科技首席創新官、前 Google Research Scientist 呂昊博士認為主要原因有三,其一,業界缺乏系統性的標準測試、測試集,而覆蓋多維度多場景的數據成本過高;此外,工業界語音識別的水平已經遠超過學術界,但與此同時,也缺乏體驗和比較的工具。


    左為依圖科技首席創新官呂昊,右為華為智能計算渠道合作部部長康鑫


    活動現場,依圖方面還宣布了將聯合微軟推出語音開放平臺,依圖的語音識別方案將在微軟云 Azure 上線。依圖科技將聯合華為推出智能語音解決方案。此前,依圖還與華為聯合發布了面向泛安防場景的智慧園區和視頻云人像大數據解決方案。


    活動現場,華為智能計算渠道合作部部長康鑫談到,在華為的 160 個 ISV 中,依圖已經成為華為最頂級的 ISV 合作伙伴。從目前合作模式來看,依圖語音技術的落地方式主要面向 B 端客戶。


    據公開資料顯示,依圖科技最近一輪融資在今年 3 月完成,紅杉資本中國、高瓴資本、高榕資本等投資方也持續跟投,該輪融資中依圖科技公司整體估值為 150 億人民幣。


    對于依靠人工智能第四波浪潮快速成長的獨角獸而言,經過 2018 年落地商業化的考驗之后,拓寬業務領域和加強解決方案的完整性成為提升競爭力的關鍵。


    可以看到的是,以視覺方案為主的依圖、云從開始切入語音市場,而以語音方案為主的云知聲則開始在圖像識別領域布局。業內人士表示,在智能家居、智能汽車、智能醫療等領域,未來的交互肯定是多模態的,不會是單一的語音、或者單一的圖像功能。



    本文為機器之心原創,轉載請聯系本公眾號獲得授權

    ?------------------------------------------------

    加入機器之心(全職記者 / 實習生):hr@jiqizhixin.com

    投稿或尋求報道:content@jiqizhixin.com

    廣告 & 商務合作:bd@jiqizhixin.com

    總結

    以上是生活随笔為你收集整理的解密:依图如何一年实现语音识别指标超巨头玩家的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。