日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

科大讯飞语音引擎_科大讯飞的1024:语音技术进一步突破,发布专用芯片

發布時間:2025/3/21 编程问答 52 豆豆
生活随笔 收集整理的這篇文章主要介紹了 科大讯飞语音引擎_科大讯飞的1024:语音技术进一步突破,发布专用芯片 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

機器之心報道

作者:一鳴、蛋醬1024 作為程序員的節日被世人所知,而科大訊飛也會在每年這個時候舉辦開發者節日和相關活動。在今年的開發者節上,科大訊飛發布了更多關于平臺,產品和技術方面的信息。昨日,科大訊飛 1024 全球開發者節在合肥開幕。本屆開發者節的大會上,科大訊飛表示了繼續開源,賦能企業和百萬開發者的決心,并在技術和產品生態發布會上展示了多項新技術和產品。在開幕致辭中,科大訊飛董事長劉慶峰與大家分享了科大訊飛在 20 年創業經驗中,對人工智能未來發展的預判和感悟。他表示,人工智能到底處于什么樣的發展階段,要基于三個標準去判斷:人工智能不再只是個「概念」,要有看得見、摸得著的應用案例;這些案例能不能規模化推廣;有沒有統計數據可以證明應用效果。2019 年,各行各業不斷涌現的 AI 應用落地足以證明,人工智能的紅利階段已經到來。劉慶峰在演講中列舉了科大訊飛在 AI 領域的應用落地。比如在教育方面,人工智能讓教育者有效縮短批卷時間,對學生的訓練時間可以減少 50%,因此孔子在 2000 多年前提出的「因材施教」才真正得以實現;在醫療方面,人工智能可以將診斷水平提升到 90 分,提高診斷效率,讓高端優質的醫療專家資源向重大疑難疾病傾斜。劉慶峰強調,種種人工智能落地應用說明,AI 發展并非只是燒錢的玩具,人工智能可以解決人類的很多剛需問題。不斷升級,《1024 計劃》進入 3.0 時代自 2017 年首屆全球 1024 開發者節正式推出《1024 計劃》以后,科大訊飛一直在從 A.I. 教引、A.I. 生態、A.I. 公益三個方面,輔導、賦能開發者,關注公益事業。作為 1024 開發者大會的重要環節之一,科大訊飛輪值總裁胡郁發布了全新升級的《1024 計劃》。他表示:「科大訊飛將繼續堅定實行,共同打造去中心化的商業生態體系,通過 A.I. Agent 與各產業領域深度結合共同構建屬于不同領域生態的 Keystones。」在今年的版本中,A.I. 教引計劃、A.I. 生態計劃、A.I. 公益計劃分別升級到了 3.0 版本,希望能夠實現輔導、賦能開發者的初衷,同時更加關注公益事業。始于兩年前的 1024 計劃,科大訊飛正在進一步細化計劃內容,使其變得更為開放多元。在 1024 的發布會上,胡郁公布了一組數據:A.I. 大學逐漸發展成為國內首個最大的 A.I. 在線學習平臺,目前已擁有超過 31 萬學員;A.I. 生態計劃形成了能力星云、iFLYOS & A.I.oT、解決方案三大生態產品矩陣,目前亦吸引了 160 萬生態伙伴入駐;A.I. 公益的方言保護計劃則吸引 700 萬人參與,科大訊飛還為助殘應用免費提供技術支持,賦能殘障者與世界無障礙溝通。胡郁表示,1024 計劃的最終目的是為了打造去中心化的混合正交商業生態系統,形成圍繞 AI 技術和應用的商業體系。語音領域仍有驚喜,新技術持續突破今年的 1024 開發者節現場,科大訊飛著重進行了多項新技術展示,主要分為語音(語音識別、語音合成)、自然語言處理(機器翻譯)等和開放平臺板塊。科大訊飛研究院常務副院長劉聰介紹了科大訊飛在技術方面的主要突破。記憶增強的多通道全端到端語音識別框架在語音識別領域,科大訊飛雖然已經積累了成熟的技術經驗,但仍進一步探索提升語音識別技術的準確性和可靠性。在語音識別中,考慮到過去的識別需要首先收音,然后進行降噪處理再進行識別的方式較為復雜,且管道式的流程降低識別準確率的問題,今年的科大訊飛開發了名為「記憶增強的多通道全端到端語音識別框架」,這是一種完全將前端語音處理過程深度學習化,使用深度卷積神經網絡和后端識別模型進行混合訓練,進行直接語音識別的算法。具體而言,該算法采用 Encoder-Decoder 的架構,使用深層次卷積和后端識別模型進行混合訓練,使得神經網絡可以收音后進行前端信號處理和后端識別工作。此外,由于深度學習模型對長尾數據建模不夠理想,科大訊飛在該模型中引入了外部知識。例如,系統可以記錄下不同語種的熱詞,在語音識別的過程中讓模型進行調用,從而矯正識別過程中的問題。目前,科大訊飛在通用語音識別任務上的準確率已達到 98%。在最近開始出現的多語種混合的語音識別任務上,科大訊飛也進行了技術上的新研究。以中英混合輸入為例,通過采用 code-switching 的方案,使中英文混合輸入時,英文的準確性也達到了 90% 的水平。目前,在混合語音識別場景下,科大訊飛已實現了中英粵等多種語言方言的混合輸入技術。劉聰表示,雖然通用的語音識別技術能力已經達到很高的水平,但在定制化的場景下,科大訊飛依然在進行語音識別中更細分的技術研發工作。例如,在語音交互場景中,由于對識別實時性要求很高,模型需要根據設備進行嵌入式設計,這需要依賴專家知識,也耗費了很多研究者的精力。隨著近來 AutoML 技術的興起,科大訊飛也在語音識別的網絡架構搜索中使用了這項技術。搜索出的架構類似于殘差網路,相比業界主流的模型性能提升了 15% 以上。基于聽感量化的統一語音合成框架在語音合成方面,科大訊飛也展示了其具有的技術實力。首先,在 AI 新生態產品發布會開始時,特意讓劉聰變聲,使用主持人(女)的聲音和主持人進行普通話、合肥話方言的互動 PK。此外,發布活動中,科大訊飛將合成語音和電視臺主持人的圖像視頻結合,讓主持人開口唱《我和我的祖國》,同時保證了話音一致。這一技術的背后,離不開科大訊飛在語音合成方面進一步的積累探索。據劉聰介紹,科大訊飛研發出了名為「基于聽感量化的統一框架」,可以在語音合成過程中同時實現合成和聲音的變化。在模型中,其可以對各類輸入語音的特征進行量化編碼,提取諸如音色、音調、說話風格等方式的特征,使用編碼對合成的語音進行控制。由于單人語音合成對數據輸入量要求很高,且魯棒性相對不足,科大訊飛在模型中采用了 GAN 的架構。這也是目前少見的,利用 GAN 解決語音合成問題的方案。在今年的國際暴雪語音合成挑戰賽上,科大訊飛合成了羅振宇的脫口秀聲音,自然度分數達到 4.5,接近原聲的 4.7。機器翻譯融入語音統一框架機器翻譯方面一直是科大訊飛的強項。在過去的很多技術中,翻譯的整體流程是:針對每一種語言或方言,首先進行識別,然后再進行翻譯。在本次 1024 開發者節上,科大訊飛進一步介紹了在機器翻譯領域的新工作。具體而言,考慮到目前機器翻譯需要針對不同的模型構建模型、需求數據量大、對標注要求高的問題,科大訊飛提出了一些解決方法。首先,構建起一整套統一的建模方案,使得新的語言建模可以獲得語言信息,降低了對數據的依賴。其次,讓翻譯和語音識別、語言合成結合起來,構建端到端的模型,以便降低對數據標注要求的精度。最后,使用半監督和遷移學習,減少對數據量的需求。此外,在翻譯任務本身,科大訊飛也提出了新的翻譯模型,名為「融合領域知識的多通道半監督約束編解碼翻譯框架」。這是一個針對語音輸入進行機器翻譯的模型,用于解決機器翻譯任務中的三個難點。首先,語音輸入相比文本文字帶有更多的說話人的信息,如聲調高低、抑揚頓挫等。如果將其轉換為文字后再識別,無疑會失去這些有用的信息。因此,在這一模型中,科大訊飛加入了多通道編碼機制,將語音的序列、文本標簽等多種信息和原始的機器翻譯模型結合,使翻譯文本有著更多的容錯空間。同時,由于機器翻譯在長文本中的翻譯水平不夠理想,科大訊飛在研究中加入了語義分塊的約束解碼機制。其中,語義分塊用于加速翻譯進程,而約束解碼可以降低損失。這使得翻譯模型從簡單的旅游口語對話翻譯場景擴展到大型會議方面的場景上。據悉,科大訊飛在與中國外文局科研測試中,其模型已全國翻譯專業資格考試的二級交傳口譯和三級口譯的水平測試。這一技術預計將會在 2022 年的冬奧會上使用。除了語音和機器翻譯相關的技術突破,科大訊飛今年也進一步探索了其他的技術領域和任務,包括個性化推薦、機器閱讀理解和 OCR 等。在個性化推薦方面,科大訊飛將模型應用于教育領域,實現對學生學習能力的精準評估,并根據知識圖譜等方式,為學生推薦個性化、定制化的教育方案。在機器閱讀理解方面,科大訊飛宣布其和哈工大共同研究的模型已經在 SQuAD 2.0 榜單上超過人類平均水平(以 F1 和 EM 分數評價)。此外,科大訊飛開發了 OCR 相關的技術,可以在有很多圖章、表格、文本符號的情況下識別文本內容。這一研究已廣泛應用于法院相關的工作,如卷宗和材料整理、證據鏈的電子化等。該技術近日也和其他技術相結合,甚至可以提供證據材料的對比和瑕疵識別方面的服務。使用帶有語義分割能力的模型進行 OCR 識別。助力開發者:訊飛平臺進一步開放在當天的技術發布會上,科大訊飛宣布了兩個技術相關的平臺開源計劃,分別為歸云平臺和飛云平臺。歸云平臺主要是面向各類實際應用的開發者,為他們提供科大訊飛的各項技術能力,包括前述提到的各項語音識別、合成等。更重要的是,歸云平臺可以讓將多種能力進行組合,使用拖拽式的方式構建一個統一的業務管道。例如,歸云平臺提供 OCR、語音合成、機器翻譯三項能力,開發者可以將這些能力組合,形成一個首先識別文字,然后進行翻譯,最后使用合成聲音朗讀的業務流程。流程建立后,科大訊飛提供一個獨有的 API 接口,開發者可直接調用,不需要關心內部的協議等實現細節。

此外,科大訊飛還提供了飛云平臺,讓開發者將開發好的模型和能力上傳至云端,由飛云平臺提供分布式計算和性能加速方面的服務。AIoT 領域持續發力,語音專用芯片驚艷在 1024 開發者節上,科大訊飛副總裁于繼棟介紹了發布的 iFLYOS 平臺的進展情況,以及一些新的產品。iFLYOS 成為產品智能化入口首先,于繼棟介紹了 iFLYOS 對于科大訊飛的重要意義。iFLYOS 通過集成科大訊飛各項 AI 能力,幫助企業在產品中獲得這些能力,從而打造 AIoT 產品。為了加快 AI 應用落地,iFLYOS 集成了多項新功能。首先是 iFLYOS-studio,開發者可以在可視化界面中進行編程工作,并打造新的應用。此外,iFLYOS 和集成了多種內容和技術,供開發者使用。同時,iFLYOS 和硬件方面進行了打通,目前可以適配如 MT8516 等多種芯片硬件,使得在移動和嵌入式設備中部署模型更加方面。此外,iFLYOS 還提供了公版模型。開發者可使用這些模型,結合業務需要重新定制自身的產品。隨后,于繼棟介紹了科大訊飛在多個領域中的技術應用情況,提到了智能家居、車載系統、兒童教育等方面的應用。基于 iFLYOS,科大訊飛開源了多個相關應用場景的開發平臺,如 iFLYOS-Auto、Athena Serving 等。在應用開發方面,科大訊飛介紹了在開源方面的工作,其中包括 AI-Factory 和能力星云 2.0 計劃。AI-Factory 是一個 API 工廠,為開發者提供定制化優化算法的相關技術。據于繼棟介紹,在 2019 年年底之前,語音相關的技術能力便會登陸平臺。而在明年上半年則會增加計算機視覺、自然語言理解等方面的技術。能力星云 2.0 則是 AI 全棧服務平臺,通過引入研究者和開發者的方式創造更多的 AI 能力。布局芯片,穹天科技浮出水面在 AI 生態產品發布環節,科大訊飛集團副總裁、消費者 BG 副總裁于繼棟正式發布了聯合生態合作伙伴打造的家電行業專用語音芯片 CSK400X 系列。于繼棟表示,AIoT 已經成為科大訊飛的核心戰略之一。在 AIoT 時代,智能硬件市場對芯片的算力提出了更高的需求,但從芯片市場的現狀來看,高算力與價格往往難以取得平衡,而且芯片與算法的適配難度比較高,MCU 也常常并非針對神經網絡而設計。科大訊飛與生態合作伙伴穹天科技根據訊飛 AI 算法為 CSK400X 系列語音芯片設計了 NPU 框架與規格,并設計了針對神經網絡的底層算子。據了解,這款芯片可借助神經網絡算法解決家居中的噪音問題,算力可達到 128GOPS,同時支持全棧語音能力,包括離線喚醒、遠場陣列降噪、回聲消除等優化功能,適用智能家電、玩具、音箱、離線門禁等落地場景。從科大訊飛 1024 開發者節發布會上可以看到,盡管 AI 技術已日臻成熟,但如何在細分場景做到最好,如何進一步推進 AI 技術廣泛應用仍是科大訊飛思考的問題。隨著其平臺的逐步開放,與開發者和合作企業進行更緊密的交流互動,推進 AI 整體生態的建設,無疑是下一步前進的方向。

第三屆機器之心「Synced Machine Intelligence Awards」年度獎項評選正在進行中。本次評選設置六大獎項重點關注人工智能公司的產品、應用案例和產業落地情況,基于真實客觀的產業表現篩選出最值得關注的企業,為行業帶來實際的參考價值。

參選報名日期:2019 年 10 月 23 日~2019 年 12 月 15 日評審期:2019 年 12 月 16 日~2019 年 12 月 31 日獎項公布:2020 年 1 月

點擊,查看更多詳情并報名參選。 《新程序員》:云原生和全面數字化實踐50位技術專家共同創作,文字、視頻、音頻交互閱讀

總結

以上是生活随笔為你收集整理的科大讯飞语音引擎_科大讯飞的1024:语音技术进一步突破,发布专用芯片的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。