當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

科大讯飞语音引擎_科大讯飞的1024：语音技术进一步突破，发布专用芯片

發(fā)布時(shí)間：2025/3/21 编程问答 83 豆豆

生活随笔收集整理的這篇文章主要介紹了科大讯飞语音引擎_科大讯飞的1024：语音技术进一步突破，发布专用芯片小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

機(jī)器之心報(bào)道

作者：一鳴、蛋醬1024 作為程序員的節(jié)日被世人所知，而科大訊飛也會(huì)在每年這個(gè)時(shí)候舉辦開(kāi)發(fā)者節(jié)日和相關(guān)活動(dòng)。在今年的開(kāi)發(fā)者節(jié)上，科大訊飛發(fā)布了更多關(guān)于平臺(tái)，產(chǎn)品和技術(shù)方面的信息。昨日，科大訊飛 1024 全球開(kāi)發(fā)者節(jié)在合肥開(kāi)幕。本屆開(kāi)發(fā)者節(jié)的大會(huì)上，科大訊飛表示了繼續(xù)開(kāi)源，賦能企業(yè)和百萬(wàn)開(kāi)發(fā)者的決心，并在技術(shù)和產(chǎn)品生態(tài)發(fā)布會(huì)上展示了多項(xiàng)新技術(shù)和產(chǎn)品。在開(kāi)幕致辭中，科大訊飛董事長(zhǎng)劉慶峰與大家分享了科大訊飛在 20 年創(chuàng)業(yè)經(jīng)驗(yàn)中，對(duì)人工智能未來(lái)發(fā)展的預(yù)判和感悟。他表示，人工智能到底處于什么樣的發(fā)展階段，要基于三個(gè)標(biāo)準(zhǔn)去判斷：人工智能不再只是個(gè)「概念」，要有看得見(jiàn)、摸得著的應(yīng)用案例；這些案例能不能規(guī)模化推廣；有沒(méi)有統(tǒng)計(jì)數(shù)據(jù)可以證明應(yīng)用效果。2019 年，各行各業(yè)不斷涌現(xiàn)的 AI 應(yīng)用落地足以證明，人工智能的紅利階段已經(jīng)到來(lái)。劉慶峰在演講中列舉了科大訊飛在 AI 領(lǐng)域的應(yīng)用落地。比如在教育方面，人工智能讓教育者有效縮短批卷時(shí)間，對(duì)學(xué)生的訓(xùn)練時(shí)間可以減少 50%，因此孔子在 2000 多年前提出的「因材施教」才真正得以實(shí)現(xiàn)；在醫(yī)療方面，人工智能可以將診斷水平提升到 90 分，提高診斷效率，讓高端優(yōu)質(zhì)的醫(yī)療專家資源向重大疑難疾病傾斜。劉慶峰強(qiáng)調(diào)，種種人工智能落地應(yīng)用說(shuō)明，AI 發(fā)展并非只是燒錢的玩具，人工智能可以解決人類的很多剛需問(wèn)題。不斷升級(jí)，《1024 計(jì)劃》進(jìn)入 3.0 時(shí)代自 2017 年首屆全球 1024 開(kāi)發(fā)者節(jié)正式推出《1024 計(jì)劃》以后，科大訊飛一直在從 A.I. 教引、A.I. 生態(tài)、A.I. 公益三個(gè)方面，輔導(dǎo)、賦能開(kāi)發(fā)者，關(guān)注公益事業(yè)。作為 1024 開(kāi)發(fā)者大會(huì)的重要環(huán)節(jié)之一，科大訊飛輪值總裁胡郁發(fā)布了全新升級(jí)的《1024 計(jì)劃》。他表示：「科大訊飛將繼續(xù)堅(jiān)定實(shí)行，共同打造去中心化的商業(yè)生態(tài)體系，通過(guò) A.I. Agent 與各產(chǎn)業(yè)領(lǐng)域深度結(jié)合共同構(gòu)建屬于不同領(lǐng)域生態(tài)的 Keystones。」在今年的版本中，A.I. 教引計(jì)劃、A.I. 生態(tài)計(jì)劃、A.I. 公益計(jì)劃分別升級(jí)到了 3.0 版本，希望能夠?qū)崿F(xiàn)輔導(dǎo)、賦能開(kāi)發(fā)者的初衷，同時(shí)更加關(guān)注公益事業(yè)。始于兩年前的 1024 計(jì)劃，科大訊飛正在進(jìn)一步細(xì)化計(jì)劃內(nèi)容，使其變得更為開(kāi)放多元。在 1024 的發(fā)布會(huì)上，胡郁公布了一組數(shù)據(jù)：A.I. 大學(xué)逐漸發(fā)展成為國(guó)內(nèi)首個(gè)最大的 A.I. 在線學(xué)習(xí)平臺(tái)，目前已擁有超過(guò) 31 萬(wàn)學(xué)員；A.I. 生態(tài)計(jì)劃形成了能力星云、iFLYOS & A.I.oT、解決方案三大生態(tài)產(chǎn)品矩陣，目前亦吸引了 160 萬(wàn)生態(tài)伙伴入駐；A.I. 公益的方言保護(hù)計(jì)劃則吸引 700 萬(wàn)人參與，科大訊飛還為助殘應(yīng)用免費(fèi)提供技術(shù)支持，賦能殘障者與世界無(wú)障礙溝通。胡郁表示，1024 計(jì)劃的最終目的是為了打造去中心化的混合正交商業(yè)生態(tài)系統(tǒng)，形成圍繞 AI 技術(shù)和應(yīng)用的商業(yè)體系。語(yǔ)音領(lǐng)域仍有驚喜，新技術(shù)持續(xù)突破今年的 1024 開(kāi)發(fā)者節(jié)現(xiàn)場(chǎng)，科大訊飛著重進(jìn)行了多項(xiàng)新技術(shù)展示，主要分為語(yǔ)音(語(yǔ)音識(shí)別、語(yǔ)音合成)、自然語(yǔ)言處理(機(jī)器翻譯)等和開(kāi)放平臺(tái)板塊?？拼笥嶏w研究院常務(wù)副院長(zhǎng)劉聰介紹了科大訊飛在技術(shù)方面的主要突破。記憶增強(qiáng)的多通道全端到端語(yǔ)音識(shí)別框架在語(yǔ)音識(shí)別領(lǐng)域，科大訊飛雖然已經(jīng)積累了成熟的技術(shù)經(jīng)驗(yàn)，但仍進(jìn)一步探索提升語(yǔ)音識(shí)別技術(shù)的準(zhǔn)確性和可靠性。在語(yǔ)音識(shí)別中，考慮到過(guò)去的識(shí)別需要首先收音，然后進(jìn)行降噪處理再進(jìn)行識(shí)別的方式較為復(fù)雜，且管道式的流程降低識(shí)別準(zhǔn)確率的問(wèn)題，今年的科大訊飛開(kāi)發(fā)了名為「記憶增強(qiáng)的多通道全端到端語(yǔ)音識(shí)別框架」，這是一種完全將前端語(yǔ)音處理過(guò)程深度學(xué)習(xí)化，使用深度卷積神經(jīng)網(wǎng)絡(luò)和后端識(shí)別模型進(jìn)行混合訓(xùn)練，進(jìn)行直接語(yǔ)音識(shí)別的算法。具體而言，該算法采用 Encoder-Decoder 的架構(gòu)，使用深層次卷積和后端識(shí)別模型進(jìn)行混合訓(xùn)練，使得神經(jīng)網(wǎng)絡(luò)可以收音后進(jìn)行前端信號(hào)處理和后端識(shí)別工作。此外，由于深度學(xué)習(xí)模型對(duì)長(zhǎng)尾數(shù)據(jù)建模不夠理想，科大訊飛在該模型中引入了外部知識(shí)。例如，系統(tǒng)可以記錄下不同語(yǔ)種的熱詞，在語(yǔ)音識(shí)別的過(guò)程中讓模型進(jìn)行調(diào)用，從而矯正識(shí)別過(guò)程中的問(wèn)題。目前，科大訊飛在通用語(yǔ)音識(shí)別任務(wù)上的準(zhǔn)確率已達(dá)到 98%。在最近開(kāi)始出現(xiàn)的多語(yǔ)種混合的語(yǔ)音識(shí)別任務(wù)上，科大訊飛也進(jìn)行了技術(shù)上的新研究。以中英混合輸入為例，通過(guò)采用 code-switching 的方案，使中英文混合輸入時(shí)，英文的準(zhǔn)確性也達(dá)到了 90% 的水平。目前，在混合語(yǔ)音識(shí)別場(chǎng)景下，科大訊飛已實(shí)現(xiàn)了中英粵等多種語(yǔ)言方言的混合輸入技術(shù)。劉聰表示，雖然通用的語(yǔ)音識(shí)別技術(shù)能力已經(jīng)達(dá)到很高的水平，但在定制化的場(chǎng)景下，科大訊飛依然在進(jìn)行語(yǔ)音識(shí)別中更細(xì)分的技術(shù)研發(fā)工作。例如，在語(yǔ)音交互場(chǎng)景中，由于對(duì)識(shí)別實(shí)時(shí)性要求很高，模型需要根據(jù)設(shè)備進(jìn)行嵌入式設(shè)計(jì)，這需要依賴專家知識(shí)，也耗費(fèi)了很多研究者的精力。隨著近來(lái) AutoML 技術(shù)的興起，科大訊飛也在語(yǔ)音識(shí)別的網(wǎng)絡(luò)架構(gòu)搜索中使用了這項(xiàng)技術(shù)。搜索出的架構(gòu)類似于殘差網(wǎng)路，相比業(yè)界主流的模型性能提升了 15% 以上。基于聽(tīng)感量化的統(tǒng)一語(yǔ)音合成框架在語(yǔ)音合成方面，科大訊飛也展示了其具有的技術(shù)實(shí)力。首先，在 AI 新生態(tài)產(chǎn)品發(fā)布會(huì)開(kāi)始時(shí)，特意讓劉聰變聲，使用主持人(女)的聲音和主持人進(jìn)行普通話、合肥話方言的互動(dòng) PK。此外，發(fā)布活動(dòng)中，科大訊飛將合成語(yǔ)音和電視臺(tái)主持人的圖像視頻結(jié)合，讓主持人開(kāi)口唱《我和我的祖國(guó)》，同時(shí)保證了話音一致。這一技術(shù)的背后，離不開(kāi)科大訊飛在語(yǔ)音合成方面進(jìn)一步的積累探索。據(jù)劉聰介紹，科大訊飛研發(fā)出了名為「基于聽(tīng)感量化的統(tǒng)一框架」，可以在語(yǔ)音合成過(guò)程中同時(shí)實(shí)現(xiàn)合成和聲音的變化。在模型中，其可以對(duì)各類輸入語(yǔ)音的特征進(jìn)行量化編碼，提取諸如音色、音調(diào)、說(shuō)話風(fēng)格等方式的特征，使用編碼對(duì)合成的語(yǔ)音進(jìn)行控制。由于單人語(yǔ)音合成對(duì)數(shù)據(jù)輸入量要求很高，且魯棒性相對(duì)不足，科大訊飛在模型中采用了 GAN 的架構(gòu)。這也是目前少見(jiàn)的，利用 GAN 解決語(yǔ)音合成問(wèn)題的方案。在今年的國(guó)際暴雪語(yǔ)音合成挑戰(zhàn)賽上，科大訊飛合成了羅振宇的脫口秀聲音，自然度分?jǐn)?shù)達(dá)到 4.5，接近原聲的 4.7。機(jī)器翻譯融入語(yǔ)音統(tǒng)一框架機(jī)器翻譯方面一直是科大訊飛的強(qiáng)項(xiàng)。在過(guò)去的很多技術(shù)中，翻譯的整體流程是：針對(duì)每一種語(yǔ)言或方言，首先進(jìn)行識(shí)別，然后再進(jìn)行翻譯。在本次 1024 開(kāi)發(fā)者節(jié)上，科大訊飛進(jìn)一步介紹了在機(jī)器翻譯領(lǐng)域的新工作。具體而言，考慮到目前機(jī)器翻譯需要針對(duì)不同的模型構(gòu)建模型、需求數(shù)據(jù)量大、對(duì)標(biāo)注要求高的問(wèn)題，科大訊飛提出了一些解決方法。首先，構(gòu)建起一整套統(tǒng)一的建模方案，使得新的語(yǔ)言建?？梢垣@得語(yǔ)言信息，降低了對(duì)數(shù)據(jù)的依賴。其次，讓翻譯和語(yǔ)音識(shí)別、語(yǔ)言合成結(jié)合起來(lái)，構(gòu)建端到端的模型，以便降低對(duì)數(shù)據(jù)標(biāo)注要求的精度。最后，使用半監(jiān)督和遷移學(xué)習(xí)，減少對(duì)數(shù)據(jù)量的需求。此外，在翻譯任務(wù)本身，科大訊飛也提出了新的翻譯模型，名為「融合領(lǐng)域知識(shí)的多通道半監(jiān)督約束編解碼翻譯框架」。這是一個(gè)針對(duì)語(yǔ)音輸入進(jìn)行機(jī)器翻譯的模型，用于解決機(jī)器翻譯任務(wù)中的三個(gè)難點(diǎn)。首先，語(yǔ)音輸入相比文本文字帶有更多的說(shuō)話人的信息，如聲調(diào)高低、抑揚(yáng)頓挫等。如果將其轉(zhuǎn)換為文字后再識(shí)別，無(wú)疑會(huì)失去這些有用的信息。因此，在這一模型中，科大訊飛加入了多通道編碼機(jī)制，將語(yǔ)音的序列、文本標(biāo)簽等多種信息和原始的機(jī)器翻譯模型結(jié)合，使翻譯文本有著更多的容錯(cuò)空間。同時(shí)，由于機(jī)器翻譯在長(zhǎng)文本中的翻譯水平不夠理想，科大訊飛在研究中加入了語(yǔ)義分塊的約束解碼機(jī)制。其中，語(yǔ)義分塊用于加速翻譯進(jìn)程，而約束解碼可以降低損失。這使得翻譯模型從簡(jiǎn)單的旅游口語(yǔ)對(duì)話翻譯場(chǎng)景擴(kuò)展到大型會(huì)議方面的場(chǎng)景上。據(jù)悉，科大訊飛在與中國(guó)外文局科研測(cè)試中，其模型已全國(guó)翻譯專業(yè)資格考試的二級(jí)交傳口譯和三級(jí)口譯的水平測(cè)試。這一技術(shù)預(yù)計(jì)將會(huì)在 2022 年的冬奧會(huì)上使用。除了語(yǔ)音和機(jī)器翻譯相關(guān)的技術(shù)突破，科大訊飛今年也進(jìn)一步探索了其他的技術(shù)領(lǐng)域和任務(wù)，包括個(gè)性化推薦、機(jī)器閱讀理解和 OCR 等。在個(gè)性化推薦方面，科大訊飛將模型應(yīng)用于教育領(lǐng)域，實(shí)現(xiàn)對(duì)學(xué)生學(xué)習(xí)能力的精準(zhǔn)評(píng)估，并根據(jù)知識(shí)圖譜等方式，為學(xué)生推薦個(gè)性化、定制化的教育方案。在機(jī)器閱讀理解方面，科大訊飛宣布其和哈工大共同研究的模型已經(jīng)在 SQuAD 2.0 榜單上超過(guò)人類平均水平(以 F1 和 EM 分?jǐn)?shù)評(píng)價(jià))。此外，科大訊飛開(kāi)發(fā)了 OCR 相關(guān)的技術(shù)，可以在有很多圖章、表格、文本符號(hào)的情況下識(shí)別文本內(nèi)容。這一研究已廣泛應(yīng)用于法院相關(guān)的工作，如卷宗和材料整理、證據(jù)鏈的電子化等。該技術(shù)近日也和其他技術(shù)相結(jié)合，甚至可以提供證據(jù)材料的對(duì)比和瑕疵識(shí)別方面的服務(wù)。使用帶有語(yǔ)義分割能力的模型進(jìn)行 OCR 識(shí)別。助力開(kāi)發(fā)者：訊飛平臺(tái)進(jìn)一步開(kāi)放在當(dāng)天的技術(shù)發(fā)布會(huì)上，科大訊飛宣布了兩個(gè)技術(shù)相關(guān)的平臺(tái)開(kāi)源計(jì)劃，分別為歸云平臺(tái)和飛云平臺(tái)。歸云平臺(tái)主要是面向各類實(shí)際應(yīng)用的開(kāi)發(fā)者，為他們提供科大訊飛的各項(xiàng)技術(shù)能力，包括前述提到的各項(xiàng)語(yǔ)音識(shí)別、合成等。更重要的是，歸云平臺(tái)可以讓將多種能力進(jìn)行組合，使用拖拽式的方式構(gòu)建一個(gè)統(tǒng)一的業(yè)務(wù)管道。例如，歸云平臺(tái)提供 OCR、語(yǔ)音合成、機(jī)器翻譯三項(xiàng)能力，開(kāi)發(fā)者可以將這些能力組合，形成一個(gè)首先識(shí)別文字，然后進(jìn)行翻譯，最后使用合成聲音朗讀的業(yè)務(wù)流程。流程建立后，科大訊飛提供一個(gè)獨(dú)有的 API 接口，開(kāi)發(fā)者可直接調(diào)用，不需要關(guān)心內(nèi)部的協(xié)議等實(shí)現(xiàn)細(xì)節(jié)。

此外，科大訊飛還提供了飛云平臺(tái)，讓開(kāi)發(fā)者將開(kāi)發(fā)好的模型和能力上傳至云端，由飛云平臺(tái)提供分布式計(jì)算和性能加速方面的服務(wù)。AIoT 領(lǐng)域持續(xù)發(fā)力，語(yǔ)音專用芯片驚艷在 1024 開(kāi)發(fā)者節(jié)上，科大訊飛副總裁于繼棟介紹了發(fā)布的 iFLYOS 平臺(tái)的進(jìn)展情況，以及一些新的產(chǎn)品。iFLYOS 成為產(chǎn)品智能化入口首先，于繼棟介紹了 iFLYOS 對(duì)于科大訊飛的重要意義。iFLYOS 通過(guò)集成科大訊飛各項(xiàng) AI 能力，幫助企業(yè)在產(chǎn)品中獲得這些能力，從而打造 AIoT 產(chǎn)品。為了加快 AI 應(yīng)用落地，iFLYOS 集成了多項(xiàng)新功能。首先是 iFLYOS-studio，開(kāi)發(fā)者可以在可視化界面中進(jìn)行編程工作，并打造新的應(yīng)用。此外，iFLYOS 和集成了多種內(nèi)容和技術(shù)，供開(kāi)發(fā)者使用。同時(shí)，iFLYOS 和硬件方面進(jìn)行了打通，目前可以適配如 MT8516 等多種芯片硬件，使得在移動(dòng)和嵌入式設(shè)備中部署模型更加方面。此外，iFLYOS 還提供了公版模型。開(kāi)發(fā)者可使用這些模型，結(jié)合業(yè)務(wù)需要重新定制自身的產(chǎn)品。隨后，于繼棟介紹了科大訊飛在多個(gè)領(lǐng)域中的技術(shù)應(yīng)用情況，提到了智能家居、車載系統(tǒng)、兒童教育等方面的應(yīng)用?；?iFLYOS，科大訊飛開(kāi)源了多個(gè)相關(guān)應(yīng)用場(chǎng)景的開(kāi)發(fā)平臺(tái)，如 iFLYOS-Auto、Athena Serving 等。在應(yīng)用開(kāi)發(fā)方面，科大訊飛介紹了在開(kāi)源方面的工作，其中包括 AI-Factory 和能力星云 2.0 計(jì)劃。AI-Factory 是一個(gè) API 工廠，為開(kāi)發(fā)者提供定制化優(yōu)化算法的相關(guān)技術(shù)。據(jù)于繼棟介紹，在 2019 年年底之前，語(yǔ)音相關(guān)的技術(shù)能力便會(huì)登陸平臺(tái)。而在明年上半年則會(huì)增加計(jì)算機(jī)視覺(jué)、自然語(yǔ)言理解等方面的技術(shù)。能力星云 2.0 則是 AI 全棧服務(wù)平臺(tái)，通過(guò)引入研究者和開(kāi)發(fā)者的方式創(chuàng)造更多的 AI 能力。布局芯片，穹天科技浮出水面在 AI 生態(tài)產(chǎn)品發(fā)布環(huán)節(jié)，科大訊飛集團(tuán)副總裁、消費(fèi)者 BG 副總裁于繼棟正式發(fā)布了聯(lián)合生態(tài)合作伙伴打造的家電行業(yè)專用語(yǔ)音芯片 CSK400X 系列。于繼棟表示，AIoT 已經(jīng)成為科大訊飛的核心戰(zhàn)略之一。在 AIoT 時(shí)代，智能硬件市場(chǎng)對(duì)芯片的算力提出了更高的需求，但從芯片市場(chǎng)的現(xiàn)狀來(lái)看，高算力與價(jià)格往往難以取得平衡，而且芯片與算法的適配難度比較高，MCU 也常常并非針對(duì)神經(jīng)網(wǎng)絡(luò)而設(shè)計(jì)?？拼笥嶏w與生態(tài)合作伙伴穹天科技根據(jù)訊飛 AI 算法為 CSK400X 系列語(yǔ)音芯片設(shè)計(jì)了 NPU 框架與規(guī)格，并設(shè)計(jì)了針對(duì)神經(jīng)網(wǎng)絡(luò)的底層算子。據(jù)了解，這款芯片可借助神經(jīng)網(wǎng)絡(luò)算法解決家居中的噪音問(wèn)題，算力可達(dá)到 128GOPS，同時(shí)支持全棧語(yǔ)音能力，包括離線喚醒、遠(yuǎn)場(chǎng)陣列降噪、回聲消除等優(yōu)化功能，適用智能家電、玩具、音箱、離線門禁等落地場(chǎng)景。從科大訊飛 1024 開(kāi)發(fā)者節(jié)發(fā)布會(huì)上可以看到，盡管 AI 技術(shù)已日臻成熟，但如何在細(xì)分場(chǎng)景做到最好，如何進(jìn)一步推進(jìn) AI 技術(shù)廣泛應(yīng)用仍是科大訊飛思考的問(wèn)題。隨著其平臺(tái)的逐步開(kāi)放，與開(kāi)發(fā)者和合作企業(yè)進(jìn)行更緊密的交流互動(dòng)，推進(jìn) AI 整體生態(tài)的建設(shè)，無(wú)疑是下一步前進(jìn)的方向。

第三屆機(jī)器之心「Synced Machine Intelligence Awards」年度獎(jiǎng)項(xiàng)評(píng)選正在進(jìn)行中。本次評(píng)選設(shè)置六大獎(jiǎng)項(xiàng)，重點(diǎn)關(guān)注人工智能公司的產(chǎn)品、應(yīng)用案例和產(chǎn)業(yè)落地情況，基于真實(shí)客觀的產(chǎn)業(yè)表現(xiàn)篩選出最值得關(guān)注的企業(yè)，為行業(yè)帶來(lái)實(shí)際的參考價(jià)值。

參選報(bào)名日期：2019 年 10 月 23 日~2019 年 12 月 15 日評(píng)審期：2019 年 12 月 16 日~2019 年 12 月 31 日獎(jiǎng)項(xiàng)公布：2020 年 1 月

點(diǎn)擊，查看更多詳情并報(bào)名參選。《新程序員》：云原生和全面數(shù)字化實(shí)踐50位技術(shù)專家共同創(chuàng)作，文字、視頻、音頻交互閱讀

總結(jié)

以上是生活随笔為你收集整理的科大讯飞语音引擎_科大讯飞的1024：语音技术进一步突破，发布专用芯片的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：开课吧怎么样_开课吧数据产品经理课程包括
下一篇：如何看exe文件源代码_杀进程、删文件.

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

科大讯飞语音引擎_科大讯飞的1024：语音技术进一步突破，发布专用芯片

總結(jié)