日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

硬核干货,老曹解密“语音交互”背后的黑科技!

發(fā)布時間:2025/3/16 编程问答 35 豆豆
生活随笔 收集整理的這篇文章主要介紹了 硬核干货,老曹解密“语音交互”背后的黑科技! 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

點(diǎn)擊▲關(guān)注 “中生代技術(shù)”? ?給公眾號標(biāo)星置頂

更多精彩技術(shù)內(nèi)容 第一時間直達(dá)

第?6 期出席《大咖來了》直播欄目的嘉賓是百度 DuerOS?首席布道師曹洪偉,進(jìn)行了主題為《面向交互的人工智能》的分享。

主要講解了語音交互中用到的 AI 技術(shù),如 ASR、NLU、NLG、TTS 等,以及基于這些細(xì)分技術(shù)構(gòu)建的面向?qū)υ捠降娜斯ぶ悄懿僮飨到y(tǒng)——DuerOS。

通過本次分享大家可以基本上掌握如何在智能語音交互平臺上開發(fā)應(yīng)用,進(jìn)一步體會智能語音如何服務(wù)我們的生活。

1

語音使人機(jī)交互更加便捷

什么是交互?

交互是指 A 和 B 之間的一系列動作和行為,語出《京氏易傳·震》:“震分陰陽,交互用事”。

那什么是人機(jī)交互呢?

人機(jī)交互是一門研究系統(tǒng)與用戶之間的互動關(guān)系的學(xué)問。系統(tǒng)可以是各種各樣的機(jī)器,也可以是計算機(jī)化的系統(tǒng)和軟件。

人機(jī)交互重點(diǎn)研究用戶與計算機(jī)之間的接口,既包括人類與計算機(jī)的交互方式,也包括設(shè)計技術(shù),使人類以新穎的方式與計算機(jī)交互。人機(jī)交互與人機(jī)界面是兩個有著緊密聯(lián)系而又不盡相同的概念。

在計算機(jī)時代,人機(jī)交互的發(fā)展歷程如下圖所示:

從鍵盤+鼠標(biāo)到使用觸摸屏,再到語音交互,人機(jī)交互在不斷地演進(jìn),由面向機(jī)器的人機(jī)交互,演變?yōu)槊嫦蛴脩糇陨淼慕换ァ?/p>

語音是非常低成本的溝通手段和工具,為我們帶來非常大的便利。

語音交互的優(yōu)勢在于:

  • 其一是速度,每分鐘可以說 120?到 150 個字。

  • 其二是釋放雙手,做飯時通過語音可以完成一些期望做的事。

  • 其三是直覺性,語言是人類的天賦,也是人類交際溝通的自然手段。

  • 其四是同理心,語音中包含了語氣、音量、語調(diào)和語速,這些特征傳達(dá)了大量的信息。

語音交互離不開人工智能技術(shù),在語音交互中所涉及的人工智能技術(shù)如下圖所示:

如今,智能語音交互正在為我們服務(wù),背后有一整套完整的技術(shù)和流程,從語音喚醒到自動語音識別,再到自然語言理解,最終通過自然語言生成以及語音合成技術(shù)形成反饋,整套流程背后又有很多細(xì)分的 AI 技術(shù)在支持,如對話管理、深度學(xué)習(xí),DNN、CNN、NLP、TTS 等。

面對涉及如此之廣的 AI 技術(shù), 我們怎樣才能應(yīng)用到工作和生活之中呢?

這和我們有了計算機(jī)之后,如何使用計算機(jī)是類似的。計算機(jī)上的操作系統(tǒng)及其 API 為程序員們打開了計算機(jī)世界的大門。

面向智能交互的 AI 系統(tǒng), 我們同樣需要一個類似的操作系統(tǒng),才能方便而且高效地構(gòu)建我們的人工智能交互應(yīng)用。

2

面向語音交互的 DuerOS 操作系統(tǒng)

百度的 DuerOS 是一個面向語音交互的對話式人工智能操作系統(tǒng),在包含了語音交互的整套流程的同時,還提供開放能力平臺,如 SDK、工具、編程接口和設(shè)備等,如下圖所示:

DuerOS 操作系統(tǒng)有三個層面,分別是智能設(shè)備開放平臺(應(yīng)用層)、對話核心系統(tǒng)(核心層)和技能開放平臺(能力層)。

下面我們進(jìn)一步從基于 DuerOS 的智能語音設(shè)備、智能語音設(shè)備的工作原理、智能語音交互的交互流程和智能語音應(yīng)用的開發(fā)流程等方面了解 DuerOS 操作系統(tǒng)。

了解一個操作系統(tǒng)主要是看有哪些語音設(shè)備,基于這些設(shè)備才能進(jìn)行具體的應(yīng)用開放,DuerOS 的智能語音設(shè)備有很多,部分的小度系列產(chǎn)品如下圖:

DuerOS 廣泛適用于音箱、電視、冰箱、手機(jī)、機(jī)器人、車載、可穿戴、玩具等多種場景及設(shè)備,這些智能語音設(shè)備的工作原理是怎樣的呢?

相比傳統(tǒng)設(shè)備,智能語音設(shè)備是面向交互的,通過語音、觸屏進(jìn)行輸入,利用 TTS、麥克風(fēng)、信號處理等手段,把本地能力轉(zhuǎn)移到云端,再利用云端 ASR、TTS、NLU、NLG 等具體的 AI 技術(shù)實(shí)現(xiàn)智能語音,最后把業(yè)務(wù)引擎、業(yè)務(wù)資源和技能服務(wù)進(jìn)行融合,這樣就可以通過語音完成一系列服務(wù),如下圖所示:

技能開放平臺包含很多層次,如底層基礎(chǔ)能力、BOT-SDK、配置服務(wù)、協(xié)議開放、平臺開放、周邊工具等。下面介紹一下智能語音交互應(yīng)用的交互流程。

這里,我們以詢問天氣意圖為例,當(dāng)用戶發(fā)出語音指令后,智能音箱本地做用戶喚醒詞識別,然后通過音箱把語音流傳到 DuerOS 平臺,DuerOS 平臺進(jìn)行語音識別、語義理解、發(fā)送結(jié)構(gòu)化數(shù)據(jù)給技能服務(wù)器。

技能服務(wù)器處理請求,向 DuerOS 平臺返回文本或可視化的結(jié)果,DuerOS 平臺收到后,TTS 服務(wù)器處理返回的文本,將播報流發(fā)送給智能音箱,如果是有屏音箱的話,也可將可視化結(jié)果在設(shè)備上進(jìn)行展示。

那么,我們?nèi)绾卧?DuerOS 開發(fā)一個智能語音交互的應(yīng)用呢?

智能語音交互應(yīng)用的開發(fā)流程一般分為六個步驟,分別是注冊、創(chuàng)建技能、建立交互模型、編寫代碼部署、調(diào)試與驗證和技能上線商用,如下,為具體步驟圖解。

第一步,訪問注冊。

訪問 https://dueros.baidu.com/dbp, 注冊成為 DuerOS 的開發(fā)者。

第二步,創(chuàng)建技能。

和我們在 Android 或 iOS 上創(chuàng)建應(yīng)用是類似的。

進(jìn)入技能控制臺,選擇“從頭開始”創(chuàng)建自定義技能。技能名稱是 2~50 個字符,調(diào)用名稱是 2~15 個字符。

調(diào)用名稱是技能服務(wù)的入口,打開+調(diào)用名稱。不建議使用生僻詞匯、中英文混合及數(shù)字與漢字混合。技能創(chuàng)建后會生成一個技能 ID,是技能服務(wù)在 DuerOS 系統(tǒng)中的唯一標(biāo)識。

第三步,建立交互模型。

這可能是智能語音應(yīng)用與 App,小程序,Web 之類應(yīng)用的最大的不同點(diǎn)。

用戶詢問的核心在這里稱為意圖,建立交互模型就是創(chuàng)建多種用戶意圖的過程。

意圖的標(biāo)識就相當(dāng)于具體事件的編號。交互模型的建立實(shí)際上是一種面向接口的設(shè)計方式,明確的交互的意圖就是在一定程度上確定了技能服務(wù)的功能。

第四步,編寫代碼并部署。

DuerOS 提供了高效安全的百度云服務(wù)免費(fèi)使用,開放平臺的在線編輯器提供了對 Python 和 Node 的語言支持,編碼主要是對交互模型中的意圖進(jìn)行匹配和處理。

在線編輯器中的代碼將自動部署在百度云的 CFC,CFC 是百度云 FaaS 無服務(wù)架構(gòu)的具體應(yīng)用。

當(dāng)然,技能代碼的編寫還可以通過 Java,PHP 等其他語言進(jìn)行編寫,也可以部署在自己的服務(wù)器或者其他云服務(wù)上。

第五步,對技能服務(wù)進(jìn)行測試與驗證。

DuerOS 開放平臺提供了兩種測試方式:模擬器和真機(jī)調(diào)試。在真機(jī)調(diào)試時,要保證技能開發(fā)賬號和設(shè)備登錄賬號一致,對設(shè)備說“開啟技能調(diào)試模式”即開啟了“技能調(diào)試模式”功能,需要注意的是同一時間僅支持一個技能測試。

第六部,技能應(yīng)用的上線商用。

類比來看,發(fā)布上線與 App 在安卓市場或者蘋果商店上的上線發(fā)布過程是類似的。

至此,我們可以基于 DuerOS 的開放平臺開發(fā)符合用戶需求的各種智能語音交互應(yīng)用。

同時, DuerOS 還提供了零編程的智能語音交互應(yīng)用實(shí)現(xiàn)方式。應(yīng)用的種類豐富多彩,可以為我們的生活帶來更多的便利和樂趣!

3

基于智能語音交互服務(wù)的一天

從早上通過音箱叫你起床,通過搭載 DuerOS 的車機(jī)導(dǎo)航出發(fā)上班,用小度助手去安排當(dāng)日工作,工作中小度助手可以提醒休息,孩子可以用搭載 DuerOS 的設(shè)備打電話、看電視和聽故事。

隨著交互形式的變化,交互技術(shù)發(fā)展到了今天的智能語音時代,在智能語音服務(wù)中可以直接應(yīng)用到各種人工智能技術(shù),可以不用深入關(guān)注具體的 NLU、NLG 等具體 AI 技術(shù),只要使用基于 DuerOS 這樣對話式的 AI 開放平臺,就可以完成面向語音交互的各種服務(wù)。

作者:曹洪偉 公眾號:wireless_com

出處:51CTO技術(shù)棧 公眾號:blog51cto









推薦閱讀

人工智能還是人工智障?我tm快崩潰了 2020-08-10

技術(shù)總監(jiān)反思錄:我是怎么失去團(tuán)隊掌控力的? 2020-08-09

重溫馬云英文演講:最偉大的成功 2020-08-06

阿里P9專家右軍:大話軟件質(zhì)量穩(wěn)定性 2020-08-03

活動推薦

對話機(jī)器人,人工智能還是人工智障?

時間:8月12日20:00-21:30

話題介紹:對話機(jī)器人(chatbot)作為人工智能皇冠上的明珠,一直備受關(guān)注。由于人類對話本身的高度復(fù)雜性,目前的對話機(jī)器人技術(shù)還很難達(dá)到人類水平,進(jìn)行自由的對話。本話題將通過對話機(jī)器人在營銷和服務(wù)場景的落地實(shí)踐案例,分享如何使用產(chǎn)品和技術(shù)手段,分解對話、優(yōu)化算法、補(bǔ)充知識來提高對話體驗,不斷去逼近一個有人類水準(zhǔn)的對話機(jī)器人實(shí)現(xiàn)。

分享嘉賓:洪強(qiáng)寧

愛因互動創(chuàng)始人&CTO

  • 清華大學(xué)精密儀器系工學(xué)學(xué)士、碩士。14 年互聯(lián)網(wǎng)從業(yè)經(jīng)驗,商用對話機(jī)器人創(chuàng)業(yè)

  • 前豆瓣首席架構(gòu)師,前宜信大數(shù)據(jù)創(chuàng)新中心首席架構(gòu)師

  • 資深 Python 開發(fā)者,中國 Python 用戶組(CPUG)的創(chuàng)立者之一

  • 豆瓣網(wǎng)首名全職員工,負(fù)責(zé)系統(tǒng)架構(gòu),經(jīng)歷了豆瓣從日 PV 十萬到數(shù)億的過程,積累了深厚的大規(guī)模網(wǎng)站架構(gòu)經(jīng)驗。曾主導(dǎo)豆瓣內(nèi)部 PaaS 系統(tǒng) DAE 和宜信金融容器云 Lain 的建設(shè),有豐富的容器云和微服務(wù)架構(gòu)經(jīng)驗

目前主要關(guān)注方向在聊天機(jī)器人(chatbot)、云計算、容器技術(shù)、微服務(wù)、安全

? ?END ? ?? #接力技術(shù),鏈接價值#

點(diǎn)分享點(diǎn)點(diǎn)贊點(diǎn)在看

點(diǎn)擊閱讀原文亦可報名

總結(jié)

以上是生活随笔為你收集整理的硬核干货,老曹解密“语音交互”背后的黑科技!的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。