硬核干货,老曹解密“语音交互”背后的黑科技!
點擊▲關注 “中生代技術”? ?給公眾號標星置頂
更多精彩技術內容 第一時間直達
第?6 期出席《大咖來了》直播欄目的嘉賓是百度 DuerOS?首席布道師曹洪偉,進行了主題為《面向交互的人工智能》的分享。
主要講解了語音交互中用到的 AI 技術,如 ASR、NLU、NLG、TTS 等,以及基于這些細分技術構建的面向對話式的人工智能操作系統——DuerOS。
通過本次分享大家可以基本上掌握如何在智能語音交互平臺上開發應用,進一步體會智能語音如何服務我們的生活。
1
語音使人機交互更加便捷
什么是交互?
交互是指 A 和 B 之間的一系列動作和行為,語出《京氏易傳·震》:“震分陰陽,交互用事”。
那什么是人機交互呢?
人機交互是一門研究系統與用戶之間的互動關系的學問。系統可以是各種各樣的機器,也可以是計算機化的系統和軟件。
人機交互重點研究用戶與計算機之間的接口,既包括人類與計算機的交互方式,也包括設計技術,使人類以新穎的方式與計算機交互。人機交互與人機界面是兩個有著緊密聯系而又不盡相同的概念。
在計算機時代,人機交互的發展歷程如下圖所示:
從鍵盤+鼠標到使用觸摸屏,再到語音交互,人機交互在不斷地演進,由面向機器的人機交互,演變為面向用戶自身的交互。
語音是非常低成本的溝通手段和工具,為我們帶來非常大的便利。
語音交互的優勢在于:
其一是速度,每分鐘可以說 120?到 150 個字。
其二是釋放雙手,做飯時通過語音可以完成一些期望做的事。
其三是直覺性,語言是人類的天賦,也是人類交際溝通的自然手段。
其四是同理心,語音中包含了語氣、音量、語調和語速,這些特征傳達了大量的信息。
語音交互離不開人工智能技術,在語音交互中所涉及的人工智能技術如下圖所示:
如今,智能語音交互正在為我們服務,背后有一整套完整的技術和流程,從語音喚醒到自動語音識別,再到自然語言理解,最終通過自然語言生成以及語音合成技術形成反饋,整套流程背后又有很多細分的 AI 技術在支持,如對話管理、深度學習,DNN、CNN、NLP、TTS 等。
面對涉及如此之廣的 AI 技術, 我們怎樣才能應用到工作和生活之中呢?
這和我們有了計算機之后,如何使用計算機是類似的。計算機上的操作系統及其 API 為程序員們打開了計算機世界的大門。
面向智能交互的 AI 系統, 我們同樣需要一個類似的操作系統,才能方便而且高效地構建我們的人工智能交互應用。
2
面向語音交互的 DuerOS 操作系統
百度的 DuerOS 是一個面向語音交互的對話式人工智能操作系統,在包含了語音交互的整套流程的同時,還提供開放能力平臺,如 SDK、工具、編程接口和設備等,如下圖所示:
DuerOS 操作系統有三個層面,分別是智能設備開放平臺(應用層)、對話核心系統(核心層)和技能開放平臺(能力層)。
下面我們進一步從基于 DuerOS 的智能語音設備、智能語音設備的工作原理、智能語音交互的交互流程和智能語音應用的開發流程等方面了解 DuerOS 操作系統。
了解一個操作系統主要是看有哪些語音設備,基于這些設備才能進行具體的應用開放,DuerOS 的智能語音設備有很多,部分的小度系列產品如下圖:
DuerOS 廣泛適用于音箱、電視、冰箱、手機、機器人、車載、可穿戴、玩具等多種場景及設備,這些智能語音設備的工作原理是怎樣的呢?
相比傳統設備,智能語音設備是面向交互的,通過語音、觸屏進行輸入,利用 TTS、麥克風、信號處理等手段,把本地能力轉移到云端,再利用云端 ASR、TTS、NLU、NLG 等具體的 AI 技術實現智能語音,最后把業務引擎、業務資源和技能服務進行融合,這樣就可以通過語音完成一系列服務,如下圖所示:
技能開放平臺包含很多層次,如底層基礎能力、BOT-SDK、配置服務、協議開放、平臺開放、周邊工具等。下面介紹一下智能語音交互應用的交互流程。
這里,我們以詢問天氣意圖為例,當用戶發出語音指令后,智能音箱本地做用戶喚醒詞識別,然后通過音箱把語音流傳到 DuerOS 平臺,DuerOS 平臺進行語音識別、語義理解、發送結構化數據給技能服務器。
技能服務器處理請求,向 DuerOS 平臺返回文本或可視化的結果,DuerOS 平臺收到后,TTS 服務器處理返回的文本,將播報流發送給智能音箱,如果是有屏音箱的話,也可將可視化結果在設備上進行展示。
那么,我們如何在 DuerOS 開發一個智能語音交互的應用呢?
智能語音交互應用的開發流程一般分為六個步驟,分別是注冊、創建技能、建立交互模型、編寫代碼部署、調試與驗證和技能上線商用,如下,為具體步驟圖解。
第一步,訪問注冊。
訪問 https://dueros.baidu.com/dbp, 注冊成為 DuerOS 的開發者。
第二步,創建技能。
和我們在 Android 或 iOS 上創建應用是類似的。
進入技能控制臺,選擇“從頭開始”創建自定義技能。技能名稱是 2~50 個字符,調用名稱是 2~15 個字符。
調用名稱是技能服務的入口,打開+調用名稱。不建議使用生僻詞匯、中英文混合及數字與漢字混合。技能創建后會生成一個技能 ID,是技能服務在 DuerOS 系統中的唯一標識。
第三步,建立交互模型。
這可能是智能語音應用與 App,小程序,Web 之類應用的最大的不同點。
用戶詢問的核心在這里稱為意圖,建立交互模型就是創建多種用戶意圖的過程。
意圖的標識就相當于具體事件的編號。交互模型的建立實際上是一種面向接口的設計方式,明確的交互的意圖就是在一定程度上確定了技能服務的功能。
第四步,編寫代碼并部署。
DuerOS 提供了高效安全的百度云服務免費使用,開放平臺的在線編輯器提供了對 Python 和 Node 的語言支持,編碼主要是對交互模型中的意圖進行匹配和處理。
在線編輯器中的代碼將自動部署在百度云的 CFC,CFC 是百度云 FaaS 無服務架構的具體應用。
當然,技能代碼的編寫還可以通過 Java,PHP 等其他語言進行編寫,也可以部署在自己的服務器或者其他云服務上。
第五步,對技能服務進行測試與驗證。
DuerOS 開放平臺提供了兩種測試方式:模擬器和真機調試。在真機調試時,要保證技能開發賬號和設備登錄賬號一致,對設備說“開啟技能調試模式”即開啟了“技能調試模式”功能,需要注意的是同一時間僅支持一個技能測試。
第六部,技能應用的上線商用。
類比來看,發布上線與 App 在安卓市場或者蘋果商店上的上線發布過程是類似的。
至此,我們可以基于 DuerOS 的開放平臺開發符合用戶需求的各種智能語音交互應用。
同時, DuerOS 還提供了零編程的智能語音交互應用實現方式。應用的種類豐富多彩,可以為我們的生活帶來更多的便利和樂趣!
3
基于智能語音交互服務的一天
從早上通過音箱叫你起床,通過搭載 DuerOS 的車機導航出發上班,用小度助手去安排當日工作,工作中小度助手可以提醒休息,孩子可以用搭載 DuerOS 的設備打電話、看電視和聽故事。
隨著交互形式的變化,交互技術發展到了今天的智能語音時代,在智能語音服務中可以直接應用到各種人工智能技術,可以不用深入關注具體的 NLU、NLG 等具體 AI 技術,只要使用基于 DuerOS 這樣對話式的 AI 開放平臺,就可以完成面向語音交互的各種服務。
作者:曹洪偉 公眾號:wireless_com
出處:51CTO技術棧 公眾號:blog51cto
推薦閱讀
人工智能還是人工智障?我tm快崩潰了 2020-08-10
技術總監反思錄:我是怎么失去團隊掌控力的? 2020-08-09
重溫馬云英文演講:最偉大的成功 2020-08-06
阿里P9專家右軍:大話軟件質量穩定性 2020-08-03
活動推薦
對話機器人,人工智能還是人工智障?
時間:8月12日20:00-21:30
話題介紹:對話機器人(chatbot)作為人工智能皇冠上的明珠,一直備受關注。由于人類對話本身的高度復雜性,目前的對話機器人技術還很難達到人類水平,進行自由的對話。本話題將通過對話機器人在營銷和服務場景的落地實踐案例,分享如何使用產品和技術手段,分解對話、優化算法、補充知識來提高對話體驗,不斷去逼近一個有人類水準的對話機器人實現。
分享嘉賓:洪強寧
愛因互動創始人&CTO
清華大學精密儀器系工學學士、碩士。14 年互聯網從業經驗,商用對話機器人創業
前豆瓣首席架構師,前宜信大數據創新中心首席架構師
資深 Python 開發者,中國 Python 用戶組(CPUG)的創立者之一
豆瓣網首名全職員工,負責系統架構,經歷了豆瓣從日 PV 十萬到數億的過程,積累了深厚的大規模網站架構經驗。曾主導豆瓣內部 PaaS 系統 DAE 和宜信金融容器云 Lain 的建設,有豐富的容器云和微服務架構經驗
目前主要關注方向在聊天機器人(chatbot)、云計算、容器技術、微服務、安全
? ?END ? ?? #接力技術,鏈接價值# 點分享點點贊點在看點擊閱讀原文亦可報名
總結
以上是生活随笔為你收集整理的硬核干货,老曹解密“语音交互”背后的黑科技!的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: leetcode之Valid Sudok
- 下一篇: leetcode之Count and S