當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

语音交互设计的一点认知

發(fā)布時(shí)間：2024/3/12 编程问答 50 豆豆

生活随笔收集整理的這篇文章主要介紹了语音交互设计的一点认知小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

語(yǔ)音用戶界面（或VUI）是一種交互模型，在該模型中，人與機(jī)器進(jìn)行交互，并至少部分通過(guò)使用語(yǔ)音來(lái)執(zhí)行一組任務(wù)。

實(shí)際上，這種方式的交互式語(yǔ)音應(yīng)答（IVR）系統(tǒng)在銀行業(yè)和旅游業(yè)中已經(jīng)得到了廣泛的應(yīng)用。這些系統(tǒng)主要依賴于語(yǔ)音生物識(shí)別來(lái)識(shí)別用戶并使用語(yǔ)音作為主要交互模式完成的任務(wù)集。隨著亞馬遜Echo、蘋果的siri 等產(chǎn)品的誕生，VUI發(fā)生爆炸，各大公司也開始嘗試多媒體交叉設(shè)備的體驗(yàn)。

“治學(xué)先治史”，了解語(yǔ)音技術(shù)的過(guò)去點(diǎn)滴，大概會(huì)有些幫助。

穿越時(shí)間走廊

早在1961年，IBM設(shè)計(jì)了一個(gè)名為Shoebox的實(shí)驗(yàn)裝置，是由William C.Dersch開發(fā)的，大概是早期的語(yǔ)音識(shí)別設(shè)備。機(jī)器把聲音轉(zhuǎn)換成電脈沖可以識(shí)別出16個(gè)單詞。在1962年西雅圖舉行的世界博覽會(huì)上首次展示，這可能是自動(dòng)語(yǔ)音識(shí)別（ASR）和自然語(yǔ)言理解（NLU）的起點(diǎn)，但只涉及第一部分的聲音識(shí)別。對(duì)于純語(yǔ)音用戶界面，機(jī)器生成人聲早在1939年或更早的時(shí)候就有了。

霍默·達(dá)德利（在新澤西的貝爾電話實(shí)驗(yàn)室）的Voder是第一款能夠產(chǎn)生連續(xù)人聲的電子化設(shè)備。1939年，阿爾登·P·阿瑪涅克在《大眾科學(xué)》雜志上寫下了關(guān)于這一裝置的文章。它是用真空管和電路制成的，是為了復(fù)制人類的聲音。為了進(jìn)行對(duì)話，機(jī)器操作員使用了一個(gè)像風(fēng)琴一樣的鍵盤。十三個(gè)黑白鍵產(chǎn)生了所有的元音和輔音，另一把鍵控制著合成聲音的揚(yáng)聲器響度。腳踏板改變了音調(diào)，使同一句話可以陳述句或疑問(wèn)。大約一年的培訓(xùn)，操作員就能使機(jī)器說(shuō)話，想起來(lái)也是一個(gè)有意思的東西。

2000年初，IVR系統(tǒng)成為主流。任何有電話的人都可以預(yù)訂飛機(jī)航班，在賬戶間轉(zhuǎn)賬，查找當(dāng)?shù)仉娪皶r(shí)間，聽交通信息，所有這些都只使用普通電話和人聲。

語(yǔ)音交互、增強(qiáng)現(xiàn)實(shí)和虛擬現(xiàn)實(shí)等技術(shù)或許已經(jīng)存在或研究了相當(dāng)長(zhǎng)的時(shí)間。令人興奮的是，它們最終在市場(chǎng)上廣泛商用了，這就需要設(shè)計(jì)師和工程師來(lái)承擔(dān)開發(fā)場(chǎng)景以解決用戶日常問(wèn)題的挑戰(zhàn)。

為什么是語(yǔ)音助理

語(yǔ)音助理已經(jīng)風(fēng)靡各地，為什么呢？它的優(yōu)勢(shì)有：

自然
解放雙手
快速響應(yīng)
個(gè)性化

語(yǔ)音是人們交流的基本手段。其他形式的交流方式如寫作、面部表情或手語(yǔ)，在所有文化中也都同樣具有表達(dá)力，但人們主要還是通過(guò)語(yǔ)音來(lái)說(shuō)服、告知和建立關(guān)系。語(yǔ)音助理能夠在不同的場(chǎng)景和渠道中保持一致。

理解對(duì)話

用戶通常會(huì)就手頭的特定任務(wù)進(jìn)行語(yǔ)音對(duì)話。交互通常很短，來(lái)回的交互也很少。用戶可以通過(guò)對(duì)話來(lái)完成一項(xiàng)任務(wù)，即使他們不忙，不能總是全神貫注。用戶在通過(guò)GUI執(zhí)行相同任務(wù)時(shí)會(huì)感覺到很多延遲或不爽，而對(duì)話將有助于減輕這種體驗(yàn)。

在語(yǔ)音識(shí)別中，得到對(duì)話所有的上下文幾乎是不可能的。上下文大約分成三類：

物理上下文
情感上下文
對(duì)話的上下文

從物理、情感和會(huì)話上下文中，可以創(chuàng)建一個(gè)關(guān)于會(huì)話內(nèi)容的推理或得出結(jié)論，得出一個(gè)擬人化的結(jié)果。

對(duì)話的意圖大約有兩種，一種是目標(biāo)反饋確定的，一種是不確定的，對(duì)于不確定的意圖需要更多的用戶選擇。也就是說(shuō)，大約可以分為基于意圖的對(duì)話和隨機(jī)問(wèn)答?；谝鈭D的對(duì)話是為了完成一個(gè)目標(biāo)或完成一個(gè)任務(wù)而進(jìn)行的對(duì)話。心里有一個(gè)意圖，需要助手的回答，這時(shí)只想完成一項(xiàng)任務(wù)。隨機(jī)問(wèn)答是指用戶與助手進(jìn)行交互時(shí)沒(méi)有特定的意圖。他們只是想和助手聊天，談興趣，也許是想更多的彼此了解，建立一種關(guān)系。

當(dāng)然，語(yǔ)音交互有著自己的局限。在IVR中，很難暫停系統(tǒng)，相反，用戶必須不斷地進(jìn)行交互，而視覺組件可以讓用戶以更輕松的方式繼續(xù)交互。另外，是在公共場(chǎng)所使用方面的限制。用戶可能不能在某些公共空間使用語(yǔ)音，因?yàn)檫@樣做會(huì)侵犯用戶的隱私。

語(yǔ)音交互的部分關(guān)注點(diǎn)

人的一種主要行為，就把人的情緒聯(lián)系起來(lái)，試圖理解一個(gè)復(fù)雜的物體。不過(guò)，大多數(shù)消費(fèi)者的底線是，更愿意與一個(gè)溫暖的身體交談，而不是與一臺(tái)冰冷的電腦交談，因而需要關(guān)注語(yǔ)音應(yīng)答的多樣性。

逐步披露是人機(jī)交互中常用的一種交互設(shè)計(jì)技術(shù)，通過(guò)減少混亂、混亂和認(rèn)知工作量，幫助保持用戶注意力的焦點(diǎn)。這通過(guò)只提供手頭任務(wù)所需的最小數(shù)據(jù)來(lái)提高可用性。一般使用猶豫標(biāo)記，或者增加短語(yǔ)詢問(wèn)。

給語(yǔ)音助理賦予人性化，可能需要一些因素：

經(jīng)驗(yàn)的開放性，這可能包括對(duì)藝術(shù)、情感、冒險(xiǎn)、不尋常的想法、好奇心和各種體驗(yàn)的欣賞。
責(zé)任心，可以是高效/有組織的，或者隨和/無(wú)關(guān)緊要的態(tài)度。
外向傾向于表現(xiàn)為外向、健談、精力充沛的行為，而內(nèi)向則表現(xiàn)為較為保守和孤獨(dú)的行為。
令人愉快的對(duì)話，體現(xiàn)善良、同情、合作、熱情和體貼的個(gè)人行為特征。
神經(jīng)質(zhì)，可能是驚喜，也可能是驚嚇。

模仿的行為可以與另一個(gè)人更相似，感知到的相似性可以作為基礎(chǔ)。

基于語(yǔ)音的交互或語(yǔ)音檢測(cè)依賴于一個(gè)設(shè)備，該設(shè)備有一個(gè)性能良好的麥克風(fēng)來(lái)捕捉/記錄用戶的指令，可以參考過(guò)去一篇文字。

多方式交互的HCI

VUI與GUI成為人機(jī)交互規(guī)范的時(shí)候非常相似，設(shè)計(jì)人員需要清理混亂的邏輯，簡(jiǎn)化數(shù)據(jù)，并向用戶提供更容易掌握的流程和解決方案。以電視遙控器為例,設(shè)備上有20-30個(gè)按鈕時(shí)，操作起來(lái)就會(huì)非常困難，一個(gè)人很難理解所有按鈕的作用。沒(méi)有好的設(shè)計(jì)，技術(shù)就很難甚至不可能得到應(yīng)用。

用戶體驗(yàn)設(shè)計(jì)圍繞著整個(gè)用戶旅程展開，即回答用戶對(duì)特定用例可以做什么，然后理解用戶能夠以無(wú)障礙和愉快的方式滿足需求的最佳方式。

從一開始就不能決定只使用一個(gè)模態(tài)，但是設(shè)計(jì)者必須理解用戶根據(jù)系統(tǒng)的輸入和輸出模態(tài)完成特定任務(wù)的需求。

對(duì)于具有圖形用戶界面的數(shù)字助理，當(dāng)有動(dòng)畫選項(xiàng)時(shí)，這變得更有趣。在這里，助理會(huì)表現(xiàn)得像人一樣；會(huì)傾聽你的問(wèn)題，思考，回答，開個(gè)玩笑，唱歌，表達(dá)悲傷和憤怒，還有很多其他的情緒。

多交互方式并存，形成了人機(jī)交互的領(lǐng)域。人機(jī)交互（HCI）已經(jīng)存在了相當(dāng)長(zhǎng)的一段時(shí)間了。在20世紀(jì)50年代初，用穿孔卡片存儲(chǔ)數(shù)據(jù)和輸入，隨著個(gè)人電腦的引入而發(fā)生了顛覆性的變化。20世紀(jì)80年代后期，幾乎使世界上的每個(gè)人都成為潛在的計(jì)算機(jī)用戶，也暴露了關(guān)于可用性的問(wèn)題。

HCI整合了認(rèn)知心理學(xué)、人工智能和思維哲學(xué)，以闡明系統(tǒng)化和科學(xué)化的應(yīng)用，稱為認(rèn)知工程。它使具有概念、技能和遠(yuǎn)見的人能夠滿足人機(jī)交互的實(shí)際需求。

交互設(shè)計(jì)的一些原則

HCI 的設(shè)計(jì)有很多的經(jīng)驗(yàn)和原則，對(duì)于VUI同樣有著參考意義。例如，Ben Shneiderman 關(guān)于界面設(shè)計(jì)的8條金規(guī)：

爭(zhēng)取一致性
允許用戶使用快捷方式
提供信息反饋
設(shè)計(jì)對(duì)話以實(shí)現(xiàn)閉環(huán)
提供錯(cuò)誤預(yù)防和簡(jiǎn)單的錯(cuò)誤處理
允許輕松逆轉(zhuǎn)操作
支持內(nèi)部控制點(diǎn)
減少短期內(nèi)存負(fù)載

又例如，Donald Norman的七個(gè)設(shè)計(jì)原則：

在頭腦中運(yùn)用現(xiàn)實(shí)世界和知識(shí)
簡(jiǎn)化任務(wù)結(jié)構(gòu)
使事物可見；縮小執(zhí)行和評(píng)估之間的差距
正確繪制地圖
利用自然和人工約束的力量
面向錯(cuò)誤的設(shè)計(jì)
當(dāng)所有其他方面都失敗時(shí)，標(biāo)準(zhǔn)化

還有現(xiàn)在廣泛使用的Nielsen啟發(fā)式UI/UX設(shè)計(jì)原則：

系統(tǒng)狀態(tài)的可視性
與系統(tǒng)和現(xiàn)實(shí)世界相匹配
用戶控制和自由
一致性和標(biāo)準(zhǔn)
靈活性和效率
錯(cuò)誤預(yù)防
錯(cuò)誤報(bào)告、診斷和恢復(fù)
美學(xué)和極簡(jiǎn)設(shè)計(jì)
識(shí)別而不是回憶
幫助和文檔

創(chuàng)建一個(gè)平滑無(wú)縫且自然的 VUI 對(duì)于使用的人工智能產(chǎn)品來(lái)說(shuō)至關(guān)重要。對(duì)VUI而言，也有著自己的設(shè)計(jì)技巧：

了解智能引擎的背后，成功與否取決于真正為體驗(yàn)提供動(dòng)力的內(nèi)部架構(gòu)。

構(gòu)建自己的設(shè)計(jì)工具棧，Adobexd非常適合用于線框用戶流程圖，語(yǔ)音工具包括Walkie, Botframe 和 Mockabot等。

個(gè)性在設(shè)計(jì)中表現(xiàn)出來(lái)，而不是交給設(shè)備。個(gè)性表現(xiàn)在設(shè)計(jì)決策和獨(dú)特的工作流程，堅(jiān)持利益相關(guān)者的有效執(zhí)行。

少即是多。設(shè)備所說(shuō)的實(shí)際語(yǔ)言必須清楚地滿足其用戶的需求，剩下的才是措辭，句子結(jié)構(gòu)，音調(diào)，甚至聲音本身的音調(diào)變化等。

在配音的時(shí)候要專業(yè)一點(diǎn)。專業(yè)的錄制最好有TTS的客戶經(jīng)驗(yàn)，為人工智能對(duì)話設(shè)計(jì)音頻與制作音樂(lè)甚至是傳統(tǒng)的配音有很大的不同。

在 VUI 之外保持角色的一致性。如果圖形元素不能和諧地補(bǔ)充語(yǔ)音元素，那么創(chuàng)建一個(gè)殺手級(jí)的 VUI 將被證明是徒勞的。?

讓語(yǔ)音設(shè)備保持親密狀態(tài)。有競(jìng)爭(zhēng)力的產(chǎn)品是需要盡可能多地挖掘。

鼓勵(lì)嘗試。場(chǎng)測(cè)和錯(cuò)誤驗(yàn)證，再加上可靠的用戶研究，無(wú)論多么細(xì)致，都不會(huì)讓你成功地將最微妙的特質(zhì)融入到你的語(yǔ)音交互體驗(yàn)中。

一切都是達(dá)到目的的手段。歸結(jié)為一件事，數(shù)據(jù)是人工智能的全部。個(gè)設(shè)計(jì)良好的 VUI 應(yīng)該通過(guò)成為習(xí)慣的具有啟發(fā)性的交互體驗(yàn)來(lái)補(bǔ)充這個(gè)過(guò)程。

設(shè)計(jì)的分享。目標(biāo)、需求、最佳實(shí)踐、技術(shù)、技術(shù)、工具集和行業(yè)每天都在不斷變化。知識(shí)和經(jīng)驗(yàn)的擴(kuò)散是揭開人工智能個(gè)性設(shè)計(jì)的神秘面紗并使之標(biāo)準(zhǔn)化的最佳途徑。

然而，“大道易得，小術(shù)難求”。行勝于言，努力去學(xué)習(xí)和實(shí)踐才能得到更多的理解和認(rèn)識(shí)。

(本文圖片來(lái)自網(wǎng)絡(luò)，如有侵權(quán)，聯(lián)系作者刪除）

參考資料

https://ai.googleblog.com/2018/05/duplex-ai-system-for-natural-conversation.html
http://www.speechtechmag.com/Articles/Editorial/Feature/Its-a-Persona-Not-a-Personality-36311.aspx
https://www.forbes.com/sites/mnewlands/2017/08/25/10-essential-tips-on-voice-user-interface-design-for-ai/#29f764dc2422
https://www.theatlantic.com/science/archive/2017/12/the-secret-lifeof-um/547961/
http://www.csun.edu/science/courses/671/bibliography/preece.html
Nielsen, 1995, https://www.nngroup.com/articles/ten-usability-heuristics/

總結(jié)

以上是生活随笔為你收集整理的语音交互设计的一点认知的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： tensorflow学习笔记-bili莫
下一篇：成功的礼品公司的产品经营模式