语音交互设计的一点认知
語(yǔ)音用戶界面(或VUI)是一種交互模型,在該模型中,人與機(jī)器進(jìn)行交互,并至少部分通過(guò)使用語(yǔ)音來(lái)執(zhí)行一組任務(wù)。
實(shí)際上,這種方式的交互式語(yǔ)音應(yīng)答(IVR)系統(tǒng)在銀行業(yè)和旅游業(yè)中已經(jīng)得到了廣泛的應(yīng)用。這些系統(tǒng)主要依賴于語(yǔ)音生物識(shí)別來(lái)識(shí)別用戶并使用語(yǔ)音作為主要交互模式完成的任務(wù)集。隨著亞馬遜Echo、蘋果的siri 等產(chǎn)品的誕生,VUI發(fā)生爆炸,各大公司也開始嘗試多媒體交叉設(shè)備的體驗(yàn)。
“治學(xué)先治史”,了解語(yǔ)音技術(shù)的過(guò)去點(diǎn)滴,大概會(huì)有些幫助。
穿越時(shí)間走廊
早在1961年,IBM設(shè)計(jì)了一個(gè)名為Shoebox的實(shí)驗(yàn)裝置,是由William C.Dersch開發(fā)的,大概是早期的語(yǔ)音識(shí)別設(shè)備。機(jī)器把聲音轉(zhuǎn)換成電脈沖可以識(shí)別出16個(gè)單詞。在1962年西雅圖舉行的世界博覽會(huì)上首次展示,這可能是自動(dòng)語(yǔ)音識(shí)別(ASR)和自然語(yǔ)言理解(NLU)的起點(diǎn),但只涉及第一部分的聲音識(shí)別。對(duì)于純語(yǔ)音用戶界面,機(jī)器生成人聲早在1939年或更早的時(shí)候就有了。
霍默·達(dá)德利(在新澤西的貝爾電話實(shí)驗(yàn)室)的Voder是第一款能夠產(chǎn)生連續(xù)人聲的電子化設(shè)備。1939年,阿爾登·P·阿瑪涅克在《大眾科學(xué)》雜志上寫下了關(guān)于這一裝置的文章。它是用真空管和電路制成的,是為了復(fù)制人類的聲音。為了進(jìn)行對(duì)話,機(jī)器操作員使用了一個(gè)像風(fēng)琴一樣的鍵盤。十三個(gè)黑白鍵產(chǎn)生了所有的元音和輔音,另一把鍵控制著合成聲音的揚(yáng)聲器響度。腳踏板改變了音調(diào),使同一句話可以陳述句或疑問(wèn)。大約一年的培訓(xùn),操作員就能使機(jī)器說(shuō)話,想起來(lái)也是一個(gè)有意思的東西。
2000年初,IVR系統(tǒng)成為主流。任何有電話的人都可以預(yù)訂飛機(jī)航班,在賬戶間轉(zhuǎn)賬,查找當(dāng)?shù)仉娪皶r(shí)間,聽交通信息,所有這些都只使用普通電話和人聲。
語(yǔ)音交互、增強(qiáng)現(xiàn)實(shí)和虛擬現(xiàn)實(shí)等技術(shù)或許已經(jīng)存在或研究了相當(dāng)長(zhǎng)的時(shí)間。令人興奮的是,它們最終在市場(chǎng)上廣泛商用了,這就需要設(shè)計(jì)師和工程師來(lái)承擔(dān)開發(fā)場(chǎng)景以解決用戶日常問(wèn)題的挑戰(zhàn)。
為什么是語(yǔ)音助理
語(yǔ)音助理已經(jīng)風(fēng)靡各地,為什么呢?它的優(yōu)勢(shì)有:
自然
解放雙手
快速響應(yīng)
個(gè)性化
語(yǔ)音是人們交流的基本手段。其他形式的交流方式如寫作、面部表情或手語(yǔ),在所有文化中也都同樣具有表達(dá)力,但人們主要還是通過(guò)語(yǔ)音來(lái)說(shuō)服、告知和建立關(guān)系。語(yǔ)音助理能夠在不同的場(chǎng)景和渠道中保持一致。
理解對(duì)話
用戶通常會(huì)就手頭的特定任務(wù)進(jìn)行語(yǔ)音對(duì)話。交互通常很短,來(lái)回的交互也很少。用戶可以通過(guò)對(duì)話來(lái)完成一項(xiàng)任務(wù),即使他們不忙,不能總是全神貫注。用戶在通過(guò)GUI執(zhí)行相同任務(wù)時(shí)會(huì)感覺到很多延遲或不爽,而對(duì)話將有助于減輕這種體驗(yàn)。
在語(yǔ)音識(shí)別中,得到對(duì)話所有的上下文幾乎是不可能的。上下文大約分成三類:
物理上下文
情感上下文
對(duì)話的上下文
從物理、情感和會(huì)話上下文中,可以創(chuàng)建一個(gè)關(guān)于會(huì)話內(nèi)容的推理或得出結(jié)論,得出一個(gè)擬人化的結(jié)果。
對(duì)話的意圖大約有兩種,一種是目標(biāo)反饋確定的,一種是不確定的,對(duì)于不確定的意圖需要更多的用戶選擇。也就是說(shuō),大約可以分為基于意圖的對(duì)話和隨機(jī)問(wèn)答?;谝鈭D的對(duì)話是為了完成一個(gè)目標(biāo)或完成一個(gè)任務(wù)而進(jìn)行的對(duì)話。心里有一個(gè)意圖,需要助手的回答,這時(shí)只想完成一項(xiàng)任務(wù)。隨機(jī)問(wèn)答是指用戶與助手進(jìn)行交互時(shí)沒(méi)有特定的意圖。他們只是想和助手聊天,談興趣,也許是想更多的彼此了解,建立一種關(guān)系。
當(dāng)然,語(yǔ)音交互有著自己的局限。在IVR中,很難暫停系統(tǒng),相反,用戶必須不斷地進(jìn)行交互,而視覺組件可以讓用戶以更輕松的方式繼續(xù)交互。另外,是在公共場(chǎng)所使用方面的限制。用戶可能不能在某些公共空間使用語(yǔ)音,因?yàn)檫@樣做會(huì)侵犯用戶的隱私。
語(yǔ)音交互的部分關(guān)注點(diǎn)
人的一種主要行為,就把人的情緒聯(lián)系起來(lái),試圖理解一個(gè)復(fù)雜的物體。不過(guò),大多數(shù)消費(fèi)者的底線是,更愿意與一個(gè)溫暖的身體交談,而不是與一臺(tái)冰冷的電腦交談,因而需要關(guān)注語(yǔ)音應(yīng)答的多樣性。
逐步披露是人機(jī)交互中常用的一種交互設(shè)計(jì)技術(shù),通過(guò)減少混亂、混亂和認(rèn)知工作量,幫助保持用戶注意力的焦點(diǎn)。這通過(guò)只提供手頭任務(wù)所需的最小數(shù)據(jù)來(lái)提高可用性。一般使用猶豫標(biāo)記,或者增加短語(yǔ)詢問(wèn)。
給語(yǔ)音助理賦予人性化,可能需要一些因素:
經(jīng)驗(yàn)的開放性,這可能包括對(duì)藝術(shù)、情感、冒險(xiǎn)、不尋常的想法、好奇心和各種體驗(yàn)的欣賞。
責(zé)任心,可以是高效/有組織的,或者隨和/無(wú)關(guān)緊要的態(tài)度。
外向傾向于表現(xiàn)為外向、健談、精力充沛的行為,而內(nèi)向則表現(xiàn)為較為保守和孤獨(dú)的行為。
令人愉快的對(duì)話,體現(xiàn)善良、同情、合作、熱情和體貼的個(gè)人行為特征。
神經(jīng)質(zhì),可能是驚喜,也可能是驚嚇。
模仿的行為可以與另一個(gè)人更相似,感知到的相似性可以作為基礎(chǔ)。
基于語(yǔ)音的交互或語(yǔ)音檢測(cè)依賴于一個(gè)設(shè)備,該設(shè)備有一個(gè)性能良好的麥克風(fēng)來(lái)捕捉/記錄用戶的指令,可以參考過(guò)去一篇文字。
多方式交互的HCI
VUI與GUI成為人機(jī)交互規(guī)范的時(shí)候非常相似,設(shè)計(jì)人員需要清理混亂的邏輯,簡(jiǎn)化數(shù)據(jù),并向用戶提供更容易掌握的流程和解決方案。以電視遙控器為例,設(shè)備上有20-30個(gè)按鈕時(shí),操作起來(lái)就會(huì)非常困難,一個(gè)人很難理解所有按鈕的作用。沒(méi)有好的設(shè)計(jì),技術(shù)就很難甚至不可能得到應(yīng)用。
用戶體驗(yàn)設(shè)計(jì)圍繞著整個(gè)用戶旅程展開,即回答用戶對(duì)特定用例可以做什么,然后理解用戶能夠以無(wú)障礙和愉快的方式滿足需求的最佳方式。
從一開始就不能決定只使用一個(gè)模態(tài),但是設(shè)計(jì)者必須理解用戶根據(jù)系統(tǒng)的輸入和輸出模態(tài)完成特定任務(wù)的需求。
對(duì)于具有圖形用戶界面的數(shù)字助理,當(dāng)有動(dòng)畫選項(xiàng)時(shí),這變得更有趣。在這里,助理會(huì)表現(xiàn)得像人一樣;會(huì)傾聽你的問(wèn)題,思考,回答,開個(gè)玩笑,唱歌,表達(dá)悲傷和憤怒,還有很多其他的情緒。
多交互方式并存,形成了人機(jī)交互的領(lǐng)域。人機(jī)交互(HCI)已經(jīng)存在了相當(dāng)長(zhǎng)的一段時(shí)間了。在20世紀(jì)50年代初,用穿孔卡片存儲(chǔ)數(shù)據(jù)和輸入,隨著個(gè)人電腦的引入而發(fā)生了顛覆性的變化。20世紀(jì)80年代后期,幾乎使世界上的每個(gè)人都成為潛在的計(jì)算機(jī)用戶,也暴露了關(guān)于可用性的問(wèn)題。
HCI整合了認(rèn)知心理學(xué)、人工智能和思維哲學(xué),以闡明系統(tǒng)化和科學(xué)化的應(yīng)用,稱為認(rèn)知工程。它使具有概念、技能和遠(yuǎn)見的人能夠滿足人機(jī)交互的實(shí)際需求。
交互設(shè)計(jì)的一些原則
HCI 的設(shè)計(jì)有很多的經(jīng)驗(yàn)和原則,對(duì)于VUI同樣有著參考意義。例如,Ben Shneiderman 關(guān)于界面設(shè)計(jì)的8條金規(guī):
爭(zhēng)取一致性
允許用戶使用快捷方式
提供信息反饋
設(shè)計(jì)對(duì)話以實(shí)現(xiàn)閉環(huán)
提供錯(cuò)誤預(yù)防和簡(jiǎn)單的錯(cuò)誤處理
允許輕松逆轉(zhuǎn)操作
支持內(nèi)部控制點(diǎn)
減少短期內(nèi)存負(fù)載
又例如,Donald Norman的七個(gè)設(shè)計(jì)原則:
在頭腦中運(yùn)用現(xiàn)實(shí)世界和知識(shí)
簡(jiǎn)化任務(wù)結(jié)構(gòu)
使事物可見;縮小執(zhí)行和評(píng)估之間的差距
正確繪制地圖
利用自然和人工約束的力量
面向錯(cuò)誤的設(shè)計(jì)
當(dāng)所有其他方面都失敗時(shí),標(biāo)準(zhǔn)化
還有現(xiàn)在廣泛使用的Nielsen啟發(fā)式UI/UX設(shè)計(jì)原則:
系統(tǒng)狀態(tài)的可視性
與系統(tǒng)和現(xiàn)實(shí)世界相匹配
用戶控制和自由
一致性和標(biāo)準(zhǔn)
靈活性和效率
錯(cuò)誤預(yù)防
錯(cuò)誤報(bào)告、診斷和恢復(fù)
美學(xué)和極簡(jiǎn)設(shè)計(jì)
識(shí)別而不是回憶
幫助和文檔
創(chuàng)建一個(gè)平滑無(wú)縫且自然的 VUI 對(duì)于使用的人工智能產(chǎn)品來(lái)說(shuō)至關(guān)重要。對(duì)VUI而言,也有著自己的設(shè)計(jì)技巧:
了解智能引擎的背后,成功與否取決于真正為體驗(yàn)提供動(dòng)力的內(nèi)部架構(gòu)。
構(gòu)建自己的設(shè)計(jì)工具棧,Adobexd非常適合用于線框用戶流程圖,語(yǔ)音工具包括Walkie, Botframe 和 Mockabot等。
個(gè)性在設(shè)計(jì)中表現(xiàn)出來(lái),而不是交給設(shè)備。個(gè)性表現(xiàn)在設(shè)計(jì)決策和獨(dú)特的工作流程,堅(jiān)持利益相關(guān)者的有效執(zhí)行。
少即是多。設(shè)備所說(shuō)的實(shí)際語(yǔ)言必須清楚地滿足其用戶的需求,剩下的才是措辭,句子結(jié)構(gòu),音調(diào),甚至聲音本身的音調(diào)變化等。
在配音的時(shí)候要專業(yè)一點(diǎn)。專業(yè)的錄制最好有TTS的客戶經(jīng)驗(yàn),為人工智能對(duì)話設(shè)計(jì)音頻與制作音樂(lè)甚至是傳統(tǒng)的配音有很大的不同。
在 VUI 之外保持角色的一致性。如果圖形元素不能和諧地補(bǔ)充語(yǔ)音元素,那么創(chuàng)建一個(gè)殺手級(jí)的 VUI 將被證明是徒勞的。?
讓語(yǔ)音設(shè)備保持親密狀態(tài)。有競(jìng)爭(zhēng)力的產(chǎn)品是需要盡可能多地挖掘 。
鼓勵(lì)嘗試。場(chǎng)測(cè)和錯(cuò)誤驗(yàn)證,再加上可靠的用戶研究,無(wú)論多么細(xì)致,都不會(huì)讓你成功地將最微妙的特質(zhì)融入到你的語(yǔ)音交互體驗(yàn)中。
一切都是達(dá)到目的的手段。歸結(jié)為一件事,數(shù)據(jù)是人工智能的全部。個(gè)設(shè)計(jì)良好的 VUI 應(yīng)該通過(guò)成為習(xí)慣的具有啟發(fā)性的交互體驗(yàn)來(lái)補(bǔ)充這個(gè)過(guò)程。
設(shè)計(jì)的分享。目標(biāo)、需求、最佳實(shí)踐、技術(shù)、技術(shù)、工具集和行業(yè)每天都在不斷變化。知識(shí)和經(jīng)驗(yàn)的擴(kuò)散是揭開人工智能個(gè)性設(shè)計(jì)的神秘面紗并使之標(biāo)準(zhǔn)化的最佳途徑。
然而,“大道易得,小術(shù)難求”。行勝于言,努力去學(xué)習(xí)和實(shí)踐才能得到更多的理解和認(rèn)識(shí)。
(本文圖片來(lái)自網(wǎng)絡(luò),如有侵權(quán),聯(lián)系作者刪除)
參考資料
https://ai.googleblog.com/2018/05/duplex-ai-system-for-natural-conversation.html
http://www.speechtechmag.com/Articles/Editorial/Feature/Its-a-Persona-Not-a-Personality-36311.aspx
https://www.forbes.com/sites/mnewlands/2017/08/25/10-essential-tips-on-voice-user-interface-design-for-ai/#29f764dc2422
https://www.theatlantic.com/science/archive/2017/12/the-secret-lifeof-um/547961/
http://www.csun.edu/science/courses/671/bibliography/preece.html
Nielsen, 1995, https://www.nngroup.com/articles/ten-usability-heuristics/
總結(jié)
以上是生活随笔為你收集整理的语音交互设计的一点认知的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: tensorflow学习笔记-bili莫
- 下一篇: 成功的礼品公司的产品经营模式