为什么Siri总是像个智障?智能助手背后的技术到底有多难?
導(dǎo)讀:本文帶你簡單了解一下智能助手背后的會話式人工智能技術(shù)。
作者:木羊同學(xué)
來源:大數(shù)據(jù)DT(ID:hzdashuju)
01 大話智能助理
智能助理應(yīng)該是當(dāng)前人工智能技術(shù)最為成功的落地方向之一。我還記得,當(dāng)初iPhone4S率先推出著名的人工智能助理Siri,馬上就有不少評論家預(yù)測,Siri也將像iPhone一樣,為人類開創(chuàng)一個全新的時代,而調(diào)戲Siri也成了當(dāng)時最流行的游戲之一。當(dāng)時我們在看視頻演示的時候,心中都對Siri充滿的期待。
我們一直說,智能手機(jī)智能手機(jī),但以前總感覺所謂智能手機(jī),也就是傳統(tǒng)的手機(jī)+迷你版的電腦,“智能”體現(xiàn)在什么地方呢?現(xiàn)在有了Siri,手機(jī)真的能像個老友一樣和你聊天打屁,感覺要名副其實得多了。
我們都聽過智能助理,可是你是否認(rèn)真想過一個問題:智能助理對于用戶,到底意味著什么?也許不同人能給出很多不同的看法,不過,業(yè)界最常見的答案是,提供了全新的交互界面。
我們說Windows是桌面霸主,它的成功,就成功在提供了在當(dāng)時來說相當(dāng)友好的交互界面,相比黑乎乎的命令輸入,Windows的桌面簡單、直觀,一下降低了PC的使用門檻。
而智能助理則是在這個已經(jīng)不太高的門檻上再打一個“骨折”,幾乎不需要額外的學(xué)習(xí)曲線,不用學(xué)習(xí)使用鍵盤鼠標(biāo),也不用熟悉系統(tǒng)界面,只需要用對話這種最自然的交互方式就能操控機(jī)器。相信在今年疫情期間,很多人說話最對的對象,就是家里各式各樣的智能助理,譬如智能音箱。
02 新的交互界面
采用對話作為交互方式有很多優(yōu)點,我覺得有兩樣最為重要。一樣就是自然,人類從一出生就開始學(xué)習(xí)的技術(shù)也就兩樣,除了蹣跚學(xué)步,就只有牙牙學(xué)語,說話應(yīng)該是我們?nèi)粘V凶畛R娨彩亲盍?xí)慣的交互方式。
另一樣是便捷,回想一下,手機(jī)也好、電腦也好,雖然給我們帶來了種種便利,但也禁錮了我們最為重要的雙手,而現(xiàn)在回歸了用說話的方式操控機(jī)器,雙手就被解放出來可能干別的事情。
正因為這兩樣有點,現(xiàn)在智能助理的應(yīng)用場景很多,所以產(chǎn)品也很多,智能手機(jī)、智能音箱,甚至不少汽車也將智能助理作為重要賣點,現(xiàn)在我家電梯里經(jīng)常播的一個汽車廣告就是這樣,里面的車載智能助理細(xì)心得就像親媽一樣,車主一回到車?yán)锞透鞣N噓寒問暖,就差非要加上一條秋褲。
不過,從今天往回看,智能助理的優(yōu)勢很大,推出自然是理所當(dāng)然,但是,智能助理背后運(yùn)用了一整套互相配合的智能技術(shù),發(fā)展也是一波三折充滿坎坷。
就拿Siri來說吧,別看今天Siri好像是一位高冷的知識女性,在它波折的成長路途中,說傷痕累累都是輕的,感覺好幾次都差點在一片唾沫星子當(dāng)中遭到滅頂之災(zāi)。
Siri的槽點很多,第一個就是語種。沒錯,雖然Siri可以算是iPhone 4S最大的賣點,很多人干脆就是沖著Siri去果斷賣了腎。可是到手一看,發(fā)現(xiàn)自己吃了沒文化的虧,人家Siri只聽得懂英文,說完Hello以后,95%的用戶都猛然發(fā)現(xiàn)自己像是頭一次相親一樣,接下去就不知道該說什么好,詞窮了。好不容易找到點句子吧,結(jié)果口音還必須純正。
在大多數(shù)時候,Siri需要識別半天不說,最后返回結(jié)果經(jīng)常是牛頭不搭馬嘴。語音識別時間長、識別結(jié)果不準(zhǔn)在后來很長一段時間都是Siri的重要槽點,給人一種蠢笨難忍的感覺。哪怕后來iOS 6以后,Siri終于學(xué)會了中文,仍然距離那種與用戶談笑生風(fēng)的形象相去甚遠(yuǎn)。
03 智能助理的耳朵和嘴巴
當(dāng)時大家對智能助手還很新奇的時候,最想知道的問題之一,就是這個小葫蘆里面究竟裝了一副怎樣的藥,是不是真的把人縮小了然后塞進(jìn)里面去。
我當(dāng)時就十分好奇Siri的原理,究竟要做到以自然語言的形式,做到自然對話來控制機(jī)器,背后是怎樣的一套機(jī)制在運(yùn)行呢?但是查了好多資料,感覺大家也都還不甚清楚,只是模模糊糊說很高大上。
大家都容易高估不了解的東西的難度。其實,智能助理還真不太“復(fù)雜”,說起來,結(jié)構(gòu)和我們熟悉的電腦還十分類似。
先說外設(shè),智能助理要開口說話,同樣需要一套輸入輸出設(shè)備,具體來說,我們不妨將智能助理的大腦當(dāng)作電腦的CPU,CPU是需要得到數(shù)據(jù)輸入,然后經(jīng)過計算,在將結(jié)果輸出,而所謂外設(shè),就是能夠能夠?qū)⑼獠康恼Z音轉(zhuǎn)化為機(jī)器能懂的輸入,以及將機(jī)器經(jīng)過運(yùn)算得到的結(jié)果轉(zhuǎn)化成語音輸出。
這是兩項獨(dú)立的任務(wù),當(dāng)然也都是采用人工智能技術(shù)來完成,分別為負(fù)責(zé)將語音轉(zhuǎn)化為機(jī)器輸入的自動語音識別技術(shù)(ASR),以及將結(jié)果轉(zhuǎn)化為語音輸出的語音生成技術(shù)(TTS)。這兩項技術(shù)雖然聽著復(fù)雜,背后的技術(shù)原理也確實足以寫一本書,不過已經(jīng)發(fā)展得較為成熟,人工智能方面有較為豐富的技術(shù)積累。
簡單來說,ASR負(fù)責(zé)將聲音轉(zhuǎn)成文本,而TTS則負(fù)責(zé)將文本轉(zhuǎn)成聲音。具體就不介紹了,市面上已經(jīng)有太多類似的技術(shù),譬如微信就有聲音轉(zhuǎn)文本,這就是典型的ASR,而許多讀書工具都有AI朗讀功能,雖然吧效果一言難盡,從感情到靈魂一路都缺,不過用來理解ASR應(yīng)該沒有問題。
04 智能助理的大腦
最難也是最復(fù)雜的部分,就是實現(xiàn)智能語音助手的大腦,通常可以切分為三項獨(dú)立的任務(wù),分別為自然語言理解(NLU)、對話管理(DM)和自然語言生成(NLG)。這里出現(xiàn)了很多縮寫,其實核心就是自然語言處理(NLP)。
自然語言處理,被譽(yù)為人工智能皇冠上的寶石,也是現(xiàn)在人工智能研究的重點方向,不斷有模型推陳出新,很有一點一代版本一代神的意思。現(xiàn)在NLP的扛把子叫Bert,各大頂會只要和NLP沾邊,都會現(xiàn)在肯定都會有一個占比頗重的環(huán)節(jié),叫花式玩弄Bert。
說遠(yuǎn)了說回來。在智能助手的大腦中,NLU、DM和NLG就是NLP的兩項重要任務(wù)。
NLU很好理解,人的語言和機(jī)器指令有個很大的不同點,就是前者屬于非結(jié)構(gòu)化數(shù)據(jù),而后者屬于結(jié)構(gòu)化數(shù)據(jù)。非結(jié)構(gòu)化數(shù)據(jù)機(jī)器是聽不懂的,必須轉(zhuǎn)化成結(jié)構(gòu)化數(shù)據(jù),機(jī)器才好理解和執(zhí)行。那誰來扮演中介商呢?就是NLU。道理很好懂,但是實現(xiàn)很復(fù)雜,還有無數(shù)的坑在前面等著大家去填。
在智能助手中,NLU的角色是這樣的,首先ASR將聲音轉(zhuǎn)成文本,當(dāng)然,是非結(jié)構(gòu)化文本,然后將這些文本輸入給NLU,有NLU做一些閱讀理解,把理解以后的意思按固定格式填寫,也就是形成機(jī)器能懂得結(jié)構(gòu)化文本,交給下游環(huán)節(jié)處理。
NLU的下游環(huán)節(jié)就是DM,對話管理,名字起得有點莫名其妙,其實就干兩件事,一件事是狀態(tài)追蹤,解釋起來很復(fù)雜,不過可以簡單理解為根據(jù)上下文理解當(dāng)前輸入的意思,也就是做了個閱讀理解。另一件事就是動作生成,你得根據(jù)人說話的意思作出回答。
那NLG是什么呢?和NLU正好反過來,是文本生成。上游不是通過DM作了閱讀理解,輸入了結(jié)構(gòu)化文本嗎?那根據(jù)這個輸入,咱得通過動作生成思考一下該回答啥,一般的機(jī)器知道回答個Yes和No就了不起了,頂多再多給一點選項,不過光這樣一點也不像自然對話,還得擴(kuò)展擴(kuò)展,也就是根據(jù)某個意思,“生成”一點文本內(nèi)容,這就是NLG的工作。到了這一步,整條鏈子就串起來了。
現(xiàn)在這種智能助理應(yīng)用已經(jīng)非常多了,而還有一種類似但應(yīng)用更廣的技術(shù),叫對話機(jī)器人技術(shù),譬如雙十一肯定能遇到的淘寶機(jī)器人客服,這種客服不需要聽說能力,直接用文字對文字的形式進(jìn)行溝通,相信看完了上文,大家應(yīng)該也清楚對話機(jī)器人技術(shù)的基本原理。
不過,上面只是很淺顯地介紹了會話式人工智能技術(shù),還有很多細(xì)節(jié)的問題,譬如中文分詞問題,需要在實際實踐是加以解決。我推薦一本書,叫《會話式AI:自然語言處理與人機(jī)交互》,里面系統(tǒng)地介紹了會話式人工智能的相關(guān)內(nèi)容,想要更深入了解該技術(shù)的同學(xué)可以仔細(xì)閱讀。
關(guān)于作者:莫凡,網(wǎng)名木羊同學(xué)。娛樂向機(jī)器學(xué)習(xí)解說選手,《機(jī)器學(xué)習(xí)算法的數(shù)學(xué)解析與Python實現(xiàn)》作者,前沿技術(shù)發(fā)展觀潮者,擅長高冷技術(shù)的“白菜化”解說,微信公眾號“睡前機(jī)器學(xué)習(xí)”,個人知乎號“木羊”。
延伸閱讀《會話式AI:自然語言處理與人機(jī)交互》
點擊上圖了解及購買
轉(zhuǎn)載請聯(lián)系微信:DoctorData
推薦語:騰訊、阿里、國家標(biāo)準(zhǔn)委&AIIA人工智能專家多年大型項目經(jīng)驗總結(jié),詳解NLP和人機(jī)交互核心技術(shù),從技術(shù)、算法、實戰(zhàn)3維度講解聊天機(jī)器人原理、實現(xiàn)與工程實踐。
劃重點????
干貨直達(dá)????
華為內(nèi)部資料流出!揭秘華為數(shù)據(jù)湖:3大特點、6個標(biāo)準(zhǔn)、入湖流程
中臺的本質(zhì)及中臺建設(shè)的4點思考
什么是YARN?跟HBase和Spark比優(yōu)勢在哪?終于有人講明白了
終于有人把大數(shù)據(jù)講明白了
更多精彩????
在公眾號對話框輸入以下關(guān)鍵詞
查看更多優(yōu)質(zhì)內(nèi)容!
PPT?|?讀書?|?書單?|?硬核?|?干貨?|?講明白?|?神操作
大數(shù)據(jù)?|?云計算?|?數(shù)據(jù)庫?|?Python?|?可視化
AI?|?人工智能?|?機(jī)器學(xué)習(xí)?|?深度學(xué)習(xí)?|?NLP
5G?|?中臺?|?用戶畫像?|?1024?|?數(shù)學(xué)?|?算法?|?數(shù)字孿生
據(jù)統(tǒng)計,99%的大咖都完成了這個神操作
????
總結(jié)
以上是生活随笔為你收集整理的为什么Siri总是像个智障?智能助手背后的技术到底有多难?的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: “左手5G右手AI”,任正非推崇的王喜文
- 下一篇: 以朋友圈为例,腾讯资深架构师揭秘鹅厂大数