當前位置：首頁 >

王昊奋 | 从聊天机器人到虚拟生命：AI技术的新机遇

發布時間：2024/7/5 48 豆豆

生活随笔收集整理的這篇文章主要介紹了王昊奋 | 从聊天机器人到虚拟生命：AI技术的新机遇小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

本文轉載自公眾號中國人工智能學會。

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??

10月12-13日，第七屆中國智能產業高峰論壇在佛山開幕，在NLP與服務機器人專題論壇上，深圳狗尾草CTO王昊奮發表了主題為《從聊天機器人到虛擬生命：AI技術的新機遇》的精彩演講。

以下是王昊奮老師的演講實錄：? ?

王昊奮：我今天給大家分享的是從聊天機器人到虛擬生命。我們的產品形態和微軟小冰有一點類似，我們都覺得不能做冷冰冰的技術，而是要追求更有幸福感的技術，即追求高IQ的同時也要追求EQ的進步。我先花30秒時間簡單介紹一下狗尾草公司。狗尾草也有人叫狗尾巴草，生命力極強，野火燒不盡，春風吹又生。作為AI技術的創業企業，我們的首要目的就是活下來，取名狗尾草就希望狗尾草的含義可以祝福我們的公司可以長久存活。此外，狗尾草翻譯成英語就是“Gowild”，可以進一步拆分為兩個單詞，Go+Wild，意思就是去撒野。具體一點就是：找到適合自己公司發展的場景和對應技術，突破思維定式和各種局限。這也融合了我們自己的愿景，如狗尾草公司面向的用戶是年輕人，專注于泛娛樂化領域。這樣，我們的Slogan也應運而生：正青春，去撒野。

大家未必知道狗尾草這個公司，但是面向情感陪伴的家庭服務機器人公子小白，大家一定聽說過。情感陪伴給予了我們幸福感，但是我們希望更進一步，展現更強的生命感，這也是今天的主題：從聊天機器人到虛擬生命：AI技術的新機遇。我會從生命出發，慢慢談到虛擬生命。

第一，我們先說一下生命，維基百科中對生命的定義可以歸納為，包括生長、繁衍、進化、意識、意志和感覺等，還有兩個用其他顏色特別標出來，就是語言和思維，這是區別人和動物的最本質的區別。今天我們的論壇主題是NLP和服務機器人，NLP就是用來解決語言理解和思維表達的利器。從生命到人工生命有兩條路徑，一個是人造生命，可以用生物技術來實現，也就是說通過基因克隆技術來實現生命體的再造，另一條路徑就是通用信息技術來創造數字化的虛擬生命。這里給出了一個二次元圈非常知名的大IP初音未來在開個人演唱會的畫面。通過全息投影將初音未來（虛擬生命）投射到舞臺中央，隨著她的歌唱和舞動，下面的觀眾（真實的物理人）揮舞著熒光棒一起附和，場面非常壯觀。

事實上，在我們的電影大銀幕上，如耳熟能詳的電影Her，還有如機器人養成影片Chappie，以及前一段時間熱播的西部世界中描述的機器人都可以看作是利用IT技術完美實現的虛擬生命。

除了初音未來和大銀幕上的例子，虛擬生命也逐步在我們的生活中出現，這里再舉兩個例子。一個例子是鄧麗君，大家都知道鄧麗君已經去世很多年了，但是我們通過全息投影和AI技術可以讓她再現到我們身邊，這一定是這一種很過癮的體驗，一個觸不可及的人，突然出現在我們身邊，走進尋常百姓家，我們只能感嘆技術讓我們的生活更豐富多彩。另一個例子是美國《紐約時報》的記者詹姆斯將去世的父親以人工智能機器人的形式賦予了永生。他錄制了父親在生命最后階段的話語，并整理出91970 個單詞，通過開源的PullString系統，創造了一個具有父親的性格特質的“虛擬生命”，以父親獨有的口吻，回憶往事，和家人交互。

大家都會問虛擬生命具有什么特點？和剛剛幾位老師說的一樣，會分為幾方面：首先是感知（即看得到、聽得見、說得出），其次是認知，需要有理解、記憶、推理聯想和表達等，最后是進化，不斷學習并逐步產生自我意識。

具體來說，感知能力中看得見對應到計算機視覺（Computer Vision，CV），聽得見就是對應語音識別，說得出就是語音合成；到認知能力，就有理解、記憶、學習、表達、規劃、推理、聯想、情感等；可進化能力，達爾文的《進化論》大家都了解，物種是可變的，生物是可進化的，我們在進化身體的同時，也同時進化我們的思維。

接著，我們再來談一下虛擬生命的技術和成熟度，從生命到虛擬生命，我們到底需要什么樣的技術呢？我們先來看一下Gartner 2017年的技術成熟度曲線，相對成熟的是AR、VR等，對于虛擬現實和增強現實需要有更多高質量的內容，而我們正在經歷和突破的包括虛擬助手、物聯網、智能機器人，機器學習和深度學習、認知計算，處于將來時的還有腦機接口和量子計算。圍繞之前提到的虛擬生命的三大方面，我們來看一下技術的發展。今年8月20日，微軟語音和對話研究團隊負責人黃學東宣布微軟語音識別系統取得重大突破，錯誤率由之前的5.9%進一步降低到5.1%，可與專業速記員比肩；而Google在2015年提出的深度學習算法，已經在ImageNet2012分類數據集中將錯誤率降低到4.94%，首次超越了人眼識別的錯誤率（約5.1%）。DeepMind公司在今年6月發布了最新的WaveNet語音合成系統，也是目前世界上文本到語音環節最好的生成模型。

我們再看一下認知技術到底達到什么水平？由斯坦福大學發起的SQuAD（Stanford Question Answering Dataset）閱讀理解比賽，截止8月22日，Salesforce Research暫列第一，F1達到了85.619%；谷歌推出的神經機器翻譯將誤差率降低55%到80%；2012年谷歌推出了知識圖譜，用于語言認知（概念識別、聯想歸類、歸納、推理），并因此提出新的語義搜索引擎，IBM利用認知計算引擎推出基于個人的全方位醫療體系的沃森醫生，還有訊飛牽頭各大高校科研機構參與的863高考機器人項目，這些成果和項目正不斷突破認知極限，使得我們有更強的語言理解和思考。

在進化方面，AlphaGo在人類棋局監督學習基礎上利用深度強化學習通過自我博弈來不斷提升棋力，最終戰勝了世界冠軍李世石。最近另一個值得關注的就是DeepMind和暴雪公司達成合作意向，意圖將進化技術應用于著名的即時戰略游戲《星際爭霸》，企圖挑戰人類電競冠軍。進化計劃不僅包括早期的遺傳算法和蟻群算法等仿生類的嘗試，也包括近年來非常火爆的遷移學習、強化學習、終生學習和生成對抗網絡等新型算法和學習范式。

介紹完感知、認知和進化方面的技術發展之后，我們就要思考感知+認+進化=？利用現有技術，能夠實現什么樣的產品？我們構建二維坐標軸，橫軸是時間，縱軸是技術發展，我們發現我們經歷了從過去的專家系統跨越到現在的聊天機器人，并逐步在往技術要求更高的虛擬生命進軍。事實上，聊天機器人本身就是感知、認知和進化各種技術的集大成者，而虛擬生命并不是突然蹦出現的新鮮事物，可以理解為聊天機器人的下一代范式。這里舉幾個大家耳熟能詳的例子來介紹一下聊天機器人的演進。2010年SIRI作為虛擬個人助理搭載在新一代iphone4手上發布，將聊天機器人的理念根植于大家心中；2011年IBM的Watson機器人在《危險邊緣》智能問答比賽中戰勝人類冠軍；在2016年微軟大會上首次提出對話即平臺的概念（Conversation as a service），在今年8月22號微軟又發布了第五代小冰，不僅首次在商業產品中使用了生成式模型，還能主動撩用戶。

從聊天機器人升華到虛擬生命，技術方面存在不小的挑戰。感知方面需要存在感官選擇和整合，全雙工模式，多人溝通和遠場交互等方面不斷提升。在認知方面，意圖與表達多樣化的識別、情感計算、多輪對話及上下文管理，常識推理，個性化和回復一致性等都是亟待解決的難題。在進化技術方面，深度學習利用大數據的紅利，對于特定任務可以做到舉一萬反一，而我們人類是小數據學習的典范，可以做到舉一反三，如何讓虛擬生命做到基于小數據的泛化學習是一個核心挑戰。此外，自我認知管理，即知道我們知道什么東西，不知道什么東西對于虛擬生命處理拒識也有很大的幫助。當然快速性格建模以及快速價值觀的形成都是構建虛擬生命進化技術需要關注的。

我們再來說說虛擬生命的實現路徑。從數據科學的角度來看，來自卡內基梅隆大學的William W. Cohen教授指出，雖然大部分的自然語言處理問題都可以通過數據和機器學習（尤其是深度學習）來處理，但仍然有很多問題比如說基于邏輯的語義解析不能夠很好的解決。自然語言處理的結果通常是以邏輯表示，但這些結果一般而言都是不確定的。因此，可擴展性（Scalability）、表示（Representation）以及機器學習（Machine Learning）作為數據科學的三個層面，融合雖然困難，但一定是趨勢所在。更簡單來看，融合就是剛剛說到的深度學習+知識圖譜，深度學習和知識圖譜的定位有什么不同？深度學習是更聰明的AI，更多可以做感知、識別和判斷，但是還是需要有更多的學識，所以需要知識圖譜幫助做思考、語言和推理，所以兩者是互補關系。深度學習的突破，包括極深的深度殘差網絡助力圖像識別的商業化，層次序列到序列的神經機器翻譯，以及多模態的看圖說話和圖片生成文字等。然而深度學習應用在虛擬生命存在諸多局限，例如：如何自動評價對話中生成的回復？端到端對話模型中的知識，基于數據驅動使用Embedding或Tensor來表示是否足夠，是否需要嵌入外部知識資源；端到端過程中如何感知外部環境如個性、情感和場景等，怎么打破嚴重依賴數據質量和數量的限制。

融合的另一個主角知識圖譜，它也不是一個新概念，從語義網絡、本體論到鏈接數據再演化到知識圖譜。這里列出了開放知識圖譜圖，每一個節點代表一個數據源，邊代表數據源之間的領域或領域實體之間的冗余。知識圖譜由于是谷歌在2012年提出的，他被用來提供語義搜索；接著就是輔助問答，因為現在機器人很火、物聯網很火，需要給萬物都搭載一個背景知識庫。在商業智能方面，很重要的就是說從大數據變成可計算大數據，有兩個典型應用，一個是Palantir，用于反恐和國家安全，另一個是KENSHO，用于金融智能分析。

KG也可輔助通用人工智能（Artificial General Intelligence，AGI），即在常識推理方面起到作用。過去人們常用圖靈測試對機器的智能進行評估，近年來，Winograd Schema Challenge逐漸進入大家的視線。這里舉一個指代消解的例子。指代消解是一個經典NLP任務，旨在將代詞指向具名實體。例如，The trophy would not fit in the brown suitcase because it was too big (small). What was too big (small)? 當我們描述it是big時，人們很容易理解這時候是在說獎杯（trophy）；而當it與small搭配時，我們也很容易識別出在抱怨suitcase太小。這個看似非常容易的問題，卻難倒了機器，這是因為人具有非常龐大的世界知識（world knowledge）和常識知識（common-sense knowledge）。當我們僅采用NLP技術來努力理解并給出答案時，正確率僅50%；當結合知識時，正確率提升到了60%，而及格線是90%。因此，我們離真正的通用智能還有很漫長的路要走，需要更多的技術突破和數據積累才能完成這項挑戰。

深度學習與知識圖譜的技術融合存在很多挑戰。人的符號記憶是連續的么？包括Hinton也說，智能精華怎樣實現推理；人的符號記憶是結構化的么？大腦分區域管理不同的文字語義，一個區域分管某個語義區域或一組相關的概念。

大腦中知識組織的結構是文本化還是結構化？符號記憶的獲取和推理過程又是什么？符號計算推理過程是怎樣的，就是知識嵌入或者現代知識表示很粗糙，到底是不是一條正確道路，這都值得我們思考。

在這樣的實現路徑指導下，我們來做虛擬生命的產品初探。狗尾草公司在今年推出了全球首款AI+虛擬偶像琥珀-虛顏，承載她的機器是Holoera（全息紀元），日本在年底將推出Gatebox。這兩款虛擬生命的產品，都使用全息投影技術展示虛擬人物，并且能通過語音和圖像等進行多模態交互。這里我著重介紹一下Holoera+琥珀虛顏。用AI創造的虛擬生命，它有與眾不同的生命形態，相比旁邊大家看到的各種各樣基于舵機構成的傳統機器人，虛擬生命采用3D建模，可通過全息投影來展示，動作更加自然；虛擬生命也有自己的24小時生活，生命感更強；有靈魂、有價值觀，有人設和自己的故事。

我們來看一段視頻，它有很多情緒表達，有多模態輸出，有情感、有語音，這些需要在時間軸上作同步合成。首先，Chatbot需要更加個性化的知識圖譜。除了前面提到的實體KG和興趣KG等開放領域的稀疏大圖，我們也需要構建機器人KG和用戶KG等個性化稠密小圖。機器人或Agent需要圖譜來建模和展示它的自我認知能力，而用戶圖譜則可被看作是更精細化的用戶畫像的知識表現。例如，機器人如“琥珀.虛顏”，有情感狀態，喜好，技能等知識維度。同理，用戶則需要表達其職業狀態和生活軌跡等信息。需要強調的是，無論是個性化小圖還是開放域大圖，都不是獨立存在的，需要將它們融合在一起，才能發揮更大的價值。機器人喜歡吃的食物則需要和實體KG中的食譜圖譜關聯，而與用戶形成經紀人、好友等社會關系，同時愛好方面則和興趣圖譜又關聯在一起，可以實現機器人社交、機器人-用戶社交和用戶社交網絡的統一連接。

其次，我們的世界不僅僅是靜態的，而是動態地反映各種事物在時空上的變化。因此，我們不僅僅需要剛剛談到的靜態圖譜，而是需要思考如何表示和應用動態圖譜。對于一個機器人，它從早到晚會做不同的事情，也就是有自己的生活規則。我們該如何刻畫生活軌跡呢？這就需要我們在圖譜中體現時態知識。另一個例子，用戶行程，即對于用戶圖譜，需要記住用戶各種已經發生、正在星星或即將發生的事件。圖譜中的行程不僅僅是一個關系或屬性，而是一個由多元（N-ary）組成的事件。我們需要定義多種事件類型，并刻畫時間和空間兩個維度。

第三，機器人不能只是冷冰冰的回答用戶的問題或幫助用戶完成特定功能。它需要感知用戶的情感并在輸出答案回復的同時伴隨著相應的情感，這樣才更加擬人化。我們發現，之前構建的知識圖譜大多是客觀的，即描述一些客觀的事實。如何在結合個性化圖譜時，能包括一些主觀知識，進而刻畫機器人或用戶的情感元素。例如，用戶說：“我心情不好”。這屬于閑聊中的情感表達范疇。這時需要將用戶當前的心情狀態更新到用戶圖譜的對應維度數值中。相應地，機器人也會有自己的心情、體力，甚至和用戶之間的好感度關聯。當此時，機器人心情不錯，同時和用戶很親密時，它就會主動關心用戶。這樣結合機器人和用戶情感因素的動態回復會更加溫馨和貼合場景。當在多輪對話時，用戶進一步說：“來一首快樂的歌吧”。需要進一步結合音樂知識KG（快樂作為歌曲的曲風或風格標簽）和用戶KG中的音樂偏好，推薦用戶喜好的歡快的歌。

第四，我們發現聊天機器人為了完成很多功能需要對接外部服務或開放API。此時，圖譜就需要從傳統的關系型知識圖譜（刻畫二元關系）擴展到支持動態服務的動態圖譜（刻畫多元關系，事件屬于服務圖譜的一個特例）。另一方面，如何刻畫服務之間的各種關系（如因果、時序依賴等）也是圖譜擴展過程中需要考慮的。例如，當完成了訂餐，會有很多Follow-up的服務（訂花或預約車等）可作為后續服務被消費。建立這些服務之間的關聯對于進行精準的多輪對話過程中的場景切換是非常有必要的。

我們接觸世界的手段不僅僅是文字，而是結合圖像、語音和文字等多模態來了解外部世界的。因此，我們所構建的知識圖譜也應該從單純文本自然擴展到多媒體知識圖譜。而ImageNet和Visual Genome正是這方面的努力。但是這里我想強調的是對于用戶圖譜這樣更新頻度非常高且很稠密的KG，多媒體知識的引入能幫助機器人從更多的維度來了解用戶，并提供諸如Visual QA等潛在的問答服務。例如，小明正在和琥珀進行交互，通過攝像頭識別出當前交互的用戶是小明根據小明的圖像與用戶ID的關聯，進一步得到其長短時記憶，了解到他在4.20到23號期間會去北京出差，而4月24號要和小蘭共進晚餐。此時，通過用戶圖譜中的社交關系了解到小蘭是小明的女友，當我們需要進一步了解小蘭長什么樣時，或者當小蘭出現在琥珀面前時，需要可以認出小蘭，這時也需要用到我們提到的多媒體知識圖譜。

在實現過程中，首先需要考慮實體識別和鏈接。實體識別稱為Named Entity Recognition，簡稱為NER。在傳統NLP任務中，僅能識別PERSON（人物）、LOCATION（地點）、ORGANIZATION（組織機構）、DATE（時間日期）等有限類別。在實際應用中，NER的主要挑戰在于識別大量細粒度實體類型，比如以Schema.org作為實體類別的分類體系，這里有很多標注數據充足的大類，也有很多缺乏標注數據的小類，如何保證在小類上的識別準確率。此外，分類體系是有層次結構的，如何保證底層的細粒度類別上有令人滿足的識別率。例句“我想聽一首海闊天空”中的“海闊天空”通過NER任務可以識別為是一個音樂作品。僅僅這樣是無法執行對話意圖“音樂點播”的，我們需要進一步將候選鏈接到知識圖譜中的給定實體，這一過程稱為Entity Linking。這里的核心在于歧義消解，一般借助于候選周圍的其他實體或用語作為上下位來幫助去歧義。如果如例子所示，仍然無法明確是哪個實體，可通過反問來引導用戶來給出更明確的實體指引。在實體鏈接過程中，我們所面臨的挑戰在于如何應對新興實體（Emerging Entity）和實體的新興說法（各種新說法和別名）。

聊天機器人依賴于NLP，而大量NLP任務可轉換為有監督的分類或序列標注問題。我們往往會為特定任務下標注數據的缺乏或不充足而發愁，這一點在利用深度學習時尤為嚴重。這時，也將推出知識圖譜的第二個典型應用，叫做數據增強，也就是說 Data Augmentation。具體來說，通過將知識圖譜與文本語料庫關聯，形成大量弱標注數據。這在關系抽取或事件抽取等任務上應用廣泛。例如，對于三元組<琥珀，喜歡吃，葡萄>，通過一定的泛化，我們將琥珀轉換為PERSON，即在Web上收集PERSON和葡萄共現的描述片段，這些描述片段可能代表人物喜歡吃葡萄的特定模式（藍色例句），也可能代表噪聲（紅色）。如何通過聚類分析中的異常點檢測或噪聲建模等方式將弱標注語料中的噪聲識別并剔除。當然，包含一定比例的隨機噪聲，對于模型訓練是一定幫助的，可以保證模型具有一定的泛化能力和魯棒性。使用Web作為關聯的語料庫，主要看中Web上描述比較多樣化，且信息具有冗余性，可以在保證覆蓋率的同時確保數據的分布貼近真實情況。然而對于以語音作為主要交互方式的口語化聊天對話場景，我們仍然需要考慮從Web語料上學習到的模式或訓練得到的模型如何進一步遷移適配。

第三個是知識問答（KBQA）。其中句理解的難點在于NLU，而候選答案生成則與檢索過程關聯，至于答案融合和排序，則重點考慮各種基于證據的收集和學習排序算法。這里我們看一個真實的例子，比如說“你覺得胡海泉這個人怎么樣？”，這是一個意見詢問類查詢（opinion query），此時可以有很多回答，為了使得答案的多樣化，除了利用摘要技術（summarization）從百科站點中得到“胡海泉是個歌壇巨星呀”之外，通過機器人KG中的經紀人關系，可以顯式表明琥珀和他的關系。更進一步，可以通過琥珀記憶和技能關聯，主動推薦“海泉給琥珀寫的歌”。當用戶給予明確的回復時，將表演自己的才藝，即唱自己的歌。在我們所描述的知識圖譜下支持問答，需要額外考慮：1）如何統一對實體、問句、圖像、上下文進行統一的表示，映射到同構的語義空間中？2）知識庫永遠不可能是完備的，如何從KBQA擴展到支持知識庫和Web的混合QA場景下，并提供精準的數據源選擇和語義解析？3）如何評估問句的復雜程度，并從單一知識庫查詢擴展到多知識庫查詢？

第四個是聯想和推理。這里我列舉了三種推理，但實際情況下不局限于這三種。第一種是空間推理，比如說“桌子上面有電腦，電腦旁邊有水杯”，然后問，“桌子上面有什么”，正確的回答是電腦和水杯。桌子上有水杯是通過空間位置的判斷得到的。空間推理在地理類問答和智能家居控制等應用中有非常廣泛的應用。第二種是答案類型推理。答案類型（Answer Type）作為一種很重要的證據，對問答的準確性有很大的作用。這里的推理包括實例推理（如例子中乒乓球是一種運動）、上下位推理（白色家電是一種家電）和互斥推理（空調和電視沒有交集）等。第三種是場景推理，即結合場景業務規則和相關常識知識進行一些聯想。例如空調需要一定時間之后才能制冷，而用戶在這段時間感到熱時可以吃一些冷飲。除了這三類，沖突檢測對于聊天機器人尤其是用戶記憶很有價值。這里不僅包括前面提及的類別之間的互斥定義，還可以包括關系單值或數量約束，甚至形成很多由推理得到的事實和顯式定義的事實組成的沖突關系鏈。這些對推理機的表達能力提出了更高的要求。

為了實現上述這些用于構建虛擬生命的AI技術，我們構建了一個AI引擎GAVE（Gowild AI Virtual Engine，人工智能虛擬生命引擎）。我不會具體說這個引擎到底怎么實現，就是給大家一個概述，最底層，我們考慮實現知識圖譜統一表示、構建與融合，高效的知識存儲與知識計算，AI+HI=增強智能，我們在弱人工智能化，我們引入人類的智慧，我們要在這樣一個閉環中幫助機器進化。第二層是感知智認知智能的一體化，傳統的方式，錯誤會繼續放大。從單一模態到多模態融合交互，也是我們發展的方向。只建一個知識庫沒有用，怎么通過知識庫建立語義和語用的橋梁。

問答聊天的服務化，支持場景化AI快速配置，開放平臺接入，我們需要站在巨人肩膀上，不能什么東西都自己做，因為我們是小公司，但是我們的愿景和想做的事情很宏偉，我們需要和大家一起合作。我們虛擬生命的口號叫讓AI打破次元壁壘，也就是說我們是三次元人群，我們構建的虛擬生命是二次元的美少女，我們如何建立這樣一個通道，打破次元壁壘，是我們比較關注的事情。

謝謝大家！

CAAI原創?丨作者王昊奮

未經授權嚴禁轉載及翻譯

如需轉載合作請向學會或本人申請

轉發請注明轉自中國人工智能學會

OpenKG.CN

中文開放知識圖譜（簡稱OpenKG.CN）旨在促進中文知識圖譜數據的開放與互聯，促進知識圖譜和語義技術的普及和廣泛應用。

總結

以上是生活随笔為你收集整理的王昊奋 | 从聊天机器人到虚拟生命：AI技术的新机遇的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：统计学习方法总结
下一篇：谷歌发布端到端AI平台，还有用于视频和表

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

王昊奋 | 从聊天机器人到虚拟生命：AI技术的新机遇

總結