日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

qlabel文本改变信号_周明:NLP进步将如何改变搜索体验

發(fā)布時(shí)間:2025/3/15 编程问答 25 豆豆
生活随笔 收集整理的這篇文章主要介紹了 qlabel文本改变信号_周明:NLP进步将如何改变搜索体验 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

編者按:4月3日,微軟亞洲研究院副院長周明受邀參加北大AI公開課,與大家分享了近期自然語言技術(shù)取得的進(jìn)展和創(chuàng)新成果,并探討了自然語言技術(shù)和搜索引擎如何進(jìn)一步結(jié)合并創(chuàng)造新的可能。在課后問答環(huán)節(jié),周明解讀了當(dāng)前自然語言技術(shù)比較重要的研究方向,并為想要進(jìn)入這一領(lǐng)域的同學(xué)提供了一些實(shí)用建議。本文由 AI 前線(ID:ai-front)獨(dú)家整理首發(fā),未經(jīng)授權(quán)請勿轉(zhuǎn)載。

課程導(dǎo)師:雷鳴,天使投資人,百度創(chuàng)始七劍客之一,酷我音樂創(chuàng)始人,北大信科人工智能創(chuàng)新中心主任,2000 年獲得北京大學(xué)計(jì)算機(jī)碩士學(xué)位,2005 年獲得斯坦福商學(xué)院 MBA 學(xué)位。

特邀講者:周明博士, 1999年加入微軟研究院,現(xiàn)任微軟亞洲研究院副院長,也是現(xiàn)任國際計(jì)算語言學(xué)會(huì)(ACL)會(huì)長,中國計(jì)算機(jī)學(xué)會(huì)理事、中文信息技術(shù)專委會(huì)(即NLP專委會(huì))主任、中國中文信息學(xué)會(huì)常務(wù)理事。他長期領(lǐng)導(dǎo)NLP的研究,包括輸入法、在線詞典(必應(yīng)詞典)、下一代搜索、機(jī)器翻譯、問答、聊天機(jī)器人、計(jì)算機(jī)對(duì)聯(lián)(微軟對(duì)聯(lián))、知識(shí)圖譜、語義分析、文本挖掘、文本生成、用戶畫像和推薦系統(tǒng)等。主編《機(jī)器翻譯》、《智能問答》等NLP技術(shù)專著。他的團(tuán)隊(duì)對(duì)微軟產(chǎn)品(譬如Office、Windows、必應(yīng)搜索、Azure、小冰等)的NLP技術(shù)做出了不可替代的貢獻(xiàn)。

以下為 AI 前線(ID:ai-front)獨(dú)家整理的周明老師課程內(nèi)容(略有刪減)

對(duì)于搜索引擎來說,最重要的是兩件事,第一是智能程度,指的是理解用戶意圖和文檔,然后快速找出答案,這是智能部分;第二是自然程度(Naturalness),指的是根據(jù)用戶輸入的搜索請求,把搜索結(jié)果很自然地展現(xiàn)給用戶,整體表現(xiàn)就是搜索非常流暢。自然語言從搜索引擎出現(xiàn)開始一直到今天為止,都對(duì)搜索引擎的智能和自然這兩個(gè)方面起到了極為重要的作用。

搜索引擎背后的 NLP 技術(shù)

下圖是一個(gè)典型的搜索引擎,我們以微軟Bing搜索為例回顧一下搜索引擎的工作過程,再看看其中涉及到哪些自然語言技術(shù)。

首先會(huì)有一個(gè)輸入框,我們叫做Header&Search Box,用于輸入Query。用戶輸入Query之后,它就要干一件事,叫Context&Query Understanding。搜索引擎首先要理解Context,就是什么人用了什么樣的設(shè)備、在什么地點(diǎn)輸入這樣的Query,其次要理解用戶的意圖,就是用戶輸入這個(gè)Query是想搜什么。

基于理解的結(jié)果,再到網(wǎng)上去搜索。主要會(huì)搜出幾件事,第一個(gè)就是Ten Blue Links即十個(gè)最重要的匹配文檔。還有Super Fresh內(nèi)容,就是新鮮的一些事物或者文檔,比如新聞的有關(guān)結(jié)果搜出來。還有一些Instant Answer,就是涉及到天氣、股票、交通等垂直領(lǐng)域的信息,我們一般都叫Instant Answer。還有一些Task&Social Pane,Task指的是基于搜索結(jié)果的頁面上還可能要做新的任務(wù),比如訂票;Social Pane是列出相關(guān)的微信、微博或LinkedIn的各種信息。最后在以上的各種搜索結(jié)果基礎(chǔ)上配上合適的廣告。

這就是我們的搜索引擎基于一個(gè)用戶Query到最后輸出搜索結(jié)果的一個(gè)過程。然后我們要把這些結(jié)果體現(xiàn)在一個(gè)網(wǎng)頁上,再對(duì)頁面進(jìn)行整體優(yōu)化,適應(yīng)于不同的設(shè)備、瀏覽器和屏幕(比如桌面和手機(jī)),頁面布局要美觀大方。

為了支持這個(gè)搜索過程,我們需要一些Offline的操作,最主要的就是Crawler和Index。Crawler指的是到網(wǎng)上把浩如煙海的各種文檔爬下來,爬的越多越好;然后是Index,把重要的文檔選出來,同時(shí)把每篇文檔中其中的重要信息摘出來,一般是用關(guān)鍵詞來做索引,然后入庫;這個(gè)過程中需要把一些有極端傾向或者黃色的文檔過濾掉。這些都是Offline要做的工作,最后要把結(jié)果體現(xiàn)到web index里面,供搜索的前端系統(tǒng)使用。

我們可以看到,整個(gè)搜索過程背后用到了很多自然語言技術(shù),具體如下圖。

在搜索引擎初期,自然語言技術(shù)用的比較淺。隨著自然語言技術(shù)快速發(fā)展并變得越來越成熟,我們把越來越多的自然語言技術(shù)(NLP)試探性地放到搜索引擎中,看它能起到什么樣的效果,并不斷加以改進(jìn)直到穩(wěn)定。NLP在搜索中的作用越來越重要。

今天的講座主要回答兩個(gè)問題,第一是自然語言處理到底有哪些新的進(jìn)展;第二是這些新的進(jìn)展給我們的搜索引擎帶來了什么新的變化,或者未來可能會(huì)帶來什么新的變化。

自然語言技術(shù)的重要組成

自然語言技術(shù)覆蓋的領(lǐng)域可以總結(jié)為三方面,包括 NLP 基礎(chǔ)、NLP 核心技術(shù)和 NLP 應(yīng)用。

NLP基礎(chǔ)包括詞的表示,比如現(xiàn)在熱門的word Embedding。詞的表示包括上下文無關(guān)的表示和上下文有關(guān)的表示,前者就是靜態(tài)的Word Embedding,后者現(xiàn)在一般使用各種預(yù)訓(xùn)練模型,根據(jù)當(dāng)前的句子來體現(xiàn)一個(gè)詞在特定上下文的的語境里面該詞的語義表示。同樣一個(gè)詞,在不同的語境下,其語義表示也不一樣。基于詞的表示,我們就可以做很多應(yīng)用,比如語言模型、分詞、語言模型、句法語義分析、篇章分析、等等,這些都是NLP的基礎(chǔ)。

基于 NLP 基礎(chǔ),我們又有很多 NLP 的核心技術(shù),包括機(jī)器翻譯、問答、信息檢索、信息抽取、對(duì)話、知識(shí)工程,還有自然語言生成、推薦系統(tǒng),等等。

基于 NLP 核心技術(shù),我們就可以把 NLP 用在一些具體的應(yīng)用中,比如搜索引擎、客服、商業(yè)智能和語音助手。

為了完成這些任務(wù)還需要很多底層支撐技術(shù),包括用戶畫像建模、用于實(shí)現(xiàn)個(gè)性化的推薦技術(shù)、大數(shù)據(jù)能力、計(jì)算能力、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的能力、知識(shí)庫、常識(shí)及推理的能力。

深度學(xué)習(xí)對(duì)自然語言技術(shù)的影響

深度學(xué)習(xí)先后對(duì)圖像、語音、自然語言這些領(lǐng)域都產(chǎn)生了重要的影響。其中,深度學(xué)習(xí)對(duì)自然語言的影響主要體現(xiàn)在以下 6 個(gè)方面:

1. 端到端訓(xùn)練(End-end training)

過去做統(tǒng)計(jì)自然語言處理的時(shí)候,都是由專家去定義各種Feature,需要很多領(lǐng)域知識(shí)。有的時(shí)候不容易找到很好的Feature。而有了端對(duì)端的訓(xùn)練,只要有輸入和輸出的對(duì)照(輸入-輸出),把輸入對(duì)應(yīng)的輸出標(biāo)注好,形成訓(xùn)練數(shù)據(jù)集合。然后用神經(jīng)網(wǎng)絡(luò)通過自動(dòng)訓(xùn)練就可以得到學(xué)習(xí)系統(tǒng),不需要人為設(shè)定和優(yōu)選Feature。這改變了很多自然語言技術(shù)的發(fā)展,大大降低了自然語言處理的技術(shù)門檻。這意味著,你只要有算力和標(biāo)注數(shù)據(jù),基本上可以“傻瓜式”地實(shí)現(xiàn)一個(gè)自然語言模型的學(xué)習(xí),從而推動(dòng)了自然語言處理技術(shù)的普及。

2. 語義表示(Embedding)和預(yù)訓(xùn)練模型(Pretrained Model)

一是上下文無關(guān)的Embedding(表示),就是不管上下文是什么,一個(gè)詞的表示是固定的(用多維向量來表示)。第二個(gè),根據(jù)上下文有關(guān),在不同的句子里,同一個(gè)詞的意思可能不一樣,那么它的embedding也是不一樣的。現(xiàn)在利用Bert和GPT-2這樣的模型,可以根據(jù)一個(gè)詞的上下文訓(xùn)練這個(gè)詞的動(dòng)態(tài)Embedding。在做其他任務(wù)時(shí)候,預(yù)訓(xùn)練模型可以用來強(qiáng)化輸入信息。有了Embedding這個(gè)東西就可以計(jì)算詞與詞之間的距離;基于詞的Embedding,又可以得到句子的Embedding,也就可以計(jì)算句子與句子之間的距離。這就使得搜索引擎中Query對(duì)Document匹配程度的計(jì)算得以改進(jìn)。

3. Attention(注意力模型)

Attention指的是不同的輸入信號(hào)源之間可以做相應(yīng)的修正,來動(dòng)態(tài)地體現(xiàn)當(dāng)前層對(duì)網(wǎng)絡(luò)的下一層或者對(duì)網(wǎng)絡(luò)輸出層的最佳輸入信號(hào)。有了Attention,就可以對(duì)受多輸入路信號(hào),然后動(dòng)態(tài)計(jì)算信號(hào)之間產(chǎn)生的互相影響。

4. 句子的編碼方法(RNN/LSTM/GRU/Transformer)

對(duì)于一個(gè)不定長的句子,可以通過 RNN、LSTM/GRU 或者 Transformer 技術(shù)表示其編碼,表現(xiàn)為若干個(gè)隱含狀態(tài)的序列。一個(gè)隱含狀態(tài)對(duì)應(yīng)句子的一個(gè)詞匯。雖然以上對(duì)句子的幾種編碼方式都可行,但是發(fā)展到目前,更多是用 Transformer 來對(duì)句子編碼。對(duì)句子編碼之后,就可以做翻譯、問答、檢索等各種應(yīng)用。

5. 編碼 - 解碼模型(Encoder-Decoder)

NLP中,很多任務(wù)都可以定義成一個(gè)輸入和一個(gè)輸出的對(duì)應(yīng)。所以編碼-解碼模型有普遍的適用意義。比如,機(jī)器翻譯任務(wù),源語言句子是輸入,目標(biāo)語言句子是輸出。這樣就存在輸入和輸出的對(duì)應(yīng)。如果是單輪任務(wù),就是輸入和輸出直接對(duì)應(yīng),不需要中間推理,可以用編碼和解碼的技術(shù)來進(jìn)行建模。除了機(jī)器翻譯,詞性標(biāo)注、分詞、句法分析、語義分析、問答、摘要、閱讀理解等許多任務(wù)都可以通過編碼-解碼模型進(jìn)行建模。

6. 強(qiáng)化學(xué)習(xí)

系統(tǒng)根據(jù)用戶的反饋或者環(huán)境的反饋信號(hào),會(huì)迭代地修正參數(shù),整個(gè)系統(tǒng)得以不斷改進(jìn)。比如對(duì)話系統(tǒng)很多用到了強(qiáng)化學(xué)習(xí)。不過在很多其他NLP任務(wù)中,如何體現(xiàn)強(qiáng)化學(xué)習(xí)是一個(gè)還在不停探索的問題。

自然語言技術(shù)的進(jìn)展和趨勢

接下來逐一介紹自然語言技術(shù)在不同方向上的進(jìn)展,并討論每一項(xiàng)進(jìn)展對(duì)于搜索的影響。

問答技術(shù)(QA)

當(dāng)用戶提出問題或者 Query 的時(shí)候,搜索引擎或問答系統(tǒng)需要到它所能夠掌握的資源里去找到相應(yīng)的答案。一般有如下幾項(xiàng)資源以及相對(duì)應(yīng)的 QA 技術(shù):

1. Community-QA,就是常見的 FAQ 表。對(duì)于一個(gè)問題,可尋找歷史上類似的問題,然后把其對(duì)應(yīng)的答案輸出。

2. KBQA,就是到知識(shí)圖譜里把相應(yīng)的答案找出來或者推理出來。

3. TableQA,針對(duì)問題在網(wǎng)絡(luò)上查找對(duì)應(yīng)的表格,然后把表格的相關(guān)信息抽取出來作為答案。

4. PassageQA,針對(duì)問題,在無結(jié)構(gòu)的文檔中尋找答案。

5. VQA,從視頻或者圖像中把答案抽取出來。

目前利用多源數(shù)據(jù)流或者知識(shí)庫進(jìn)行 QA 的技術(shù)已經(jīng)越來越普及,而且相應(yīng)的語義分析技術(shù)和排序技術(shù)也比以前大大提高了。

過去的 QA 都是用的傳統(tǒng)的,像手工編輯的基于規(guī)則的語義分析,比如說 CCG,但由于它存在各種問題,最近三年以來人們更多使用 Encoder-Decoder 技術(shù)來做語義分析,在分層語義分析、上下文感知的語義分析上都取得了新的突破。

有了很好的 QA 之后,搜索引擎的智能水平和自然程度都提高了。但是在具體做搜索引擎的時(shí)候,比如在某些垂直領(lǐng)域,或者使用某些設(shè)備時(shí),怎么用 QA 的結(jié)果,可能是仁者見仁智者見智。可信度極高的時(shí)候可以使用 QA 的結(jié)果,可信度不高的時(shí)候還是要回歸到原來的 Ten Blue Links 上面,這需要拿捏一定的尺度并跟 UI 很好地結(jié)合。

多語言處理能力(Multi-lingual capability)

多語言的處理能力對(duì)于搜索引擎非常重要。假設(shè)我們有很好的機(jī)器翻譯技術(shù),就可以做多語言的搜索,將用戶想要搜索的信息、哪怕是來自其他語言的也可以找出來,在搜索結(jié)果中呈現(xiàn),并通過機(jī)器翻譯技術(shù)把頁面翻譯成用戶的母語。

機(jī)器翻譯其實(shí)一直都進(jìn)展緩慢,近幾年由于深度學(xué)習(xí)技術(shù)的發(fā)展,神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯相比統(tǒng)計(jì)機(jī)器翻譯已經(jīng)有了大幅度的進(jìn)展。機(jī)器翻譯技術(shù)可以分成兩類,一種是 Rich Resource NMT,也就是雙語語料豐富的語言對(duì)(比如中文 - 英文);另一種叫 Low Resource NMT,即缺少足夠的雙語語料(比如中文 - 希伯來語)。

目前的機(jī)器翻譯在Rich Resource 上已經(jīng)做得非常好了,甚至在某些訓(xùn)練集下已經(jīng)可以達(dá)到或超過人工翻譯水平。但是Low Resource現(xiàn)在才剛剛開始,有很多有趣的研究,整體水平還處于比較低級(jí)的階段。

機(jī)器翻譯在搜索上已經(jīng)有很多的應(yīng)用,現(xiàn)在每一個(gè)搜索引擎都會(huì)有機(jī)器翻譯應(yīng)用,用戶可以動(dòng)態(tài)地把網(wǎng)頁翻譯成所需要的某種語言。

神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯最開始是用RNN來做,后來引入了注意力模型,過去兩年又出現(xiàn)了Transformer技術(shù),大大提升了并行能力。現(xiàn)在大部分神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯都是用Transformer來做的,最近業(yè)界也有了很多新的進(jìn)展,包括微軟亞洲研究院的最新技術(shù)等,使得機(jī)神經(jīng)器翻譯有了長足的進(jìn)步。

上圖所示是微軟 2018 年在神經(jīng)機(jī)器翻譯的進(jìn)展。傳統(tǒng) Transformer 的 Baseline 只有 24.2,加上單方向的 Back Translation 之后可以達(dá)到 25.57,再加上聯(lián)合學(xué)習(xí)、對(duì)偶學(xué)習(xí)、多次解碼和雙向一致性解碼等技術(shù)讓系統(tǒng)的表現(xiàn)不斷提高。當(dāng)前將所有成果結(jié)合起來已經(jīng)在 WMT 新聞?wù)Z料上得到了一個(gè)最佳翻譯結(jié)果,而且這個(gè)結(jié)果達(dá)到了人工翻譯在這個(gè)數(shù)據(jù)集合的水平。

下面是一些句子翻譯的示例展示,第一行是輸入的句子,第二行就是機(jī)器翻譯的句子,第三行是人工翻譯的句子。雖然有些詞用法不一樣,但是所有句子相互之間都是等價(jià)的。

當(dāng)沒有那么足夠多語料的時(shí)候,就要考慮 Low Resource 的機(jī)器翻譯技術(shù)。Low Resource 的機(jī)器翻譯現(xiàn)在主要有三個(gè)思路。

  • 樞軸式翻譯(Pivot-based NMT):比如說要翻中日,可以通過先中翻英、再英翻日這樣一個(gè)兩步走的過程來實(shí)現(xiàn),因?yàn)橹形?- 英文、英文 - 日文的雙語語料比較多。
  • Tri-Language NMT:這是一個(gè)三角形的機(jī)器翻譯架構(gòu)。假設(shè)有一個(gè) Rich Resource 的語料對(duì),比如中英,但是要翻譯一個(gè) Low Resource 的語言,比如希伯來語。中文和希伯來語、英文和希伯來語的預(yù)料對(duì)相對(duì)都比較少,那么可以利用中英已經(jīng)很強(qiáng)大的機(jī)器翻譯和對(duì)應(yīng)的語料,來把希伯來語和中文,與希伯來語和英文的翻譯來強(qiáng)化,通過一個(gè) EM 迭代的過程來體現(xiàn)這樣的帶動(dòng)作用。
  • Unsupervised NMT:有時(shí)候可能什么雙語料也沒有,只有一些簡單的小辭典,體現(xiàn)源語言詞與目標(biāo)語言詞的對(duì)應(yīng)關(guān)系。那么可以利用這個(gè)小辭典做一些工作。首先做一個(gè)所謂的跨語言 Word Embedding,把不同語言的詞,如果它們表達(dá)相近或者相同的意思,試圖通過一種方式把它們聚在一起。抽取高可信度的詞匯對(duì)應(yīng)形成一個(gè)雙語對(duì)照辭典。基于這個(gè)翻譯辭典,再加上目標(biāo)語言的語言模型,就可以做一個(gè)詞匯級(jí)的統(tǒng)計(jì)機(jī)器翻譯。基于這個(gè)統(tǒng)計(jì)機(jī)器翻譯,就可以把源語言翻譯得到目標(biāo)語言,或反之,雖然翻譯質(zhì)量不高。再利用這樣的雙語料,就可以分別去訓(xùn)練神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯,然后再通過類似我們在做WMT的一些技術(shù),比如實(shí)現(xiàn)源到目的、目的到源的翻譯系統(tǒng)的互相迭代,進(jìn)一步強(qiáng)化翻譯結(jié)果。

多模態(tài)搜索

多模態(tài)搜索指的就是將語言、語音、文字、圖像等各種模態(tài)集成來進(jìn)行搜索。

近幾年 ImageNet 數(shù)據(jù)集將圖像識(shí)別的水平大幅度提高,而 image captioning 和 video captioning 技術(shù)可以用自然語言來描述圖像和視頻的內(nèi)容。這些技術(shù)的進(jìn)展激發(fā)了研究人員對(duì)多模態(tài)搜索的更多嘗試來提高搜索的用戶體驗(yàn)。

VQA 指的是基于圖片對(duì)用戶提出的問題進(jìn)行解答。有了 VQA 數(shù)據(jù)集之后,研究人員就可以實(shí)驗(yàn)性地去做一些基于圖像的問答系統(tǒng),背后涉及到如何對(duì)圖像跟自然語言進(jìn)行編碼,如何通過注意力模型把常識(shí)引入進(jìn)去,以提高整體水平。目前仍處于初期階段,其中還有許多有意思的挑戰(zhàn),比如怎么使用推理和常識(shí)。最近斯坦福做了一個(gè)叫做 GQA 的數(shù)據(jù)集,用來體現(xiàn) VQA 的推理過程,比如對(duì)一個(gè)問題經(jīng)過哪幾個(gè)步驟進(jìn)行了推理得到答案。研究人員可以用它來訓(xùn)練 VQA 系統(tǒng)的推理能力。

基于多模態(tài)技術(shù),可以做出很多新的搜索體驗(yàn)。比如用戶輸入一個(gè) Query,可以直接輸出圖像結(jié)果,甚至圖像中每一個(gè)人在知識(shí)圖譜中對(duì)應(yīng)的 ID 可以找回來,提示給用戶,可以鏈接知識(shí)圖譜的描述。其中也用到了人臉識(shí)別技術(shù)。

另外,也可以直接輸入圖像進(jìn)行 Query,比如手機(jī)照相,經(jīng)過圖形識(shí)別,得到相關(guān)圖像和文檔。

圖像搜索的結(jié)果也可以強(qiáng)化普通的文本搜索結(jié)果。比如在輸入引擎中輸入一個(gè) Query:大象吃什么?可得到文本搜索的結(jié)果以及圖像的搜索結(jié)果。這兩個(gè)結(jié)果可以互相增強(qiáng),來提高用戶的搜索體驗(yàn)。

機(jī)器閱讀理解

機(jī)器閱讀理解(Machine Reading Comprehension),簡稱 MRC。簡單地說,就是針對(duì)一篇文章,如果問機(jī)器一個(gè)問題,看機(jī)器能不能把這個(gè)問題回答出來,有時(shí)候是直接從文章中找出一個(gè)答案,有時(shí)候可能要根據(jù)上下文進(jìn)行推理。

過去這幾年,SQuAD 1.1、SQuAD 2.0、CoQA這些經(jīng)典的機(jī)器閱讀理解數(shù)據(jù)集驅(qū)動(dòng)著MRC快速發(fā)展。而大量涌現(xiàn)出的很多優(yōu)秀的Pre-trained Model,像ELMo、Bert等也大幅提高了MRC的水平,主要體現(xiàn)在能夠?qū)⒁恍╅_放領(lǐng)域的人類知識(shí)(隱含)進(jìn)行編碼,強(qiáng)化輸入信號(hào)(問題和文章),并參與到一個(gè)整體的端對(duì)端訓(xùn)練過程中。學(xué)術(shù)界和產(chǎn)業(yè)界有很多團(tuán)隊(duì)在不斷刷新著MRC的記錄,甚至超越了人工水準(zhǔn)。如下圖所示。

有了更高的機(jī)器閱讀理解水平,我們可將其應(yīng)用在搜索上做一些新的嘗試,MRC 對(duì)搜索的幫助主要體現(xiàn)在以下幾方面:

1. 首先可以對(duì)搜索結(jié)果的摘要進(jìn)行改進(jìn),抽取出更好的摘要。對(duì)于摘要中最匹配答案的部分,可以更好地 highlight 出來。

2. 優(yōu)化手冊閱讀理解。一般使用手冊都很長,沒有人愿意看,只需要將手冊的 PDF 文件數(shù)字化,就可以做機(jī)器閱讀理解。而用戶只要發(fā)出一個(gè)問題,可直接找出它的答案。

3. 加速網(wǎng)站全站搜索。在某一個(gè)網(wǎng)站中,比如客服網(wǎng)站或某一個(gè)產(chǎn)品的介紹網(wǎng)站,如果用戶有問題,只要把問題輸入進(jìn)去,機(jī)器可以對(duì)整個(gè)網(wǎng)站進(jìn)行解析,并把答案直接抽取出來。同時(shí)用戶還可以通過 Conversational QA 連續(xù)對(duì)網(wǎng)站進(jìn)行連續(xù)提問。通過 MRC 找到精準(zhǔn)的答案,以實(shí)現(xiàn)一個(gè)交互式的搜索過程。

未來 MRC 如果要進(jìn)一步提升,一方面在 Pre-trained Model 上還有很多可以改進(jìn)的地方,另外還要加強(qiáng)上下文推理的能力,以及更好地融合常識(shí)和知識(shí)庫,增強(qiáng)推理過程。

個(gè)性化推薦

對(duì)于搜索引擎來說,推薦系統(tǒng)變得越來越重要。所謂推薦系統(tǒng)指的就是用戶不用(顯式)輸入 Query,系統(tǒng)會(huì)根據(jù)用戶過去的行為,直接把他可能喜歡的內(nèi)容推薦過去。現(xiàn)在這種方式在手機(jī)端越來越流行。

這背后涉及很多技術(shù):

1. 第一個(gè)技術(shù)是用戶畫像(User Modeling)。即根據(jù)用戶的各種行為,比如搜索行為、使用地圖的行為、電子商務(wù)網(wǎng)站的各種行為,這些行為構(gòu)成的異構(gòu)數(shù)據(jù),對(duì)某個(gè)用戶形成了一個(gè)全面的了解。通過對(duì)多種異構(gòu)數(shù)據(jù)的融合建模,來體現(xiàn)用戶畫像。

2. 第二是怎么將用戶畫像的結(jié)果表達(dá)出來。一種是顯示的表達(dá),比如男女、性格、年齡等用關(guān)鍵詞或數(shù)字表示出來。如果涉及隱私問題,可考慮隱式的表達(dá),通過 User Embedding,用多維向量(一串?dāng)?shù)字)來代表一個(gè)用戶的整體特征。 雖然不能顯式體現(xiàn)用戶的特征(從而保護(hù)用戶隱私),但是卻能夠體現(xiàn)出很好的推薦效果。

3. 根據(jù)知識(shí)圖譜和朋友圈對(duì)推薦內(nèi)容進(jìn)行擴(kuò)展。

推薦內(nèi)容拓展之后,再加上用戶畫像,最后就會(huì)變成一個(gè)簡單的匹配或者 Ranking 的過程。也就是將用戶畫像作為一個(gè) Embedding,待推薦的事情(比如說新聞、博客、Video、電影等)也做 Embedding,通過神經(jīng)網(wǎng)絡(luò)計(jì)算他們的相似度,相似度高就推薦給用戶,這樣就可以實(shí)現(xiàn)一個(gè)推薦的過程。

上面展示的是微軟亞洲研究院在個(gè)性化推薦系統(tǒng)上做過的一些工作。

未來,個(gè)性化推薦系統(tǒng)有幾個(gè)方向值得關(guān)注:

1. 做聰明的推薦,既能找到用戶以前喜歡的內(nèi)容,又能預(yù)測用戶未來可能喜歡的內(nèi)容,及時(shí)推薦給用戶。

2. 推薦系統(tǒng)的可解釋性,做推薦不能盲目推薦,還需要給用戶一個(gè)解釋,為什么要把這樣的內(nèi)容推薦給他呢?可能因?yàn)樗呐笥涯衬诚矚g,或者因?yàn)橥ㄟ^用戶早前的搜索行為預(yù)測用戶可能喜歡這個(gè)被推薦內(nèi)容。這種解釋要以自然語言形式附著在被推薦內(nèi)容上面,來幫助用戶理解。

未來研究方向

自然語言處理未來比較重要的研究課題包括:

  • 知識(shí)獲取和知識(shí)表示,尤其是前面提到的 Pre-trained Model,一是怎么用,二是怎么改進(jìn)。還有像常識(shí)知識(shí)如何獲取,如何加入到數(shù)據(jù)訓(xùn)練過程中,以及如何融入領(lǐng)域知識(shí)和 Open Domain 的知識(shí)等。
  • 新的學(xué)習(xí)方法,比如多任務(wù)學(xué)習(xí)、強(qiáng)化學(xué)習(xí)、半監(jiān)督和無監(jiān)督的學(xué)習(xí),還有 Low Resource 資源的學(xué)習(xí)。此外,推理是未來關(guān)注焦點(diǎn)。如何把推理很好地建立起來。用在機(jī)器閱讀理解、多輪對(duì)話、法律、醫(yī)療診斷等方面。
  • 上下文相關(guān)的建模(Context Modeling)。多輪對(duì)話的時(shí)候,如何把歷史信息存儲(chǔ)起來,又如何用在當(dāng)前句子的解析里面。
  • 新的搜索模態(tài):除了文字,用戶用語音、圖像、手勢、觸摸等進(jìn)行搜索。而且多個(gè)模態(tài)可以自然融合。
  • 搜索結(jié)果的生成和摘要。這方面做的相對(duì)比較少,比如將不同方面的內(nèi)容收集出來,體現(xiàn)出鮮明的觀點(diǎn),甚至做一些對(duì)比,生成深度好文等。
  • 信息流。信息流現(xiàn)在無論是工業(yè)界還是學(xué)術(shù)界都越來越熱。如何進(jìn)行用戶畫像建模,如何獲得豐富的內(nèi)容(抓取、授權(quán)、翻譯、生成等),如何做各種推薦,如何提供推薦的解釋等都是未來很重要的研究方向。

雷鳴對(duì)話周明

雷鳴:多輪對(duì)話一直是研究上的一個(gè)熱點(diǎn),也是一個(gè)難點(diǎn),到現(xiàn)在應(yīng)該說解決的也不是特別好,這塊的話,你感覺它的最大的挑戰(zhàn)在哪?未來的幾年會(huì)有什么樣的進(jìn)展?可能在什么技術(shù)上能支撐它做得更好?

周明: 多輪對(duì)話問題確實(shí)很難,現(xiàn)在來講最難的就是,上下文信息記錄下來之后,什么信息可以用在當(dāng)前的這個(gè)句子里,什么信息應(yīng)該遺忘,這在目前是不夠清楚的,沒有那么強(qiáng)的信號(hào)。所以有時(shí)候語義分析結(jié)果會(huì)出現(xiàn)一些錯(cuò)誤,通用的多輪對(duì)話還是很難。因此具體應(yīng)用的時(shí)候,多輪對(duì)話一定要考慮場景,如果把場景定義清楚了,你就可以很容易地定義狀態(tài),而在每個(gè)狀態(tài)下可以提問的形式也是有限的,就可以做相應(yīng)的推理。這樣一來,多輪對(duì)話可能相應(yīng)會(huì)容易一些。現(xiàn)在對(duì)話系統(tǒng)都是面向具體任務(wù)或者具體場景來設(shè)計(jì)的。

如果一個(gè)對(duì)話系統(tǒng)對(duì)應(yīng)多個(gè)場景,就需要判斷場景之間是否出現(xiàn)切換。只要判斷進(jìn)了某個(gè)場景,就調(diào)用那個(gè)領(lǐng)域的對(duì)話引擎(知識(shí)圖譜、對(duì)話狀態(tài)圖譜),根據(jù)當(dāng)前的狀態(tài)來判斷那個(gè)下一個(gè)回復(fù)應(yīng)該怎么進(jìn)行,等等。

當(dāng)然有一些聊天機(jī)器人,比如微軟小冰,不是完成某一個(gè)任務(wù)的對(duì)話驅(qū)動(dòng),它的技術(shù)跟面向任務(wù)的多輪對(duì)話有很多不同。這里就不多介紹了。

雷鳴:最近強(qiáng)化學(xué)習(xí)之父發(fā)了一篇文章,是關(guān)于算力推動(dòng)整個(gè)計(jì)算機(jī)領(lǐng)域包括算法和技術(shù)發(fā)展的論點(diǎn),文中主要觀點(diǎn)是說我們的科研要跟著算力走。這點(diǎn)正好也映射了之前我們在課上提到過的,如 Bert、GPT 2.0 等依靠巨大的算力建立起預(yù)訓(xùn)練模型,在很多方面幫助自然語言提升各項(xiàng)能力或解決了一些問題。從一定意義上,你怎么看算力和自然語言下一步發(fā)展之間的關(guān)系?現(xiàn)在很多自然語言問題沒有解決,會(huì)不會(huì)是算力沒達(dá)到,還是說算法不夠精巧?未來算力和算法之間會(huì)出現(xiàn)什么樣的交替關(guān)系,或者有沒有可能因?yàn)樗懔Φ母叨忍嵘?#xff0c;最終 NLP 能夠計(jì)算機(jī)視覺一樣得到終極解決?

周明: 首先,算力永遠(yuǎn)是重要的。現(xiàn)在好多 NLP 評(píng)測任務(wù)(機(jī)器翻譯、閱讀理解等),如果沒有算力根本不可能上得來。算力的背后,體現(xiàn)的一種對(duì)知識(shí)(特征)的不斷抽取過程,比如神經(jīng)網(wǎng)絡(luò)四層和八層,區(qū)別在哪?層數(shù)越高對(duì)特征抽取的能力就越強(qiáng)。當(dāng)然也需要更強(qiáng)的算力。從這一點(diǎn)上來看,算力強(qiáng),對(duì)輸入信號(hào)表示能力和特征抽取的能力就強(qiáng),當(dāng)然其對(duì)應(yīng)的解題的能力就更強(qiáng)。

但是有些問題只憑算力也無從下手。比如我們剛剛提到的 Low Resource 問題,在缺少訓(xùn)練語料的情況下,搞一千層、一萬層也沒用。這時(shí)候光靠算力的蠻力解決不了太多問題,可能要引入一些建模上的能力,或者引入人類知識(shí)。比如說將人類專家的幾條翻譯規(guī)則融入到神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯之中,進(jìn)行冷啟動(dòng)或者增強(qiáng)基于數(shù)據(jù)的學(xué)習(xí)系統(tǒng)。這時(shí)候需要考慮的是,人類的知識(shí)模型或知識(shí)庫如何跟數(shù)據(jù)驅(qū)動(dòng)的模型巧妙地融合起來,發(fā)揮各自的特長。這時(shí)候算力當(dāng)然還是越強(qiáng)越好,但已經(jīng)不是唯一重要的。如何建立人類知識(shí)體系(開放和領(lǐng)域相關(guān)的)并將其融入到原來的基于數(shù)據(jù)驅(qū)動(dòng)的方法之中,這里還有很多值得研究的問題。

第二個(gè)問題就是多輪問題。應(yīng)用神經(jīng)網(wǎng)絡(luò)方法,現(xiàn)在只要算力足夠強(qiáng)、數(shù)據(jù)足夠大,對(duì)單輪任務(wù)(比如單句級(jí)機(jī)器翻譯任務(wù)就是典型的單論 NLP 任務(wù),一個(gè)輸入句子,對(duì)應(yīng)一個(gè)輸出句子)的能力已經(jīng)非常強(qiáng)大,但多輪依然很難。因?yàn)槎噍喨蝿?wù)會(huì)出現(xiàn)動(dòng)態(tài)的變化。比如多輪對(duì)話,用戶會(huì)根據(jù)前一個(gè)回答再提出新的問題,我們無法提前把訓(xùn)練的輸入、中間輪可能的回答、最后輪的輸出等這些數(shù)據(jù),大規(guī)模地標(biāo)注出來,做成足夠大的訓(xùn)練集合。多輪建模的時(shí)候還會(huì)涉及到 Memory 的問題(存儲(chǔ)前后輪上下文得到的信息)、建立人類常識(shí)等。這些還沒有到簡單地憑算力就可以很好地解決的地步。

未來可能有兩條路,一是基于數(shù)據(jù)驅(qū)動(dòng)的。兩件事,一把數(shù)據(jù)掌握好,二是把算力掌握好,就能把模型很好地訓(xùn)練出來。還有一條路就是基于知識(shí),以及推理的這條線,它背后也要靠一些算力,但我們現(xiàn)在還沒有到以算力取勝的階段。當(dāng)前可能如何對(duì)知識(shí)進(jìn)行建模、如何獲取知識(shí)、如何推理,整個(gè)理論體系并沒有完全地形成起來。也許未來某一天,理論體系已經(jīng)起來了,那時(shí)候大家又要比算力。這件事如果不恰當(dāng)?shù)乇扔饕幌?#xff0c;就相當(dāng)于革命在不同的階段:數(shù)據(jù)驅(qū)動(dòng)已經(jīng)快接近共產(chǎn)主義社會(huì)了,而基于知識(shí)和推理還處于社會(huì)主義初級(jí)階段。兩者焦點(diǎn)不一樣。等后者也搞清楚了,這時(shí)候加上算力推動(dòng),也許真有希望進(jìn)入共產(chǎn)主義了,也就是說對(duì)多輪 NLP 任務(wù)可以很好地解決了。這樣認(rèn)知智能會(huì)進(jìn)入實(shí)用階段。

雷鳴:關(guān)于知識(shí)圖譜和深度學(xué)習(xí)相結(jié)合,現(xiàn)在有沒有什么新的研究在嘗試,或者說未來會(huì)有什么發(fā)展?還是說這兩個(gè)有點(diǎn)水火不容,很難真的融合起來?

周明: 首先在 Offline 階段,建知識(shí)圖譜的時(shí)候會(huì)用到一些深度學(xué)習(xí)的方法,比如說信息抽取、分類問題、Relation 等,背后的技術(shù)可以用深度學(xué)習(xí)來做,但是建完之后就成為一個(gè)知識(shí)圖譜了,它又變成符號(hào)化了。第二個(gè)就是在 Run time 的時(shí)候,怎么把知識(shí)圖譜也融入到剛才所說的數(shù)據(jù)驅(qū)動(dòng)里面。現(xiàn)在有一種辦法,就把知識(shí)圖譜也做 Embedding,即 Entity Embedding,可以根據(jù)知識(shí)圖譜的前后左右周圍的節(jié)點(diǎn)和邊,對(duì)知識(shí)圖譜中的每個(gè)節(jié)點(diǎn)和節(jié)點(diǎn)關(guān)系,用一個(gè)多維語義向量來表達(dá)。這跟詞的 Word Embedding 是一樣的,那么如果這兩個(gè) Embedding 是一樣的,再往上走的時(shí)候也可以做 Attention,也可以計(jì)算 Encoder、Decoder。現(xiàn)在有很多任務(wù)都在沿著這個(gè)方向走,也有一定的效果,但我不認(rèn)為目前這個(gè)領(lǐng)域取得了多么大的突破,可能還有一些新的探索的余地。

雷鳴:能否大膽地假設(shè),多輪對(duì)話和計(jì)算機(jī)視覺只是信息接口不同,其實(shí)背后能夠落到一個(gè)相似的領(lǐng)域中去?計(jì)算機(jī)視覺再往后發(fā)展,是否會(huì)跟自然語言的融合性會(huì)更強(qiáng)?

周明: 未來人類跟機(jī)器最自然的交互是多模態(tài)的,有的是圖像,有的是文字,有的是語音。現(xiàn)在做研究大都是針對(duì)每個(gè)單模態(tài),先做好研究,比如圖像識(shí)別、語音識(shí)別、自然語言處理。將來是多模態(tài)一起融合來編碼和解碼,比如對(duì)一個(gè)圖片連續(xù)問答,實(shí)際上就是多模態(tài)處理。遺憾的是這個(gè)方面尚缺乏相應(yīng)的評(píng)測集和數(shù)據(jù)集來推動(dòng)。我們剛剛提到的斯坦福大學(xué)建立的 GQA 數(shù)據(jù)集,實(shí)際上就是想把自然語言的問題提問跟圖像理解融合到一起,考察背后的推理能力和答案抽取能力。如果這個(gè)數(shù)據(jù)集能有效地推動(dòng)相關(guān)研究,我們以后就可以做更大膽的嘗試,要么更大的數(shù)據(jù)集,要么把某些技術(shù)用到一個(gè)很狹窄的垂直領(lǐng)域里去看看結(jié)果。比如說地圖領(lǐng)域,對(duì)著地圖指指點(diǎn)點(diǎn)、說說話,看看是不是能做新一代的智能地圖。可以做一些這樣的嘗試慢慢推動(dòng)這個(gè)領(lǐng)域的發(fā)展。

雷鳴:未來三五年,你覺得自然語言在哪些領(lǐng)域會(huì)有比較好的進(jìn)展?這個(gè)進(jìn)展指的是能夠真正落地,能做出來一些我們作為終端用戶感受得到的產(chǎn)品或者服務(wù)的,或者有沒有什么地方可能適合同學(xué)們未來幾年創(chuàng)業(yè)之類的?

周明: 首先我們要考慮兩件事,一個(gè)是研究,研究可以有自己的 Vision,可能短期實(shí)現(xiàn)不了,但是長期必然要走到某一個(gè)地方,那從研究角度就應(yīng)該大膽地去研究。也許一兩年沒做出來很了不起的成果,但長期它總是驅(qū)動(dòng)人類認(rèn)知提升的一個(gè)動(dòng)力,我們未來一定要走到那里。比如多模態(tài)問答,我覺得它就是人工智能一個(gè)終極目標(biāo),我們一定要做到。至于怎么做,可以先從單模態(tài)做起,再加雙模態(tài),再多模態(tài)融合;從簡單的單輪問答,再到多輪問答;從一開始不需要推理,再逐漸需要推理,一點(diǎn)點(diǎn)來推進(jìn)整個(gè)過程。

其次就是要去思考某些技術(shù)是否可以找到一個(gè)垂直領(lǐng)域把它用起來。可能是很窄的一個(gè)領(lǐng)域,但是用的特別巧妙。

比如說文本生成,現(xiàn)在已經(jīng)可以做到給幾個(gè)關(guān)鍵詞,就把一篇文章,或一首詩,或歌詞生成出來。現(xiàn)在的 Demo 都已經(jīng)做得挺漂亮了,但是仔細(xì)去看其實(shí)前后的句子或者段落,不合邏輯,或者不合事實(shí)。目前需要研究的是如何把文本生成跟事實(shí)融合起來,使它生成的句子既邏輯合理,也體現(xiàn)事實(shí)。這件事如果往前推動(dòng),我認(rèn)為是能做出來的。做出來之后可以快速生成大規(guī)模文本,可以做深度好文。做完之后,可以再由人工專家,就是編輯或者作家,來潤色和修改確認(rèn)。我認(rèn)為這會(huì)對(duì)整個(gè)人類的文檔生產(chǎn)過程產(chǎn)生巨大的影響。

還有信息抽取。對(duì)一個(gè)垂直領(lǐng)域,比如說金融、法律、醫(yī)療,做信息抽取,抽取之后形成知識(shí)圖譜,基于知識(shí)圖譜進(jìn)行問答、搜索或者推理,甚至建立某一個(gè)垂直領(lǐng)域的專家系統(tǒng),我認(rèn)為一旦對(duì)某一個(gè)垂直領(lǐng)域做成知識(shí)圖譜和推理,將會(huì)產(chǎn)生巨大的落地效果。諸如此類的場景,大家都可以去考慮,這是仁者見仁智者見智。另外不完善技術(shù)的應(yīng)用,需要運(yùn)用之妙存乎一心。技術(shù)不必也不可能非得達(dá)到百分之一百的好,也許某些場景下,巧妙的設(shè)計(jì),對(duì)技術(shù)的要求百分之六七十就足夠。如果用的特別巧妙,也可能在某一個(gè)領(lǐng)域產(chǎn)生相應(yīng)的經(jīng)濟(jì)效應(yīng)。

雷鳴:隨著 BERT 和 GPT 2.0 的出現(xiàn),NLP 是不是進(jìn)入了比算力的階段?另外 NLP 最近在挑戰(zhàn)圖靈測試嗎?還有多遠(yuǎn)的距離?

周明: 圖靈測試從某種意義上是不是已經(jīng)算解決了,要看怎么定義。以聊天機(jī)器人為例,在很多場合,比如微軟小冰現(xiàn)在能聊 23 輪以上,我們沒有去做圖靈測試,如果真要去做,也有可能是突破了圖靈測試。但是我認(rèn)為真正的人類智能光憑傳統(tǒng)的圖靈測試是不能完全體現(xiàn)的,比如剛才提過的多輪事實(shí)類問答,事實(shí)不能錯(cuò)。除此之外,多模態(tài)對(duì)話、需要復(fù)雜推理的閱讀理解、自然語言交互的專家系統(tǒng)(比如醫(yī)療診斷、法律咨詢)等等,這些任務(wù)的智能水平,離突破圖靈測試還需要很長的時(shí)間。

雷鳴:還有就是 NLP 是不是只比算力了,沒點(diǎn)大機(jī)器就研究不了了?

周明: 第一大家要尊重算力,過去很多搞人工智能的人都不服算力。但實(shí)際上,我認(rèn)為要尊重這件事,算力體現(xiàn)了剛才所說的建模能力、信息抽取能力、解碼能力,它不是簡單的速度快了、容量大了的問題,而是有一個(gè)由量變到質(zhì)變的過程。第二,我們要尊重算力但也不唯算力,要體現(xiàn)人類建模的能力、知識(shí)抽取、常識(shí)推理各方面,而恰恰常識(shí)知識(shí)推理這塊沒有一個(gè)人能說清楚,也沒有一套成熟的理論和工具包,這塊恰好是我們未來可以深入研究的。對(duì)高校的同學(xué)來講,可能會(huì)覺得學(xué)校沒有公司的算力強(qiáng),要搞研究就要吃虧,但我覺得應(yīng)該多去做一些剛才我說的后者,就是建模、知識(shí)推理、知識(shí)獲取這方面的研究,這樣跟以算力取勝的很多公司可以很好地配合。

雷鳴:未來同聲傳譯有可能會(huì)被取代嗎?如果有可能,需要具備什么前提呢?

周明: 似乎有人認(rèn)為同聲傳譯在一些場合有可能是可以被取代的,但是好好思考一下其實(shí)還有很長的路要走。目前語音翻譯還有幾個(gè)問題:第一,針對(duì)不同人語音特點(diǎn)的語音識(shí)別已經(jīng)不錯(cuò)了,但是還有很大提升空間;第二,背景噪聲對(duì)語音識(shí)別影響還是很大;第三,專業(yè)術(shù)語、新詞影響對(duì)語音識(shí)別和翻譯影響非常大;第四,凡是用同聲傳譯的場合都是重要場合,它對(duì)錯(cuò)誤的容忍度是非常低的。這不像網(wǎng)頁上只需要把大概的意思翻譯出來,即使有點(diǎn)錯(cuò)誤,用戶是可以容忍的,而同聲傳譯的場合,只要一個(gè)重要人物的名字翻譯錯(cuò)了,整個(gè)翻譯就算失敗了,而且可能有重大的影響。從這個(gè)意義上來看,要達(dá)到這么高標(biāo)準(zhǔn)的要求,自動(dòng)同聲傳譯還有很長的路要走。

這里其實(shí)有很多技術(shù)上的考量、實(shí)用上的考量、政治上的考量、投資回報(bào)上的考量,我認(rèn)為不能簡單用 yes 或 no 來回答,它是很漫長的一個(gè)過程。但是我們做技術(shù)的人,應(yīng)該繼續(xù)關(guān)注技術(shù)。把語音識(shí)別做得更好,把翻譯做得更好,把 TTS 做得更好,更個(gè)性化。不過至于未來它能不能采用,有很多非技術(shù)的因素在起作用,現(xiàn)在不能一概而論。

雷鳴:時(shí)間關(guān)系,我們最后再代表同學(xué)問一個(gè)問題。很多同學(xué)現(xiàn)在正在學(xué) NLP 或者對(duì) NLP 感興趣,包括專業(yè)的和非專業(yè)的兩種學(xué)生,如果他們未來想做從事這方面的工作,你覺得他們在大學(xué)階段或者研究生階段應(yīng)該怎么做,將來才能在這一塊有所建樹?

周明: 大家可能會(huì)覺得自然語言好像聽起來很復(fù)雜。其實(shí)我想跟大家講的是,進(jìn)入了深度學(xué)習(xí)時(shí)代之后,自然語言的門檻一下就降低了。只要你會(huì)Python編程,網(wǎng)上找到訓(xùn)練語料,基本上就能把自然語言的第一個(gè)模型走出來了。請大家不要被一大堆公式所迷惑,還是要找一個(gè)具體的任務(wù)試一試。我建議大家拿機(jī)器翻譯為例,把端到端的訓(xùn)練過程玩起來,沉浸其中,很快就能理解整個(gè)自然語言的精髓了。第一件事做好了,比什么都重要。比如你把第一個(gè)機(jī)器翻譯模型訓(xùn)練好,確實(shí)Work了,水平也還可以,至少和別人發(fā)表的水平差不多,你這時(shí)就會(huì)信心大漲。

只要有一個(gè)任務(wù)通了,其他自然語言的任務(wù)也可以通的。現(xiàn)在因?yàn)樯疃葘W(xué)習(xí)的原因,你會(huì)做機(jī)器翻譯,就會(huì)做問答,就可能會(huì)做搜索,它背后的原理全部都一樣。以前就不敢這么說,以前可能某位著名專家可能就是問答做得好,他做了一輩子。有的人summarization做得好,做了一輩子,它們之間不容易直接借鑒。所以那時(shí)候的門檻就非常高。現(xiàn)在只要懂了深度學(xué)習(xí)、比如編碼-解碼技術(shù),把NLP主要領(lǐng)域都熟悉一遍是沒有太大問題的。這樣就有了“全棧”自然語言處理能力。這時(shí)候再考慮延伸到圖像處理、語音識(shí)別,發(fā)現(xiàn)他們背后也是同樣的編碼-解碼這些東西。所以又可以從自然語言走向其他領(lǐng)域,或者多模態(tài)融合。當(dāng)然要做到世界頂級(jí)那還是要花點(diǎn)工夫的,但是做到普及,對(duì)它不怵,把它用在自己的工作場合或者應(yīng)用之中,大家是應(yīng)該有信心的。

長按圖片掃碼,觀看本期公開課視頻

總結(jié)

以上是生活随笔為你收集整理的qlabel文本改变信号_周明:NLP进步将如何改变搜索体验的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。