一个问题就可以辨别真假NLP(自然语言处理)研究者
╮(╯▽╰)╭哎,自從人工智能火了以后,最近自稱NLP研究者的人越來越多了,然而這其中的大忽悠有多少小夕就不想多說了。如果連自己在哪個(gè)領(lǐng)域、哪個(gè)學(xué)科搞研究都不懂的話,你相信他真的是這個(gè)領(lǐng)域的研究者喵?反正小夕不信╮(╯▽╰)╭
所以,這個(gè)問題就是:“自然語言處理跟自然語言理解和計(jì)算語言學(xué)是不是一個(gè)東西呢?”
在有的科普文,甚至?xí)?#xff0c;將自然語言處理、自然語言理解、計(jì)算語言學(xué)看作是一個(gè)東西,其實(shí)是很不準(zhǔn)確的吶!小夕今天就講一講被大眾媒體和諸多自稱NLP領(lǐng)域的學(xué)者混為一談的幾個(gè)概念。
自然語言理解(NLU)
在60年前人工智能誕生之初,就提出了自然語言理解,并且將其作為人工智能最重要的研究方向。自然語言理解是為了探索人類語言能力和語言思維活動(dòng)的本質(zhì),并模仿人類語言的認(rèn)知過程來讓計(jì)算機(jī)對人類語言進(jìn)行理解和處理。其是語言學(xué)、計(jì)算機(jī)科學(xué)、認(rèn)知科學(xué)、信息論和數(shù)學(xué)等多學(xué)科基礎(chǔ)上形成的交叉學(xué)科。而其目標(biāo)是讓計(jì)算機(jī)真正的理解人類語言,進(jìn)而進(jìn)行處理與表達(dá)等。而判斷計(jì)算機(jī)是否理解自然語言的標(biāo)準(zhǔn)就是“圖靈測試”。
圖靈測試在自然語言理解領(lǐng)域來說即:讓一個(gè)人類提出問題,回答他的可能是人也可能是計(jì)算機(jī)。在計(jì)算機(jī)給出回答后,如果提問者分不清楚這是人還是計(jì)算機(jī)的回答,則認(rèn)為計(jì)算機(jī)理解了人類語言,廣義的說計(jì)算機(jī)具備了智能。
計(jì)算語言學(xué)(CL)
而計(jì)算語言學(xué)的側(cè)重點(diǎn)是數(shù)學(xué)建模。將人類語言建模為計(jì)算機(jī)可以有效計(jì)算的算法。也就是說,出發(fā)點(diǎn)是語言學(xué),而做的是將語言學(xué)中的嚴(yán)謹(jǐn)理論借鑒并轉(zhuǎn)為計(jì)算機(jī)算法,是一門非常理性的學(xué)科,即一門純理論的學(xué)科。同時(shí),這也是基于規(guī)則的自然語言處理方法的理論核心。
自然語言處理(NLP)
自然語言處理則是面向具體的應(yīng)用場景,從系統(tǒng)實(shí)現(xiàn)與工程的角度出發(fā)來對語言文本進(jìn)行加工與處理。它不一定用數(shù)學(xué)方法,但是總歸是要用某種方法來解決某個(gè)特定的工程問題。其實(shí)該學(xué)科誕生的需求便是互聯(lián)網(wǎng)上文本信息的爆炸式增長,因此只要能將互聯(lián)網(wǎng)上的文本信息處理成我們想要達(dá)到的效果就可以啦,不一定非要讓計(jì)算機(jī)去理解自然語言呀,也不一定非要有嚴(yán)謹(jǐn)?shù)恼Z言學(xué)規(guī)則或者數(shù)學(xué)公式呀。
三者之間
這樣看來應(yīng)該有三門獨(dú)立的學(xué)科才對,然而實(shí)際上我們發(fā)現(xiàn)國際上、國內(nèi)的各大頂尖高校幾乎只有“自然語言處理”這一個(gè)學(xué)科,偶爾會有個(gè)研究“計(jì)算語言學(xué)”的高校,而幾乎沒有研究“自然語言理解”的高校,為什么呢?
?
其實(shí)很好理解啦,雖然自然語言理解誕生的最早,但是遺憾的說,這門學(xué)科的有效進(jìn)展幾乎為0,也就是說現(xiàn)在遠(yuǎn)遠(yuǎn)談不上讓計(jì)算機(jī)去理解自然語言,依然停留在對自然語言進(jìn)行處理的層次上。而隨著基于規(guī)則的自然語言處理方法的衰落,計(jì)算語言學(xué)的研究熱潮也大幅度冷卻了。
?
插播一句,總有比較機(jī)智的做法,比如美國的CMU(不知道CMU的同學(xué)千萬不要說自己是學(xué)計(jì)算機(jī)的!)就沒有自然語言處理,人家起了個(gè)新名字叫“人類語言技術(shù)”,hhhhh,是不是感覺超機(jī)智呀~這樣將來有一天計(jì)算機(jī)真的可以理解人類語言的時(shí)候,其他高校要將專業(yè)改名字啦,而CMU就不用改了╮(╯▽╰)╭
?
所以呀,從互相包含的關(guān)系上來說,自然語言處理(NLP)、自然語言理解(NLU)、計(jì)算語言學(xué)(CL)、人類語言技術(shù)(HLT)之間的關(guān)系是這樣的:
2333,是不是感覺CMU特別心機(jī)婊╮(╯▽╰)╭
?
而從研究深度,或者說研究難度上說呢,NLU、CL、NLP這三個(gè)具備大量交集的領(lǐng)域是這樣的:
所以呀,現(xiàn)在NLP領(lǐng)域正在蓬勃發(fā)展,帶來了機(jī)器翻譯(不解釋)、搜索引擎(不解釋)、人機(jī)對話(微軟小冰、Siri等)、輿情檢索(比如微博熱搜)、文本情感分析(自動(dòng)識別好評差評,參見天貓的評價(jià)標(biāo)簽)、信息抽取(如自動(dòng)生成一篇文章的標(biāo)題、文摘等,參見今日頭條)、信息過濾(比如過濾小黃文或者反動(dòng)言論,參加被請去喝茶的童鞋們)、文檔分類(比如你寫一篇足球賽事,計(jì)算機(jī)可以自動(dòng)歸類到體育主題,參加各大型新聞網(wǎng)站)、文本自動(dòng)校正(參見word、搜狗拼音等,不解釋啦)、語音識別、說話人識別、語音轉(zhuǎn)文本、文本轉(zhuǎn)語音等一系列技術(shù)~
?
所以呀,NLU的大量研究沒有做到人工智能,但NLP卻飛速發(fā)展中,通過各種方法實(shí)現(xiàn)計(jì)算機(jī)對自然語言的處理(甚至有時(shí)在老百姓看來,計(jì)算機(jī)好像真的理解了文本一樣)。
?
那么深度學(xué)習(xí)會不會真正揭開NLU的篇章呢?小夕說啦,不可能哦。想象一下,一個(gè)小孩子學(xué)會一句話、并成功的將這句話轉(zhuǎn)換成各種表達(dá)方式表達(dá)出來,只需要一兩次的重復(fù)即可完成。而如今先進(jìn)的深度學(xué)習(xí)模型則是消耗海量樣本(意思即對一句話要重復(fù)上千上萬次,甚至更多)才能完成勉強(qiáng)可以接受的“智能”水平,但是!一旦測試集稍加改變(比如改變一下問法、換一種表達(dá)方式),那么好不容易訓(xùn)練好的機(jī)器學(xué)習(xí)模型將近乎崩潰!所以也不難理解,哪怕是如今最先進(jìn)的機(jī)器翻譯系統(tǒng),Google翻譯,有時(shí)候在一句話的后面加一個(gè)毫無意義的“了”字,卻會產(chǎn)生完全不同的兩種翻譯結(jié)果。究其根本原因就是計(jì)算機(jī)絲毫沒有理解文本。雖然對大眾來說這很難讓人接受,但這是事實(shí)。
?
那么計(jì)算機(jī)何時(shí)可以真正去理解文本呢?期待新的機(jī)器學(xué)習(xí)模型吧!
總結(jié)
以上是生活随笔為你收集整理的一个问题就可以辨别真假NLP(自然语言处理)研究者的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 闲鱼账号被封怎么办?解封看这里!
- 下一篇: 美团广告实时索引的设计与实现