當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

一个问题就可以辨别真假NLP（自然语言处理）研究者

發(fā)布時(shí)間：2024/7/5 编程问答 67 豆豆

生活随笔收集整理的這篇文章主要介紹了一个问题就可以辨别真假NLP（自然语言处理）研究者小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

╮(╯▽╰)╭哎，自從人工智能火了以后，最近自稱NLP研究者的人越來越多了，然而這其中的大忽悠有多少小夕就不想多說了。如果連自己在哪個(gè)領(lǐng)域、哪個(gè)學(xué)科搞研究都不懂的話，你相信他真的是這個(gè)領(lǐng)域的研究者喵？反正小夕不信╮(╯▽╰)╭

所以，這個(gè)問題就是：“自然語言處理跟自然語言理解和計(jì)算語言學(xué)是不是一個(gè)東西呢？”

在有的科普文，甚至?xí)?#xff0c;將自然語言處理、自然語言理解、計(jì)算語言學(xué)看作是一個(gè)東西，其實(shí)是很不準(zhǔn)確的吶！小夕今天就講一講被大眾媒體和諸多自稱NLP領(lǐng)域的學(xué)者混為一談的幾個(gè)概念。

自然語言理解(NLU)

在60年前人工智能誕生之初，就提出了自然語言理解，并且將其作為人工智能最重要的研究方向。自然語言理解是為了探索人類語言能力和語言思維活動(dòng)的本質(zhì)，并模仿人類語言的認(rèn)知過程來讓計(jì)算機(jī)對人類語言進(jìn)行理解和處理。其是語言學(xué)、計(jì)算機(jī)科學(xué)、認(rèn)知科學(xué)、信息論和數(shù)學(xué)等多學(xué)科基礎(chǔ)上形成的交叉學(xué)科。而其目標(biāo)是讓計(jì)算機(jī)真正的理解人類語言，進(jìn)而進(jìn)行處理與表達(dá)等。而判斷計(jì)算機(jī)是否理解自然語言的標(biāo)準(zhǔn)就是“圖靈測試”。

圖靈測試在自然語言理解領(lǐng)域來說即：讓一個(gè)人類提出問題，回答他的可能是人也可能是計(jì)算機(jī)。在計(jì)算機(jī)給出回答后，如果提問者分不清楚這是人還是計(jì)算機(jī)的回答，則認(rèn)為計(jì)算機(jī)理解了人類語言，廣義的說計(jì)算機(jī)具備了智能。

計(jì)算語言學(xué)(CL)

而計(jì)算語言學(xué)的側(cè)重點(diǎn)是數(shù)學(xué)建模。將人類語言建模為計(jì)算機(jī)可以有效計(jì)算的算法。也就是說，出發(fā)點(diǎn)是語言學(xué)，而做的是將語言學(xué)中的嚴(yán)謹(jǐn)理論借鑒并轉(zhuǎn)為計(jì)算機(jī)算法，是一門非常理性的學(xué)科，即一門純理論的學(xué)科。同時(shí)，這也是基于規(guī)則的自然語言處理方法的理論核心。

自然語言處理(NLP)

自然語言處理則是面向具體的應(yīng)用場景，從系統(tǒng)實(shí)現(xiàn)與工程的角度出發(fā)來對語言文本進(jìn)行加工與處理。它不一定用數(shù)學(xué)方法，但是總歸是要用某種方法來解決某個(gè)特定的工程問題。其實(shí)該學(xué)科誕生的需求便是互聯(lián)網(wǎng)上文本信息的爆炸式增長，因此只要能將互聯(lián)網(wǎng)上的文本信息處理成我們想要達(dá)到的效果就可以啦，不一定非要讓計(jì)算機(jī)去理解自然語言呀，也不一定非要有嚴(yán)謹(jǐn)?shù)恼Z言學(xué)規(guī)則或者數(shù)學(xué)公式呀。

三者之間

這樣看來應(yīng)該有三門獨(dú)立的學(xué)科才對，然而實(shí)際上我們發(fā)現(xiàn)國際上、國內(nèi)的各大頂尖高校幾乎只有“自然語言處理”這一個(gè)學(xué)科，偶爾會有個(gè)研究“計(jì)算語言學(xué)”的高校，而幾乎沒有研究“自然語言理解”的高校，為什么呢？

其實(shí)很好理解啦，雖然自然語言理解誕生的最早，但是遺憾的說，這門學(xué)科的有效進(jìn)展幾乎為0，也就是說現(xiàn)在遠(yuǎn)遠(yuǎn)談不上讓計(jì)算機(jī)去理解自然語言，依然停留在對自然語言進(jìn)行處理的層次上。而隨著基于規(guī)則的自然語言處理方法的衰落，計(jì)算語言學(xué)的研究熱潮也大幅度冷卻了。

插播一句，總有比較機(jī)智的做法，比如美國的CMU（不知道CMU的同學(xué)千萬不要說自己是學(xué)計(jì)算機(jī)的！）就沒有自然語言處理，人家起了個(gè)新名字叫“人類語言技術(shù)”，hhhhh，是不是感覺超機(jī)智呀~這樣將來有一天計(jì)算機(jī)真的可以理解人類語言的時(shí)候，其他高校要將專業(yè)改名字啦，而CMU就不用改了╮(╯▽╰)╭

所以呀，從互相包含的關(guān)系上來說，自然語言處理（NLP）、自然語言理解（NLU）、計(jì)算語言學(xué)（CL）、人類語言技術(shù)（HLT）之間的關(guān)系是這樣的：

2333，是不是感覺CMU特別心機(jī)婊╮(╯▽╰)╭

而從研究深度，或者說研究難度上說呢，NLU、CL、NLP這三個(gè)具備大量交集的領(lǐng)域是這樣的：

所以呀，現(xiàn)在NLP領(lǐng)域正在蓬勃發(fā)展，帶來了機(jī)器翻譯（不解釋）、搜索引擎（不解釋）、人機(jī)對話（微軟小冰、Siri等）、輿情檢索（比如微博熱搜）、文本情感分析（自動(dòng)識別好評差評，參見天貓的評價(jià)標(biāo)簽）、信息抽取（如自動(dòng)生成一篇文章的標(biāo)題、文摘等，參見今日頭條）、信息過濾（比如過濾小黃文或者反動(dòng)言論，參加被請去喝茶的童鞋們）、文檔分類（比如你寫一篇足球賽事，計(jì)算機(jī)可以自動(dòng)歸類到體育主題，參加各大型新聞網(wǎng)站）、文本自動(dòng)校正（參見word、搜狗拼音等，不解釋啦）、語音識別、說話人識別、語音轉(zhuǎn)文本、文本轉(zhuǎn)語音等一系列技術(shù)~

所以呀，NLU的大量研究沒有做到人工智能，但NLP卻飛速發(fā)展中，通過各種方法實(shí)現(xiàn)計(jì)算機(jī)對自然語言的處理（甚至有時(shí)在老百姓看來，計(jì)算機(jī)好像真的理解了文本一樣）。

那么深度學(xué)習(xí)會不會真正揭開NLU的篇章呢？小夕說啦，不可能哦。想象一下，一個(gè)小孩子學(xué)會一句話、并成功的將這句話轉(zhuǎn)換成各種表達(dá)方式表達(dá)出來，只需要一兩次的重復(fù)即可完成。而如今先進(jìn)的深度學(xué)習(xí)模型則是消耗海量樣本（意思即對一句話要重復(fù)上千上萬次，甚至更多）才能完成勉強(qiáng)可以接受的“智能”水平，但是！一旦測試集稍加改變（比如改變一下問法、換一種表達(dá)方式），那么好不容易訓(xùn)練好的機(jī)器學(xué)習(xí)模型將近乎崩潰！所以也不難理解，哪怕是如今最先進(jìn)的機(jī)器翻譯系統(tǒng)，Google翻譯，有時(shí)候在一句話的后面加一個(gè)毫無意義的“了”字，卻會產(chǎn)生完全不同的兩種翻譯結(jié)果。究其根本原因就是計(jì)算機(jī)絲毫沒有理解文本。雖然對大眾來說這很難讓人接受，但這是事實(shí)。

那么計(jì)算機(jī)何時(shí)可以真正去理解文本呢？期待新的機(jī)器學(xué)習(xí)模型吧！

總結(jié)

以上是生活随笔為你收集整理的一个问题就可以辨别真假NLP（自然语言处理）研究者的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

一个问题就可以辨别真假NLP（自然语言处理）研究者

總結(jié)