自然语言理解的机器认知形式系统(公号回复“黄培红/认知理解”下载PDF资料,欢迎赞赏转发支持)
自然語言理解的機器認知形式系統(公號回復“黃培紅/認知理解”下載PDF資料,歡迎贊賞轉發支持)
今天數據簡化DataSimp導讀:本文是十多年后,黃博士對其《自然語言理解的機器認知形式系統》的詳細敘述,再次解釋他的理論及實例。黃培紅授權數據簡化社區,歡迎轉發。作者簡介:黃培紅(1967),男,福建莆田人,工程師,研究方向為軟件工程和人工智能。《自然語言理解的機器認知形式系統》(Formalizationof Natural Language Understanding)是黃培紅(HUANG Peihong)在2007年第29卷第6期(Vol.29,No.6,2007)的《計算機工程與科學》(COMPUTERENGINEERING &. SCIENCE)上發表的代表作。原文摘要:自然語言理解是人工智能研究中的熱點和難點之一。基于現有的相關理論,本文提出自然語言理解的形式化定義,以及改進相關的公理系統,從而統一“意思理解”和“道理理解”等兩種理解類型。通過設計、開發和運行“篇章理解原型程序”,驗證理論成采的正確性和有效性。(Abstract:The understanding of natural languages on machines is one of the difficult topicsin artificial intelligence. Based on the current theory, the formalization of naturallanguage understanding is defined and its axiom system is improved in t his paper.In this system, the two understanding types of ‘meaning understanding’ and‘logic understanding’ are unified. According to the out puts from the executionof a prototype program for understanding chapters, the correctness and validityof all theoretical results presented in this paper are verified.)原文關鍵詞:自然語言理解;機器理解;知覺(Keywords: natural language understanding; machine understanding; perception)。中圖分類號:TP18。
?目錄
自然語言理解的機器認知形式系統(12166字)
01自然語言理解的機器認知形式系統 (6566字)
自然語言理解在認知理解方向已經取得突破性進展
“真實理解即自然人的理解”
自然語言真實理解有三大特點
未來人工智能的核心將是可人類理解的人工智能系統的進階發展
02商榷searler的中文屋實驗:與NLP前輩李維討論機器理解問題 (2484字)
“機器理解”這個詞誤導人
機器永遠不會“理解”任何語言,機器只會做語義“計算”這種認識不對
網友評論:
03目前的計算機還沒有實現真正的智能 (2364字)
首先有幾個問題
下面闡述一下體系論中關于信息系統和智能的觀點。
參考文獻(182字)
Appx(626字).數據簡化DataSimp社區簡介
?用數學方法描述世界、解決問題,是科學發展的核心動力。知識是如何被發現產生出來,以及不同知識間的淵源和啟發關系,比記住很多知識更重要。對于人類來說,文字知識是記錄人類智能和思想的手段,而非終點。把文字考試作為教育目標,是極其簡單粗暴不負責任的。從啟迪思想來說,應試是舍本逐末。這方面,愚昧落后的教育者要負責任。AI時代來臨,在大多數研究者仍然沒有掌握計算機設計制作技術精髓的情況下,很難相信如何跨過計算機科學“彎道超車”步入人工智能科學。我們必須理解計算機、人工智能是如何誕生,背后的科學思想和原理是什幺?加油!只會空想空談喊口號表忠心可不行,而浪費人財物時間精力投入騙經費的則可恥。(秦隴紀,2018)
?
01自然語言理解的機器認知形式系統 (6566字)
何謂自然語言真實理解?
文|黃培紅,2018年1月20日,原載http://idea.cas.cn《中國科學院科學智慧火花》
自然語言理解在認知理解方向已經取得突破性進展
自然語言理解問題很早就在自然語言處理領域隱隱約約呈現出來。1966年,美國科學院提交一份名為《機器與語言》的ALPAC報告,提出機器翻譯碰到語義障礙(semantics barrier),而語義障礙實質上就是自然語言理解問題。自然語言理解是人工智能研究中的一個重要的問題。這一次參加icis2017[1]國際會議,并且做了報告,個人感覺在這種環境交流起來比較方便。本人報告了自然語言真實理解方面的最新研究進展,在座的有老前輩張光鑒、馮嘉禮教授,還有人工智能學會的付理事長王國胤教授,以及許多專家教授老師同學們。會議上,我介紹了什么是自然語言真正理解問題,講了什么是理解以及它的基礎what-why理解效應,隨后闡述了完全理解的公式,并講解了李白的一個詩句"床前明月光"的真實理解的過程,以及展望了結合語言真實理解的圖林模型的前景。臺下馮嘉禮教授頻頻點頭,我的信心很受鼓勵。張老提出中國人才有八月十五懷念故鄉的習俗,言下之意是外國人沒有,我回答說外國人在別的國家也會有思念故鄉的情感,而本研究以知覺為基礎的,外國人可以理解這個詩,根據這個研究機器也可以,他對回答是滿意的,他勉勵說年輕人有創新好好琢磨要堅持要用起來會成功的。張老曾是大科學家錢學森[2]的助手,實事求是,人很厚道。
對于本研究在自然語言真實理解上所取得的進展,有人不以為然,說“是什么進展?我看了半天,一個字也沒找到,難道已經到了人類無法識別和理解的程度了?”筆者認為,以前的NLP自然語言處理主要應用于分詞、語法分析以及信息搜索抽取等等,并沒有跟人類一樣的理解。因為大家對于理解是什么還說不清楚,所以一般采用統計的方法,如果一種分詞結果的頻度概率比較高就采用這一種分詞方法,顯然而且事實上經常會出差錯。研究人員經常自嘲“統計的方法是瘋子,規則的方法是傻子”。人類采用理解的方法顯然更高明。本研究能夠弄清楚理解是什么就是一個質的飛越,可以說,本研究在自然語言真實理解機理與方法上取得突破性進展。
自然語言的真正理解研究,其研究論文《自然語言理解的機器認知形式系統》于2007年在計算機工程與科學雜志正式發表,到現在已經整整十周年,已經經過了非常之多實例的驗證,也該是成熟的時候了。以下是報告完成后研究人員就自然語言真實理解理論,與同行們交流問答情況。
“真實理解即自然人的理解”
由于真實世界中自然語言機器處理的歧義性和復雜性引發的語義障礙問題,人們希望通過“理解”來處理自然語言.這使得傳統的自然語言處理方法變得更加有效。這個‘理解’就是真實理解,也就是我們自然人的理解方法。
為了更好弄清自然語言真實理解理論,筆者根據同行要求介紹了該研究有關的自然語言真實理解問題的提出及其研究思路。
自然語言理解是一個難題。一個難點是,對于什么是理解這個關鍵問題,研究人員很難弄清楚,只可意會不可言傳。有一個說自然語言真正理解已經有人在研究了,但他同時表示這些人還沒研究出來。本研究以理解的定義為研究對象,發現了人類在自然語言處理過程中的what-why理解效應。這個理解效應說的是當一個人明白了某事物是什么以及為什么時也就理解了該事物。
還有一個難點就是現實世界由概念構成,但概念何其多,接近無窮盡,本研究把概念歸結為由知覺元素構成的集合,把對自然語言的理解歸結為對現實世界的理解,最終歸結為對知覺元素的理解,結合what-why理解效應,本研究最終解決自然語言的真實理解問題。
what-why理解效應目前還沒有學者做過系統的研究。理解效應是理解定義的基礎,這就是理解定義與理解效應在文章里的關系。
需要反對幾種片面的觀點。一是機器無法理解論。有些人認為自然語言是不能機器理解的,這是一種片面的觀點。目前NLP分詞、語法分析等等是自然語言處理過程,并不是對自然語言的真正理解,本研究在弄清理解是什么的基礎上的自然語言理解是一種對自然語言的真正理解,對真正理解的規律進行形式化后就可以在機器上實現理解了。二是語義只能是真值語義的傳統觀念論。目前教科書側重于真值語義研究,同時還有一種語義叫操作語義。本真實理解理論研究考慮更多因素,該研究的理解偏向自然語義的理解,其中自然語義包括真值語義。有人以為理解就是根據真值函數推斷客觀事件概率分布,這是一種傳統的理論觀點,經過交流,該同學最終認識到,這只是最簡單的理解。
在交流過程中,同行們對本自然語言真實理解理論表現出濃厚的興趣,對該理論的核心觀點提出了各種問題,比如,理解是什么?所謂“理解”是什么意思呢?計算機應該怎樣做,才算是“理解”了詞的意義并能運用到各種合適的場合呢?
根據已發表的有關文獻3,理解是外部刺激物與認知系統內的知覺模式集匹配時析出的確信性感受。計算機全面理解該外部刺激物如詞語、句子、文章的各個部分各個知覺子集后才算理解它的意思,涉及各個約束關系,可以運用到各種合適的場合。那么,自然語言的一段文本,理解之后變成什么樣的形式呢?同樣根據已發表的有關文獻,自然語言的一段文本,理解之后變成可聚知集的形式,一種知覺集合。
在交流現場,應同行們要求,筆者對真實理解理論的最核心的公理1(理解)與公理2(學習)作了相應的說明和解釋。公理1是說,當處于知覺模式外部的外部刺激形成知覺集合而后與認知系統內知覺模式相匹配時,就確信了外部刺激所含的知覺及其組成的知覺集合的存在,這時若原存入模式的置信度高,已無疑惑,則真正懂得了該刺激是什么及為什么(即確定了它的真值性),從而理解了該知覺集合(包括各知覺)。該公理2說的是,可以設定認知系統的本能機構1為:當一個外部刺激被判斷是真值(如客觀存在) ,而且它引起的知覺集合有價值(如可形成功能),那么該知覺集合(包括功能)就有記憶的價值,并把它連同確信性感受(一種置信度)一同存入認知系統內。這是一個前理解本能機制,即它得到的知覺集合是理解的基礎。
刺激物全面理解公式是對于刺激物比如詞語、語句、篇章,對它的理解是涉及的各個部分各個知覺子集都得到理解后這個刺激物才得到理解,比如各個概念對應的知覺集以及各個知覺元素都要得到匹配理解。
那么,怎么理解一個詞呢?比如“大雨”。先要知道“大雨”是什么,也就是what因素首先啟動,然后what與why因素交互作用,最終形成對刺激物“大雨”的理解結果。理解是個心智程序,可以獨立于內容結果之外,但理解對不對,好不好,還是需要客觀事實檢驗,這是對“理解”的評價。這個理解過程,匹配與評價兩者都需要,缺一不可,評價可以優化理解。是不是意思理解“雨”,按道理理解“大雨”呢?需要說明的是,不但要意思理解還要道理理解“雨”,對“大雨”的理解也一樣,兩個理解類型缺一不可。
研究人員還對同行們的理解疑問與認識偏差進行了現場答疑。
其中的一個問題是感知覺或概念匹配后就算理解嗎?不是的,不但要匹配還要析取,這就是匹配析取函數的內容。這個理解定義的理論基礎是what-why理解效應,即當認知系統知道刺激物是什么及有關的為什么時就理解了該刺激物;理解包括意思理解與道理理解,也就是說,這個理解定義包括了二層含義,涉及意思理解與道理理解兩種理解類型。
另一個問題是理解前置定語形成的詞組,那可適用的層次是不是就多了呢?是的,但這些層次的類型就兩個,意思理解類型與道理理解類型。“匹配->建模”的過程,叫意思理解。只要主體產生信息匹配并建立了一個認識模型,理解就產生了,不論理解到什么結果,都是那個主體的理解。推斷(道理理解)就是另一個心智程序,意思理解啟動了道理推斷,推斷同時去啟動評價、估值等。最后是一組心智程序要素的組合生成了最終認識,這個認識過程可以統稱為理解(廣義)。同一刺激物對象,可以有不同的理解,所謂“理解是個筐,啥個都能裝”,只要認知系統在系統內認可該理解結果。
總之,理解定義的基礎是what-why理解效應,what啟動的是意思理解,why啟動的是道理理解(分析)。道理分析(解構->推斷)是意思理解(匹配->建模)的思維逆運算,是對結果的倒推。本理論對這些理解規律進行了詳細的數學化與細化,具體可參考有關文獻3。
自然語言真實理解有三大特點
語言真實理解理論的魅力在于真實理解的靈活性、泛化性和魯棒性三個不同的方面,機器真實理解自然語言的三個突出特點是可推理、可推廣和可靠性。
靈活性真實理解可以非常成功地解決許多自然語言處理問題,我們可以用真實理解理論非常靈活地處理很多歧義性現象;
有同學提問說bright moon能夠理解,那bright apple能理解嗎?這個就涉及理解的靈活性方面。把bright apple理解成apple能發光是不能理解的,若把bright apple理解成發亮的蘋果是可以理解的。最后該同學對這個回答表示滿意。
泛化性涉及語義關聯材料, 包括語境和知識,根據這些約束條件處理語言材料具有普適性,相對復雜,同時相比現有的統計自然語言處理方法具有更強的通用性。
有同行認為,能區分bright apple和bright moon的前提是對世界的理解,這對于機器來說是無解的,希望通過將人類知識“教”給計算機的做法是行不通的,因為人類還會說出“bright face”、“bright ideas”這樣的話,而且這樣的話會是成千上萬、層出不窮的。但這個觀點忽視了真實理解理論的泛化性特點。
真實理解的泛化性是真實理解理論的魅力所在。本理論正是把自然語言的理解歸結為對現實世界的理解,最終歸結為知覺元素的理解。這個理論的關鍵是它是在弄清了什么是理解基礎之上建立的。本理論中,人類知識歸結為現實世界的知覺模式集,人類知識可以教給計算機(認知系統),其中的學習公理可以把可理解的知識加入認知系統(cognitive system),成千上萬、層出不窮的“brightface”、“bright ideas”之類的表達式是可以進行理解式推理建構的,這就是本自然語言真實理解理論的特色與優勢所在。
魯棒性魯棒性是可靠性的體現,是讓機器擁有在真實理解基礎上自覺和對抗諸如手誤在內的自動糾錯的能力。
真實理解涉及語境、知識以及日常習慣與常識的制約,保證系統的一致性與正確性,從而實現系統的魯棒性;但是自然語言的真實理解跟信息量的多少沒多大關系,真實理解僅需適量的信息即可。
有人認為,如果u反映可信度,那么可信度未必提供信息多,比如,“小偷是人”比“小偷是老頭”錯的可能性更小,一般情況下更正確,但是信息少。理解特殊才可能獲得更多信息。我的方法是,遵照popper說的,用信息評價。理解更好也就是獲得信息更多。正確率,真,在很多情況下并不是好的準則,比如總是預報明天沒地震,正確率非常高;總推測小偷是人,邏輯概率很大,但是沒啥信息。
理解是個布爾量,跟信息量的多少關系不大,信息量倒是跟理解的深度相關。知道的越多,說明理解得越深。理解與理解度是兩個不同的概念。理解跟對方的答案有關,是否理解就是是否知道對方說了什么。理解的深度越深那么理解的準確率可能越高。按累乘方法,理解復雜語句會得低分,理解簡單語句容易得高分。復雜的句子靠推理理解仍然可以得高分。理解的深度與魯棒性有密切關系。
以上這三個特性都涉及到真實理解理論的本質,即知覺粒度上的語義及其細粒度的約束關系,正是這三個特點使得自然語言真實理解理論在處理現實世界信息方面帶來巨大的便利。
對真實理解理論的應用情況以及優化同行們提出了進一步的意見,比如:真實理解公式能解決什么問題?評價兩種理解好壞?優化理解,或優化表達?你那公式u反映正確?最大值多少?
真實理解進行自然語言處理具有三性:靈活性、泛化性以及魯棒性,這是本研究在解決自然語言處理問題上的優勢,可見,該公式可以解決自然語言的真實理解問題,而且,根據心智程序對不同學科的圈定情況,可以看到,理解在基礎層面,所以在實際應用中它滲透到方方面面,許多認知問題最后都歸結到理解問題。評價理解的好壞是越正確越好。公式u反映認知系統認為的正確理解。目前只用到1-正確,0-不理解,0-1之間根據需要定。
比如天氣預報“明天有小到中雨”,有人理解是先小雨后中雨,有人理解是降水量范圍在小雨和中雨范圍內,如何用數值評價兩種理解?本理論中的理解偏自然語義的理解,理解的評價這個要看天氣預報的人的答案是什么了。定量方面,是否理解目前就用到0與1。當然,一牽涉到“值”,理解就從狹義匹配到包涵評價的廣義理解了。實際上有多個心智程序共同參與思維運算。有人在原始信息的基礎上,匹配了“先后”建立降雨過程模型。有人則匹配“大小”建立降雨量模型。這兩個都是理解(匹配->建模)。對這種理解的評價由提供答案的人決定。所以往往要結合上下文來理解,涉及上下文的話,這需要用到道理理解,通過這種約束條件,從而理解會更準確,這也是真實理解的魯棒性的體現。
未來人工智能的核心將是可人類理解的人工智能系統的進階發展
基于自然語言理解的認知系統涉及人工智能的方方面面,可以說,自然語言理解是AI-完全問題。存在這樣一種觀點認為,上述這樣的NLP系統等價于要建立人類的認知模型,然而,縱觀人類的AI研究歷史,所有企圖通過對人類和世界建模的系統,最后都以失敗告終。這是種人工智能悲觀論觀點,同樣是一種偏見。
歷史上認知模型確實失敗了,其失敗的重要原因是這些系統的知識表示,這些知識在系統中只是數據,無法理解,最終導致混亂。這個世界模型數據非常之大又不可理解,一盤散沙式的數據,適用的知識又沒辦法得到,最終導致系統建模使用上的失敗。真實理解問題的研究給了這些認知建模系統注入生機與活力。
有人認為,計算機能做的,在他看來,最多能夠區分出、并對人類的“意義”進行編號(比如bright這個詞對應了的各種含義的編號分別是100,200,350,...),然后將句子中的詞語映射到這些id中。對于更為復雜的句子,他也相信應該可以找到一種表達方式(比如用詞向量的疊加表達一個組合意義),然后在這個組合向量空間中對句子進行處理,他也相信人類一定能夠走到這一步(這已經很了不起了)。不過,他相信,因為計算機沒有“生活在一個世界之中”,所以計算機對于這些id究竟意味著什么,仍然是茫然無察的。
筆者要說的是,計算機雖然可以沒有和我們一塊“生活在同一個世界”中,但本研究著重知覺形式化基礎上來進行自然語言理解的,這意味著計算機將擁有與人類等價的知覺系統,可以讓它具有基本的知覺經驗,比如10歲人類的現實世界經驗,然后通過閱讀理解,自學從小學、中學、大學等等人類知識精華,掌握完備的人類知識,理論上這樣的計算機或者叫機器認知系統完全可以與人類生活在同一個世界之中的人類等價,從而對這些意義id 有所理解、有所體驗、有所感知、有所認知,并不會仍然是茫然無察的。
討論很熱烈,通過這次交流,感覺還是蠻有收獲的,既解答了別人的疑問,本人也收獲了學習以及思考的機會。對于這個自然語言真實理解研究,有同行給予了正面的充分肯定與推薦,認為“樓主還是很棒的,網上可以搜到樓主在很多專業雜志發表的關于自然語言理解的論文,十幾年的工作,很棒。”顯然,這個世界上還是有人知道這個研究的價值,畢竟這個社會的發展還得靠這些正能量支撐。好事多磨的意義就在于,好事總得經得起考驗才對,黑子的作用在于夯實,在于去掉水分留下精華。
在報告提問環節,筆者提到正是全世界的人與人之間知覺是一樣的,知覺對應的現實世界指代對象是一致的,人類才能相互理解溝通,而這個知覺系統是人類的先天本能機制。這個先天本能機制是人類理解溝通的基礎,由基因確定的。值得一提的是,本理論中的學習公理(公理2)非常重要,很有可能發展成為機器學習的原則,是自動化機器學習的基礎。有同行對這個理論頗有興趣,表示了交流合作的意愿。
可以預期的是,未來的人工智能系統一定是人類可理解的,真實理解的三大特性決定了可理解性是下一代智能系統的重要特征。
腳注1:ICIS2017,即第二屆智能科學國際會議,于2017年10月25-28日在上海臨港隆重召開。被譽為人工智能領域“根目錄”之一的美國科學院、美國工程院、美國藝術院三院院士,加州大學伯克利分校教授邁克爾·喬丹(Michael I. Jordan)做了報告。
腳注2:錢學森,大科學家,國內人工智能的形象思維學派的發起人,第一屆中國人工智能學會會長。錢學森是世界著名科學家,空氣動力學家,中國載人航天奠基人,被譽為“中國導彈之父”。
腳注3:自然語言真實理解研究的有關文獻包括:《自然語言理解的機器認知形式系統》,《自然語言理解--一個關于機器感悟人類語言實質的邏輯理論》,《自然語言加工中What-Why理解效應》,以及《Exploration on Causal Law of Understanding and Fusion Linking ofNatural Language》。
黃培紅,2018年1月20日,原載《中國科學院科學智慧火花》,http://idea.cas.cn
?
02商榷searler的中文屋實驗:與NLP前輩李維討論機器理解問題 (2484字)
商榷searler的中文屋實驗:與NLP前輩李維討論機器理解問題.
文|黃培紅,投稿時間:2016-04-10,原載http://idea.cas.cn《中國科學院科學智慧火花》
“機器理解”這個詞誤導人
有知名博主發出感慨說:說到“機器理解”,這個詞誤導了多少人。并說,成語里面無論有多少個故事,隱含的意義,不同的理解,這統統不在語義計算(所謂機器“理解”)的范疇內。這些都是語義表達(semantic representation)的問題,與機器理解沒有一毛錢的關系。(QUOTE:重溫AI歷史上的思維實驗:老外不會中文,正如機器沒有理解from http://blog.sciencenet.cn/blog-362400-967894.html)本人想了一下,這個”誤導“的原因是什么呢?很明顯,這是因為理解的本意與目前學術界主流的理解并不一致造成的。
機器理解的理解與人類理解的理解,字面相同,意義同樣,但目前主流的機器理解,在圖像處理領域僅僅是識別,或者在自然語言處理領域,詞句法分析就是機器理解。應該說,主流的機器理解僅僅講對了理解的一部分,以至于現在出現了混亂,出現了這樣一種狀況:主流認為,句法分析就是機器理解,但機器做到了句法分析時,人們又不禁發出疑問,難道句法分析了就是理解嗎?歸結原因,是因為人們對什么是理解的問題還沒有搞清楚。同樣,主流認為,圖像匹配了就是理解,也僅僅講對了一部分,因為當機器做到了匹配出圖像時,人們并不認為機器理解了這個圖像。原因同樣是對什么是理解的問題認識不清。
歷史上有個著名的中文屋思想實驗,用以批判強人工智能問題。QUOTE:“Searle創造了“中文房間”思想實驗來反駁電腦和其他人工智能能夠真正思考的觀點。房間里的人不會說中文;他不能夠用中文思考。但因為他擁有某些特定的工具,他甚至可以讓以中文為母語的人以為他能流利的說中文。根據Searle,電腦就是這樣工作的。它們無法真正的理解接收到的信息,但它們可以運行一個程序,處理信息,然后給出一個智能的印象。”(from http://baike.baidu.com/view/911657.htm)
但這個中文屋問題在今天就是個值得商榷的問題了。屋內的人是懂得母語理解母語的,這是毋庸贅言的。我們可以假想一下,如果屋內的人知道了(或者使用特定工具知道)這個中文是什么及為什么時,這種對應關系,就是一種對中文的理解,也就是說,通過他擁有的某些特定的工具后,他其實已經確切地知道了這個中文是什么了,也就是理解了這個中文,而不是機械的一一對應或變換了。當然這是當時的條件限制造成的,如果放在現在,他(Searle)知道了理解規律,掌握了理解規律,懂得什么是理解的時候,他一定不會這么認為,認為屋內的人沒有理解中文了。同樣,老外不會中文,但當他知道特定中文是什么及為什么時,他也就懂得了中文,而不僅僅是一種機械的對應關系。比如中文“香蕉”,當他知道它是什么(就是對應的“banana")及為什么(知道它就是”banana”或知道它為什么是”banana")時,他就理解了“香蕉”這個中文。正如屋內的人理解中文,機器也一樣,根據理解效應,當機器知道中文是什么及為什么時,它也就理解了中文。總而言之,對于中文屋問題,屋內的人是根據理解效應翻譯出中文時,就不能得出它不懂中文的結論,同樣,機器不是通過機械的一一對應,而是根據理解效應進行信息處理時,也同樣不能得出該機器不能理解中文的結論。有關“香蕉”的全面理解,可以參考對中文“藍”的理解(from http://idea.cas.cn/viewdoc.action?docid=138)
機器永遠不會“理解”任何語言,機器只會做語義“計算”這種認識不對
說機器永遠不會“理解”任何語言,機器只會做語義“計算”。這種認識是不對的,這是因為目前主流還沒有掌握理解效應的規律造成的。當人類知道了理解效應規律以后,機器就可以理解語言,而且還會對語義進行深度理解(deep understanding),做類似人類的理解計算。
同樣,“成語里面無論有多少個故事,隱含的意義,不同的理解,這些都是語義表達(semantic representation)的問題,與機器理解沒有一毛錢的關系”,這種說法也是不成立的,機器理解與語義表達(semantic representation)的問題具有緊密的關系,因為當知道成語是什么及為什么時,認知系統理解了該成語。可見,機器理解與語義表達緊密相關,而且,解決了理解問題,語義表達才能更加準確,更加合理,才更有方向。
我很認同“理解是本質,表達只是形式”這句話,但說“記憶是強盜,詞典是綁架”,就值得商榷了。記憶是強盜嗎,詞典就是綁架嗎?不一定的,正確的記憶才有價值,同樣,正確的詞典才有意義,否則不會引起理解效應的,不正確的記憶或詞典最終都可能引起疑惑,破壞理解效應,無論是人類或是機器。如果硬說詞典是綁架,那也要綁架得合情合理。
至于說人工智能(ArtificialIntelligence)沒有也無需“智能”,自然語言理解(Natural Language Understanding)也沒有“理解”,一切的智能和理解都是比喻,這些都只是目前學術界的主流認識,目前學術界的主流并沒有解決“理解”是什么的問題,它們所謂的自然語言理解,如前所述,往往是句法分析或詞法分析,或基于概念的語義計算,是有局限性的,以至于現在它們碰到這樣一個如前面所說的棘手的問題,當它們用機器把某些句法分析正確時,人們往往又不承認它就是理解了這些句子。究其深層次原因,原因是它們使用理解這個字眼的時候,本來是人類理解的這個“理解”,但借用“理解”進行自然語言處理研究過程中,又給理解無意中下定義(它們并沒有也沒能力給理解下個確切的定義)的時候,又只是給了個諸如詞句法分析這樣的詞義。所以現在導致了這么一個尷尬的狀態。“智能”也一樣,人們往往把機器能做人類能做的事情就叫智能,但這些只是表象,只是人類智能的一部分,沒有掌握“智能”的規律,或者說不知道“智能”的本質,所以當機器下棋超過人類時,人們往往又不承認該機器有智能。(QUOTE:基于語義本源介入的智能界定研究from http://www.cqvip.com/QK/89810X/201003/688739072201003007.html或 http://www.cnki.com.cn/Article/CJFDTotal-XIZH201003007.htm)需要強調的是,機器理解、電腦自主思考、獲得人類的情感等等,這些并不是人工智能的科幻神話,更不是只有茶余飯后博取一笑的價值。“一切的智能和理解都是比喻”,前面已經說了,只是反映了目前學術界的主流認識的現狀。目前的學術界主流如果能積極接納對“理解”是什么與“智能”是什么所進行的研究,無疑將把主流的學術水平提高到一個新的層次。
網友評論:
1樓 譚少鋒:支持黃老師的觀點。學生這里也有幾篇文章,希望您有空了看看,多多指點。http://idea.cas.cn/viewdoc.action?docid=47113http://bbs.sciencenet.cn/home.php?mod=space&uid=2534064&view=fransis2015體系論對DNA、大腦、社會信息系統、計算機等信息系統進行了對比分析,認為前三種都能產生偶發信令,是自主...詳情>>2016-05-23 15:07
?
03目前的計算機還沒有實現真正的智能 (2364字)
目前的計算機還沒有實現真正的智能——體系論對人工智能的啟發
文|譚少鋒,投稿時間:2016-04-15,原載http://idea.cas.cn《中國科學院科學智慧火花》
首先有幾個問題
人工智能成為專門的學科誕生以來,經歷了幾次起落,在人們的期望和失望中擺動。即便目前在計算機、機器人中取得了許多成就,也還是顯得不盡人意。業內很多人都能感覺到目前的人工智能離人類大腦的智能仍有較大差距,高等智能的提出就有這方面的因素。但究竟如何才能讓人工智能更進一步走向人腦智能?還有,之前我們對智能的研究缺失了什么以至于計算機實現的智能與人腦的智能之間存在越不過去的坎?
對智能的研究一直都以人類大腦的智能為范本。但大腦及神經系統只是生物演化中形成一種信息系統而已,還有沒有其他種類的信息系統可以作為研究對象?如果有,在這些信息系統會有哪些異同?
目前人們對于智能的定義有很多種說法,會思考、有意識、理智、智慧、像人那樣行動等等,都歸屬于描述性表述。會不會有一種更簡單的,更直觀的,觸及到本質的定義呢?
下面闡述一下體系論中關于信息系統和智能的觀點。
在體系論中,細胞為一級生物體系,動物、植物、真菌為二級生物體系,人類社會為第三級生物體系。其中第一級和第二級是緊致實體,即通常人們所說的細胞(體)、動物(體)、植物(體);第三級生物體系是離散型物質體系,非緊致實體。一級生物體系細胞作為基本單元組成了二級生物體系,二級生物體系中的人作為基本單元組成了第三級生物體系。
一級生物體系的信息系統以DNA為主,二級生物體系的信息系統為神經系統,其中以大腦為主,第三級生物體系的信息系統為社會信息系統,包含了社會中人的頭腦、書籍、計算機、手機、互聯網等。至此我們可以看到,在自然演化形成的信息系統中,除了大腦,還有DNA和社會信息系統。社會信息系統中又以人的大腦為核心,因此我們可以先以DNA、大腦-神經系統和計算機這三種典型的信息系統為對象進行研究。
對DNA主導下的細胞和大腦-神經系統主導下的人的行為表現進行觀察、分析,DNA和大腦-神經系統不僅僅有感知引起的行為,還會有自發的、主動的行為。比如大腦內突然涌現出的想法、突然萌生的要去哪里做什么的意愿。可見DNA和大腦神經系統有自主能力,能夠自發地形成信息活動,產生自主行為,它們都是自主信息系統。
在演化方面,DNA可以由突變產生新的信息概念,推動演化;大腦可以通過思考、靈感形成新的信息概念,實現信息演化。它們都有自主演化能力的。DNA中新信息概念產生的速率要小于大腦靈感的產生速率,而且大腦靈感可以有很強方向性,產生之后可以通過思考進行檢驗、處理,篩選出結果,大腦相比DNA有很強的信息處理能力。因此二級信息系統 大腦-神經系統的演化活性和信息處理能力是高于一級信息系統DNA的演化活性和信息處理能力的,另外通過對比我們也可以發現,第三級信息系統 社會信息系統的演化活性和信息處理能力也高于大腦-神經系統的。總結可知,一、二、三級信息系統都是自主信息系統,都具備自主演化能力,它們的演化活性和信息處理能是逐級提高的。
再看看人類制造出來的信息系統——計算機,目前它只能在編程后按人的指令產生信息活動,或者通過外界的感應形成活動,無法像人和細胞那樣自發地形成信息活動。雖然有些機器人擁有自行能力,但還是基于感知-行動或者人的指令產生的,它的信息活動仍然不是自發形成。目前的計算機只是實現了半自主信息活動能力,只能算是半自主信息系統。在演化方面,計算機中的新信息概念是由人來輸入形成的,它的演化是在人的輔助下的演化,和自主演化有本質的區別。
根據對DNA、大腦、計算機的觀察和分析,我在體系論中提出了偶發信令、可控信令、信令協調控制機制和信息概念的觀點。DNA和大腦都可以形成偶發信令,然后偶發信令在信令控制機制的協調下引發一系列可控信令,形成信息活動,即自主信息活動。計算機本身無法產生偶發信令,只能由外界引發起始信令后,在信令控制機制的協調下產生一系列可控信令,形成信息活動,即半自主信息活動。DNA可以由突變形成新信息概念——新基因,實現自主演化。大腦可以由偶發信令形成新的信息概念,實現自主演化。而計算機還形成不了偶發信令,也沒有突變,無法形成自主演化,只能在人的作用下實現升級、演化。
自然界中,正是突發、偶發事件引起的一系列變化推動了事物的發展和演變。信息系統的出現使這些突發、偶發事件及連鎖變化更可靠了。在DNA中,有偶發信令、突變來形成自主信息活動,產生新信息概念,推動演化;在大腦中,有偶發信令來形成自主信息活動,產生新信息概念,推動演化;在社會信息系統中,有大腦的偶發信令來形成自主信息活動,產生新信息概念,推動演化。
目前的計算機與人腦的差距就在于無法產生偶發信令,也形成不了新信息概念,所以無法產生自主信息活動,無法實現自主演化。現在計算機實現的智能可以在特定情景中達到很好的預期效果,而在情景改變后就變得極其笨拙了,更不要說適應更為廣泛的情景了。然而人就不一樣,到了新環境后經過學習思考可以很好地適應新環境。可見,計算機、人工智能若想要達到大腦那樣的智能,必須能夠產生偶發信令,形成新信息概念,實現自主演化。計算機的普適性應該通過提高其自主演化活性來實現。
通過以上對信息系統的分析,我們提出了新的關于智能的定義,即偶發信令形成新信息概念的能力為智能。這樣我們會認識到計算機和DNA都沒有智能,只有大腦-神經系統和社會信息系統擁有智能。目前計算機實現的只是功能上的類智能,達到一定程度地智能化,距離真正的智能似乎還很遙遠。雖然如此,計算機僅是類智能的半自主信息系統,就已經使人類社會產生了跨越式的改變,那么可以預見真正人工智能實現的時候,必定會產生更深遠的影響。
注:體系論是一個完整的理論,公布在科學網王晨光的博客中(http://bbs.sciencenet.cn/home.php?mod=space&uid=2534064&view=fransis2015)。因為字數限制,只這里好截取其中的一篇,分享給大家探討了。
-END-
參考文獻(182字)
1. 黃培紅.《中國科學院科學智慧火花》何謂自然語言真實理解?.[EB/OL]?http://blog.sina.cn/dpool/blog/s/blog_80b59afc0102xdnw.html,原載http://idea.cas.cn,2018-01-20.
2. 黃培紅.商榷searler的中文屋實驗:與NLP前輩李維討論機器理解問題.[EB/OL] http://idea.cas.cn/viewdoc.action?docid=46907,2016-04-10.
3. 譚少紅.目前的計算機還沒有實現真正的智能.[EB/OL]http://idea.cas.cn/viewdoc.action?docid=47113,2016-04-15.
x.秦隴紀.數據科學與大數據技術專業概論;人工智能研究現狀及教育應用;純文本數據神經網絡訓練;大數據簡化之技術體系[EB/OL].數據簡化DataSimp(微信公眾號)http://www.datasimp.org,2017-06-06.
?
自然語言理解的機器認知形式系統(12166字)
秦隴紀
簡介:自然語言理解的機器認知形式系統。(公號回復“認知理解”文末“閱讀原文”可下載0圖4碼16k字9頁PDF) 藍色鏈接“數據簡化DataSimp”關注后下方菜單項有文章分類頁。作者:黃培紅。來源:黃培紅教授授權轉發,秦隴紀微信群聊公號,引文出處請看參考文獻。版權聲明:技術科普文章僅供學習研究,公開資料?版權歸原作者,請勿用于商業非法目的。秦隴紀2018數據簡化DataSimp綜合匯譯編,投稿合作,或出處有誤、侵權、錯誤或疏漏(包括原文錯誤)等,請聯系DataSimp@126.com溝通、指正、授權、刪除等。歡迎轉發:數據簡化DataSimp、科學Sciences、知識簡化”新媒體聚集專業領域一線研究員;研究技術時也傳播知識、專業視角解釋和普及科學現象和原理,展現自然社會生活之科學面。秦隴紀發起未覆蓋各領域,期待您參與~ 強烈譴責超市銀行、學校醫院、政府公司肆意收集、濫用、倒賣公民姓名、身份證號手機號、單位家庭住址、生物信息等隱私數據!
Appx(626字).數據簡化DataSimp社區簡介
信息社會之數據、信息、知識、理論持續累積,遠超個人認知學習的時間、精力和能力。應對大數據時代的數據爆炸、信息爆炸、知識爆炸,解決之道重在數據簡化(Data Simplification):簡化減少知識、媒體、社交數據,使信息、數據、知識越來越簡單,符合人與設備的負荷。數據簡化2018年會議(DS2018)聚焦數據簡化技術(Data Simplification techniques):對各類數據從采集、處理、存儲、閱讀、分析、邏輯、形式等方ose 做簡化,應用于信息及數據系統、知識工程、各類數據庫、物理空間表征、生物醫學數據,數學統計、自然語言處理、機器學習技術、人工智能等領域。歡迎投稿數據科學技術、簡化實例相關論文提交電子版(最好有PDF格式)。填寫申請表加入數據簡化DataSimp社區成員,應至少一篇數據智能、編程開發IT文章:①高質量原創或翻譯美歐數據科技論文;②社區網站義工或完善S圈型黑白靜態和三彩色動態社區LOGO圖標。論文投稿、加入數據簡化社區,詳情訪問www.datasimp.org社區網站,網站維護請投會員郵箱DataSimp@163.com。請關注公眾號“數據簡化DataSimp”留言,或加微信QinlongGEcai(備注:姓名/單位-職務/學校-專業/手機號),免費加入投稿群或”科學Sciences學術文獻”讀者微信群等。長按下圖“識別圖中二維碼”關注三個公眾號(搜名稱也行,關注后底部菜單有文章分類頁鏈接):
數據技術公眾號“數據簡化DataSimp”:
科普公眾號“科學Sciences”:
社會教育知識公眾號“知識簡化”:
(轉載請寫出處:?秦隴紀2010-2018匯譯編,歡迎技術、傳媒伙伴投稿、加入數據簡化社區!“數據簡化DataSimp、科學Sciences、知識簡化”投稿反饋郵箱DataSimp@126.com。)
普及科學知識,分享到朋友圈
轉發/留言/打賞后“閱讀原文”下載PDF
文章已于2018-05-21修改 閱讀原文 微信掃一掃關注該公眾號
總結
以上是生活随笔為你收集整理的自然语言理解的机器认知形式系统(公号回复“黄培红/认知理解”下载PDF资料,欢迎赞赏转发支持)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: [视频] 凯文.凯利 - 镜像世界: 未
- 下一篇: opencv(十三)-快速连通区域分析