日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 运维知识 > windows >内容正文

windows

OpenAI 科学家:幻觉是大模型与生俱来的特性,而非缺陷

發(fā)布時間:2023/12/10 windows 42 传统文化
生活随笔 收集整理的這篇文章主要介紹了 OpenAI 科学家:幻觉是大模型与生俱来的特性,而非缺陷 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

  新智元報道  

編輯:桃子 潤

【新智元導讀】大模型就是「造夢機」!幻覺是 LLM 與生俱來的特性,而非缺陷。OpenAI 科學家 Andrej Karpathy 獨特視角在 AI 社區(qū)掀起了激烈的討論。

幻覺,早已成為 LLM 老生常談的問題。

然而,OpenAI 科學家 Andrej Karpathy 今早關于大模型幻覺的解釋,觀點驚人,掀起非常激烈的討論。

在 Karpathy 看來:

從某種意義上說,大語言模型的全部工作恰恰就是制造幻覺,大模型就是「造夢機」。

另外,Karpathy 的另一句話,更是被許多人奉為經(jīng)典。他認為,與大模型相對的另一個極端,便是搜索引擎。

「大模型 100% 在做夢,因此存在幻覺問題。搜索引擎則是完全不做夢,因此存在創(chuàng)造力問題」。

總而言之,LLM 不存在「幻覺問題」。而且幻覺不是錯誤,而是 LLM 最大的特點。只有大模型助手存在幻覺問題。

對此,英偉達高級科學家 Jim Fan 分享了自己的看法,「令人著迷的是,最好的 LLM 可以通過切換到『工具使用模式』來『決定』何時做夢,何時不做夢。網(wǎng)絡搜索是一種工具。LLM 可以動態(tài)調(diào)整自己的『dream% 超參數(shù)』。GPT-4 試圖做到這一點,但遠非完美」。

亞利桑那州立大學的教授 Subbarao Kambhampati 也跟帖回復了 Karpathy:

LLM 一直在產(chǎn)生幻覺,只是有時他們的幻覺碰巧和你的現(xiàn)實一致而已。

而提問者是否能夠讓幻覺和自己的現(xiàn)實一致,很大程度取決于提問者自己對產(chǎn)生內(nèi)容的檢查能力。

基于這個認知,他認為,所有想要將 LLM 的能力擬人化的嘗試都只是人類的一廂情愿,將思考、想法、推理和自我批評等擬人化概念強加在 LLM 上都是徒勞的。

人類應該在認清 LLM 能力的本質(zhì)基礎之上,將它當作一個「補充人類認知的矯正器」,而不是潛在的替代人類智能的工具。

當然,討論這種問題的場合永遠少不了馬老板的身影:「人生不過就是一場夢」。

感覺下一句他就要說,我們也只是生活在矩陣模擬之中????

Karpathy:LLM 不存在「幻覺問題」,LLM 助手才有

對于大模型飽受詬病的幻覺問題,Karpathy 具體是如何看的呢?

我們用「提示」來引導這些「夢」,也正是「提示」開啟了夢境,而大語言模型依據(jù)對其訓練文檔的模糊記憶,大部分情況下都能引導夢境走向有價值的方向。

只有當這些夢境進入被認為與事實不符的領域時,我們才會將其稱為「幻覺」。這看起來像是一個錯誤,但其實只是 LLM 本就擅長的事情。

再來看一個極端的例子:搜索引擎。它根據(jù)輸入的提示,直接返回其數(shù)據(jù)庫中最相似的「訓練文檔」,一字不差。可以說,這個搜索引擎存在「創(chuàng)造力問題」,即它永遠不會提供新的回應。

「大模型 100% 在做夢,因此存在幻覺問題。搜索引擎則是完全不做夢,因此存在創(chuàng)造力問題」。

說了這么多,我明白人們「真正」關心的是,不希望 LLM 助手(ChatGPT 等產(chǎn)品)產(chǎn)生幻覺。大語言模型助手遠比單純的語言模型復雜得多,即使語言模型是其核心。

有很多方法可以減輕 AI 系統(tǒng)的幻覺:使用檢索增強生成(RAG),通過上下文學些將做夢更準確回溯在真實數(shù)據(jù)上,這可能是最常見的一種方法。另外,多個樣本之間的不一致性、反思、驗證鏈;從激活狀態(tài)中解碼不確定性;工具使用等等,都是熱門且有趣的研究領域。

總之,雖然可能有些吹毛求疵,,但 LLM 本身不存在「幻覺問題」。幻覺并非是缺陷,而是 LLM 最大的特點。真正需要解決幻覺問題的是大語言模型助手,而我們也應該著手解決這一問題。

LLM 是造夢機,請停止一廂情愿的「擬人化」

來自亞利桑那州立大學的 AI 科學家 Subbarao Kambhampati 教授,把自己的研究總結成了一篇 X 上的長文。

他認為產(chǎn)生不同的認知(包括幻覺)就是 LLM 本質(zhì)能力,所以不應該對于 LLM 產(chǎn)生過于理想化的期待。

鏈接地址:https://twitter.com/ rao2z / status / 1718714731052384262

在他看來,人類應該將 LLM 視為強大的認知「模擬器」,而不是人類智能的替代品。

LLM 本質(zhì)上是一個令人驚嘆的巨大的外部非真實記憶庫,如果使用得當,可以作為人類強大的認知「模擬器」。

而對于人類來說,想要發(fā)揮 LLM 的作用,關鍵是如何有效地利用 LLM,而不是在這個過程中不斷用擬人化的企圖來自欺欺人。

人類對于 LLM 最大的錯覺就是我們不斷地將 LLM 與人類智能相混淆,努力地將思考、想法、推理和自我批評等擬人化概念套在 LLM 之上。

這種擬人化是相當徒勞的 —— 而且,正如很多研究中展現(xiàn)的那樣 —— 甚至會適得其反并具有誤導性。

而從另一個角度說,如果我們不將「通過 LLM 開發(fā)出達到人類水平的 AI 系統(tǒng)」設定為唯一目標,就不用天天批判自回歸 LLM 非常差勁(比如 LeCun 教授)。

LLM 是可以非常有效地補充認知的「模擬器」,并沒有天然包含人類的智力。

LLM 在某些事情上能比人類做得好太多了,比如快速概括,歸納總結。

但是在做很多其他事情的能力上比人類又差太多了,比如規(guī)劃、推理、自我批評等。

人類真正需要的也許是:

1.充分利用 LLM 的優(yōu)勢。這可以在 LLM 產(chǎn)品架構中加入人類或者其他具有推理能力的工具來強化 LLM 的優(yōu)勢。

2. 在某種程度上,人類水平的智能仍然是目前值得追尋的圣杯,保持開放的研究途徑,而不是僅僅是堆疊算力,擴大自回歸架構。

大模型幻覺,究竟從何來

前段時間,一個名為 Vectara 的機構,在 GitHub 推出了一個大模型幻覺排行榜。

結果顯示,在總結短文檔方面,GPT-4 的表現(xiàn)最為優(yōu)異,而 Google PaLM 的兩款模型直接墊底。

其中,GPT-4 的準確率為 97.0%,幻覺率為 3.0%,回答率為 100.0%。Palm-Chat 2 的準確率為 72.8%,幻覺率高達 27.2%,回答率為 88.8%。

不過,這個榜單一出來,受到了許多業(yè)內(nèi)人士的質(zhì)疑。

OpenAI 聯(lián)合創(chuàng)始人兼研究員 John Schulman 曾在一次演講 ——「RL 和 Truthfulness – Towards TruthGPT」,探討了幻覺問題。

根據(jù) Schulman 的說法,幻覺大致可以分為兩種類型:

- 模型猜測錯誤

- 模式完成行為:語言模型無法表達自己的不確定性,無法質(zhì)疑提示中的前提,或者繼續(xù)之前犯的錯誤。

語言模型代表一種知識圖譜,其中包含來自其自身網(wǎng)絡中訓練數(shù)據(jù)的事實,因此「微調(diào)」可以理解為學習一個函數(shù),該函數(shù)在該知識圖譜上運行并輸出 token 預測。

舉個例子,微調(diào)數(shù)據(jù)集可能包含「星球大戰(zhàn)屬于什么類型影片」這個問題,以及答案「科幻」。

如果這些信息已經(jīng)在原始訓練數(shù)據(jù)中,即它是知識圖譜的一部分,那么模型不會學習新信息,而是學習一種行為 —— 輸出正確答案。這種微調(diào)也被稱為「行為克隆」。

但是,如果答案不是原始訓練數(shù)據(jù)集的一部分(也不是知識圖譜的一部分),即使網(wǎng)絡不知道答案,它便會學習回答。

使用實際上正確但不在知識圖譜中的答案進行微調(diào),從而教會網(wǎng)絡編造答案 —— 即產(chǎn)生「幻覺」。相反,用不正確的答案進行訓練會導致網(wǎng)絡隱瞞信息。

網(wǎng)友激烈探討

「LLM 是一個造夢機」。多么美妙的一句話。如果我們?nèi)祟愐采钤诟呔S度創(chuàng)造者構造的夢境中,那么 LLM 將來是否也能遞歸地創(chuàng)造出做夢的機器?

另一位網(wǎng)友分享了他要求 ChatGPT 給自己的回復進行置信度評分時,ChatGPT 給了 90%,并且解釋了原因:

我在回復末尾提供的置信度是一個估計值,反映了根據(jù)我所掌握的上下文和信息,我認為回復與您的詢問的吻合程度。它不是通過精確的算法或公式計算出來的,而是根據(jù)問題的復雜性、所提供信息的清晰度以及我對所能獲取信息的準確性和相關性的編程進行的主觀評估。

其實對于幻覺的討論本質(zhì)上就是對于「真理」的討論,也許并沒有什么東西是絕對客觀的「真理」。

當所需數(shù)據(jù)已經(jīng)存可用時,并不總是需要搜索事實。然而,LLM 面臨的挑戰(zhàn)在于其學習過程,這通常涉及一種「破壞性」數(shù)據(jù)壓縮。解決這個問題 —— 減少數(shù)據(jù)丟失,不僅能緩解幻覺問題,還能減少對大量訓練數(shù)據(jù)集的需求。

事實上,我們的最終目標不僅僅是創(chuàng)造更多的 LLM,而是實現(xiàn)真正的智能。雖然 LLM 通過語言理解提供了一瞥,但它們的根本缺陷是學習過程損害了數(shù)據(jù)完整性。理想的架構應該是在學習過程中保留數(shù)據(jù),保持對原始信息的忠實,同時還能讓模型發(fā)展和完善其智能。我假設這樣的架構可能涉及復制數(shù)據(jù)而不是壓縮數(shù)據(jù)。

每個 LLM 都是一個不可靠的敘述者,就其架構的本質(zhì)而言,它是不可逆轉(zhuǎn)的。

對于大模型幻覺問題的解釋,你贊同 Karpathy 的看法嗎?

參考資料:

  • https://twitter.com/karpathy/status/1733299213503787018

  • https://twitter.com/DrJimFan/status/1733308471523627089

本文來自微信公眾號:新智元 (ID:AI_era)

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結果僅供參考,所有文章均包含本聲明。

總結

以上是生活随笔為你收集整理的OpenAI 科学家:幻觉是大模型与生俱来的特性,而非缺陷的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。