日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 综合教程 >内容正文

综合教程

姚期智领衔提出大模型「思维」框架!逻辑推理正确率达 98%,思考方式更像人类了

發布時間:2023/12/3 综合教程 37 生活家
生活随笔 收集整理的這篇文章主要介紹了 姚期智领衔提出大模型「思维」框架!逻辑推理正确率达 98%,思考方式更像人类了 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

圖靈獎得主姚期智領銜的首篇大語言模型論文來了!

一出手,瞄準的就是“讓大模型像人一樣思考”這個方向 ——

不僅要讓大模型一步步推理,還要讓它們學會“步步為營”,記住推理中間的所有正確過程。

具體來說,這篇新論文提出了一種叫做累積推理(Cumulative Reasoning)的新方法,顯著提高了大模型搞復雜推理的能力。

要知道,大模型基于思維鏈等,可以進行問題推理,但面對“要拐好幾個彎”的問題,還是容易出錯。

累積推理正是在此基礎上,加入了一個“驗證者”,及時判斷對錯。由此模型的思考框架也從鏈狀和樹狀,變成了更復雜的“有向無環圖”。

這樣一來,大模型不僅解題思路更清晰,還生出了一手“玩牌”的技巧:

在代數和幾何數論等數學難題上,大模型的相對準確率提升了 42%;玩 24 點,成功率更是飆升到 98%。

據清華大學交叉信息研究院介紹,共同一作張伊凡解釋了這篇論文的出發點:

卡尼曼認為人類的認知處理過程包括兩個系統:“系統 1”是快速、本能和情感化的,“系統 2”是緩慢、深思熟慮、合邏輯的。

目前,大語言模型的表現與“系統 1”更為接近,這也或許是它不擅長應對復雜任務的原因。

從這個角度出發設計的累積推理,效果比思維鏈(CoT)和思維樹(ToT)更好。那么,這種新方法究竟長啥樣?我們一起展開看看。

突破思維鏈 & 樹“瓶頸”

累積推理的核心,在于改進了大模型思維過程的“形狀”。

具體來說,這個方法用到了 3 個大語言模型:

  • 提議者(Proposer):不斷提出新命題,即基于當前思維上下文,建議下一步是什么。

  • 驗證者(Verifier):核查提議者的命題準確性,如果正確就將它添加到思維上下文中。

  • 報告者(Reporter):判斷是否已經能得到最終解決方案,來確定是否結束推理過程。

推理過程中,“提議者”先給出提案,“驗證者”負責評估,“報告者”決定是否要敲定答案、終止思考過程。

▲CR 推理示例

有點像是團隊項目里的三類角色:小組成員先頭腦風暴出各種 idea,指導老師“把關”看哪個 idea 可行,組長決策什么時候完成項目。

所以,這種方法究竟是怎么改變大模型思維“形狀”的?

要想理解這一點,還得先從大模型思維加強方法“鼻祖”思維鏈(Chain of Thought,CoT)說起。

這個方法在 2022 年 1 月由 OpenAI 科學家 Jason Wei 等人提出,核心在于給數據集中的輸入加一段“逐步推理”文字,激發出大模型的思考能力。

▲選自 GSM8K 數據集

基于思維鏈原理,谷歌也快速跟進了一個“思維鏈 PLUS 版”,即 CoT-SC,主要是進行多次思維鏈過程,并對答案進行多數投票(majority vote)選出最佳答案,進一步提升推理準確率。

但無論思維鏈還是 CoT-SC,都忽略了一個問題:題目不止有一種解法,人類做題更是如此。

因此,隨后又出現了一種名叫思維樹(Tree of Thought,ToT)的新研究。

這是一種樹狀檢索方案,允許模型嘗試多種不同的推理思路,并自我評估、選擇下一步行動方案,必要時也可以回溯選擇。

從方法中可以看出,思維樹比思維鏈更進一步,讓大模型思維“更活躍”了。這也是為什么玩 24 點時,思維鏈加成的 GPT-4 成功率只有 4%,但思維樹成功率卻飆升到 74%。

BUT 無論思維鏈、CoT-SC 還是思維樹,都有一個共同的局限性:

它們都沒有設置思維過程中間結果的儲存位置。

畢竟不是所有的思維過程都能做成鏈或者樹,人類想東西的方式往往還要更復雜。

這次的累積推理新框架,在設計上就突破了這一點 ——

大模型的整體思維過程不一定是鏈或樹,還可以是一個有向無環圖(DAG)!(嗯,有神經突觸內味了)

▲圖中的邊都有方向,并且不存在任何循環路徑;每個有向邊是一個推導步驟

這也就意味著,它可以將所有歷史上正確的推理結果存儲于內存中,以便在當前搜索分支中探索。(相比之下,思維樹并不會存儲來自其它分支的信息)

但累積推理也能和思維鏈無縫切換 —— 只要將“驗證者”去掉,就是一個標準的思維鏈模式。

基于這種方法設計的累積推理,在各種方法上都取得了不錯的效果。

做數學和搞邏輯推理都在行

研究人員選擇了 FOLIO wiki 和 AutoTNLI、24 點游戲、MATH 數據集,來對累積推理進行“測試”。

提議者、驗證者、報告者在每次實驗中使用相同的大語言模型,用不同的 prompt 來設定角色。

這里用作實驗的有 GPT-3.5-turbo、GPT-4、LLaMA-13B、LLaMA-65B 這些基礎模型。

值得一提的是,理想情況下應該使用相關推導任務數據專門預訓練模型、“驗證者”也應加入正規的數學證明器、命題邏輯求解器模塊等。

1、邏輯推理能力

FOLIO 是一階邏輯推理數據集,問題的標簽可以是“true”、“False”、“Unknown”;AutoTNLI 是高階邏輯推理數據集。

在 FOLIO wiki 數據集上,與直接輸出結果(Direct)、思維鏈(CoT)、進階版思維鏈(CoT-SC)方法相比,累積推理(CR)表現總是最優。

在刪除數據集中有問題的實例(比如答案不正確)后,使用 CR 方法的 GPT-4 推理準確率達到了 98.04%,并且有最小 1.96% 的錯誤率。

再來看 AutoTNLI 數據集上的表現:

與 CoT 方法相比,CR 顯著提高了 LLaMA-13B、LLaMA-65B 的性能。

在 LLaMA-65B 模型上,CR 相較于 CoT 的改進達到了 9.3%。

2、玩 24 點游戲能力

ToT 最初論文中用到的是 24 點游戲,所以這里研究人員就用此數據集來做 CR 和 ToT 的比較。

ToT 使用固定寬度和深度的搜索樹,CR 允許大模型自主確定搜索深度。

研究人員在實驗中發現,在 24 點的上下文中,CR 算法和 ToT 算法非常相似。不同點在于,CR 中算法每次迭代最多產生一個新的狀態,而 ToT 在每次迭代中會產生許多候選狀態,并過濾、保留一部分狀態。

通俗來講,ToT 沒有上面提到的 CR 有的“驗證者”,不能判斷狀態(a、b、c)正誤,因此 ToT 比 CR 會探索更多無效狀態。

最終 CR 方法的正確率甚至能達到 98%(ToT 為 74%),且平均訪問狀態數量要比 ToT 少很多。

也就是說 CR 不僅有更高的搜索正確率,也有更高的搜索效率。

3、數學能力

MATH 數據集包含了大量數學推理題目,包含代數、幾何、數論等,題目難度分為五級。

用 CR 方法,模型可以將題目分步驟拆解成能較好完成的子問題,自問自答,直到產生答案。

實驗結果表明,CR 在兩種不同的實驗設定下,正確率均超出當前已有方法,總體正確率可達 58%,并在 Level 5 的難題中實現了 42% 的相對準確率提升,拿下了 GPT-4 模型下的新 SOTA。

清華叉院姚期智、袁洋領銜研究

這篇論文來自清華交叉信息院姚期智和袁洋領銜的 AI for Math 課題組。

論文共同第一作者為交叉信息院 2021 級博士生張伊凡、楊景欽;

指導老師及共同通訊作者為袁洋助理教授、姚期智院士。

張伊凡

張伊凡 2021 年本科畢業于北京大學元培學院,現師從袁洋助理教授,主要研究方向為基礎模型(大語言模型)的理論和算法、自監督學習、可信人工智能。

楊景欽

楊景欽 2021 年于清華大學交叉信息研究院獲學士學位,現師從袁洋助理教授攻讀博士學位。主要研究方向有大語言模型、自監督學習、智能醫療等。

袁洋

袁洋是清華大學交叉信息學院助理教授。2012 年畢業于北京大學計算機系;2018 年獲美國康奈爾大學計算機博士學位;2018-2019 年前往麻省理工學院大數據科學學院做博士后。

他的主要研究方向是智能醫療、AI 基礎理論、應用范疇論等。

姚期智

姚期智是中國科學院院士、清華大學交叉信息研究院院長;同時也是“圖靈獎”創立以來首位獲獎的亞裔學者、迄今為止獲此殊榮的唯一華人計算機科學家。

姚期智教授 2004 年從普林斯頓辭去終身教職回到清華任教;2005 年為清華本科生創立了計算機科學實驗班“姚班”;2011 年創建“清華量子信息中心”與“交叉信息研究院”;2019 年再為清華本科生創立了人工智能學堂班,簡稱“智班”。

如今,他領導的清華大學交叉信息研究院早已聲名遠播,姚班、智班都隸屬交叉信息院。

姚期智教授研究方向有算法、密碼學、量子計算等,是這方面的國際先驅和權威。最近,他現身 2023 世界人工智能大會,所領導的上海期智研究院目前正在研究“具身通用人工智能”。

論文鏈接:

  • https://arxiv.org/abs/2308.04371

廣告聲明:文內含有的對外跳轉鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節省甄選時間,結果僅供參考,所有文章均包含本聲明。

總結

以上是生活随笔為你收集整理的姚期智领衔提出大模型「思维」框架!逻辑推理正确率达 98%,思考方式更像人类了的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。