當前位置：首頁 > 运维知识 > windows >内容正文

windows

微软推出 “从错误中学习” 模型训练法，号称可“模仿人类学习过程，改善 AI 推理能力”

發布時間：2023/11/7 windows 50 传统文化

生活随笔收集整理的這篇文章主要介紹了微软推出 “从错误中学习” 模型训练法，号称可“模仿人类学习过程，改善 AI 推理能力” 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

11 月 7 日消息，微軟亞洲研究院聯合北京大學、西安交通大學等高校，提出了一項名為“從錯誤中學習（Learning from Mistake，LeMA）”的 AI 訓練方法，號稱可以通過模仿人類學習知識的過程，來改進 AI 推理能力。

當下 OpenAI GPT-4 和谷歌 aLM-2 等大語言模型在自然語言處理（NLP）任務，及思維鏈（chain-of-thought，CoT）推理的數學難題任務中都有不錯的表現。

但例如 LLaMA-2 及 Baichuan-2 等開源大模型，在處理相關問題時則有待加強。為了提升開源這些大語言模型的思維鏈推理能力，研究團隊提出了 LeMA 方法。這種方法主要是模仿人類的學習過程，通過“從錯誤中學習”，以改進模型的推理能力。

▲ 圖源相關論文

發現，研究人員的方法是使用一對包含“錯誤解答”與“修正后正確答案”的數據來微調相關模型。為取得相關數據，研究人員收集了 5 個不同大語言模型（包括 LLaMA 及 GPT 系列）的錯誤答案和推理過程，再以 GPT-4 作為“訂正者”，提供修正后的正確答案。

據悉，修正后的正確答案中包含三類信息，分別是原推理過程中錯誤片段、原推理過程出錯的原因、以及如何修正原方法以獲得正確答案。

研究人員采用 GSM8K 及 MATH，來測試 LeMa 訓練法對 5 個開源大模型的效果，結果顯示，以改進過的 LLaMA-2-70B 為例，在 GSM8K 的準確率分別為 83.5% 及 81.4%，在 MATH 則分別為 25.0% 及 23.6%。

目前研究人員已將 LeMA 的相關資料公開在 GitHub 上，感興趣的小伙伴們可以點此跳轉。

廣告聲明：文內含有的對外跳轉鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節省甄選時間，結果僅供參考，所有文章均包含本聲明。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。