當前位置：首頁 > 编程资源 > 综合教程 >内容正文

综合教程

大模型靠“深呼吸”数学再涨 8 分！谷歌 DeepMind 发现 AI 自己设计提示词效果胜人类

發布時間：2024/6/21 综合教程 38 生活家

生活随笔收集整理的這篇文章主要介紹了大模型靠“深呼吸”数学再涨 8 分！谷歌 DeepMind 发现 AI 自己设计提示词效果胜人类小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

提示詞中加上“深呼吸”，AI 大模型數學成績就能再漲 8.4 分！

谷歌 DeepMind 團隊最新發現，用這個新“咒語”（Take a deep breath）結合大家已經熟悉的“一步一步地想”（Let’s think step by step），大模型在 GSM8K 數據集上的成績就從 71.8 提高到 80.2 分。

而且這個最有效的提示詞，是 AI 自己找出來的。

有網友開玩笑說，深呼吸以后，散熱風扇就轉速就提高了。

也有人表示，剛高薪入職的提示工程師們也應該深呼吸，工作可能干不久了

相關論文《大語言模型是優化器》，再次引起轟動。

具體來說，大模型自己設計的提示詞在 Big-Bench Hard 數據集上最高提升 50%。

也有人的關注點在“不同模型的最佳提示詞不一樣”。

并且不止提示詞設計這一個任務，在論文中還測試了大模型在線性回歸和旅行商問題這些經典優化任務上的能力。

優化問題無處不在，基于導數和梯度的算法是強大的工具，但現實應用中也經常遇到梯度不適用的情況。

為解決這個問題，團隊開發了新方法 OPRO，也就是通過提示詞優化（Optimization byPROmpting）。

不是形式化定義優化問題然后用程序求解，而是用自然語言描述優化問題，并要求大模型生成新的解決方案。

一圖流總結，就是對大模型的一種遞歸調用。

每一步優化中，以之前生成的解決方案和評分作為輸入，大模型生成新的方案并評分，再將其添加到提示詞中，供下一步優化使用。

論文主要使用谷歌的 PaLM 2 和 Bard 中的 text-bison 版本作為評測模型。

再加上 GPT-3.5 和 GPT-4，共 4 種模型作為優化器。

結果表明，不光不同模型設計出的提示詞風格不同，適用的提示詞風格也不同。

此前在 GPT 系列上的 AI 設計出的最優提示詞是“Let’s work this out in a step by step way to be sure we have the right answer.”

這個提示詞使用 APE 方法設計，論文發表在 ICLR 2023 上，在 GPT-3（text-davinci-002）上超過人類設計的版本“Let’s think step by step”。

但這次在谷歌系 PaLM 2 和 Bard 上，APE 版本作為基線就還不如人類版本。

OPRO 方法設計出來的新提示詞中，“深呼吸”和“拆解這個問題”對 PaLM 來說效果最好。

對 text-bison 版的 Bard 大模型來說，則更傾向于詳細的提示詞。

另外論文還展示了大模型在數學優化器上的潛力。

線性回歸作為連續優化問題的示例。

旅行商問題作為離散優化問題的示例。

僅僅通過提示，大模型就能找到不錯的解決方案，有時甚至匹敵或超過手動設計的啟發式算法。

但團隊也認為大模型還無法替代傳統基于梯度的優化算法，當問題規模較大（如節點數量較多的旅行商問題）時，OPRO 方法表現就不好。

對于未來改進方向，團隊提出當前大模型還無法有效利錯誤案例，僅提供錯誤案例無法讓大模型捕捉捕捉到錯誤的原因。

一個有前景的方向是結合關于錯誤案例的更豐富的反饋，并總結優化軌跡中高質量和低質量生成提示的關鍵特征差異。

這些信息可能幫助優化器模型更高效地改進過去生成的提示，并可能進一步減少提示優化所需的樣本數量。

論文來自谷歌與 DeepMind 合并后的部門，但作者以原谷歌大腦團隊為主，包括 Quoc Le、周登勇。

共同一作為康奈爾大學博士畢業的復旦校友 Chengrun Yang，和 UC 伯克利博士畢業的上交大校友陳昕昀。

團隊還在論文中給出了大量實驗中得到的最優提示詞，包括電影推薦、惡搞電影名字等實用場景，有需要的小伙伴可自取。

論文地址：

https://arxiv.org/abs/2309.03409

參考鏈接：

[1]https://x.com/emollick/status/1700207590607552740

廣告聲明：文內含有的對外跳轉鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節省甄選時間，結果僅供參考，所有文章均包含本聲明。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。