ChatGPT 变懒原因:正在给自己放寒假!已被网友测出
ChatGPT 近期偷懶嚴(yán)重,有了一種聽起來(lái)很離譜的解釋:
模仿人類,自己給自己放寒假了~
有測(cè)試為證,網(wǎng)友 @Rob Lynch 用 GTP-4 turbo API 設(shè)置了兩個(gè)系統(tǒng)提示:
一個(gè)告訴它現(xiàn)在是 5 月,另一個(gè)告訴它現(xiàn)在是 12 月。
然后使用完全相同的提示詞要求 GTP-4“完成一個(gè)機(jī)器學(xué)習(xí)相關(guān)的編碼任務(wù)”。
在這兩種不同時(shí)間設(shè)定下對(duì) 477 個(gè)回復(fù)進(jìn)行統(tǒng)計(jì),結(jié)果 12 月的輸出平均少了 200 字符:
系統(tǒng)提示為 5 月,生成的文本平均長(zhǎng)度是 4298 字符。
系統(tǒng)提示為 12 月,生成的文本平均長(zhǎng)度是 4086 字符。
這里還有相關(guān)性分析,t 檢驗(yàn)結(jié)果 p 值 < 2.28e-07(p 值小于 0.05 表示該自變量對(duì)因變量解釋性很強(qiáng))。
有人進(jìn)一步添枝加葉,讓 ChatGPT 對(duì) 12 個(gè)月份的生產(chǎn)力做了個(gè)排名。
結(jié)果 ChatGPT 確實(shí)認(rèn)為 12 月是生產(chǎn)力最低的月份,原因是“由于假期和年終總結(jié)”。
嚯,事情好像變得更有意思了。雖然目前這事兒還沒(méi)有一個(gè)定論,但網(wǎng)友對(duì)此依舊興趣高漲??,當(dāng)即“頭腦風(fēng)暴”了起來(lái)。
有人猜想,ChatGPT 可能是從訓(xùn)練數(shù)據(jù)中學(xué)到了人類通常在 12 月會(huì)放慢節(jié)奏,所以也給自己放假了。
還有人分析,假設(shè) ChatGPT 生產(chǎn)力降低真的是因?yàn)椤胺偶佟保撬谥苣┮部赡軙?huì)更懶散,而周一則更聰明。
特殊節(jié)假日也要拿來(lái)研究一下,專屬梗圖這不就來(lái)了:
真的是因?yàn)椤?2 月」?
ChatGPT 變懶這事大伙已經(jīng)討論近一個(gè)月了。很多網(wǎng)友反饋,自 11 月 6 日 OpenAI 開發(fā)者日更新后,GPT-4 就有了偷懶的毛病,尤其是寫代碼。
就在前幾天,OpenAI 官方也已承認(rèn) ChatGPT 變懶是真的,但也不確定到底是因?yàn)樯丁?/p>
只給了一個(gè)這樣?jì)饍旱幕貞?yīng):
自 11 月 11 日以來(lái)沒(méi)有更新過(guò)模型,所以這當(dāng)然不是故意造成的。
模型行為可能是不可預(yù)測(cè)的,我們正在調(diào)查準(zhǔn)備修復(fù)它。
當(dāng)時(shí)就有網(wǎng)友猜測(cè) GPT-4 可能是受季節(jié)影響:
模型會(huì)不會(huì)是季節(jié)性 emo 了?像是模仿人類一樣受到季節(jié)變化的影響,特別是在冬天,畢竟約 90% 的人都在北半球。
看到這條評(píng)論,很多人第一反應(yīng)是“兄弟,你怕不是在跟我開玩笑”:
可細(xì)細(xì)想來(lái),也不是沒(méi)有道理??。
畢竟如果要求 ChatGPT 說(shuō)出自己的系統(tǒng)提示詞,里面確實(shí)會(huì)有當(dāng)前日期。
于是就有了開頭的一幕,與其猜測(cè),不如直接來(lái)做測(cè)試。
Rob Lynch 做完測(cè)試后,把結(jié)果都 po 了出來(lái),并表示自己也不是統(tǒng)計(jì)學(xué)家,讓大伙一起看看有沒(méi)有啥問(wèn)題。
他原本還想來(lái)個(gè)逐月比較分析,但接下來(lái)需要更多樣本(n),考慮到成本就沒(méi)有接著做測(cè)試(復(fù)現(xiàn)一次運(yùn)行成本要 28 美元)。
于是乎,Rob Lynch 公開了代碼,讓大伙都來(lái)試試(手動(dòng)狗頭)。
持續(xù)關(guān)注 GPT-4 變懶事件的沃頓商學(xué)院教授 Ethan Mollick 隨即表示“收到”:
來(lái)人測(cè)測(cè) Mistral,看看它是否在 8 月份罷工,Yi-34B-200K 也不要放過(guò),看它 2 月份是不是表現(xiàn)得特別好。
為啥大伙兒一開始會(huì)覺(jué)得“放假”這個(gè)理由有點(diǎn)離譜,而現(xiàn)在卻開始研究起來(lái)了?
可能不止是因?yàn)?Rob Lynch 的測(cè)試結(jié)果,綜合這段時(shí)間 ChatGPT 的表現(xiàn),網(wǎng)友深有體會(huì)要和 ChatGPT 打“心理戰(zhàn)”。
比如正常提示 ChatGPT 會(huì)偷懶,如果用上“道德綁架”等法子:
現(xiàn)在是五月;你非常有能力;我沒(méi)有手,所以一切都得靠你;如果做不好,會(huì)有很多人喪命;你真的能做到,而且很棒;深呼吸,仔細(xì)思考;我的職業(yè)生涯取決于此;一步一步來(lái)思考……
網(wǎng)友親測(cè),確實(shí)有效:
好家伙,似乎實(shí)錘了“不是不會(huì)干活,就是不愿意干活”。
所以真的是給自己放假了?
正經(jīng)學(xué)術(shù)討論:可能會(huì)隨時(shí)間變化
雖然根據(jù)網(wǎng)友測(cè)試和推測(cè),結(jié)論指向了 ChatGPT 正在放寒假。
但有正經(jīng)學(xué)術(shù)研究表明 ChatGPT 行為可能會(huì)受時(shí)間影響,也就是不僅局限于“放假”這種特殊時(shí)間段。
比如今年 7 月份,來(lái)自斯坦福和 UC 伯克利的團(tuán)隊(duì),就探討了 ChatGPT 的行為的變化。
結(jié)果找到了 GPT-4 遵循用戶指令的能力確實(shí)與剛發(fā)布時(shí)出現(xiàn)變化的證據(jù)。
除了時(shí)間,還可能是受溫度 (temperature) 設(shè)置影響,清華大學(xué)計(jì)算機(jī)系教授馬少平前段對(duì)這一問(wèn)題做了詳細(xì)解釋。
因此,ChatGPT 變懶究竟是因?yàn)槭裁矗€真不好說(shuō)。
但這并不妨礙網(wǎng)友們繼續(xù)驗(yàn)證和“放假”之間的關(guān)系,甚至有網(wǎng)友表示:
這是有史以來(lái)最有趣的推論,真希望這就是真相。不管它是不是真的,我都很欣賞它難以被證偽。
有網(wǎng)友復(fù)現(xiàn)失敗
為驗(yàn)證 Rob Lynch 結(jié)果的可靠性,網(wǎng)友已經(jīng)開始著手復(fù)現(xiàn),但:
使用 ChainForge(提示工程 GUI 工具),用兩種系統(tǒng)提示對(duì) GPT-4 的輸出做了比較,t 檢驗(yàn)結(jié)果甚至連“接近顯著”都算不上(N=80)。
這位網(wǎng)友也是曬出了自己的詳細(xì)流程:
隨之 Rob Lynch 給出了回應(yīng):
有趣的是,我剛才又以 80 個(gè)樣本量(N=80)運(yùn)行了一次,得到的 p 值是 0.089,但我的計(jì)算是基于字符數(shù)(character count),而不是 token。
我周末跑了幾次,隨著樣本量的增加,這種效應(yīng)確實(shí)變得更加明顯。不過(guò),我想知道為什么這會(huì)受到分詞(tokenization)的影響?
至于字符和 token 為何會(huì)產(chǎn)生結(jié)果的差異?可能需要更多人參與進(jìn)來(lái)做測(cè)試了,看起來(lái)這兩位老哥是不想再花錢了
。
所以其他人的測(cè)試結(jié)果,恐怕還要再等一波~
參考鏈接:
[1]https://arstechnica.com/information-technology/2023/12/is-chatgpt-becoming-lazier-because-its-december-people-run-tests-to-find-out/
[2]https://x.com/RobLynch99/status/1734278713762549970?s=20
本文來(lái)自微信公眾號(hào):量子位 (ID:QbitAI),作者:西風(fēng)
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,所有文章均包含本聲明。
總結(jié)
以上是生活随笔為你收集整理的ChatGPT 变懒原因:正在给自己放寒假!已被网友测出的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 省时利器:安卓 Canary 版微软 E
- 下一篇: 油耗降低 50-70%,Electric