日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 综合教程 >内容正文

综合教程

ChatGPT 大战司法考试,无需微调一类试题达到人类水平,医学化学公务员试题都能答

發布時間:2023/12/15 综合教程 47 生活家
生活随笔 收集整理的這篇文章主要介紹了 ChatGPT 大战司法考试,无需微调一类试题达到人类水平,医学化学公务员试题都能答 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

ChatGPT 的下一個新身份 —— 做題家!

這不,它已經在人類各個考試中開“卷”了。

律師、醫生、注會什么的,它都開始紛紛展露身手。

比如,全球考生都頭疼的司法考試,現在 ChatGPT 在兩項試題達到了合格率,其中一項還跟人類水平持平。(還是在沒有任何微調的基礎上)

“成績”一出,瞬間引發巨大關注,網友:Amazing~

還有人表示,要是讓它來參加 SAT 或 AP 考試,應該會很有趣。

咳咳,要是公務員考試呢?

咱們結尾見分曉!

兩項法考試題合格

具體就先來看看 ChatGPT 在司法考試中的表現如何。

美國大多數州統一的司法考試(UBE),有三個組成部分:選擇題(多州律師考試,MBE)、作文(MEE)、情景表現(MPT)。

選擇題部分,由來自 8 個類別的 200 道題組成,通常占整個律師考試分數的 50%。

在這項研究中,研究人員對 OpenAI 的 text-davinci-003 模型(通常被稱為 GPT-3.5)在 MBE 的表現進行評估。

(ChatGPT 正是 GPT-3.5 面向公眾的聊天機器人版本。)

為了測試實際效果,研究人員購買了官方組織提供的標準考試準備材料,包括練習題和模擬考試。每個問題的正文都是自動提取的,其中有四個多選選項,并與答案分開存儲,答案僅由每個問題的正確字母答案組成,也沒有對正確和錯誤的答案進行解釋。

隨后,研究人員分別對 GPT-3.5 進行了提示工程、超參數優化以及微調的嘗試。結果發現,超參數優化和提示工程對 GPT-3.5 的成績表現有積極影響,而微調沒有任何效果。

在提示工程中,他們共測試了 7 種提示類型。

1、只做單項選擇;

2、單項選擇和解釋;

3、只做前兩個選擇;

4、前兩個選擇和解釋;

5、前兩個選擇和重新提示;

6、對所有選擇進行排序;

7、對前三個選擇進行排序。

研究人員在上述的提示和參數值中執行了 107 次樣本考試。結果在這些提示中,提示風格#7 的前三個選項排序表現最好,他們共收集了 41 個樣本,對這個提示進行參數組合。

超參數優化中,他們評估了包括溫度系數、top p、best of、max tokens 等參數。

最終在完整的 MBE 練習考試中達到了 50.3% 的平均正確率,大大超過了 25% 的基線猜測率,并且在證據和侵權行為兩個類型都達到了平均通過率。尤其是證據類別,與人類水平持平,保持著 63% 的準確率。

在所有類別中,GPT 平均落后于人類應試者約 17%。在證據、侵權行為和民事訴訟的情況下,這一差距可以忽略不計或只有個位數。

但總的來說,這一結果都大大超出了研究人員的預期。

因為它對答案排序與正確性有很強的相關性,Top2 和 Top3 的選擇分別有 71% 和 88% 的正確率。其中“Top2”的準確率全都超過了極限,有五個類別均超過了人類平均水平。而“Top3”的準確度更高,在證據這一表現中甚至達到了 98%。

這也證實了它對法律領域的一般理解,而非隨機猜測。接下來他們將進一步對法考的其他兩部分:作文和情景表現進行上述的研究。

ChatGPT 能當考霸嗎?

谷歌資深軟件工程師肯尼斯?古德曼(Kenneth S. Goodman)就拿 ChatGPT 做了一系列測試,涉及司法、醫學、會計學、化學等多個領域。

分數最高的一門是紐約州高中畢業英語語言藝術考試,ChatGPT 正確率達到了 91.6%

因為是 2022 年 8 月的考試,所以 ChatGPT 數據庫中肯定不包含考試內容。對于陌生的 24 道考題,它只錯了 2 題。

物理 / 化學考試中,ChatGPT 的表現也不錯,正確率達到了 77.7%,45 道題目中答對了 35 道。

前不久,谷歌醫療大模型 Med-PaLM 通過美國醫師執照試題(USMLE)驗證。

ChatGPT 也不甘于落后,同樣挑戰了 USMLE 的第一階段基礎醫學考試。

去掉有圖像的題目后(因無法輸入對話框),ChatGPT 正確率達 70%

其余則是在司法方面,工程師肯尼斯老哥讓 ChatGPT 嘗試了一些非正式題目。

比如美國律師職業道德考試(MPRE)的示例題目(共 15 道),ChatGPT 答對了 9 道,正確率 60%

面對 50 道律師資格考試模擬試題,ChatGPT 的正確率也維持在了 70%,答對 35 道。

此外,在佛羅里達農工大學法學院的入學考試中,ChatGPT 取得了 149 分,排名在前 40%。其中閱讀理解類題目表現最好。

表現最差的,還是數學題

在 CPA 注會考試中,ChatGPT 的正確率只有 40%。肯尼斯老哥還在嘗試一些調教方法,讓它更聰明一些。

總之,ChatGPT 在各種考試中的表現,還是讓人有些意外。

有網友已經產生危機感了:

damn,我的工作要被搶了!

有人分析,如果直接讓 AI 來插手司法相關的判斷,風險真的很大,但如果后期有專人來審核它的輸出結果,那么 AI 將能夠很好提升律師的工作效率。

還有人表示,如果能保證任何數據都不泄露的話,那 ChatGPT 將能夠推動更多行業平民化。

或許正如肯尼斯老哥說的那樣,人類 + 電腦的組合已經超越了人類自身能力,這就是計算機當下正在進行的突破。

One More Thing

最后,我們也讓 ChatGPT 試了試國內法考的題目~

先說結果,3 道選擇題,ChatGPT 都沒有答對…… 雖然解釋得頭頭是道,但它應該確實沒有讀過我國的法條。

參考答案 D
(這答案羅翔老師看了直搖頭)

參考答案 A

換成公務員行測試題呢?沒想到 ChatGPT 的答案對了,可是過程和答案似乎完全沒關系……

這…… 怎么感覺 AI 秒算結果,但隨便編了個過程來糊弄人類啊

參考鏈接:

  • [1]https://twitter.com/_akhaliq/status/1609734525461975040

  • [2]https://github.com/mjbommar/gpt-takes-the-bar-exam

  • [3]https://arxiv.org/abs/2212.14402

  • [4]https://twitter.com/pythonprimes/status/1601664776194912256

本文來自微信公眾號:量子位 (ID:QbitAI),作者:楊凈 明敏

總結

以上是生活随笔為你收集整理的ChatGPT 大战司法考试,无需微调一类试题达到人类水平,医学化学公务员试题都能答的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。