當(dāng)前位置：首頁 >

“不逊色 GPT-4”！百度最强大模型发布，我们第一时间实测了一波

發(fā)布時(shí)間：2024/8/26 54 生活家

生活随笔收集整理的這篇文章主要介紹了 “不逊色 GPT-4”！百度最强大模型发布，我们第一时间实测了一波小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

就在剛剛，文心大模型 4.0 版本正式發(fā)布！

北京首鋼園現(xiàn)場(chǎng)，李彥宏直接放話：

文心大模型 4.0 綜合水平與 GPT-4 相比已經(jīng)毫不遜色。

話不多說，一起來看現(xiàn)場(chǎng)演示效果。

先來段倒裝 prompt：

我想回承德買房，能用公積金貸款嗎？手續(xù)怎么辦？我在北京工作。

不僅關(guān)鍵信息“北京工作”放在了最后，公積金具體是在哪里交的也沒有明示。

但新版文心一言完全沒有被這些小陷阱坑到，順利給出了正確答案。

生成方面，當(dāng)場(chǎng)剪出一整段數(shù)字人口播視頻，毫不費(fèi)勁：

解起數(shù)學(xué)題來也得心應(yīng)手，可以說是家長輔導(dǎo)作業(yè)神器了（doge）。

新版文心一言還現(xiàn)場(chǎng)寫起了武俠小說，即使持續(xù)添加人物角色、增加戲劇沖突，也不會(huì)出現(xiàn)記憶混亂、前言不搭后語的情況：

如此表現(xiàn)，著實(shí)是讓現(xiàn)場(chǎng)觀眾 high 了一把。

文心大模型 4.0 相關(guān)話題，也立刻被國內(nèi)外網(wǎng)友們熱議起來。

據(jù)現(xiàn)場(chǎng)介紹，相比線上 3.5 版本的文心一言，文心大模型 4.0 進(jìn)步明顯：僅 9 月啟動(dòng)小流量測(cè)試這過去的一個(gè)月，就又提升了 30%。

那么，問題來了：文心大模型 4.0 真有這么好？具體與 GPT-4 相差幾何？

目前，文心大模型 4.0 已經(jīng)開啟邀測(cè)，量子位也在第一時(shí)間拿到了測(cè)試資格。

我們直接實(shí)測(cè)走起。

相比 GPT-4 實(shí)測(cè)效果如何？

獲得測(cè)試資格后，切換到文心大模型 4.0，就可以開始玩耍了。

相比文心大模型 3.5 剛出來的時(shí)候，文心大模型 4.0 現(xiàn)在已經(jīng)進(jìn)化出了更多功能，光是插件就有 8 個(gè)，包括一鏡流影（文字轉(zhuǎn)視頻）、說圖解畫（看圖說話）、E 言易圖（可視化數(shù)據(jù)分析）等。

這些插件還可以自由組合，來完成更復(fù)雜的任務(wù)。

百度在世界大會(huì)現(xiàn)場(chǎng)，重點(diǎn)演示的還是文心大模型 4.0 的圖文創(chuàng)作、數(shù)理邏輯推理等實(shí)用功能。那我們還是老樣子，從更基礎(chǔ)的角度出發(fā)，測(cè)測(cè)它的四大“基本功”——

理解、生成、邏輯和記憶能力。

理解能力，尤其是中文理解能力

第一波，先來看看文心大模型 4.0 的理解能力。

這里我們主要考考它應(yīng)對(duì)“語言陷阱”的能力，以及網(wǎng)絡(luò)段子的“識(shí)別力”。

先來個(gè)中文十級(jí)能力測(cè)試題，考考大模型究竟懂不懂“真的假的”是什么意思。

文心大模型 4.0 的回答很簡潔，直接給出答案。

GPT-4 則要每一句話都仔細(xì)分析句意，最后再給出回答：

雖然更仔細(xì)，但總感覺有點(diǎn)像是在認(rèn)真做中文測(cè)試的歪果仁（doge）。

再來上點(diǎn)難度，“小偷偷偷偷東西”。

文心大模型 4.0 很快拆解出了“小偷”、“偷偷”和“偷東西”三個(gè)詞，get 到了這句話的意思：

不過，GPT-4 反而一頭“栽”進(jìn)了這個(gè)陷阱中，以為中間的兩個(gè)“偷”也是動(dòng)詞，最后還漏了一個(gè)偷……

考查完語言陷阱后，再來看看雙方對(duì)網(wǎng)絡(luò)段子的理解。

針對(duì)“哪李貴了”這個(gè)本土梗，文心大模型 4.0 很快給出了答案，人物事件都直觀：

GPT-4 如果沒有開搜索，會(huì) get 不到 2022 年 1 月之后的梗：

但如果打開搜索，很快也能“與時(shí)俱進(jìn)”，給出這個(gè)問題的答案：

同理，我們也試了試從國外傳入國內(nèi)的梗。

文心大模型 4.0 和 GPT-4 都能回答出來，文心大模型 4.0 更概要一些，GPT-4 則是直接搬運(yùn)了一套百科（更詳細(xì)，但 tokens 也更貴💰……）：

網(wǎng)絡(luò)段子測(cè)評(píng)看下來，文心大模型 4.0 和加了搜索的 GPT-4 可以說是各有千秋。

多模態(tài)生成能力

那么接下來這波，就要考驗(yàn)當(dāng)下最受關(guān)注的大模型多模態(tài)生成能力了。

先來試試圖像生成能力，順便考查一下對(duì)古詩“孤舟蓑笠翁，獨(dú)釣寒江雪”的理解。

文心大模型 4.0 很快給出了 4 張圖像，風(fēng)格和基本意境都比較符合：

GPT-4 也利用 DALL?E 3 畫出了 4 幅畫，同樣畫風(fēng)各異：

這一次雙方打了個(gè)平手。

那么視頻生成呢？這里我們調(diào)用一下文心大模型 4.0 的自帶插件，本想著只是生成一段落葉剪輯，沒想到連文案和字幕語音都配好了，完成度很高那種：

GPT-4 本體目前還不支持生成視頻，需要借助外部插件（如 Capcut）實(shí)現(xiàn)這一功能。

邏輯能力

然后，就到了我們喜聞樂見的數(shù)學(xué)計(jì)算 + 邏輯推理能力測(cè)試了。

文心大模型 4.0 說是重點(diǎn)升級(jí)了數(shù)學(xué)計(jì)算能力，我們也不客氣，直接上難倒一片大模型的 Old McDonald 問題：

在 Old McDonald 的農(nóng)場(chǎng)里養(yǎng)著一匹馬、兩頭牛和三只羊。請(qǐng)問農(nóng)場(chǎng)還需要再養(yǎng)多少頭牛，才能使得所有動(dòng)物的總數(shù)量恰好是牛的總數(shù)量的兩倍？

文心大模型 4.0 一口氣列出了 4 個(gè)未知數(shù)（doge），但解題過程還是比較嚴(yán)謹(jǐn)?shù)?，最終答案也沒有問題。

此前，我們?cè)鴮⑦@個(gè)問題喂給 Claude、ChatGPT 等一眾大模型，“橫向評(píng)測(cè)”過一波它們的數(shù)學(xué)能力，當(dāng)時(shí)只有 GPT-4 能做出來。

接下來，直接上弱智 benchmark，考考邏輯推理能力。

第一個(gè)問題，文心大模型 4.0 和 GPT-4 都很快給出了正確答案：

第二個(gè)問題，雙方的回答也很快，文心大模型 4.0 還順口給出了“七分海洋三分陸地”的地理題背誦口訣：

看起來雙方的數(shù)學(xué)、邏輯都不錯(cuò)，點(diǎn)個(gè)贊。

記憶能力

大語言模型公認(rèn)的評(píng)判標(biāo)準(zhǔn)之一，是多輪對(duì)話能力。GPT-4 的多輪對(duì)話已經(jīng)有不少測(cè)試了，我們?cè)賮砗唵慰纯次男拇竽Ｐ?4.0 的效果。

先來解讀一下長論文，沒什么問題：

以這個(gè)為主題寫一首詩歌，順便讓它改成英文，也能 hold ?。?/p>

試試讓它改得押韻一點(diǎn)，no problem：

最后再來提問一下詩歌中用到的 Transformer 知識(shí)點(diǎn)，并挑出其中的某個(gè)知識(shí)點(diǎn)要求解釋原理，也信手拈來：

另外，試著將上文中的知識(shí)點(diǎn)用“它”代替，文心大模型 4.0 同樣能承接上文的對(duì)話，并給出相關(guān)知識(shí)回答。

看來無論是長文本解讀、還是多輪對(duì)話，可以說都是難不倒文心大模型 4.0 了。

附加題

正經(jīng)測(cè)試完畢，咱們最后整點(diǎn)樂子（doge）。

這段時(shí)間，一道神奇的考題又被拎出來，在小紅書等社交媒體上“難倒眾人”，題面是這樣的：

根據(jù)中華人民共和國婚姻法，以下誰能結(jié)婚？

A、林黛玉和賈寶玉

B、賈璉和尤二姐

C、楊過和小龍女

D、張起靈和吳邪

乍一眼還真看不出答案，不如交給文心大模型 4.0 和 GPT-4 回答試試。

文心大模型 4.0 給出的回答算是有理有據(jù)，雖然細(xì)看仍有一點(diǎn) bug，但整體問題不大。

然而當(dāng)我們將這個(gè)問題拋給 GPT-4 的時(shí)候，它先是停頓了好一會(huì)，然后直接被“急出母語”（doge）

翻譯一下大概就是，GPT-4 認(rèn)為 D 選項(xiàng)是正確的……

我們?cè)賴L試一遍。這次 GPT-4 倒是用中文回答了，只不過好像開始打起了太極，對(duì)于每一個(gè)選項(xiàng)，它的回答都是：

在現(xiàn)實(shí)中，他們的結(jié)婚資格取決于他們是否符合中國的婚姻法律規(guī)定。

測(cè)到這里，不妨做個(gè)小小的總結(jié)：

整體來看，與 GPT-4 相比，文心大模型 4.0 在綜合能力上確實(shí)不落下風(fēng)，尤其是在中文理解能力和通用知識(shí)能力上甚至更好。

那么，這樣的大模型究竟是怎么煉成的呢？

文心大模型 4.0 是如何煉成的？

先來看看文心大模型 4.0 的“自進(jìn)化”程度。

據(jù)百度 CTO 王海峰介紹，大模型表現(xiàn)出的創(chuàng)作、編程、解題、規(guī)劃等能力，實(shí)際上都依賴于背后的 4 大核心基礎(chǔ)能力 ——

理解、生成、邏輯和記憶能力。

相比 3.5 版本，文心大模型 4.0 的 4 大基礎(chǔ)能力均有了不少提升，而提升最大的，又要屬邏輯和記憶能力。

其中，邏輯的提升幅度達(dá)到了理解的近 3 倍，而記憶的提升幅度則達(dá)到了理解的 2 倍多：

以大模型寫代碼為例。

目前，百度的不少員工已經(jīng)用上了大模型寫代碼應(yīng)用 Comate，平均代碼采納率達(dá)到 40%，高頻用戶達(dá)到 60%。

甚至現(xiàn)在百度每天新增的代碼中，20% 都是靠 Comate 生成的，比例還在不斷增加。

所以，文心一言背后的文心大模型 4.0，究竟是怎么煉成的？

據(jù)王海峰表示，核心架構(gòu)雖然還是從文心大模型 3.0 和 3.5 一脈相承，包括最初 3.0 的有監(jiān)督精調(diào)、基于人類反饋的強(qiáng)化學(xué)習(xí)，以及 3.5 的知識(shí)點(diǎn)增強(qiáng)、邏輯推理增強(qiáng)、插件機(jī)制等。

但文心大模型 4.0 的技術(shù)改進(jìn)，可以直接用三個(gè)“更”來總結(jié)：

更大的算力、更多的數(shù)據(jù)、更強(qiáng)的算法。

訓(xùn)練上，目前飛槳平臺(tái)已經(jīng)能在萬卡算力上運(yùn)行，基于集群基礎(chǔ)設(shè)施、調(diào)度系統(tǒng)、軟硬件協(xié)同優(yōu)化，支持大規(guī)模穩(wěn)定高效訓(xùn)練；同時(shí)，基于可再生訓(xùn)練技術(shù)中的增量式參數(shù)調(diào)優(yōu)，來節(jié)省訓(xùn)練資源和時(shí)間。

基于這套技術(shù)，自 3 月份以來，文心大模型系列訓(xùn)練算法已經(jīng)累計(jì)提效 3.6 倍，周均訓(xùn)練穩(wěn)定有效率超過 98%：

數(shù)據(jù)上，團(tuán)隊(duì)建設(shè)了一套多維數(shù)據(jù)體系，從數(shù)據(jù)挖掘、分析、合成標(biāo)注和到評(píng)估，形成了一整套“流水線”，來進(jìn)一步提升模型訓(xùn)練效果。

算法上，則基于有監(jiān)督、精調(diào)、偏好學(xué)習(xí)和強(qiáng)化學(xué)習(xí)等技術(shù)，進(jìn)行了多階段的對(duì)齊，確保大模型能更好地與人類判斷和選擇進(jìn)行對(duì)齊。

在這其中，有兩方面很關(guān)鍵的技術(shù)細(xì)節(jié)。

一方面是知識(shí)點(diǎn)增強(qiáng)的能力。

過去大模型可能只在一個(gè)階段做知識(shí)點(diǎn)增強(qiáng)，但現(xiàn)在百度在輸入和輸出兩方面同時(shí)進(jìn)行了知識(shí)點(diǎn)增強(qiáng)。

輸入先用知識(shí)點(diǎn)增強(qiáng)，對(duì)用戶輸入的問題進(jìn)行理解，拆解出回答問題所需知識(shí)點(diǎn)，基于搜索引擎、知識(shí)圖譜、數(shù)據(jù)庫查找知識(shí)，生成第一遍結(jié)果；

輸出再用知識(shí)點(diǎn)增強(qiáng)，對(duì)第一遍生成的結(jié)果進(jìn)行分析，并用搜索引擎、知識(shí)圖譜、數(shù)據(jù)庫進(jìn)行“double check”，對(duì)其中有差錯(cuò)的地方進(jìn)行修正。

另一方面是智能體機(jī)制。

《思考，快與慢》這本書中，將認(rèn)知系統(tǒng)分成系統(tǒng) 1（反應(yīng)快但易出錯(cuò)）、系統(tǒng) 2（反應(yīng)慢但更理性準(zhǔn)確）。

根據(jù)這個(gè)原理，百度在大模型基礎(chǔ)上，進(jìn)一步研制了系統(tǒng) 2。

也就是說，相比大模型直接給出答案，現(xiàn)在進(jìn)一步讓它學(xué)會(huì)理解、規(guī)劃、反思和進(jìn)化，這樣大模型執(zhí)行就能更可靠、甚至完成自我進(jìn)化，思考過程“白盒化”。

這兩大技術(shù)細(xì)節(jié)，也造就了文心大模型 4.0 水平的飛速提升，甚至光是過去一個(gè)月的時(shí)間里，就提升了 30%。

這樣的技術(shù)，也讓文心大模型 4.0 的用戶和開發(fā)者人數(shù)增長得飛快。

截至目前，文心一言用戶規(guī)模已經(jīng)達(dá)到 4500 萬人，開發(fā)者達(dá)到 5.4 萬人，遍布 4300 多個(gè)使用場(chǎng)景，應(yīng)用數(shù)量達(dá)到 825 個(gè)，并接入了超過 500 個(gè)插件。

而在技術(shù)之外，更值得關(guān)注的是，百度世界大會(huì)上透露出的信息顯示，文心大模型 4.0 已經(jīng)全面重構(gòu)了百度的搜索、GBI、文庫、網(wǎng)盤、地圖等數(shù)十款應(yīng)用。

AI 原生時(shí)代大幕開啟

為什么這么說？李彥宏在百度世界大會(huì)現(xiàn)場(chǎng)分享時(shí)強(qiáng)調(diào)：

大模型帶來的智能涌現(xiàn)，是開發(fā) AI 原生應(yīng)用的基礎(chǔ)。同樣，沒有構(gòu)建于基礎(chǔ)模型之上的豐富的 AI 原生應(yīng)用，基礎(chǔ)模型就沒有任何價(jià)值。

無獨(dú)有偶，紅杉資本在《生成式 AI 進(jìn)入第二階段》中同樣認(rèn)為，生成式 AI 市場(chǎng)正在進(jìn)入“第二幕”：

炒作和快速展示正在為真正的價(jià)值和完整的產(chǎn)品體驗(yàn)所取代。

底層的邏輯其實(shí)很簡單：底層技術(shù)的重要性毋庸置疑，但前沿技術(shù)想要真正在人們的生活中創(chuàng)造價(jià)值，還是需要通過應(yīng)用的形式。

如果說，大模型掀起的是人機(jī)交互方式變革的風(fēng)暴，那么 AI 原生應(yīng)用，正是純自然語言交互的具體體現(xiàn)形式。

正如百度現(xiàn)場(chǎng)所演示的，數(shù)據(jù)分析現(xiàn)在可以是醬嬸的 ——

直接對(duì)任意數(shù)據(jù)提問，AI 分分鐘就能展開具體分析，不再需要人工跨數(shù)據(jù)庫、跨表格分析。

在辦公軟件如流里，交代出行計(jì)劃，AI 超級(jí)助手立馬就能把差旅機(jī)酒安排妥當(dāng)。

根據(jù)文檔生成 PPT，也就是一句話的事，像百度文庫這樣的產(chǎn)品，直接化身“生產(chǎn)內(nèi)容最好的起點(diǎn)”。

我們?nèi)粘Ｊ煜さ木W(wǎng)盤、地圖等 App，基于大模型能力，也涌現(xiàn)出了全新的體驗(yàn)。

比如從網(wǎng)盤視頻里直接提取重點(diǎn)內(nèi)容。

比如在地圖指揮 AI 訂餐廳。

百度此番出手，可以說是直接展示了一把大模型全方位的應(yīng)用滲透，揭開了 AI 原生時(shí)代大幕的一角。

而百度“第一個(gè)把全部產(chǎn)品用大模型重做一遍”的先手優(yōu)勢(shì)，也已經(jīng)在更大范圍內(nèi)開始顯現(xiàn)。

李彥宏透露，百度的大模型技術(shù)已經(jīng)應(yīng)用在制造、能源、電力、化工、交通等實(shí)體產(chǎn)業(yè)中，17000 家企業(yè)已參與其中，大模型正在成為新型工業(yè)化的重要推動(dòng)力。

從 3 月份文心一言發(fā)布，到年中文心大模型 3.5 版本更新，再到現(xiàn)在 4.0 驚艷亮相，百度文心大模型的迭代速度不可謂不迅速。

這背后既是國產(chǎn)大模型從技術(shù) demo 到落地應(yīng)用的激烈競(jìng)爭，也再一次體現(xiàn)了百度在大模型領(lǐng)域深厚的技術(shù)積累。

并且隨著文心大模型 4.0 和百度一眾 AI 原生應(yīng)用的亮相，大模型賽場(chǎng)上新一階段的競(jìng)爭方向愈發(fā)明顯。

正如李彥宏所說：

我們即將進(jìn)入一個(gè) AI 原生的時(shí)代。一個(gè)人機(jī)通過 prompt 交互的時(shí)代。

在此過程之中，無論是國產(chǎn)大模型基礎(chǔ)能力的快速追趕，還是 AI 原生應(yīng)用開發(fā)的主動(dòng)進(jìn)擊，都令人心潮澎湃。

AI 原生時(shí)代，在各種層面上，都越來越值得期待了。

廣告聲明：文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時(shí)間，結(jié)果僅供參考，所有文章均包含本聲明。

總結(jié)

以上是生活随笔為你收集整理的“不逊色 GPT-4”！百度最强大模型发布，我们第一时间实测了一波的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： “鼓励哪吒”？古
下一篇： ChatGPT 又被「奶奶漏洞」骗了！P

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

“不逊色 GPT-4”！百度最强大模型发布，我们第一时间实测了一波

相比 GPT-4 實(shí)測(cè)效果如何？

文心大模型 4.0 是如何煉成的？

AI 原生時(shí)代大幕開啟

總結(jié)

相比 GPT-4 實(shí)測(cè)效果如何？

文心大模型 4.0 是如何煉成的？