日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Qwen3接入评测,最强开源模型更懂Graph了吗?

發(fā)布時間:2025/5/22 编程问答 35 如意码农
生活随笔 收集整理的這篇文章主要介紹了 Qwen3接入评测,最强开源模型更懂Graph了吗? 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

今日凌晨,阿里開源Qwen3,推理成本大幅下降,性能全面超越 DeepSeek-R1、OpenAI-o1 等,問鼎全球最強開源模型。在代碼、數(shù)學、通用能力各項性能指標中,Qwen3都名列前茅。與 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 等頂級模型相比,表現(xiàn)出極具競爭力的結果。

而就在 4 天前,我們剛發(fā)布了業(yè)內(nèi)首個圖原生智能體系統(tǒng)系統(tǒng) Chat2Graph,旨在通過智能體技術高效解決用圖問題,同時深度融合「Graph+AI」技術增強智能體的推理效果。開源項目鏈接:https://github.com/TuGraph-family/chat2graph。

Chat2Graph視頻介紹:https://www.bilibili.com/video/BV15CjPztEgg

Chat2Graph 屆時已將 Qwen3 接入作為基礎模型服務,并在第一時間對其在圖領域的任務上的表現(xiàn)進行了評測。

對比模型

綜合性能、推理能力、價格三個因素,我們從挑選如下三個模型做對比分析:

  1. Qwen3:最強開源大模型,支持 thinking/no-thinking 兩種模式。
  2. OpenAI o3-mini:o 系列閉源模型,mini 版本推理速度快、tokens 價格適中。
  3. Gemini 2.5 flash:最新的 Gemini 系列閉源模型,flash 版本推理速度極快,tokens 價格非常便宜。

圖領域任務

我們使用了同一個問題在Chat2Graph上進行測試:

根據(jù)「羅密歐與朱麗葉」的故事構建圖譜。然后,你還要查詢圖數(shù)據(jù)庫,告訴我故事中出現(xiàn)了多少人物角色。然后進行深度分析,計算出最有影響力的節(jié)點。

實驗結果

整體實驗結果如下表所示。

Qwen3 OpenAI o3-mini Gemini 2.5 flash
圖譜規(guī)模 10 實體 11 關系 4 實體 3 關系 25 實體 30 關系
抽取人物數(shù)(共14位) 8 位 2 位 13 位
調(diào)用圖算法 PageRank、BC PageRank PageRank
工具調(diào)用次數(shù) 32 次 30 次(失敗 1 次) 50 次
總執(zhí)行時間 30 分鐘 13 分鐘 15 分鐘
輸出格式豐富度

具體分析來看:

  1. Qwen3:

    • 抽取:能力一般,主要弱點在于數(shù)據(jù)提取階段,只識別了8/14的人物,構建的圖譜規(guī)模相對較小,影響了后續(xù)任務的基礎。
    • 分析:能力突出,Qwen3 在圖分析階段表現(xiàn)最好,不僅調(diào)用了PageRank 算法,還調(diào)用了 BC 算法,并結合兩者進行了深度分析,展現(xiàn)了較強的分析解釋能力。輸出格式也最豐富。
    • 效率:一般,Qwen3 在三個模型中執(zhí)行時間最長(30分鐘)。但是在平均執(zhí)行效率(執(zhí)行時間/圖譜規(guī)模)上和 OpenAI o3-mini 基本持平。
    • 綜合評定:★★★
  2. OpenAI o3-mini:
    • 抽取:能力較差,僅提取了極少量的實體和關系(4實體,3關系),人物提取準確率最低(2/14)。構建的知識圖譜過于稀疏,無法有效支持后續(xù)任務。
    • 分析:能力一般,在 Schema 設計、復雜工具(多參數(shù)的 PageRank 算法)調(diào)用、圖查詢語句生成方面表現(xiàn)尚可,但整體效果因數(shù)據(jù)基礎薄弱而大打折扣。輸出格式豐富度一般。
    • 效率:一般,o3-mini 雖然總時間最短,但其極低的圖譜質(zhì)量產(chǎn)出,導致效率指標并不理想。但這可能是犧牲了信息提取完整性的結果(被評價為學習了“偷懶”技能)。
    • 綜合評定:★★
  3. Gemini 2.5 flash:
    • 抽取:能力最好,在此次測試中,Gemini 2.5 flash 表現(xiàn)最為出色。它成功構建了規(guī)模最大、最接近完整的知識圖譜(25個實體,30條關系),并且在人物角色提取方面準確率最高(13/14,僅遺漏1位)。長文本幻覺率低,盡管逐步導入了相當規(guī)模的圖譜,但沒有出現(xiàn)節(jié)點重復導入的問題。
    • 分析:能力一般,僅僅調(diào)用一個 PageRank 算法來找出最影響力的節(jié)點,不過作出了較為合理算法結果的解釋,且結果符合基本常識。輸出格式豐富度一般。
    • 效率:最好,工具調(diào)用次數(shù)最多(50次),且執(zhí)行時間僅為 15分鐘,顯示出較高的效率和徹底性。
    • 綜合評定:★★★★

最后補充一下部分關鍵測試效果。

任務規(guī)劃

總體來看,三個模型在 Agent 任務規(guī)劃能力上差異并不明顯,基本上都能做到細致精確的子任務拆分。

輸出格式

從執(zhí)行結果的輸出格式來看,Qwen3 的輸出格式相對豐富,可讀性更加友好。

評測結論

整體來看,Gemini 2.5 flash 綜合表現(xiàn)最佳,在執(zhí)行效率和圖抽取能力上優(yōu)勢明顯;Qwen3 憑借對圖領域工具的熟練運用展現(xiàn)了突出的深度分析能力,但在數(shù)據(jù)抽取和執(zhí)行效率上表現(xiàn)一般;相比之下,o3-mini 整體表現(xiàn)最差。

因此,雖然 Qwen3 在各項開源測試榜單上表現(xiàn)出色,但經(jīng)過對實際圖任務的測試,與當下的領先的閉源模型能力仍有一定的差距。所以,通過特定的圖領域知識和工具,基于通用大模型構建圖原生智能體系統(tǒng)仍舊十分必要,這也是 Chat2Graph 一直以來要解決的問題。

技術展望

Qwen3的混合推理模型,無縫支持了thinking&no-thinking模式,為上層應用提供了靈活控制思考成本的能力。在Chat2Graph中可以嘗試通過打開“thinking”模式來增強 Leader 的規(guī)劃能力 / Thinker 的推理效果。同時也可以通過關閉“thinking”模式,降低 Expert/Actor 執(zhí)行開銷和時延。

此外 Qwen3 對 MCP 的支持,讓我們看到大模型正在逐步過渡到以 Agent 為中心的訓練,這更督促 Agent 的開發(fā)者需要深度反思大模型能力界限之外的 Agent 的工程設計策略,進一步挖掘在工程層面協(xié)助大模型改進智能應用端到端體驗的創(chuàng)新與方案。

總結

以上是生活随笔為你收集整理的Qwen3接入评测,最强开源模型更懂Graph了吗?的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。