日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 运维知识 > windows >内容正文

windows

清华大学研发 LLM4VG 基准:用于评估 LLM 视频时序定位性能

發布時間:2023/12/31 windows 32 传统文化
生活随笔 收集整理的這篇文章主要介紹了 清华大学研发 LLM4VG 基准:用于评估 LLM 视频时序定位性能 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

12 月 29 日消息,大語言模型(LLM)的觸角已經從單純的自然語言處理,擴展到文本、音頻、視頻等多模態領域,而其中一項關鍵就是視頻時序定位(Video Grounding,VG)。

VG 任務的目的基于給定查詢(一句描述),然后在目標視頻段中定位起始和結束時間,核心挑戰在于時間邊界定位的精度。

清華大學研究團隊近日推出了“LLM4VG”基準,這是一個專門設計用于評估 LLM 在 VG 任務中的性能。

此基準考慮了兩種主要策略:第一種涉及直接在文本視頻數據集(VidLLM)上訓練的視頻 LLM,第二種是結合傳統的 LLM 與預訓練的視覺模型。

在第一種策略中,VidLLM 直接處理視頻內容和 VG 任務指令,根據其對文本-視頻的訓練輸出預測。

第二種策略更為復雜,涉及 LLM 和視覺描述模型。這些模型生成與 VG 任務指令集成的視頻內容的文本描述,通過精心設計的提示。

這些提示經過專門設計,可以有效地將 VG 的指令與給定的視覺描述結合起來,從而讓 LLM 能夠處理和理解有關任務的視頻內容。

據觀察,VidLLM 盡管直接在視頻內容上進行訓練,但在實現令人滿意的 VG 性能方面仍然存在很大差距。這一發現強調了在訓練中納入更多與時間相關的視頻任務以提高性能的必要性。

而第二種策略優于 VidLLM,為未來的研究指明了一個有希望的方向。該策略主要限制于視覺模型的局限性和提示詞的設計,因此能夠生成詳細且準確的視頻描述后,更精細的圖形模型可以大幅提高 LLM 的 VG 性能。

總之,該研究對 LLM 在 VG 任務中的應用進行了開創性的評估,強調了在模型訓練和提示設計中需要更復雜的方法。

附上論文參考地址:https://arxiv.org/pdf/2312.14206.pdf

廣告聲明:文內含有的對外跳轉鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節省甄選時間,結果僅供參考,所有文章均包含本聲明。

總結

以上是生活随笔為你收集整理的清华大学研发 LLM4VG 基准:用于评估 LLM 视频时序定位性能的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。