當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

VALSE Webinar 20-29期图文并茂, 让视觉与语言相得益彰

發布時間：2025/3/15 编程问答 31 豆豆

生活随笔收集整理的這篇文章主要介紹了 VALSE Webinar 20-29期图文并茂, 让视觉与语言相得益彰小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

Richer and Deeper

報告人：王鵬 (西北工業大學)
Richer：下圖中，進行VQA時需要模型具有不同的能力（如Reading能力），理解不同的信息，可能不止Visual信息，需要Knowledge信息等。
Arxiv：

給模型Text GT，準確率可以達到60%，人類約為85%；

容易區分顏色，但是不易區分大小（如大牌匾、小牌匾）；

推理能力不足；

圖片中需要OCR的區域過多；

2021AAAI
Deeper：知識增強，基于知識的VQA，常識理解。
ACMMM 2020 Oral

Unbiased Scene Graph Generation

報告人：湯凱華 (Nanyang Technological University)
Motivation：場景圖中生成的關系，都是比較常見的關系，這是由于數據集的Bias造成的。
Future Work：

Panel

嘉賓：
劉偲 (北京航空航天大學)、王鵬 (西北工業大學)、李冠彬 (中山大學)、白亞龍 (京東)、湯凱華 (Nanyang Technological University)

視覺與自然語言的結合是當前學界的研究熱點之一，該方向有哪些子課題值得關注？這些子課題各自有哪些主流研究范式？
答：子課題：①image to text：caption；②text to image；③image and text關聯學習: visual (common sense) reasoning。
范式：①直接映射；②找中間態。主要有兩種趨勢，一是performance，二是可解釋性，現在在二者間正在逐漸達到平衡。

是否有人類視覺語言聯合處理機制的研究工作？目前的視覺語言學習的機器方法如何受到了人的視覺語言聯合學習機制的啟發，它對揭示人的大腦處理機制起到了什么推動作用？
答：如人眼動儀和Visual Grounding中attention的轉移是一樣的。NLP領域常識庫比較豐富，但是在VQA中引入常識，首先沒有較好的常識庫，而且融入進去也比較困難，但是可以針對特定領域（如醫學、電商）構建常識庫。

統一的視覺語言的預訓練模型是否會成為視覺語言理解領域的標準方法？解決視覺和語言語義鴻溝問題的其他方法還有哪些有潛力與之競爭？
答：預訓練會讓模型變成黑盒子，一定程度上和可解釋性是對立的。視覺+語言+常識庫，高級推理機制，視覺是人生下來就有的，語言是人學習的。

VQA問題與一般的圖像理解和閱讀理解問答有什么不同？VQA方法的設計是否是圖像理解與閱讀理解方法的疊加，需要哪些特別關注的地方？
答：

關于Scene graph的問題，是否有感覺數據集本身的問題限制了圖像深度理解方向的發展？請問我們是否有必要構建一套統一的數據標準，專門針對圖像中物體關鍵的理解任務，構建一套全新的數據集？
答：①數據集標注十分昂貴；②標簽層級化；③標注非常稀疏，沒有負樣本，可以用空間關系的互斥性增加負樣本；④關系可以大致分為兩類，一是空間關系，二是語義關系；⑤精簡版的scene graph，如human action，“主謂賓”中主語永遠是人；⑥虛擬場景向真實場景遷移；⑦不構造數據集，使用zero/few shot；

關于圖像和語言的深度理解在工業界的殺手級應用有哪些？相關技術距離大規模落地還有多遠？
答：圖像文本自動生成（生成廣告），智能導播，智能導購，風格可控的商品短文生成，VQA目前還停留在感知的階段，推理能力不行，無法大規模商用。下一代人機交互，依賴于視覺語言技術。

圖以及圖神經網絡方法在視覺語言理解問題中有哪些優勢？未來基于圖的視覺和語言理解有哪些可供研究的點？
答：

如何實現魯棒可解釋的視覺語言交互？視覺和語言的研究是否有機會成為認知智能發展的突破口？
答：

總結

以上是生活随笔為你收集整理的VALSE Webinar 20-29期图文并茂, 让视觉与语言相得益彰的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： 20201202 《计算感知》武老师第
下一篇：＜文本，场景图＞解析实践