日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

零样本分割系列论文(2)Open-Vocabulary Instance Segmentation via Robust Cross-Modal Pseudo-Labeling

發布時間:2023/12/15 编程问答 39 豆豆
生活随笔 收集整理的這篇文章主要介紹了 零样本分割系列论文(2)Open-Vocabulary Instance Segmentation via Robust Cross-Modal Pseudo-Labeling 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

我最近剛剛入門zero-shot segmentation,準備以此作為我的博士研究方向,這是我入門這個方向讀的第二篇論文,這篇論文我讀了5遍以上,文章篇幅有限,所以很多細節我在讀論文的時候發現不了,導致我在跟師兄師姐分享論文的時候,他們提出的一些問題我回答不上來。于是,在讀了很多遍之后,啊我的閱讀筆記分享一下,可能還是有不對的地方,文章暫時沒提供代碼,有些細節問題可能還是得閱讀源碼。

寫在前面:可以只看第四部分,對pipeline的描述

1. 出處

2021.11.24掛在arXiv上,據說是投了2022年CVPR

2. 問題

已有的方法需要昂貴的mask annotations。Open-vocabulary instance segmentation能夠不需要mask annotations分割novel classes。

大多數已有的工作,首先在包含大量novel classes的文字描述的圖像上預訓練模型,然后在limited帶有mask annotations的base classes上微調。

然而,單純在captions進行pre-train學到的high-level textual information,無法有效地encode pixel-wise segmentation所需的細節。

詳細來說,zero-shot instance/semantic segmentation能夠利用高維語義描述如word embeddings,在沒有novel classes訓練樣本的情況下,分割novel classes。然而,當前的zero-shot instance/semantic segmentation方法效果不夠好,因為high-level word embeddings無法有效的編碼細粒度的shape信息。

3. 解決方案

解決方案的核心思想是:通過使用low-cost captioned images分割novel classes,極大減少mask supervision的數量

提出了一個cross-modal pseudo-labeling框架,通過對齊說明文字中的word semantics和圖像中object masks的visual features來生成training pseudo masks,并將這種能力泛化到novel classes。

該框架能夠通過word semantics self-train一個student model,無需任何mask annotations,分割captioned images的objects。

為了解釋pseudo masks里的噪聲,作者設計了一個魯棒的student model,能夠通過估計mask noise levels選擇性地distill mask knowledge,從而減輕noisy pseudo masks的不利影響。

4. 整體模型

4.1 setting

訓練:

base classes : 每個圖像對應一系列ground truth標注,包括instance masks和對應的目標類別(起到預訓練作用)

額外的圖像 : 為了能夠分割novel classes,利用額外的圖像,每個圖像只有一段說明文字作為注釋,從中可以提取出一系列objects nouns,從caption annotations可以抽取出很多caption classes,遠遠多于base classes

測試:

novel classes:沒有任何mask annotation,訓練階段也沒見過,這些類別僅僅被用作proxy來評估對novel classes的分割效果,object的類別可能是base classes,additional classes,或者novel classes

通過使用預訓練好的BERT模型提供的high-level semantic embedding,作者的模型可以識別很多novel classes。給定BERT Embeddings,可以利用class semantic similarity從base/caption classes遷移知識到target classes上

在對novel classes進行識別的時候,使用通過BERT模型訓練得到的high-level semantic embeddings

4.2 base detector

Mask R-CNN

4.3 cross-modal pseudo-labeling framework

4.3.1 Pipeline

  • 訓練過程

  • Teacher model

    embedding head用于分類,對captions中的每個object,選擇最適配的region proposal。

    mask head用于生成class-agnostic mask

    分為兩個階段,第一階段預訓練backbone(ResNet50),在COCO Captions還有Conceptual Captions上預訓練,得到vision-semantic模型。(Conceptual Captions很大,所以能學到很多圖像和類別的對應關系)

    然后在COCO和Open Images數據集上進行檢測/分割任務,微調backbone,得到teacher模型。

    首先利用RPN獲得輸入圖像的region proposals,teacher的embedding head能夠獲得所有region的visual features,將region features映射到詞向量的語義空間上,將visual embedding和word embeddings點乘,計算每個region每個類別的對應得分。通過在visual features和word embeddings學習一個共同的embedding空間,teacher可以泛化到novel classes.

    此外,還學習一個class-agnostic Mask R-CNN-based head分割每個region的物體,通過h_mask預測mask logit scores。

  • Student model

    在包含captions和base classes的數據集上訓練

    student和teacher不是同時訓練的,teacher訓練好后,作為student的初始參數(將teacher的mask知識和captions遷移到sudent model。)

    • 將teacher對齊好的目標區域用于訓練student,對于每個對齊的區域,最大化它和目標詞之間的相似度,最小化它和非目標詞之間的相似度

    • teacher的mask head可以得到每個region對應的pseudo mask,作為student的mask head的label

    • 通過三部分來優化student,base class對應的基礎的分割損失(知道對應的GT),跨模態損失,噪聲估計損失

  • 測試過程

    使用student完成測試,利用caption中目標詞提供的類別,匹配對應的區域,然后使用mask head預測mask

  • 在base classes上,訓練一個teacher模型,使用這個模型來選擇visual features能夠與captions中的詞語義最適配的目標區域。這些區域進一步被分割成pseudo masks,代表captions里的object words。然后將pseudo masks蒸餾出來用于訓練一個robust student,能夠共同學習分割并估計pseudo-mask noise levels,為不正確的teacher預測降低權重。

    對每個caption-image對,通過選擇visual features與(captions中object words的)semantic embeddings最適配的mask predictions,來生成pseudo masks.

    4.3.2 Teacher Model詳細內容(可不看)

    teacher model包括embedding head用于分類,和一個class-agnostic mask head用于分割。

    然后,在teacher predictions和captions中蒸餾mask knowledge,用于student model,共同在pseudo masks中學習,并估計mask noise levels來降低unreliable pseudo masks的權重。

    給定region proposals,將他們分類到captions提到的任意類別。作者將Mask R-CNN分類頭中的全連接層,替換成了embedding head h_Emb,h_Emb將region features映射到詞向量的語義空間中。通過embedding head,每個區域類別o的分數通過該類的word embedding和region’s visual feature之間的內積計算得到的。

    通過學習一個visual features和word embedding之間共同的embedding space,teacher可以通過度量visual和textual features的兼容性,泛化到novel classes。

    此外,還訓練一個class-agnostic Mask R-CNN-based head來分割每個區域的物體,h_Mask是mask head,能夠預測mask logit scores.

    盡管teacher可以分割novel classes,但由于缺乏標注,還是會對novel classes誤分類。為了對novel classes提供額外的監督信息,提出了cross-modal pseudo-learning method,能夠使用caption words里的語義信息來指導teacher預測,并生成pseudo masks用于self-training一個student model

    4.3.3 Cross-Modal Pseudo-Labeling詳細內容(可不看)

    首先,利用captions識別圖像中的物體,提取caption里的名詞,為了定位圖中這些object words的位置,提出了cross-modal
    alignment,能夠選擇與captions中名詞的word embeddings特征最兼容的區域。

    給定對齊的object regions,引入了cross-modal loss,訓練student,識別這些區域,作為他們的positively-matched caption words.

    對于每一個對齊的目標區域b_o,student通過Softmax normalization最大化他的object words的分數,最小化其他不相關的words的分數。

    word embedding(textual modality)和aligned object regions(visual modality)中的信息蒸餾到student embedding head中,以擴展student關于caption中novel classes的知識。

    cross-modal loss在student embedding head上計算,忽視了用于分割的mask head。因此,提出從teacher中獲得pseudo masks,并估計這些masks的noise level

    4.3.4 Estimating Pseudo-Mask Noises

    給定aligned object regions,通過對這些區域使用teacher mask head,將其轉變成二值化的pseudo masks,正確預測的pixel值為1,其他為0。

    直觀上,可以通過在每個像素上模擬出pseudo masks,將其和teacher生成的pseudo作比較,訓練student model。

    然而,由于teacher的預測錯誤,并不是captions中的所有objects都能被正確檢測到。因此,最小化pixel-wise loss會將錯誤從pseudo mask傳遞到student mask head,使得模型退化。

    為了消除pseudo label error的影響,作者提出估計pseudo masks的noise level。student為pseudo masks中的每個像素預測一個額外的noise value。

    假定pseudo mask中的每個像素被高斯噪聲腐蝕,方差可以通過aligned object region的visual features估計。

    student很難通過分割錯誤的Pseudo masks進行學習,會使得g_noise估計高noise level來適應這些errors

    4.3.5 訓練魯棒的student model

    因為student model和teacher model由于缺乏標注信息,無法知道正確的novel object masks。所以,作者提出將mask noises作為proxy,推斷pseudo masks是否reliable。

    總結

    以上是生活随笔為你收集整理的零样本分割系列论文(2)Open-Vocabulary Instance Segmentation via Robust Cross-Modal Pseudo-Labeling的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。