當前位置：首頁 > 编程资源 > 综合教程 >内容正文

综合教程

Meta「分割一切」超进化版来了，IDEA 领衔国内顶尖团队打造：检测、分割、生成一切，狂揽 2k 星

發布時間：2023/12/19 综合教程 48 生活家

生活随笔收集整理的這篇文章主要介紹了 Meta「分割一切」超进化版来了，IDEA 领衔国内顶尖团队打造：检测、分割、生成一切，狂揽 2k 星小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

Meta 的 SAM「分割一切」模型剛發布，國內團隊就進行了二創，打造了一個最強的零樣本視覺應用 Grounded-SAM，不僅能分割一切，還能檢測一切，生成一切。

Meta 的「分割一切」模型橫空出世后，已經讓圈內人驚呼 CV 不存在了。

就在 SAM 發布后一天，國內團隊在此基礎上搞出了一個進化版本「Grounded-SAM」。

注：項目的 logo 是團隊用 Midjourney 花了一個小時做的

Grounded-SAM 把 SAM 和 BLIP、Stable Diffusion 集成在一起，將圖片「分割」、「檢測」和「生成」三種能力合一，成為最強 Zero-Shot 視覺應用。

網友紛紛表示，太卷了！

谷歌大腦的研究科學家、滑鐵盧大學計算機科學助理教授 Wenhu Chen 表示「這也太快了」。

AI 大佬沈向洋也向大家推薦了這一最新項目：

Grounded-Segment-Anything：自動檢測、分割和生成任何有圖像和文本輸入的東西。邊緣分割可以進一步改進。

截至目前，這個項目在 GitHub 上已經狂攬 2k 星。

檢測一切，分割一切，生成一切

上周，SAM 的發布讓 CV 迎來了 GPT-3 時刻。甚至，Meta AI 聲稱這是史上首個圖像分割基礎模型。

該模型可以在統一的框架 prompt encoder 內，指定一個點、一個邊界框、一句話，直接一鍵分割出任何物體。

SAM 具有廣泛的通用性，即具有了零樣本遷移的能力，足以涵蓋各種用例，不需要額外訓練，就可以開箱即用地用于新的圖像領域，無論是水下照片，還是細胞顯微鏡。

由此可見，SAM 可以說是強到發指。

而現在，國內研究者基于這個模型想到了新的點子，將強大的零樣本目標檢測器 Grounding DINO 與之結合，便能通過文本輸入，檢測和分割一切。

借助 Grounding DINO 強大的零樣本檢測能力，Grounded SAM 可以通過文本描述就可以找到圖片中的任意物體，然后通過 SAM 強大的分割能力，細粒度的分割出 mas。

最后，還可以利用 Stable Diffusion 對分割出來的區域做可控的文圖生成。

再 Grounded-SAM 具體實踐中，研究者將 Segment-Anything 與 3 個強大的零樣本模型相結合，構建了一個自動標注系統的流程，并展示出非常非常令人印象深刻的結果！

這一項目結合了以下模型：

?BLIP：強大的圖像標注模型

?Grounding DINO：最先進的零樣本檢測器

?Segment-Anything：強大的零樣本分割模型

?Stable-Diffusion：出色的生成模型

所有的模型既可以組合使用，也可以獨立使用。組建出強大的視覺工作流模型。整個工作流擁有了檢測一切，分割一切，生成一切的能力。

該系統的功能包括：

BLIP+Grounded-SAM = 自動標注器

使用 BLIP 模型生成標題，提取標簽，并使用 Ground-SAM 生成框和掩碼:

?半自動標注系統：檢測輸入的文本，并提供精確的框標注和掩碼標注。

?全自動標注系統：

首先使用 BLIP 模型為輸入圖像生成可靠的標注，然后讓 Grounding DINO 檢測標注中的實體，接著使用 SAM 在其框提示上進行實例分割。

Stable Diffusion+Grounded-SAM = 數據工廠

?用作數據工廠生成新數據：可以使用擴散修復模型根據掩碼生成新數據。

Segment Anything+HumanEditing

在這個分支中，作者使用 Segment Anything 來編輯人的頭發 / 面部。

?SAM + 頭發編輯

?SAM + 時尚編輯

作者對于 Grounded-SAM 模型提出了一些未來可能的研究方向：

自動生成圖像以構建新的數據集；分割預訓練的更強大的基礎模型；與 (Chat-) GPT 模型的合作；一個完整的管道，用于自動標注圖像（包括邊界框和掩碼），并生成新圖像。

作者介紹

Grounded-SAM 項目其中的一位研究者是清華大學計算機系的三年級博士生劉世隆。

他近日在 GitHub 上介紹了自己和團隊一起做出的最新項目，并稱目前還在完善中。

現在，劉世隆是粵港澳大灣區數字經濟研究院（IDEA 研究院），計算機視覺與機器人研究中心的實習生，由張磊教授指導，主要研究方向為目標檢測，多模態學習。

在此之前，他于 2020 年獲得了清華大學工業工程系的學士學位，并于 2019 年在曠視實習過一段時間。

個人主頁：http://www.lsl.zone/

順便提一句，劉世隆也是今年 3 月份發布的目標檢測模型 Grounding DINO 的一作。

此外，他的 4 篇論文中了 CVPR 2023，2 篇論文被 ICLR 2023 接收，1 篇論文被 AAAI 2023 接收。

論文地址：https://arxiv.org/ pdf / 2303.05499.pdf

而劉世隆提到的那位大佬 —— 任天和，目前在 IDEA 研究院擔任計算機視覺算法工程師，也由張磊教授指導，主要研究方向為目標檢測和多模態。

此外，項目的合作者還有，中國科學院大學博士三年級學生黎昆昌，主要研究方向為視頻理解和多模態學習；IDEA 研究院計算機視覺與機器人研究中心實習生曹赫，主要研究方向為生成模型；以及阿里云高級算法工程師陳佳禹。

任天和、劉世隆

安裝運行

項目需要安裝 python 3.8 及以上版本，pytorch 1.7 及以上版本和 torchvision 0.8 及以上版本。此外，作者強烈建議安裝支持 CUDA 的 PyTorch 和 TorchVision。

安裝 Segment Anything：

python-mpipinstall-esegment_anything

安裝 GroundingDINO：

python-mpipinstall-eGroundingDINO

安裝 diffusers：

pipinstall--upgradediffusers[torch]

安裝掩碼后處理、以 COCO 格式保存掩碼、example notebook 和以 ONNX 格式導出模型所需的可選依賴。同時，項目還需要 jupyter 來運行 example notebook。

pipinstallopencv-pythonpycocotoolsmatplotlibonnxruntimeonnxipykernel

GroundingDINO 演示

下載 groundingdino 檢查點：

cdGrounded-Segment-Anything
wgethttps://github.com/IDEA-Research/GroundingDINO/releases/download/v0.1.0-alpha/groundingdino_swint_ogc.pth

運行 demo：

exportCUDA_VISIBLE_DEVICES=0
pythongrounding_dino_demo.py\
--configGroundingDINO/groundingdino/config/GroundingDINO_SwinT_OGC.py\
--grounded_checkpointgroundingdino_swint_ogc.pth\
--input_imageassets/demo1.jpg\
--output_dir"outputs"\
--box_threshold0.3\
--text_threshold0.25\
--text_prompt"bear"\
--device"cuda"

模型預測可視化將保存在 output_dir 中，如下所示：

Grounded-Segment-Anything+BLIP 演示

自動生成偽標簽很簡單：

1. 使用 BLIP（或其他標注模型）來生成一個標注。

2. 從標注中提取標簽，并使用 ChatGPT 來處理潛在的復雜句子。

3. 使用 Grounded-Segment-Anything 來生成框和掩碼。

exportCUDA_VISIBLE_DEVICES=0
pythonautomatic_label_demo.py\
--configGroundingDINO/groundingdino/config/GroundingDINO_SwinT_OGC.py\
--grounded_checkpointgroundingdino_swint_ogc.pth\
--sam_checkpointsam_vit_h_4b8939.pth\
--input_imageassets/demo3.jpg\
--output_dir"outputs"\
--openai_keyyour_openai_key\
--box_threshold0.25\
--text_threshold0.2\
--iou_threshold0.5\
--device"cuda"

偽標簽和模型預測可視化將保存在 output_dir 中，如下所示：

Grounded-Segment-Anything+Inpainting 演示

CUDA_VISIBLE_DEVICES=0
pythongrounded_sam_inpainting_demo.py\
--configGroundingDINO/groundingdino/config/GroundingDINO_SwinT_OGC.py\
--grounded_checkpointgroundingdino_swint_ogc.pth\
--sam_checkpointsam_vit_h_4b8939.pth\
--input_imageassets/inpaint_demo.jpg\
--output_dir"outputs"\
--box_threshold0.3\
--text_threshold0.25\
--det_prompt"bench"\
--inpaint_prompt"Asofa,highquality,detailed"\
--device"cuda"

Grounded-Segment-Anything+Inpainting Gradio App

pythongradio_.py

作者在此提供了可視化網頁，可以更方便的嘗試各種例子。

網友評論

對于這個項目 logo，還有個深層的含義：

一只坐在地上的馬賽克風格的熊。坐在地面上是因為 ground 有地面的含義，然后分割后的圖片可以認為是一種馬賽克風格，而且馬塞克諧音 mask，之所以用熊作為 logo 主體，是因為作者主要示例的圖片是熊。

看到 Grounded-SAM 后，網友表示，知道要來，但沒想到來的這么快。

項目作者任天和稱，「我們用的 Zero-Shot 檢測器是目前來說最好的。」

未來，還會有 web demo 上線。

最后，作者表示，這個項目未來還可以基于生成模型做更多的拓展應用，例如多領域精細化編輯、高質量可信的數據工廠的構建等等。歡迎各個領域的人多多參與。

參考資料：

https://github.com/IDEA-Research/Grounded-Segment-Anything
https://www.reddit.com/r/MachineLearning/comments/12gnnfs/r_groundedsegmentanything_automatically_detect/
https://zhuanlan.zhihu.com/p/620271321

本文來自微信公眾號：新智元（ID：AI_era）

總結

以上是生活随笔為你收集整理的Meta「分割一切」超进化版来了，IDEA 领衔国内顶尖团队打造：检测、分割、生成一切，狂揽 2k 星的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： How does framework i
下一篇：华为p30pro跑马灯怎么设置