日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 综合教程 >内容正文

综合教程

Meta「分割一切」超进化版来了,IDEA 领衔国内顶尖团队打造:检测、分割、生成一切,狂揽 2k 星

發布時間:2023/12/19 综合教程 43 生活家
生活随笔 收集整理的這篇文章主要介紹了 Meta「分割一切」超进化版来了,IDEA 领衔国内顶尖团队打造:检测、分割、生成一切,狂揽 2k 星 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

Meta 的 SAM「分割一切」模型剛發布,國內團隊就進行了二創,打造了一個最強的零樣本視覺應用 Grounded-SAM,不僅能分割一切,還能檢測一切,生成一切。

Meta 的「分割一切」模型橫空出世后,已經讓圈內人驚呼 CV 不存在了。

就在 SAM 發布后一天,國內團隊在此基礎上搞出了一個進化版本「Grounded-SAM」。

注:項目的 logo 是團隊用 Midjourney 花了一個小時做的

Grounded-SAM 把 SAM 和 BLIP、Stable Diffusion 集成在一起,將圖片「分割」、「檢測」和「生成」三種能力合一,成為最強 Zero-Shot 視覺應用。

網友紛紛表示,太卷了!

谷歌大腦的研究科學家、滑鐵盧大學計算機科學助理教授 Wenhu Chen 表示「這也太快了」。

AI 大佬沈向洋也向大家推薦了這一最新項目:

Grounded-Segment-Anything:自動檢測、分割和生成任何有圖像和文本輸入的東西。邊緣分割可以進一步改進。

截至目前,這個項目在 GitHub 上已經狂攬 2k 星。

檢測一切,分割一切,生成一切

上周,SAM 的發布讓 CV 迎來了 GPT-3 時刻。甚至,Meta AI 聲稱這是史上首個圖像分割基礎模型。

該模型可以在統一的框架 prompt encoder 內,指定一個點、一個邊界框、一句話,直接一鍵分割出任何物體。

SAM 具有廣泛的通用性,即具有了零樣本遷移的能力,足以涵蓋各種用例,不需要額外訓練,就可以開箱即用地用于新的圖像領域,無論是水下照片,還是細胞顯微鏡。

由此可見,SAM 可以說是強到發指。

而現在,國內研究者基于這個模型想到了新的點子,將強大的零樣本目標檢測器 Grounding DINO 與之結合,便能通過文本輸入,檢測和分割一切。

借助 Grounding DINO 強大的零樣本檢測能力,Grounded SAM 可以通過文本描述就可以找到圖片中的任意物體,然后通過 SAM 強大的分割能力,細粒度的分割出 mas。

最后,還可以利用 Stable Diffusion 對分割出來的區域做可控的文圖生成。

再 Grounded-SAM 具體實踐中,研究者將 Segment-Anything 與 3 個強大的零樣本模型相結合,構建了一個自動標注系統的流程,并展示出非常非常令人印象深刻的結果!

這一項目結合了以下模型:

?BLIP:強大的圖像標注模型

?Grounding DINO:最先進的零樣本檢測器

?Segment-Anything:強大的零樣本分割模型

?Stable-Diffusion:出色的生成模型

所有的模型既可以組合使用,也可以獨立使用。組建出強大的視覺工作流模型。整個工作流擁有了檢測一切,分割一切,生成一切的能力。

該系統的功能包括:

BLIP+Grounded-SAM = 自動標注器

使用 BLIP 模型生成標題,提取標簽,并使用 Ground-SAM 生成框和掩碼:

?半自動標注系統:檢測輸入的文本,并提供精確的框標注和掩碼標注。

?全自動標注系統:

首先使用 BLIP 模型為輸入圖像生成可靠的標注,然后讓 Grounding DINO 檢測標注中的實體,接著使用 SAM 在其框提示上進行實例分割。

Stable Diffusion+Grounded-SAM = 數據工廠

?用作數據工廠生成新數據可以使用擴散修復模型根據掩碼生成新數據。

Segment Anything+HumanEditing

在這個分支中,作者使用 Segment Anything 來編輯人的頭發 / 面部。

?SAM + 頭發編輯

?SAM + 時尚編輯

作者對于 Grounded-SAM 模型提出了一些未來可能的研究方向:

自動生成圖像以構建新的數據集;分割預訓練的更強大的基礎模型;與 (Chat-) GPT 模型的合作;一個完整的管道,用于自動標注圖像(包括邊界框和掩碼),并生成新圖像。

作者介紹

Grounded-SAM 項目其中的一位研究者是清華大學計算機系的三年級博士生劉世隆。

他近日在 GitHub 上介紹了自己和團隊一起做出的最新項目,并稱目前還在完善中。

現在,劉世隆是粵港澳大灣區數字經濟研究院(IDEA 研究院),計算機視覺與機器人研究中心的實習生,由張磊教授指導,主要研究方向為目標檢測,多模態學習。

在此之前,他于 2020 年獲得了清華大學工業工程系的學士學位,并于 2019 年在曠視實習過一段時間。

個人主頁:http://www.lsl.zone/

順便提一句,劉世隆也是今年 3 月份發布的目標檢測模型 Grounding DINO 的一作。

此外,他的 4 篇論文中了 CVPR 2023,2 篇論文被 ICLR 2023 接收,1 篇論文被 AAAI 2023 接收。

論文地址:https://arxiv.org/ pdf / 2303.05499.pdf

而劉世隆提到的那位大佬 —— 任天和,目前在 IDEA 研究院擔任計算機視覺算法工程師,也由張磊教授指導,主要研究方向為目標檢測和多模態。

此外,項目的合作者還有,中國科學院大學博士三年級學生黎昆昌,主要研究方向為視頻理解和多模態學習;IDEA 研究院計算機視覺與機器人研究中心實習生曹赫,主要研究方向為生成模型;以及阿里云高級算法工程師陳佳禹。

任天和、劉世隆

安裝運行

項目需要安裝 python 3.8 及以上版本,pytorch 1.7 及以上版本和 torchvision 0.8 及以上版本。此外,作者強烈建議安裝支持 CUDA 的 PyTorch 和 TorchVision。

安裝 Segment Anything:

python-mpipinstall-esegment_anything

安裝 GroundingDINO:

python-mpipinstall-eGroundingDINO

安裝 diffusers:

pipinstall--upgradediffusers[torch]

安裝掩碼后處理、以 COCO 格式保存掩碼、example notebook 和以 ONNX 格式導出模型所需的可選依賴。同時,項目還需要 jupyter 來運行 example notebook。

pipinstallopencv-pythonpycocotoolsmatplotlibonnxruntimeonnxipykernel

GroundingDINO 演示

下載 groundingdino 檢查點:

cdGrounded-Segment-Anything
wgethttps://github.com/IDEA-Research/GroundingDINO/releases/download/v0.1.0-alpha/groundingdino_swint_ogc.pth

運行 demo:

exportCUDA_VISIBLE_DEVICES=0
pythongrounding_dino_demo.py\
--configGroundingDINO/groundingdino/config/GroundingDINO_SwinT_OGC.py\
--grounded_checkpointgroundingdino_swint_ogc.pth\
--input_imageassets/demo1.jpg\
--output_dir"outputs"\
--box_threshold0.3\
--text_threshold0.25\
--text_prompt"bear"\
--device"cuda"

模型預測可視化將保存在 output_dir 中,如下所示:

Grounded-Segment-Anything+BLIP 演示

自動生成偽標簽很簡單:

1. 使用 BLIP(或其他標注模型)來生成一個標注。

2. 從標注中提取標簽,并使用 ChatGPT 來處理潛在的復雜句子。

3. 使用 Grounded-Segment-Anything 來生成框和掩碼。

exportCUDA_VISIBLE_DEVICES=0
pythonautomatic_label_demo.py\
--configGroundingDINO/groundingdino/config/GroundingDINO_SwinT_OGC.py\
--grounded_checkpointgroundingdino_swint_ogc.pth\
--sam_checkpointsam_vit_h_4b8939.pth\
--input_imageassets/demo3.jpg\
--output_dir"outputs"\
--openai_keyyour_openai_key\
--box_threshold0.25\
--text_threshold0.2\
--iou_threshold0.5\
--device"cuda"

偽標簽和模型預測可視化將保存在 output_dir 中,如下所示:

Grounded-Segment-Anything+Inpainting 演示

CUDA_VISIBLE_DEVICES=0
pythongrounded_sam_inpainting_demo.py\
--configGroundingDINO/groundingdino/config/GroundingDINO_SwinT_OGC.py\
--grounded_checkpointgroundingdino_swint_ogc.pth\
--sam_checkpointsam_vit_h_4b8939.pth\
--input_imageassets/inpaint_demo.jpg\
--output_dir"outputs"\
--box_threshold0.3\
--text_threshold0.25\
--det_prompt"bench"\
--inpaint_prompt"Asofa,highquality,detailed"\
--device"cuda"

Grounded-Segment-Anything+Inpainting Gradio App

pythongradio_.py

作者在此提供了可視化網頁,可以更方便的嘗試各種例子。

網友評論

對于這個項目 logo,還有個深層的含義:

一只坐在地上的馬賽克風格的熊。坐在地面上是因為 ground 有地面的含義,然后分割后的圖片可以認為是一種馬賽克風格,而且馬塞克諧音 mask,之所以用熊作為 logo 主體,是因為作者主要示例的圖片是熊。

看到 Grounded-SAM 后,網友表示,知道要來,但沒想到來的這么快。

項目作者任天和稱,「我們用的 Zero-Shot 檢測器是目前來說最好的。」

未來,還會有 web demo 上線。

最后,作者表示,這個項目未來還可以基于生成模型做更多的拓展應用,例如多領域精細化編輯、高質量可信的數據工廠的構建等等。歡迎各個領域的人多多參與。

參考資料:

  • https://github.com/IDEA-Research/Grounded-Segment-Anything

  • https://www.reddit.com/r/MachineLearning/comments/12gnnfs/r_groundedsegmentanything_automatically_detect/

  • https://zhuanlan.zhihu.com/p/620271321

本文來自微信公眾號:新智元 (ID:AI_era)

總結

以上是生活随笔為你收集整理的Meta「分割一切」超进化版来了,IDEA 领衔国内顶尖团队打造:检测、分割、生成一切,狂揽 2k 星的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。