AI算法又整新活,去海边跳一支舞!
大家好,我是K同學(xué)啊!
昨天逛某知名網(wǎng)站的時(shí)候,發(fā)現(xiàn)了一個(gè)有趣的算法,分享給大家
一張任意背景的圖片,實(shí)現(xiàn)任意切換背景,感受一下:
放個(gè)視頻,感受更強(qiáng)烈:
MODNet算法展示!
MODNet
MODNet是一個(gè)僅需RGB圖片輸入的實(shí)時(shí)人像摳圖模型。
模型學(xué)習(xí)分為三個(gè)部分:語義估計(jì)(Semantic Estimation)、細(xì)節(jié)預(yù)測(Detail Prediction)和語義細(xì)節(jié)融合(Semantic-Detail Fusion)。
語義估計(jì)(Semantic Estimation):與現(xiàn)有的多模型方法類似,MODNet的第一步是在輸入圖像中定位人。不同之處在于,這里只能通過編碼器來提取高級(jí)語義。MODNet的低分辨率分支,它有兩個(gè)主要優(yōu)勢。首先,語義估計(jì)變得更加有效,因?yàn)樗辉儆砂獯a器的單獨(dú)模型來完成。其次,高級(jí)表示(I)有助于后續(xù)分支和聯(lián)合優(yōu)化。我們可以應(yīng)用任意的CNN骨干toS。為了促進(jìn)實(shí)時(shí)交互,我們采用了MobileNetV2[35]架構(gòu),這是一種為移動(dòng)設(shè)備開發(fā)的獨(dú)立模型。
細(xì)節(jié)預(yù)測(Detail Prediction):使用了高分辨率分支 D 處理前景肖像周圍的過渡區(qū)域,它采用 I、S(I) 和來自 Sas 輸入的低級(jí)特征。重用低級(jí)特征的目的是減少D的計(jì)算開銷。此外,作者在以下三個(gè)方面進(jìn)行就進(jìn)一步簡化:
- D包含比S更少的卷積層;
- 為D中的卷積層選擇了一個(gè)小的通道數(shù);
- 我們不保持整個(gè)D的原始輸入分辨率。在實(shí)踐中,D由12個(gè)卷積層組成,其最大通道數(shù)為64。特征圖分辨率在第一層下采樣到1/4,在后兩層恢復(fù)。此設(shè)置對(duì)細(xì)節(jié)預(yù)測的影響可以忽略不計(jì)。
都想要的
- 論文地址:https://github.com/ZHKKKe/MODNet
- 項(xiàng)目地址:https://arxiv.org/pdf/2011.11961.pdf
如果你懶得去看論文也不想敲代碼,請看下面,作者早已洞悉大家的急迫上手的心情,代碼直接給我們準(zhǔn)備好了,只需點(diǎn)一個(gè)「運(yùn)行」按鈕即可。
- 圖像:https://colab.research.google.com/drive/1GANpbKT06aEFiW-Ssx0DQnnEADcXwQG6?usp=sharing
- 視頻:https://colab.research.google.com/drive/1Pt3KDSc2q7WxFvekCnCLD8P0gBEbxm6J?usp=sharing
把發(fā)絲都能給扣出來,就很厲害了
最后再送大家一本,幫助大家拿到 BAT 等一線大廠 offer 的數(shù)據(jù)結(jié)構(gòu)刷題筆記,是谷歌和阿里的大佬寫的,對(duì)于算法薄弱或者需要提高的同學(xué)都十分受用(提取碼:9go2 ):
谷歌和阿里大佬的Leetcode刷題筆記
以及我整理的7K+本開源電子書,總有一本可以幫到你 💖(提取碼:4eg0)
7K+本開源電子書
視頻來源:https://www.bilibili.com/video/BV1T64y1f7r4?from=search&seid=2466061107466395687
總結(jié)
以上是生活随笔為你收集整理的AI算法又整新活,去海边跳一支舞!的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 进度条模块tqdm介绍
- 下一篇: 深度学习100例-卷积神经网络(LeNe