當前位置：首頁 > 编程语言 > python >内容正文

python

python如何让图片镜像翻转_98后常春藤学霸林之秋，一作拿下CVPR最佳论文提名，首次挑战图片翻转不变性假设...

發(fā)布時間：2024/1/23 python 49 豆豆

生活随笔收集整理的這篇文章主要介紹了 python如何让图片镜像翻转_98后常春藤学霸林之秋，一作拿下CVPR最佳论文提名，首次挑战图片翻转不变性假设... 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

今年CVPR 最大的亮點之一，當屬“后浪”們在學術(shù)研究上的出色表現(xiàn)。

在一眾獲獎論文作者中，年齡最小的一位一作獲獎者甚至還在本科階段。他就是來自康奈爾大學的“98后”后浪——林之秋。這位常春藤的大四學生以第一作者身份提交的論文《Visual Chirality》(《視覺手性》)榮獲CVPR 2020?最佳論文提名?(Best Paper Nomination)。

林之秋老師發(fā)來賀函

實際上，在獲獎之前，林之秋就已經(jīng)在學校樹立了非常強悍的學霸形象。進入康奈爾大學的第一年，他所選的五門高年級課程就全部拿到A+。隨后在多項專業(yè)課，例如多元微積分、線性代數(shù)、人工智能、高等抽象代數(shù)、計算機操作系統(tǒng)等都取得了第一名。

與此同時他還同時選修了計算機和數(shù)學兩個專業(yè)，而且僅用兩年時間就全部修完本科課程。大二開始，他就開始選修博士課程，同時開始跟隨計算機系的教授從事科研工作。

因為成績極為優(yōu)異，大一階段的林之秋就已經(jīng)受計算機系里邀請，以助教身份給高年級同學講課，還為康奈爾科技學院(Cornell Tech)的同學編寫碩士生的預修課程。到了大三，林之秋已經(jīng)當上了機器學習(Machine Learning)高階課程的助教，甚至給博士生的期末試卷打分。

大學畢業(yè)，他的成績在學院數(shù)千名學生中名列前三，被授予學院最高榮譽，并受院長邀請，代表學院在畢業(yè)典禮上舉旗。

今年在 CVPR2020 上以一作身份拿下最佳論文提名，算是給他出彩的大學生涯又加上了濃墨重彩的一筆。

而據(jù)作者本人回憶，這篇論文背后其實花費了他長達兩年的時間，最主要的原因就在于“鏡像翻轉(zhuǎn)”這項研究是一個全新的課題?！艾F(xiàn)在主流學術(shù)界往往聚焦在幾個比較成熟的，且神經(jīng)網(wǎng)絡已經(jīng)做得比較好的任務上。有的時候你只要在已有的基礎(chǔ)上做些小的改進，就能有成果發(fā)表。但我們的課題卻是完完全全的創(chuàng)新，之前也沒有學者從我們的角度切入過?！?/p>

由于這是他們團隊首次挑戰(zhàn)常規(guī)神經(jīng)網(wǎng)絡訓練中圖片”翻轉(zhuǎn)不變性“(flip-invariant) 的這一假設(shè)，在研究初期自然遭到了不少質(zhì)疑，據(jù)林之秋介紹，這一課題還曾在另一個會議上被一個草率的審稿人以“不夠有新意”為理由拒稿。

而本次在 CVPR 2020 上拿下最佳論文提名，算是向那些質(zhì)疑的聲音做了一次有力的回應。

文章鏈接：https://arxiv.org/abs/2006.09512文章網(wǎng)站：visual-chirality.io代碼鏈接：https://github.com/linzhiqiu/digital_chirality

下面，我們就來欣賞論文團隊對這項創(chuàng)新工作的解讀：

簡介

神經(jīng)網(wǎng)絡訓練需要大量標注數(shù)據(jù)，但數(shù)據(jù)又永遠是有限的。為了用有限的標注數(shù)據(jù)來擬合函數(shù)，人們使用數(shù)據(jù)增強(data augmentation)的方法來低成本地獲得更多的標記數(shù)據(jù)。而鏡像翻轉(zhuǎn)則是最常用的圖像數(shù)據(jù)增強方法之一。只需要將所有圖片都進行一次鏡像翻轉(zhuǎn)，我們就相當于免費得到了雙倍的數(shù)據(jù)。

但事情真的這么簡單么？當我們翻轉(zhuǎn)了數(shù)據(jù)集里所有的圖片時，神經(jīng)網(wǎng)絡所擬合的函數(shù)還能代表原先的圖像分布么？來自康奈爾大學研究員的「視覺手性(Visual Chirality)」這篇論文首次討論了這一話題。為了理解這一鏡像翻轉(zhuǎn)話題，我們先從一個小測試開始：你能判斷以下三張圖片哪張被鏡像翻轉(zhuǎn)(水平翻轉(zhuǎn))了嗎？

以下為答案：

圖一：鏡像翻轉(zhuǎn)(線索：文字)。我們可以很容易看出來文字被翻轉(zhuǎn)過了。圖二：沒有翻轉(zhuǎn)(線索：紐扣)。男士襯衫的紐扣一般位于身體右側(cè)。圖三：鏡像翻轉(zhuǎn)(線索：吉他)。吉他手的主手應當在吉他右側(cè)。對于大部分的互聯(lián)網(wǎng)圖片來說(例如圖二圖三)，鏡像翻轉(zhuǎn)對于人類而言并沒有多少區(qū)別，因而難以判斷。然而，神經(jīng)網(wǎng)絡卻可以通過自監(jiān)督訓練的方法在這個任務上達到非常高的精度，并能指出圖片中哪些區(qū)域可以被用于識別鏡像翻轉(zhuǎn)(以上三張圖片利用了類激活映射(CAM)方法進行了高亮)。康奈爾的研究人員將這一視覺現(xiàn)象定義為“視覺手性”(Visual Chirality)。在化學等學科上，手性(Chirality)的定義為“一個物體無法與其鏡像相重合”。這種不對稱性在自然界大量存在，并在不同領(lǐng)域有著廣泛的應用。

圖注：手具有手性(Chiral)，因為鏡像翻轉(zhuǎn)后無法與原圖重合。而杯子是軸心對稱，所以不具備手性。手性(Chirality)代表著單個圖片的翻轉(zhuǎn)不對稱性，而視覺手性(Visual Chirality)則是針對圖像分布(Image Distribution)所定義的翻轉(zhuǎn)不對稱性。假設(shè)一個圖像分布中包含了右手和左手的照片(左右手的圖片出現(xiàn)概率一致)，那么此時，盡管每張圖片都具有手性，這個圖像分布卻不具備視覺手性。這是由于左手鏡像翻轉(zhuǎn)后就和右手長的一樣了。反之，假設(shè)一個圖像分布中只存在右手不存在左手，那么這個分布就具備視覺手性(或稱翻轉(zhuǎn)不對稱性)，因為我們知道一張左手的照片必然為鏡像翻轉(zhuǎn)。用統(tǒng)計學的術(shù)語來定義的話，假設(shè)有圖像分布D，而其中一個圖像是x，那么其在分布中出現(xiàn)概率是D(x)。我們將鏡像翻轉(zhuǎn)的操作稱為T，而翻轉(zhuǎn)圖片x我們可以得到T(x)。那么圖像分布D具備視覺手性意味著：D中存在圖片x，滿足D(x)≠D(T(x))的條件。如下圖所示，假設(shè)我們有一個一維的分布(橫軸上每個點都為一個元素)，那么藍色實線所代表的分布則具備視覺手性，因為和分別與和的出現(xiàn)概率不一致：

當一個圖像分布具備視覺手性時，使用鏡像翻轉(zhuǎn)作為數(shù)據(jù)增強方法將不可避免的改變一個數(shù)據(jù)集所代表的分布。換句話說，只有當一個圖像分布不具備視覺手性的時候，我們才能在不改變原先圖像分布的前提下，使用鏡像翻轉(zhuǎn)來增強數(shù)據(jù)集。然而，視覺手性是大部分視覺領(lǐng)域都擁有的屬性。正如此篇文章作者，谷歌AI科學家Noah Snavely教授所說：

“在計算機視覺的研究中，我們常把這個世界視為”翻轉(zhuǎn)不變“的，鏡像翻轉(zhuǎn)因而是一個常規(guī)的數(shù)據(jù)增強方法。然而，當你翻轉(zhuǎn)圖片后，文字將被顛倒，左手變?yōu)橛沂?#xff0c;而螺旋意大利面也將朝相反方向旋轉(zhuǎn)?！睘榱颂魬?zhàn)人們先前在計算機視覺中對于“翻轉(zhuǎn)不變性”的假設(shè)，「視覺手性」這篇文章通過自監(jiān)督訓練在幾個不同視覺領(lǐng)域驗證了“視覺手性”的存在。2

訓練方法

「視覺手性」這篇文章利用了自監(jiān)督學習(self-supervised learning)方法來訓練卷積神經(jīng)網(wǎng)絡。對于任何一個數(shù)據(jù)集，只需要將其原有的圖片標記為“無翻轉(zhuǎn)”，并將鏡像翻轉(zhuǎn)過的圖片標記為“有翻轉(zhuǎn)”，即可訓練神經(jīng)網(wǎng)絡識別鏡像翻轉(zhuǎn)這一二分類任務(binary classification)。同時我們可以根據(jù)神經(jīng)網(wǎng)絡在驗證集(validation set)的表現(xiàn)上來評估這一圖像分布是否具備視覺手性：如果驗證集上的精度要顯著大于50%，我們便有充足的證據(jù)來證明視覺手性的存在。作者在這篇文章中利用了ResNet-50作為基本的網(wǎng)絡結(jié)構(gòu)，并使用SGD方法來訓練網(wǎng)絡?；谙惹白员O(jiān)督學習方法的啟發(fā)，作者將同一張圖片的原圖和翻轉(zhuǎn)圖放到了SGD的同一batch里(shared-batch training)，加速了網(wǎng)絡的訓練。為了了解神經(jīng)網(wǎng)絡學到了哪些視覺手性線索，作者利用了類激活映射(CAM：Class Activation Map)方法，在原有圖片上對于視覺手性敏感的區(qū)域進行了高亮。同時因為能造成視覺手性的現(xiàn)象有很多，作者推出了一個簡單的基于類激活映射的聚類方法：手性特征聚類(Chiral Feature Clustering)。3

手性特征聚類方法

類激活映射方法本質(zhì)上是對于神經(jīng)網(wǎng)絡最后一層卷積層輸出的特征圖(feature map)的加權(quán)線性和(linear weighted sum)。當我們假設(shè)神經(jīng)網(wǎng)絡是利用區(qū)域特征(local feature)來判斷圖像是否為鏡像翻轉(zhuǎn)時，我們可以將類激活映射(CAM)最強的區(qū)域視為神經(jīng)網(wǎng)絡最為關(guān)注的區(qū)域特征。只需要取最后一層卷積層輸出的特征圖上這一區(qū)域的特征，便可以利用傳統(tǒng)的聚類方法例如K-means clustering進行自動分類。ResNet-50最后一層卷積輸出的特征圖為一個(16x16x2048)的三維矢量f，而類激活映射所得到的熱圖(heatmap)為(16x16)的二維矢量A。假設(shè)熱圖上數(shù)值最大的點為(x*，y*)，那么我們用來聚類的區(qū)域特征即為f(x*，y*)。作者在多個不同圖像分布上利用手性特征聚類方法對視覺手性現(xiàn)象進行了歸因和討論。4

互聯(lián)網(wǎng)圖片集

在互聯(lián)網(wǎng)圖片集上，神經(jīng)網(wǎng)絡在鏡像翻轉(zhuǎn)識別上取得了高達60%-80%的精度。作者著重分析了Instagram圖片上的視覺手性現(xiàn)象。在不用隨機剪裁(random cropping)時，神經(jīng)網(wǎng)絡在測試集上取得了高達92%的精度。然而因為有JPEG壓縮失真的可能性存在(JPEG edge artifact一般出現(xiàn)于圖片的邊緣)，作者同樣使用隨機剪裁進行了訓練，并仍舊取得了高達80%的精度。考慮到大量Instagram圖片有配文字，而文字是最明顯的視覺手性現(xiàn)象，作者用文字識別器濾除了Instagram中含有文字的圖片重新進行了訓練，但仍舊在測試集上取得了74%的高精度。值得一提的是這些訓練出來的模型具有一定程度的泛化能力，可以不經(jīng)訓練，在其他的互聯(lián)網(wǎng)圖片集(Flickr F100M)上取得高于50%的精度。作者在Instagram圖片集上進行了手性特征聚類，并挑選了一系列與我們生活相關(guān)的典型視覺手性現(xiàn)象進行討論。1、手機

對著鏡子自拍是人們最愛做的事。此類照片具有視覺手性，因為手機的攝像頭一般固定在手機背面的一側(cè)(因品牌而異)，同時由于多數(shù)人是右撇子，一般都以右手持手機進行自拍。2、吉他

幾乎大多數(shù)的吉他手都以右手撥弦，左手持把。3、手表

手表一般都被帶在人們的左手側(cè)。4、男士襯衫領(lǐng)子

男士襯衫的扣子一般處于右側(cè)。5、上衣口袋

正裝上衣的口袋幾乎無一例外處于身體左側(cè)，為了更好地服務于占大多數(shù)的右撇子。6、人臉

更令人吃驚的是，類激活映射方法在大量的人臉上出現(xiàn)了較強的反應，說明人臉中視覺手性的存在。多數(shù)情況下人臉通常被認為是對稱的：此屆CVPR 2020另一篇best student paper(Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images in the Wild)更是將人臉視為了軸心對稱的物體，并以此為線索來進行3D重建。需要強調(diào)的一點是，這些視覺手性現(xiàn)象在每張圖片中看似孤立，但神經(jīng)網(wǎng)絡仍有可能會利用多種不同的線索來對圖片是否翻轉(zhuǎn)進行判斷。為了深入了解人臉的視覺手性現(xiàn)象，作者在人臉數(shù)據(jù)集上進行了孤立訓練。作者在Flickr-Faces-HQ (FFHQ)人臉數(shù)據(jù)集上進行了訓練，并在測試集上取得了高達81%的精度，并利用手性特征聚類對人臉中的視覺手性現(xiàn)象進行了初步的探討：1)劉海分界處人們一般用右手來分理劉海，這會導致劉海的朝向向一側(cè)偏移，并出現(xiàn)視覺手性現(xiàn)象。2)眼睛人們在看向物體時傾向于用一只主視眼進行瞄準，這樣會導致人們的目光在進行拍攝時出現(xiàn)偏移。多數(shù)人的主視眼為右眼，而這一現(xiàn)象可能是導致視覺手性現(xiàn)象的成因。3)胡子與頭發(fā)一樣，可能與人們習慣于用右手理胡子有關(guān)。作者提到，文中對以上的視覺手性現(xiàn)象的討論均為初步的分析，而人臉中仍有大量的視覺手性線索值得被發(fā)掘。5

數(shù)字圖像處理

作者對數(shù)字圖像處理過程，例如去馬賽克(最常見為Bayer Demosaicing)和圖片壓縮(最常見為JPEG Compression)過程中產(chǎn)生的視覺手性現(xiàn)象進行了分析。舉個例子，當作者首次利用神經(jīng)網(wǎng)絡在Instagram數(shù)據(jù)集上進行自監(jiān)督訓練時，發(fā)現(xiàn)沒有使用隨機剪裁(random cropping)的神經(jīng)網(wǎng)絡盡管精度更高(在測試集上高達92%)，但在部分圖片上，類激活映射所得到的熱圖更著重關(guān)注圖片的邊緣部分，如左下圖所示：而在使用隨機剪裁之后，我們得到的新的熱圖則更關(guān)注來自于圖片中物體本身的線索(例如右圖的襯衫領(lǐng)子)。作者推斷這是由于Instagram的圖片均為JPEG格式，經(jīng)過了JPEG圖像壓縮這一數(shù)字圖像處理方式。JPEG壓縮的算法是在圖片上對于每16乘16的像素格進行分別處理的，而對于不能被16整除的圖片，其邊緣會用統(tǒng)一方式進行處理(例如重復邊緣像素)。這會導致JPEG壓縮的圖片的邊緣失真(edge artifact)，從而導致了視覺手性現(xiàn)象作者通過概率論與群論(group theory)對數(shù)字圖像處理過程產(chǎn)生的視覺手性現(xiàn)象進行了數(shù)學論證，并通過神經(jīng)網(wǎng)絡實驗驗證了這一現(xiàn)象在互聯(lián)網(wǎng)圖片中廣泛存在。而此類的線索往往不能被肉眼可見，卻在圖片中存在固定的模式，因而為圖像識偽的應用創(chuàng)造了可能性。由于文中的證明和實驗過程較為復雜，此處我們先給出數(shù)學定義和最重要的幾點結(jié)論。1、定義

D為數(shù)據(jù)集所來源于的圖像分布。
T為一個圖像變換函數(shù)，例如鏡像翻轉(zhuǎn)。需要注意的是論文中的證明不僅限于鏡像翻轉(zhuǎn)，也可以被用于任何具備結(jié)合律(associativitive)和可逆性(invertible)的變換。
J為一個圖像處理函數(shù)。例如去馬賽克以及JPEG圖片壓縮。
為經(jīng)過J處理后所得到的的新圖像分布。

我們沿用之前對視覺手性的定義。

對于任意圖片x，如果D(x)= D(T(x))，那么D不具備視覺手性。

對于任何經(jīng)過數(shù)字圖像處理的圖片y，如果，那么同樣不具備視覺手性。

文中最重要的結(jié)論是：

當圖像變換函數(shù)T和圖像處理函數(shù)J具備交換律(commutative property)時，如果原先的圖像分布D沒有視覺手性，經(jīng)過數(shù)字圖像處理后的分布也不具備視覺手性。換句話說，我們可以通過檢查T和J的交換律，來判斷數(shù)字圖像處理能否造成視覺手性現(xiàn)象。

作者在論文中主要涉及了兩種最常見的圖像處理方式：

去馬賽克(Demosaicing)：數(shù)字相機的感光元件一般只能在每個像素格上捕捉RGB中的其中一種顏色，而其中最常用的為貝爾濾色鏡(Bayer Color Filter Array)，如下圖所示。去馬賽克則是將感光元件得到的二維圖像還原為三維全彩的這一過程。
JPEG壓縮算法(JPEG Compression)：JPEG是一種有損的圖像壓縮方式，被廣泛應用在如今大量的互聯(lián)網(wǎng)圖片上。一般以每16乘16的像素格為單位通過色彩空間變換，縮減像素采樣，離散余弦變換等步驟來進行圖片編碼壓縮。

2、結(jié)論

去馬賽克或JPEG壓縮算法單獨使用時，會在特定的圖片大小產(chǎn)生視覺手性現(xiàn)象。對于去馬賽克，由于貝爾濾色鏡為2乘2的像素格，且濾色鏡本身不對稱(參考上圖綠紅藍綠的排序)，任何能被2整除的圖片寬度均會導致視覺手性。對于JPEG壓縮，任何不被16整除的圖片寬度均會導致視覺手性。這意味著，當去馬賽克和JPEG壓縮被共同使用時，任意寬度的圖片都將產(chǎn)生視覺手性，因為同時滿足不被2整除和能被16整除的數(shù)字不存在。
當使用隨機剪裁(random cropping)時，去馬賽克或JPEG壓縮單獨使用并不產(chǎn)生視覺手性現(xiàn)象。
當使用隨機剪裁(random cropping)時，去馬賽克和JPEG壓縮同時使用將會產(chǎn)生視覺手性現(xiàn)象。這意味著互聯(lián)網(wǎng)圖片中可能存在大量有規(guī)律的，肉眼不可見的視覺手性線索，而人們將能夠利用這類線索來進行圖片識偽。

3、證明那下面我們進入證明部分(讀者需要對群論(Group Theory)有一定基礎(chǔ))：文中最重要的證明為附加材料中的命題3：

命題3：當原圖像分布D不具備視覺手性時，如果圖像處理函數(shù)J與圖像變換函數(shù)T具備交換律，則經(jīng)J處理后的圖像分布也不具備視覺手性。

證明：

由于T具備可逆性和分配律，T可以將原分布中的圖片分為一個個不相交的循環(huán)群(disjoint cyclic groups)。

即為一個循環(huán)群，而這個循環(huán)群的單位元(identity element)可以選這個集合里面任意一個元素。這些循環(huán)群的群運算(group operation)可以被定義如下：

每個循環(huán)群的階(order of group)由T以及其中的元素決定。舉個例子，如果T為鏡像翻轉(zhuǎn)，那么對于一張對稱的照片，其所在群的階為1。對于不對稱的一張照片，其所在群的階為2。

經(jīng)過圖像處理后，每個循環(huán)群將變化為：

命題3里，我們假設(shè)T和J具備交換律，那么我們可以將上面的公式改寫，并得到：

原分布D不具備視覺手性意味著：每個循環(huán)群中的元素都有相同的概率出現(xiàn)。因此，由于經(jīng)過J圖像處理后循環(huán)群變?yōu)榱?#xff0c;我們只需要證明以下運算為同態(tài)(homomorphism)：

因為對于同態(tài)來說，根據(jù)第一同構(gòu)基本定理(First Isomorphism Theorm)可以推理出每個輸出對應著相同數(shù)量的輸入。而因為每個循環(huán)群中單個輸入在原分布D上有著相同的概率，意味著每個輸出也具備相同的概率，也意味著不具備視覺手性。

證明同態(tài)的步驟如下：

以上為命題3的證明。通過命題3，我們知道了J和T的交換律與處理后圖像分布的視覺手性的關(guān)系。那么，只需要通過檢查交換律，我們便可以判斷圖像處理是否可能產(chǎn)生新的視覺手性。檢查的方式也很簡單，對于任意圖片x，我們只需要計算其交換殘差(commutative residual)是否為0：下圖形象的解釋了交換殘差的計算過程：

文中使用去馬賽克、JPEG壓縮、以及兩者結(jié)合這三種圖像處理方法，對于鏡像翻轉(zhuǎn)這一圖片變換方式分別計算了交換殘差。當去馬賽克處理的圖像寬度為奇數(shù)時，處理后的圖像分布可能具備視覺手性；反之如果為偶數(shù)，則不具備視覺手性。當JPEG壓縮的圖片不為16整除時，處理后的圖像分布可能具備視覺手性，反之則不具備。當兩者結(jié)合后，處理后的圖片一定具備視覺手性：

作者為了驗證這些結(jié)論，在原本不具備視覺手性的人工數(shù)據(jù)集(高斯分布生成的隨機圖片)上，對不同寬度的圖片分別進行了這三種處理，并使用神經(jīng)網(wǎng)絡進行了自監(jiān)督學習。實驗結(jié)果符合這一測試的預期。因為大量互聯(lián)網(wǎng)圖片都經(jīng)過了去馬賽克和JPEG壓縮，這一結(jié)論意味著數(shù)字圖像處理所帶來的視覺手性現(xiàn)象在互聯(lián)網(wǎng)圖片中廣泛存在。當加入隨機剪裁(random cropping)后，我們還能得到這一結(jié)論么？作者的答復是肯定的。為了理解隨機剪裁對于視覺手性的影響，作者提到了兩個關(guān)鍵點。第一點：命題三中只討論了單種J的情況。而隨機剪裁可以被視為許多種J(例如是向右平移一格并剪裁，是向右平移兩個并剪裁)的結(jié)合，每一種有相同概率出現(xiàn)。第二點：命題三中并沒有討論T和J不具備交換律的情況。例如當J是向?qū)D片右平移十個像素并進行一次中心剪裁時，T和J無法具備交換律。在這種情況下，新的圖像分布并不一定具備視覺手性。對于第一點來說，假設(shè)我們有多種不同的J(例如，，)，而他們分別與T具備交換律時，我們可以用以下公式表達新的圖像分布：

我們可以很容易看出，當每一個單獨的J都和T具備交換律時，我們可以分別應用命題三，來證明每一個J產(chǎn)生的新圖像分布不具備視覺手性。而當我們將這些不具備視覺手性的新圖像分布加權(quán)求和的時候(公式20)，我們得到的新圖像分布仍舊不具備視覺手性。對于第二點來說，即便每個單獨的J都不和T具備交換律時，我們?nèi)钥梢哉业叫碌膱D像分布不具備視覺手性的情況。為了理解這一點，作者引入了一個新的概念”排列交換律”(Permuted ?Commutativity)，如下圖所示：

在這個例子中，作者假設(shè)，，)單獨并不和T具備交換律，但在一種打亂的排列下具備交換性，如圖中不同顏色的箭頭所示。這種排列帶來的交換律的關(guān)系可以用以下公式表達(a和b為排列中的序號)。

在這個情況下，每一條箭頭都能滿足命題三中的條件，因此他們的加權(quán)和仍舊不具備視覺手性。作者將這種具備”排列交換律“的情況形象得稱為”平移交換律“(Glide Commutativity)，因為這類視覺現(xiàn)象在自然界廣泛存在。例如人類的足跡，經(jīng)過平移之后仍舊是對稱的：

那么如何檢驗這種”平移交換律“的存在呢？作者針對隨機剪裁提出了一個簡單的平移交換律測試(Glide Commutativity Test)：

假設(shè)一種平移(例如左移五個像素)為Φ，測試步驟如下：

首先將任意圖片x進行填充，并確保邊緣足夠大。

將填充后的圖片進行Φ平移。

通過先后運算T和J，得到兩種圖片：?和?

將這兩個圖片用T(-Φ)平移回原處。

將這兩個圖片多余的填充像素剪裁掉。

而平移交換律測試只需要對任意兩種平移方式(和)檢查以下殘差是否為0：作者對去馬賽克，JPEG壓縮，以及兩者結(jié)合這三種圖像處理方式進行了測試。測試結(jié)果為：當去馬賽克和JPEG壓縮單獨使用時，經(jīng)過隨機剪裁后的分布具備平移交換律(如下圖1和2中的黑色格子)，所以一定不具備視覺手性。而當兩者結(jié)合時，平移交換律就消失了，同時可能產(chǎn)生視覺手性。作者同樣利用人造數(shù)據(jù)集進行了神經(jīng)網(wǎng)絡訓練，并驗證了這一測試的結(jié)果。這意味著對于大量的互聯(lián)網(wǎng)圖片，由于它們都經(jīng)過了去馬賽克和JPEG壓縮，即便我們使用了隨機剪裁，仍然有可能觀察到視覺手性。也就是說，數(shù)字圖像處理所導致的視覺手性現(xiàn)象可能大量存在于互聯(lián)網(wǎng)圖片之中，并且這類線索可能存在于任意圖片區(qū)域。這類線索在互聯(lián)網(wǎng)圖片中可能肉眼不可見，卻能被神經(jīng)網(wǎng)絡捕捉到。這也為圖片識偽(image forensic)提供了新的可能性。7

總結(jié)

「視覺手性」這篇文章首次挑戰(zhàn)了神經(jīng)網(wǎng)絡訓練中對于圖片”翻轉(zhuǎn)不變性“的假設(shè)，并在多種不同的視覺分布上發(fā)現(xiàn)了”視覺手性“的線索。這篇文章對于未來的數(shù)據(jù)增強和圖片識偽方法將有很大的指導意義。

招?聘

AI?科技評論希望能夠招聘?科技編輯/記者

辦公地點：北京/深圳

職務：以跟蹤學術(shù)熱點、人物專訪為主

工作內(nèi)容：

1、關(guān)注學術(shù)領(lǐng)域熱點事件，并及時跟蹤報道；

2、采訪人工智能領(lǐng)域?qū)W者或研發(fā)人員；

3、參加各種人工智能學術(shù)會議，并做會議內(nèi)容報道。

要求：

1、熱愛人工智能學術(shù)研究內(nèi)容，擅長與學者或企業(yè)工程人員打交道；

2、有一定的理工科背景，對人工智能技術(shù)有所了解者更佳；

3、英語能力強(工作內(nèi)容涉及大量英文資料)；

4、學習能力強，對人工智能前沿技術(shù)有一定的了解，并能夠逐漸形成自己的觀點。

感興趣者，可將簡歷發(fā)送到郵箱：jiangbaoshang@yanxishe.com點

總結(jié)

以上是生活随笔為你收集整理的python如何让图片镜像翻转_98后常春藤学霸林之秋，一作拿下CVPR最佳论文提名，首次挑战图片翻转不变性假设...的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： listen函数的第二个参数_JavaS
下一篇：用python做双人五子棋_基于pyth

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

python

python如何让图片镜像翻转_98后常春藤学霸林之秋，一作拿下CVPR最佳论文提名，首次挑战图片翻转不变性假设...

簡介

訓練方法

手性特征聚類方法

互聯(lián)網(wǎng)圖片集

數(shù)字圖像處理

總結(jié)

總結(jié)