翻译: Deep Convolutional Neural Networks for Breast Cancer Histology Image Analysis
翻譯: Deep Convolutional Neural Networks for Breast Cancer Histology Image Analysis(深度卷積神經(jīng)網(wǎng)絡(luò)在乳腺癌組織學(xué)圖像分析中的應(yīng)用)
乳腺癌是全球癌癥死亡的主要原因之一。早期診斷顯著增加了正確治療和生存的機(jī)會,但這個過程很繁瑣,并且常常導(dǎo)致病理學(xué)家之間的分歧。計算機(jī)輔助診斷系統(tǒng)顯示出提高診斷準(zhǔn)確性的潛力。在這項工作中,我們開發(fā)了基于深度卷積神經(jīng)網(wǎng)絡(luò)的計算方法,用于乳腺癌組織學(xué)圖像分類。蘇木精和伊紅染色的乳腺組織學(xué)顯微鏡圖像數(shù)據(jù)集作為ICIAR 2018乳腺癌組織學(xué)挑戰(zhàn)賽的一部分提供。 我們的方法利用了幾種深度神經(jīng)網(wǎng)絡(luò)架構(gòu)和梯度增強(qiáng)樹分類器。 對于4級分類任務(wù),我們報告準(zhǔn)確率為87.2%。 對于檢測癌癥的2級分類任務(wù),我們在高靈敏度操作點報告準(zhǔn)確度為93.8%,AUC為97.3%,靈敏度/特異度為96.5 / 88.0%。 據(jù)我們所知,這種方法在自動化組織病理學(xué)圖像分類中優(yōu)于其他常用方法。 我們的方法的源代碼可在https://github.com/alexander-rakhlin/ICIAR2018上公開獲取。
關(guān)鍵詞:醫(yī)學(xué)圖像,計算機(jī)輔助診斷(CAD),計算機(jī)視覺,圖像識別,深度學(xué)習(xí)
1.Introduction
乳腺癌是美國女性中最常見的癌癥(不包括皮膚癌),占美國女性新癌癥診斷的30%[1]。乳房組織活組織檢查允許病理學(xué)家利用組織學(xué)知識評估組織的微觀結(jié)構(gòu)和元素。組織病理學(xué)旨在區(qū)分正常組織,非惡性(良性)和惡性病變(癌)并進(jìn)行預(yù)后評估[2]。蘇木精和伊紅(H&E)的組合是常規(guī)組織病理學(xué)診斷的組織標(biāo)本的主要染色。有多種類型的乳腺癌具有特征性的組織形態(tài),見圖1.乳腺癌起源于乳腺上皮,導(dǎo)致導(dǎo)管內(nèi)的惡變前上皮增生,稱為原位導(dǎo)管癌。浸潤性癌的特征在于癌細(xì)胞能夠突破管壁的基底膜并滲透到周圍組織中[3]。
組織,細(xì)胞和亞細(xì)胞區(qū)室的形態(tài)受與細(xì)胞分化,發(fā)育和癌癥相關(guān)的復(fù)雜生物學(xué)機(jī)制的調(diào)節(jié)[4]。 傳統(tǒng)上,形態(tài)學(xué)評估和腫瘤分級由病理學(xué)家在視覺上進(jìn)行,然而,這個過程是乏味和主觀的,甚至在高級病理學(xué)家之間也會產(chǎn)生觀察之間的差異[5,6]。 在視覺分類中應(yīng)用形態(tài)學(xué)標(biāo)準(zhǔn)的主觀性促使使用計算機(jī)輔助診斷(CAD)系統(tǒng)來提高診斷準(zhǔn)確性,減少人為錯誤,提高觀察者間協(xié)議水平,并提高再現(xiàn)性[3]。
從基于規(guī)則到機(jī)器學(xué)習(xí)的應(yīng)用[3],為數(shù)字病理圖像分析開發(fā)了許多方法。 最近,基于深度學(xué)習(xí)的方法在許多圖像分析任務(wù)中表現(xiàn)優(yōu)于傳統(tǒng)的機(jī)器學(xué)習(xí)方法,自動化端到端處理[7-9]。 在醫(yī)學(xué)成像領(lǐng)域,卷積神經(jīng)網(wǎng)絡(luò)(CNN)已成功用于糖尿病視網(wǎng)膜病變篩查[10],骨病預(yù)測[11]和年齡評估[12]等問題[7]。 以前基于深度學(xué)習(xí)的組織學(xué)顯微圖像分析應(yīng)用已經(jīng)證明了它們在診斷乳腺癌方面的潛力[3,13-15]。
在本文中,我們提出了一種用于乳腺癌類型分類的組織學(xué)顯微圖像分析方法。 我們的方法利用深度CNN進(jìn)行特征提取和梯度增強(qiáng)樹進(jìn)行分類,據(jù)我們所知,它優(yōu)于其他類似解決方案。
2 Methods
2.1 Dataset
圖像數(shù)據(jù)集是來自[13]的數(shù)據(jù)集的擴(kuò)展,由400個H&E染色圖像(2048×1536像素)組成。 所有圖像均采用相同的采集條件進(jìn)行數(shù)字化,放大倍率為200倍,像素尺寸為0.42μ?×0.42μ?。 每個圖像都標(biāo)有四種平衡類別之一:正常,良性,原位導(dǎo)管癌和浸潤性癌,其中類別被定義為圖像中的主要癌癥類型,參見圖1。圖像方式注釋由兩位醫(yī)學(xué)專家[16]。 挑戰(zhàn)的目標(biāo)是為每個輸入圖像提供自動分類。
2.2方法概述
數(shù)據(jù)集的有限大小(4個類別的400個圖像)對深度學(xué)習(xí)模型的訓(xùn)練提出了重大挑戰(zhàn)[7]。包含VGG,Inception和ResNet等數(shù)百萬參數(shù)的非常深的CNN架構(gòu)在許多計算機(jī)視覺任務(wù)中取得了最先進(jìn)的結(jié)果[17]。然而,從頭開始訓(xùn)練這些神經(jīng)網(wǎng)絡(luò)需要大量圖像,因為對小數(shù)據(jù)集的訓(xùn)練導(dǎo)致過度擬合,即無法概括知識。當(dāng)僅將預(yù)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)的一部分?jǐn)M合到新數(shù)據(jù)集時,在這些情況下的典型補(bǔ)救措施被稱為微調(diào)。但是,在我們的實驗中,微調(diào)方法并未表現(xiàn)出良好的性能。因此,我們采用了一種稱為深度卷積特征表示的不同方法[18]。為此,深度CNN在大型和一般數(shù)據(jù)集如ImageNet(10M圖像,20K類)[19]上進(jìn)行訓(xùn)練,用于無監(jiān)督特征表示提取。在這項研究中,乳房組織學(xué)圖像使用最先進(jìn)的通用網(wǎng)絡(luò)進(jìn)行編碼,以獲得低維度的稀疏描述符(1408或2048)。這種無監(jiān)督的降維步驟顯著降低了下一階段監(jiān)督學(xué)習(xí)過度擬合的風(fēng)險。
我們使用LightGBM作為梯度增強(qiáng)樹的快速,分布式,高性能實現(xiàn),用于監(jiān)督分類[20]。 梯度增強(qiáng)模型由于其速度,精度和對過度擬合的魯棒性而被廣泛用于機(jī)器學(xué)習(xí)[21]。
2.3數(shù)據(jù)預(yù)處理和擴(kuò)充
為了將顯微鏡圖像放入一個共同的空間以便進(jìn)行改進(jìn)的定量分析,我們將[22]中描述的H&E染色在組織上的量進(jìn)行標(biāo)準(zhǔn)化。對于每個圖像,我們執(zhí)行50種隨機(jī)顏色增強(qiáng)。在[23]之后,通過將組織的RGB顏色分解為H&E顏色空間,然后將每個像素的H&E的大小乘以范圍[0.7,1.3]中的兩個隨機(jī)均勻變量來調(diào)整H&E的量。此外,在我們的初始實驗中,我們使用了不同的圖像比例,原始的2048×1536像素,縮小了一半到1024×768像素。從原始尺寸的圖像中我們隨機(jī)剪裁提取兩種尺寸800×800和1300×1300。從縮小的圖像中我們剪裁400×400像素和650×650像素的圖像。最近,我們發(fā)現(xiàn)縮小圖像就足夠了。因此,每個圖像由20個crops表示。然后將crops編碼為20個描述符。然后,將20個描述符的集合通過3范數(shù)池[24]組合成單個描述符:
如[24,25]中建議的那樣,超參數(shù)?= 3,?是數(shù)字作物,d?是crops的描述符,d????是圖像的合并描述符。 向量的p范數(shù)給出?= 1的平均值和?→∞的最大值。結(jié)果,對于每個原始圖像,我們獲得50(顏色增強(qiáng)的數(shù)量)×2(裁剪尺寸)×3(CNN編碼器)= 300個描述符。
2.4特征提取
整體預(yù)處理流水線如圖2所示。對于特征提取,我們使用Keras分布的標(biāo)準(zhǔn)預(yù)訓(xùn)練ResNet-50,InceptionV3和VGG-16網(wǎng)絡(luò)[26]。 我們從每個模型中刪除完全連接層,以允許網(wǎng)絡(luò)使用任意大小的圖像。 在ResNet-50和InceptionV3中,我們通過GlobalAveragePooling將包含2048個通道的最后一個卷積層轉(zhuǎn)換為長度為2048的一維特征向量。使用VGG-16,我們將GlobalAveragePooling操作應(yīng)用于四個內(nèi)部卷積層:block2, block3,block4,block5分別有128,256,512,512個通道。 我們將它們連接成一個長度為1408的向量,見圖3。
2.5 訓(xùn)練
我們將數(shù)據(jù)分成10個分層折疊以保持類分布。數(shù)據(jù)增加會使數(shù)據(jù)集的大小增加300倍(2個塊圖像大小x 3個編碼器x 50個顏色/仿射增強(qiáng))。然而,給定圖像的描述符保持相關(guān)。為防止信息泄漏,同一圖像的所有描述符必須包含在同一折疊中。對于編碼器,crop大小和規(guī)模的每個組合,我們使用10倍交叉驗證訓(xùn)練10個梯度增強(qiáng)模型。除了獲得交叉驗證的結(jié)果之外,這還允許我們通過有限的數(shù)據(jù)(套袋)增加模型的多樣性。此外,我們使用LightGBM中的不同隨機(jī)種子循環(huán)每個數(shù)據(jù)集5次,在模型級別上添加擴(kuò)充。結(jié)果,我們訓(xùn)練10(折疊數(shù))×5(種子)×4(比例和crop)×3(CNN編碼器)= 600梯度增強(qiáng)模型。在交叉驗證階段,我們僅使用未經(jīng)過此折疊培訓(xùn)的模型來預(yù)測每個折疊。對于測試數(shù)據(jù),我們同樣為每個圖像提取300個描述符,并將它們與針對特定塊大小和編碼器訓(xùn)練的所有模型一起使用。所有增強(qiáng)和模型的平均值均為預(yù)測值。最后,預(yù)測類由最大概率分?jǐn)?shù)定義。
3 Results
為了驗證方法,我們使用10倍交叉驗證。【0-fold cross-validation,用來測試算法準(zhǔn)確性。是常用的測試方法。將數(shù)據(jù)集分成十份,輪流將其中9份作為訓(xùn)練數(shù)據(jù),1份作為測試數(shù)據(jù),進(jìn)行試驗。每次試驗都會得出相應(yīng)的正確率(或差錯率)。10次的結(jié)果的正確率(或差錯率)的平均值作為對算法精度的估計,一般還需要進(jìn)行多次10倍交叉驗證(例如10次10折交叉驗證),再求其均值,作為對算法準(zhǔn)確性的估計。】
對于二分類非癌(正常和良性)與癌(原位導(dǎo)管癌和浸潤性癌),分類準(zhǔn)確度為93.8±2.3%,ROC曲線下面積為0.973,見圖4a。 在高靈敏度設(shè)定點0.33時,模型檢測癌的靈敏度為96.5%,特異性為88.0%。 在0.50的設(shè)定點,模型的靈敏度為93.0%,特異性為94.5%,圖4a。 在200例癌癥病例中,僅有9例原位導(dǎo)管癌和5例浸潤性癌,圖4b。
表1顯示了4分類的分類準(zhǔn)確性。 所有fold的平均準(zhǔn)確度為87.2±2.6%。 最后,從表1中可以看出我們使用的強(qiáng)增強(qiáng)和模型融合的重要性。融合模型的準(zhǔn)確度比其任何單個成分高出4-5%。整體10倍的標(biāo)準(zhǔn)偏差是兩倍。 低于各個型號的平均標(biāo)準(zhǔn)偏差。 此外,通過對5個種子模型進(jìn)行平均,我們在表1中的所有結(jié)果都略有改善。
4.結(jié)論
在本文中,我們提出了一種簡單有效的方法,用于在非常小的訓(xùn)練數(shù)據(jù)(幾百個樣本)的情況下對H&E染色的組織學(xué)乳腺癌圖像進(jìn)行分類。 為了提高分類器的穩(wěn)健性,我們使用強(qiáng)大的數(shù)據(jù)增強(qiáng)和深度卷積特征,這些特征是在ImageNet上預(yù)先訓(xùn)練的公共CNN上提取的。 最重要的是,我們應(yīng)用高度準(zhǔn)確且易于過度擬合的梯度增強(qiáng)算法。 與以前的一些方法不同,我們有目的的避免在這一數(shù)據(jù)量上訓(xùn)練神經(jīng)網(wǎng)絡(luò),以防止過擬合。據(jù)我們所知,本文的結(jié)果優(yōu)于文獻(xiàn)報道的乳腺癌圖像的自動分析[13-15]。
個人翻譯僅供參考,請大家及時指出錯誤
總結(jié)
以上是生活随笔為你收集整理的翻译: Deep Convolutional Neural Networks for Breast Cancer Histology Image Analysis的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【WebRTC】回声抵消(aec、aec
- 下一篇: android 4.4 锁屏密码,安卓手