我们做了一个医疗版MNIST数据集,发现常见AutoML算法没那么好用
作者|魔王、張倩
?來源|機器之心
上海交大研究人員創(chuàng)建新型開放醫(yī)療圖像數(shù)據(jù)集 MedMNIST,并設計「MedMNIST 分類十項全能」,旨在促進 AutoML 算法在醫(yī)療圖像分析領域的研究。
在 AI 技術的發(fā)展中,數(shù)據(jù)集發(fā)揮了重要的作用。然而,醫(yī)療數(shù)據(jù)集的創(chuàng)建面臨著很多難題,如數(shù)據(jù)獲取、數(shù)據(jù)標注等。
近期,上海交通大學的研究人員創(chuàng)建了醫(yī)療圖像數(shù)據(jù)集 MedMNIST,共包含 10 個預處理開放醫(yī)療圖像數(shù)據(jù)集(其數(shù)據(jù)來自多個不同的數(shù)據(jù)源,并經過預處理)。
項目地址:
https://medmnist.github.io/
論文地址:
https://arxiv.org/pdf/2010.14925v1.pdf
GitHub 地址:
https://github.com/MedMNIST/MedMNIST
數(shù)據(jù)集下載地址:
https://www.dropbox.com/sh/upxrsyb5v8jxbso/AADOV0_6pC9Tb3cIACro1uUPa?dl=0
和 MNIST 數(shù)據(jù)集一樣,MedMNIST 數(shù)據(jù)集在輕量級 28 × 28 圖像上執(zhí)行分類任務,所含任務覆蓋主要的醫(yī)療圖像模態(tài)和多樣化的數(shù)據(jù)規(guī)模。根據(jù)研究人員的設計,MedMNIST 數(shù)據(jù)集具備以下特性:
教育性:該數(shù)據(jù)集中的多模態(tài)數(shù)據(jù)來自多個具備知識共享許可證的開放醫(yī)療圖像數(shù)據(jù)集,可以用作教育目的。
標準化:研究人員對數(shù)據(jù)進行預處理,將其轉化為相同的格式,因此用戶無需具備背景知識即可使用。
多樣性:多模態(tài)數(shù)據(jù)集涵蓋多種數(shù)據(jù)規(guī)模(從 100 到 100,000)和任務(二分類 / 多分類、有序回歸和多標簽)。
輕量級:圖像大小為 28 × 28,便于快速設計原型和試驗多模態(tài)機器學習與 AutoML 算法。
受 Medical Segmentation Decathlon(醫(yī)學分割十項全能)的啟發(fā),該研究也設計了 MedMNIST Classification Decathlon(MedMNIST 分類十項全能),作為 AutoML 在醫(yī)療圖像分類領域的基準。
它在全部 10 個數(shù)據(jù)集上評估 AutoML 算法的性能,且不對算法進行手動微調。研究人員對比了多個基線方法的性能,包括早停 ResNet [6]、開源 AutoML 工具(auto-sklearn [7] 和 AutoKeras [8]),以及商業(yè)化 AutoML 工具(Google AutoML Vision)。研究人員希望 MedMNIST Classification Decathlon 可以促進 AutoML 在醫(yī)療圖像分析領域的研究。
十個預處理數(shù)據(jù)集
MedMNIST 數(shù)據(jù)集包含 10 個預處理數(shù)據(jù)集,覆蓋主要的數(shù)據(jù)模態(tài)(如 X 光片、OCT、超聲、CT)、多樣化的分類任務(二分類 / 多分類、有序回歸和多標簽)和數(shù)據(jù)規(guī)模。如表 1 所示,數(shù)據(jù)集設計的多樣性導致了任務難度的多樣化,而這正是 AutoML 基準所需要的。研究人員對每個數(shù)據(jù)集進行預處理,將其分割為訓練 - 驗證 - 測試子集。
表 1:MedMNIST 數(shù)據(jù)集概覽,涵蓋數(shù)據(jù)集的名稱、來源、數(shù)據(jù)模態(tài)、任務和數(shù)據(jù)集分割情況。
這些數(shù)據(jù)集的數(shù)據(jù)模態(tài)涵蓋 X 光片、OCT、超聲、CT、病理切片、皮膚鏡檢查等形式,涉及結直腸癌、視網膜疾病、乳腺疾病、肝腫瘤等多個醫(yī)學領域。
新型 AutoML 醫(yī)療圖像基準
如前所述,研究人員受醫(yī)學分割十項全能的啟發(fā),設計了「MedMNIST 分類十項全能」,旨在為醫(yī)療圖像分析創(chuàng)建輕量級的 AutoML 基準。它在全部 10 個數(shù)據(jù)集上評估 AutoML 算法的性能,且不對算法進行手動微調。研究人員對比了多個基線方法的性能,參見下表 2:
從表 2 中可以看出,Google AutoML Vision 整體性能較好,但并不總是最優(yōu),有時甚至輸給 ResNet-18 和 ResNet-50。auto-sklearn 在大部分數(shù)據(jù)集上表現(xiàn)不好,這表明典型的統(tǒng)計機器學習算法在該醫(yī)療圖像數(shù)據(jù)集上性能較差。AutoKeras 在大規(guī)模數(shù)據(jù)集上性能較好,在小規(guī)模數(shù)據(jù)集上表現(xiàn)相對較差。沒有哪種算法可以在這十個數(shù)據(jù)集上取得很好的泛化性能,這有助于探索 AutoML 算法在不同數(shù)據(jù)模態(tài)、任務和規(guī)模的數(shù)據(jù)集上的泛化效果。
接下來,我們來看不同方法在訓練集、驗證集和測試集上的性能情況。如下圖 2 所示,算法在規(guī)模較小的數(shù)據(jù)集上容易過擬合。
Google AutoML Vision 能夠較好地控制過擬合問題,而 auto-sklearn 出現(xiàn)了嚴重的過擬合。據(jù)此可以推斷,對于學習算法而言,合適的 reductive bias 非常重要。我們還可以在 MedMNIST 數(shù)據(jù)集上探索不同的正則化技術,如數(shù)據(jù)增強、模型集成、優(yōu)化算法等。
如何尋找數(shù)據(jù)集?
除了醫(yī)療領域之外,其他領域的數(shù)據(jù)集有時也很難獲取,這就需要我們掌握一些常見的數(shù)據(jù)集搜集方法和常用資源。最近,Medium 上的一位博主介紹了多個常用的數(shù)據(jù)集獲取來源:
1. Awesome Data
這是一個 GitHub 存儲庫,包含多個不同類別的數(shù)據(jù)集。
鏈接:
https://github.com/awesomedata/awesome-public-datasets
2. Data Is Plural
這是一個以電子表格形式展示的數(shù)據(jù)集資源,從 2015 年開始定期更新,最新一期是 2020 年 10 月 28 日的資源,因此有些資源非常新。
鏈接:https://docs.google.com/spreadsheets/d/1wZhPLMCHKJvwOkP4juclhjFgqIY8fQFMemwKL2c64vk/edit#gid=0
3. Kaggle Datasets
Kaggle Datasets 提供了關于很多數(shù)據(jù)集的預覽和總結性信息,非常適合用來檢索特定主題的數(shù)據(jù)集。
鏈接:
https://www.kaggle.com/datasets
4. Data.world
和 Kaggle 一樣,Data.world 提供了一系列用戶貢獻的數(shù)據(jù)集,還為公司存儲和組織自己的數(shù)據(jù)提供了平臺。
鏈接:
https://data.world/
5. Google Dataset Search
數(shù)據(jù)集搜索是谷歌 2018 年推出的一個新搜索功能。如果你正在尋找特定主題或特定來源的數(shù)據(jù),這個工具值得一試。
鏈接:
https://datasetsearch.research.google.com/
6. OpenDaL
OpenDal 也是一個數(shù)據(jù)集搜索工具,你可以利用多種方式進行搜索,如根據(jù)創(chuàng)建時間或框定地圖上的某一區(qū)域。
鏈接:
https://opendatalibrary.com/
7. Pandas Data Reader
Pandas Data Reader 可以幫助你拉取在線資源中的數(shù)據(jù),然后將其用到 Python pandas DataFrame 中。這里大部分是金融數(shù)據(jù)。
鏈接:
https://pandas-datareader.readthedocs.io/en/latest/remote_data.html
8. 從 API 獲取數(shù)據(jù)
利用 Python 從 API 獲取數(shù)據(jù)也是數(shù)據(jù)科學家常用的一種方法,具體操作步驟可以參見以下教程。
鏈接:
https://towardsdatascience.com/how-to-get-data-from-apis-with-python-dfb83fdc5b5b
參考鏈接:https://towardsdatascience.com/the-top-10-best-places-to-find-datasets-8d3b4e31c442
????
現(xiàn)在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結
以上是生活随笔為你收集整理的我们做了一个医疗版MNIST数据集,发现常见AutoML算法没那么好用的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 政府为什么要通过单位给配发公租房信息
- 下一篇: 岗位内推 | 微软亚洲研究院智能多媒体组