當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

我们做了一个医疗版MNIST数据集，发现常见AutoML算法没那么好用

發(fā)布時間：2024/10/8 编程问答 86 豆豆

生活随笔收集整理的這篇文章主要介紹了我们做了一个医疗版MNIST数据集，发现常见AutoML算法没那么好用小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

作者｜魔王、張倩

?來源｜機器之心

上海交大研究人員創(chuàng)建新型開放醫(yī)療圖像數(shù)據(jù)集 MedMNIST，并設計「MedMNIST 分類十項全能」，旨在促進 AutoML 算法在醫(yī)療圖像分析領域的研究。

在 AI 技術的發(fā)展中，數(shù)據(jù)集發(fā)揮了重要的作用。然而，醫(yī)療數(shù)據(jù)集的創(chuàng)建面臨著很多難題，如數(shù)據(jù)獲取、數(shù)據(jù)標注等。

近期，上海交通大學的研究人員創(chuàng)建了醫(yī)療圖像數(shù)據(jù)集 MedMNIST，共包含 10 個預處理開放醫(yī)療圖像數(shù)據(jù)集（其數(shù)據(jù)來自多個不同的數(shù)據(jù)源，并經過預處理）。

項目地址：

https://medmnist.github.io/

論文地址：

https://arxiv.org/pdf/2010.14925v1.pdf

GitHub 地址：

https://github.com/MedMNIST/MedMNIST

數(shù)據(jù)集下載地址：

https://www.dropbox.com/sh/upxrsyb5v8jxbso/AADOV0_6pC9Tb3cIACro1uUPa?dl=0

和 MNIST 數(shù)據(jù)集一樣，MedMNIST 數(shù)據(jù)集在輕量級 28 × 28 圖像上執(zhí)行分類任務，所含任務覆蓋主要的醫(yī)療圖像模態(tài)和多樣化的數(shù)據(jù)規(guī)模。根據(jù)研究人員的設計，MedMNIST 數(shù)據(jù)集具備以下特性：

教育性：該數(shù)據(jù)集中的多模態(tài)數(shù)據(jù)來自多個具備知識共享許可證的開放醫(yī)療圖像數(shù)據(jù)集，可以用作教育目的。
標準化：研究人員對數(shù)據(jù)進行預處理，將其轉化為相同的格式，因此用戶無需具備背景知識即可使用。
多樣性：多模態(tài)數(shù)據(jù)集涵蓋多種數(shù)據(jù)規(guī)模（從 100 到 100,000）和任務（二分類 / 多分類、有序回歸和多標簽）。
輕量級：圖像大小為 28 × 28，便于快速設計原型和試驗多模態(tài)機器學習與 AutoML 算法。

受 Medical Segmentation Decathlon（醫(yī)學分割十項全能）的啟發(fā)，該研究也設計了 MedMNIST Classification Decathlon（MedMNIST 分類十項全能），作為 AutoML 在醫(yī)療圖像分類領域的基準。

它在全部 10 個數(shù)據(jù)集上評估 AutoML 算法的性能，且不對算法進行手動微調。研究人員對比了多個基線方法的性能，包括早停 ResNet [6]、開源 AutoML 工具（auto-sklearn [7] 和 AutoKeras [8]），以及商業(yè)化 AutoML 工具（Google AutoML Vision）。研究人員希望 MedMNIST Classification Decathlon 可以促進 AutoML 在醫(yī)療圖像分析領域的研究。

十個預處理數(shù)據(jù)集

MedMNIST 數(shù)據(jù)集包含 10 個預處理數(shù)據(jù)集，覆蓋主要的數(shù)據(jù)模態(tài)（如 X 光片、OCT、超聲、CT）、多樣化的分類任務（二分類 / 多分類、有序回歸和多標簽）和數(shù)據(jù)規(guī)模。如表 1 所示，數(shù)據(jù)集設計的多樣性導致了任務難度的多樣化，而這正是 AutoML 基準所需要的。研究人員對每個數(shù)據(jù)集進行預處理，將其分割為訓練 - 驗證 - 測試子集。

表 1：MedMNIST 數(shù)據(jù)集概覽，涵蓋數(shù)據(jù)集的名稱、來源、數(shù)據(jù)模態(tài)、任務和數(shù)據(jù)集分割情況。

這些數(shù)據(jù)集的數(shù)據(jù)模態(tài)涵蓋 X 光片、OCT、超聲、CT、病理切片、皮膚鏡檢查等形式，涉及結直腸癌、視網膜疾病、乳腺疾病、肝腫瘤等多個醫(yī)學領域。

新型 AutoML 醫(yī)療圖像基準

如前所述，研究人員受醫(yī)學分割十項全能的啟發(fā)，設計了「MedMNIST 分類十項全能」，旨在為醫(yī)療圖像分析創(chuàng)建輕量級的 AutoML 基準。它在全部 10 個數(shù)據(jù)集上評估 AutoML 算法的性能，且不對算法進行手動微調。研究人員對比了多個基線方法的性能，參見下表 2：

從表 2 中可以看出，Google AutoML Vision 整體性能較好，但并不總是最優(yōu)，有時甚至輸給 ResNet-18 和 ResNet-50。auto-sklearn 在大部分數(shù)據(jù)集上表現(xiàn)不好，這表明典型的統(tǒng)計機器學習算法在該醫(yī)療圖像數(shù)據(jù)集上性能較差。AutoKeras 在大規(guī)模數(shù)據(jù)集上性能較好，在小規(guī)模數(shù)據(jù)集上表現(xiàn)相對較差。沒有哪種算法可以在這十個數(shù)據(jù)集上取得很好的泛化性能，這有助于探索 AutoML 算法在不同數(shù)據(jù)模態(tài)、任務和規(guī)模的數(shù)據(jù)集上的泛化效果。

接下來，我們來看不同方法在訓練集、驗證集和測試集上的性能情況。如下圖 2 所示，算法在規(guī)模較小的數(shù)據(jù)集上容易過擬合。

Google AutoML Vision 能夠較好地控制過擬合問題，而 auto-sklearn 出現(xiàn)了嚴重的過擬合。據(jù)此可以推斷，對于學習算法而言，合適的 reductive bias 非常重要。我們還可以在 MedMNIST 數(shù)據(jù)集上探索不同的正則化技術，如數(shù)據(jù)增強、模型集成、優(yōu)化算法等。

如何尋找數(shù)據(jù)集？

除了醫(yī)療領域之外，其他領域的數(shù)據(jù)集有時也很難獲取，這就需要我們掌握一些常見的數(shù)據(jù)集搜集方法和常用資源。最近，Medium 上的一位博主介紹了多個常用的數(shù)據(jù)集獲取來源：

1. Awesome Data

這是一個 GitHub 存儲庫，包含多個不同類別的數(shù)據(jù)集。

鏈接：

https://github.com/awesomedata/awesome-public-datasets

2. Data Is Plural

這是一個以電子表格形式展示的數(shù)據(jù)集資源，從 2015 年開始定期更新，最新一期是 2020 年 10 月 28 日的資源，因此有些資源非常新。

鏈接：https://docs.google.com/spreadsheets/d/1wZhPLMCHKJvwOkP4juclhjFgqIY8fQFMemwKL2c64vk/edit#gid=0

3. Kaggle Datasets

Kaggle Datasets 提供了關于很多數(shù)據(jù)集的預覽和總結性信息，非常適合用來檢索特定主題的數(shù)據(jù)集。

鏈接：

https://www.kaggle.com/datasets

4. Data.world

和 Kaggle 一樣，Data.world 提供了一系列用戶貢獻的數(shù)據(jù)集，還為公司存儲和組織自己的數(shù)據(jù)提供了平臺。

鏈接：

https://data.world/

5. Google Dataset Search

數(shù)據(jù)集搜索是谷歌 2018 年推出的一個新搜索功能。如果你正在尋找特定主題或特定來源的數(shù)據(jù)，這個工具值得一試。

鏈接：

https://datasetsearch.research.google.com/

6. OpenDaL

OpenDal 也是一個數(shù)據(jù)集搜索工具，你可以利用多種方式進行搜索，如根據(jù)創(chuàng)建時間或框定地圖上的某一區(qū)域。

鏈接：

https://opendatalibrary.com/

7. Pandas Data Reader

Pandas Data Reader 可以幫助你拉取在線資源中的數(shù)據(jù)，然后將其用到 Python pandas DataFrame 中。這里大部分是金融數(shù)據(jù)。

鏈接：

https://pandas-datareader.readthedocs.io/en/latest/remote_data.html

8. 從 API 獲取數(shù)據(jù)

利用 Python 從 API 獲取數(shù)據(jù)也是數(shù)據(jù)科學家常用的一種方法，具體操作步驟可以參見以下教程。

鏈接：

https://towardsdatascience.com/how-to-get-data-from-apis-with-python-dfb83fdc5b5b

參考鏈接：https://towardsdatascience.com/the-top-10-best-places-to-find-datasets-8d3b4e31c442

????

現(xiàn)在，在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關注」訂閱我們的專欄吧

關于PaperWeekly

PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域，歡迎在公眾號后臺點擊「交流群」，小助手將把你帶入 PaperWeekly 的交流群里。

總結

以上是生活随笔為你收集整理的我们做了一个医疗版MNIST数据集，发现常见AutoML算法没那么好用的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：政府为什么要通过单位给配发公租房信息
下一篇：岗位内推 | 微软亚洲研究院智能多媒体组