日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

我们做了一个医疗版MNIST数据集,发现常见AutoML算法没那么好用

發(fā)布時間:2024/10/8 编程问答 86 豆豆
生活随笔 收集整理的這篇文章主要介紹了 我们做了一个医疗版MNIST数据集,发现常见AutoML算法没那么好用 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

作者|魔王、張倩

?來源|機器之心

上海交大研究人員創(chuàng)建新型開放醫(yī)療圖像數(shù)據(jù)集 MedMNIST,并設計「MedMNIST 分類十項全能」,旨在促進 AutoML 算法在醫(yī)療圖像分析領域的研究。

在 AI 技術的發(fā)展中,數(shù)據(jù)集發(fā)揮了重要的作用。然而,醫(yī)療數(shù)據(jù)集的創(chuàng)建面臨著很多難題,如數(shù)據(jù)獲取、數(shù)據(jù)標注等。

近期,上海交通大學的研究人員創(chuàng)建了醫(yī)療圖像數(shù)據(jù)集 MedMNIST,共包含 10 個預處理開放醫(yī)療圖像數(shù)據(jù)集(其數(shù)據(jù)來自多個不同的數(shù)據(jù)源,并經過預處理)。

項目地址:

https://medmnist.github.io/

論文地址:

https://arxiv.org/pdf/2010.14925v1.pdf

GitHub 地址:

https://github.com/MedMNIST/MedMNIST

數(shù)據(jù)集下載地址:

https://www.dropbox.com/sh/upxrsyb5v8jxbso/AADOV0_6pC9Tb3cIACro1uUPa?dl=0

和 MNIST 數(shù)據(jù)集一樣,MedMNIST 數(shù)據(jù)集在輕量級 28 × 28 圖像上執(zhí)行分類任務,所含任務覆蓋主要的醫(yī)療圖像模態(tài)和多樣化的數(shù)據(jù)規(guī)模。根據(jù)研究人員的設計,MedMNIST 數(shù)據(jù)集具備以下特性:

  • 教育性:該數(shù)據(jù)集中的多模態(tài)數(shù)據(jù)來自多個具備知識共享許可證的開放醫(yī)療圖像數(shù)據(jù)集,可以用作教育目的。

  • 標準化:研究人員對數(shù)據(jù)進行預處理,將其轉化為相同的格式,因此用戶無需具備背景知識即可使用

  • 多樣性:多模態(tài)數(shù)據(jù)集涵蓋多種數(shù)據(jù)規(guī)模(從 100 到 100,000)和任務(二分類 / 多分類、有序回歸和多標簽)。

  • 輕量級:圖像大小為 28 × 28,便于快速設計原型和試驗多模態(tài)機器學習與 AutoML 算法。

受 Medical Segmentation Decathlon(醫(yī)學分割十項全能)的啟發(fā),該研究也設計了 MedMNIST Classification Decathlon(MedMNIST 分類十項全能),作為 AutoML 在醫(yī)療圖像分類領域的基準。

它在全部 10 個數(shù)據(jù)集上評估 AutoML 算法的性能,且不對算法進行手動微調。研究人員對比了多個基線方法的性能,包括早停 ResNet [6]、開源 AutoML 工具(auto-sklearn [7] 和 AutoKeras [8]),以及商業(yè)化 AutoML 工具(Google AutoML Vision)。研究人員希望 MedMNIST Classification Decathlon 可以促進 AutoML 在醫(yī)療圖像分析領域的研究。

十個預處理數(shù)據(jù)集

MedMNIST 數(shù)據(jù)集包含 10 個預處理數(shù)據(jù)集,覆蓋主要的數(shù)據(jù)模態(tài)(如 X 光片、OCT、超聲、CT)、多樣化的分類任務(二分類 / 多分類、有序回歸和多標簽)和數(shù)據(jù)規(guī)模。如表 1 所示,數(shù)據(jù)集設計的多樣性導致了任務難度的多樣化,而這正是 AutoML 基準所需要的。研究人員對每個數(shù)據(jù)集進行預處理,將其分割為訓練 - 驗證 - 測試子集。

表 1:MedMNIST 數(shù)據(jù)集概覽,涵蓋數(shù)據(jù)集的名稱、來源、數(shù)據(jù)模態(tài)、任務和數(shù)據(jù)集分割情況。

這些數(shù)據(jù)集的數(shù)據(jù)模態(tài)涵蓋 X 光片、OCT、超聲、CT、病理切片、皮膚鏡檢查等形式,涉及結直腸癌、視網膜疾病、乳腺疾病、肝腫瘤等多個醫(yī)學領域。

新型 AutoML 醫(yī)療圖像基準

如前所述,研究人員受醫(yī)學分割十項全能的啟發(fā),設計了「MedMNIST 分類十項全能」,旨在為醫(yī)療圖像分析創(chuàng)建輕量級的 AutoML 基準。它在全部 10 個數(shù)據(jù)集上評估 AutoML 算法的性能,且不對算法進行手動微調。研究人員對比了多個基線方法的性能,參見下表 2:

從表 2 中可以看出,Google AutoML Vision 整體性能較好,但并不總是最優(yōu),有時甚至輸給 ResNet-18 和 ResNet-50。auto-sklearn 在大部分數(shù)據(jù)集上表現(xiàn)不好,這表明典型的統(tǒng)計機器學習算法在該醫(yī)療圖像數(shù)據(jù)集上性能較差。AutoKeras 在大規(guī)模數(shù)據(jù)集上性能較好,在小規(guī)模數(shù)據(jù)集上表現(xiàn)相對較差。沒有哪種算法可以在這十個數(shù)據(jù)集上取得很好的泛化性能,這有助于探索 AutoML 算法在不同數(shù)據(jù)模態(tài)、任務和規(guī)模的數(shù)據(jù)集上的泛化效果。

接下來,我們來看不同方法在訓練集、驗證集和測試集上的性能情況。如下圖 2 所示,算法在規(guī)模較小的數(shù)據(jù)集上容易過擬合。

Google AutoML Vision 能夠較好地控制過擬合問題,而 auto-sklearn 出現(xiàn)了嚴重的過擬合。據(jù)此可以推斷,對于學習算法而言,合適的 reductive bias 非常重要。我們還可以在 MedMNIST 數(shù)據(jù)集上探索不同的正則化技術,如數(shù)據(jù)增強、模型集成、優(yōu)化算法等。

如何尋找數(shù)據(jù)集?

除了醫(yī)療領域之外,其他領域的數(shù)據(jù)集有時也很難獲取,這就需要我們掌握一些常見的數(shù)據(jù)集搜集方法和常用資源。最近,Medium 上的一位博主介紹了多個常用的數(shù)據(jù)集獲取來源:

1. Awesome Data

這是一個 GitHub 存儲庫,包含多個不同類別的數(shù)據(jù)集。

鏈接:

https://github.com/awesomedata/awesome-public-datasets

2. Data Is Plural

這是一個以電子表格形式展示的數(shù)據(jù)集資源,從 2015 年開始定期更新,最新一期是 2020 年 10 月 28 日的資源,因此有些資源非常新。

鏈接:https://docs.google.com/spreadsheets/d/1wZhPLMCHKJvwOkP4juclhjFgqIY8fQFMemwKL2c64vk/edit#gid=0

3. Kaggle Datasets

Kaggle Datasets 提供了關于很多數(shù)據(jù)集的預覽和總結性信息,非常適合用來檢索特定主題的數(shù)據(jù)集。

鏈接:

https://www.kaggle.com/datasets

4. Data.world

和 Kaggle 一樣,Data.world 提供了一系列用戶貢獻的數(shù)據(jù)集,還為公司存儲和組織自己的數(shù)據(jù)提供了平臺。

鏈接:

https://data.world/

5. Google Dataset Search

數(shù)據(jù)集搜索是谷歌 2018 年推出的一個新搜索功能。如果你正在尋找特定主題或特定來源的數(shù)據(jù),這個工具值得一試。

鏈接:

https://datasetsearch.research.google.com/

6. OpenDaL

OpenDal 也是一個數(shù)據(jù)集搜索工具,你可以利用多種方式進行搜索,如根據(jù)創(chuàng)建時間或框定地圖上的某一區(qū)域。

鏈接:

https://opendatalibrary.com/

7. Pandas Data Reader

Pandas Data Reader 可以幫助你拉取在線資源中的數(shù)據(jù),然后將其用到 Python pandas DataFrame 中。這里大部分是金融數(shù)據(jù)。

鏈接:

https://pandas-datareader.readthedocs.io/en/latest/remote_data.html

8. 從 API 獲取數(shù)據(jù)

利用 Python 從 API 獲取數(shù)據(jù)也是數(shù)據(jù)科學家常用的一種方法,具體操作步驟可以參見以下教程。

鏈接:

https://towardsdatascience.com/how-to-get-data-from-apis-with-python-dfb83fdc5b5b

參考鏈接:https://towardsdatascience.com/the-top-10-best-places-to-find-datasets-8d3b4e31c442

????

現(xiàn)在,在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關注」訂閱我們的專欄吧

關于PaperWeekly

PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。

總結

以上是生活随笔為你收集整理的我们做了一个医疗版MNIST数据集,发现常见AutoML算法没那么好用的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。