當前位置：首頁 > 人工智能 > pytorch >内容正文

pytorch

匿名电子病例信息不全？深度学习能更好的判断出种族（代码开源）

發布時間：2025/3/8 pytorch 37 豆豆

生活随笔收集整理的這篇文章主要介紹了匿名电子病例信息不全？深度学习能更好的判断出种族（代码开源）小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

本文來自AI新媒體量子位（QbitAI）

匿名電子病歷（EMR）是越來越受歡迎的研究數據來源。然而，這些數據集通常缺少人種和種族信息。這給人類疾病的研究人員造成了困擾，因為人種和種族對許多健康風險和治療結果有著重要的影響，另外也跟人口特異性遺傳變異密切相關。

為此，來自普林斯頓大學的Ji-Sung Kim，以及來自芝加哥大學的Andrey Rzhetsky共同展開了一項新的研究，并把研究工具RIDDLE進行了開源。

RIDDLE是一個開源的Python2庫，用于使用深度學習方式在匿名電子病歷中估算人種和種族信息。

Kim和Rzhetsky使用了來自芝加哥和紐約的EMR數據集，總共描述了超過150萬名患者，約有1.5萬個特征，包括：性別、年齡、臨床事件觀察（編號為ICD9代碼）。

在這個研究中，他們發現深度神經網絡比其他方法（例如邏輯回歸、隨機森林）能更準確的補全缺失的人種和民族信息，在所有考察標準上都得到了更好的分類性能：精度、交叉熵損失（誤差）等。

實驗結果表明，RIDDLE的平均精度為0.671，最高的兩個準確度為0.865，測試數據的交叉熵損失為0.849，這個結果顯著優于邏輯回歸和隨機森林分類器。

他們用這些訓練過的神經網絡模型來識別、量化和可視化預測人種和種族的醫學特征，并使用這些特征來進行人種和種族差異性疾病模式的系統比較。事實上，臨床病史對人種和種族的估算信息可能反映出：

RIDDLE通過運行并行化的TensorFlow/Theano后端來高效訓練模型，以及使用預處理數據和分批訓練的方式來避免內存溢出。

RIDDLE使用Keras來指定和訓練潛在的深度神經網絡，并用DeepLIFT來計算“特征到類別”的貢獻值。

目前的RIDDLE Python模塊與TensorFlow和Theano一起作為Keras的后端。默認架構是一個深度的多層感知器（深度MLP），使用二進制編碼的特征和目標。當然，你可以自己編寫model_module文件來指定任何神經網絡架構和數據格式。

想要進一步了解RIDDLE，可以訪問如下地址：

https://github.com/jisungk/riddle

相關論文可以訪問這個地址查看：

https://arxiv.org/pdf/1707.01623.pdf

【完】

本文作者：問耕原文發布時間：2017-07-10

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。