医疗领域:合成数据、生成对抗网络、数字孪生的应用
PrimiHub一款由密碼學(xué)專家團(tuán)隊(duì)打造的開源隱私計(jì)算平臺(tái),專注于分享數(shù)據(jù)安全、密碼學(xué)、聯(lián)邦學(xué)習(xí)、同態(tài)加密等隱私計(jì)算領(lǐng)域的技術(shù)和內(nèi)容。
在醫(yī)療保健領(lǐng)域,每當(dāng)研究人員想要用患者的數(shù)據(jù)進(jìn)行大數(shù)據(jù)分析時(shí),就不得不考慮患者數(shù)據(jù)的訪問與保證數(shù)據(jù)安全之間的平衡。
以前我們沒辦法,現(xiàn)在我們有了隱私計(jì)算技術(shù)。
那么如何利用隱私計(jì)算技術(shù)呢?如何使用算法、架構(gòu)和隱私計(jì)算技術(shù)結(jié)合,來確保數(shù)據(jù)的安全呢?
以前我們都是泛泛的討論各類隱私計(jì)算技術(shù)是使用場(chǎng)景,比如聯(lián)邦學(xué)習(xí)、差分隱私、數(shù)據(jù)清潔室等等,這次我們從算法和架構(gòu)入手,詳細(xì)介紹下合成數(shù)據(jù)、生成對(duì)抗網(wǎng)絡(luò)和數(shù)字孿生技術(shù)在醫(yī)療保健領(lǐng)域的應(yīng)用。
綜合數(shù)據(jù)的處理
隱私計(jì)算技術(shù)可以利用歷史數(shù)據(jù)分布生成真實(shí)的數(shù)據(jù)集,從而幫助保護(hù)患者隱私。這些可用于增強(qiáng)現(xiàn)有數(shù)據(jù)源有增強(qiáng)小型數(shù)據(jù)集,或創(chuàng)建完全合成的數(shù)據(jù)集。這樣做可以提高分析項(xiàng)目中使用的數(shù)據(jù)集的實(shí)用性和可用性。
根據(jù)麻省理工學(xué)院 (MIT) 的說法,合成數(shù)據(jù)被設(shè)計(jì)為具有與它們所基于的現(xiàn)實(shí)世界數(shù)據(jù)相同的數(shù)學(xué)屬性,但不包含任何相同的信息。通過使用關(guān)系數(shù)據(jù)庫創(chuàng)建生成機(jī)器學(xué)習(xí)模型,利益相關(guān)者可以生成第二個(gè)綜合數(shù)據(jù)集。
合成數(shù)據(jù)的一些廣泛用例涉及使用它們來減少偏見和改進(jìn)人工智能 (AI) 模型,但它們也可用于保護(hù)敏感數(shù)據(jù),這是醫(yī)療保健分析中最關(guān)心的問題。
根據(jù)今年早些時(shí)候在PLOS Digital Health上發(fā)表的一項(xiàng)研究,雖然研究人員仍然更喜歡真實(shí)世界的數(shù)據(jù),但合成數(shù)據(jù)為彌合政策制定和研究中的數(shù)據(jù)訪問差距創(chuàng)造了機(jī)會(huì)。
在其中,研究人員強(qiáng)調(diào)了合成數(shù)據(jù)在醫(yī)療保健中的七種潛在應(yīng)用:模擬和預(yù)測(cè)研究;假設(shè)、方法和算法測(cè)試;流行病學(xué)和公共衛(wèi)生研究;衛(wèi)生信息技術(shù)(IT)開發(fā);教育和培訓(xùn); 公開發(fā)布數(shù)據(jù)集;和鏈接數(shù)據(jù)。
合成數(shù)據(jù)也被用來加速 COVID-19 研究。
醫(yī)療保健領(lǐng)域合成數(shù)據(jù)的潛力也引起了國(guó)家利益相關(guān)者的關(guān)注。
美國(guó)國(guó)家衛(wèi)生信息技術(shù)協(xié)調(diào)員辦公室 (ONC)于 2021 年發(fā)起了合成健康數(shù)據(jù)挑戰(zhàn)賽,旨在鼓勵(lì)衛(wèi)生 IT 領(lǐng)域的創(chuàng)新者增強(qiáng)開源合成患者生成器 Synthea,或展示該工具的新用途數(shù)據(jù)。
為了增強(qiáng) Synthea 為兒科人群、具有復(fù)雜護(hù)理需求的患者以及因阿片類藥物使用而苦苦掙扎的個(gè)人生成高質(zhì)量綜合數(shù)據(jù)集的能力,ONC 率先發(fā)起了“生成綜合健康數(shù)據(jù)以加速以患者為中心的結(jié)果研究”計(jì)劃。
專家認(rèn)為,合成數(shù)據(jù)是解決機(jī)器學(xué)習(xí) (ML) 模型可以從匿名數(shù)據(jù)中識(shí)別患者特征(例如性別、年齡、血壓、吸煙、糖尿病和 COVID-19 狀態(tài))這一事實(shí)的最有前途的解決方案之一。
合成數(shù)據(jù)還可以幫助實(shí)現(xiàn)數(shù)據(jù)集多樣化并支持臨床研究,同時(shí)確保患者隱私。
盡管有這些好處,但研究與醫(yī)療保健合成數(shù)據(jù)相關(guān)的漏洞的研究人員指出,惡意行為者可以利用這些數(shù)據(jù)傳播錯(cuò)誤信息,并通過虛假冒充視頻(也稱為深度偽造)欺騙面部識(shí)別軟件。
此外,雖然合成數(shù)據(jù)可以幫助開發(fā)和改進(jìn)基于人工智能的醫(yī)療設(shè)備,但其在當(dāng)前修改醫(yī)療保健人工智能算法的監(jiān)管框架中的作用尚未確定。這樣做對(duì)于確保合成數(shù)據(jù)可用于保護(hù)患者隱私和改善臨床決策至關(guān)重要。
研究人員指出,目前,醫(yī)療保健行業(yè)還缺乏客觀、穩(wěn)健的方法來確定合成數(shù)據(jù)與其所基于的現(xiàn)實(shí)世界數(shù)據(jù)是否有足夠的差異,從而引發(fā)了這些數(shù)據(jù)集是否可以被歸類為真正匿名的問題。傳播這些敏感醫(yī)療數(shù)據(jù)的綜合表示也沒有具體限制。
未來,合成數(shù)據(jù)在醫(yī)療保健領(lǐng)域的潛力可能會(huì)被證明是有價(jià)值的,但在BMJ Medicine上撰文的專家表示,需要進(jìn)行更多研究來探索與這些數(shù)據(jù)集相關(guān)的風(fēng)險(xiǎn)和成本效益,包括在多大程度上可以依賴它們分析。
生成對(duì)抗網(wǎng)絡(luò)(GAN)
生成對(duì)抗網(wǎng)絡(luò) (GAN)是深度學(xué)習(xí) (DL) 的一種,利用神經(jīng)網(wǎng)絡(luò)生成合成數(shù)據(jù)。GAN 由生成網(wǎng)絡(luò)和對(duì)抗網(wǎng)絡(luò)組成,用于生成逼真的圖像、視頻、錄音和其他類型的數(shù)據(jù)。
生成網(wǎng)絡(luò)獲取輸入數(shù)據(jù)并使用它來生成該數(shù)據(jù)的合成版本。此過程的結(jié)果將根據(jù)輸入以及模型層針對(duì)所需用例的訓(xùn)練程度而有所不同。
對(duì)抗網(wǎng)絡(luò)將真實(shí)數(shù)據(jù)與合成數(shù)據(jù)進(jìn)行比較,使用鑒別器機(jī)制來區(qū)分兩種數(shù)據(jù)類型。
當(dāng)兩個(gè)網(wǎng)絡(luò)執(zhí)行這些任務(wù)時(shí),理論上結(jié)果應(yīng)該會(huì)有所改善,直到合成數(shù)據(jù)與現(xiàn)實(shí)世界的數(shù)據(jù)幾乎無法區(qū)分。
研究表明,GAN 在醫(yī)學(xué)中的應(yīng)用主要涉及醫(yī)學(xué)圖像處理、合成、分割、生成和去噪。
這種 PET 在醫(yī)療保健領(lǐng)域的其他潛在用例包括生成腦腫瘤的合成異常磁共振圖像、生成合成 EHR 數(shù)據(jù)、改進(jìn)基于人工智能的癌癥成像、支持單細(xì)胞 RNA 測(cè)序以及支持醫(yī)學(xué)教育。
專家認(rèn)為,GAN 及其產(chǎn)生的合成數(shù)據(jù)有可能徹底改變臨床研究,同時(shí)保護(hù)患者隱私。他們表示,使用這些方法可以使醫(yī)療保健數(shù)據(jù)完全匿名,從而使數(shù)據(jù)集中的任何信息都無法追溯到真實(shí)的個(gè)人。
除了平衡和擴(kuò)展現(xiàn)有數(shù)據(jù)集之外,這還可以使研究人員在適當(dāng)?shù)那闆r下取代真實(shí)患者數(shù)據(jù)的使用。
然而,GAN也可能被不良行為者用來對(duì)醫(yī)療保健人工智能進(jìn)行“對(duì)抗性攻擊”。在此類攻擊中,GAN 可用于創(chuàng)建虛假圖像或更改數(shù)據(jù)點(diǎn),以使 AI 得出錯(cuò)誤的結(jié)論,這將嚴(yán)重影響患者的安全。
此外,GAN 的訓(xùn)練計(jì)算成本很高,需要大量投資和圖形處理單元 (GPU) 等資源。
一旦 GAN 經(jīng)過訓(xùn)練,理論上它可以生成無限量的合成數(shù)據(jù),但標(biāo)記這些數(shù)據(jù)在醫(yī)療保健領(lǐng)域是一個(gè)挑戰(zhàn)。準(zhǔn)確的“地面實(shí)況標(biāo)記”對(duì)于醫(yī)療保健人工智能模型的開發(fā)是必要的,如果未能標(biāo)記用于訓(xùn)練這些工具的數(shù)據(jù),可能會(huì)嚴(yán)重限制其性能和臨床實(shí)用性。
數(shù)據(jù)標(biāo)記通常由人類以勞動(dòng)和時(shí)間密集的方式執(zhí)行,這阻礙了可以實(shí)際標(biāo)記和使用多少合成數(shù)據(jù)。
研究人員指出,未來可能可以使用在真實(shí)數(shù)據(jù)上訓(xùn)練的成熟機(jī)器學(xué)習(xí)模型來標(biāo)記這些合成數(shù)據(jù)。但就目前而言,這是不可行的,這加重了人類利益相關(guān)者合成數(shù)據(jù)標(biāo)簽的負(fù)擔(dān),并限制了 GAN 在醫(yī)療保健領(lǐng)域的潛力。
數(shù)字孿生的應(yīng)用
數(shù)字孿生是物理對(duì)象、流程、系統(tǒng)或人員的數(shù)字或虛擬表示,旨在幫助組織模擬潛在結(jié)果。IBM 表示,數(shù)字孿生通常旨在跨越物理孿生的生命周期,利用實(shí)時(shí)數(shù)據(jù)更新和機(jī)器學(xué)習(xí)來幫助支持決策。
與標(biāo)準(zhǔn)模擬不同,數(shù)字孿生可以擴(kuò)展以同時(shí)運(yùn)行研究和模擬多個(gè)過程,這使得這種 PET 吸引了對(duì)建模和可視化感興趣的醫(yī)療保健利益相關(guān)者。醫(yī)療保健數(shù)字孿生可用于創(chuàng)建人體 3D 可視化、協(xié)助診斷和治療、推進(jìn)精準(zhǔn)醫(yī)療以及進(jìn)行預(yù)測(cè)分析。該技術(shù)還被用來簡(jiǎn)化醫(yī)院運(yùn)營(yíng)。
醫(yī)療保健數(shù)字雙胞胎還可能有助于改善健康公平。
今年 2 月,克利夫蘭診所和 MetroHealth 的研究人員獲得了美國(guó)國(guó)立衛(wèi)生研究院 (NIH) 314 萬美元的撥款,用于開發(fā)數(shù)字孿生技術(shù),以更好地了解和解決衛(wèi)生系統(tǒng)人口中的健康差距。
該研究將利用 250,000 名患者的 EHR 數(shù)據(jù)構(gòu)建數(shù)字孿生模型。然后,這些模型將用于研究健康趨勢(shì)以及影響健康差異的復(fù)雜社會(huì)、環(huán)境和經(jīng)濟(jì)因素。
該贈(zèng)款還將支持“數(shù)字孿生社區(qū)”的開發(fā),以幫助更好地了解克利夫蘭地區(qū)特有的各種健康不平等現(xiàn)象。
該項(xiàng)目旨在利用數(shù)字雙胞胎生成的數(shù)據(jù)來改善基于地點(diǎn)的人口健康和結(jié)果。
去年在《npj Digital Medicine》上發(fā)表的一項(xiàng)研究強(qiáng)調(diào),醫(yī)療保健數(shù)字孿生的主要潛在好處之一是能夠深入了解物理雙胞胎(通常是患者)的預(yù)期行為,這可以顯著推進(jìn)臨床試驗(yàn)、精準(zhǔn)醫(yī)學(xué)、和公共衛(wèi)生。
研究人員表示,將數(shù)字孿生研究轉(zhuǎn)化為臨床實(shí)踐的主要考慮因素是計(jì)算要求、產(chǎn)品監(jiān)督、數(shù)據(jù)治理和臨床實(shí)施問題。
此外,一些專家指出,數(shù)據(jù)收集和融合的困難以及模擬精度是當(dāng)前醫(yī)療領(lǐng)域數(shù)字孿生應(yīng)用的重大限制。但是,他們表示,展望未來,利益相關(guān)者可以通過結(jié)合醫(yī)療保健數(shù)字雙胞胎、大數(shù)據(jù)、人工智能和物聯(lián)網(wǎng)(IoT)來創(chuàng)建高質(zhì)量的患者模型,以實(shí)現(xiàn)個(gè)性化診斷和治療。
原文地址:Patient Privacy in Healthcare Analytics: The Role of Augmentation PETs
原文作者:Shania Kennedy
翻譯 & 整理:開放隱私計(jì)算 & PrimiHub
總結(jié)
以上是生活随笔為你收集整理的医疗领域:合成数据、生成对抗网络、数字孪生的应用的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: docker构建java镜像,运行镜像出
- 下一篇: K8s 网关选型血泪史