日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

基于数据空间的电子病历数据融合与应用平台

發布時間:2025/3/15 编程问答 32 豆豆
生活随笔 收集整理的這篇文章主要介紹了 基于数据空间的电子病历数据融合与应用平台 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

基于數據空間的電子病歷數據融合與應用平臺

包小源1,2,?張凱3,?金夢1,2,?謝雙蓮3,?宋鍇3

1?北京大學醫學信息學中心,北京 100191

2?國家醫療服務數據中心,北京 100191

3?北京大學醫學部,北京 100191

?

摘要為了建立高效可擴展且易于管理的數據融合與應用平臺,利用數據空間技術,按照數據敏感性將電子病歷數據按照原始數據空間、匿名數據空間、模型數據空間的框架進行集成、融合,對匿名數據進行二次分析與挖掘,并針對各數據空間設計實現了不同的存儲、安全保護、數據訪問機制。平臺已在國家醫療服務分析以及北京大學附屬醫院醫療能力、質量、效率的分析中得到應用。

關鍵詞?電子病歷?;?數據平臺?;?數據空間?;?數據質量?;?數據脫敏

論文引用格式:

包小源, 張凱, 金夢, 謝雙蓮, 宋鍇.基于數據空間的電子病歷數據融合與應用平臺. 大數據[J], 2019, 5(6):47-61

BAO X Y, ZHANG K, JIN M, XIE S L, SONG K.A data-space based platform for the integration and application of electronic health records[J], 2019, 5(6):47-61


1 引言

我國電子病歷的應用越來越廣泛,使用電子病歷數據進行臨床研究、醫院管理以及數據共享利用的研究越來越常見。做到數據收集、數據質量控制、數據分析處理、分析模型發布的“兼容差異、深入利用”,是承擔國家醫療數據中心數據平臺建設任務的基本要求。其中“兼容差異”規則是指在數據輸入端,可以讀入目前主流應用生成的數據文件格式,可以識別語義相容的數據內容,不同版本不同標準的數據(如疾病編碼標準、手術編碼標準、病歷編碼標準)都可以向一個版本進行映射與轉換等;在輸出端,則可以按照需求定制輸出接口與輸出格式,包括變量的定制、值的自定義等。“兼容差異”的規則主要用于應對我國由于各種實際系統建設、應用差異所導致的數據差異,最大限度地兼容各個醫院的數據,并使之能在一個基準線上進行分析。同時,要對差異不大的數據(如病案首頁)、差異較大的數據(如電子病歷文檔以及病例系統數據)進行區分處理,最大限度地提高處理效率。“深入利用”規則既要求設計能夠集成、融合所有數據進行各個維度、各個層面的分析建模的平臺,又需要平臺的結構能夠保護敏感數據,同時面向特定需求發布匿名數據,進而利用各種優質資源進行數據挖掘分析、二次利用,并將分析結果、模型也作為數據進行存儲、管理。

2 國家醫療數據中心系統架構

國家醫療數據中心所獲得的數據主要來自醫院的不同數據源,包括病歷系統、影像系統(PACS)、檢驗系統(LIS)等,數據類型也包括了文本、圖像、視頻等多種形式。對于同一家醫院,數據可能經歷多次迭代,期間可能有錯誤數據的替換、缺失數據的補充等數據層面的操作。為了管理分散、異構的數據,國家醫療數據中心建立了以數據空間技術為基礎的三層結構,在層次內部,針對數據模式固定的數據采用數據倉庫進行管理。

數據空間是與主體相關的數據及其關系的集合,主體、數據集、服務是數據空間的3個要素。在數據模型上,內部的數據不依賴嚴格的數據模式,可以以一種松散的數據模式來組織。在構建方式上,數據空間不需要提前提出所有可能的需求以設計合適的數據庫模式,而是在演化過程中,根據新增的需求建立主體、數據集和服務三者之間的關系和邏輯,同時可以根據不斷改變的需求,以較低的成本重新建立新的關系。數據空間包含圍繞數據集提供的服務,可以對業務過程進行很好的分層和組織。

數據倉庫是一系列具有繼承性、主體性和持久性的數據集合,與數據空間不同,數據倉庫需要有固定的數據模式,對于數據的查詢效率有很好的提升,但對于數據變化的適應比較遲鈍,因此國家醫療數據中心僅對一些有固定數據模式的數據(如病案首頁)采用基于數據倉庫的管理。

目前國家醫療數據中心主要提供數據集成、匿名化處理及數據查詢與分析服務。為保證敏感數據的安全,從數據存儲結構和結構內部脫敏操作兩個層面進行了處理。根據涉及的數據的敏感性,通過物理隔離的3層數據空間進行數據管理,即原始數據空間、匿名數據空間、模型數據空間。

原始數據空間的數據集為直接從安全通道獲取的原始數據,這部分數據未經過任何脫敏操作,因此所有數據都以加密形式存儲,并且有物理隔離和嚴格控制的訪問策略。在這一層次主要進行數據清洗以及基本的數據有效性的校驗,因此在這一層次的數據迭代次數是最多的。符合數據有效性檢驗的數據均視為合格數據,進行脫敏處理后,下發至匿名數據空間,使得數據迭代的成本降至最低。

匿名數據空間主要進行匿名數據的管理。首先去除相應字段,再使用訓練好的機器學習模型識別自由文本中的敏感信息,予以去除。將經過脫敏的匿名化數據輸入匿名數據空間,建立匿名數據庫;提取的敏感數據被存儲在與匿名數據空間有物理隔離的模型數據空間的敏感信息數據庫中。在匿名數據空間中,部分數據(如病案首頁)有較固定的數據模式,還需進行部分關鍵信息的抽取和加載,并存入數據倉庫。

模型數據空間的數據集為下發的模型數據,根據用戶的需求,將所需的數據下發至用戶的虛擬空間,進行模型計算。模型數據空間整合用戶的需求,同時,這些需求也進一步完善了各數據空間的數據組織和管理。

各層次的數據存儲均使用多級存儲機制,采用Hadoop開發團隊開發的開源Hadoop分布式文件系統(Hadoop distributed file system,HDFS)。在不同的物理磁盤上保存至少3份數據的備份,以保證數據的可靠性。

總體而言,由于醫療數據格式多樣,國家醫療數據中心主要采用數據空間技術進行數據管理,對于其中數據模式較為固定的部分,在層次內以數據倉庫的方式進行管理,提升查詢效率。

3層數據空間的功能如圖1所示。

圖1???3層數據空間的功能

3 基于數據空間結構和空間內功能的敏感信息保護

醫療數據涉及病人隱私,信息內容復雜,從安全通道獲得的原始數據從自動清洗到數據分析與發布,涉及多個數據處理環節,每一環節所需的數據結構均不同,涉及的敏感數據也不同,需要不同的數據安全級別。因此本文提出基于數據空間的數據管理,不同數據空間存在物理隔離,數據空間之間的數據流動也有詳盡的安全控制和日志記錄。

對于敏感信息的保護,本文在兩個層面上進行實現。一是從數據存儲和管理結構上,根據數據的敏感程度,定義了3層數據空間:原始數據空間、匿名數據空間和模型數據空間;二是在數據空間中設置了多層次的脫敏處理及敏感信息的嚴格管理。除此之外,記錄所有操作生成的數據世系也可對每步操作進行回溯。

3.1 基于3層數據空間結構的敏感信息保護

3.1.1 原始數據空間

原始數據空間處理和存儲的數據集為直接從安全通道獲得的原始數據經自動清洗和標準化轉換后的結果數據集。這一數據空間中的輸入數據包含了可識別身份的敏感數據,因此安全級別最高。在這一數據空間中,主要進行敏感信息的檢測、提取,存儲以及數據匿名化處理,輸出匿名數據到匿名數據空間。本層數據空間存在物理隔離的數據層和應用層,這是由于在抽取敏感信息的過程中,國家醫療數據中心需要針對敏感信息進行必要的數據統計,統計結果存儲于統計數據庫中,并向部分經過嚴格安全審計的用戶開放統計數據的查詢功能,這一過程歸入應用層的范圍。

3.1.2 匿名數據空間

匿名數據空間包含匿名化處理、匿名化數據存儲及匿名化數據下發過程,分為數據層及應用層。數據層主要執行匿名化數據存儲和管理,應用層主要提供數據需求的審核及定制數據的下發。

3.1.3 模型數據空間

模型數據空間主要處理數據請求、下發數據至用戶虛擬機以及對下發數據進行數據存儲。不同數據請求單獨建立數據庫文件,通過安全通道下發至個人工作區,同時在數據備份存儲空間備份。

3.2 數據空間的存儲、安全與訪問機制

3.2.1 存儲機制

數據空間包含以下數據。

(1)各醫院提交的原始數據

由于各醫院病案室采用的文件歸檔系統不同(如DBase系統的DBF文件、Excel格式文件和CSV格式文件等),這部分數據經過自動清洗并生成元數據后,主要以文本文件形式進行存儲。

(2)各數據層中的數據

這部分文件已經經過清洗,形成了完整的數據結構,因此主要以數據庫形式進行存儲,常見的格式有MySQL、SQL Server數據庫文件格式。

(3)用戶使用過程中生成的數據

這部分數據是用戶對個人數據庫操作產生的,主要以文件(如CSV)和數據庫(如MySQL、SQL Server)形式存儲。

在數據的存儲模式上,首先根據各數據空間中數據的敏感程度進行物理隔離的數據分區,將3層數據空間的數據嚴格存儲在不同的服務器集群中,設立不同的安全機制。在各數據空間內部,主要采用分區、分片的分布式存儲方式。

在數據的分區上,對數據量大、集成度要求高而數據查詢和分析又較為頻繁的匿名數據空間的分區機制進行了較為詳細的探索。在數據庫層面,最頻繁的查詢有2種:第一種是按醫院的多列數據查詢與提取,用于DRG計算、秩序列、TOPSIS等模型的計算;第二種是按主要疾病分區的數據查詢與提取,由于主要疾病頻數的差異較大,因此在分區時需要考慮將頻數在前10位(或100位)的疾病按照歷史數據統計結果進行分區策略的動態調整。

基于這2種查詢模式,通常以醫院和主診斷來進行分區,其中醫院節點數目相對小,而主診斷的節點數目較大。在分配主分區鍵和次分區鍵時,常見的方法有2種:第一種是以醫院為主分區鍵,以主診斷為次分區鍵;第二種方法是以主診斷為主分區鍵,以醫院為次分區鍵。從并行計算的角度考慮,越分散查詢效率越高,但網絡開銷也會相應增大,此時要根據具體的需求平衡網絡開銷和查詢效率,例如提取某個醫院的某個疾病時,在集群中可能只會集中在一臺機器上,可能會導致查詢效率下降;而在模型計算時,一般的查詢會分布在多家醫院,因此查詢會被分發到不同節點上去。2種方法在網絡開銷和查詢效率上各有優劣,應注意其中的平衡點。主診斷數目相對節點數目龐大得多,需要專門配置映射文件,對分區進行映射轉換后進入數據庫。

3.2.2 安全機制

由于3層數據空間本身是根據數據的敏感性劃分的,因此對于各層數據空間,本文設立了不同的安全機制,其中原始數據空間的安全級別最高,模型數據空間的安全級別最低,各層數據空間之間保持物理隔離。

在原始數據空間中,網絡層面運行在與其他空間物理隔離的計算機集群上,用戶認證等方面則從嚴格的審計機制、操作日志記錄機制等多角度實現對原始數據的完全隔離。查詢、處理等均局限于數據庫,而文件則經過加密壓縮后,密碼文件獨立存放,非特殊權限或特殊原因不再打開或提取。

在模型數據空間中的安全保障機制方面,本文為每個用戶分配相互隔離的虛擬機,用戶以虛擬桌面的方式登錄,以實現個人數據的獨立、安全。針對每個用戶提供不同的數據,在個人虛擬機上實現不同的應用,以解決整個平臺上多用戶的不同需求。

3.2.3 訪問機制

在訪問內容上,本文只提供對數據庫的訪問,各醫院上傳的原始數據文件均不開放對外訪問權限,數據庫訪問主要以B/S結構查詢。傳統關系查詢可以使用Oracle BI等平臺型工具,將原始數據作為后臺數據模型,直接將一些可以維度化的列建立為維度,在此模型下,直接用OBIEE客戶端對相關數據進行查詢、展現即可。元數據查詢也會提供B/S查詢接口,但只開放基本的統計數據,目前包含醫院上傳數據的問題、反饋次數、修改問題而帶入的新問題等。關鍵字查詢的接口依然是B/S結構,但其查詢結果以表關聯的方式返回,在該表上可以查詢對應的數據條目。

模型數據空間中的訪問接口與其他兩個數據空間沒有很大的區別,只是在用戶的數據權限(列、行、導出、計算、數據總量)方面,需要在大數據虛擬語言環境模型(model in virtual language environment of big data,MVLB)中進行監控,并記錄實際操作序列等數據。由于訪問方式在接口方面區別不大,本文在MVLB環境中的入口訪問集群框架設計方面,采用了相同架構、面向不同需求的定制化配置部署方式。

3.3 數據空間多結構數據集成與敏感信息保護

3.3.1 多結構數據集成

國家醫療數 據中心獲取的數據類型多樣,囊括了關系數據、半結構化數據以及非結構化數據(基于openEHR修正模型的集成邏輯框架),而在原始數據空間中,最重要的技術是對多結構的數據進行集成。

數據集成的方法主要有2種:全局視圖方式和局部視圖方式。考慮到病案首頁的格式是中華人民共和國衛生部規定的標準格式,雖然各地區對具體內容會有所調整,但其數據結構具有相對穩定性。本文采用了全局視圖的方式(即各醫院病案首頁數據模式向全局數據模式映射的方式),其步驟包括目標模式確定、數據收集、源包裝器構造、并行集成執行及結果數據集的合并等。

數據空間具有數據組織松散的特征,使用索引和映射查詢數據較為低效。多數據集成針對數據空間中結構化較好、查詢頻繁的數據建立數據倉庫,利用數據倉庫查詢速度快的特點,提升數據查詢效率,實現高效、準確的數據查詢。對于數據空間中存儲的電子病歷文本數據,本文采用關系數據庫(SQL server)存儲并建立全文索引,以實現對病歷文本的檢索。

3.3.2 敏感數據提取和匿名化處理

首先參照敏感信息條目和國家電子病歷數據接口標準,提取原始數據中涉及個人信息的數據,將這一部分數據定義為敏感數據,用于后續的操作。敏感信息條目的制定參考了美國HIPAA法案、國家標準GB/T 35273-2017《信息安全技術個人信息安全規范》以及相關文獻提及的敏感數據條目,并人工復核了醫院上報的數據,最終確定了包含個人信息(如姓名、年齡、聯系電話、詳細地址等)、病歷識別號(如醫保卡號、病歷號、影像號等)、就診詳細日期(如入院日期、手術日期、出院日期)、就診過程隱私數據(如床號、主治醫師姓名、手術醫師姓名等)在內的多項數據。然后對上交的包含自由文本的字段進行脫敏處理,在這一步,本文使用已有的機器學習方法,對數據進行兩遍掃描,第一遍進行元素值的特征計算,第二遍將數據分為敏感信息和非敏感信息,并去除敏感信息。

匿名化數據還要進行重新識別風險的評估。每次有新的數據源加入后,都進行一次全面的評估。在日常使用時,定期隨機抽取數據,以評估重新識別的風險,根據重新識別患者所需要結合的字段數來評估數據的安全性。

3.3.3 敏感數據關聯機制

將匿名數據空間中提取的敏感信息存入敏感信息數據庫后,會返回與存入信息對應的唯一ID,將此ID作為識別碼與提取的敏感信息一并存入匿名數據庫,建立匿名數據庫與敏感數據庫的關聯。識別碼不作為可下發字段,僅在有特殊需求時,作為與敏感信息數據庫關聯的方式。在評估特殊需求時,要根據計算結果是否返回敏感信息進行嚴格的評估和審核。

3.4 數據世系的生成與查詢

在數據世系信息的生成、查詢及管理方面,目前比較關心的是每一個處理步驟都抽取了哪些數據、有多少量以及結果存儲在哪里,因此針對每個中間結果集,都要記錄其查詢語句并進行反向計算,以便追蹤到起點或其前驅處理節點的信息。目前采用查詢語句與查詢結果一一關聯映射的方式實現數據世系的管理。為實現數據世系的自動生成,需要在Perl或其他高級語言的基礎上加一層命令解析器,這樣,每一次查詢及其結果都會被寫到日志中,之后的數據世系信息均以專門的解析器抽取日志文件的方式形成。每個處理模塊完成任務處理后,都需要運行自動的日志信息處理語句,其目的是識別原始程序中的查詢語句、查詢輸出目標、查詢輸入、當時運行該數據處理的程序本身等,然后在原始程序的特定位置,增加輸出到日志文件的語句,這樣做的優點是數據處理本身會專注于業務處理,而日志輸出等常規、普遍性要求都會通過系統來自動完成。

在原始數據空間中,只提取匿名數據進入匿名數據空間的過程也需要將查詢處理和處理結果的對應關系記錄下來,整個過程參照數據世系模型、數據集成指令(包括選項)的類型,進行業務數據世系的內容生成。

在模型數據空間中,通過基于環境支撐層對處理工具中嵌入處理日志的強制記錄方式來實現個人空間的數據世系信息生成。另外,模型空間的處理定制化需求非常明顯,而處理方式非常復雜,因此目前在MVLB中,將數據世系的記錄方式簡化為輸入數據、處理程序源碼(或指令序列)、輸出數據。

3.5 數據流動過程及處理流程

通過安全通道獲得的原始數據在原始數據空間中進行數據清洗、入庫,形成關系數據,并下發至匿名數據空間,在匿名數據空間中進行匿名化處理,提取敏感信息,并保存匿名化數據。經過審計的用戶提出數據需求后,被提取的匿名數據下發至模型數據空間。如果用戶獲得了隨訪數據查詢的許可,必要的敏感數據也將從敏感數據庫下發至模型數據空間。

數據在數據空間中的所有操作日志都被記錄在以數據空間為主鍵的日志數據庫中,便于生成直觀的數據世系信息。整體系統框架及處理流程如圖2所示。

3.5.1 原始數據空間框架及處理流程

在原始數據空間中,通過安全渠道獲取的數據經過定制的數據包裝器框架,將文本、電子表格、數據庫文件、XML等格式的文件轉化為可識別和導入的數據格式,以文本形式插入輸入數據庫。這一步需要驗證數據的完整性,對于缺失必填項的文件,則只存入元數據存儲空間備份,而不做導入操作,待相關醫院重新上傳補充缺失項的文件后,再導入數據庫。完整的數據文件導入輸入數據庫后,原始文件經過強密碼加密,存入元數據存儲空間。

進入輸入數據庫的數據將經過進一步的數據清洗,首先根據國家醫療數據中心發布的數據接口標準對數據列定義進行數據類型的驗證和轉換,對于不符合定義數據格式的數據,必要時要求相關醫院進行自查和重新上傳。經過數據格式轉換的數據,將根據數據接口中對各部分數據的定義,建立關系數據表,形成多維度的數據,保存于原始數據關系數據庫,并進一步進行數據匿名化處理。除根據數據列定義去除涉及個人信息的數據列外,還對包含自然語言的文本使用深度學習識別姓名、地名等信息,并進行脫敏處理。將敏感信息存入敏感信息數據庫,生成唯一對應的ID,并將此ID與非敏感信息下發至匿名數據空間。

圖2???整體系統框架及處理流程

有關原始數據的一些必要的統計信息被存入統計數據庫,供有權限的用戶通過查詢系統進行查詢。原始數據空間框架及處理流程如圖3所示。

3.5.2 匿名數據空間框架及處理流程

匿名數據空間主要進行匿名數據的存儲與管理,將原始數據空間下發的脫敏數據存入匿名數據庫,并在此層進行模式固定的數據的集成。同時,可以通過敏感數據ID在模型數據空間中查詢原始數據。


圖3???原始數據空間框架及處理流程

用戶通過模型數據空間向匿名數據空間發出的數據下發請求,此請求在應用層得到處理。在查詢需求通過審核后,按照申請的新數據字段,生成需要下發字段名和數據列列表,根據此列表,從匿名數據庫中提取相應的數據,記錄日志并生成新版本號,將以版本號命名的數據作為模型數據空間的輸入數據。匿名數據空間框架及處理流程如圖4所示。

3.5.3 模型數據空間框架及處理流程

在模型數據空間中,用戶個人提出數據申請后,會在初步審核后生成包含所需字段名的請求,并提交給匿名數據空間處理。在模型數據空間進行的初步審核主要審核用戶是否具有獲取該字段的權限。當匿名數據空間通過審核,確定可以提供相關數據列,并下發數據后,數據首先存入模型數據庫,并備份至數據備份存儲空間,隨后下發到用戶的虛擬機上。

用戶可以在虛擬機上從請求的數據庫中提取需要的數據,并存入虛擬機的個人數據庫進行處理。其中,提取的數據也記錄操作日志,以實現數據世系的追蹤。模型數據空間框架及處理流程如圖5所示。

圖4???匿名數據空間框架及處理流程

圖5???模型數據空間框架及處理流程

4 系統運行情況

國家醫療數據中心利用3層數據結構已經平穩運行6年,3層結構業務及產出如圖6所示。原始數據層已經擁有成熟的數據接口工具,而對于未標注使用接口標準的數據,也已有了用于判斷數據接口標準的模型,國家醫療數據中心共收集并整合了全國總計500余家醫院的數據。在匿名數據空間脫敏的過程中,形成了用于數據脫敏的匿名語料庫和匿名知識庫。

對外發布的數據包括根據匿名數據空間及原始數據空間計算的數據質量報告以及模型數據空間用戶訓練的模型。自2013年以來,已經完成1 600余份質量報告的發布。通過模型數據空間提取和處理的數據,已經提供給了DRG模型、臨床分層評價模型進行計算。

圖6???3層結構業務及產出

本文使用數據世系結構來表示數據產生和數據演變的過程,追溯模型數據空間計算結果的原始數據。數據世系作為表示數據演變的技術,被廣泛應用于互聯網及物聯網大量的數據管理中,用于追蹤數據的演變過程。根據用戶使用數據庫的版本號,首先可以在數據備份存儲空間中找到原始數據,如果發現數據有問題,可以從數據世系中找到匿名數據庫下發數據的時間、內容及版本號,判斷在下發時間點后有無數據更新,還可以進一步通過匿名數據版本號,對應到原始數據空間中的數據。如果確認數據有誤,可反饋給相應醫院進行數據的迭代更新。

5 系統結構的設計思路

在架構選擇方面,國家醫療數據中心主要采用了基于數據空間的數據結構。當前有一些開源的醫療數據存儲解決方案,如應用比較廣泛的架構openEHR,該架構是由國際openEHR組織于1999年提出的開放式電子健康檔案規范,它采用由參考模型和原型模型組成的兩層結構,以實現醫療領域知識和實際臨床信息的分離,使信息模型具有高可擴展性。

國家醫療數據中心收集的數據是各醫院提交的臨床數據,其關鍵不在于建立內容的邏輯關系,而在于如何存儲管理已有數據,進行進一步處理、分析及發布。由于openEHR更關注內容邏輯,對于數據的內容敏感度沒有嚴格的劃分,使得數據匿名化和發布面臨較大困難,因此,本文并沒有選擇以openEHR架構為基本框架,而采用了能夠更好地體現數據敏感度的基于數據空間的3層結構,以較好地區別管理原始數據和匿名數據。

從傳統數據集成的角度考慮,傳統的數據庫管理模式一般需要在整體設計、全面標準化的基礎上,從數據源到目標平臺進行完整的設計,包括數據抽取、清洗、加載,并存放于標準的數據倉庫中。而數據空間管理與傳統的數據管理有以下4個區別:一是數據空間需要支持所有類型的數據;二是數據空間提供數據更新的能力,因此不像傳統數據庫對數據有完全的控制能力;三是對于數據查詢的需求,數據空間只能根據數據的情況返回最好的結果,而不一定都能返回準確的結果;四是數據空間需要有數據集成的能力,數據空間還可以將用戶反饋加入數據管理的過程中,使得數據空間可以不斷演化,滿足更多的需求。

在業務相對成熟的行業,使用傳統數據管理模式是非常有效的。但是,就醫療行業本身而言,其收集的數據不僅包含大量的數據類型,已收集的數據也可能有部分數據列缺失的情況(但此時非缺失的數據已經可以用于分析),而且隨著學科發展而新出現的診療會呈現出新的數據內容、數據格式等(譬如近年來興起的基于基因技術的精準醫療就產生了大量的基因數據),加之對數據的需求也更加具體和復雜,在建設大數據平臺時需要遵從pay-asyou-go的方式進行,即邊建設、邊應用、邊改進、邊融合,進行漸進的、螺旋式的數據平臺建設。因此,在醫療行業使用數據空間管理,是更加符合實際情況的。

在設計系統結構時,本文主要考慮數據敏感性。由于個人的醫療數據具有獨特性,在匿名化過程中不僅需要考慮去除明確的涉及患者隱私的數據列,還要考慮重新識別的風險,即使用者通過結合多個數據列識別出患者的風險。例如根據患者在既往史和現病史中披露的就診醫院、時間和所做手術就能較準確地識別出患者。因此在系統設計上,應該考慮控制匿名化數據重新識別的風險。參考文獻討論了評估系統重新識別風險的3個方面:數據接收方的數據安全性、數據泄露對病人隱私侵犯的程度以及數據使用方重新識別患者的收益。而對于醫療數據,顯然數據泄露對病人隱私侵犯程度是極高的,因此設計系統架構時需要嚴格控制接收方數據的安全性,通過提高重新識別的成本來降低重新識別的收益。本文使用3層數據空間的結構,針對接收方數據的安全性,使用模型數據空間來管理用戶及用戶數據,以實現對用戶數據安全性的完全掌控;針對提高重新識別的成本,則采用對匿名數據空間進行匿名化和按需下發數據來解決。

使用數據空間來管理數據也呈現出了一些問題。由于在數據檢索和計算時不一定能返回準確的結果,數據空間具有一定的不確定性,同時查詢效率也不如傳統數據管理模式高。針對這一問題,本文將部分數據模式固定的數據集成在匿名數據空間的數據倉庫中,解決了部分常用數據的查詢效率問題。另外,由于數據空間具有數據優先、淡化模式的特點,數據質量也有所下降。本文在模型數據空間進行了基本的數據質量控制,但是有些數據問題在模型計算時才顯現,筆者仍然將這部分數據視為合格數據,將反饋后更新的數據視為這些數據的新版本進行管理。總之,使用數據空間作為醫療數據管理的主要技術是符合實際情況的,因為數據空間在保護了敏感數據的前提下,提供了更多二次利用的可能。它提供的pay-as-you-go的模式,可以容納由于學科進步、信息化水平提高而產生的新的數據。對于部分成熟的數據模式,還可以在數據空間內用數據倉庫進行優化,能夠最大化地從數據中獲取信息。

6 結束語

從國際、國內大數據應用的趨勢考察,筆者發現大集成和大融合是臨床數據管理的基本模式,而專項、細分的定制化分析與挖掘則是數據利用的基本方式。本文基于數據空間所構建的數據平臺正是順應了這一基本趨勢。大集成和大融合在原始數據空間、匿名數據空間完成,而定制化分析則在模型數據空間中實現個性化支撐。

下一步將對智能數據管理方法做進一步探索,實現平臺對數據質量控制、數據集成融合、數據脫敏、基本數據分析的智能賦能,建立基于分類自治的索引框架,支持高效查詢,進一步提高平臺管理的效率,實現個人數據空間的易用性。

作者簡介

包小源(1971-),男,博士,北京大學醫學信息學中心、國家醫療服務數據中心總工程師,主要研究方向為臨床文本數據挖掘 。

張凱(1996-),男,北京大學醫學部博士生,主要研究方向為臨床醫學、臨床數據管理 。

金夢(1986-),女,北京大學醫學信息學中心、國家醫療服務數據中心工程師,主要研究方向為醫學信息學 。

謝雙蓮(1996-),女,北京大學第五臨床醫學院本科生,主要研究方向為臨床醫學、臨床數據管理 。

宋鍇(1997-),男,北京大學中日友好臨床醫學院本科生,主要研究方向為臨床醫學、臨床數據管理 。

《大數據》期刊

《大數據(Big Data Research,BDR)》雙月刊是由中華人民共和國工業和信息化部主管,人民郵電出版社主辦,中國計算機學會大數據專家委員會學術指導,北京信通傳媒有限責任公司出版的中文科技核心期刊。

關注《大數據》期刊微信公眾號,獲取更多內容

往期文章回顧

學術大數據在企業專家對接中的應用

山東省地理信息時空大數據中心建設方法

人在回路的數據準備技術研究進展

工業時序大數據質量管理

數據管護技術及應用


總結

以上是生活随笔為你收集整理的基于数据空间的电子病历数据融合与应用平台的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。