日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 >

数据自治开放应用平台设计与实践

發布時間:2025/3/15 22 豆豆
生活随笔 收集整理的這篇文章主要介紹了 数据自治开放应用平台设计与实践 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

數據自治開放應用平臺設計與實踐

陳德華, 潘喬, 王梅, 樂嘉錦

東華大學計算機科學與技術學院,上海 201620

摘要:圍繞數據自治開放的數據管理新模式,提出了一套面向數據自治開放應用的整體解決方案,討論了該解決方案的整體框架、系統功能及接口。針對數據提供者和數據使用者,對數據自治的數據邏輯組織、數據安全描述接口、查詢描述接口等應用系統構建的關鍵技術進行了介紹。最后以醫療領域三級診療應用系統為例,探索了數據自治開放應用實踐。

關鍵詞:大數據;數據自治開放;數據邏輯組織;需求接口

doi:10.11959/j.issn.2096-0271.2018019

論文引用格式:陳德華, 潘喬, 王梅, 等. 數據自治開放應用平臺設計與實踐[J]. 大數據, 2018, 4(2): 63-71.

CHEN D H, PAN Q, WANG M, et al. Platform design and practice for self-governing openness of data application[J]. Big Data Research, 2018, 4(2): 63-71.

1? 引言

隨著信息技術的飛速發展,全球數據資源正以前所未有的速度不斷增長和積累,大數據以其具有的巨大潛在價值成為政府、學術界和企業界共同關注的焦點。數據資源的價值具有隱藏性,研究人員需進行深度分析和挖掘,方能發現其潛在的價值。然而目前這一過程受到數據的完整性以及數據的訪問權限等條件的制約,使得數據的應用價值受到極大限制。很明顯,只有開放的數據資源,才能釋放數據的價值。數據開放是大數據發揮其作用的基礎。

數據資源的戰略性和商業價值正在日益顯現,據麥肯錫公司預測,醫療數據的有效利用每年可為美國醫療健康體系帶來3 000多億美元的潛在價值,并貢獻0.7%的年度生產力增長,可為加拿大醫療健康體系節省100億美元的衛生費用[1]。因此,目前全球各國都將數據開放提升到國家戰略層面。截至2014年4月,已經有63個國家制定了政府數據的開放計劃,如美、英、法等8國簽署的《開放數據憲章》。國務院2015年印發《促進大數據發展行動綱要》,明確將政府數據的開放排在首位。然而數據開放帶來的數據安全和隱私泄露的風險[2,3,4]使得數據資源的開放變得越來越困難。數據自治開放為數據開放提供了新思路和新的解決辦法。數據管理方式的變化將帶來數據應用技術的巨大變革。長久以來,針對面向聯機事務處理(online transaction processing,OLTP)的關系數據庫以及面向聯機分析處理(online analytical processing,OLAP)的多維數據模型[5]產生了大量的研究成果,已建立成熟完備的應用解決方案。圍繞數據開放自治新模式,尚缺乏完整的理論體系和應用解決方案。面向上層數據提供者和數據使用者,如何進行合理有效的數據組織,提供友好的上下層接口,建立一套面向數據自治開放應用的整體解決方案,提供數據自治開放需求描述方法、設計原則及實現部署,并將數據開放的新理論、新技術與新方法運用到數據自治開放實踐中,探索面向特定領域的應用實踐,是本文要解決的主要問題。

2 ?數據自治開放應用平臺框架

2.1 數據自治開放平臺

數據自治開放平臺實現了數據在自治環境下的完全開放、脫敏開放和原始開放。整個平臺由平臺基礎層和平臺應用層組成。其中,平臺基礎層從下到上又分為數據存儲系統、數據資源管理系統、軟件行為監控系統;平臺應用層由數據自治開放應用系統和用戶組成。平臺的整體架構如圖1所示。

圖1 數據自治開放平臺層次架構

平臺基礎層為整個數據自治開放平臺提供數據存儲與管理、數據使用的軟件行為監控功能。其中,數據存儲與管理功能分別由數據存儲系統和數據資源管理系統實現,完成面向具體應用的數據安全存儲和管理;數據使用行為的監控功能由軟件行為監控系統實現,主要負責對數據使用者在訪問及使用數據過程中的操作行為進行監控和驗證。平臺應用層在平臺基礎層上,為具體的數據自治開放應用系統提供數據設計模式和數據自治開放解決方案。

可見,在整個平臺中,數據自治開放應用系統直接面向用戶,為數據提供者和數據使用者提供數據開放服務,處于平臺的承上啟下地位,直接影響平臺的推廣及應用。

2.2 數據自治開放應用平臺功能

圖2給出了數據自治開放應用平臺的功能劃分。按照用戶的不同角色,數據自治開放應用平臺的功能可分為面向數據提供者和面向數據使用者兩大部分。

圖2 數據自治開放應用平臺的功能組成

(1)面向數據提供者的功能

針對數據提供者對數據的安全需求,數據自治開放應用平臺可參照數據庫范式設計體系構建數據安全范式規則,建立數據邏輯模式,使之能夠有效地存儲和管理開放數據,具有防泄露、保護權益能力。

● 數據資源管理:面向上層應用,對不同業務的數據資源進行整合,設計不同類型數據的語義關聯組織方法,建立易于不同領域數據使用者使用的開放數據資源。在此基礎上,實現對各種數據資源的分類、查詢、統計、匯總等,幫助數據提供者實現數據資源的統一管理。

● 數據邏輯模式:對開放數據的類型、內容、性質以及數據間的聯系進行描述,定義數據上的操作類型和操作方式。從數據屬性維度(橫向)和數據規模維度(縱向)劃分數據粒度,為用戶建立合理的數據組織。

● 數據安全需求:包括安全需求接口以及對需求的理解。根據數據提供者的數據安全特性,結合數據提供者對數據的隱私保護需求,建立數據安全需求規則,實現安全規則的建立、分解、合并優化等,以實現數據資源安全的復雜應用需求。

(2)面向數據使用者的功能

針對數據使用者對數據開放的應用需求,數據自治開放應用平臺在數據自治開放數據資源管理系統的基礎上,基于數據驅動的軟件開發思想,建立一套面向數據自治開放應用系統的整體解決方案。● 數據自治開放應用需求描述方法。需求是整個數據自治開放應用系統最關鍵的輸入,由業務需求、用戶需求、功能需求、數據需求等組成。基于常規軟件需求描述內容,針對數據自治開放應用需求存在模糊性、不確定性、變化性和主觀性的特點,提出面向數據自治開放應用環境的N-元素描述法,體現數據自治開放應用的業務流程、數據、功能、性能及安全約束等要素,從使用前景和范圍文檔來記錄業務需求。

● 數據自治開放應用設計技術。結合數據自治開放應用需求,制定數據自治開放應用系統設計中需要遵循的原則、部署應用的規劃。基于接口隔離原則、依賴反轉原則等,給出數據自治開放應用的基本設計流程、組織結構、模塊劃分、功能分配、接口設計、運行設計和數據結構設計以及應用中系統功能模塊之間層次結構與調用關系的設計原則。

● 數據自治開放應用的實現策略。基于數據自治開放應用分析及設計結果,給出數據自治開放應用的實現部署策略。

2.3 數據自治開放應用平臺的對外接口描述

數據自治開放應用平臺對外需要與數據資源管理系統和軟件行為監控系統進行交互。根據圖2所示的數據自治開放平臺架構,其對外接口主要有以下兩種類型。

● 軟件訪問接口:為數據自治開放應用系統提供了與軟件行為監控系統之間的交互接口,即實現數據自治開放應用的各項業務功能的前端程序開發接口。數據自治開放系統的軟件訪問接口可采用OpenDL SDK的數據開放應用軟件開發工具包進行設計與實現。

● 數據訪問接口:通過OpenDL運行庫與數據資源管理系統交互,支持Web及各種移動設備的訪問,供外部軟件使用數據,實現對物理存儲的數據的管理,如新增、更新、凍結等。

3 ?關鍵技術實現

3.1? 數據邏輯組織

在數據自治開放應用環境中,數據提供者與數據使用者往往并不相同。因此,首先需要將數據提供者提供的數據資源進行整合,設計面向使用者的數據邏輯組織。由于在傳統應用中,數據的產生者和數據使用者為同一主體,因此其數據邏輯組織大都建立在應用需求已知的情況下。數據庫設計由應用驅動,首先進行概念模型設計,進而進行邏輯表組織和數據表創建。而在面向大數據的數據自治開放應用中,數據的使用者和數據使用任務都存在較大的不可預知性和可變性,因此,采用傳統的數據組織方式并不可行。

與傳統的數據庫關系模型對比,本體模型能夠實現與現實世界的直接對應,同時保留具體數據之間的關聯關系,能更準確地與自然語言相對應,從而呼應可變的上層應用需求[6]。為此,建立基于本體知識庫的數據劃分和邏輯組織。

如圖3所示,基于本體知識庫的數據邏輯組織技術,首先從原始多源關系型數據集中提取候選的本體概念以及概念的屬性和層次結構,然后采用自頂向下的方法先對每個概念進行選擇,判斷概念是否符合本體模型以及概念的屬性;然后為當前概念添加新的子概念和屬性,并為屬性添加值域約束和類型約束;最后對本體模型中每一個概念進行詞義擴展,建立同義詞庫和反義詞庫。領域本體模型完成后,根據模型重新劃分數據。首先去除本體概念中不存在的屬性和表,然后根據本體屬性的約束提取滿足條件的數據實例,最后打破原有的數據表之間的業務關聯關系,根據本體概念之間的關系建立數據表之間新的聯系,從而得到面向數據自治開放的新的數據邏輯組織。

圖3 基于知識庫的數據邏輯組織技術路線

3.2? 安全需求描述與校驗

安全需求面向數據提供者。數據提供者的數據資源開放首先需要保障數據的安全性,而如何描述和表達數據資源的安全性需求成為待解決的首要問題。由于安全性需求存在多樣性的特點,以醫療數據為例,患者醫生的個人信息屬于個人隱私,直接存儲在數據庫中,需要針對具體數據制定安全規則,防止隱私泄露;醫生診斷習慣、院內具有優勢的診療方案等為數據分析的結果,涉及醫生及醫院的利益,需要針對用戶的數據行為制定安全規則;而諸如醫生手術成功率、醫院經營狀況等醫院內部數據,只允許內部訪問,需要根據用戶的訪問級別制定安全規則。針對不同行業,安全性需求既有共性,又有個性;既有顯性需求,又有隱性需求。因此如何準確地表達、描述安全需求,成了迫切需要解決的問題。

安全性需求由數據提供者指定,若要求用戶以系統指定形式制定規則,對用戶而言要求太高。半自動化方式(通過界面引導用戶添加對數據和行為的描述)相對而言對用戶要求較低,但由于數據本身和數據的訪問行為多樣性,系統無法窮舉用戶的數據訪問行為,導致局限性太大。一般用戶對自然語言都能熟練掌握,若安全規則的生成對數據提供者的要求僅是以自然語言方式提供描述,無疑會大大降低用戶的學習成本,從而提升系統的友好度。另外,安全規則的生成需要與具體的數據、用戶的數據訪問行為以及用戶的訪問級別相關聯,如何設計一種結構能夠在保存以上信息的同時,準確地實現從自然語言向該結構的轉換,成為當前迫切需要解決的問題。本文提出的安全需求接口如下所示。

安全需求接口={input,output}。

安全需求接口的input:用戶的自然語言查詢輸入。

安全需求接口的output:{安全規則名,規則涉及的對象,規則對應的操作,訪問控制權限}。

規則名:規則的統一命名。

規則涉及的對象:安全需求中涉及的數據對象。

規則對應的操作:該安全需求要求該數據對象進行何種操作。

訪問控制權限:該安全需求要求該數據對象進行上述操作的權限,如受限的或禁止的等。

如圖4所示,該關鍵技術首先分析數據庫邏輯結構,構造實體類、屬性以及實體與實體及屬性之間的關系,生成知識庫。另外,接受用戶安全規則的自然語言描述,并將該安全規則分解為數據訪問行為描述以及該數據訪問行為的訪問控制處理。數據訪問行為及其訪問控制均采用KeyValue的二元組形式化方式描述,用戶可以通過瀏覽器查看,并可直接通過該圖形化界面對其進行修改和完善,最終進行預保存。在獲得用戶的查詢意圖(語句)后,即可與安全規則進行匹配,對違反安全規則定義的數據訪問需求進行屏蔽和提示。

圖4 安全需求接口技術路線

3.3 分析需求描述與轉換

分析需求面向數據使用者。數據自治開放平臺在確保數據安全性的同時,需提供一個用戶友好的訪問接口,以便用戶便捷地查詢分析相關數據。在傳統數據庫管理系統中,用戶通過標準的數據庫查詢語言或交互式的可視化查詢界面描述所要進行的查詢分析操作。然而,上述方式需要用戶具有數據庫查詢語言基礎,并且對數據庫中表的結構較為熟悉,能自行確定連接條件等。這對于數據提供者和數據使用者并不相同的數據開放而言,較為困難[7,8]。除此以外,邏輯較為復雜的查詢分析很難或者無法用這種可視化的查詢界面表達出來。特別是對面向大數據的開放來說,對數據挖掘算法的有效支持是其必備的一個功能,但通常來說普通用戶并不能精準地表述自己數據挖掘的意圖,更不可能透徹理解數據挖掘的相關算法。自然語言是人類最為熟悉的交流工具,設計一個支持自然語言的查詢分析接口,將極大地提高數據的易用性,這種方便用戶的查詢方式將把數據迅速推廣普及至各個行業。

本文提出的自然語言查詢分析接口接收用戶的自然語言查詢需求,并將其轉化為數據管理層支持的查詢語言,這代表查詢接口接收的語言是自然語言的一個子集,同樣,數據庫本身內容的確定性以及查詢句型的有限性和不帶感情色彩等特點,使得語義的歧義性、模糊性問題在查詢接口中可得到有效處理。

自然語言查詢接口={input,output}。

查詢接口的input:用戶的自然語言查詢輸入。

查詢接口的output:對應的數據庫查詢語言。

如圖5所示,自然語言查詢以用戶自然語言為輸入,首先通過文本解析器將自然語言轉化為語義樹;進而根據語義相似度及映射規則將樹節點歸類,并與自治開放數據中的底層數據對象建立對應關系。在此基礎上,根據設計的查詢樹結構以及節點類型調整語義樹至基本查詢樹,選取Topk棵基本查詢樹與用戶進行交互,從而返回一棵最正確的基本查詢樹,再將基本查詢樹進行模糊節點擴充,生成一個層次清晰、關系明確的查詢樹結構并返回。最后,通過查詢轉換將查詢樹轉換為SQL或其他數據庫可執行語句,傳入下層接口執行。

圖5 自然語言查詢接口技術路線

4 ?典型項目應用

4.1 醫療數據自治開放應用

近年來,醫院信息化建設的深入促進了醫療大數據的形成。醫療數據的開放可以改變醫院信息系統中醫療數據的封閉現狀,實現醫生對患者的跟蹤診療,提高醫治過程的透明化,為醫院的臨床、科研及管理運營等提供重要的數據獲取途徑,有助于提升醫療數據的再利用價值,提高醫療服務的質量和水平。

本文在自主研發的數據自治開放模型、應用技術與方法基礎上,選取了上海市某三甲醫院作為數據開放的應用示范,實現在自治開放環境下臨床醫療數據的開放及深度開發利用。該醫院作為全國知名大型綜合性醫院,一方面,接收來自全國各地的初診和復診患者,醫生需要獲取患者的前期診療數據;另一方面,為了方便患者的后續治療,又需要把患者的治療數據開放給其他醫院。因此,醫院面臨數據開放的典型性問題,即如何最大限度地從第三方獲得有效的數據,如何在保證數據安全性的前提下為第三方開放數據。

4.2 醫院數據自治開放應用系統

針對醫院的業務需求,醫院的醫療數據自治開放系統體系框架如圖6所示。

圖6 系統體系框架

圖6的系統體系框架包括數據提供方、數據使用方和分級診療數據自治開放應用系統三方。數據提供方主要為社區醫療服務中心、二級醫院和三級甲等醫院等,患者可能在這些機構做過治療或化驗;數據使用方主要為政府相關部門、第三方醫療研究機構或個人等,他們需要獲取相關診療數據作為患者后續治療、醫學研究或政府決策等用途;分級診療數據自治開放應用系統部署在試點醫院,它主要由數據整合、數據分析模型庫、數據瀏覽和展示、數據申請和審核以及使用等多個功能模塊組成。其中,數據整合主要完成來自社區醫療服務中心、二級醫院和三級甲等醫院多級來源數據的整合和數據劃分。數據分析模型庫根據預收集的數據分析需求,如疾病分期、分型預測、診療方案學習等,構建一系列分析模型,并在后期進行模型的累積和演化更新。數據邏輯組織展示和瀏覽主要從元數據、時間、來源等多維度對數據進行展示,供使用者進行篩選。數據提供方可根據用戶的權限和其篩選數據的安全規則進行使用審核。最后,向符合安全規則的數據訪問需求提供相應數據供用戶使用。

在上述分級診療數據自治開放應用系統中,首先需要對醫院不同信息化系統(如醫院信息系統、影像歸檔和通信系統、電子病歷系統、實驗室信息系統等)進行數據整合,抽取患者信息、醫生信息、醫院信息、診斷信息、檢查檢驗信息、治療信息的結構化與非結構化數據,建立全方位數據資源體系。

以國內某三甲醫院為例,經過相同患者識別、信息整合,最終的表有400多張,再將與臨床無關的表去掉,還有60多張數據表。不論是數據提供者還是數據使用者,都并非數據庫專業用戶,直接在原始表結構上進行安全規則定義和查詢需求定義均十分困難,因此建立基于本體的數據邏輯組織十分必要。在圖6的系統體系框架中,數據邏輯展示和瀏覽模塊采用本文提出的基于本體的數據邏輯組織將極大地方便數據提供者和數據使用者,是應用系統的有力支撐。同時,在建立本體的過程中,對字段進行合并重組,將大大減少數據量。以甲狀腺數據集為例,重組后的數據總量減小到30%,在重組后的數據集上進行查詢執行,將顯著提升查詢執行性能[9]。進一步,對于數據使用者(以醫生為例)來說,在構造數據分析模型時,將不可避免地從開放數據中獲取數據。考慮簡單查詢意圖“查詢低鉀的甲亢用戶”,該語句的具體執行涉及數據庫中的三表連接,且存在兩種連接方式。若讓用戶直接書寫結構化查詢語句或書寫基于本體的查詢語句,則十分困難。本文提出的基于自然語言的分析需求與轉換關鍵技術將幫助數據使用者輸入自然語言語句提出查詢請求,即可方便地獲取所需數據構建模型,數據提供者定義安全需求的情況與此類似。以“普通用戶不能查詢醫生的用藥習慣”這一安全規則為例,很明顯,該規則定義待保護的隱私數據為“用藥習慣”,即醫生根據診斷結果經常開的藥。將該自然語言描述的待保護數據轉換為描述數據訪問的安全規則,并進一步對規則進行分解與合并,通過對數據使用者的數據訪問行為進行審核判斷,即可防止隱私數據的訪問和泄露。可見,應用本文提出的關鍵技術可極大地提升數據自治開放平臺的性能和可用性。

5? 結束語

本文提出了針對數據自治開放上層應用的系統解決方案。在現有的大數據相關研究中,大多數工作集中于大數據的存儲管理技術,然而針對大數據提供者和大數據使用者,如何設計方便、有效的查詢分析需求接口、完全需求接口,如何提供清晰、有效的數據邏輯組織,以方便管理和使用數據,相關的研究還較少。本文對上述關鍵問題和關鍵技術展開研究,并提供了相應的解決方案。最后,將本文提出的應用平臺與技術,在醫療領域的數據自治開放示范工程中進行驗證,驗證了本文方法的有效性。

點擊下方?閱讀原文?即可獲取全文

作 者 簡 介

陳德華(1976-),男,東華大學計算機科學與技術學院副教授,主要研究方向為數據庫與數據倉庫、大數據與深度學習。

?

潘喬(1977-),男,東華大學計算機科學與技術學院副教授,主要研究方向為數據庫與數據倉庫、大數據與深度學習。

?

王梅(1980-),女,東華大學計算機科學與技術學院教授,主要研究方向為數據庫、多媒體。

?

樂嘉錦(1951-),男,東華大學計算機科學與技術學院教授、博士生導師,主要研究方向為數據庫與智能信息處理、大數據與智慧醫療。

?

《大數據》期刊

《大數據(Big?Data?Research,BDR)》雙月刊是由中華人民共和國工業和信息化部主管,人民郵電出版社主辦,中國計算機學會大數據專家委員會學術指導,北京信通傳媒有限責任公司出版的科技期刊。

關注《大數據》期刊微信公眾號,獲取更多內容

總結

以上是生活随笔為你收集整理的数据自治开放应用平台设计与实践的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。