日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

基于生命周期理论的农业科学数据中心化管理模式

發布時間:2025/3/15 编程问答 17 豆豆
生活随笔 收集整理的這篇文章主要介紹了 基于生命周期理论的农业科学数据中心化管理模式 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

基于生命周期理論的農業科學數據中心化管理模式

高飛1,2,?周國民2,3,?滿芮2,4

1?中國農業科學院作物科學研究所,北京 100081

2?國家農業科學數據中心,北京 100081

3?中國農業科學院農田灌溉研究所,河南 新鄉 453002

4?中國農業科學院農業信息研究所,北京 100081

?摘要農業科學數據資源的建設、管理與共享工作得到了世界各國政府、科研機構和科學家的高度重視,相關國際組織和農業科學數據平臺格外活躍,為農業科技創新提供了有力支撐。從科學數據資源建設的現狀來看,科學數據管理中心化是未來的發展趨勢。對農業科學數據中心化管理模式進行探索,構建了農業科學數據生命周期管理模型,并從科學數據管理標準、數據匯交與加工、數據長期保存和數據共享服務4個方面對模型進行解釋,力圖為科學數據管理、共享與服務提供參考。

關鍵詞農業科學數據 ; 生命周期 ; 管理模式 ; 數據共享

論文引用格式:

高飛, 周國民, 滿芮. 基于生命周期理論的農業科學數據中心化管理模式[J]. 大數據, 2022, 8(1): 24-36.

GAO F, ZHOU G M, MAN R. Centralization of agricultural scientific data management model based on life cycle theory[J]. Big Data Research, 2022, 8(1): 24-36.


0 引言

近年來,農業科學數據資源的建設、管理與共享工作得到了世界各國政府、科研機構和科學家的高度重視,相關國際組織和農業科學數據平臺格外活躍,農業科學數據管理工作持續推進,為農業科技創新提供了有力支撐。聯合國糧食及農業組織(Food and Agriculture Organization,FAO)發布了農業環境指標、農業科技指標、土地利用、漁業資源等10多個數據庫,積極促進農業科技創新研究。國際橡膠研究組織(International Rubber Study Group,IRSG)搭建了世界天然橡膠產業數據庫,數據覆蓋世界主要天然橡膠的生產面積、產量、庫存量、貿易量、市場價格以及主要天然橡膠消費國的消費量、進出口量、進出口價格等。國際椰子共同體(International Coconut Community,ICC)、國際可可組織(International Cocoa Organization, ICO)、國際胡椒組織(International Pepper Community,IPC)等分別搭建了對應的熱帶作物產業數據庫,為熱帶作物經濟研究提供了數據支撐。我國科學數據平臺建設始于21世紀初,2014年建成地球系統科學、人口與健康、農業等8個領域的國家科技資源共享平臺,2019年科學技術部、財政部對原有國家平臺進行優化調整,形成了20個國家科學數據中心,推進相關領域科技資源向國家平臺匯聚與整合。從科學數據資源建設現狀來看,科學數據中心化管理是未來發展趨勢,但數據中心如何管理科學數據、進行數據共享還需探索。

1 模型與理論基礎

1.1 科學數據生命周期

科學數據產生于科學實驗、調查、觀測等科學研究活動,服務于科研工作者,其生命周期與科研工作流程緊密相關。從現有文獻來看,根據研究內容的不同,科學數據生命周期各階段劃分略有不同,大致可分為數據計劃、數據獲取(生產)、數據處理、數據存儲、數據共享(重用)5個階段。楊傳汶等人在此基礎上增加了數據更新階段,并提出了基于科研動態的數據服務,如協助制訂數據計劃、設計元數據、提供保存工具、提供領域專家信息、提供數據檢索服務、數據評價交流和協助數據更新完善等。儲節旺等人將數據共享細分為共享、分析、再利用3個環節,構建了科學數據管理體系,包括科學數據管理制度、管理風險防控體系、數據質量評估和基于科學數據生命周期的數據資源配置、技術支持、人才隊伍建設和信息素養培育。夏義堃等人從學科特性和學術倫理角度出發,認為應從基礎層(政策標準、基礎設施、數據能力、資金保證)、流程控制層(數據管理計劃、采集、組織、保存、共享利用)和主體層(資助機構、研究機構、出版商、數據平臺)3個層面對生命科學數據的質量進行控制。陳欣等人進行了社會科學數據特征研究,將數據生命周期簡化為創建、分析、公開3個階段。姚占雷等人基于人文社科數據生命周期各階段特點,構建了數據管理平臺,滿足人文社科研究學者的科研需求。生命周期是一種有效的分析工具,可以清晰地反映數據創建后的各階段特點,本文采用此方法進行農業科學數據中心化管理模式研究。

1.2 農業科學數據生命周期管理模型

本文基于國家農業科學數據中心(以下簡稱數據中心)的數據管理實例,將農業科學數據管理活動分為數據資源建設、匯交、加工、長期保存、共享5個階段,如圖1所示。本文的農業科學數據資源主要包括科技項目科學數據、長期觀測科學數據和學科領域自建科學數據。數據匯交從廣義上來說是數據擁有者將科學數據提交到科學數據管理機構的過程,除了科技項目科學數據、長期觀測科學數據,學科領域自建科學數據也可被提交至科學數據管理機構。例如,在發表論文時,出版社往往要求論文使用的數據同時發表,但并不是所有出版社都能提供數據存儲服務。這時,作者可以將數據提交至科學數據管理機構進行公開發表。數據加工主要針對元數據和數據實體,通過添加科學數據資源標識、智能分類、融匯等控制數據質量,進行規范化管理。數據長期保存要對數據進行分級分類管理,同時保證數據存儲環境安全,保證數據可以重復使用,實現對科學研究過程的追溯。數據管理的最終目的是實現數據共享,數據中心應將元數據在網絡上進行共享,并提供數據檢索服務。

數據管理標準是貫穿整個數據生命周期的,包括數據采集、匯交、格式交換、質量控制、元數據等標準規范。同時,由于數據以幾何倍數增長,科學數據管理離不開基礎設施(分析工具、存儲系統、管理工具)的輔助。

圖1???農業科學數據生命周期管理模型

2 農業科學數據管理的主要問題

2.1 農業科學數據資源缺乏長期管護

數字時代的到來使數據存儲更加便捷,但可靠性卻大大降低。存儲設備過時、讀取設備淘汰都可能導致數據無法使用。而與傳統的文獻信息相比,由數字技術支撐的數字信息在存儲、傳輸和持久保存方面存在一系列與生俱來的問題。數字信息的存活和使用必須要得到特別的維護和管理,以確保數字信息長期存活和數字信息真實可信,能夠被未來的使用者理解和應用。但農業科學數據,特別是原始數據,大量分散在相關行業的政府部門、研究機構、農業企業等,無法進行統一管理,缺乏有效的數據管護,不利于科研人員使用,難以發揮農業科學數據在研究中的作用。

2.2 農業科學數據質量參差不齊

農業數字資源規模龐大、增長快速,但質量參差不齊,主要表現為數據重復保存、數據丟失、分類不合理、缺少相關質量說明文檔等。原始數據由項目團隊保存,而項目團隊往往缺乏管理意識,造成數據質量降低。例如,研究人員根據自身經驗創建元數據,會出現元數據冗余、丟失、編碼錯誤、前后不一致、版本混亂等問題。

2.3 農業科學數據共享率低

農業數字資源數據結構復雜、多變,內容組分權屬邊界模糊,獲得與使用條件煩瑣復雜,導致我國科學數據開放共享程度不夠理想,與社會大眾的需求差距較大。有學者調查研究發現,科學數據的權益不清是我國科學數據開放共享程度不夠理想的重要原因之一,科學數據持有者擔心開放共享數據后帶來權益糾紛等不良影響。此外,我國科學數據流失嚴重,國際上很多有影響力的雜志要求論文發表前必須提交支撐論文的基礎科學數據,學者為了發表論文常常在沒有將數據匯交到國內管理機構的情況下向國外提供數據。

3 農業科學數據中心化管理模式

3.1 數據管理標準

數據中心需要制定相關的管理標準以便計算機識別和處理數據,使數據更容易被發現和重用。

(1)農業科學數據采集標準

農業科學數據采集標準定義了農業數據采集各階段需要遵循的基本規則,對采集對象、采集方法、原始數據的獲得與記錄等過程進行了定義和結構化,使數據采集無歧義,便于計算機理解與記錄。數據采集對象應明確其位置屬性、時間屬性和基本特點。采集指標需經過數據化標準專家、領域專家的標準化處理,形成可直接組成獨立于語法數據交換格式的、可重用的數據采集指標。采集的原始數據不允許修改,以確保數據記錄的連續性和完整性。

(2)農業科學數據質量控制

數據的質量是影響科學數據重用的關鍵性因素之一,而農業科學數據由于其內容的廣闊性、結構的復雜性,數據質量控制尤為重要。針對農業科學數據的特點,數據中心制定了農業科學數據質量檢查與控制規范。農業科學數據質量應從定量與非定量標準兩方面進行控制。數據質量定量評估標準主要包括:①完整性,數據集中是否存在冗余數據或缺少數據;②邏輯一致性,即數據概念是否符合概念模式規則、值是否在值域范圍內、數據存儲與數據集物理結構是否一致、數據集拓撲關系是否一致;③位置精度,包括絕對精度、相對精度和柵格數據位置精度;④時間精度,包括時間測量精度、時間一致性、時間正確性;⑤專題精度,即數據分類是否正確、非定量屬性(如數據集標題、關鍵字、數據版本等)描述是否正確、數值屬性精度是否準確。數據質量非定量評估標準主要包括:數據集創建目的是否說明、數據用途是否填寫,以及數據志(數據從收集、獲取、匯編到現狀的整個生命周期)是否記錄清晰。在數據控制管理過程中,這兩種類型的數據質量評估結果都應當被提供,每個數據質量結果都有一個數值類型,且這個結果可以被計算機識別。

(3)農業科學數據元數據標準

農業科學數據元數據標準對完整描述數據對象的數據項集合、著錄規則進行了定義,適用于資料共享、數據發布、數據集編目、數據交換和網絡查詢服務等。農業科學數據元數據應提供標識、內容、分發、質量、表現、參照、圖示表達、擴展、限制和維護等信息。元數據標準體系分為標準和引用兩部分。標準部分包括標識信息、內容信息、分發信息、數據質量信息、數據表現信息、參照系信息、圖示表達目錄信息、元數據擴展信息、應用模式信息、限制信息和維護信息;引用部分包括覆蓋范圍信息以及引用和責任方信息。元數據內容框架如圖2所示,每一部分信息都用統一建模語言(unified modeling language,UML)包表示。元數據實體可按需要聚集或重復,以滿足標準規定的必選要求和領域的其他要求。對于公共元數據來說,標識信息為必選項,其他信息為可選項。

圖2???元數據內容框架

針對農業科學數據生命周期管理,數據中心還制定了數據匯交管理辦法、農業科學數據服務規范、數據發布管理規則、農業科學數據信息安全管理規范、農業科學數據中心用戶管理規范、農業科學數據集成和訪問規范等標準規范。

3.2 數據匯交與加工

(1)數據匯交管理

數據中心作為數據管理機構對匯交數據進行管理與加工維護。農業科學數據匯交內容包括匯交方案、質量自查報告和科學數據。匯交方案應明確以下內容:數據匯交義務人、數據的種類和范圍、數據產生方式、數據格式、數據管理機構、數據質量說明、匯交形式和進度、數據的科學價值和使用領域、數據保護期限和其他說明事項。項目承擔單位對數據的真實性、完整性、一致性進行自查后提交質量自查報告。科學數據是項目數據匯交的核心,應包含實體數據、數據描述信息和輔助工具軟件。國家農業科學數據中心配備專門的數據保護和管理(保管)人員,采取現代化的手段保存數據,保證匯交數據的安全;同時積極創造條件,保證農業科學數據的合理利用,推動數據共享。數據中心對匯交的科學數據進行分類、分級存儲和管理,確保數據的物理安全。數據中心在數據驗收后及時公布項目匯交科學數據元數據,在保護項目承擔單位合法權益的基礎上,做好數據共享和服務工作。

(2)數據加工

數據中心保存的原始數據不能直接在網絡上共享,還需要經過一定的加工處理。在元數據層面,對照科學數據元數據標準,補全元數據的必選項,對于可選項,則根據學科領域要求進行適當的擴展或刪除。例如:①元數據不全問題,常見于缺少描述信息、地址信息、郵編地址信息等字段,需要進行補全;②實體數據格式問題,常見于格式錯誤、格式可讀性差(以PDF報告提供數據、以圖片形式提供表格數據)等,需要進行修正、識別和提取;③實體數據字段問題,常見于字段定義不規范、字母字段缺少含義解釋等,需要進行修改和標注;④數據可用性不足,常見于提交的論文、報告、證書等不可用,需要進行修改。

數據中心還需為科學數據添加數據身份標識。科技資源標識是科技資源實體唯一的身份編碼,例如:海南島熱帶作物種質資源考察庫的科技資源標識為CSTR:17058.11.E0015.20210616.00.ds.0385。其中,CSTR為中國科技資源代號,17058為國家農業科學數據中心代碼, 11表示該資源類型為科學數據,E0015表示數據生產者所在單位為中國熱帶農業科學院科技信息研究所,20210616表示數據創建日期,00兩個數字分別表示數據來源為調查、數據類型為數值型,ds表示該資源為數據集合,最后4位為數據流水編碼,其結構如圖3所示。

圖3???農業科技資源標識符結構示意圖

對于數據實體,需進行一致性檢測(生成MD5碼)和智能分類、融匯。例如:①基于同一種作物,對不同項目產生的匯交數據中涉及本作物的內容進行提取、標注和統一量度,并進行跨數據集融合,以構建針對本作物的數據專題;②基于某地理區域進行坐標計算后,針對多個數據集,對涉及本地理區域范圍的數據進行提取,并進行跨數據集融合,以構建針對本區域的數據專題。

3.3 數據長期保存

(1)數據分類

數據資源長期保存是各國數據平臺高度關注的戰略問題,數據分類是長期保存的重要環節。數據中心對現有農業科學數據資源進行調研,然后結合科學數據用戶需求,對農業領域的數據資源目錄信息進行重新編制,歸并總結出14大類58小類的全新資源分類體系(見表1)。新的資源分類體系不僅使科學數據資源分類更加明晰,也方便用戶進行索引和檢索。由于農業科研和生產高速發展,數據資源分類體系需要隨時進行微調以適應新的需求。

(2)數據分級

由于農業科學數據包含的學科領域眾多,涉及糧食安全、種子安全、生物安全、經濟安全等方面,必須根據數據的重要程度和涉及的安全問題進行分級管理。數據安全分級指按照數據遭受破壞后造成的影響進行安全等級劃分,以達到對不同安全等級的數據實施不同安全防護的目的。農業科學數據分級根據數據遭受破壞后造成的影響等從高到低分為5級、4級、3級、2級、1級等指導性的分級初始值,各級判斷準則如下。

● 5級數據判斷準則:遭受破壞后,對國家安全產生較大影響的農業數據,通常包括地形地貌、遙感影像、氣候資源等;數據安全性遭到破壞后,對公眾權益或農業企業利益造成嚴重影響的數據,如科技成果、轉基因庫等。

● 4級數據判斷準則:數據遭到破壞后,對公眾權益造成一般影響,或對個人隱私或農業企業的合法權益造成嚴重影響,但不影響國家安全,如農業科研項目投資、農業金融與投資等。

● 3級數據判斷準則:數據用于部分場景,一般針對特定人員公開,且僅被必須知悉的對象訪問或使用,如產品追溯、產地追溯等;數據遭到破壞或數據安全性遭到破壞后,對公眾權益造成輕微影響,或對個人隱私或農業企業的合法權益造成一般影響,但不影響國家安全,如種質資源等。

● 2級數據判斷準則:只對部分受限用戶公開,通常指內部管理且不宜廣泛公開的數據,如農業區劃等;數據的安全性遭到破壞后,對個人隱私或農業企業的合法權益造成輕微影響,但對國家安全、公眾權益的影響極小,如農產品質量追溯等。

● 1級數據判斷準則:數據一般可被公開或可被公眾獲知、使用,如組織機構等;農業組織或農業科學數據管理者主動公開的信息,如生產許可等。數據遭到破壞或數據安全性遭到破壞后,可能不會對個人隱私或農業企業的合法權益造成影響,或僅造成微弱影響,但不影響國家安全、公眾權益,如商品信息等。

數據長期保存需要使用質量較好的存儲介質,以延長數據保存時間。不管存儲在什么介質里,都需要對數據進行定期檢查、修復,實現定期轉存。備份方案根據數據安全級別進行區分,重要數據至少保存3份。數據保存使用標準的、可互相兼容的或開放的、無損的數據格式。如文本文件應選擇ODF格式,表格文件應選擇ASCII格式,視頻文件應選擇MPEG-4格式,圖片文件應選擇TIFF或JPEG2000格式,網頁應選擇XML或PDF格式。

3.4 數據共享服務

科學數據共享指科學數據不受其擁有單位的限制,可以在更大范圍內被利用的一種業務合作與共享方式。數據中心通過建設科學數據共享平臺,實現數據的長期保存,幫助科技工作者有效地管理數據、統一數據的引用標識符、提高數據的可發現性。國家農業科學數據中心平臺架構如圖4所示。

圖4???國家農業科學數據中心平臺架構

國家農業科學數據中心門戶網站是農業科學數據展示、查詢、宣傳的總平臺,用戶交互的總門戶,具有數據匯交、資源瀏覽、智能搜索、知識問答、專題服務等多項功能。其可向全社會廣大用戶提供高效、便捷的農業科學數據資源目錄和數據實體服務。

數據平臺建有4個應用系統:農業科學數據匯交系統、農業科學數據加工系統、農業科學數據長期保存系統和農業科學數據工作服務系統。農業科學數據匯交系統主要對科技項目科學數據、長期觀測科學數據和學科領域自建科學數據三大類數據進行收集,實現科學數據匯交計劃和匯交內容的提交、審核、跟進、反饋和審批。農業科學數據加工系統對原始數據的元數據和實體數據進行加工,添加科學數據資源標識,進行科學數據智能分類、融匯。加工后的數據被保存在農業科學數據長期保存系統,由數據中心進行管理維護。農業科學數據工作服務系統匯聚了各學科領域數據中心信息,可為中心工作提供便捷的統計、監測和管理的窗口。

農業科學專題數據庫由加工系統處理后形成的觀測數據集、精品數據集、匯交數據集組成,是中心為用戶提供的主要數據產品。用戶可以通過平臺門戶獲取需要的專題科研數據。

4 開發應用

4.1 匯交系統

國家農業科學數據中心開發了農業科學數據匯交系統,用于農業科學數據匯交計劃和數據實體的提交、審核、跟進、反饋。本系統有五大功能模塊:系統首頁、科學數據匯交計劃、自查質量信息報告、科學數據匯交內容、基本信息管理,如圖5所示。

圖5???農業科學數據匯交系統

● 系統首頁:提醒用戶需要辦理的業務,并及時了解已辦業務的狀態。

● 科學數據匯交計劃:包含更新任務書,在線填寫和導入科學數據匯交計劃。

● 自查質量信息報告:用于對科學數據匯交內容進行自查。

● 科學數據匯交內容:用于填寫科學數據描述信息,上傳匯總數據集、使用軟件。

● 基本信息管理:可以修改密碼、單位名稱、聯系人、聯系電話、電子郵箱等基本信息。

4.2 加工系統

國家農業科學數據中心開發了農業科學數據加工系統(如圖6所示),根據統一的格式,對科技計劃項目科學數據匯交審核系統、長期性數據匯交系統、總中心門戶、分中心門戶、實驗站門戶等其他系統收集的數據資源進行加工處理,以滿足數據共享的規范及要求。系統功能主要包含:原始數據查看、元數據加工、數據審核、數據分布、加工任務分配、用戶管理、個人信息管理等。

圖6???數據加工示例

4.3 長期保存系統

農業科學數據長期保存系統實現了PB級農業科學數據對象的長期安全存儲,為由國家科技計劃項目形成的科學數據支撐數據的長期保存提供一流的倉儲。農業科學數據長期保存系統整體分為前后端兩部分:后端保存系統、前端展示系統。后端保存系統主要用于與其他業務系統進行后臺數據同步,不直接對外提供服務;前端展示系統主要用于對外展示保存系統內的元數據信息,提供簡單的檢索和查看服務,也提供可供其他系統調用的數據接口(如圖7所示)。系統主界面展示了4項統計信息和幾條最近更新的資源。點擊資源名稱可跳轉到對應的資源詳情頁查看資源元數據信息。

圖7???農業科學數據長期保存系統

4.4 數據共享服務

國家農業科學數據中心門戶網站提供豐富的數據服務,除了基礎的數據檢索服務,還包括參考咨詢服務、數據挖掘分析、數據配套工具導航、數據庫(集)收錄認證與查詢、用戶卡、用戶反饋等,如圖8所示。

圖8???數據共享服務

5 結束語

數據管理的目的是整合數據,促進數據重用,引導知識發現和創新。良好的數據管理可以提高數字出版物的質量,簡化數據發現、評估、重用的過程。英國數據檔案(UK data archive,UKDA)作為數據整合與重用研究實踐的先驅,針對數據收集、數據清理、數據錄入、數據保存、數據訪問建立了一系列管理標準。澳大利亞統計局(Australian Bureau of Statistics, ABS)與政府、研究機構和企業合作,整合社會、經濟和環境數據集,并構建了5個安全框架進行數據管理。科學數據管理是研究熱點,我國學者在借鑒國外先進經驗的基礎上,結合學科領域數據共享需求,提出了科學數據管理政策建議。農業科學數據與農業科技活動緊密相關,數據采集、保存、利用都需具備一定的專業素養,因此需要數據管理機構(科學數據中心)進行管理。本文從數據管理主體的角度對農業科學數據管理模式進行研究,構建了農業科學數據生命周期管理模型,對各數據階段的任務、機制進行解析,并根據理論研究進行了初步應用開發。但通過計算機發現、訪問、集成和分析與任務相關的科學數據仍是科學數據管理的一大挑戰,本文對數據智能管理算法與實現方面的探索較少,還需進一步研究。

作者簡介

高飛(1988-),女,博士,中國農業科學院作物科學研究所助理研究員,主要研究方向為科學數據管理。

周國民(1969-),男,博士,中國農業科學院農田灌溉研究所所長、研究員,國家農業科學數據中心主任,主要研究方向為農業信息化、農業科學數據管理。

滿芮(1985-),女,博士,中國農業科學院農業信息研究所助理研究員,主要研究方向科學數據管理。

聯系我們:

Tel:010-81055448

? ? ? ?010-81055490

? ? ? ?010-81055534

E-mail:bdr@bjxintong.com.cn?

http://www.infocomm-journal.com/bdr

http://www.j-bigdataresearch.com.cn/

轉載、合作:010-81055307

大數據期刊

《大數據(Big Data Research,BDR)》雙月刊是由中華人民共和國工業和信息化部主管,人民郵電出版社主辦,中國計算機學會大數據專家委員會學術指導,北京信通傳媒有限責任公司出版的期刊,已成功入選中文科技核心期刊、中國計算機學會會刊、中國計算機學會推薦中文科技期刊,以及信息通信領域高質量科技期刊分級目錄、計算領域高質量科技期刊分級目錄,并多次被評為國家哲學社會科學文獻中心學術期刊數據庫“綜合性人文社會科學”學科最受歡迎期刊。

關注《大數據》期刊微信公眾號,獲取更多內容

總結

以上是生活随笔為你收集整理的基于生命周期理论的农业科学数据中心化管理模式的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。