专利:结构化大数据通信协议
發明專利技術
結構化大數據通信協議
發明人:樊永正
269779216@qqqq.com
技術領域
結構化大數據通信協議是一種通信協議,也是一種讓數據成為合格的結構化大數據的技術。結構化大數據通信協議也類似于ETL,ETL是處理現有的信息系統所產生的數據的問題,而結構化大數據通信協議是在設計信息系統之初就開始預防數據產生問題。ETL是為數據治病,結構化大數據通信協議是預防數據產生疾病。ETL是對現有技術所產生的問題進行小修小補,結構化大數據通信協議提出了新的數據處理方案。結構化大數據通信協議也是一種軟件開發模式,利用結構化大數據通信協議所建立的各種信息系統都是大數據信息系統,只要以鏡像的方式把各大數據信息系統中的數據上傳到大數據中心即可累加成合格的結構化大數據。合格的結構化大數據是不經ETL轉換即可高效挖掘的結構化數據。
背景技術
隨著大數據時代的到來,人們發現各行各業已有很多信息系統,然而信息系統雖多卻不能滿足大數據時代的需求,信息孤島嚴重,難以互聯互通,數據共享困難,各行各業已有很多數據,然而數據雖多,卻難以高效挖掘。目前是利用關系數據庫來解決這些問題,但只能解決局部的問題,不能從根本上解決問題。結構化大數據通信協議就是針對這些問題而創立的。結構化大數據通信協議來源于模仿大腦記憶、聯想、思維,始于1982年,那時想讓計算機模仿大腦的聯想功能。
發明內容
結構化大數據通信協議是通過對數據的優化及軟件開發模式的改變而避免信息孤島問題、互聯互通問題、數據共享問題產生,并使數據容易挖掘。結構化大數據通信協議可使數據具有12個技術特性:“唯一性、歸屬性、可識別性、獨立性、完整性、規范性、與系統的耦合性(耦合度為零)、結構統一性、可累加性、可移植性、時間性、真實性”,只有同時滿足12個技術特性的數據才是合格的結構化大數據。
發明所要解決的技術問題
發明所要解決的技術問題是大數據4V中“數據類型多(Variety)”問題及“數據速度快(velocity)”問題。所針對的具體的技術問題:各行各業已有很多信息系統,然而信息系統雖多卻不能滿足大數據時代的需求,信息孤島嚴重,難以互聯互通,數據共享困難;各行各業已有很多數據,然而數據雖多,卻難以高效挖掘。
有益效果
實現互聯互通、數據共享容易,查詢速度快,數據挖掘容易。
具體實施方式
結構化大數據通信協議的創新表現在如下5個方面:
1、首次提出了結構化大數據的12個技術特性,只有同時滿足12個技術特性的數據才能成為合格的結構化大數據。為使數據滿足12個技術特性,創立了與12個技術特性相對應的12個數據優化方法。
2、通信的基礎是雙方必須采用同一個協議。結構化大數據通信協議所提出的“結構化大數據的12個技術特性”就是結構化數據互聯互通的“通信協議”。
3、在結構化大數據的每一條數據中都增加了體現“數據的唯一性”和“數據的歸屬性”的數據項。現有數據庫技術由于都是用于處理小數據,都沒有考慮這兩個數據項的作用,現有的數據中也都沒有這兩個數據項。這兩個數據項是表明一個數據是不是合格的結構化大數據的關鍵數據項。
4、特別強調數據的標準化、規范化。因為大數據環境中,標準化、規范化的數據能自動模仿大腦的聯想功能,從而大幅度提高查詢數據的速度和靈活性。關系數據庫對數據不加任何限制,完全由數據庫的設計人員自己定義;結構化大數據通信協議對數據的限制非常嚴格,絕對不充許設計人員任意定義數據,所有數據都必須是規范的,這也是讓大數據容易挖掘的一項重要措施。
5、利用結構化大數據的12個技術特性為大數據的真實性提供保障。小數據只是在某個單位內部使用,大數據是在很多單位之間使用,因此大數據的真實性、公證性、權威、不可悔改性就顯得非常重要。
結構化大數據通信協議在對數據優化時是以“萬能數據結構表”(如表一所示)來存貯數據,“萬能數據結構表”可以用一張表存貯各種各樣的結構化數據。
表一:萬能數據結構表存貯數據的例子
ID | 事物代號 | 事物屬性 | 事物屬性值 | 超長屬性值 | 單位 | 附件 | 時間 |
1099 | 1280 | 數據來源 | 廣州第一醫院 | 2014.5.3 | |||
1100 | 1280 | 事物分類 | 病歷 | 2014.5.3 | |||
1101 | 1280 | 事物分類 | 住院病歷 | 2014.5.3 | |||
1102 | 1280 | 事物分類 | 醫療費用 | 2014.5.3 | |||
1103 | 1280 | ×××號 | XXXXXXXXXX | 2014.5.3 | |||
1104 | 1280 | 住院號 | XXXXXXXXXX | 2014.5.3 | |||
1105 | 1280 | 姓名 | 張三 | 2014.5.3 | |||
1106 | 1280 | 性別 | 男 | 2014.5.3 | |||
1107 | 1280 | 中藥費 | 56 | 元 | 2014.5.3 | ||
1108 | 1280 | 西藥費 | 72 | 元 | 2014.5.3 | ||
1109 | 1280 | 其它費用 | 180 | 元 | 2014.5.3 |
說明1:合格的結構化大數據的12個技術特性及12個數據優化方法
合格的結構化大數據具有12個技術特性,或者說只有同時滿足12個技術特性的結構化數據才是合格的結構化大數據。結構化大數據通信協議就是使結構化數據滿足12個技術特性的方法。為使數據擁有結構化大數據的12個技術特性,結構化大數據通信協議提出了12種相應的數據優化方法。
1、數據的唯一性
數據的唯一性:同一事物的各種數據在生存周期中,在不同的信息系統中,都應該是唯一的、可識別的,不能因時間、空間的變化而變成不可識別的數據。
數據的唯一性所針對的問題:當前的同一事物的各種數據在不同的信息系統中的表達形式各不相同,在大數據挖掘時難以準確地識別。例如,同一商品,在不同的經銷商的信息系統中具有不同的編碼;同一患者在不同的醫院就醫時,患者的住院號各不相同,在大數據環境中查患者病史時,會因為與患者相關的數據沒有一個統一的標識碼而難以查詢。
數據優化方法一:讓同一事物的所有數據,在不同的時間、空間、環境中,都必須含有一個(或若干個)唯一的、統一的大數據識別碼。大數據識別碼是數據的×××、車牌號。大數據識別碼與關系數據庫中的ID有本質的差異,ID只是在一張表的范圍內標識數據,大數據識別碼是在大數據的范圍內標識數據。
大數據范圍:不同的大數據所涉及到的范圍不同。在國際貿易中,大數據范圍是全球,國家醫療大數據的大數據范圍是醫療行業,廣州大數據的數據范圍是廣州市。
大數據識別碼可分為兩種,一種是某個具體事物的識別碼,猶如設備的序列號,但與設備的序列號有本質的差異,設備序列號是企業自己編寫的,大數據識別碼需要按國際統一的標準來編碼;另一種是某類事物的識別碼。例如,在了解某種型號的手機在各個經銷商的銷售情況時,就需要該種型號手機的大數據識別碼,因為手機由全世界數十萬個經銷商銷售,手機廠家需要與全世界數十萬信息系統互聯互通。與人相關的數據全應含有×××號,以確保在全球范圍內,在任何時間段,與某人相關的數據都是唯一的,可識別為同一個人的。大數據會涉及到多個不同的信息系統,而小數據只是在同一個信息系統中生存,因此在大數據環境中,數據的唯一性就非常重要,沒有統一的、標準的、規范的識別碼會導致數據挖掘非常困難。數據的唯一性是大數據挖掘、分析的基礎。大數據識別碼必須使可以方便數據分類統計。
2、數據的歸屬性
數據的歸屬性:數據不僅要反映事物的各種屬性,也要反映出數據是歸誰所有(或者說由誰采集、或者說從何而來)。
數據優化方法二:每一個事物的數據中都要含有“數據來源”數據項。“數據來源”是結構化數據具有了“歸屬性”,一般情況下,可用單位名稱來表示“數據來源”。
大數據源于成千上萬家單位,若不標明“數據來源”,在大數據挖掘時會引起識別混亂。
3、數據的識別性
數據的識別性:是指讓信息系統可識別,讓人也可識別。進一步而言,不但要讓自己的信息系統識別,也要能讓他人的信息系統識別,不但要讓自己能識別,也要讓他人能識別。
數據的識別性所針對的問題:關系數據庫中的數據只有數據庫的設計人員自己和自己的信息系統可識別。其它人、其它信息系統只能通過軟件對數據庫中的數據進行解釋、注釋、翻譯之后才能識別。
數據優化方法三:以適當的冗余使數據可識別,盡量用標準的、規范的自然語言來表達數據,盡量避免用代碼來表達數據。在對數據進行優化時的原則是“讓相應領域的技術人員能看懂,讓別人的信息系統也能識別,而不能只是數據庫的設計人員能看懂,也不只是自己的系統能識別。”
在大數據環境中,數據的最重要、最關鍵的一個特性就是“數據的識別性”。關系數據庫的一個策略是:盡量減少數據冗余。關系數據庫在降低了數據冗余的同時卻增加了識別數據的難度。結構化大數據通信協議的策略與關系數據庫正好相反。結構化大數據通信協議的策略:以適當的冗余而使數據具有可識別性,從而使數據可以讓他人讀懂,也讓他人的信息系統能識別。
關系數據庫是一種“數據、數據結構、程序、數據庫系統四者密不可分的數據庫”。因為關系數據庫中的數據脫離具體的表結構和程序以后就變成了無意義的數據,關系數據庫中的數據只有在特定的表中才具有意義。
“萬能數據結構表”是一種“數據與程序無關的數據結構”,或者說是一種“是什么就是什么,與程序無關”。因為“萬能數據結構表”中的數據脫離其數據結構后,其數據的真實含義不變。“萬能數據結構表”中的數據是用標準的、規范的自然語言而表達的,只要懂自然語言,誰都可以看懂“萬能數據結構表”中的數據的真實含義。
從表面上看,關系數據庫減少了數據冗余,這是其一大優點。然而,這也是關系數據庫的最大缺點之一。關系數據庫在減少了數據冗余的同時,也導致了數據失真。數據失真的結果就導致了“信息交換、信息孤島、數據挖掘難”等等問題。在關系數據庫中,只有通過編寫大量的程序,才能解決數據失真問題。無數事實表明,關系數據庫因數據冗余問題而付出了非常高昂的代價。當“數據與程序密不可分”時,要存貯、讀取、查詢數據就必須編寫大量的程序。當“數據與程序無關時”,只要編寫一個通用的程序,其它人借助這個程序就可以非常方便地存貯、讀取、查詢數據,而不必每開發一個數據庫都開發大量的軟件。
結構化大數據通信協議的一個原則:基本上不考慮數據冗余問題,以空間換取智能和使用方便,讓數據自己說話,而不是讓程序替數據說話。而關系數據則是通過應用程序而代替數據說話。用數據代替程序:寧愿增加大量的“冗余”,也要使數據具有獨立性、完整性、可識別性。或者說為了使數據具有獨立性、完整性、可識別性,不考慮數據冗余問題,無論增加多少冗余都可以。在用關系數據庫設計信息系統時,總是用程序來解讀數據庫中的數據。這種策略所帶來的嚴重惡果就是在處理數據時需要編寫大量的程序,不編寫程序就無法處理數據。
結構化大數據通信協議的策略:不惜一切代價,讓數據自己說話,杜絕用程序當翻譯!
?“讓數據自已說話”的目的是:無論把一個數據放到任何地方、任何環境中都能獨立地、完整地表達出同樣的、完整的含義。在大數據時代,一個數據會出現在不同的信息系統中,因此,必須確保數據在不同的信息系統中、不同的環境中都有相同的含義。結構化大數據通信協議使數據具有“獨立性、完整性、識別性、唯一性、歸屬性”的目的就是讓數據自己說話,在大數據環境中,這樣可以大幅度地減少編寫程序的數量。關系數據庫中的數據沒有獨立性,也沒有完整性,關系數據庫做不到“讓數據自己說話”。關系數據庫中的數據需要借助各種“關系”才能表達出完整的含義。結構化大數據通信協議可以讓數據自己說話,而關系數據庫中的數據需要配備“七大姑八大姨”的“關系”才能準確地表達出相應的含義。
關系數據庫的“七大姑八大姨”的“關系”:數據與數據庫系統具有密不可分的關系,數據與表結構具有密不可分的關系,數據與應用程序具有密不可分的關系,數據與數據庫中的眾多表之間具有密不可分的關系。關系數據庫中的數據必須依靠關系數據庫系統、數據結構、數據類型、應用程序才具有意義。當關系數據庫系統中的數據脫離了相應的關系數據庫系統、數據結構、數據類型、應用程序之后就變成了無意義的數據。當前的信息系統所存在的“信息孤島問題、信息交換問題、數據接口問題、互聯互通問題、系統的升級換代問題”等等,都是由于關系數據庫系統中的數據不能自己說話而造成的。
用關系數據庫系統設計電子病歷系統時,對“患者基本情況”會采用如下形式:
表二:患者基本情況表(關系數據庫中的表)
ID | HZXM | GZDW | ZB | XB | ZZ | NL | RQ | HF | BXRQ | MZ | CSZ |
26 | 胡鳳 | 橡膠廠 | 工人 | 0 | 蒙古路2號 | 32 | 1991-4-3 | 已 | 1991-4-3 | 漢 | 本人 |
上述形式的數據是小數據時代的經典結構形式。其實“字段名”也是很重要的信息,必須用標準的、規范的自然語言來描述。“患者基本情況”經過結構化大數據通信協議進行優化之后,在“萬能數據結構表”中的表達形式:
表三:患者基本情況表(萬能數據結構表)
ID | 事物代號 | 事物屬性 | 事物屬性值 | 超長屬性值 | 單位 | 附件 | 時間 |
100 | 1001 | 數據來源 | 上海市第一醫院 | ||||
101 | 1001 | 事物分類 | 病歷 | ||||
102 | 1001 | 事物分類 | 住院病歷 | ||||
103 | 1001 | 事物分類 | 入院病歷 | ||||
104 | 1001 | 事物分類 | 患者基本情況 | ||||
105 | 1001 | 患者編號 | SH10-199103Z21 | ||||
106 | 1001 | 健康卡號 | XXXXXXXXXXXX09 | ||||
107 | 1001 | ×××號 | XXXXXXXXXXXXXX | ||||
108 | 1001 | 姓名 | 胡風 | ||||
109 | 1001 | 工作單位 | 上海橡膠廠 | ||||
110 | 1001 | 職別 | 工人 | ||||
111 | 1001 | 性別 | 女 | ||||
112 | 1001 | 住址 | 蒙古路20號 | ||||
113 | 1001 | 年齡 | 32 | ||||
114 | 1001 | 入院日期 | 1991-4-30 | ||||
115 | 1001 | 婚否 | 已婚 | ||||
116 | 1001 | 病史采取日期 | 1991-4-30 | ||||
117 | 1001 | 民族 | 漢 | ||||
118 | 1001 | 病情陳述者 | 本人 |
通過上述兩張表的對比發現,用“萬能數據結構表”所表達的信息是一種完全用自然語言所表達的不失真的信息,這種信息無論放在什么地方其含義都是一樣的。
從表面上看用“萬能數據結構表”所存貯的信息會多占據一倍左右的存貯空間,但這樣存貯數據可以減少很多復雜的數據抽取、轉換工作。“萬能數據結構表”中的“數據冗余”就是讓“數據自己說話”,讓數據不依賴數據庫系統、不依賴數據結構,不依賴數據類型,不依賴應用程序。結構化大數據通信協議的策略是“以空間換智能及使用方便”。與30年前相比,目前硬盤的存貯容量已提高了10萬倍以上,多占據一倍左右的存貯空間的代價很低,可以忽略不計。“讓數據自己說話”就是讓數據猶如自然語言那樣,可以準確、無誤地表達應有的含義,不需要注釋,也不需要應用程序的解讀。
4、數據的獨立性
數據的獨立性:數據不依靠數據庫系統、不依靠數據結構、不依靠注釋、不依靠應用程序而獨立地表達出某種含義。
針對的問題:關系數據庫中的數據不具有獨立性,需要借助于注釋、數據結構、應用程序才能解讀數據的含義。關系數據庫中的很多表的字段名用的是不規范的字母縮寫,在呈現給用戶時,需要通過信息系統為表加上表頭才能表達出數據的真正含義。
數據優化方法四:通過一定的數據冗余而是數據可以自己說話,讓“數據不依靠數據庫系統、不依靠數據結構、不依靠注釋、不依靠應用程序而獨立地表達出某種含義”,如上表三所示的萬能數據結構表可實現數據的獨立性。
5、數據的完整性
數據的完整性:數據不依靠數據庫系統、不依靠數據結構、不依靠注釋、不依靠應用程序而完整地表達出某種含義。
針對的問題:關系數據庫中的數據不具有完整性,需要借助于注釋、數據結構、應用程序才能解讀數據完整的含義。
數據優化方法五:通過一定的數據冗余而是數據可以自己說話,讓“數據不依靠數據庫系統、不依靠數據結構、不依靠注釋、不依靠應用程序而獨立地表達出某種含義”,如上表三所示的萬能數據結構表可實現數據的獨立性。
6、數據的規范性
數據的規范性:數據應為標準的、規范的、統一的、無歧義的。
針對的問題:當前的各種信息系統中的數據不規范導致數據挖掘非常困難。
數據優化方法六:應在信息系統設計、數據采集階段就確保數據是規范的。
數據的規范性需要建立在“國標大數據標準、國家大數據標準、行業大數據標準”的基礎之上,而不是建立在某個單位內部的數據標準、規范的基礎之上。只有符合“國標大數據標準、國家大數據標準、行業大數據標準”的規范的數據才有資格成為合格的結構化大數據。當前的問題是各家單位的數據規范只是自己制訂的,各不相同,沒有“國標大數據標準、國家大數據標準、行業大數據標準”,這是阻礙大數據發展的一個大障礙。有了標準、規范,并按標準、規范執行,那么在對大數據進行挖掘時,不再需要ETL。
如何體現結構化大數據的規范性:在設計信息系統時就要考慮數據的規范性,在采集、生成數據時,必須嚴格按照“國標大數據標準、國家大數據標準、各行各業大數據標準”輸入數據、生成數據,只有這樣,信息系統所生成的數據才是規范的數據。
各行各業的數據的標準化、規范化是一項工程量巨大的工程。只有做好這項工作,才能確保“結構化大數據的規范性”。數據的標準化是大數據的基礎。可以說沒有數據的標準化就沒有合格的大數據。大數據工程,標準先行。從某一方面而言,由于目前國際上、國內的各行各業都未能做好數據標準化工作,所以目前根本就沒有合格的大數據!
“信息系統名、數據庫名、表名、字段名、數據庫中的數據”都要用標準的、規范的、統一的自然語言,盡量避免使用不規范的代碼,這是讓數據自然形成“聯想關系”的關鍵,也是實現萬能查詢的關鍵。這也是結構化大數據通信協議主張數據規范化的一個非常重要的原因!在大數據環境中,這種“聯想關系”可為數據挖掘帶來極大的便利,可以大幅度地提高查詢數據的速度。
關系數據庫理論對數據基本上沒有任何限制,全部由設計人員任意定義。這是關系數據庫中的數據非常難以挖掘的一個根本原因。結構化大數據通信協議對數據的要求、限制非常嚴格。嚴格要求數據必須是標準的、規范的、統一的,必須滿足12個技術特性,每一個數據都必須嚴格符合國際標準、國家標準、行業標準。嚴禁設計人員任意私自定義數據。數據猶如通用機械地零部件,必須標準化才可以。
大數據標準涉及到每一個行業,也涉及到各種各樣的業務。大數據標準涉及數據的標準、數據結構的標準、業務的標準、業務流程的標準、信息系統標準等。
在大數據時代,一定要在信息系統中采用統一的、標準的、規范的自然言,盡量避免用代碼。這是確保數據獨立性、數據的完整性和數據的識別性,降低數據與系統的耦合度的必要措施。
7、數據與系統的耦合性
數據與系統的耦合性:數據與系統的耦合度越高,數據對系統的依賴程度就越高。當數據對系統的依賴程度比較高時,數據一旦脫離了原有的系統就變成了無意義的數據。如果說一個數據不需要任何信息系統的解讀,用戶就能讀懂,那么該數據與信息系統的耦合度為零。
針對的問題:關系數據庫中的數據與信息系統的耦合度非常高。關系數據庫中的數據與數據庫系統、與數據結構、與應用程序是密不可分的,關系數據庫中的數據一旦脫離了原信息系統到了大數據環境中之后,就變成了無意義的數據。
數據優化方法七:必須確保每一個數據與信息系統的耦合度為零。以適當的數據冗余而使數據具有獨立性、完整性、識別性、規范性、唯一性、歸屬性,以數據的獨立性、數據的完整性、數據的識別性、數據的規范性、數據的唯一性、數據的歸屬性而確保每一個數據都是與信息系統耦合度為零的數據。
大數據的數據來源于成千上萬家單位的系統,因此,大數據中的數據應該是與系統的耦合度為零的數據,否則就需要編寫很多的應用程度來解讀數據,這會增加處理數據的難度、成本。人們用自然語言所編寫的各種文章就是相應專業的人員可直接讀懂的,不需要任何的信息系統的解讀,因此,這種數據與信息系統的耦合度為零。在大數據中,其數據量數以千億條計,如果其中的每一個數據都與系統都有一定的耦合度,那么就需要編寫海量的程序才能解讀大數據。如果說大數據中的每一個數據都是與信息系統的耦合度為零的數據,那么在處理大數據時,就不必再編寫任何程序對數據進行解讀。
關系數據庫的設計者習慣用代碼來表示各種數據。例如,有的設計人員用“0”代表女性,用“1”代表男性,而有的設計人員用“W”代表女性,用“M”代表男性。面對成千上萬的信息系統所產生的數千億條以上的數據,這種不標準、不規范的代碼就會為大數據挖掘帶來巨大災難。
用關系數據庫所建立的信息系統之所以會產生嚴重的信息孤島問題,一個重要原因在于關系數據庫中的數據是不完整的、不獨立的、難以識別的。關系數據庫是用各種“關系”來表達各種事物間的關系。關系數據庫中的數據與關系數據庫系統、表結構以及相應的應用程序密不可分,一旦分開,關系數據庫中的數據將會變成無意義的數據,正是這種“關系”導致關系數據庫必然產生“信息孤島”。
“萬能數據結構表”中的數據與數據庫系統、表結構及應用程序無關,可以完全脫離數據庫系統、表結構及應用程序而獨立地存在。“表一”中的數據是經過結構化大數據通信協議進行優化后的數據,這樣的數據即使脫離表結構也能表達出原來的含義。
大數據的原則:盡量避免代碼,盡量用標準的自然語言。
判斷數據是不是合格的大數據的方法:與信息系統耦合度為零的數據才有資格成為合格的大數據。
推論:由于當前的關系數據庫中的數據全部都是與信息系統密切耦合的數據,所以當前的關系數據庫中的數據都不是合格的大數據。
8、數據結構的統一性
數據結構的統一性:合格的結構化大數據的數據結構必須是統一的。目前只有“萬能數據結構表”可以使數據實現“數據結構的統一性”。
針對的問題:各個關系數據庫中的數據的數據結構各不相同。
數據優化方法八:結構化大數據通信協議利用“萬能數據結構表”(如下表四所示)來實現數據的“數據結構的統一性”。結構化大數據通信協議不充許設計人員設計任何數據結構,所有結構化數據都必須存貯在一張,或若干張結構完全一樣的、標準的、統一的表中。用關系數據庫理論做不到數據結構的標準化。
表四:萬能數據結構表可實現數據結構的統一性
ID | 事物代號 | 事物屬性 | 事物屬性值 | 超長屬性值 | 單位 | 附件 | 時間 |
100 | 1001 | 數據來源 | 上海市第一人民醫院 | ||||
101 | 1001 | 事物分類 | 病歷 | ||||
102 | 1001 | 事物分類 | 住院病歷 | ||||
103 | 1001 | 事物分類 | 入院病歷 | ||||
104 | 1001 | 事物分類 | 患者基本情況 | ||||
105 | 1001 | 患者編號 | SH10-19910430Z21 | ||||
106 | 1001 | 健康卡號 | XXXXXXXXXXXXX09 | ||||
107 | 1001 | ×××號 | XXXXXXXXXXXXXXX | ||||
108 | 1001 | 姓名 | 胡風 | ||||
109 | 1001 | 工作單位 | 上海橡膠廠 | ||||
110 | 1001 | 職別 | 工人 | ||||
111 | 1001 | 性別 | 女 | ||||
112 | 1001 | 住址 | 上海市蒙古路20號 | ||||
113 | 1001 | 年齡 | 32 | ||||
114 | 1001 | 入院日期 | 1991/4/30 | ||||
115 | 1001 | 婚否 | 已婚 | ||||
116 | 1001 | 病史采取日期 | 1991-4-30 | ||||
117 | 1001 | 民族 | 漢 | ||||
118 | 1001 | 病情陳述者 | 本人 | ||||
10000 | 52367 | 數據來源 | 廣州動物園 | ||||
10001 | 52367 | 事物分類 | 動物管理系統 | ||||
10002 | 52367 | 事物分類 | 企鵝 | ||||
10003 | 52367 | 事物分類 | 帝企鵝 | ||||
10004 | 52367 | 事物分類 | 動物檔案 | ||||
10005 | 52367 | 大數據識別碼 | GZQE0003 | ||||
10006 | 52367 | 名字 | 漢武帝 | ||||
10007 | 52367 | 購入日期 | 2013-3-21 | ||||
10008 | 52367 | 身高 | 1.2 | m | |||
10009 | 52367 | 體重 | 20 | kg | |||
10010 | 52367 | 出生日期 | 2011-4-2 | ||||
10011 | 52367 | 照片 | JPG | ||||
10012 | 52367 | 籠舍編號 | 098 | ||||
10013 | 52367 | 管理員 | 張三 | ||||
10014 | 52367 | 父 | GZQE0001 | ||||
10015 | 52367 | 母 | GZQE0002 | ||||
10016 | 52367 | 性別 | 雄 |
關系數據庫的最大問題就是數據結構不標準。關系數據庫理論對數據結構沒有任何限制,完全由設計人員自由定義數據結構。數據結構標準化是處理大數據的基礎,數據結構不標準會導致數據處理非常困難。
9、數據的累加性
數據的累加性:是指“使數據可以(猶如圖書那樣)不經任何處理即可累加在一起”。
針對的問題:當前的關系數據庫系統已產生了很多數據,然而這些數據都不能累加成大數據。
數據優化方法九:數據的累加性可通過“數據的唯一性、數據的歸屬性、數據的識別性、數據的獨立性、數據的完整性、數據的規范性、數據與系統的耦合性、數據結構的統一性”來實現的,也可以說只有同時擁有這些屬性的數據才具有累加性。
傳統的寫在紙上的信息具有可累加性,圖書館就是眾多圖書之和,檔案館就是眾多檔案之和。數據若具有累加性,那么,廣州市政府各部門的數據全部以鏡像方式集中存貯到云平臺之后就等于建立了廣州市大數據,全國97.8萬家醫療機構的所有數據全部以鏡像的方式上傳到國家醫療大數據中心就等于建成了國家醫療大數據。可惜的是,當前的各種信息系統中的數據不具有累加性。
10、數據的移植性
數據的移植性:“無論把數據移植到任何環境中,數據都能保持原有含義不變,能讓各種信息系統識別,能讓用戶識別”,這樣的數據才具有移植性。
針對的問題:用關系數據庫所建立的信息系統難以互聯互通,即一個系統中數據不能移植到另一個系統中。
數據優化方法十:數據的移植性是通過“數據的唯一性、數據的歸屬性、數據的識別性、數據的獨立性、數據的完整性、數據的規范性、數據與系統的耦合性、數據結構的統一性”來實現的,也可以說只有同時具有這些屬性的數據才具有移植性。
數據的移植性關系到信息系統的互聯互通。具有移植性的數據才能任意地在各個系統之間互聯互通。數據的移植性與數據的累加性是一樣的,具有移植性的數據也具有累加性,只是數據的移植性是用來體現數據是否可以在各個系統之間互聯互通,數據的累加性指的是能否把眾多的小數據累加成大數據。
11、數據的時間性
數據的時間性:大數據中的每一個數據都應有相應的時間。
數據優化方法十一:為每一個數據增加時間戳。
12、數據的真實性
數據的真實性:小數據猶如自己記帳而產生的數據,大數據猶如不同單位之間的資金來往而產生的數據,因此大數據的真實性就是非常重要的。
數據優化方法十二:必須把數據防偽、數據防篡改當作重要工作,可通過第三方認證、第三方公證、第三方數據備案的方法使數據的真實性得到保證。
轉載于:https://blog.51cto.com/1484085/1977927
總結
以上是生活随笔為你收集整理的专利:结构化大数据通信协议的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: zabbixproxy安装
- 下一篇: WRC 2017最值得关注的专题论坛之一