数据的管理
1. 數(shù)據(jù)文件管理
隨著技術(shù)和業(yè)務(wù)的發(fā)展壯大,企業(yè)中產(chǎn)生的數(shù)據(jù)種類越來越多,數(shù)據(jù)量也越來越大。如何對數(shù)據(jù)進(jìn)行有效的組織、存儲(chǔ)、管理、檢索、維護(hù),將會(huì)顯得越來越重要。在企業(yè)內(nèi)部很多時(shí)候還涉及數(shù)據(jù)的跨部門存儲(chǔ)與調(diào)用。因此,進(jìn)行數(shù)據(jù)的管理就顯得特別重要,也越來越受到企業(yè)的重視。
數(shù)據(jù)一般會(huì)以文件的形式存在,比如文本文件、視頻文件、音頻文件等。那么數(shù)據(jù)的管理就轉(zhuǎn)化為對這些數(shù)據(jù)文件的管理。
文件管理的真諦在于方便保存和迅速提取,所有的數(shù)據(jù)文件將通過某種屬性(比如業(yè)務(wù)、時(shí)間)分類被很好地組織起來,放在最能方便找到的地方。解決這個(gè)問題目前最理想的方法就是分類管理。
從每一個(gè)文件夾的建立,我們都要按照數(shù)據(jù)文件的屬性,分為大大小小、多個(gè)層級的文件夾,建立合理的文件保存架構(gòu)。此外所有的文件、文件夾,都要規(guī)范化地命名,并放入最合適的文件夾中。
當(dāng)然企業(yè)中可不會(huì)像個(gè)人使用電腦文件資源管理器那樣去管理文件,而是使用文件服務(wù)器去管理文件。在一些有條件的企業(yè),會(huì)部署一個(gè)文件服務(wù)器,來統(tǒng)一管理文件。這樣可以對企業(yè)管理帶來如下好處:
定時(shí)集中對文件進(jìn)行備份;
可以統(tǒng)一制定文件安全訪問權(quán)限策略;
可以統(tǒng)一進(jìn)行文件服務(wù)器防病毒管理。
常見的文件服務(wù)有以下這幾種:
ftp文件服務(wù)
Samba文件服務(wù)
NFS文件服務(wù)
1.1. FTP文件服務(wù)
FTP 是一個(gè)文件傳輸?shù)膮f(xié)議,采用Client/Server架構(gòu)。用戶可以通過各種不同的FTP客戶端程序,借助FTP協(xié)議,來連接FTP服務(wù)器,以上傳或者下載文件。它使用兩個(gè)連接與客戶端通信:
命令連接:用于傳輸文件管理類命令,在客戶端連接后會(huì)始終在線;
數(shù)據(jù)連接:用于傳輸文件數(shù)據(jù),此連接會(huì)按序創(chuàng)建。
Linux 中常用的 FTP 客戶端軟件有 lftp, ftp, lftpget, wget, curl 等。Windows 中可以使用瀏覽器,資源管理器或 Filezilla 等軟件。
1.2. NFS文件服務(wù)
NFS 是Network File System的縮寫,即網(wǎng)絡(luò)文件系統(tǒng)。它允許網(wǎng)絡(luò)中的計(jì)算機(jī)之間通過TCP/IP網(wǎng)絡(luò)共享資源。NFS的基本原則是“容許不同的客戶端及服務(wù)端通過一組RPC分享相同的文件系統(tǒng)”,它是獨(dú)立于操作系統(tǒng),容許不同硬件及操作系統(tǒng)的系統(tǒng)共同進(jìn)行文件的分享。
NFS在文件傳送或信息傳送過程中依賴于RPC協(xié)議。RPC,遠(yuǎn)程過程調(diào)用 (Remote Procedure Call) 是能使客戶端執(zhí)行其他系統(tǒng)中程序的一種機(jī)制。NFS本身是沒有提供信息傳輸?shù)膮f(xié)議和功能的,但NFS卻能讓我們通過網(wǎng)絡(luò)進(jìn)行資料的分享,原因就在與RPC,可以說NFS本身就是使用RPC的一個(gè)程序。可以這么理解RPC和NFS的關(guān)系:NFS是一個(gè)文件系統(tǒng),而RPC是負(fù)責(zé)信息的傳輸。
1.3. Samba文件服務(wù)
SMB(Server Messages Block,信息服務(wù)塊)是一種在局域網(wǎng)上共享文件和打印機(jī)的一種通信協(xié)議,它為局域網(wǎng)內(nèi)的不同計(jì)算機(jī)之間提供文件及打印機(jī)等資源的共享服務(wù)。
Samba是一組軟件包,在Linux和UNIX系統(tǒng)上實(shí)現(xiàn)SMB協(xié)議的一個(gè)免費(fèi)軟件。Linux操作系統(tǒng)提供了Samba服務(wù),Samba服務(wù)為兩種不同的操作系統(tǒng)架起了一座橋梁,使Linux系統(tǒng)和Windows系統(tǒng)之間能夠?qū)崿F(xiàn)互相通信,這使得 Windows/Linux/Unix 間可以自由的進(jìn)行文件共享。
2. 文件管理規(guī)范
為了更快速,更準(zhǔn)確,更規(guī)范的進(jìn)行數(shù)據(jù)文件管理,企業(yè)一般都會(huì)去制定相應(yīng)的管理規(guī)范。從而使各方都按照這個(gè)規(guī)范去進(jìn)行文件的存儲(chǔ)、讀取。規(guī)范著重于文件命名規(guī)則,以及一些校驗(yàn)性文件的描述。
例子:FTP服務(wù)進(jìn)行跨部門文件共享的相關(guān)規(guī)范。以數(shù)據(jù)庫數(shù)據(jù)文件導(dǎo)出至ftp文件服務(wù)器共享為例,目錄下會(huì)存在以下3種格式文件。僅供參考。
2.1. 接口新增數(shù)據(jù)文件
正常數(shù)據(jù):文件類型標(biāo)示_源系統(tǒng)數(shù)據(jù)庫類型簡寫.源系統(tǒng)數(shù)據(jù)庫.表名稱_數(shù)據(jù)日期_重傳序號.lzo
如正常數(shù)據(jù)為:
增量(上次導(dǎo)出之后的新數(shù)據(jù)):
i_s.Peking.orders_20130711_000.lzo
全量(表中所有的數(shù)據(jù)):
a_s.Peking.orders_20130711_000.lzo
2.2. 接口控制校驗(yàn)文件
正常數(shù)據(jù):增全量標(biāo)示_源系統(tǒng)數(shù)據(jù)庫類型簡寫.源系統(tǒng)數(shù)據(jù)庫.表名稱_數(shù)據(jù)日期_重傳序號.md5
如正常數(shù)據(jù)為:
增量:
i_s.peking.orders_20130711_000.md5
全量:
a_s.peking.orders_20130711_000.md5
控制校驗(yàn)文件的存在意義在于標(biāo)識數(shù)據(jù)的完整性校驗(yàn),預(yù)防上傳丟失導(dǎo)致其他使用者獲取不完整數(shù)據(jù)。
2.3. 接口表結(jié)構(gòu)文件
正常數(shù)據(jù):增全量標(biāo)示_源系統(tǒng)數(shù)據(jù)庫類型簡寫.源系統(tǒng)數(shù)據(jù)庫.表名稱_數(shù)據(jù)日期_重傳序號.xml
如正常數(shù)據(jù)為:
增量:
i_s.peking.orders_20130711_000.xml
全量:
a_s.peking.orders_20130711_000.xml
<?xml version="1.0" encoding="UTF-8" standalone="yes"?>
<table type="hbase" database="credit" code="cds_courier_active">
<field type="string" code="pin"/>
<field type="string" code="d_seq_no"/>
<field type="string" code="d_cust_id"/>
<field type="string" code="d_mobile"/>
<field type="string" code="d_active_stcd"/>
<field type="string" code="d_active_result"/>
<field type="string" code="d_credit_amt"/>
<field type="string" code="d_active_tm"/>
<field type="string" code="d_seq_no_interface"/>
<field type="string" code="d_apply_channel"/>
<field type="string" code="d_apply_type"/>
<field type="string" code="d_oder_id"/>
<field type="string" code="d_name"/>
<field type="string" code="d_approve_times"/>
<field type="string" code="d_product_type"/>
</table>
表結(jié)構(gòu)文件存在意義在于:便于數(shù)據(jù)的使用人員快速的了解本批次數(shù)據(jù)的大致內(nèi)容,也方便后續(xù)回頭對數(shù)據(jù)進(jìn)行檢測時(shí)作為依照。
3. 數(shù)據(jù)質(zhì)量檢測
數(shù)據(jù)質(zhì)量是保證數(shù)據(jù)應(yīng)用的基礎(chǔ),它的評估標(biāo)準(zhǔn)主要包括四個(gè)方面:完整性、一致性、準(zhǔn)確性、及時(shí)性。評估數(shù)據(jù)是否達(dá)到預(yù)期設(shè)定的質(zhì)量要求,就可以通過這四個(gè)方面來進(jìn)行判斷。
完整性指的是數(shù)據(jù)信息是否存在缺失的狀況,數(shù)據(jù)缺失的情況可能是整個(gè)數(shù)據(jù)記錄缺失,也可能是數(shù)據(jù)中某個(gè)字段信息的記錄缺失。不完整數(shù)據(jù)的價(jià)值就會(huì)大大降低,也是數(shù)據(jù)質(zhì)量最為基礎(chǔ)的一項(xiàng)評估標(biāo)準(zhǔn)。
數(shù)據(jù)質(zhì)量的完整性比較容易去評估,一般可以通過數(shù)據(jù)統(tǒng)計(jì)中的記錄值和唯一值進(jìn)行評估。例如,網(wǎng)站日志日訪問量就是一個(gè)記錄值,平時(shí)的日訪問量在 1000左右,突然某一天降到100了,需要檢查一下數(shù)據(jù)是否存在缺失了。再例如,網(wǎng)站統(tǒng)計(jì)地域分布情況的每一個(gè)地區(qū)名就是一個(gè)唯一值,我國包括了32個(gè)省和直轄市,如果統(tǒng)計(jì)得到的唯一值小于32,則可以判斷數(shù)據(jù)有可能存在缺失。
一致性是指數(shù)據(jù)是否遵循了統(tǒng)一的規(guī)范,數(shù)據(jù)集合是否保持了統(tǒng)一的格式。數(shù)據(jù)質(zhì)量的一致性主要體現(xiàn)在數(shù)據(jù)記錄的規(guī)范和數(shù)據(jù)是否符合邏輯。規(guī)范指的是,一項(xiàng)數(shù)據(jù)存在它特定的格式,例如手機(jī)號碼一定是11位的數(shù)字,IP地址一定是由4個(gè)0到255間的數(shù)字加上.組成的。邏輯指的是,多項(xiàng)數(shù)據(jù)間存在著固定的邏輯關(guān)系,例如PV一定是大于等于UV的,跳出率一定是在0到1之間的。
準(zhǔn)確性是指數(shù)據(jù)記錄的信息是否存在異常或錯(cuò)誤。存在準(zhǔn)確性問題的數(shù)據(jù)不僅僅只是規(guī)則上的不一致。最為常見的數(shù)據(jù)準(zhǔn)確性錯(cuò)誤如亂碼。其次,異常的大或者小的數(shù)據(jù)也是不符合條件的數(shù)據(jù)。數(shù)據(jù)質(zhì)量的準(zhǔn)確性可能存在于個(gè)別記錄,也可能存在于整個(gè)數(shù)據(jù)集,例如數(shù)量級記錄錯(cuò)誤。這類錯(cuò)誤則可以使用最大值和最小值的統(tǒng)計(jì)量去審核。
一般數(shù)據(jù)都符合正態(tài)分布的規(guī)律,如果一些占比少的數(shù)據(jù)存在問題,則可以通過比較其他數(shù)量少的數(shù)據(jù)比例,來做出判斷。
及時(shí)性是指數(shù)據(jù)從產(chǎn)生到可以查看的時(shí)間間隔,也叫數(shù)據(jù)的延時(shí)時(shí)長。及時(shí)性對于數(shù)據(jù)分析本身要求并不高,但如果數(shù)據(jù)分析周期加上數(shù)據(jù)建立的時(shí)間過長,就可能導(dǎo)致分析得出的結(jié)論失去了借鑒意義。
轉(zhuǎn)載于:https://blog.51cto.com/13587708/2176577
總結(jié)
- 上一篇: OWL语言
- 下一篇: C中结构体的存储分配