日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) >

磨刀不误砍柴工——数据准备的过程与实践

發(fā)布時(shí)間:2025/3/20 34 豆豆
生活随笔 收集整理的這篇文章主要介紹了 磨刀不误砍柴工——数据准备的过程与实践 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
眾所周知,我們常用磨刀不誤砍柴工來(lái)比喻要辦成一件事,不一定要立即著手干活,而是先要進(jìn)行一些籌劃和安排,充分做好準(zhǔn)備工作,創(chuàng)造出有利條件,這樣不但不會(huì)浪費(fèi)時(shí)間,反而會(huì)大大提高整體的辦事效率。這個(gè)道理在我們做數(shù)據(jù)分析時(shí)也是適用的。在當(dāng)今信息技術(shù)高度發(fā)達(dá)的社會(huì)很多企業(yè)往往不愁沒(méi)有數(shù)據(jù),但是唾手可得的數(shù)據(jù)卻不一定可以直接拿來(lái)分析,生搬硬套的分析往往失之毫厘謬以千里。西方人所說(shuō)的“Rubbish in, rubbish out.”反映的也是同樣的現(xiàn)象。<?xml:namespace prefix = o ns = "urn:schemas-microsoft-com:office:office" />

總之,沒(méi)有高質(zhì)量的數(shù)據(jù),就不能保證有高質(zhì)量的數(shù)據(jù)分析結(jié)果。對(duì)于統(tǒng)計(jì)質(zhì)量管理而言,如果被分析的數(shù)據(jù)本身不可靠,很可能就會(huì)得到錯(cuò)誤的分析結(jié)果和無(wú)效的質(zhì)量改進(jìn)方案,不僅會(huì)使質(zhì)量改進(jìn)工作無(wú)功而返,而且還極有可能傷害原有的質(zhì)量管理水平。如果把數(shù)據(jù)分析看作砍柴的話,那么磨刀指的就是數(shù)據(jù)準(zhǔn)備了。越來(lái)越多的專業(yè)人士已經(jīng)開始意識(shí)到數(shù)據(jù)準(zhǔn)備的重要性,現(xiàn)在的問(wèn)題已經(jīng)不是數(shù)據(jù)準(zhǔn)備要不要做,而是數(shù)據(jù)準(zhǔn)備應(yīng)當(dāng)如何做。

那么,數(shù)據(jù)準(zhǔn)備究竟應(yīng)當(dāng)如何做呢?總的來(lái)說(shuō),可以遵循如圖一所示的五步循環(huán)法來(lái)進(jìn)行。接下來(lái),我們將逐一解釋每個(gè)步驟的含義,具體的實(shí)例將借助高端統(tǒng)計(jì)質(zhì)量管理及六西格瑪軟件JMP來(lái)實(shí)現(xiàn)。 圖一? 數(shù)據(jù)準(zhǔn)備的五步循環(huán)法

第一步,獲取數(shù)據(jù)。

數(shù)據(jù)是進(jìn)行分析工作的原材料,獲取數(shù)據(jù)是數(shù)據(jù)準(zhǔn)備工作的第一步。一般來(lái)說(shuō),企業(yè)常用的數(shù)據(jù)來(lái)源可以有四類。以JMP為例,一是通過(guò)手工輸入和創(chuàng)建原創(chuàng)數(shù)據(jù)文件,這往往在新建數(shù)據(jù)文件時(shí)采用。二是從外部讀取,比如讀取ExcelMS AccessdBaseTextSAS以及其他一些格式的現(xiàn)有數(shù)據(jù)源,這也是一種常見的方式。三是從大型數(shù)據(jù)庫(kù)獲取,如JMP可以通過(guò)ODBC訪問(wèn)現(xiàn)有的大型數(shù)據(jù)庫(kù)文件,如OracleDB2SybaseSQL Server等等,必要時(shí)還能調(diào)用SQL命令構(gòu)建查詢條件,這在信息化建設(shè)比較成熟的企業(yè)中應(yīng)用較多(參見圖二)。四則是直接訪問(wèn)含有數(shù)據(jù)表格的互聯(lián)網(wǎng)主頁(yè)來(lái)獲取數(shù)據(jù)。 圖二? JMP軟件中的數(shù)據(jù)庫(kù)訪問(wèn)界面

第二步,整合數(shù)據(jù)。

有時(shí)候,需要分析的數(shù)據(jù)保存在不同的數(shù)據(jù)文件中。例如:我們?cè)谛枰治鼋衲甑谌径鹊纳a(chǎn)數(shù)據(jù)時(shí),很有可能會(huì)發(fā)現(xiàn)七月、八月和九月的生產(chǎn)數(shù)據(jù)分別保存在三個(gè)不同的文件中;或者需要對(duì)產(chǎn)品的兩個(gè)質(zhì)量特性進(jìn)行關(guān)聯(lián)性分析時(shí),卻發(fā)現(xiàn)這兩個(gè)質(zhì)量特性分別保存在兩個(gè)不同的文件中。這時(shí)候,我們就有需要做數(shù)據(jù)整合了。數(shù)據(jù)整合的方法很多,如連接、合并、堆疊等等。從操作對(duì)象上看有行與行的連接(JMP軟件中稱為合并Concatenate),列與列的連接(JMP軟件中稱為連接(Join))等。剛才說(shuō)的第一種情況就適合用合并(Concatenate)”整合數(shù)據(jù)(參見圖三),第二種情況則適合用連接(Join)”來(lái)整合數(shù)據(jù)。 圖三? JMP軟件中不同數(shù)據(jù)文件的行與行的連接

第三步,清洗數(shù)據(jù)。

如同燒菜之前常常要洗菜一樣,分析數(shù)據(jù)之前常常也要對(duì)數(shù)據(jù)進(jìn)行必要的清洗。根據(jù)數(shù)據(jù)類型的不同,常用的數(shù)據(jù)清洗方式可以有兩種。第一種適用于字符型數(shù)據(jù)(JMP中稱為列表檢查(List Check))。例如當(dāng)列變量是性別時(shí),列表中的選項(xiàng)可以設(shè)定為,讓軟件自動(dòng)檢查性別列中的所有行記錄,任何不符合這些設(shè)定的內(nèi)容均會(huì)被剔除。第二種叫范圍檢查(Range Check),適用于數(shù)值型數(shù)據(jù)。例如當(dāng)列變量是身高時(shí),范圍可設(shè)定為“100<=身高<=200”(參見圖四),讓軟件自動(dòng)檢查身高列中的所有行記錄,任何超出這些設(shè)定的內(nèi)容也均會(huì)被剔除。 圖四? JMP軟件中數(shù)值型數(shù)據(jù)的范圍檢查

第四步,定義數(shù)據(jù)。

定義數(shù)據(jù)是指為了以后的分析工作方便準(zhǔn)確,同時(shí)預(yù)防一些不必要的操作錯(cuò)誤而在分析數(shù)據(jù)之前對(duì)數(shù)據(jù)進(jìn)行的一系列設(shè)置,這是一個(gè)內(nèi)容非常豐富的工作,包括定義建模類型(如連續(xù)型(Continuous)、保序型(Ordinal)、記名型(Nominal)),數(shù)據(jù)格式(如固定小數(shù)位型、百分位型、貨幣型、日期型、時(shí)間型等),初始數(shù)據(jù)值(如隨機(jī)數(shù)、序列數(shù)據(jù)、缺失值等)以及更多的列性質(zhì)(如編寫公式、增加注釋、更改值排序、自定義值顏色等)等等(參見圖五)。 圖五? JMP軟件中的數(shù)據(jù)定義界面

第五步,探索數(shù)據(jù)。

探索數(shù)據(jù)實(shí)際上是分析數(shù)據(jù)中最基本但很有效的一種形式,它不強(qiáng)調(diào)分析過(guò)程的精確性,但強(qiáng)調(diào)簡(jiǎn)單快捷、通俗易懂、數(shù)據(jù)發(fā)現(xiàn)效率高,快速形成對(duì)數(shù)據(jù)的直觀認(rèn)識(shí),主要可以通過(guò)匯總制表和可視化方式來(lái)實(shí)現(xiàn)。匯總制表是指根據(jù)分層變量分層后計(jì)算各子集數(shù)據(jù)的均值、標(biāo)準(zhǔn)差、總和、合計(jì)百分比和變異系數(shù)等統(tǒng)計(jì)量,并以直觀的方式顯示(參見圖六)。可視化是指從簡(jiǎn)單的柱狀圖、餅圖、折線圖等到專業(yè)的動(dòng)態(tài)多維圖形(JMP的動(dòng)態(tài)泡泡圖)、三維散點(diǎn)圖、交互式數(shù)據(jù)探索工具(JMP的圖形生成器)等多種有效方法。JMP軟件是進(jìn)行探索性數(shù)據(jù)分析(EDA)的理想載體,它的交互性和可視化特征可以讓探索數(shù)據(jù)的過(guò)程變得非常生動(dòng),幫助更直觀地從數(shù)據(jù)中獲取有價(jià)值的發(fā)現(xiàn)。 例圖六? JMP軟件中的交互式匯總制表界面

當(dāng)然,以上的五個(gè)步驟并不是每一次數(shù)據(jù)準(zhǔn)備都必須做的,但卻是代表性很強(qiáng)一個(gè)過(guò)程。我們可以靈活掌握它的核心思想,在實(shí)際工作中根據(jù)已有數(shù)據(jù)的現(xiàn)狀,選擇合適的步驟和實(shí)現(xiàn)手法,以起到事半功倍的效果,為隨后的數(shù)據(jù)分析以及基于分析結(jié)果的決策打下成功的基礎(chǔ)。

轉(zhuǎn)載于:https://blog.51cto.com/2182004/399614

總結(jié)

以上是生活随笔為你收集整理的磨刀不误砍柴工——数据准备的过程与实践的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。