身高2m,体重2kg,这样的数据“看上去很好”?
導(dǎo)讀:數(shù)據(jù)挖掘算法通常用于為其他目的收集的數(shù)據(jù),或者在收集時(shí)未明確其目的。因此,數(shù)據(jù)挖掘常常不能“在數(shù)據(jù)源頭控制質(zhì)量”。相比之下,統(tǒng)計(jì)學(xué)的實(shí)驗(yàn)設(shè)計(jì)或調(diào)查中,其數(shù)據(jù)質(zhì)量往往都達(dá)到了一定的要求。由于無(wú)法避免數(shù)據(jù)質(zhì)量問(wèn)題,因此數(shù)據(jù)挖掘著眼于兩個(gè)方面:
(1)數(shù)據(jù)質(zhì)量問(wèn)題的檢測(cè)和糾正;
(2)使用可以容忍低質(zhì)量數(shù)據(jù)的算法。第一步的檢測(cè)和糾正,通常稱(chēng)作數(shù)據(jù)清理(data cleaning)。
本文討論數(shù)據(jù)質(zhì)量。盡管也討論某些與應(yīng)用有關(guān)的問(wèn)題,但是關(guān)注的焦點(diǎn)是測(cè)量和數(shù)據(jù)收集問(wèn)題。
作者:陳封能(Pang-Ning Tan)、邁克爾·斯坦巴赫(Michael Steinbach)等
如需轉(zhuǎn)載請(qǐng)聯(lián)系大數(shù)據(jù)(ID:hzdashuju)
01 測(cè)量和數(shù)據(jù)收集問(wèn)題
期望數(shù)據(jù)完美是不現(xiàn)實(shí)的。人類(lèi)的錯(cuò)誤、測(cè)量設(shè)備的限制或數(shù)據(jù)收集過(guò)程中的漏洞都可能導(dǎo)致問(wèn)題。數(shù)據(jù)的值乃至整個(gè)數(shù)據(jù)對(duì)象都可能會(huì)丟失。在有些情況下,可能有不真實(shí)或重復(fù)的對(duì)象,即對(duì)應(yīng)于單個(gè)“實(shí)際”對(duì)象出現(xiàn)了多個(gè)數(shù)據(jù)對(duì)象。
例如,對(duì)于一個(gè)最近住過(guò)兩個(gè)不同地方的人,可能有兩個(gè)不同的記錄。即使所有的數(shù)據(jù)都不缺,并且“看上去很好”,也可能存在不一致,如一個(gè)人身高2m,但體重只有2kg。
下面我們關(guān)注數(shù)據(jù)測(cè)量和收集方面的數(shù)據(jù)質(zhì)量問(wèn)題。我們先定義測(cè)量誤差和數(shù)據(jù)收集錯(cuò)誤,然后考慮涉及測(cè)量誤差的各種問(wèn)題:噪聲、偽像、偏置、精度和準(zhǔn)確率。最后討論同時(shí)涉及測(cè)量和數(shù)據(jù)收集的數(shù)據(jù)質(zhì)量問(wèn)題:離群點(diǎn)、遺漏和不一致的值、重復(fù)數(shù)據(jù)。
1. 測(cè)量誤差和數(shù)據(jù)收集錯(cuò)誤
術(shù)語(yǔ)測(cè)量誤差(measurement error)是指測(cè)量過(guò)程中產(chǎn)生的問(wèn)題。一個(gè)常見(jiàn)的問(wèn)題是:在某種程度上,記錄的值與實(shí)際值不同。對(duì)于連續(xù)屬性,測(cè)量值與實(shí)際值的差稱(chēng)為誤差(error)。
術(shù)語(yǔ)數(shù)據(jù)收集錯(cuò)誤(data collection error)是指諸如遺漏數(shù)據(jù)對(duì)象或?qū)傩灾?#xff0c;或者不當(dāng)?shù)匕似渌麛?shù)據(jù)對(duì)象等錯(cuò)誤。例如,一種特定種類(lèi)動(dòng)物研究可能包含了相關(guān)種類(lèi)的其他動(dòng)物,它們只是表面上與要研究的種類(lèi)相似。測(cè)量誤差和數(shù)據(jù)收集錯(cuò)誤可能是系統(tǒng)的也可能是隨機(jī)的。
我們只考慮一般的錯(cuò)誤類(lèi)型。在特定的領(lǐng)域中,總有某些類(lèi)型的錯(cuò)誤是常見(jiàn)的,并且通常存在很好的技術(shù),能檢測(cè)并糾正這些錯(cuò)誤。例如,人工輸入數(shù)據(jù)時(shí),鍵盤(pán)錄入錯(cuò)誤是常見(jiàn)的,因此許多數(shù)據(jù)輸入程序具有檢測(cè)技術(shù),并通過(guò)人工干預(yù)糾正這類(lèi)錯(cuò)誤。
2. 噪聲和偽像
噪聲是測(cè)量誤差的隨機(jī)部分。這通常涉及值被扭曲或加入了謬誤對(duì)象。圖2.5顯示了被隨機(jī)噪聲干擾前后的時(shí)間序列。如果在時(shí)間序列上添加更多的噪聲,形狀將會(huì)消失。圖2.6顯示了三組添加一些噪聲點(diǎn)(用“+”表示)前后的數(shù)據(jù)點(diǎn)集。注意,有些噪聲點(diǎn)與非噪聲點(diǎn)混在一起。
▲圖2.5 時(shí)間序列中的噪聲
▲圖2.6 空間中的噪聲
術(shù)語(yǔ)“噪聲”通常用于包含時(shí)間或空間分量的數(shù)據(jù)。在這些情況下,常常可以使用信號(hào)或圖像處理技術(shù)降低噪聲,從而幫助發(fā)現(xiàn)可能“淹沒(méi)在噪聲中”的模式(信號(hào))。盡管如此,完全消除噪聲通常是困難的,而許多數(shù)據(jù)挖掘工作都關(guān)注設(shè)計(jì)魯棒算法(robust algorithm),即在噪聲干擾下也能產(chǎn)生可以接受的結(jié)果。
數(shù)據(jù)錯(cuò)誤可能是更確定性現(xiàn)象的結(jié)果,如一組照片在同一地方出現(xiàn)條紋。數(shù)據(jù)的這種確定性失真常稱(chēng)作偽像(artifact)。
3. 精度、偏置和準(zhǔn)確率
在統(tǒng)計(jì)學(xué)和實(shí)驗(yàn)科學(xué)中,測(cè)量過(guò)程和結(jié)果數(shù)據(jù)是用精度和偏置度量的。我們給出標(biāo)準(zhǔn)的定義,隨后簡(jiǎn)略加以討論。對(duì)于下面的定義,我們假定對(duì)相同的基本量進(jìn)行重復(fù)測(cè)量。
精度(precision):(同一個(gè)量的)重復(fù)測(cè)量值之間的接近程度。
偏置(bias):測(cè)量值與被測(cè)量之間的系統(tǒng)的變化。
精度通常用值集合的標(biāo)準(zhǔn)差度量,而偏置用值集合的均值與測(cè)出的已知值之間的差度量。只有那些通過(guò)外部手段能夠得到測(cè)量值的對(duì)象,偏置才是可確定的。
假定我們有1g質(zhì)量的標(biāo)準(zhǔn)實(shí)驗(yàn)室重量,并且想評(píng)估實(shí)驗(yàn)室的新天平的精度和偏置。我們稱(chēng)重5次,得到下列值:{1.015,0.990,1.013,1.001,0.986}。這些值的均值是1.001,因此偏置是0.001。用標(biāo)準(zhǔn)差度量,精度是0.013。
通常使用更一般的術(shù)語(yǔ)準(zhǔn)確率表示數(shù)據(jù)測(cè)量誤差的程度。
準(zhǔn)確率(accuracy):被測(cè)量的測(cè)量值與實(shí)際值之間的接近度。
準(zhǔn)確率依賴(lài)于精度和偏置,但是沒(méi)有用這兩個(gè)量表達(dá)準(zhǔn)確率的公式。
準(zhǔn)確率的一個(gè)重要方面是有效數(shù)字(significant digit)的使用。其目標(biāo)是僅使用數(shù)據(jù)精度所能確定的數(shù)字位數(shù)表示測(cè)量或計(jì)算結(jié)果。
例如,對(duì)象的長(zhǎng)度用最小刻度為毫米的米尺測(cè)量,則我們只能記錄最接近毫米的長(zhǎng)度數(shù)據(jù),這種測(cè)量的精度為±0.5mm。這里不再詳細(xì)地討論有效數(shù)字,因?yàn)榇蟛糠肿x者應(yīng)當(dāng)在先前的課程中接觸過(guò),并且在理工科和統(tǒng)計(jì)學(xué)教材中討論得相當(dāng)深入。
諸如有效數(shù)字、精度、偏置和準(zhǔn)確率問(wèn)題常常被忽視,但是對(duì)于數(shù)據(jù)挖掘、統(tǒng)計(jì)學(xué)和自然科學(xué),它們都非常重要。通常,數(shù)據(jù)集并不包含數(shù)據(jù)精度信息,用于分析的程序返回的結(jié)果也沒(méi)有這方面的信息。45但是,缺乏對(duì)數(shù)據(jù)和結(jié)果準(zhǔn)確率的理解,分析者將可能出現(xiàn)嚴(yán)重的數(shù)據(jù)分析錯(cuò)誤。
4. 離群點(diǎn)
離群點(diǎn)(outlier)是在某種意義上具有不同于數(shù)據(jù)集中其他大部分?jǐn)?shù)據(jù)對(duì)象的特征的數(shù)據(jù)對(duì)象,或是相對(duì)于該屬性的典型值來(lái)說(shuō)不尋常的屬性值。我們也稱(chēng)其為異常(anomalous)對(duì)象或異常值。有許多定義離群點(diǎn)的方法,并且統(tǒng)計(jì)學(xué)和數(shù)據(jù)挖掘界已經(jīng)提出了很多不同的定義。
此外,區(qū)別噪聲和離群點(diǎn)這兩個(gè)概念是非常重要的。與噪聲不同,離群點(diǎn)可以是合法的數(shù)據(jù)對(duì)象或值。例如,在欺詐和網(wǎng)絡(luò)入侵檢測(cè)中,目標(biāo)就是在大量的正常對(duì)象或事件中找到異常對(duì)象或事件。
5. 遺漏值
一個(gè)對(duì)象遺漏一個(gè)或多個(gè)屬性值的情況并不少見(jiàn)。有時(shí)可能會(huì)出現(xiàn)信息收集不全的情況,例如有的人拒絕透露年齡或體重。
還有些情況下,某些屬性并不能用于所有對(duì)象,例如表格常常有條件選擇部分,僅當(dāng)填表人以特定的方式回答前面的問(wèn)題時(shí),條件選擇部分才需要填寫(xiě),但為簡(jiǎn)單起見(jiàn)存儲(chǔ)了表格的所有字段。無(wú)論何種情況,在數(shù)據(jù)分析時(shí)都應(yīng)當(dāng)考慮遺漏值。
有許多處理遺漏值的策略(和這些策略的變種),每種策略適用于特定的情況。這些策略在下面列出,同時(shí)我們指出它們的優(yōu)缺點(diǎn)。
刪除數(shù)據(jù)對(duì)象或?qū)傩?/strong>
一種簡(jiǎn)單而有效的策略是刪除具有遺漏值的數(shù)據(jù)對(duì)象。然而,即使不完整的數(shù)據(jù)對(duì)象也包含一些有用的信息,并且,如果許多對(duì)象都有遺漏值,則很難甚至不可能進(jìn)行可靠的分析。
盡管如此,如果某個(gè)數(shù)據(jù)集只有少量的對(duì)象具有遺漏值,則忽略它們可能是合算的。一種與之相關(guān)的策略是刪除具有遺漏值的屬性。然而,做這件事要小心,46因?yàn)楸粍h除的屬性可能對(duì)分析是至關(guān)重要的。
估計(jì)遺漏值
有時(shí),遺漏值可以可靠地估計(jì)。例如,在考慮以大致平滑的方式變化的、具有少量但分散的遺漏值的時(shí)間序列時(shí),遺漏值可以使用其他值來(lái)估計(jì)(插值)。另舉一例,考慮一個(gè)具有許多相似數(shù)據(jù)點(diǎn)的數(shù)據(jù)集,與具有遺漏值的點(diǎn)鄰近的點(diǎn)的屬性值常常可以用來(lái)估計(jì)遺漏的值。
如果屬性是連續(xù)的,則可以使用最近鄰的平均屬性值;如果屬性是分類(lèi)的,則可以取最近鄰中最常出現(xiàn)的屬性值。為了更具體地解釋,考慮地面站記錄的降水量,對(duì)于未設(shè)地面站的區(qū)域,降水量可以使用鄰近地面站的觀測(cè)值估計(jì)。
在分析時(shí)忽略遺漏值
許多數(shù)據(jù)挖掘方法都可以修改,以忽略遺漏值。例如,假定正在對(duì)數(shù)據(jù)對(duì)象聚類(lèi),需要計(jì)算各對(duì)數(shù)據(jù)對(duì)象間的相似性。如果某對(duì)數(shù)據(jù)對(duì)象的一個(gè)對(duì)象或兩個(gè)對(duì)象的某些屬性有遺漏值,則可以?xún)H使用沒(méi)有遺漏值的屬性來(lái)計(jì)算相似性。
當(dāng)然,這種相似性只是近似的,但是除非整個(gè)屬性數(shù)目很少,或者遺漏值的數(shù)量很大,否則這種誤差影響不大。同樣,許多分類(lèi)方法都可以修改,以便于處理遺漏值。
6. 不一致的值
數(shù)據(jù)可能包含不一致的值。比如地址字段列出了郵政編碼和城市名,但是有的郵政編碼區(qū)域并不包含在對(duì)應(yīng)的城市中。這可能是人工輸入該信息時(shí)顛倒了兩個(gè)數(shù)字,或許是在掃描手寫(xiě)體時(shí)錯(cuò)讀了一個(gè)數(shù)字。無(wú)論導(dǎo)致不一致值的原因是什么,重要的是能檢測(cè)出來(lái),并且如果可能的話(huà),糾正這種錯(cuò)誤。
有些不一致類(lèi)型容易檢測(cè),例如人的身高不應(yīng)當(dāng)是負(fù)的。另一些情況下,可能需要查閱外部信息源,例如當(dāng)保險(xiǎn)公司處理賠償要求時(shí),它將對(duì)照顧客數(shù)據(jù)庫(kù)核對(duì)賠償單上的姓名與地址。
檢測(cè)到不一致后,有時(shí)可以對(duì)數(shù)據(jù)進(jìn)行更正。產(chǎn)品代碼可能有“校驗(yàn)”數(shù)字,或者可以通過(guò)一個(gè)備案的已知產(chǎn)品代碼列表復(fù)核產(chǎn)品代碼,如果發(fā)現(xiàn)它不正確但接近一個(gè)已知代碼,則糾正它。糾正不一致需要額外的或冗余的信息。
例:不一致的海洋表面溫度
該例解釋實(shí)際的時(shí)間序列數(shù)據(jù)中的不一致性。這些數(shù)據(jù)是在海洋的不同點(diǎn)測(cè)量的海洋表面溫度(SST)。最初人們利用船或浮標(biāo)使用海洋測(cè)量方法收集SST數(shù)據(jù),而最近開(kāi)始使用衛(wèi)星來(lái)收集這些數(shù)據(jù)。為了創(chuàng)建長(zhǎng)期的數(shù)據(jù)集,需要使用這兩種數(shù)據(jù)源。
然而,由于數(shù)據(jù)來(lái)自不同的數(shù)據(jù)源,兩部分?jǐn)?shù)據(jù)存在微妙的不同。這種差異顯示在圖2.7中,該圖顯示了各年度之間SST值的相關(guān)性。如果某兩個(gè)年度的SST值是正相關(guān)的,則對(duì)應(yīng)于這兩年的位置為白色,否則為黑色。(季節(jié)性的變化從數(shù)據(jù)中刪除,否則所有的年都是高度相關(guān)的。)數(shù)據(jù)匯集在一起的地方(1983年)有一個(gè)明顯的變化。
在1958~1982年和1983~1999年兩組中,每組內(nèi)的年相互之間趨向于正相關(guān),但與另一組的年負(fù)相關(guān)。這并不意味著該數(shù)據(jù)不能用,但是分析者應(yīng)當(dāng)考慮這種差異對(duì)數(shù)據(jù)挖掘分析的潛在影響。
▲圖2.7 年對(duì)之間SST數(shù)據(jù)的相關(guān)性。白色區(qū)域表示正相關(guān),黑色區(qū)域表示負(fù)相關(guān)
7. 重復(fù)數(shù)據(jù)
數(shù)據(jù)集可以包含重復(fù)或幾乎重復(fù)的數(shù)據(jù)對(duì)象。許多人都收到過(guò)重復(fù)的郵件,因?yàn)樗鼈円陨晕⒉幌嗤拿侄啻纬霈F(xiàn)在數(shù)據(jù)庫(kù)中。為了檢測(cè)并刪除這種重復(fù),必須處理兩個(gè)主要問(wèn)題。
首先,如果兩個(gè)對(duì)象實(shí)際代表同一個(gè)對(duì)象,則對(duì)應(yīng)的屬性值必然不同,必須解決這些不一致的值;其次,需要避免意外地將兩個(gè)相似但并非重復(fù)的數(shù)據(jù)對(duì)象(如兩個(gè)人具有相同姓名)合并在一起。術(shù)語(yǔ)去重復(fù)(deduplication)通常用來(lái)表示處理這些問(wèn)題的過(guò)程。
在某些情況下,兩個(gè)或多個(gè)對(duì)象在數(shù)據(jù)庫(kù)的屬性度量上是相同的,但是仍然代表不同的對(duì)象。這種重復(fù)是合法的。但是,如果某些算法設(shè)計(jì)中沒(méi)有專(zhuān)門(mén)考慮這些屬性可能相同的對(duì)象,就還是會(huì)導(dǎo)致問(wèn)題。
02 關(guān)于應(yīng)用的問(wèn)題
數(shù)據(jù)質(zhì)量問(wèn)題也可以從應(yīng)用角度考慮,表達(dá)為“數(shù)據(jù)是高質(zhì)量的,如果它適合預(yù)期的應(yīng)用”。特別是對(duì)工商界,數(shù)據(jù)質(zhì)量的這種提議非常有用。類(lèi)似的觀點(diǎn)也出現(xiàn)在統(tǒng)計(jì)學(xué)和實(shí)驗(yàn)科學(xué)中,那里強(qiáng)調(diào)精心設(shè)計(jì)實(shí)驗(yàn)來(lái)收集與特定假設(shè)相關(guān)的數(shù)據(jù)。與測(cè)量和數(shù)據(jù)收集一樣,許多數(shù)據(jù)質(zhì)量問(wèn)題與特定的應(yīng)用和領(lǐng)域有關(guān)。我們這里仍然只考慮一些一般性問(wèn)題。
1. 時(shí)效性
有些數(shù)據(jù)在收集后就開(kāi)始老化。比如說(shuō),如果數(shù)據(jù)提供正在發(fā)生的現(xiàn)象或過(guò)程的快照,如顧客的購(gòu)買(mǎi)行為或Web瀏覽模式,則快照只代表有限時(shí)間內(nèi)的真實(shí)情況。如果數(shù)據(jù)已經(jīng)過(guò)時(shí),則基于它的模型和模式也已經(jīng)過(guò)時(shí)。
2. 相關(guān)性
可用的數(shù)據(jù)必須包含應(yīng)用所需要的信息。考慮構(gòu)造一個(gè)模型,預(yù)測(cè)交通事故發(fā)生率。如果忽略了駕駛員的年齡和性別信息,那么除非這些信息可以間接地通過(guò)其他屬性得到,否則模型的準(zhǔn)確率可能是有限的。
確保數(shù)據(jù)集中的對(duì)象相關(guān)不太容易。一個(gè)常見(jiàn)問(wèn)題是抽樣偏置(sampling bias),指樣本包含的不同類(lèi)型的對(duì)象與它們?cè)诳傮w中的出現(xiàn)情況不成比例。例如調(diào)查數(shù)據(jù)只反映對(duì)調(diào)查做出響應(yīng)的那些人的意見(jiàn)。由于數(shù)據(jù)分析的結(jié)果只能反映現(xiàn)有的數(shù)據(jù),抽樣偏置通常會(huì)導(dǎo)致不正確的分析。
3. 關(guān)于數(shù)據(jù)的知識(shí)
理想情況下,數(shù)據(jù)集附有描述數(shù)據(jù)的文檔。文檔的質(zhì)量好壞決定它是支持還是干擾其后的分析。例如,如果文檔標(biāo)明若干屬性是強(qiáng)相關(guān)的,則說(shuō)明這些屬性可能提供了高度冗余的信息,我們通常只保留一個(gè)屬性。(考慮銷(xiāo)售稅和銷(xiāo)售價(jià)格。)
然而,如果文檔很糟糕,例如,沒(méi)有告訴我們某特定字段上的遺漏值用-9999表示,則我們的數(shù)據(jù)分析就可能出問(wèn)題。其他應(yīng)該說(shuō)明的重要特性是數(shù)據(jù)精度、特征的類(lèi)型(標(biāo)稱(chēng)的、序數(shù)的、區(qū)間的、比率的)、測(cè)量的刻度(如長(zhǎng)度用米還是英尺)和數(shù)據(jù)的來(lái)源。
關(guān)于作者:陳封能(Pang-Ning Tan) ,密歇根州立大學(xué)計(jì)算機(jī)科學(xué)與工程系教授,主要研究方向是數(shù)據(jù)挖掘、數(shù)據(jù)庫(kù)系統(tǒng)、網(wǎng)絡(luò)空間安全、網(wǎng)絡(luò)分析等。
本文摘編自《數(shù)據(jù)挖掘?qū)д摗?#xff08;原書(shū)第2版),經(jīng)出版方授權(quán)發(fā)布。
延伸閱讀《數(shù)據(jù)挖掘?qū)д摗?#xff08;原書(shū)第2版)
點(diǎn)擊上圖了解及購(gòu)買(mǎi)
轉(zhuǎn)載請(qǐng)聯(lián)系微信:DoctorData
推薦語(yǔ):本書(shū)為斯坦福大學(xué)、密歇根州立大學(xué)、明尼蘇達(dá)大學(xué)、得克薩斯大學(xué)等知名高校的數(shù)據(jù)挖掘課程教材。從算法的角度介紹數(shù)據(jù)挖掘所使用的主要原理與技術(shù)。所涵蓋的主題包括:數(shù)據(jù)預(yù)處理、預(yù)測(cè)建模、關(guān)聯(lián)分析、聚類(lèi)分析、異常檢測(cè)和避免錯(cuò)誤發(fā)現(xiàn)。通過(guò)介紹每個(gè)主題的基本概念和算法,為讀者提供將數(shù)據(jù)挖掘應(yīng)用于實(shí)際問(wèn)題所需的必要背景以及方法。
延伸閱讀《計(jì)算機(jī)時(shí)代的統(tǒng)計(jì)推斷》
點(diǎn)擊上圖了解及購(gòu)買(mǎi)
轉(zhuǎn)載請(qǐng)聯(lián)系微信:DoctorData
推薦語(yǔ):統(tǒng)計(jì)推斷入門(mén)經(jīng)典,斯坦福大學(xué)知名教授Trevor Hastie全新力作。本書(shū)以豐富的案例介紹了計(jì)算機(jī)時(shí)代下的統(tǒng)計(jì)推斷的發(fā)展脈絡(luò),從理論的角度剖析統(tǒng)計(jì)推斷的各類(lèi)算法、證據(jù)等,揭示統(tǒng)計(jì)推斷如何推動(dòng)當(dāng)今大數(shù)據(jù)、數(shù)據(jù)科學(xué)、機(jī)器學(xué)習(xí)等領(lǐng)域的快速發(fā)展并引領(lǐng)數(shù)據(jù)分析的變革,最后展望了統(tǒng)計(jì)學(xué)和數(shù)據(jù)科學(xué)的未來(lái)方向。
長(zhǎng)按二維碼或點(diǎn)擊閱讀原文
發(fā)現(xiàn)更多好書(shū)
「大數(shù)據(jù)」內(nèi)容合伙人之「鑒書(shū)小分隊(duì)」上線(xiàn)啦!
最近,你都在讀什么書(shū)?有哪些心得體會(huì)想要跟大家分享?
數(shù)據(jù)叔最近搞了個(gè)大事——聯(lián)合優(yōu)質(zhì)圖書(shū)出版商機(jī)械工業(yè)出版社華章公司發(fā)起鑒書(shū)活動(dòng)。
簡(jiǎn)單說(shuō)就是:你可以免費(fèi)讀新書(shū),你可以免費(fèi)讀新書(shū)的同時(shí),順手碼一篇讀書(shū)筆記就行。詳情請(qǐng)?jiān)诖髷?shù)據(jù)公眾號(hào)后臺(tái)對(duì)話(huà)框回復(fù)合伙人查看。
有話(huà)要說(shuō)?
Q:?獲得高質(zhì)量的數(shù)據(jù),你會(huì)用哪些方法?
歡迎留言與大家分享
猜你想看?
數(shù)據(jù)分析必備:掌握這個(gè)R語(yǔ)言基礎(chǔ)包1%的功能,你就很牛了
包教包會(huì),7段代碼帶你玩轉(zhuǎn)Python條件語(yǔ)句
學(xué)霸們?cè)诩倨诶铩巴抵鴮W(xué)”,看的是這些書(shū)
從圖靈機(jī)、圖靈測(cè)試到人工智能:什么決定了AI能否取代人類(lèi)?
更多精彩?
在公眾號(hào)對(duì)話(huà)框輸入以下關(guān)鍵詞
查看更多優(yōu)質(zhì)內(nèi)容!
PPT?|?報(bào)告?|?讀書(shū)?|?書(shū)單?|?干貨?
大數(shù)據(jù)?|?揭秘?|?Python?|?可視化
AI?|?人工智能?|?5G?|?區(qū)塊鏈
機(jī)器學(xué)習(xí)?|?深度學(xué)習(xí)?|?神經(jīng)網(wǎng)絡(luò)
合伙人?|?1024?|?段子?|?數(shù)學(xué)?|?高考
據(jù)統(tǒng)計(jì),99%的大咖都完成了這個(gè)神操作
?
覺(jué)得不錯(cuò),請(qǐng)把這篇文章分享給你的朋友
轉(zhuǎn)載 / 投稿請(qǐng)聯(lián)系:baiyu@hzbook.com
更多精彩,請(qǐng)?jiān)诤笈_(tái)點(diǎn)擊“歷史文章”查看
點(diǎn)擊閱讀原文,了解更多
總結(jié)
以上是生活随笔為你收集整理的身高2m,体重2kg,这样的数据“看上去很好”?的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 豆瓣7.6,这部被低估的科幻片告诉你,通
- 下一篇: 10本最火的中台与数字化转型图书,朋友圈