當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

身高2m，体重2kg，这样的数据“看上去很好”？

發(fā)布時(shí)間：2025/3/15 编程问答 29 豆豆

生活随笔收集整理的這篇文章主要介紹了身高2m，体重2kg，这样的数据“看上去很好”？小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

導(dǎo)讀：數(shù)據(jù)挖掘算法通常用于為其他目的收集的數(shù)據(jù)，或者在收集時(shí)未明確其目的。因此，數(shù)據(jù)挖掘常常不能“在數(shù)據(jù)源頭控制質(zhì)量”。相比之下，統(tǒng)計(jì)學(xué)的實(shí)驗(yàn)設(shè)計(jì)或調(diào)查中，其數(shù)據(jù)質(zhì)量往往都達(dá)到了一定的要求。由于無(wú)法避免數(shù)據(jù)質(zhì)量問(wèn)題，因此數(shù)據(jù)挖掘著眼于兩個(gè)方面：

（1）數(shù)據(jù)質(zhì)量問(wèn)題的檢測(cè)和糾正；

（2）使用可以容忍低質(zhì)量數(shù)據(jù)的算法。第一步的檢測(cè)和糾正，通常稱(chēng)作數(shù)據(jù)清理（data cleaning）。

本文討論數(shù)據(jù)質(zhì)量。盡管也討論某些與應(yīng)用有關(guān)的問(wèn)題，但是關(guān)注的焦點(diǎn)是測(cè)量和數(shù)據(jù)收集問(wèn)題。

作者：陳封能（Pang-Ning Tan）、邁克爾·斯坦巴赫（Michael Steinbach）等

如需轉(zhuǎn)載請(qǐng)聯(lián)系大數(shù)據(jù)（ID：hzdashuju）

01 測(cè)量和數(shù)據(jù)收集問(wèn)題

期望數(shù)據(jù)完美是不現(xiàn)實(shí)的。人類(lèi)的錯(cuò)誤、測(cè)量設(shè)備的限制或數(shù)據(jù)收集過(guò)程中的漏洞都可能導(dǎo)致問(wèn)題。數(shù)據(jù)的值乃至整個(gè)數(shù)據(jù)對(duì)象都可能會(huì)丟失。在有些情況下，可能有不真實(shí)或重復(fù)的對(duì)象，即對(duì)應(yīng)于單個(gè)“實(shí)際”對(duì)象出現(xiàn)了多個(gè)數(shù)據(jù)對(duì)象。

例如，對(duì)于一個(gè)最近住過(guò)兩個(gè)不同地方的人，可能有兩個(gè)不同的記錄。即使所有的數(shù)據(jù)都不缺，并且“看上去很好”，也可能存在不一致，如一個(gè)人身高2m，但體重只有2kg。

下面我們關(guān)注數(shù)據(jù)測(cè)量和收集方面的數(shù)據(jù)質(zhì)量問(wèn)題。我們先定義測(cè)量誤差和數(shù)據(jù)收集錯(cuò)誤，然后考慮涉及測(cè)量誤差的各種問(wèn)題：噪聲、偽像、偏置、精度和準(zhǔn)確率。最后討論同時(shí)涉及測(cè)量和數(shù)據(jù)收集的數(shù)據(jù)質(zhì)量問(wèn)題：離群點(diǎn)、遺漏和不一致的值、重復(fù)數(shù)據(jù)。

1. 測(cè)量誤差和數(shù)據(jù)收集錯(cuò)誤

術(shù)語(yǔ)測(cè)量誤差（measurement error）是指測(cè)量過(guò)程中產(chǎn)生的問(wèn)題。一個(gè)常見(jiàn)的問(wèn)題是：在某種程度上，記錄的值與實(shí)際值不同。對(duì)于連續(xù)屬性，測(cè)量值與實(shí)際值的差稱(chēng)為誤差（error）。

術(shù)語(yǔ)數(shù)據(jù)收集錯(cuò)誤（data collection error）是指諸如遺漏數(shù)據(jù)對(duì)象或?qū)傩灾?#xff0c;或者不當(dāng)?shù)匕似渌麛?shù)據(jù)對(duì)象等錯(cuò)誤。例如，一種特定種類(lèi)動(dòng)物研究可能包含了相關(guān)種類(lèi)的其他動(dòng)物，它們只是表面上與要研究的種類(lèi)相似。測(cè)量誤差和數(shù)據(jù)收集錯(cuò)誤可能是系統(tǒng)的也可能是隨機(jī)的。

我們只考慮一般的錯(cuò)誤類(lèi)型。在特定的領(lǐng)域中，總有某些類(lèi)型的錯(cuò)誤是常見(jiàn)的，并且通常存在很好的技術(shù)，能檢測(cè)并糾正這些錯(cuò)誤。例如，人工輸入數(shù)據(jù)時(shí)，鍵盤(pán)錄入錯(cuò)誤是常見(jiàn)的，因此許多數(shù)據(jù)輸入程序具有檢測(cè)技術(shù)，并通過(guò)人工干預(yù)糾正這類(lèi)錯(cuò)誤。

2. 噪聲和偽像

噪聲是測(cè)量誤差的隨機(jī)部分。這通常涉及值被扭曲或加入了謬誤對(duì)象。圖2.5顯示了被隨機(jī)噪聲干擾前后的時(shí)間序列。如果在時(shí)間序列上添加更多的噪聲，形狀將會(huì)消失。圖2.6顯示了三組添加一些噪聲點(diǎn)（用“+”表示）前后的數(shù)據(jù)點(diǎn)集。注意，有些噪聲點(diǎn)與非噪聲點(diǎn)混在一起。

▲圖2.5 時(shí)間序列中的噪聲

▲圖2.6 空間中的噪聲

術(shù)語(yǔ)“噪聲”通常用于包含時(shí)間或空間分量的數(shù)據(jù)。在這些情況下，常常可以使用信號(hào)或圖像處理技術(shù)降低噪聲，從而幫助發(fā)現(xiàn)可能“淹沒(méi)在噪聲中”的模式（信號(hào)）。盡管如此，完全消除噪聲通常是困難的，而許多數(shù)據(jù)挖掘工作都關(guān)注設(shè)計(jì)魯棒算法（robust algorithm），即在噪聲干擾下也能產(chǎn)生可以接受的結(jié)果。

數(shù)據(jù)錯(cuò)誤可能是更確定性現(xiàn)象的結(jié)果，如一組照片在同一地方出現(xiàn)條紋。數(shù)據(jù)的這種確定性失真常稱(chēng)作偽像（artifact）。

3. 精度、偏置和準(zhǔn)確率

在統(tǒng)計(jì)學(xué)和實(shí)驗(yàn)科學(xué)中，測(cè)量過(guò)程和結(jié)果數(shù)據(jù)是用精度和偏置度量的。我們給出標(biāo)準(zhǔn)的定義，隨后簡(jiǎn)略加以討論。對(duì)于下面的定義，我們假定對(duì)相同的基本量進(jìn)行重復(fù)測(cè)量。

精度（precision）：（同一個(gè)量的）重復(fù)測(cè)量值之間的接近程度。
偏置（bias）：測(cè)量值與被測(cè)量之間的系統(tǒng)的變化。

精度通常用值集合的標(biāo)準(zhǔn)差度量，而偏置用值集合的均值與測(cè)出的已知值之間的差度量。只有那些通過(guò)外部手段能夠得到測(cè)量值的對(duì)象，偏置才是可確定的。

假定我們有1g質(zhì)量的標(biāo)準(zhǔn)實(shí)驗(yàn)室重量，并且想評(píng)估實(shí)驗(yàn)室的新天平的精度和偏置。我們稱(chēng)重5次，得到下列值：{1.015，0.990，1.013，1.001，0.986}。這些值的均值是1.001，因此偏置是0.001。用標(biāo)準(zhǔn)差度量，精度是0.013。

通常使用更一般的術(shù)語(yǔ)準(zhǔn)確率表示數(shù)據(jù)測(cè)量誤差的程度。

準(zhǔn)確率（accuracy）：被測(cè)量的測(cè)量值與實(shí)際值之間的接近度。

準(zhǔn)確率依賴(lài)于精度和偏置，但是沒(méi)有用這兩個(gè)量表達(dá)準(zhǔn)確率的公式。

準(zhǔn)確率的一個(gè)重要方面是有效數(shù)字（significant digit）的使用。其目標(biāo)是僅使用數(shù)據(jù)精度所能確定的數(shù)字位數(shù)表示測(cè)量或計(jì)算結(jié)果。

例如，對(duì)象的長(zhǎng)度用最小刻度為毫米的米尺測(cè)量，則我們只能記錄最接近毫米的長(zhǎng)度數(shù)據(jù)，這種測(cè)量的精度為±0.5mm。這里不再詳細(xì)地討論有效數(shù)字，因?yàn)榇蟛糠肿x者應(yīng)當(dāng)在先前的課程中接觸過(guò)，并且在理工科和統(tǒng)計(jì)學(xué)教材中討論得相當(dāng)深入。

諸如有效數(shù)字、精度、偏置和準(zhǔn)確率問(wèn)題常常被忽視，但是對(duì)于數(shù)據(jù)挖掘、統(tǒng)計(jì)學(xué)和自然科學(xué)，它們都非常重要。通常，數(shù)據(jù)集并不包含數(shù)據(jù)精度信息，用于分析的程序返回的結(jié)果也沒(méi)有這方面的信息。45但是，缺乏對(duì)數(shù)據(jù)和結(jié)果準(zhǔn)確率的理解，分析者將可能出現(xiàn)嚴(yán)重的數(shù)據(jù)分析錯(cuò)誤。

4. 離群點(diǎn)

離群點(diǎn)（outlier）是在某種意義上具有不同于數(shù)據(jù)集中其他大部分?jǐn)?shù)據(jù)對(duì)象的特征的數(shù)據(jù)對(duì)象，或是相對(duì)于該屬性的典型值來(lái)說(shuō)不尋常的屬性值。我們也稱(chēng)其為異常（anomalous）對(duì)象或異常值。有許多定義離群點(diǎn)的方法，并且統(tǒng)計(jì)學(xué)和數(shù)據(jù)挖掘界已經(jīng)提出了很多不同的定義。

此外，區(qū)別噪聲和離群點(diǎn)這兩個(gè)概念是非常重要的。與噪聲不同，離群點(diǎn)可以是合法的數(shù)據(jù)對(duì)象或值。例如，在欺詐和網(wǎng)絡(luò)入侵檢測(cè)中，目標(biāo)就是在大量的正常對(duì)象或事件中找到異常對(duì)象或事件。

5. 遺漏值

一個(gè)對(duì)象遺漏一個(gè)或多個(gè)屬性值的情況并不少見(jiàn)。有時(shí)可能會(huì)出現(xiàn)信息收集不全的情況，例如有的人拒絕透露年齡或體重。

還有些情況下，某些屬性并不能用于所有對(duì)象，例如表格常常有條件選擇部分，僅當(dāng)填表人以特定的方式回答前面的問(wèn)題時(shí)，條件選擇部分才需要填寫(xiě)，但為簡(jiǎn)單起見(jiàn)存儲(chǔ)了表格的所有字段。無(wú)論何種情況，在數(shù)據(jù)分析時(shí)都應(yīng)當(dāng)考慮遺漏值。

有許多處理遺漏值的策略（和這些策略的變種），每種策略適用于特定的情況。這些策略在下面列出，同時(shí)我們指出它們的優(yōu)缺點(diǎn)。

刪除數(shù)據(jù)對(duì)象或?qū)傩?/strong>
一種簡(jiǎn)單而有效的策略是刪除具有遺漏值的數(shù)據(jù)對(duì)象。然而，即使不完整的數(shù)據(jù)對(duì)象也包含一些有用的信息，并且，如果許多對(duì)象都有遺漏值，則很難甚至不可能進(jìn)行可靠的分析。
盡管如此，如果某個(gè)數(shù)據(jù)集只有少量的對(duì)象具有遺漏值，則忽略它們可能是合算的。一種與之相關(guān)的策略是刪除具有遺漏值的屬性。然而，做這件事要小心，46因?yàn)楸粍h除的屬性可能對(duì)分析是至關(guān)重要的。

估計(jì)遺漏值
有時(shí)，遺漏值可以可靠地估計(jì)。例如，在考慮以大致平滑的方式變化的、具有少量但分散的遺漏值的時(shí)間序列時(shí)，遺漏值可以使用其他值來(lái)估計(jì)（插值）。另舉一例，考慮一個(gè)具有許多相似數(shù)據(jù)點(diǎn)的數(shù)據(jù)集，與具有遺漏值的點(diǎn)鄰近的點(diǎn)的屬性值常常可以用來(lái)估計(jì)遺漏的值。
如果屬性是連續(xù)的，則可以使用最近鄰的平均屬性值；如果屬性是分類(lèi)的，則可以取最近鄰中最常出現(xiàn)的屬性值。為了更具體地解釋，考慮地面站記錄的降水量，對(duì)于未設(shè)地面站的區(qū)域，降水量可以使用鄰近地面站的觀測(cè)值估計(jì)。

在分析時(shí)忽略遺漏值
許多數(shù)據(jù)挖掘方法都可以修改，以忽略遺漏值。例如，假定正在對(duì)數(shù)據(jù)對(duì)象聚類(lèi)，需要計(jì)算各對(duì)數(shù)據(jù)對(duì)象間的相似性。如果某對(duì)數(shù)據(jù)對(duì)象的一個(gè)對(duì)象或兩個(gè)對(duì)象的某些屬性有遺漏值，則可以?xún)H使用沒(méi)有遺漏值的屬性來(lái)計(jì)算相似性。
當(dāng)然，這種相似性只是近似的，但是除非整個(gè)屬性數(shù)目很少，或者遺漏值的數(shù)量很大，否則這種誤差影響不大。同樣，許多分類(lèi)方法都可以修改，以便于處理遺漏值。

6. 不一致的值

數(shù)據(jù)可能包含不一致的值。比如地址字段列出了郵政編碼和城市名，但是有的郵政編碼區(qū)域并不包含在對(duì)應(yīng)的城市中。這可能是人工輸入該信息時(shí)顛倒了兩個(gè)數(shù)字，或許是在掃描手寫(xiě)體時(shí)錯(cuò)讀了一個(gè)數(shù)字。無(wú)論導(dǎo)致不一致值的原因是什么，重要的是能檢測(cè)出來(lái)，并且如果可能的話(huà)，糾正這種錯(cuò)誤。

有些不一致類(lèi)型容易檢測(cè)，例如人的身高不應(yīng)當(dāng)是負(fù)的。另一些情況下，可能需要查閱外部信息源，例如當(dāng)保險(xiǎn)公司處理賠償要求時(shí)，它將對(duì)照顧客數(shù)據(jù)庫(kù)核對(duì)賠償單上的姓名與地址。

檢測(cè)到不一致后，有時(shí)可以對(duì)數(shù)據(jù)進(jìn)行更正。產(chǎn)品代碼可能有“校驗(yàn)”數(shù)字，或者可以通過(guò)一個(gè)備案的已知產(chǎn)品代碼列表復(fù)核產(chǎn)品代碼，如果發(fā)現(xiàn)它不正確但接近一個(gè)已知代碼，則糾正它。糾正不一致需要額外的或冗余的信息。

例：不一致的海洋表面溫度

該例解釋實(shí)際的時(shí)間序列數(shù)據(jù)中的不一致性。這些數(shù)據(jù)是在海洋的不同點(diǎn)測(cè)量的海洋表面溫度（SST）。最初人們利用船或浮標(biāo)使用海洋測(cè)量方法收集SST數(shù)據(jù)，而最近開(kāi)始使用衛(wèi)星來(lái)收集這些數(shù)據(jù)。為了創(chuàng)建長(zhǎng)期的數(shù)據(jù)集，需要使用這兩種數(shù)據(jù)源。

然而，由于數(shù)據(jù)來(lái)自不同的數(shù)據(jù)源，兩部分?jǐn)?shù)據(jù)存在微妙的不同。這種差異顯示在圖2.7中，該圖顯示了各年度之間SST值的相關(guān)性。如果某兩個(gè)年度的SST值是正相關(guān)的，則對(duì)應(yīng)于這兩年的位置為白色，否則為黑色。（季節(jié)性的變化從數(shù)據(jù)中刪除，否則所有的年都是高度相關(guān)的。）數(shù)據(jù)匯集在一起的地方（1983年）有一個(gè)明顯的變化。

在1958～1982年和1983～1999年兩組中，每組內(nèi)的年相互之間趨向于正相關(guān)，但與另一組的年負(fù)相關(guān)。這并不意味著該數(shù)據(jù)不能用，但是分析者應(yīng)當(dāng)考慮這種差異對(duì)數(shù)據(jù)挖掘分析的潛在影響。

▲圖2.7 年對(duì)之間SST數(shù)據(jù)的相關(guān)性。白色區(qū)域表示正相關(guān)，黑色區(qū)域表示負(fù)相關(guān)

7. 重復(fù)數(shù)據(jù)

數(shù)據(jù)集可以包含重復(fù)或幾乎重復(fù)的數(shù)據(jù)對(duì)象。許多人都收到過(guò)重復(fù)的郵件，因?yàn)樗鼈円陨晕⒉幌嗤拿侄啻纬霈F(xiàn)在數(shù)據(jù)庫(kù)中。為了檢測(cè)并刪除這種重復(fù)，必須處理兩個(gè)主要問(wèn)題。

首先，如果兩個(gè)對(duì)象實(shí)際代表同一個(gè)對(duì)象，則對(duì)應(yīng)的屬性值必然不同，必須解決這些不一致的值；其次，需要避免意外地將兩個(gè)相似但并非重復(fù)的數(shù)據(jù)對(duì)象（如兩個(gè)人具有相同姓名）合并在一起。術(shù)語(yǔ)去重復(fù)（deduplication）通常用來(lái)表示處理這些問(wèn)題的過(guò)程。

在某些情況下，兩個(gè)或多個(gè)對(duì)象在數(shù)據(jù)庫(kù)的屬性度量上是相同的，但是仍然代表不同的對(duì)象。這種重復(fù)是合法的。但是，如果某些算法設(shè)計(jì)中沒(méi)有專(zhuān)門(mén)考慮這些屬性可能相同的對(duì)象，就還是會(huì)導(dǎo)致問(wèn)題。

02 關(guān)于應(yīng)用的問(wèn)題

數(shù)據(jù)質(zhì)量問(wèn)題也可以從應(yīng)用角度考慮，表達(dá)為“數(shù)據(jù)是高質(zhì)量的，如果它適合預(yù)期的應(yīng)用”。特別是對(duì)工商界，數(shù)據(jù)質(zhì)量的這種提議非常有用。類(lèi)似的觀點(diǎn)也出現(xiàn)在統(tǒng)計(jì)學(xué)和實(shí)驗(yàn)科學(xué)中，那里強(qiáng)調(diào)精心設(shè)計(jì)實(shí)驗(yàn)來(lái)收集與特定假設(shè)相關(guān)的數(shù)據(jù)。與測(cè)量和數(shù)據(jù)收集一樣，許多數(shù)據(jù)質(zhì)量問(wèn)題與特定的應(yīng)用和領(lǐng)域有關(guān)。我們這里仍然只考慮一些一般性問(wèn)題。

1. 時(shí)效性

有些數(shù)據(jù)在收集后就開(kāi)始老化。比如說(shuō)，如果數(shù)據(jù)提供正在發(fā)生的現(xiàn)象或過(guò)程的快照，如顧客的購(gòu)買(mǎi)行為或Web瀏覽模式，則快照只代表有限時(shí)間內(nèi)的真實(shí)情況。如果數(shù)據(jù)已經(jīng)過(guò)時(shí)，則基于它的模型和模式也已經(jīng)過(guò)時(shí)。

2. 相關(guān)性

可用的數(shù)據(jù)必須包含應(yīng)用所需要的信息。考慮構(gòu)造一個(gè)模型，預(yù)測(cè)交通事故發(fā)生率。如果忽略了駕駛員的年齡和性別信息，那么除非這些信息可以間接地通過(guò)其他屬性得到，否則模型的準(zhǔn)確率可能是有限的。

確保數(shù)據(jù)集中的對(duì)象相關(guān)不太容易。一個(gè)常見(jiàn)問(wèn)題是抽樣偏置（sampling bias），指樣本包含的不同類(lèi)型的對(duì)象與它們?cè)诳傮w中的出現(xiàn)情況不成比例。例如調(diào)查數(shù)據(jù)只反映對(duì)調(diào)查做出響應(yīng)的那些人的意見(jiàn)。由于數(shù)據(jù)分析的結(jié)果只能反映現(xiàn)有的數(shù)據(jù)，抽樣偏置通常會(huì)導(dǎo)致不正確的分析。

3. 關(guān)于數(shù)據(jù)的知識(shí)

理想情況下，數(shù)據(jù)集附有描述數(shù)據(jù)的文檔。文檔的質(zhì)量好壞決定它是支持還是干擾其后的分析。例如，如果文檔標(biāo)明若干屬性是強(qiáng)相關(guān)的，則說(shuō)明這些屬性可能提供了高度冗余的信息，我們通常只保留一個(gè)屬性。（考慮銷(xiāo)售稅和銷(xiāo)售價(jià)格。）

然而，如果文檔很糟糕，例如，沒(méi)有告訴我們某特定字段上的遺漏值用-9999表示，則我們的數(shù)據(jù)分析就可能出問(wèn)題。其他應(yīng)該說(shuō)明的重要特性是數(shù)據(jù)精度、特征的類(lèi)型（標(biāo)稱(chēng)的、序數(shù)的、區(qū)間的、比率的）、測(cè)量的刻度（如長(zhǎng)度用米還是英尺）和數(shù)據(jù)的來(lái)源。

關(guān)于作者：陳封能（Pang-Ning Tan），密歇根州立大學(xué)計(jì)算機(jī)科學(xué)與工程系教授，主要研究方向是數(shù)據(jù)挖掘、數(shù)據(jù)庫(kù)系統(tǒng)、網(wǎng)絡(luò)空間安全、網(wǎng)絡(luò)分析等。

本文摘編自《數(shù)據(jù)挖掘?qū)д摗?#xff08;原書(shū)第2版），經(jīng)出版方授權(quán)發(fā)布。

延伸閱讀《數(shù)據(jù)挖掘?qū)д摗?#xff08;原書(shū)第2版）

點(diǎn)擊上圖了解及購(gòu)買(mǎi)

轉(zhuǎn)載請(qǐng)聯(lián)系微信：DoctorData

推薦語(yǔ)：本書(shū)為斯坦福大學(xué)、密歇根州立大學(xué)、明尼蘇達(dá)大學(xué)、得克薩斯大學(xué)等知名高校的數(shù)據(jù)挖掘課程教材。從算法的角度介紹數(shù)據(jù)挖掘所使用的主要原理與技術(shù)。所涵蓋的主題包括：數(shù)據(jù)預(yù)處理、預(yù)測(cè)建模、關(guān)聯(lián)分析、聚類(lèi)分析、異常檢測(cè)和避免錯(cuò)誤發(fā)現(xiàn)。通過(guò)介紹每個(gè)主題的基本概念和算法，為讀者提供將數(shù)據(jù)挖掘應(yīng)用于實(shí)際問(wèn)題所需的必要背景以及方法。

延伸閱讀《計(jì)算機(jī)時(shí)代的統(tǒng)計(jì)推斷》

點(diǎn)擊上圖了解及購(gòu)買(mǎi)

轉(zhuǎn)載請(qǐng)聯(lián)系微信：DoctorData

推薦語(yǔ)：統(tǒng)計(jì)推斷入門(mén)經(jīng)典，斯坦福大學(xué)知名教授Trevor Hastie全新力作。本書(shū)以豐富的案例介紹了計(jì)算機(jī)時(shí)代下的統(tǒng)計(jì)推斷的發(fā)展脈絡(luò)，從理論的角度剖析統(tǒng)計(jì)推斷的各類(lèi)算法、證據(jù)等，揭示統(tǒng)計(jì)推斷如何推動(dòng)當(dāng)今大數(shù)據(jù)、數(shù)據(jù)科學(xué)、機(jī)器學(xué)習(xí)等領(lǐng)域的快速發(fā)展并引領(lǐng)數(shù)據(jù)分析的變革，最后展望了統(tǒng)計(jì)學(xué)和數(shù)據(jù)科學(xué)的未來(lái)方向。

長(zhǎng)按二維碼或點(diǎn)擊閱讀原文

發(fā)現(xiàn)更多好書(shū)

「大數(shù)據(jù)」內(nèi)容合伙人之「鑒書(shū)小分隊(duì)」上線(xiàn)啦！

最近，你都在讀什么書(shū)？有哪些心得體會(huì)想要跟大家分享？

數(shù)據(jù)叔最近搞了個(gè)大事——聯(lián)合優(yōu)質(zhì)圖書(shū)出版商機(jī)械工業(yè)出版社華章公司發(fā)起鑒書(shū)活動(dòng)。

簡(jiǎn)單說(shuō)就是：你可以免費(fèi)讀新書(shū)，你可以免費(fèi)讀新書(shū)的同時(shí)，順手碼一篇讀書(shū)筆記就行。詳情請(qǐng)?jiān)诖髷?shù)據(jù)公眾號(hào)后臺(tái)對(duì)話(huà)框回復(fù)合伙人查看。

有話(huà)要說(shuō)?

Q:?獲得高質(zhì)量的數(shù)據(jù)，你會(huì)用哪些方法？

歡迎留言與大家分享

猜你想看?

數(shù)據(jù)分析必備：掌握這個(gè)R語(yǔ)言基礎(chǔ)包1%的功能，你就很牛了
包教包會(huì)，7段代碼帶你玩轉(zhuǎn)Python條件語(yǔ)句
學(xué)霸們?cè)诩倨诶铩巴抵鴮W(xué)”，看的是這些書(shū)
從圖靈機(jī)、圖靈測(cè)試到人工智能：什么決定了AI能否取代人類(lèi)？

更多精彩?

在公眾號(hào)對(duì)話(huà)框輸入以下關(guān)鍵詞

查看更多優(yōu)質(zhì)內(nèi)容！

PPT?|?報(bào)告?|?讀書(shū)?|?書(shū)單?|?干貨?

大數(shù)據(jù)?|?揭秘?|?Python?|?可視化

AI?|?人工智能?|?5G?|?區(qū)塊鏈

機(jī)器學(xué)習(xí)?|?深度學(xué)習(xí)?|?神經(jīng)網(wǎng)絡(luò)

合伙人?|?1024?|?段子?|?數(shù)學(xué)?|?高考

據(jù)統(tǒng)計(jì)，99%的大咖都完成了這個(gè)神操作

覺(jué)得不錯(cuò)，請(qǐng)把這篇文章分享給你的朋友

轉(zhuǎn)載 / 投稿請(qǐng)聯(lián)系：baiyu@hzbook.com

更多精彩，請(qǐng)?jiān)诤笈_(tái)點(diǎn)擊“歷史文章”查看

點(diǎn)擊閱讀原文，了解更多

總結(jié)

以上是生活随笔為你收集整理的身高2m，体重2kg，这样的数据“看上去很好”？的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

体重

数据

身高

很好

歡迎分享！

轉(zhuǎn)載請(qǐng)說(shuō)明來(lái)源于"生活随笔"，并保留原作者的名字。

本文地址：身高2m，体重2kg，这样的数据“看上去很好”？

上一篇：豆瓣7.6，这部被低估的科幻片告诉你，通

下一篇： 10本最火的中台与数字化转型图书，朋友圈

最新發(fā)布

点击弹窗 input直接是待输入状态_第六课：你知道如何用两行代码做个弹窗吗？看这里...

暖通专业标准规范大全_中高级职称专业分类改革机械类十大热门专业分享

动态添加的路由直接访问_VUE 动态路由（二）

重新分区_手机DATA重新分区教程(超详细)

怎么挪动_你真的懂iPhone上的小圆点怎么玩吗

熱門(mén)推薦

蓝牙厂商代码与公司对应列表

历年高考报考人数和录取人数

河南王牌计算机专业,河南计算机专业实力突出的7所大学，郑大位列次席，榜首实至名归...

UniCode编码对照表及过滤方案

LeetCode——Backtracking

標(biāo)簽云

单元格

连接数据库

蓝牙耳机

程序语言

微信游戏

软件安装

双系统

游戏开发者

设计理念

计算机资源

Usages

_SMR

Butler

線評論

Restricted

草花

oceanbase

中微信小

request_log

王利芬

蒲丰投针求

筆記

Lampson

zipexception_android

Milner

bootstart_PHP

Screenshots

befor