机器学习---数据简介及数据清洗概述
| 1.1 數(shù)據(jù)
數(shù)據(jù):它可以是任何未經(jīng)解釋和分析的未經(jīng)處理的事實、價值、文本、聲音或圖片。數(shù)據(jù)是所有數(shù)據(jù)分析、機器學習、人工智能中最重要的部分。沒有數(shù)據(jù),我們無法訓練任何模型,所有現(xiàn)代研究和自動化都將徒勞無功。大企業(yè)花費大量資金只是為了收集盡可能多的特定數(shù)據(jù)。
信息:已被解釋和操作的數(shù)據(jù),現(xiàn)在對用戶有一些有意義的推斷。?
知識:推斷信息、經(jīng)驗、學習和見解的結(jié)合。結(jié)果為個人或組織建立意識或概念。?
我們?nèi)绾卧跈C器學習中拆分數(shù)據(jù)???
-
訓練數(shù)據(jù):我們用來訓練模型的數(shù)據(jù)部分。這是您的模型實際看到(輸入和輸出)并從中學習的數(shù)據(jù)。
-
驗證數(shù)據(jù):用于對模型進行頻繁評估的數(shù)據(jù)部分,適合訓練數(shù)據(jù)集以及改進所涉及的超參數(shù)(在模型開始學習之前初始設(shè)置參數(shù))。當模型實際訓練時,這些數(shù)據(jù)會發(fā)揮作用。
-
測試數(shù)據(jù):一旦我們的模型完全訓練完畢,測試數(shù)據(jù)就會提供無偏見的評估。當我們輸入測試數(shù)據(jù)時,我們的模型將預(yù)測一些值(沒有看到實際輸出)。在預(yù)測之后,我們通過將模型與測試數(shù)據(jù)中的實際輸出進行比較來評估我們的模型。這就是我們?nèi)绾卧u估和查看我們的模型從作為訓練數(shù)據(jù)輸入的經(jīng)驗中學到了多少,這些經(jīng)驗是在訓練時設(shè)置的。
? ?
| 2.1?數(shù)據(jù)處理
數(shù)據(jù)處理是將數(shù)據(jù)從給定形式轉(zhuǎn)換為更可用和更理想的形式的任務(wù),即使其更有意義和信息豐富。使用機器學習算法、數(shù)學建模和統(tǒng)計知識,整個過程可以自動化。這個完整過程的輸出可以是任何所需的形式,如圖形、視頻、圖表、表格、圖像等等,具體取決于我們正在執(zhí)行的任務(wù)和機器的要求。這似乎很簡單,但對于 Twitter、Facebook 等大型組織、議會、教科文組織等行政機構(gòu)和衛(wèi)生部門組織,整個過程需要以非常結(jié)構(gòu)化的方式進行。因此,要執(zhí)行的步驟如下:?
-
收集:?
從 ML 開始,最關(guān)鍵的一步是擁有高質(zhì)量和準確的數(shù)據(jù)。可以從任何經(jīng)過身份驗證的來源收集數(shù)據(jù),例如Kaggle或UCI 數(shù)據(jù)集存儲庫。例如,在準備競爭性考試時,學生從他們可以訪問的最好的學習材料中學習,以便他們學得最好,從而獲得最好的結(jié)果。同樣,高質(zhì)量和準確的數(shù)據(jù)將使模型的學習過程更容易和更好,并且在測試時,模型將產(chǎn)生最先進的結(jié)果。?
收集數(shù)據(jù)消耗了大量的資金、時間和資源。組織或研究人員必須決定執(zhí)行任務(wù)或研究所需的數(shù)據(jù)類型。?
示例:在面部表情識別器上工作,需要大量具有各種人類表情的圖像。良好的數(shù)據(jù)可確保模型的結(jié)果有效且值得信賴。?
? -
準備:?
收集的數(shù)據(jù)可以是原始形式,不能直接輸入機器。因此,這是一個從不同來源收集數(shù)據(jù)集、分析這些數(shù)據(jù)集然后構(gòu)建新數(shù)據(jù)集以進行進一步處理和探索的過程。這種準備可以手動進行,也可以通過自動方法進行。數(shù)據(jù)也可以以數(shù)字形式準備,這也將加快模型的學習。?
示例:可以將圖像轉(zhuǎn)換為 NXN 維度的矩陣,每個單元格的值將指示圖像像素。 -
輸入:?
現(xiàn)在準備好的數(shù)據(jù)可以是機器不可讀的形式,所以要將這些數(shù)據(jù)轉(zhuǎn)換成可讀的形式,需要一些轉(zhuǎn)換算法。要執(zhí)行此任務(wù),需要高計算量和準確性。示例:可以通過 MNIST 數(shù)字數(shù)據(jù)(圖像)、Twitter 評論、音頻文件、視頻剪輯等來源收集數(shù)據(jù)。 -
處理:?
這是需要算法和 ML 技術(shù)以準確和優(yōu)化計算來執(zhí)行在大量數(shù)據(jù)上提供的指令的階段。 -
輸出:?
在此階段,機器以有意義的方式獲取結(jié)果,用戶可以輕松推斷出結(jié)果。輸出可以是報告、圖表、視頻等形式 -
存儲:?
這是保存獲得的輸出和數(shù)據(jù)模型數(shù)據(jù)以及所有有用信息以供將來使用的最后一步。
| 3.1?數(shù)據(jù)清洗
數(shù)據(jù)清洗是機器學習的重要組成部分之一。它在構(gòu)建模型中起著重要作用。它肯定不是機器學習中最精彩的部分,同時也沒有任何隱藏的技巧或秘密可供發(fā)現(xiàn)。但是,項目的成敗取決于適當?shù)臄?shù)據(jù)清理。專業(yè)的數(shù)據(jù)科學家通常會在這一步投入很大一部分時間,因為他們相信“更好的數(shù)據(jù)勝過更高級的算法”。?
如果我們有一個經(jīng)過良好清理的數(shù)據(jù)集,我們也有可能通過簡單的算法獲得良好的結(jié)果,這有時會證明是非常有益的,尤其是在數(shù)據(jù)集較大時的計算方面。?
顯然,不同類型的數(shù)據(jù)將需要不同類型的清理。然而,這種系統(tǒng)的方法總是可以作為一個很好的起點。?
數(shù)據(jù)清洗涉及的步驟:?
刪除不需要的觀察?
這包括從數(shù)據(jù)集中刪除重復(fù)/冗余或不相關(guān)的值。在數(shù)據(jù)收集過程中最常出現(xiàn)重復(fù)觀察,而不相關(guān)的觀察是那些實際上不適合您要解決的特定問題的觀察。?
-
隨著數(shù)據(jù)的重復(fù),冗余觀察在很大程度上改變了效率,并且可能會向正確的一側(cè)或錯誤的一側(cè)添加,從而產(chǎn)生不忠實的結(jié)果。
-
不相關(guān)的觀察是對我們沒有用的任何類型的數(shù)據(jù),可以直接刪除。
修復(fù)結(jié)構(gòu)錯誤?
在測量、數(shù)據(jù)傳輸或其他類似情況下出現(xiàn)的錯誤稱為結(jié)構(gòu)錯誤。結(jié)構(gòu)錯誤包括特征名稱中的拼寫錯誤、具有不同名稱的相同屬性、錯誤標記的類(即實際上應(yīng)該相同的單獨類)或大小寫不一致。?
-
例如,模型會將 America 和 America 視為不同的類或值,盡管它們表示相同的值或紅色、黃色和紅黃色作為不同的類或?qū)傩?#xff0c;盡管一個類可以包含在其他兩個類中。因此,這些是一些結(jié)構(gòu)性錯誤,使我們的模型效率低下并給出質(zhì)量差的結(jié)果。?
管理不需要的異常值異常?
值可能會導(dǎo)致某些類型的模型出現(xiàn)問題。例如,線性回歸模型對異常值的魯棒性不如決策樹模型。一般來說,我們不應(yīng)該刪除異常值,直到我們有正當理由刪除它們。有時,刪除它們會提高性能,有時則不會。因此,必須有充分的理由去除異常值,例如不太可能成為真實數(shù)據(jù)一部分的可疑測量值。
處理缺失數(shù)據(jù)?
缺失數(shù)據(jù)是機器學習中一個看似棘手的問題。我們不能只是忽略或刪除缺失的觀察。必須小心處理它們,因為它們可能表明一些重要的事情。處理缺失數(shù)據(jù)的兩種最常見的方法是:?
????????????????1.?刪除具有缺失值的觀察。
-
-
該值丟失的事實本身可能提供信息。
-
另外,在現(xiàn)實世界中,即使缺少某些特征,您也經(jīng)常需要對新數(shù)據(jù)進行預(yù)測!
-
????????????????2.?從過去的觀察中估算缺失值。
-
-
同樣,“缺失”本身幾乎總是提供信息,如果缺少值,您應(yīng)該告訴您的算法。
-
即使你建立了一個模型來估算你的價值觀,你也沒有添加任何真實的信息。您只是在加強其他功能已經(jīng)提供的模式。
-
丟失數(shù)據(jù)就像丟失了一塊拼圖。如果你放棄它,那就像假裝拼圖插槽不存在一樣。如果你估算它,那就像試圖從拼圖中的其他地方擠入一塊。?
因此,丟失的數(shù)據(jù)始終是一種信息性和重要事物的指示。我們必須通過標記它來了解我們的缺失數(shù)據(jù)算法。通過使用這種標記和填充技術(shù),您實際上允許算法估計缺失的最佳常數(shù),而不是僅僅用平均值填充它。?
一些數(shù)據(jù)清理工具?
-
Openrefine
-
Trifacta Wrangler?
-
TIBCO Clarity
-
Cloudingo
-
IBM Infosphere Quality Stage
結(jié)論:?
因此,我們討論了數(shù)據(jù)清洗中的四個不同步驟,以使數(shù)據(jù)更可靠并產(chǎn)生良好的結(jié)果。正確完成數(shù)據(jù)清理步驟后,我們將擁有一個強大的數(shù)據(jù)集,可以避免許多最常見的陷阱。這一步不應(yīng)該匆忙,因為它在進一步的過程中被證明是非常有益的。
References:
-
https://en.wikipedia.org/wiki/Machine_learning
-
Andrew Ng. Machine Learning[EB/OL]. StanfordUniversity,2017.https://www.coursera.org/course/ml
-
https://en.wikipedia.org/wiki/Supervised_learning
|?4.1?寫在最后
學習不是一蹴而就的,機器學習所涉及的內(nèi)容非常寬泛,后面可能還會涉及一些數(shù)學公式。不過作為一種面向應(yīng)用的方式方法,在不同的場景下同樣有著不同的解決方式,希望今天的內(nèi)容可以幫你明白數(shù)據(jù)的重要性,幫你打下堅實的基礎(chǔ)。
勘誤:
由于我自己也不是資深編程高手,在創(chuàng)作此內(nèi)容時盡管已經(jīng)力求精準,查閱了諸多資料,還是難保有所疏漏,如果各位發(fā)現(xiàn)有誤可以公眾號內(nèi)留言,歡迎指正。
你要偷偷學Python,然后驚艷所有人。
-END-
感謝大家的關(guān)注
? ?你關(guān)心的,都在這里
總結(jié)
以上是生活随笔為你收集整理的机器学习---数据简介及数据清洗概述的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: pyhive python连接hive
- 下一篇: iOS 实时录音和播放