當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

机器学习---数据简介及数据清洗概述

發(fā)布時間：2023/12/31 编程问答 27 豆豆

生活随笔收集整理的這篇文章主要介紹了机器学习---数据简介及数据清洗概述小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

| 1.1 數(shù)據(jù)

數(shù)據(jù)：它可以是任何未經(jīng)解釋和分析的未經(jīng)處理的事實、價值、文本、聲音或圖片。數(shù)據(jù)是所有數(shù)據(jù)分析、機器學習、人工智能中最重要的部分。沒有數(shù)據(jù)，我們無法訓練任何模型，所有現(xiàn)代研究和自動化都將徒勞無功。大企業(yè)花費大量資金只是為了收集盡可能多的特定數(shù)據(jù)。

信息：已被解釋和操作的數(shù)據(jù)，現(xiàn)在對用戶有一些有意義的推斷。?

知識：推斷信息、經(jīng)驗、學習和見解的結(jié)合。結(jié)果為個人或組織建立意識或概念。?

我們?nèi)绾卧跈C器學習中拆分數(shù)據(jù)？??

訓練數(shù)據(jù)：我們用來訓練模型的數(shù)據(jù)部分。這是您的模型實際看到（輸入和輸出）并從中學習的數(shù)據(jù)。
驗證數(shù)據(jù)：用于對模型進行頻繁評估的數(shù)據(jù)部分，適合訓練數(shù)據(jù)集以及改進所涉及的超參數(shù)（在模型開始學習之前初始設(shè)置參數(shù)）。當模型實際訓練時，這些數(shù)據(jù)會發(fā)揮作用。
測試數(shù)據(jù)：一旦我們的模型完全訓練完畢，測試數(shù)據(jù)就會提供無偏見的評估。當我們輸入測試數(shù)據(jù)時，我們的模型將預(yù)測一些值（沒有看到實際輸出）。在預(yù)測之后，我們通過將模型與測試數(shù)據(jù)中的實際輸出進行比較來評估我們的模型。這就是我們?nèi)绾卧u估和查看我們的模型從作為訓練數(shù)據(jù)輸入的經(jīng)驗中學到了多少，這些經(jīng)驗是在訓練時設(shè)置的。

? ?

| 2.1?數(shù)據(jù)處理

數(shù)據(jù)處理是將數(shù)據(jù)從給定形式轉(zhuǎn)換為更可用和更理想的形式的任務(wù)，即使其更有意義和信息豐富。使用機器學習算法、數(shù)學建模和統(tǒng)計知識，整個過程可以自動化。這個完整過程的輸出可以是任何所需的形式，如圖形、視頻、圖表、表格、圖像等等，具體取決于我們正在執(zhí)行的任務(wù)和機器的要求。這似乎很簡單，但對于 Twitter、Facebook 等大型組織、議會、教科文組織等行政機構(gòu)和衛(wèi)生部門組織，整個過程需要以非常結(jié)構(gòu)化的方式進行。因此，要執(zhí)行的步驟如下：?

收集：?
從 ML 開始，最關(guān)鍵的一步是擁有高質(zhì)量和準確的數(shù)據(jù)。可以從任何經(jīng)過身份驗證的來源收集數(shù)據(jù)，例如Kaggle或UCI 數(shù)據(jù)集存儲庫。例如，在準備競爭性考試時，學生從他們可以訪問的最好的學習材料中學習，以便他們學得最好，從而獲得最好的結(jié)果。同樣，高質(zhì)量和準確的數(shù)據(jù)將使模型的學習過程更容易和更好，并且在測試時，模型將產(chǎn)生最先進的結(jié)果。?
收集數(shù)據(jù)消耗了大量的資金、時間和資源。組織或研究人員必須決定執(zhí)行任務(wù)或研究所需的數(shù)據(jù)類型。?
示例：在面部表情識別器上工作，需要大量具有各種人類表情的圖像。良好的數(shù)據(jù)可確保模型的結(jié)果有效且值得信賴。?
?
準備：?
收集的數(shù)據(jù)可以是原始形式，不能直接輸入機器。因此，這是一個從不同來源收集數(shù)據(jù)集、分析這些數(shù)據(jù)集然后構(gòu)建新數(shù)據(jù)集以進行進一步處理和探索的過程。這種準備可以手動進行，也可以通過自動方法進行。數(shù)據(jù)也可以以數(shù)字形式準備，這也將加快模型的學習。?
示例：可以將圖像轉(zhuǎn)換為 NXN 維度的矩陣，每個單元格的值將指示圖像像素。
輸入：?
現(xiàn)在準備好的數(shù)據(jù)可以是機器不可讀的形式，所以要將這些數(shù)據(jù)轉(zhuǎn)換成可讀的形式，需要一些轉(zhuǎn)換算法。要執(zhí)行此任務(wù)，需要高計算量和準確性。示例：可以通過 MNIST 數(shù)字數(shù)據(jù)（圖像）、Twitter 評論、音頻文件、視頻剪輯等來源收集數(shù)據(jù)。
處理：?
這是需要算法和 ML 技術(shù)以準確和優(yōu)化計算來執(zhí)行在大量數(shù)據(jù)上提供的指令的階段。
輸出：?
在此階段，機器以有意義的方式獲取結(jié)果，用戶可以輕松推斷出結(jié)果。輸出可以是報告、圖表、視頻等形式
存儲：?
這是保存獲得的輸出和數(shù)據(jù)模型數(shù)據(jù)以及所有有用信息以供將來使用的最后一步。

| 3.1?數(shù)據(jù)清洗

數(shù)據(jù)清洗是機器學習的重要組成部分之一。它在構(gòu)建模型中起著重要作用。它肯定不是機器學習中最精彩的部分，同時也沒有任何隱藏的技巧或秘密可供發(fā)現(xiàn)。但是，項目的成敗取決于適當?shù)臄?shù)據(jù)清理。專業(yè)的數(shù)據(jù)科學家通常會在這一步投入很大一部分時間，因為他們相信“更好的數(shù)據(jù)勝過更高級的算法”。?
如果我們有一個經(jīng)過良好清理的數(shù)據(jù)集，我們也有可能通過簡單的算法獲得良好的結(jié)果，這有時會證明是非常有益的，尤其是在數(shù)據(jù)集較大時的計算方面。?

顯然，不同類型的數(shù)據(jù)將需要不同類型的清理。然而，這種系統(tǒng)的方法總是可以作為一個很好的起點。?

數(shù)據(jù)清洗涉及的步驟：?

刪除不需要的觀察?
這包括從數(shù)據(jù)集中刪除重復(fù)/冗余或不相關(guān)的值。在數(shù)據(jù)收集過程中最常出現(xiàn)重復(fù)觀察，而不相關(guān)的觀察是那些實際上不適合您要解決的特定問題的觀察。?

隨著數(shù)據(jù)的重復(fù)，冗余觀察在很大程度上改變了效率，并且可能會向正確的一側(cè)或錯誤的一側(cè)添加，從而產(chǎn)生不忠實的結(jié)果。
不相關(guān)的觀察是對我們沒有用的任何類型的數(shù)據(jù)，可以直接刪除。

修復(fù)結(jié)構(gòu)錯誤?
在測量、數(shù)據(jù)傳輸或其他類似情況下出現(xiàn)的錯誤稱為結(jié)構(gòu)錯誤。結(jié)構(gòu)錯誤包括特征名稱中的拼寫錯誤、具有不同名稱的相同屬性、錯誤標記的類（即實際上應(yīng)該相同的單獨類）或大小寫不一致。?

例如，模型會將 America 和 America 視為不同的類或值，盡管它們表示相同的值或紅色、黃色和紅黃色作為不同的類或?qū)傩?#xff0c;盡管一個類可以包含在其他兩個類中。因此，這些是一些結(jié)構(gòu)性錯誤，使我們的模型效率低下并給出質(zhì)量差的結(jié)果。?

管理不需要的異常值異常?
值可能會導(dǎo)致某些類型的模型出現(xiàn)問題。例如，線性回歸模型對異常值的魯棒性不如決策樹模型。一般來說，我們不應(yīng)該刪除異常值，直到我們有正當理由刪除它們。有時，刪除它們會提高性能，有時則不會。因此，必須有充分的理由去除異常值，例如不太可能成為真實數(shù)據(jù)一部分的可疑測量值。

處理缺失數(shù)據(jù)?
缺失數(shù)據(jù)是機器學習中一個看似棘手的問題。我們不能只是忽略或刪除缺失的觀察。必須小心處理它們，因為它們可能表明一些重要的事情。處理缺失數(shù)據(jù)的兩種最常見的方法是：?

????????????????1.?刪除具有缺失值的觀察。

- 該值丟失的事實本身可能提供信息。
- 另外，在現(xiàn)實世界中，即使缺少某些特征，您也經(jīng)常需要對新數(shù)據(jù)進行預(yù)測！

????????????????2.?從過去的觀察中估算缺失值。

- 同樣，“缺失”本身幾乎總是提供信息，如果缺少值，您應(yīng)該告訴您的算法。
- 即使你建立了一個模型來估算你的價值觀，你也沒有添加任何真實的信息。您只是在加強其他功能已經(jīng)提供的模式。

丟失數(shù)據(jù)就像丟失了一塊拼圖。如果你放棄它，那就像假裝拼圖插槽不存在一樣。如果你估算它，那就像試圖從拼圖中的其他地方擠入一塊。?

因此，丟失的數(shù)據(jù)始終是一種信息性和重要事物的指示。我們必須通過標記它來了解我們的缺失數(shù)據(jù)算法。通過使用這種標記和填充技術(shù)，您實際上允許算法估計缺失的最佳常數(shù)，而不是僅僅用平均值填充它。?

一些數(shù)據(jù)清理工具?

Openrefine
Trifacta Wrangler?
TIBCO Clarity
Cloudingo
IBM Infosphere Quality Stage

結(jié)論：?
因此，我們討論了數(shù)據(jù)清洗中的四個不同步驟，以使數(shù)據(jù)更可靠并產(chǎn)生良好的結(jié)果。正確完成數(shù)據(jù)清理步驟后，我們將擁有一個強大的數(shù)據(jù)集，可以避免許多最常見的陷阱。這一步不應(yīng)該匆忙，因為它在進一步的過程中被證明是非常有益的。

References:

https://en.wikipedia.org/wiki/Machine_learning
Andrew Ng. Machine Learning[EB/OL]. StanfordUniversity,2017.https://www.coursera.org/course/ml
https://en.wikipedia.org/wiki/Supervised_learning

|?4.1?寫在最后

學習不是一蹴而就的，機器學習所涉及的內(nèi)容非常寬泛，后面可能還會涉及一些數(shù)學公式。不過作為一種面向應(yīng)用的方式方法，在不同的場景下同樣有著不同的解決方式，希望今天的內(nèi)容可以幫你明白數(shù)據(jù)的重要性，幫你打下堅實的基礎(chǔ)。

勘誤:

由于我自己也不是資深編程高手，在創(chuàng)作此內(nèi)容時盡管已經(jīng)力求精準，查閱了諸多資料，還是難保有所疏漏，如果各位發(fā)現(xiàn)有誤可以公眾號內(nèi)留言，歡迎指正。

你要偷偷學Python，然后驚艷所有人。

-END-

感謝大家的關(guān)注

? ?你關(guān)心的，都在這里

總結(jié)

以上是生活随笔為你收集整理的机器学习---数据简介及数据清洗概述的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： pyhive python连接hive
下一篇： iOS 实时录音和播放

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

机器学习---数据简介及数据清洗概述

總結(jié)