日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

task2 EDA数据分析

發布時間:2025/3/11 编程问答 26 豆豆
生活随笔 收集整理的這篇文章主要介紹了 task2 EDA数据分析 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

目標

了解,驗證數據集

了解變量關系,與預測值之間關系

數據處理、特征工程

數據探索性分析

EDA探索性數據分析

通過EDA可實現:

1. 得到數據的直觀表現?

2. 發現潛在的結構?

3. 提取重要的變量?

4. 處理異常值?

5. 檢驗統計假設?

6. 建立初步模型?

7. 決定最優因子的設置

?

數據類型

數據一般按類型分為兩種:離散型連續型;

離散型的數據相當于分類型數據,如性別、種族、教育程度等。其中,有些類別是沒有順序的,如性別;有些類別則是有順序的,如教育程度。這兩種情況分別稱為名義變量和有序變量。

對于連續型變量,一般是在值域里面連續取值,這種變量一般是有序的。

統計量

中位數、方差、 內距(Q3?Q1Q3?Q1)

箱線圖和直方圖

一般步驟

1.拿到數據后,用來探索的方法分為兩類,一是基于圖像的,二是基于定量方法的。

常見問題:

- 一般統計量:均值,中位數,方差,分布,分位數,

- 工程修改是否 產生作用:變量變換、缺失值處理

- 自變量是否對結果有影響

- 響應變量和自變量之間的最佳函數

- 時間相關數據能否信噪分離

- 多維變量提取結構?

- 離群值?

知識樹:

實戰案例

目標名稱:水的供應和用水是否與人均國內生產總值有關?(提出假設)

數據源:http://www.fao.org/nr/water/aquastat/data/query/index.html下圖數據源界面(如果您經常做學術研究,例如OECD等數據都是這樣的。)

數據源簡單介紹

網站:http://www.fao.org/nr/water/aquastat/metadata/index.stm

組織的三個主要目標是:

1.消除饑餓、糧食不安全和營養不良

2.消除貧困促進經濟社會進步

3.自然資源的可持續管理和利用,包括土地、水、空氣、氣候和遺傳資源,以造福今世后代。

為支持這些目標,《憲法》第1條要求糧農組織“收集、分析、解釋和傳播與營養、糧食和農業有關的信息”。因此,水溫自動調節器開始,其目的是通過收集有助于聯合國糧農組織的目標,與水資源相關的信息傳播分析,用水和農業用水管理,對國家重點在非洲,亞洲,美國,拉丁美洲,加勒比海。

聯合國糧農組織提供數據,元數據,報告國家概況,河流域概況,分析區域,圖,表空間,數據,指導方針,和其他的在線工具:

1、水資源:內部、跨界、總

2、水的用途:按部門,按來源,廢水

3、灌溉:地點、面積、類型、技術、作物

4、水壩:位置,高度,容量,表面積

5、與水有關的機構、政策和立法

項目軟件:軟件python 3.6展示的軟件Anaconda里面的jupster notebook,運行環境Window7,使用電腦Thinkpad T450。

項目計劃

通過對數據有簡單的預估,這個時候,由于自己的電腦內存比較小,跑上十萬以后的數據都會有明顯的卡頓,為此采取了一個特殊的策略—使用Tidy Data進行試驗。Tidy Data大家可能不熟悉,我直接也給大家上了干貨。TidyData的官方解讀:https://tomaugspurger.github.io/modern-5-tidy.html直接連接可以查看如何使用小批量的數據進行實驗。

本實驗的目標為三點:每個變量形成一個列,每個觀測值形成一行,不同類型的觀測單元組成一個表格。

數據轉換:

1、取對數log:當數據的峰值很高,通過將數據取對數能夠將數據歸一化處理。

2、連續變量分組(bin):分組連續變量,能夠更加簡便的了解觀測值的分布。

3、簡化類別:一個單一的數據,往往類別太多會讓人迷亂,一般不想超過8-10列,那就盡量找到重要的類別。(機器學習里面這一個部分很重要,和特征選擇一樣)

項目開始

第一步,不可或缺的導入五大包:NumPy、Pandas、Matplotlib、Seaborn,Warnings大家對這四個包不熟悉的可以百度官方網站,有專門的材料。特別主要的就是Seaborn,這個庫目前可視化的能力已經超過之前對Python的理解,有很多人說R可視化效果很好,但是我覺得這個可視化一點都不差。%matplotlib inline很多人不懂為什么會加上這個意思,這就是在jupter畫圖的時候,能夠將可視化的圖能夠在結果中展現出來,我試過很多時候忘記加,結果圖就只出現一行字。所以需要加上這個。

第二步,導入數據

由于數據是壓縮包的形式,我們平時一般的是CSV,TXT的格式,那我們可以試一試壓縮包的讀取方式。對數據進行基本的了解,Pandas為我們提供了很多可以簡便查看和檢查數據的方法。data.info(),data.shape,data.head(),data.tail()。

結果展示:

之后的四步,見下一篇博文。

總結

以上是生活随笔為你收集整理的task2 EDA数据分析的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 国产在线一级片 | 天堂中文视频在线 | 欧美日韩精品在线观看视频 | 亚洲熟女乱色一区二区三区久久久 | 裸体按摩www性xxxcom | 中文字幕乱码视频 | 永久免费AV无码网站韩国毛片 | 日本黄色不卡视频 | 极品人妻一区二区 | brazzers欧美极品少妇 | 久久久久久成人 | 男女做爰猛烈吃奶啪啪喷水网站 | 亚州av一区二区 | 亚洲国产精品18久久久久久 | 国产无遮挡一区二区三区毛片日本 | 婷婷色吧| 91av一区二区三区 | 国产乱人伦 | 黄色精品在线观看 | 99在线观看免费 | 九七人人爽 | 国内自拍偷拍网 | 巨茎人妖videos另类 | 亚洲乱码国产乱码精品精 | 嫦娥性艳史bd | 成年人黄色一级片 | 黄色网址网站 | 91亚洲精品久久久蜜桃网站 | 伊人春色网站 | 国产99精品视频 | 美女爆乳18禁www久久久久久 | 久久精品国产亚洲AV高清综合 | 高潮流白浆在线观看 | 婷婷午夜精品久久久久久性色av | 波多野结衣二区三区 | 亚洲精品一区二区三区四区五区 | 国产成人精品久久二区二区91 | 欧美成人aaaaa | 黄色一级免费网站 | 国产精欧美一区二区三区白种人 | 女人18毛片水真多18精品 | 欧美xxxⅹ性欧美大片 | 日本黄色大片免费看 | 国产卡一卡二卡三无线乱码新区 | 国产乱码久久久久 | 日本不卡在线观看 | 视频毛片 | 久草a视频 | 看片日韩 | 日韩精品免费在线 | 国产日韩精品视频 | 热99在线 | 神马久久久久久久 | 日日摸夜夜添夜夜 | 国产精品无码久久久久一区二区 | 精品一区二区三区久久 | 欧美a√在线 | 日b免费视频 | 好吊色视频988gao在线观看 | 91亚洲精品乱码久久久久久蜜桃 | 91网站在线播放 | 久久人人澡 | 污网站免费观看 | 国产孕妇一区二区三区 | 欧美日韩中文在线 | 欧美精品在欧美一区二区 | 久久久久免费精品 | 国产亚洲无码精品 | 欧美一级专区免费大片 | 久热国产精品 | www.在线看 | 看片免费黄在线观看入口 | 美国性生活大片 | 欧美美女性视频 | 午夜婷婷网 | 免费av大全 | 九九久久免费视频 | 久久九九99 | 成人www. | 一区不卡在线观看 | 日韩经典av | 男女在线免费观看 | 人人搞人人 | 精品久久久久久久久久久久久久久久久久 | 国产欧美在线精品日韩 | a级片免费播放 | 日本黄色三级视频 | 一区二区视频国产 | 欧美成人精品一区二区免费看片 | 天堂成人在线观看 | 国产精品黄色片 | 亚洲综合色小说 | 女人高潮娇喘声mp3 乱色视频 | 动漫美女舌吻 | 欧美三区| 美女黄色片网站 | 久久久久久久久网站 | 不卡的av网站 | 日本国产在线播放 |