日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

了解※数据科学※(一)之数据的概念及一个数据科学项目的流程分析

發(fā)布時(shí)間:2023/12/19 编程问答 25 豆豆
生活随笔 收集整理的這篇文章主要介紹了 了解※数据科学※(一)之数据的概念及一个数据科学项目的流程分析 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

一、基本概念

  • 數(shù)據(jù):
    ①傳感器采集到的各種物理、生物、化學(xué)指標(biāo)等等各種可記錄,可表征的數(shù)量,性質(zhì)都是數(shù)據(jù)。
    ②現(xiàn)實(shí)中某種事物或事物間關(guān)系數(shù)量或性質(zhì)的表征和記錄,都稱之為數(shù)據(jù)。
    ③信息的載體。
  • 大數(shù)據(jù)
    大數(shù)據(jù)(big data,mega data)或稱巨量資料,指的是需要新處理模式才能具有更強(qiáng)的決策力、洞察力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。----來(lái)自百度link
    4V特點(diǎn):
    Ⅰ. 體量大(high Volume)
    Ⅱ. 速度快而時(shí)效高(high Velocity)
    Ⅲ. 類型繁多(high Variety)
    Ⅳ. 價(jià)值密度低(high Veracity)
  • 數(shù)據(jù)科學(xué)
    應(yīng)用科學(xué)的方法、流程、算法和系統(tǒng)從多種形式的結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)中提取知識(shí)和洞見(jiàn)的交叉學(xué)科。 -------維基百科
    數(shù)據(jù)科學(xué)包括數(shù)據(jù)的搜集、存儲(chǔ)、分類、處理、分析、呈現(xiàn).
    數(shù)據(jù)科學(xué)項(xiàng)目中的人員及其任務(wù)
  • 二、項(xiàng)目流程

    1.問(wèn)題的確定 用戶層面:需要考慮出資方的動(dòng)機(jī)、需求。數(shù)據(jù)科學(xué)層面:預(yù)測(cè)、分類、關(guān)聯(lián)、特征化、聚類、打分或排名 2.制定目標(biāo)應(yīng)用層面和數(shù)據(jù)科學(xué)層面都要做到明確、具體、可驗(yàn)證、可量化 3.收集數(shù)據(jù) 4.EDA(探索性數(shù)據(jù)分析)初步了解數(shù)據(jù)特性,形成一些初步假設(shè)

    拓展:EDA

    概念:是指對(duì)已有的數(shù)據(jù)(特別是調(diào)查或觀察得來(lái)的原始數(shù)據(jù))在盡量少的先驗(yàn)假定下進(jìn)行探索,通過(guò)作圖、制表、方程擬合、計(jì)算特征量等手段探索數(shù)據(jù)的結(jié)構(gòu)和規(guī)律的一種數(shù)據(jù)分析方法。
    作用:在統(tǒng)計(jì)學(xué)中,探索性數(shù)據(jù)分析(EDA)是一種分析數(shù)據(jù)集以概括其主要特征的方法,通常使用可視化方法。可以使用統(tǒng)計(jì)模型,但主要EDA是為了了解數(shù)據(jù)在形式化建模或假設(shè)測(cè)試任務(wù)之外能告訴我們什么。探索性數(shù)據(jù)分析是John Tukey提拔的鼓勵(lì)統(tǒng)計(jì)學(xué)家的研究數(shù)據(jù),并盡可能提出假設(shè),盡可能生成新的數(shù)據(jù)收集和實(shí)驗(yàn)。EDA不同于初始數(shù)據(jù)分析(IDA),它更集中于檢查模型擬合和假設(shè)檢驗(yàn)所需的假設(shè),以及處理缺少的值,并根據(jù)需要進(jìn)行變量轉(zhuǎn)換,EDA包含IDA。

    5.建立模型 常見(jiàn)任務(wù) + EDA結(jié)果 ====>選擇并構(gòu)建合適的模型 👇 預(yù)測(cè) 分類 關(guān)聯(lián) 特征化 聚類 打分或排名

    常見(jiàn)模型
    1.統(tǒng)計(jì)學(xué)模型
    2.回歸(線性,Logistics)
    3.貝葉斯分類器
    4.神經(jīng)網(wǎng)絡(luò)
    5.隨機(jī)森林

    6.評(píng)價(jià)模型 各類問(wèn)題對(duì)應(yīng)的指標(biāo)也不一樣。 分類問(wèn)題------>混淆矩陣 特征提取------>ROC曲線和AUC 統(tǒng)計(jì)分析------>統(tǒng)計(jì)檢驗(yàn)p值和置信區(qū)間有效的數(shù)據(jù)科學(xué)模型----->評(píng)價(jià)指標(biāo)需優(yōu)于以往實(shí)現(xiàn)同類任務(wù)的模型所實(shí)現(xiàn)的指標(biāo) 不了解以往工作的情況下----->至少要優(yōu)于空模型的指標(biāo)(空模型即最簡(jiǎn)單的模型)7.展現(xiàn)結(jié)果 通過(guò)可視化的方法突出對(duì)象(出資方或者用戶或者數(shù)據(jù)科學(xué)家)所關(guān)心的內(nèi)容。 8.部署模型 測(cè)試 確保穩(wěn)定運(yùn)行 避免災(zāi)難性決策

    此文章為學(xué)習(xí)完中國(guó)大學(xué)慕課中南京大學(xué)的探索數(shù)據(jù)的奧秘課程第一講后所寫,如需要觀看可以訪問(wèn)下面的鏈接
    link

    總結(jié)

    以上是生活随笔為你收集整理的了解※数据科学※(一)之数据的概念及一个数据科学项目的流程分析的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

    如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。