了解※数据科学※(一)之数据的概念及一个数据科学项目的流程分析
一、基本概念
①傳感器采集到的各種物理、生物、化學(xué)指標(biāo)等等各種可記錄,可表征的數(shù)量,性質(zhì)都是數(shù)據(jù)。
②現(xiàn)實(shí)中某種事物或事物間關(guān)系數(shù)量或性質(zhì)的表征和記錄,都稱之為數(shù)據(jù)。
③信息的載體。
大數(shù)據(jù)(big data,mega data)或稱巨量資料,指的是需要新處理模式才能具有更強(qiáng)的決策力、洞察力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。----來(lái)自百度link
4V特點(diǎn):
Ⅰ. 體量大(high Volume)
Ⅱ. 速度快而時(shí)效高(high Velocity)
Ⅲ. 類型繁多(high Variety)
Ⅳ. 價(jià)值密度低(high Veracity)
應(yīng)用科學(xué)的方法、流程、算法和系統(tǒng)從多種形式的結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)中提取知識(shí)和洞見(jiàn)的交叉學(xué)科。 -------維基百科
數(shù)據(jù)科學(xué)包括數(shù)據(jù)的搜集、存儲(chǔ)、分類、處理、分析、呈現(xiàn).
數(shù)據(jù)科學(xué)項(xiàng)目中的人員及其任務(wù)
二、項(xiàng)目流程
拓展:EDA
概念:是指對(duì)已有的數(shù)據(jù)(特別是調(diào)查或觀察得來(lái)的原始數(shù)據(jù))在盡量少的先驗(yàn)假定下進(jìn)行探索,通過(guò)作圖、制表、方程擬合、計(jì)算特征量等手段探索數(shù)據(jù)的結(jié)構(gòu)和規(guī)律的一種數(shù)據(jù)分析方法。
作用:在統(tǒng)計(jì)學(xué)中,探索性數(shù)據(jù)分析(EDA)是一種分析數(shù)據(jù)集以概括其主要特征的方法,通常使用可視化方法。可以使用統(tǒng)計(jì)模型,但主要EDA是為了了解數(shù)據(jù)在形式化建模或假設(shè)測(cè)試任務(wù)之外能告訴我們什么。探索性數(shù)據(jù)分析是John Tukey提拔的鼓勵(lì)統(tǒng)計(jì)學(xué)家的研究數(shù)據(jù),并盡可能提出假設(shè),盡可能生成新的數(shù)據(jù)收集和實(shí)驗(yàn)。EDA不同于初始數(shù)據(jù)分析(IDA),它更集中于檢查模型擬合和假設(shè)檢驗(yàn)所需的假設(shè),以及處理缺少的值,并根據(jù)需要進(jìn)行變量轉(zhuǎn)換,EDA包含IDA。
常見(jiàn)模型
1.統(tǒng)計(jì)學(xué)模型
2.回歸(線性,Logistics)
3.貝葉斯分類器
4.神經(jīng)網(wǎng)絡(luò)
5.隨機(jī)森林
此文章為學(xué)習(xí)完中國(guó)大學(xué)慕課中南京大學(xué)的探索數(shù)據(jù)的奧秘課程第一講后所寫,如需要觀看可以訪問(wèn)下面的鏈接
link
總結(jié)
以上是生活随笔為你收集整理的了解※数据科学※(一)之数据的概念及一个数据科学项目的流程分析的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 华为发布2022年报 鸿蒙全球注册开发者
- 下一篇: 数据科学项目(二)之明确问题及确立目标