大数据思维与技术——中国大学MOOC课程笔记
大數(shù)據(jù)思維與技術(shù)——中國(guó)大學(xué)MOOC課程筆記
第一章 大數(shù)據(jù)思維與技術(shù)認(rèn)知
0 一些例子
總之 大數(shù)據(jù)分析現(xiàn)在已經(jīng)存在于方方面面。但事實(shí)上,其首次提出僅僅是20世紀(jì)90年代,而直到2011年6月,美國(guó)麥肯錫全球研究院發(fā)布了題為《大數(shù)據(jù):下一個(gè)創(chuàng)新、競(jìng)爭(zhēng)和生產(chǎn)力的前沿》的研究報(bào)告,“大數(shù)據(jù)(BIG DATA)”一詞才真正“熱”起來(lái)。
1 一些概念和想法
大數(shù)據(jù)的定義是: 規(guī)模龐大、類型眾多、變化速度快、價(jià)值密度低的數(shù)據(jù)集合。
- 大數(shù)據(jù)分析流程一般包括:大數(shù)據(jù)采集、導(dǎo)入和預(yù)處理、統(tǒng)計(jì)和分析、挖掘。
- 大數(shù)據(jù)算法存在很多問(wèn)題,例如過(guò)擬合和虛假信息的識(shí)別。
2 核心架構(gòu)與分析計(jì)算模式
- Hadoop是Apachc軟件基金會(huì)旗下的一個(gè)開(kāi)源分布式計(jì)算平臺(tái),為用戶提供系統(tǒng)層細(xì)節(jié)透明的分布式基礎(chǔ)架構(gòu)。Hadoop的核心是分布式文件系統(tǒng)HDFS(Hadoop Distributed File System)和MapReduce.
- 國(guó)內(nèi)采用Hadoop的公司主要有百度、淘寶、網(wǎng)易、華為、中國(guó)移動(dòng)等,其中中,淘寶的Hadoop集群比較大。
- HDFS可以利用由廉價(jià)硬件構(gòu)成的計(jì)算機(jī)集群實(shí)現(xiàn)海量數(shù)據(jù)的分布式存儲(chǔ)。塊是HDFS核心的概念,一個(gè)大的文件會(huì)拆分成很多個(gè)塊。HDFS采用抽象的塊概念,具有支持大規(guī)模文件存儲(chǔ)、簡(jiǎn)化系統(tǒng)設(shè)計(jì)、適合數(shù)據(jù)備份等優(yōu)點(diǎn)。
- Spark最初由美國(guó)加州伯克利大學(xué)(UCBerkeley)的AMP實(shí)驗(yàn)室于2009年開(kāi)發(fā),是基于內(nèi)存計(jì)算的大數(shù)據(jù)并行計(jì)算框架,可用于構(gòu)建大型的、低延遲的數(shù)據(jù)分析應(yīng)用程序。
- **Spark支持R語(yǔ)言 **
- Hive是一個(gè)構(gòu)建于Hadoop頂層的數(shù)據(jù)倉(cāng)庫(kù)工具,主要用于對(duì)存儲(chǔ)在Hadoop文件中的數(shù)據(jù)集進(jìn)行數(shù)據(jù)整理、牛特殊查詢和分析處理
Impala作為新一代開(kāi)源大數(shù)據(jù)分析引擎,支持實(shí)時(shí)計(jì)算,并在性能上比Hive高出3~30倍。【依賴HIVE元數(shù)據(jù)】
第二章 大數(shù)據(jù)分析領(lǐng)域技術(shù)
1 自然語(yǔ)言處理
自然語(yǔ)言通常是指一種自然地隨文化演化的語(yǔ)言。是人類交際的工具, 是人類思維的載體,以語(yǔ)音為物質(zhì)外殼,由詞匯和語(yǔ)法組成的符號(hào)系統(tǒng)。自然語(yǔ)言處理(Natural Language Processing,NLP)是實(shí)現(xiàn)人機(jī)間自然語(yǔ)言通信,使計(jì)算機(jī)能理解自然語(yǔ)言文本的意義和利用自然語(yǔ)言文本 表達(dá)給定的意圖或思想。
2 自然語(yǔ)言處理的目標(biāo)和框架
- 框架語(yǔ)義FrameNet-知識(shí)庫(kù)
- 命題語(yǔ)義PropBank-知識(shí)庫(kù)
- 句義結(jié)構(gòu)模型CSM
3 自然語(yǔ)言處理關(guān)鍵技術(shù)
知識(shí)圖譜(Knowledge Graph)于2012年5月首次提出,是Google用于 增強(qiáng)其搜索引擎功能的知識(shí)庫(kù),本質(zhì)上,知識(shí)圖譜是旨在描述實(shí)體、概念、關(guān)系的圖結(jié)構(gòu)。
文本情感分析(也稱為意見(jiàn)挖掘)是指用自然語(yǔ)言處理,文本挖掘以及 計(jì)算機(jī)語(yǔ)言學(xué)等方法來(lái)識(shí)別和提取原素材中的主觀信息。
4 其他例子
生物信息學(xué):廣義的概念:應(yīng)用信息科學(xué)的方法和技術(shù),研究生物體系和生物過(guò) 程中信息的存貯、信息的內(nèi)涵和信息的傳遞,研究和分析生物體細(xì) 胞、組織、器官的生理、病理、藥理過(guò)程中的各種生物信息 ? 狹義的概念:應(yīng)用信息科學(xué)的理論、方法和技術(shù),管理、分析和利 用生物分子數(shù)據(jù),通過(guò)收集、組織、管理生物分子數(shù)據(jù),獲得和使 用相關(guān)信息;通過(guò)處理、分析、挖掘生物分子數(shù)據(jù),得到深層次的 生物學(xué)知識(shí),加深對(duì)生物世界的認(rèn)識(shí)。
第三章 大數(shù)據(jù)分析編程基礎(chǔ)
1 虛擬化
虛擬化,是指通過(guò)虛擬化技術(shù)將一臺(tái)計(jì)算機(jī)虛擬為多臺(tái)邏輯計(jì)算機(jī)。在一臺(tái)計(jì) 算機(jī)上同時(shí)運(yùn)行多個(gè)邏輯計(jì)算機(jī),每個(gè)邏輯計(jì)算機(jī)可運(yùn)行不同的操作系統(tǒng),并 且應(yīng)用程序都可以在相互獨(dú)立的空間內(nèi)運(yùn)行而互不影響,從而顯著提高計(jì)算機(jī) 的利用效率。
2 VPS
VPS(Virtual Private Server虛擬專用服務(wù)器)。
VPS通常使用SSH軟件連接,例如 Xshell Putty。
3 Linux 基礎(chǔ)
linux系統(tǒng)一切都是文件,每個(gè)文件都有擁有者、用戶組、其他人三個(gè)權(quán)限。
-
ls -al 顯示目錄詳細(xì)信息
-
Vim 文本編輯器 有正常模式、插入模式
-
Kali Linux
-
apt update 用來(lái)更新
- -apt 用來(lái)下載包
-
文件、目錄管理的常見(jiàn)命令
? man
- 搜索命令的相關(guān)文檔,https://linux.die.net/
? pwd
- 顯示終端的當(dāng)前路徑(工作路徑,working directory)
? mkdir
- 創(chuàng)建新的目錄
? rmdir
- 刪除一個(gè)空的目錄
? cp
-
復(fù)制文件或目錄
-
mv
- 移動(dòng)文件或目錄
? rm
- 移除文件或目錄
? cd
- 切換終端的當(dāng)前路徑
-
Vim編輯器
-
vim有四個(gè)模式 - 正常模式(Normal-mode), 用于瀏覽文件, 此時(shí)敲擊鍵 盤會(huì)觸發(fā)對(duì)應(yīng)的快捷鍵,而 不會(huì)輸入文字, 如按鍵盤上 的“i”,就會(huì)進(jìn)入插入模式
-
命令模式(Command-mode),
- 在正常模式下按“:”(注意是冒號(hào),不是分號(hào))
? 在此模式下可以輸入各種命令, 如w保存文件,wq保存文件并退出, wq!寫 文件并強(qiáng)制退出
-
可視模式(Visual-mode),
- 在正常模式按下v,可以進(jìn)入可視模式。可視模式中的操作有點(diǎn)像拿鼠標(biāo)進(jìn) 行操作, 選擇文本的時(shí)候有一種鼠標(biāo)選擇的即視感, 有時(shí)候會(huì)很方便,如 復(fù)制大段文字。
-
vim的常用命令
? 復(fù)制粘貼
- 單行文字的復(fù)制和粘貼
? 正常模式下按yy為復(fù)制,按p為粘貼
- 多行文字的復(fù)制和粘貼
? 在可視模式下按y為復(fù)制,在正常模式下按p為粘貼
- 使用命令模式進(jìn)行復(fù)制和粘貼
? 刪除
-
在正常模式下按dd刪除當(dāng)前行
-
查找
-
在normal模式下按下/即可進(jìn)入查找模式, 輸入要查找的字符串并按下回 車。Vim會(huì)跳轉(zhuǎn)到第一個(gè)匹配。按n查找下一個(gè),按N查找上一個(gè)
-
支持正則表達(dá)式
-
-
替換
-
在命令模式下輸入以下指令
-
作用范圍s/目標(biāo)/替換/替換標(biāo)志
-
:%s/abc/def/g,在全局范圍內(nèi)查找abc,并把所有的abc 替換為def
-
作用范圍可以為某行、某個(gè)選區(qū)、全文
-
替換標(biāo)志可以設(shè)置為
? 從光標(biāo)位置開(kāi)始,只替換一次
? 大小是否敏感
-
課程關(guān)于C語(yǔ)言、Python語(yǔ)言和Java的介紹不在此列舉。
-
第四章 大數(shù)據(jù)分析計(jì)算方法
1機(jī)器學(xué)習(xí)
機(jī)器學(xué)習(xí)是一門致力于研究如何通過(guò)計(jì)算的手段,利用經(jīng)驗(yàn)改善系統(tǒng)自身的性能的多領(lǐng)域交叉性學(xué)科。
1.1監(jiān)督學(xué)習(xí)
利用已知類別的樣本調(diào)整模型的參數(shù),使其達(dá)到所要求性能的學(xué)習(xí)過(guò)程。
- 監(jiān)督學(xué)習(xí)中常見(jiàn)的模型是回歸模型和分類模型。
1.2無(wú)監(jiān)督學(xué)習(xí)
利用未知類別的樣本調(diào)整模型的參數(shù),使其達(dá)到所要求性能的學(xué)習(xí)過(guò)程。
- 無(wú)監(jiān)督學(xué)習(xí)常見(jiàn)的模型是聚類模型。
1.3強(qiáng)化學(xué)習(xí)
智能體在與環(huán)境的連續(xù)互動(dòng)中學(xué)習(xí)最優(yōu)行為策略的學(xué)習(xí)過(guò)程。
- 強(qiáng)化學(xué)習(xí)是智能體在環(huán)境的聯(lián)系互動(dòng)中學(xué)習(xí)最優(yōu)行為策略。
1.4模型評(píng)估
根據(jù)模型在未知樣本上進(jìn)行的實(shí)驗(yàn)和測(cè)試的結(jié)果,評(píng)估模型的泛化能力和誤差并進(jìn)行選擇的過(guò)程被稱為模型評(píng)估。
過(guò)擬合:當(dāng)模型將訓(xùn)練樣本自身的一些特性當(dāng)作了所有潛在樣本的一般特性時(shí),就會(huì)導(dǎo)致模型泛化性能下降。
欠擬合:相對(duì)于過(guò)擬合,模型對(duì)訓(xùn)練樣本的一般特性尚未達(dá)到良好的學(xué)習(xí)效果,導(dǎo)致模型表現(xiàn)較差。
1.5模型訓(xùn)練
損失函數(shù)(loss function)是將隨機(jī)事件或其有關(guān)隨機(jī)變量的取值映射為非負(fù)實(shí)數(shù)以表示該隨機(jī)事件的 “損失”的函數(shù)。包括 絕對(duì)損失函數(shù)和平方損失函數(shù)以及0-1損失函數(shù)。
梯度下降法(gradient descent)是一個(gè)優(yōu)化算法,在機(jī)器學(xué)習(xí)的訓(xùn)練中,常用于遞歸性地逼近最小誤差模型。其計(jì)算過(guò)程是沿梯度下降的方向求解極小值(也可以沿梯度上升方向求解極大值)。
1.6性能度量
性能度量即衡量模型泛化能力的評(píng)價(jià)標(biāo)準(zhǔn)。
2 監(jiān)督學(xué)習(xí)
監(jiān)督學(xué)習(xí)是訓(xùn)練數(shù)據(jù)有標(biāo)記信息,無(wú)監(jiān)督學(xué)習(xí)是訓(xùn)練數(shù)據(jù)沒(méi)有標(biāo)記信息。
回歸問(wèn)題是預(yù)測(cè)值為連續(xù)值,分類問(wèn)題是預(yù)測(cè)值為離散值。
2.1 線性回歸
單變量線性回歸:輸入屬性只有一個(gè),即一元問(wèn)題;
多變量線性回歸:輸入屬性有多個(gè),即多元問(wèn)題。
邏輯回歸用來(lái)解決分類問(wèn)題。即分類任務(wù),將分類任務(wù)的真實(shí)標(biāo)記與線性回歸模型的預(yù)測(cè)值聯(lián)系。
2.2 樸素貝葉斯
- 貝葉斯決策論
在不完全情報(bào)下,對(duì)部分未知的狀態(tài)用主觀概率估計(jì)(先驗(yàn)概率),然后用貝葉斯公式對(duì)發(fā)生概率進(jìn)行修正(后驗(yàn)概率),最后再利用期望值和修正概率做出最優(yōu)決策。
- 貝葉斯分類器
概率框架下的統(tǒng)計(jì)學(xué)習(xí)分類器,對(duì)分類任務(wù)而言,假設(shè)在相關(guān)概率都已知的情況下,貝葉斯分類器考慮如何基于這些概率為樣本判定最優(yōu)的類標(biāo)。
- 樸素貝葉斯
基于貝葉斯定理與特征條件獨(dú)立假設(shè)的貝葉斯分類方法。
2.3 決策樹(shù)
在機(jī)器學(xué)習(xí)中,決策樹(shù)代表對(duì)象屬性與對(duì)象值之間的一種映射關(guān)系。決策樹(shù)算法采用樹(shù)形結(jié)構(gòu),通過(guò)層層決策來(lái)實(shí)現(xiàn)最終的分類。
2.4 支持向量機(jī)
按監(jiān)督學(xué)習(xí)**(supervised learning)方式對(duì)數(shù)據(jù)進(jìn)行二元分類的廣義線性分類器。其決策邊界是根據(jù)學(xué)習(xí)樣本求解的最大間隔超平面(maximum-margin hyperplane)**
2.5 KNN算法
KNN(K-Nearest Neighbor),K鄰近算法,一種基本的分類與回歸方法。
3 無(wú)監(jiān)督學(xué)習(xí)
3.1 聚類
聚類是無(wú)監(jiān)督學(xué)習(xí)的一個(gè)領(lǐng)域,將物理或抽象對(duì)象的集合分成由類似的對(duì)象組成的多個(gè)類的過(guò)程被稱為聚類。其靈感來(lái)源于人類對(duì)未知事物的探索,通過(guò)“物以類聚,人以群分”的思想,將相似的事物聚集在一起,主要包含原型聚類、層次聚類和密度聚類。
原型聚類(prototype-based clustering)指基于原型的聚類,此類算法假設(shè)聚類結(jié)構(gòu)可以通過(guò)一組原型刻畫。
層次聚類(hierarchical clustering)在不同層次上對(duì)數(shù)據(jù)進(jìn)行劃分。- 層次聚類算法主要分為基于凝聚策略的算法和基于分裂策略的算法。
密度聚類:基于密度的聚類算法是一類以數(shù)據(jù)集在空間分布上的稠密程度為依據(jù)進(jìn)行聚類的算法。
3.2 主成分分析
主成分分析 是對(duì)于原先提出的所有變量 ,將重復(fù)的變量(關(guān)系緊密的變量)刪去多余,建立盡可能少的新變量,使得新變量之間互不相關(guān)。而且在反映課題的信息方面,這些新變量盡可能保持原有的信息不減少。
設(shè)法將原來(lái)變量重新組合成一組新的互相無(wú)關(guān)的幾個(gè)綜合變量 ,同時(shí)根據(jù)實(shí)際需要從中可以取出幾個(gè)較少的綜合變量盡可能多地反映原來(lái)變量的信息的統(tǒng)計(jì)方法叫做主成分分析**(Principal** Component Analysis,PCA**)**或稱主分量分析,也是數(shù)學(xué)上用來(lái)降維的一種方法。
3.3 關(guān)聯(lián)規(guī)則學(xué)習(xí)
關(guān)聯(lián)規(guī)則(Association Rules)是反映一個(gè)事物與其他事物之間的相互依存性和關(guān)聯(lián)性,是數(shù)據(jù)挖掘的一個(gè)重要技術(shù),用于從大量數(shù)據(jù)中挖掘出有價(jià)值的數(shù)據(jù)項(xiàng)之間的相關(guān)關(guān)系。
4 集成學(xué)習(xí)
集成學(xué)習(xí)是一種機(jī)器學(xué)習(xí)范式,思路是通過(guò)構(gòu)建并結(jié)合多個(gè)學(xué)習(xí)器(通常稱為個(gè)體學(xué)習(xí)器)來(lái)完成學(xué)習(xí)任務(wù)。
Boosting 是一族可將弱學(xué)習(xí)器(準(zhǔn)確率在60%-80%)提升為強(qiáng)學(xué)習(xí)器(準(zhǔn)確率在 **90%**以上)的算法。
AdaBoost 主要應(yīng)用于二分類問(wèn)題。
Bagging 是一種個(gè)體學(xué)習(xí)器之間不存在強(qiáng)依賴關(guān)系、可同時(shí)生成的并行式集成學(xué)習(xí)方法。
隨機(jī)森林**(RF)是Bagging的擴(kuò)展體。RF在以決策樹(shù)為基學(xué)習(xí)器構(gòu)建Bagging**集成的基礎(chǔ)上,進(jìn)一步在決策樹(shù)的訓(xùn)練過(guò)程中引入了隨機(jī)屬性選擇。
Stacking 算法是一種有效的集成方法,它用不同的分類器產(chǎn)生的預(yù)測(cè)作為下一層學(xué)習(xí)算法的輸入,是一種分層模型集成框架。
5 深度學(xué)習(xí)
深度學(xué)習(xí):為了學(xué)習(xí)一種好的表示,需要構(gòu)建具有一定“深度”的模型,并通過(guò)學(xué)習(xí)算法來(lái)讓模型自動(dòng)學(xué)習(xí)出好的特征表示(從底層特征,到中層特征,再到高層特征),從而最終提升預(yù)測(cè)模型的準(zhǔn)確率。為了提高機(jī)器學(xué)習(xí)系統(tǒng)的準(zhǔn)確率,我們就需要將輸入信息轉(zhuǎn)換為有效的特征,或者更一般性地稱為表示。如果有一種算法可以自動(dòng)地學(xué)習(xí)出有效的特征,并提高最終機(jī)器學(xué)習(xí)模型的性能,那么這種學(xué)習(xí)就可以叫作表示學(xué)習(xí)。
-
人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)是指一系列受生物學(xué)和神經(jīng)科學(xué)啟發(fā)的數(shù)學(xué)模型。這些模型主要是通過(guò)對(duì)人腦的神經(jīng)元網(wǎng)絡(luò)進(jìn)行抽象,構(gòu)建人工神經(jīng)元,并按照一定拓?fù)浣Y(jié)構(gòu)來(lái)建立人工神經(jīng)元之間的連接,來(lái)模擬生物神經(jīng)網(wǎng)絡(luò)。在人工智能領(lǐng)域,人工神經(jīng)網(wǎng)絡(luò)也常常簡(jiǎn)稱為神經(jīng)網(wǎng)絡(luò)(Neural Network,NN)或神經(jīng)模型(Neural Model)。
-
人工神經(jīng)元(Artificial Neuron),簡(jiǎn)稱神經(jīng)元(Neuron),是構(gòu)成神經(jīng)網(wǎng)絡(luò)的基本單元,其主要是模擬生物神經(jīng)元的結(jié)構(gòu)和特性,接收一組輸入信號(hào)并產(chǎn)生輸出。
-
前饋網(wǎng)絡(luò)中各個(gè)神經(jīng)元按接收信息的先后分為不同的組。每一組可以看作一個(gè)神經(jīng)層。每一層中的神經(jīng)元接收前一層神經(jīng)元的輸出,并輸出到下一層神經(jīng)元。整個(gè)網(wǎng)絡(luò)中的信息是朝一個(gè)方向傳播,沒(méi)有反向的信息傳播,可以用一個(gè)有向無(wú)環(huán)路圖表示。前饋網(wǎng)絡(luò)包括全連接前饋網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)等。
-
記憶網(wǎng)絡(luò),也稱為反饋網(wǎng)絡(luò),網(wǎng)絡(luò)中的神經(jīng)元不但可以接收其他神經(jīng)元的信息,也可以接收自己的歷史信息。和前饋網(wǎng)絡(luò)相比,記憶網(wǎng)絡(luò)中的神經(jīng)元具有記憶功能,在不 同的時(shí)刻具有不同的狀態(tài)。記憶神經(jīng)網(wǎng)絡(luò)中的信息傳播可以是單向或雙向傳遞,因此可用一個(gè)有向循環(huán)圖或無(wú)向圖來(lái)表示。記憶網(wǎng)絡(luò)包括循環(huán)神經(jīng)網(wǎng)絡(luò)、玻爾茲曼機(jī)(受限玻爾茲曼機(jī))等。
-
圖網(wǎng)絡(luò)是定義在圖結(jié)構(gòu)數(shù)據(jù)上的神經(jīng)網(wǎng)絡(luò),圖中每個(gè)節(jié)點(diǎn)都由一個(gè)或一組神經(jīng)元構(gòu)成。 節(jié)點(diǎn)之間的連接可以是有向的,也可以是無(wú)向的。每個(gè)節(jié)點(diǎn)可以收到來(lái)自相鄰節(jié)點(diǎn)或自身的信息。圖網(wǎng)絡(luò)是前饋網(wǎng)絡(luò)和記憶網(wǎng)絡(luò)的泛化,包含很多不同的實(shí)現(xiàn)方式,比如圖卷積網(wǎng)絡(luò)(Graph Convolutional Network,GCN)、圖注意力網(wǎng)絡(luò)(Graph Attention Network,GAT)等。
-
卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)一般是由卷積層、匯聚層和全連接層交叉堆疊而成的深層前饋神經(jīng)網(wǎng)絡(luò)。
-
循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)是一類具有短期記憶能力的神經(jīng)網(wǎng)絡(luò)。在循環(huán)神經(jīng)網(wǎng)絡(luò)中,神經(jīng)元不但可以接受其他神經(jīng)元的信息,也可以接受自身的信息,形成具有環(huán)路的網(wǎng)絡(luò)結(jié)構(gòu)。
-
生成式對(duì)抗網(wǎng)絡(luò) GAN 是一種特殊的生成模型。- 由兩部分主成:生成器G / 判別器D,生成器和判別器之間的一個(gè)對(duì)抗游戲。生成器用一隨機(jī)噪聲向量z盡量去捕捉真實(shí)樣本數(shù)據(jù)的分布,判別器是一個(gè)二分類器,判別輸入是真實(shí)數(shù)據(jù)還是生成的樣本。當(dāng)對(duì)抗過(guò)程進(jìn)行到一定程度,如果生成器所生成的數(shù)據(jù),能夠使具有很強(qiáng)分辨能力的判別器仍無(wú)法正確判斷,生成器實(shí)際上已經(jīng)學(xué)到了真實(shí)數(shù)據(jù)的分布。
6 強(qiáng)化學(xué)習(xí)
強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)中的一個(gè)領(lǐng)域,強(qiáng)調(diào)如何基于環(huán)境而行動(dòng),以取得最大化的預(yù)期利益。其靈感來(lái)源于心理學(xué)中的行為主義理論,即有機(jī)體如何在環(huán)境給予的獎(jiǎng)勵(lì)或懲罰的刺激下,逐步形成對(duì)刺激的預(yù)期,產(chǎn)生能獲得最大利益的習(xí)慣性行為。
第五章 大數(shù)據(jù)分析計(jì)算平臺(tái)
5.1 虛擬化技術(shù)
- 按虛擬的抽象層次不同,可以分為:
- 指令級(jí)虛擬化
- 硬件級(jí)虛擬化
- 操作系統(tǒng)級(jí)虛擬化
- 編程語(yǔ)言級(jí)虛擬化
- 程序庫(kù)級(jí)虛擬化.
-
虛擬機(jī):在硬件平臺(tái)上模擬出的多個(gè)獨(dú)立、ISA結(jié)構(gòu)和實(shí)際CPU相同的虛擬硬件系統(tǒng)。
-
虛擬機(jī)監(jiān)視器:位于計(jì)算機(jī)硬件和操作系統(tǒng)之間。根據(jù)VMM在整個(gè)系統(tǒng)中的所處位置,可以將VMM分為獨(dú)立監(jiān)控模式、宿主模式
和混合模式
- 虛擬化技術(shù)的應(yīng)用
5.2 GPU
- GPU的特性:
- 算術(shù)邏輯單元多 ,任務(wù)執(zhí)行高并行
- 控制邏輯簡(jiǎn)單,運(yùn)行環(huán)境簡(jiǎn)單純凈
- 顯存讀寫速度快,處理數(shù)據(jù)規(guī)模龐大
5.3 其他大數(shù)據(jù)分析計(jì)算平臺(tái)
包括Spark平臺(tái)、Hadoop平臺(tái)、Flink品臺(tái)、ssh安裝配置、JDK安裝等。
第六章 大數(shù)據(jù)分析特征工程
6.1 概念解析
特征工程是把一個(gè)原始數(shù)據(jù)轉(zhuǎn)變?yōu)樘卣鞯倪^(guò)程,這些特征能夠很好地描述這些數(shù) 據(jù),并且利用它們建立的模型,可以使得在未知數(shù)據(jù)上的表現(xiàn)接近最佳性能。
特征工程簡(jiǎn)介步驟:特征獲取——特征處理——特征監(jiān)控
特征工程,就是將數(shù)據(jù)屬性轉(zhuǎn)換為數(shù)據(jù)特征的過(guò)程。
定性數(shù)據(jù),指研究中使用的文字資料,是由文本的詞語(yǔ)、句子組成的材料。
- 任何文字資料都可以用作研究的定性數(shù)據(jù),如小說(shuō)、期刊、論文、演講詞、作文等。
? 定性數(shù)據(jù)分為以下兩個(gè)等級(jí):
- 定類等級(jí):按事物某種屬性分類或分組,可用數(shù)字代表類別,但不能進(jìn)行大小比較, 不能做四則運(yùn)算;
- 定序等級(jí):按事物某種屬性分類或分組,可用數(shù)字代表類別,可進(jìn)行大小比較,但不 能做四則運(yùn)算。
定量數(shù)據(jù),能夠用數(shù)據(jù)或統(tǒng)一的結(jié)構(gòu)加以表示的信息,如數(shù)字、符號(hào)。
- 包括信用卡號(hào)碼、日期、財(cái)務(wù)金額、電話號(hào)碼、地址、產(chǎn)品名稱等。
? 定量數(shù)據(jù)分為以下兩個(gè)等級(jí):
- 定距等級(jí):既能比較各類事物的優(yōu)劣,又能計(jì)算出事物間差異的大小,表現(xiàn)為數(shù)值, 沒(méi)有絕對(duì)零點(diǎn),可做加減運(yùn)算,不能做乘除運(yùn)算;
- 定比等級(jí):既能比較各類事物的優(yōu)劣,又能計(jì)算出事物間差異的大小,表現(xiàn)為數(shù)值, 有絕對(duì)零點(diǎn),可做加、減、乘、除運(yùn)算。
6.2 數(shù)據(jù)清洗
數(shù)據(jù)采樣
現(xiàn)實(shí)的分類學(xué)習(xí)任務(wù)中存在:樣本總數(shù)過(guò)多無(wú)法全部用于訓(xùn)練的問(wèn)題;不同類別的訓(xùn)練樣本數(shù)目差別很大的類別不平衡問(wèn)題。
數(shù)據(jù)采樣是從樣本總體中選取合適數(shù)量和比例的樣本用于分類器訓(xùn)練的方法
- 簡(jiǎn)單隨機(jī)采樣:在確定好研究對(duì)象的總體后,往往由于成本和資源的限制,需要抽取部分樣本進(jìn)一步研究。常用的抽樣方法有隨機(jī)采樣和分層采樣。
- 系統(tǒng)采樣:因此將總體按照某一標(biāo)志(如時(shí)間)順序排列或者隨機(jī)進(jìn)行編號(hào),分成數(shù)量相等的組,使組數(shù)與取樣數(shù)相等,然后從每組中按照事先確定的次序抽取個(gè)體,這樣的抽樣方法稱為系統(tǒng)采樣
- 分層采樣:分層采樣是按對(duì)主要研究指標(biāo)影響較大的某種特征,將總體分為若干類別(統(tǒng)計(jì)上稱為“層”),再?gòu)拿恳粚觾?nèi)隨機(jī)抽取一定數(shù)量的觀察單位,合起來(lái)組成樣本
- 欠采樣:欠采樣通過(guò)減少樣本數(shù)量提高類別間平衡性
- 過(guò)采樣:過(guò)采樣通過(guò)模擬或補(bǔ)充額外數(shù)據(jù)提高類別間平衡性
缺失值處理
若出現(xiàn)缺失值的特征或樣本僅包含極少量有效值,則將包含缺失值數(shù)據(jù)的列或者行從數(shù)據(jù)中刪除。
數(shù)據(jù)填充方法通常基于統(tǒng)計(jì)學(xué)原理,根據(jù)當(dāng)前缺失值所在特征的其他非缺失特征
值的分布情況來(lái)進(jìn)行填充,分為以下幾類- 人工填充- 平均值填充- 熱卡填充- KNN填充- 期望最大化填充- 多重插補(bǔ)。
熱卡填充:在完整數(shù)據(jù)中找到一個(gè)與它最相似的對(duì)象,然后用這個(gè)相似對(duì)象的值來(lái)進(jìn)行填充
6.3 特征處理
6.3.1 類別特征處理
類別型特征主要是指只有在選項(xiàng)內(nèi)取值的特征。
序列編碼通常用于處理類別間具有大小關(guān)系的數(shù)據(jù)。
6.3.2 數(shù)值特征處理
歸一化(Normalization),它是將特征(或者數(shù)據(jù))都縮放到一個(gè)指定的大致相同的數(shù)值區(qū)間內(nèi)。
均值方差歸一化是把數(shù)據(jù)通過(guò)方差縮放處理,得到均值為0,方差為1的數(shù)值分布。
連續(xù)屬性的離散化,就是將連續(xù)屬性的值域劃分為若干個(gè)離散的區(qū)間。
6.3.3 文本特征處理
文本特征處理包含文本的表示及其特征項(xiàng)的處理。
統(tǒng)計(jì)方法有詞袋模型、詞頻統(tǒng)計(jì)等。
6.3.4 標(biāo)準(zhǔn)化歸一化
標(biāo)準(zhǔn)化與歸一化的區(qū)別?
- 標(biāo)準(zhǔn)化:按比例縮放數(shù)據(jù),使之落入小空間內(nèi)。
- 歸一化:對(duì)原始數(shù)據(jù)線性變換并映射到**[0,1]**區(qū)間。
6.3.5 特征轉(zhuǎn)換方法
大數(shù)據(jù)的分析與處理通常需要收集大量的數(shù)據(jù),并對(duì)數(shù)據(jù)的多維特征進(jìn)行分析。但是數(shù)據(jù)的特征維數(shù)越多,其分析處理的工作量和難度也就越大。
利用特征之間的相關(guān)性提出了許多優(yōu)秀的特征轉(zhuǎn)換方法:如主成分分析(PCA),線性判別分析(LDA)等。
PCA算法的缺點(diǎn):主成分各個(gè)特征維度的含義具有一定的模糊性,不如原始樣本特征的解釋性強(qiáng)。
LDA算法缺點(diǎn):
- LDA不適合對(duì)非高斯分布樣本進(jìn)行降維,上述PCA也存在相同問(wèn)題;
- LDA降維最多降到類別數(shù)k-1的維數(shù),如果降維的維度大于k-1,則不能使用LDA;
- LDA在樣本分類信息依賴方差而不是均值的時(shí)候,降維效果不好;
- LDA可能過(guò)度擬合數(shù)據(jù)。
6.3.6 特征選擇方法
“數(shù)據(jù)和特征決定了機(jī)器學(xué)習(xí)的上限,而模型和算法只是逼近這個(gè)上限而已。
特征選擇:給定n個(gè)特征,搜索其中包括k(k<n)個(gè)特征的子集來(lái)改善機(jī)器學(xué)習(xí)的性能,是從原始數(shù)據(jù)中選擇最優(yōu)特征的過(guò)程。
特征選擇方法:過(guò)濾法——給定n個(gè)特征,搜索其中包括k(k<n)個(gè)特征的子集來(lái)改善機(jī)器學(xué)習(xí)的性能,是從原始數(shù)據(jù)中選擇最優(yōu)特征的過(guò)程。
包裹法:確定模型和評(píng)價(jià)準(zhǔn)則之后,根據(jù)目標(biāo)函數(shù)每次選擇或排除若干特征,直到選擇出最佳的子集。
嵌入法:在確定模型的過(guò)程中,將特征選擇和訓(xùn)練過(guò)程融為一體,作為學(xué)習(xí)算法的一部分挑選出對(duì)模型訓(xùn)練有重要意義的特征。
第七章 大數(shù)據(jù)分析工程實(shí)踐
略。
總結(jié)
以上是生活随笔為你收集整理的大数据思维与技术——中国大学MOOC课程笔记的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 在PEA上海做演讲主题:大型、高负载网站
- 下一篇: Fact Table and Dimen