當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

大数据思维与技术——中国大学MOOC课程笔记

發(fā)布時(shí)間：2023/12/10 编程问答 57 豆豆

生活随笔收集整理的這篇文章主要介紹了大数据思维与技术——中国大学MOOC课程笔记小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

大數(shù)據(jù)思維與技術(shù)——中國(guó)大學(xué)MOOC課程筆記

第一章大數(shù)據(jù)思維與技術(shù)認(rèn)知

0 一些例子

總之大數(shù)據(jù)分析現(xiàn)在已經(jīng)存在于方方面面。但事實(shí)上，其首次提出僅僅是20世紀(jì)90年代，而直到2011年6月，美國(guó)麥肯錫全球研究院發(fā)布了題為《大數(shù)據(jù)：下一個(gè)創(chuàng)新、競(jìng)爭(zhēng)和生產(chǎn)力的前沿》的研究報(bào)告，“大數(shù)據(jù)（BIG DATA）”一詞才真正“熱”起來(lái)。

1 一些概念和想法

大數(shù)據(jù)的定義是：規(guī)模龐大、類型眾多、變化速度快、價(jià)值密度低的數(shù)據(jù)集合。

大數(shù)據(jù)分析流程一般包括：大數(shù)據(jù)采集、導(dǎo)入和預(yù)處理、統(tǒng)計(jì)和分析、挖掘。
大數(shù)據(jù)算法存在很多問(wèn)題，例如過(guò)擬合和虛假信息的識(shí)別。

2 核心架構(gòu)與分析計(jì)算模式

Hadoop是Apachc軟件基金會(huì)旗下的一個(gè)開(kāi)源分布式計(jì)算平臺(tái)，為用戶提供系統(tǒng)層細(xì)節(jié)透明的分布式基礎(chǔ)架構(gòu)。Hadoop的核心是分布式文件系統(tǒng)HDFS（Hadoop Distributed File System）和MapReduce.
國(guó)內(nèi)采用Hadoop的公司主要有百度、淘寶、網(wǎng)易、華為、中國(guó)移動(dòng)等，其中中，淘寶的Hadoop集群比較大。
HDFS可以利用由廉價(jià)硬件構(gòu)成的計(jì)算機(jī)集群實(shí)現(xiàn)海量數(shù)據(jù)的分布式存儲(chǔ)。塊是HDFS核心的概念，一個(gè)大的文件會(huì)拆分成很多個(gè)塊。HDFS采用抽象的塊概念，具有支持大規(guī)模文件存儲(chǔ)、簡(jiǎn)化系統(tǒng)設(shè)計(jì)、適合數(shù)據(jù)備份等優(yōu)點(diǎn)。
Spark最初由美國(guó)加州伯克利大學(xué)（UCBerkeley）的AMP實(shí)驗(yàn)室于2009年開(kāi)發(fā)，是基于內(nèi)存計(jì)算的大數(shù)據(jù)并行計(jì)算框架，可用于構(gòu)建大型的、低延遲的數(shù)據(jù)分析應(yīng)用程序。
**Spark支持R語(yǔ)言 **
Hive是一個(gè)構(gòu)建于Hadoop頂層的數(shù)據(jù)倉(cāng)庫(kù)工具，主要用于對(duì)存儲(chǔ)在Hadoop文件中的數(shù)據(jù)集進(jìn)行數(shù)據(jù)整理、牛特殊查詢和分析處理
Impala作為新一代開(kāi)源大數(shù)據(jù)分析引擎，支持實(shí)時(shí)計(jì)算，并在性能上比Hive高出3～30倍。【依賴HIVE元數(shù)據(jù)】

第二章大數(shù)據(jù)分析領(lǐng)域技術(shù)

1 自然語(yǔ)言處理

自然語(yǔ)言通常是指一種自然地隨文化演化的語(yǔ)言。是人類交際的工具，是人類思維的載體，以語(yǔ)音為物質(zhì)外殼，由詞匯和語(yǔ)法組成的符號(hào)系統(tǒng)。自然語(yǔ)言處理（Natural Language Processing，NLP）是實(shí)現(xiàn)人機(jī)間自然語(yǔ)言通信，使計(jì)算機(jī)能理解自然語(yǔ)言文本的意義和利用自然語(yǔ)言文本表達(dá)給定的意圖或思想。

2 自然語(yǔ)言處理的目標(biāo)和框架

框架語(yǔ)義FrameNet-知識(shí)庫(kù)
命題語(yǔ)義PropBank-知識(shí)庫(kù)
句義結(jié)構(gòu)模型CSM

3 自然語(yǔ)言處理關(guān)鍵技術(shù)

知識(shí)圖譜（Knowledge Graph）于2012年5月首次提出，是Google用于增強(qiáng)其搜索引擎功能的知識(shí)庫(kù)，本質(zhì)上，知識(shí)圖譜是旨在描述實(shí)體、概念、關(guān)系的圖結(jié)構(gòu)。

文本情感分析（也稱為意見(jiàn)挖掘）是指用自然語(yǔ)言處理，文本挖掘以及計(jì)算機(jī)語(yǔ)言學(xué)等方法來(lái)識(shí)別和提取原素材中的主觀信息。

4 其他例子

生物信息學(xué)：廣義的概念：應(yīng)用信息科學(xué)的方法和技術(shù)，研究生物體系和生物過(guò) 程中信息的存貯、信息的內(nèi)涵和信息的傳遞，研究和分析生物體細(xì) 胞、組織、器官的生理、病理、藥理過(guò)程中的各種生物信息 ? 狹義的概念：應(yīng)用信息科學(xué)的理論、方法和技術(shù)，管理、分析和利用生物分子數(shù)據(jù)，通過(guò)收集、組織、管理生物分子數(shù)據(jù)，獲得和使用相關(guān)信息；通過(guò)處理、分析、挖掘生物分子數(shù)據(jù)，得到深層次的生物學(xué)知識(shí)，加深對(duì)生物世界的認(rèn)識(shí)。

第三章大數(shù)據(jù)分析編程基礎(chǔ)

1 虛擬化

虛擬化，是指通過(guò)虛擬化技術(shù)將一臺(tái)計(jì)算機(jī)虛擬為多臺(tái)邏輯計(jì)算機(jī)。在一臺(tái)計(jì) 算機(jī)上同時(shí)運(yùn)行多個(gè)邏輯計(jì)算機(jī)，每個(gè)邏輯計(jì)算機(jī)可運(yùn)行不同的操作系統(tǒng)，并且應(yīng)用程序都可以在相互獨(dú)立的空間內(nèi)運(yùn)行而互不影響，從而顯著提高計(jì)算機(jī) 的利用效率。

2 VPS

VPS（Virtual Private Server虛擬專用服務(wù)器）。

VPS通常使用SSH軟件連接，例如 Xshell Putty。

3 Linux 基礎(chǔ)

linux系統(tǒng)一切都是文件，每個(gè)文件都有擁有者、用戶組、其他人三個(gè)權(quán)限。

ls -al 顯示目錄詳細(xì)信息
Vim 文本編輯器有正常模式、插入模式
Kali Linux
apt update 用來(lái)更新
- -apt 用來(lái)下載包
文件、目錄管理的常見(jiàn)命令

? man
- 搜索命令的相關(guān)文檔，https://linux.die.net/
? pwd
- 顯示終端的當(dāng)前路徑（工作路徑，working directory）
? mkdir
- 創(chuàng)建新的目錄
? rmdir
- 刪除一個(gè)空的目錄
? cp
- 復(fù)制文件或目錄
- mv
  - 移動(dòng)文件或目錄
  ? rm
  - 移除文件或目錄
  ? cd
  - 切換終端的當(dāng)前路徑
Vim編輯器
- vim有四個(gè)模式 - 正常模式（Normal-mode），用于瀏覽文件，此時(shí)敲擊鍵盤會(huì)觸發(fā)對(duì)應(yīng)的快捷鍵，而不會(huì)輸入文字，如按鍵盤上的“i”，就會(huì)進(jìn)入插入模式
- 命令模式（Command-mode），
  - 在正常模式下按“：”（注意是冒號(hào)，不是分號(hào)）
  ? 在此模式下可以輸入各種命令，如w保存文件，wq保存文件并退出， wq！寫文件并強(qiáng)制退出
- 可視模式（Visual-mode），
  - 在正常模式按下v，可以進(jìn)入可視模式。可視模式中的操作有點(diǎn)像拿鼠標(biāo)進(jìn) 行操作，選擇文本的時(shí)候有一種鼠標(biāo)選擇的即視感，有時(shí)候會(huì)很方便，如復(fù)制大段文字。
- vim的常用命令
  
  ? 復(fù)制粘貼
  - 單行文字的復(fù)制和粘貼
  ? 正常模式下按yy為復(fù)制，按p為粘貼
  - 多行文字的復(fù)制和粘貼
  ? 在可視模式下按y為復(fù)制，在正常模式下按p為粘貼
  - 使用命令模式進(jìn)行復(fù)制和粘貼
  ? 刪除
  - 在正常模式下按dd刪除當(dāng)前行
  - 查找
    - 在normal模式下按下/即可進(jìn)入查找模式，輸入要查找的字符串并按下回車。Vim會(huì)跳轉(zhuǎn)到第一個(gè)匹配。按n查找下一個(gè)，按N查找上一個(gè)
    - 支持正則表達(dá)式
  - 替換
    - 在命令模式下輸入以下指令
    - 作用范圍s/目標(biāo)/替換/替換標(biāo)志
    - :%s/abc/def/g，在全局范圍內(nèi)查找abc，并把所有的abc 替換為def
    - 作用范圍可以為某行、某個(gè)選區(qū)、全文
    - 替換標(biāo)志可以設(shè)置為
    ? 從光標(biāo)位置開(kāi)始，只替換一次
    
    ? 大小是否敏感
課程關(guān)于C語(yǔ)言、Python語(yǔ)言和Java的介紹不在此列舉。

第四章大數(shù)據(jù)分析計(jì)算方法

1機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)是一門致力于研究如何通過(guò)計(jì)算的手段，利用經(jīng)驗(yàn)改善系統(tǒng)自身的性能的多領(lǐng)域交叉性學(xué)科。

1.1監(jiān)督學(xué)習(xí)

利用已知類別的樣本調(diào)整模型的參數(shù)，使其達(dá)到所要求性能的學(xué)習(xí)過(guò)程。

監(jiān)督學(xué)習(xí)中常見(jiàn)的模型是回歸模型和分類模型。

1.2無(wú)監(jiān)督學(xué)習(xí)

利用未知類別的樣本調(diào)整模型的參數(shù)，使其達(dá)到所要求性能的學(xué)習(xí)過(guò)程。

無(wú)監(jiān)督學(xué)習(xí)常見(jiàn)的模型是聚類模型。

1.3強(qiáng)化學(xué)習(xí)

智能體在與環(huán)境的連續(xù)互動(dòng)中學(xué)習(xí)最優(yōu)行為策略的學(xué)習(xí)過(guò)程。

強(qiáng)化學(xué)習(xí)是智能體在環(huán)境的聯(lián)系互動(dòng)中學(xué)習(xí)最優(yōu)行為策略。

1.4模型評(píng)估

根據(jù)模型在未知樣本上進(jìn)行的實(shí)驗(yàn)和測(cè)試的結(jié)果，評(píng)估模型的泛化能力和誤差并進(jìn)行選擇的過(guò)程被稱為模型評(píng)估。

過(guò)擬合：當(dāng)模型將訓(xùn)練樣本自身的一些特性當(dāng)作了所有潛在樣本的一般特性時(shí)，就會(huì)導(dǎo)致模型泛化性能下降。

欠擬合：相對(duì)于過(guò)擬合，模型對(duì)訓(xùn)練樣本的一般特性尚未達(dá)到良好的學(xué)習(xí)效果，導(dǎo)致模型表現(xiàn)較差。

1.5模型訓(xùn)練

損失函數(shù)（loss function）是將隨機(jī)事件或其有關(guān)隨機(jī)變量的取值映射為非負(fù)實(shí)數(shù)以表示該隨機(jī)事件的 “損失”的函數(shù)。包括絕對(duì)損失函數(shù)和平方損失函數(shù)以及0-1損失函數(shù)。

梯度下降法(gradient descent)是一個(gè)優(yōu)化算法，在機(jī)器學(xué)習(xí)的訓(xùn)練中，常用于遞歸性地逼近最小誤差模型。其計(jì)算過(guò)程是沿梯度下降的方向求解極小值（也可以沿梯度上升方向求解極大值）。

1.6性能度量

性能度量即衡量模型泛化能力的評(píng)價(jià)標(biāo)準(zhǔn)。

2 監(jiān)督學(xué)習(xí)

監(jiān)督學(xué)習(xí)是訓(xùn)練數(shù)據(jù)有標(biāo)記信息，無(wú)監(jiān)督學(xué)習(xí)是訓(xùn)練數(shù)據(jù)沒(méi)有標(biāo)記信息。

回歸問(wèn)題是預(yù)測(cè)值為連續(xù)值，分類問(wèn)題是預(yù)測(cè)值為離散值。

2.1 線性回歸

單變量線性回歸：輸入屬性只有一個(gè)，即一元問(wèn)題；

多變量線性回歸：輸入屬性有多個(gè)，即多元問(wèn)題。

邏輯回歸用來(lái)解決分類問(wèn)題。即分類任務(wù)，將分類任務(wù)的真實(shí)標(biāo)記與線性回歸模型的預(yù)測(cè)值聯(lián)系。

2.2 樸素貝葉斯

貝葉斯決策論

在不完全情報(bào)下，對(duì)部分未知的狀態(tài)用主觀概率估計(jì)(先驗(yàn)概率)，然后用貝葉斯公式對(duì)發(fā)生概率進(jìn)行修正（后驗(yàn)概率），最后再利用期望值和修正概率做出最優(yōu)決策。

貝葉斯分類器

概率框架下的統(tǒng)計(jì)學(xué)習(xí)分類器，對(duì)分類任務(wù)而言，假設(shè)在相關(guān)概率都已知的情況下，貝葉斯分類器考慮如何基于這些概率為樣本判定最優(yōu)的類標(biāo)。

樸素貝葉斯

基于貝葉斯定理與特征條件獨(dú)立假設(shè)的貝葉斯分類方法。

2.3 決策樹(shù)

在機(jī)器學(xué)習(xí)中，決策樹(shù)代表對(duì)象屬性與對(duì)象值之間的一種映射關(guān)系。決策樹(shù)算法采用樹(shù)形結(jié)構(gòu)，通過(guò)層層決策來(lái)實(shí)現(xiàn)最終的分類。

2.4 支持向量機(jī)

按監(jiān)督學(xué)習(xí)**(supervised learning)方式對(duì)數(shù)據(jù)進(jìn)行二元分類的廣義線性分類器。其決策邊界是根據(jù)學(xué)習(xí)樣本求解的最大間隔超平面(maximum-margin hyperplane)**

2.5 KNN算法

KNN(K-Nearest Neighbor)，K鄰近算法，一種基本的分類與回歸方法。

3 無(wú)監(jiān)督學(xué)習(xí)

3.1 聚類

聚類是無(wú)監(jiān)督學(xué)習(xí)的一個(gè)領(lǐng)域，將物理或抽象對(duì)象的集合分成由類似的對(duì)象組成的多個(gè)類的過(guò)程被稱為聚類。其靈感來(lái)源于人類對(duì)未知事物的探索，通過(guò)“物以類聚，人以群分”的思想，將相似的事物聚集在一起，主要包含原型聚類、層次聚類和密度聚類。

原型聚類（prototype-based clustering）指基于原型的聚類，此類算法假設(shè)聚類結(jié)構(gòu)可以通過(guò)一組原型刻畫。

層次聚類（hierarchical clustering）在不同層次上對(duì)數(shù)據(jù)進(jìn)行劃分。- 層次聚類算法主要分為基于凝聚策略的算法和基于分裂策略的算法。

密度聚類：基于密度的聚類算法是一類以數(shù)據(jù)集在空間分布上的稠密程度為依據(jù)進(jìn)行聚類的算法。

3.2 主成分分析

主成分分析是對(duì)于原先提出的所有變量，將重復(fù)的變量(關(guān)系緊密的變量)刪去多余，建立盡可能少的新變量，使得新變量之間互不相關(guān)。而且在反映課題的信息方面，這些新變量盡可能保持原有的信息不減少。

設(shè)法將原來(lái)變量重新組合成一組新的互相無(wú)關(guān)的幾個(gè)綜合變量，同時(shí)根據(jù)實(shí)際需要從中可以取出幾個(gè)較少的綜合變量盡可能多地反映原來(lái)變量的信息的統(tǒng)計(jì)方法叫做主成分分析**(Principal** Component Analysis，PCA**)**或稱主分量分析，也是數(shù)學(xué)上用來(lái)降維的一種方法。

3.3 關(guān)聯(lián)規(guī)則學(xué)習(xí)

關(guān)聯(lián)規(guī)則(Association Rules)是反映一個(gè)事物與其他事物之間的相互依存性和關(guān)聯(lián)性，是數(shù)據(jù)挖掘的一個(gè)重要技術(shù)，用于從大量數(shù)據(jù)中挖掘出有價(jià)值的數(shù)據(jù)項(xiàng)之間的相關(guān)關(guān)系。

4 集成學(xué)習(xí)

集成學(xué)習(xí)是一種機(jī)器學(xué)習(xí)范式，思路是通過(guò)構(gòu)建并結(jié)合多個(gè)學(xué)習(xí)器（通常稱為個(gè)體學(xué)習(xí)器）來(lái)完成學(xué)習(xí)任務(wù)。

Boosting 是一族可將弱學(xué)習(xí)器（準(zhǔn)確率在60%-80%）提升為強(qiáng)學(xué)習(xí)器（準(zhǔn)確率在 **90%**以上）的算法。

AdaBoost 主要應(yīng)用于二分類問(wèn)題。

Bagging 是一種個(gè)體學(xué)習(xí)器之間不存在強(qiáng)依賴關(guān)系、可同時(shí)生成的并行式集成學(xué)習(xí)方法。

隨機(jī)森林**(RF)是Bagging的擴(kuò)展體。RF在以決策樹(shù)為基學(xué)習(xí)器構(gòu)建Bagging**集成的基礎(chǔ)上，進(jìn)一步在決策樹(shù)的訓(xùn)練過(guò)程中引入了隨機(jī)屬性選擇。

Stacking 算法是一種有效的集成方法，它用不同的分類器產(chǎn)生的預(yù)測(cè)作為下一層學(xué)習(xí)算法的輸入,是一種分層模型集成框架。

5 深度學(xué)習(xí)

深度學(xué)習(xí)：為了學(xué)習(xí)一種好的表示，需要構(gòu)建具有一定“深度”的模型，并通過(guò)學(xué)習(xí)算法來(lái)讓模型自動(dòng)學(xué)習(xí)出好的特征表示（從底層特征，到中層特征，再到高層特征），從而最終提升預(yù)測(cè)模型的準(zhǔn)確率。為了提高機(jī)器學(xué)習(xí)系統(tǒng)的準(zhǔn)確率，我們就需要將輸入信息轉(zhuǎn)換為有效的特征，或者更一般性地稱為表示。如果有一種算法可以自動(dòng)地學(xué)習(xí)出有效的特征，并提高最終機(jī)器學(xué)習(xí)模型的性能，那么這種學(xué)習(xí)就可以叫作表示學(xué)習(xí)。

人工神經(jīng)網(wǎng)絡(luò)（Artificial Neural Network，ANN）是指一系列受生物學(xué)和神經(jīng)科學(xué)啟發(fā)的數(shù)學(xué)模型。這些模型主要是通過(guò)對(duì)人腦的神經(jīng)元網(wǎng)絡(luò)進(jìn)行抽象，構(gòu)建人工神經(jīng)元，并按照一定拓?fù)浣Y(jié)構(gòu)來(lái)建立人工神經(jīng)元之間的連接，來(lái)模擬生物神經(jīng)網(wǎng)絡(luò)。在人工智能領(lǐng)域，人工神經(jīng)網(wǎng)絡(luò)也常常簡(jiǎn)稱為神經(jīng)網(wǎng)絡(luò)（Neural Network，NN）或神經(jīng)模型（Neural Model）。
人工神經(jīng)元（Artificial Neuron），簡(jiǎn)稱神經(jīng)元（Neuron），是構(gòu)成神經(jīng)網(wǎng)絡(luò)的基本單元，其主要是模擬生物神經(jīng)元的結(jié)構(gòu)和特性，接收一組輸入信號(hào)并產(chǎn)生輸出。
前饋網(wǎng)絡(luò)中各個(gè)神經(jīng)元按接收信息的先后分為不同的組。每一組可以看作一個(gè)神經(jīng)層。每一層中的神經(jīng)元接收前一層神經(jīng)元的輸出，并輸出到下一層神經(jīng)元。整個(gè)網(wǎng)絡(luò)中的信息是朝一個(gè)方向傳播，沒(méi)有反向的信息傳播，可以用一個(gè)有向無(wú)環(huán)路圖表示。前饋網(wǎng)絡(luò)包括全連接前饋網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)等。
記憶網(wǎng)絡(luò)，也稱為反饋網(wǎng)絡(luò)，網(wǎng)絡(luò)中的神經(jīng)元不但可以接收其他神經(jīng)元的信息，也可以接收自己的歷史信息。和前饋網(wǎng)絡(luò)相比，記憶網(wǎng)絡(luò)中的神經(jīng)元具有記憶功能，在不同的時(shí)刻具有不同的狀態(tài)。記憶神經(jīng)網(wǎng)絡(luò)中的信息傳播可以是單向或雙向傳遞，因此可用一個(gè)有向循環(huán)圖或無(wú)向圖來(lái)表示。記憶網(wǎng)絡(luò)包括循環(huán)神經(jīng)網(wǎng)絡(luò)、玻爾茲曼機(jī)（受限玻爾茲曼機(jī)）等。
圖網(wǎng)絡(luò)是定義在圖結(jié)構(gòu)數(shù)據(jù)上的神經(jīng)網(wǎng)絡(luò)，圖中每個(gè)節(jié)點(diǎn)都由一個(gè)或一組神經(jīng)元構(gòu)成。節(jié)點(diǎn)之間的連接可以是有向的，也可以是無(wú)向的。每個(gè)節(jié)點(diǎn)可以收到來(lái)自相鄰節(jié)點(diǎn)或自身的信息。圖網(wǎng)絡(luò)是前饋網(wǎng)絡(luò)和記憶網(wǎng)絡(luò)的泛化，包含很多不同的實(shí)現(xiàn)方式，比如圖卷積網(wǎng)絡(luò)（Graph Convolutional Network，GCN）、圖注意力網(wǎng)絡(luò)（Graph Attention Network，GAT）等。
卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Networks，CNN）一般是由卷積層、匯聚層和全連接層交叉堆疊而成的深層前饋神經(jīng)網(wǎng)絡(luò)。
循環(huán)神經(jīng)網(wǎng)絡(luò)（Recurrent Neural Network，RNN）是一類具有短期記憶能力的神經(jīng)網(wǎng)絡(luò)。在循環(huán)神經(jīng)網(wǎng)絡(luò)中，神經(jīng)元不但可以接受其他神經(jīng)元的信息，也可以接受自身的信息，形成具有環(huán)路的網(wǎng)絡(luò)結(jié)構(gòu)。
生成式對(duì)抗網(wǎng)絡(luò) GAN 是一種特殊的生成模型。- 由兩部分主成：生成器G / 判別器D，生成器和判別器之間的一個(gè)對(duì)抗游戲。生成器用一隨機(jī)噪聲向量z盡量去捕捉真實(shí)樣本數(shù)據(jù)的分布，判別器是一個(gè)二分類器，判別輸入是真實(shí)數(shù)據(jù)還是生成的樣本。當(dāng)對(duì)抗過(guò)程進(jìn)行到一定程度，如果生成器所生成的數(shù)據(jù)，能夠使具有很強(qiáng)分辨能力的判別器仍無(wú)法正確判斷，生成器實(shí)際上已經(jīng)學(xué)到了真實(shí)數(shù)據(jù)的分布。

6 強(qiáng)化學(xué)習(xí)

強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)中的一個(gè)領(lǐng)域，強(qiáng)調(diào)如何基于環(huán)境而行動(dòng)，以取得最大化的預(yù)期利益。其靈感來(lái)源于心理學(xué)中的行為主義理論，即有機(jī)體如何在環(huán)境給予的獎(jiǎng)勵(lì)或懲罰的刺激下，逐步形成對(duì)刺激的預(yù)期，產(chǎn)生能獲得最大利益的習(xí)慣性行為。

第五章大數(shù)據(jù)分析計(jì)算平臺(tái)

5.1 虛擬化技術(shù)

按虛擬的抽象層次不同，可以分為：

- 指令級(jí)虛擬化

- 硬件級(jí)虛擬化

- 操作系統(tǒng)級(jí)虛擬化

- 編程語(yǔ)言級(jí)虛擬化

- 程序庫(kù)級(jí)虛擬化.

虛擬機(jī)：在硬件平臺(tái)上模擬出的多個(gè)獨(dú)立、ISA結(jié)構(gòu)和實(shí)際CPU相同的虛擬硬件系統(tǒng)。
虛擬機(jī)監(jiān)視器：位于計(jì)算機(jī)硬件和操作系統(tǒng)之間。根據(jù)VMM在整個(gè)系統(tǒng)中的所處位置，可以將VMM分為獨(dú)立監(jiān)控模式、宿主模式

和混合模式

虛擬化技術(shù)的應(yīng)用

5.2 GPU

GPU的特性：

- 算術(shù)邏輯單元多，任務(wù)執(zhí)行高并行

- 控制邏輯簡(jiǎn)單，運(yùn)行環(huán)境簡(jiǎn)單純凈

- 顯存讀寫速度快，處理數(shù)據(jù)規(guī)模龐大

5.3 其他大數(shù)據(jù)分析計(jì)算平臺(tái)

包括Spark平臺(tái)、Hadoop平臺(tái)、Flink品臺(tái)、ssh安裝配置、JDK安裝等。

第六章大數(shù)據(jù)分析特征工程

6.1 概念解析

特征工程是把一個(gè)原始數(shù)據(jù)轉(zhuǎn)變?yōu)樘卣鞯倪^(guò)程，這些特征能夠很好地描述這些數(shù) 據(jù)，并且利用它們建立的模型，可以使得在未知數(shù)據(jù)上的表現(xiàn)接近最佳性能。

特征工程簡(jiǎn)介步驟：特征獲取——特征處理——特征監(jiān)控

特征工程，就是將數(shù)據(jù)屬性轉(zhuǎn)換為數(shù)據(jù)特征的過(guò)程。

定性數(shù)據(jù)，指研究中使用的文字資料，是由文本的詞語(yǔ)、句子組成的材料。

- 任何文字資料都可以用作研究的定性數(shù)據(jù)，如小說(shuō)、期刊、論文、演講詞、作文等。

? 定性數(shù)據(jù)分為以下兩個(gè)等級(jí)：

- 定類等級(jí)：按事物某種屬性分類或分組，可用數(shù)字代表類別，但不能進(jìn)行大小比較，不能做四則運(yùn)算；

- 定序等級(jí)：按事物某種屬性分類或分組，可用數(shù)字代表類別，可進(jìn)行大小比較，但不能做四則運(yùn)算。

定量數(shù)據(jù)，能夠用數(shù)據(jù)或統(tǒng)一的結(jié)構(gòu)加以表示的信息，如數(shù)字、符號(hào)。

- 包括信用卡號(hào)碼、日期、財(cái)務(wù)金額、電話號(hào)碼、地址、產(chǎn)品名稱等。

? 定量數(shù)據(jù)分為以下兩個(gè)等級(jí)：

- 定距等級(jí)：既能比較各類事物的優(yōu)劣，又能計(jì)算出事物間差異的大小，表現(xiàn)為數(shù)值，沒(méi)有絕對(duì)零點(diǎn)，可做加減運(yùn)算，不能做乘除運(yùn)算；

- 定比等級(jí)：既能比較各類事物的優(yōu)劣，又能計(jì)算出事物間差異的大小，表現(xiàn)為數(shù)值，有絕對(duì)零點(diǎn)，可做加、減、乘、除運(yùn)算。

6.2 數(shù)據(jù)清洗

數(shù)據(jù)采樣

現(xiàn)實(shí)的分類學(xué)習(xí)任務(wù)中存在：樣本總數(shù)過(guò)多無(wú)法全部用于訓(xùn)練的問(wèn)題；不同類別的訓(xùn)練樣本數(shù)目差別很大的類別不平衡問(wèn)題。

數(shù)據(jù)采樣是從樣本總體中選取合適數(shù)量和比例的樣本用于分類器訓(xùn)練的方法

簡(jiǎn)單隨機(jī)采樣：在確定好研究對(duì)象的總體后，往往由于成本和資源的限制，需要抽取部分樣本進(jìn)一步研究。常用的抽樣方法有隨機(jī)采樣和分層采樣。
系統(tǒng)采樣：因此將總體按照某一標(biāo)志（如時(shí)間）順序排列或者隨機(jī)進(jìn)行編號(hào)，分成數(shù)量相等的組，使組數(shù)與取樣數(shù)相等，然后從每組中按照事先確定的次序抽取個(gè)體，這樣的抽樣方法稱為系統(tǒng)采樣
分層采樣：分層采樣是按對(duì)主要研究指標(biāo)影響較大的某種特征，將總體分為若干類別（統(tǒng)計(jì)上稱為“層”），再?gòu)拿恳粚觾?nèi)隨機(jī)抽取一定數(shù)量的觀察單位，合起來(lái)組成樣本
欠采樣：欠采樣通過(guò)減少樣本數(shù)量提高類別間平衡性
過(guò)采樣：過(guò)采樣通過(guò)模擬或補(bǔ)充額外數(shù)據(jù)提高類別間平衡性

缺失值處理

若出現(xiàn)缺失值的特征或樣本僅包含極少量有效值，則將包含缺失值數(shù)據(jù)的列或者行從數(shù)據(jù)中刪除。

數(shù)據(jù)填充方法通常基于統(tǒng)計(jì)學(xué)原理，根據(jù)當(dāng)前缺失值所在特征的其他非缺失特征

值的分布情況來(lái)進(jìn)行填充，分為以下幾類- 人工填充- 平均值填充- 熱卡填充- KNN填充- 期望最大化填充- 多重插補(bǔ)。

熱卡填充：在完整數(shù)據(jù)中找到一個(gè)與它最相似的對(duì)象，然后用這個(gè)相似對(duì)象的值來(lái)進(jìn)行填充

6.3 特征處理

6.3.1 類別特征處理

類別型特征主要是指只有在選項(xiàng)內(nèi)取值的特征。

序列編碼通常用于處理類別間具有大小關(guān)系的數(shù)據(jù)。

6.3.2 數(shù)值特征處理

歸一化（Normalization），它是將特征（或者數(shù)據(jù)）都縮放到一個(gè)指定的大致相同的數(shù)值區(qū)間內(nèi)。

均值方差歸一化是把數(shù)據(jù)通過(guò)方差縮放處理，得到均值為0，方差為1的數(shù)值分布。

連續(xù)屬性的離散化，就是將連續(xù)屬性的值域劃分為若干個(gè)離散的區(qū)間。

6.3.3 文本特征處理

文本特征處理包含文本的表示及其特征項(xiàng)的處理。

統(tǒng)計(jì)方法有詞袋模型、詞頻統(tǒng)計(jì)等。

6.3.4 標(biāo)準(zhǔn)化歸一化

標(biāo)準(zhǔn)化與歸一化的區(qū)別？

標(biāo)準(zhǔn)化：按比例縮放數(shù)據(jù)，使之落入小空間內(nèi)。
歸一化：對(duì)原始數(shù)據(jù)線性變換并映射到**[0,1]**區(qū)間。

6.3.5 特征轉(zhuǎn)換方法

大數(shù)據(jù)的分析與處理通常需要收集大量的數(shù)據(jù)，并對(duì)數(shù)據(jù)的多維特征進(jìn)行分析。但是數(shù)據(jù)的特征維數(shù)越多，其分析處理的工作量和難度也就越大。

利用特征之間的相關(guān)性提出了許多優(yōu)秀的特征轉(zhuǎn)換方法：如主成分分析(PCA)，線性判別分析(LDA)等。

PCA算法的缺點(diǎn)：主成分各個(gè)特征維度的含義具有一定的模糊性，不如原始樣本特征的解釋性強(qiáng)。

LDA算法缺點(diǎn)：

- LDA不適合對(duì)非高斯分布樣本進(jìn)行降維，上述PCA也存在相同問(wèn)題；

- LDA降維最多降到類別數(shù)k-1的維數(shù)，如果降維的維度大于k-1，則不能使用LDA；

- LDA在樣本分類信息依賴方差而不是均值的時(shí)候，降維效果不好；

- LDA可能過(guò)度擬合數(shù)據(jù)。

6.3.6 特征選擇方法

“數(shù)據(jù)和特征決定了機(jī)器學(xué)習(xí)的上限，而模型和算法只是逼近這個(gè)上限而已。

特征選擇：給定n個(gè)特征，搜索其中包括k（k<n）個(gè)特征的子集來(lái)改善機(jī)器學(xué)習(xí)的性能，是從原始數(shù)據(jù)中選擇最優(yōu)特征的過(guò)程。

特征選擇方法：過(guò)濾法——給定n個(gè)特征，搜索其中包括k（k<n）個(gè)特征的子集來(lái)改善機(jī)器學(xué)習(xí)的性能，是從原始數(shù)據(jù)中選擇最優(yōu)特征的過(guò)程。

包裹法：確定模型和評(píng)價(jià)準(zhǔn)則之后，根據(jù)目標(biāo)函數(shù)每次選擇或排除若干特征，直到選擇出最佳的子集。

嵌入法：在確定模型的過(guò)程中，將特征選擇和訓(xùn)練過(guò)程融為一體，作為學(xué)習(xí)算法的一部分挑選出對(duì)模型訓(xùn)練有重要意義的特征。

第七章大數(shù)據(jù)分析工程實(shí)踐

略。

總結(jié)

以上是生活随笔為你收集整理的大数据思维与技术——中国大学MOOC课程笔记的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：在PEA上海做演讲主题：大型、高负载网站
下一篇： Fact Table and Dimen