生活随笔
收集整理的這篇文章主要介紹了
大数据与数据挖掘
小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
一、緒論
大數(shù)據(jù)核心問(wèn)題? ? 數(shù)據(jù)整合(獲取有用數(shù)據(jù))、可視化(數(shù)據(jù)顯示)、海量數(shù)據(jù)處理、算法不是隨機(jī)是全體,不是精確是混雜,不是因果是關(guān)系大數(shù)據(jù)至今尚無(wú)確切和統(tǒng)一的定義。信息資產(chǎn)。4V:體量大、種類多、速度快、價(jià)值高發(fā)展三大要素:算數(shù)(數(shù)據(jù)量)、算力、算法云計(jì)算既是計(jì)算模式也是商業(yè)模式。大數(shù)據(jù)應(yīng)用:優(yōu)化流程、滿足客戶服務(wù)、提高體育成績(jī)、醫(yī)療、金融、改善安全、優(yōu)化機(jī)器和設(shè)備性能數(shù)據(jù)采集、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)處理、數(shù)據(jù)分析、數(shù)據(jù)應(yīng)用。軟件是用出來(lái)的。大數(shù)據(jù)時(shí)代安全:同態(tài)加密簡(jiǎn)介。先運(yùn)算加密和先加密后運(yùn)算結(jié)果一樣。有數(shù)據(jù)的人不算,能算的人沒(méi)數(shù)據(jù)。
二、大數(shù)據(jù)處理與分析
大數(shù)據(jù)架構(gòu):數(shù)據(jù)源、運(yùn)維中心、數(shù)據(jù)平臺(tái)、數(shù)據(jù)服務(wù)核心技術(shù):數(shù)據(jù)挖掘算法,分部署數(shù)據(jù)庫(kù)數(shù)據(jù)采集來(lái)源:日志、網(wǎng)絡(luò)信息、規(guī)范的數(shù)據(jù)源
三、大數(shù)據(jù)主流技術(shù)
非結(jié)構(gòu):hadoop-->新型數(shù)據(jù)庫(kù),價(jià)值高,密度低云數(shù)據(jù)庫(kù):分布式、并行、效用。按需自取,按量計(jì)費(fèi)。馬云-動(dòng)物,華為-中國(guó)文化。java在C以后。linux集群,架構(gòu)相對(duì)單一。高性能計(jì)算,并行,文件系統(tǒng),隱藏底層細(xì)節(jié),因式分解,合并同類項(xiàng)。storm不是批量大量數(shù)據(jù),而是實(shí)時(shí)計(jì)算少量數(shù)據(jù)。RDD:彈性與延遲制造。圖計(jì)算,七橋問(wèn)題。大數(shù)據(jù)計(jì)算:最短路徑、傳播影響力、潛在用戶挖掘、信息安全。
四、數(shù)據(jù)挖掘
利用過(guò)去歷史數(shù)據(jù),統(tǒng)計(jì)分析方法延伸,技術(shù)結(jié)合,分析預(yù)測(cè)。數(shù)據(jù)挖掘目的就是從數(shù)據(jù)中淘金,從數(shù)據(jù)中獲取智能的過(guò)程。數(shù)據(jù)挖掘是一門(mén)交叉跨界和融合的學(xué)科。數(shù)據(jù)挖掘的十方法:? ? 基于歷史的分析:找出相似的案例,結(jié)合函數(shù)預(yù)測(cè)將相似的屬性結(jié)合起來(lái)? ? 購(gòu)物籃分析:關(guān)聯(lián)規(guī)則反應(yīng)一個(gè)事物和另一個(gè)事物的相關(guān)性? ? 決策樹(shù):二叉樹(shù)演化? ? 遺傳算法:模擬細(xì)胞演化過(guò)程。? ? 聚類分析:找出未知相似群體。? ? 連接分析:以關(guān)系為主題。? ? 聯(lián)機(jī)分析處理:? ? 神經(jīng)網(wǎng)絡(luò):重復(fù)學(xué)習(xí)的方法。卷積神經(jīng)網(wǎng)絡(luò):網(wǎng)絡(luò)會(huì)對(duì)數(shù)據(jù)分類。? ? 判別分析:因變量和自變量? ? 羅杰斯回歸分析:非預(yù)測(cè)是否發(fā)生,而是概率。常見(jiàn)數(shù)據(jù)挖掘功能:關(guān)聯(lián),分類,預(yù)測(cè),聚類關(guān)聯(lián)規(guī)則:設(shè)置優(yōu)化關(guān)聯(lián)規(guī)則,關(guān)聯(lián)規(guī)則挖掘,挖掘規(guī)則分析,挖掘規(guī)則結(jié)果,結(jié)束。支持度:買A的同時(shí)買B。置信度:包含AB的事物數(shù)。回歸分析:最小二乘法。洛基撕回歸分類方法:樣本,訓(xùn)練,模型,預(yù)測(cè),評(píng)價(jià),結(jié)果,模型預(yù)測(cè),結(jié)束。決策樹(shù)算法:香農(nóng)信息焓:單調(diào),非負(fù)性,累加性神經(jīng)網(wǎng)絡(luò)算法:單層感知機(jī)。第一層顏色紋理,第二層布紋,刻度,葉紋。三層燭光,四層動(dòng)物,五層屋頂鍵盤(pán)聚類,數(shù)值歸一化,聚類要素距離計(jì)算。
五、案例
一網(wǎng)通辦:數(shù)據(jù)打通、健康碼用戶大數(shù)據(jù)畫(huà)像:數(shù)據(jù)轉(zhuǎn)化商業(yè)價(jià)值的問(wèn)題,從海量數(shù)據(jù)中挖掘煉金。中國(guó)人口變化大數(shù)據(jù)。大數(shù)據(jù)輿情分析。
?
如需課件資料請(qǐng)留下郵箱或者私信。
總結(jié)
以上是生活随笔為你收集整理的大数据与数据挖掘的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。