日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【云端大数据实战】大数据误区、大数据处理步骤分析

發布時間:2025/4/5 编程问答 27 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【云端大数据实战】大数据误区、大数据处理步骤分析 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

1.背景

? ? ?? ? ? ??首先感謝這次博客的主辦方CSDN以及在初賽為我投票的網友們,你們的支持是Garvin前進的動力。本文思路的依據來源于本次天貓大數據競賽長達三個月的參賽體驗。博主作為一個在校的學生,可能如果不是這次比賽,很難能夠擁有一套完整的云環境來對TB級的數據進行分析和實踐。下面是博主的一點心得,在此拋磚引玉,希望能給大家在云端大數據處理方面帶來一點啟示。


2.對于大數據和云的一些誤區

?

? (1)誤區一:云的計算能力是無窮的,不用考慮效率?

? ? ?? ? ? ? ?我們都知道,云計算的本質就是分布式計算,將現有的工作量,分割開來讓n個不同的服務器協同完成。說白了云計算的計算能力雖然比我們的pc有優越許多,但是它是有計算成本的。當我們處理TB級數據的時候,我們還是盡量要考慮一下效率,否則會陷入漫長的等待。 ps:博主參加比賽的時候,因為一開始沒有使用抽樣算法,將整個訓練集拿去訓練,占用了大量的資源,常常一等就是24小時。

?

? ?(2)誤區二:數據量越大,預測效果越好?

? ? ?

? ? ? ?大數據計算,顧名思義。就是需要一個很大的數據量,通過一些算法,找到它們和目標序列的特定規則和聯系。這就容易造成一個誤區,是不是數據量越大,結果準確。其實對于推薦系統來講,當我們使用隨機森林或是gbrt這些算法的時候,數據集在幾百萬的時候往往能得到比數據集在幾千萬的時候更好的計算效果。因為對于一個算法來講,如果數據集過大,容易造成過擬合。

? ? ? ?所以在面對一個真正的大數據集的時候,不要盲目的拿來全部訓練,做好抽樣和正負樣本的比例調整,可能會得到更好的效果。?

??

? (3)誤區三: 算法的參數是一成不變的? ? ????

? ? ? ? ? ? ? ??在對大數據進行處理的時候,我們往往使用一些已經比較成熟的算法。例如常用的分類算法有svm(支持向量機)、rf(隨機森林)、lr(邏輯回歸)等等。在使用這些算法的時候往往要面對一個比較頭疼的問題就是調參。是否能調到一個理想的參數,對于最后的計算結果有著至關重要的作用。 ? ? ??對于參數,我覺得沒有最好的參數,只有最合適的參數。不要迷信論文或是網上的一些評論,如果你的訓練集是獨一無二的,就要靜下心來,認真調試最適合自己的參數。影響一個算法的參數的因素很多,包括樣本數量或是正負樣本比例等。 ? ? ?? ? (4)誤區四:特征越多越好么? ? ? ?? ? ? ??特征重在質量而不是數量,好的特征對于結果的影響可能會比普通特征大100倍,所以千萬不要隨便的組合數據集的一些字段。有的時候一些不好的特征,會對結果產生消極的影響。區分特征對與結果的影響的方法有很多,下面給一個信息熵的方法: def chooseBestFeatureToSplit(dataSet):numFeatures = len(dataSet[0]) - 1 #the last column is used for the labelsbaseEntropy = calcShannonEnt(dataSet)bestInfoGain = 0.0; bestFeature = -1for i in range(numFeatures): #iterate over all the featuresfeatList = [example[i] for example in dataSet]#create a list of all the examples of this featureuniqueVals = set(featList) #get a set of unique valuesnewEntropy = 0.0for value in uniqueVals:subDataSet = splitDataSet(dataSet, i, value)prob = len(subDataSet)/float(len(dataSet))newEntropy += prob * calcShannonEnt(subDataSet) infoGain = baseEntropy - newEntropy #calculate the info gain; ie reduction in entropyif (infoGain > bestInfoGain): #compare this to the best gain so farbestInfoGain = infoGain #if better than current best, set to bestbestFeature = ireturn bestFeature #returns an integer

3.大數據云處理步驟

? ? ? (1)首先要了解集成環境 ? ? ? ? ?? ? ? ? ? ? ?既然是大數據處理,那么一定是要有一個云環境作為依托。我覺得首先要了解自己的集成環境的基本使用方法,像是spark、hadoop或是odps,他們都有自己的特點。比如博主使用的odps,對于數據庫的處理可以用命令行執行sql語句,也可以用MapReduce的方法將寫好的jar文件放到云端處理。 ? ? ? ?(2)數據集去噪 ? ? ? ? ? ? ?對于一個比較大的數據集,肯定是存在一些噪聲部分影響我們的計算操作。將這部分噪音去掉可以保證計算結果的準確性。去噪的方法有很多,這里舉出一個常用的方法,就是將數值在 ? [均值- ?3倍方差,均值 + 3倍方差] 以外的數據濾掉。下面是我寫的一個實現以上去噪方法的代碼,執行DenoisMat函數可以實現此功能。 from __future__ import division def GetAverage(mat):n=len(mat)m= width(mat) num = [0]*mfor j in range(0,m): for i in mat:num[j]=num[j]+i[j] num[j]=num[j]/n return numdef width(lst):i=0for j in lst[0]:i=i+1return idef GetVar(average,mat): ListMat=[]for i in mat: ListMat.append(list(map(lambda x: x[0]-x[1], zip(average, i))))n=len(ListMat)m= width(ListMat) num = [0]*mfor j in range(0,m): for i in ListMat:num[j]=num[j]+(i[j]*i[j]) num[j]=num[j]/n return num def DenoisMat(mat):average=GetAverage(mat)variance=GetVar(average,mat)section=list(map(lambda x: x[0]+x[1], zip(average, variance))) n=len(mat)m= width(mat) num = [0]*mdenoisMat=[] for i in mat:for j in range(0,m):if i[j]>section[j]:i[j]=section[j]denoisMat.append(i) return denoisMat
? ?(3)訓練集采樣 ? ? ?? ? ? ? ? ? ? 上文中已經提到了,正確的采樣可以提高計算的準確性。常用的采樣的方法有隨機采樣、系統采樣、分層采樣。
隨機采樣:根據樣本的編號random出來需要的樣本數量。 系統采樣:即先將總體的觀察單位按某一順序號分成n個部分,再從第一部分隨機抽取第k號觀察單位,依次用相等間距,從每一部分各抽取一個觀察 單位組成樣本。 分層采樣:先按對觀察指標影響較大的某種特征,將總體分為若干個類別,再從每一層內隨機抽取一定數量的觀察單位,合起來組成樣本。有按比例 分配和最優分配兩種方案。
? ? ? ? 效果的比較是,分層采樣>系統采樣>隨機采樣。以下代碼實現了系統采樣和隨機采樣,分層采樣可以根據自己的數據集結合聚類算法來實現。如果是監督學習的話,記得調整正副樣本的比例哦。 ''' Sampling archive@author: Garvin Li ''' import randomdef RandomSampling(dataMat,number):try:slice = random.sample(dataMat, number) return sliceexcept:print 'sample larger than population'def SystematicSampling(dataMat,number): length=len(dataMat)k=length/numbersample=[] i=0if k>0 : while len(sample)!=number:sample.append(dataMat[0+i*k])i+=1 return sampleelse :return RandomSampling(dataMat,number)

? (4)選擇算法訓練樣本 ?? ? ? ? ? ?上面已經提到了很多的算法。針對不同的數據集,應該選用不同的算法。舉個例子,這次比賽在線下賽的時候,因為數據集比較小,我們使用的邏輯回歸算法就取得了不錯的成績。但是到了線上比賽,隨著數據量增加到TB級別,發現邏輯回歸已經不給力了。使用GBRT可以取得更理想的效果,具體用法可以參考阿里大數據比賽sesson2_RF&GBRT.一些常用的算法也可以clone我的github代碼庫(不斷更新中),本文最下方給出地址。
圖 ?3-1 My git-repo
? ?(5)模型融合 ? ? ? ? ? ?模型融合的概念也是這次參加比賽第一次聽說的。其實原理很簡單,每種算法因為自身的收斂方式不同、對特征的調配方式不同,在結果上是有比較大的差異的。如果將不同的模型計算結果加權求和的話,可以充分體現每個算法的長處,對于結果的提升是有比較大幫助的。

4.總結

? ? ?? ? ? ? ?我始終堅信大數據和云計算可以改變我們的生活方式甚至我們的意識形態。在進行大數據處理的過程中,看著自己的成績一點一滴的提升,內心會有極大的滿足感。希望有相同志趣的朋友可以留言討論,大家一起學習進步,謝謝大家。 我的Github頁:點擊打開鏈接 本文參加了csdn博客大賽,請為我投票!


本文參考了:《機器學習與算法》和 csdn?

u010691898的專欄




/********************************

* 本文來自博客 ?“李博Garvin“

* 轉載請標明出處:http://blog.csdn.net/buptgshengod

******************************************/




總結

以上是生活随笔為你收集整理的【云端大数据实战】大数据误区、大数据处理步骤分析的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 欧美色老头old∨ideo | 日日夜夜操操操 | 精品国产乱码久久久久久婷婷 | 午夜理伦三级理论 | 亚洲一区二区电影网 | 美女扒开尿口让男人捅爽 | www.亚洲精品 | 人人天天夜夜 | 永久精品网站 | 两性av | 天天干天 | 成人在线视频观看 | 日韩欧美一区二区三区四区 | 亚洲特级黄色片 | 日本aⅴ在线观看 | 伊人情人综合网 | 中文字字幕第183页 欧美特级一级片 | av中文字幕在线播放 | 麻豆69| 奇米一区二区三区 | 亚洲第一av | 伊人影院亚洲 | 欧美日韩中文字幕 | 亚洲av无码一区二区三区性色 | 17c精品麻豆一区二区免费 | 国产一级淫 | 麻豆日产六区 | 草草影院发布页 | 精品久久中文 | 成人免费在线播放视频 | 国产精品入口麻豆 | 五月激情啪啪 | a免费视频| 黄色三级免费观看 | 初尝情欲h名器av | 久久影院精品 | 白浆影院| 国产精久久一区二区三区 | 中国一级特黄毛片 | 成人污污视频 | 一区二区三区 欧美 | 久久久国产精品x99av | 被扒开腿一边憋尿一边惩罚 | 粉嫩一区二区三区 | 国产精品免费一区 | 午夜免费福利影院 | 日韩精品在线第一页 | 成年人晚上看的视频 | 免费看a网站| 尹人在线视频 | 啪啪福利视频 | 香蕉污视频在线观看 | 亚洲国产欧美精品 | 日韩精品亚洲一区 | 嫩模一区二区三区 | 色无极亚洲影院 | 日韩人妻精品一区二区三区视频 | 樱花草av | 午夜视频观看 | 青青成人网 | 一级片a级片| 国产一级二级 | 青青久久av | 成人h网站 | 一级片在线 | 亚洲久视频 | 国产成年人 | 国产做爰视频免费播放 | 久久av无码精品人妻出轨 | 色xxxx| 成人爽站w47pw | 精品人妻一区二区三区日产乱码 | 极品美女高潮出白浆 | 2022av在线| 国产91边播边对白在线 | 最新超碰 | 香蕉色视频| 久久精品无码一区二区三区免费 | xxx日本黄色| 91社区福利| 日不卡 | 国产1区2区3区4区 | 成人一区二区精品 | aaa在线视频 | 伊人77| 日韩123 | 成人片黄网站久久久免费 | 成人高清在线观看 | 秘密爱大尺度做爰呻吟 | 免费a网站 | 亚洲天堂国产 | 日日操夜夜摸 | 亚洲欧美日韩图片 | 欧美一区二区视频 | 麻豆网站免费看 | 久久最新网址 | 久草视频免费在线播放 | www.呦呦| 日韩欧美毛片 |