當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【云端大数据实战】大数据误区、大数据处理步骤分析

發布時間：2025/4/5 编程问答 27 豆豆

生活随笔收集整理的這篇文章主要介紹了【云端大数据实战】大数据误区、大数据处理步骤分析小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

1.背景

? ? ?? ? ? ??首先感謝這次博客的主辦方CSDN以及在初賽為我投票的網友們，你們的支持是Garvin前進的動力。本文思路的依據來源于本次天貓大數據競賽長達三個月的參賽體驗。博主作為一個在校的學生，可能如果不是這次比賽，很難能夠擁有一套完整的云環境來對TB級的數據進行分析和實踐。下面是博主的一點心得，在此拋磚引玉，希望能給大家在云端大數據處理方面帶來一點啟示。

2.對于大數據和云的一些誤區

?

? （1）誤區一：云的計算能力是無窮的，不用考慮效率？

? ? ?? ? ? ? ?我們都知道，云計算的本質就是分布式計算，將現有的工作量，分割開來讓n個不同的服務器協同完成。說白了云計算的計算能力雖然比我們的pc有優越許多，但是它是有計算成本的。當我們處理TB級數據的時候，我們還是盡量要考慮一下效率，否則會陷入漫長的等待。 ps：博主參加比賽的時候，因為一開始沒有使用抽樣算法，將整個訓練集拿去訓練，占用了大量的資源，常常一等就是24小時。

?

? ?（2）誤區二：數據量越大，預測效果越好？

? ? ?

? ? ? ?大數據計算，顧名思義。就是需要一個很大的數據量，通過一些算法，找到它們和目標序列的特定規則和聯系。這就容易造成一個誤區，是不是數據量越大，結果準確。其實對于推薦系統來講，當我們使用隨機森林或是gbrt這些算法的時候，數據集在幾百萬的時候往往能得到比數據集在幾千萬的時候更好的計算效果。因為對于一個算法來講，如果數據集過大，容易造成過擬合。

? ? ? ?所以在面對一個真正的大數據集的時候，不要盲目的拿來全部訓練，做好抽樣和正負樣本的比例調整，可能會得到更好的效果。?

??

? （3）誤區三：算法的參數是一成不變的？ ? ????

? ? ? ? ? ? ? ??在對大數據進行處理的時候，我們往往使用一些已經比較成熟的算法。例如常用的分類算法有svm(支持向量機)、rf(隨機森林)、lr(邏輯回歸)等等。在使用這些算法的時候往往要面對一個比較頭疼的問題就是調參。是否能調到一個理想的參數，對于最后的計算結果有著至關重要的作用。 ? ? ??對于參數，我覺得沒有最好的參數，只有最合適的參數。不要迷信論文或是網上的一些評論，如果你的訓練集是獨一無二的，就要靜下心來，認真調試最適合自己的參數。影響一個算法的參數的因素很多，包括樣本數量或是正負樣本比例等。 ? ? ?? ? （4）誤區四：特征越多越好么？ ? ? ?? ? ? ??特征重在質量而不是數量，好的特征對于結果的影響可能會比普通特征大100倍，所以千萬不要隨便的組合數據集的一些字段。有的時候一些不好的特征，會對結果產生消極的影響。區分特征對與結果的影響的方法有很多，下面給一個信息熵的方法： def chooseBestFeatureToSplit(dataSet):numFeatures = len(dataSet[0]) - 1 #the last column is used for the labelsbaseEntropy = calcShannonEnt(dataSet)bestInfoGain = 0.0; bestFeature = -1for i in range(numFeatures): #iterate over all the featuresfeatList = [example[i] for example in dataSet]#create a list of all the examples of this featureuniqueVals = set(featList) #get a set of unique valuesnewEntropy = 0.0for value in uniqueVals:subDataSet = splitDataSet(dataSet, i, value)prob = len(subDataSet)/float(len(dataSet))newEntropy += prob * calcShannonEnt(subDataSet) infoGain = baseEntropy - newEntropy #calculate the info gain; ie reduction in entropyif (infoGain > bestInfoGain): #compare this to the best gain so farbestInfoGain = infoGain #if better than current best, set to bestbestFeature = ireturn bestFeature #returns an integer

3.大數據云處理步驟

? ? ? （1）首先要了解集成環境 ? ? ? ? ?? ? ? ? ? ? ?既然是大數據處理，那么一定是要有一個云環境作為依托。我覺得首先要了解自己的集成環境的基本使用方法，像是spark、hadoop或是odps，他們都有自己的特點。比如博主使用的odps，對于數據庫的處理可以用命令行執行sql語句，也可以用MapReduce的方法將寫好的jar文件放到云端處理。 ? ? ? ?（2）數據集去噪 ? ? ? ? ? ? ?對于一個比較大的數據集，肯定是存在一些噪聲部分影響我們的計算操作。將這部分噪音去掉可以保證計算結果的準確性。去噪的方法有很多，這里舉出一個常用的方法，就是將數值在 ? [均值- ?3倍方差，均值 + 3倍方差] 以外的數據濾掉。下面是我寫的一個實現以上去噪方法的代碼，執行DenoisMat函數可以實現此功能。 from __future__ import division def GetAverage(mat):n=len(mat)m= width(mat) num = [0]*mfor j in range(0,m): for i in mat:num[j]=num[j]+i[j] num[j]=num[j]/n return numdef width(lst):i=0for j in lst[0]:i=i+1return idef GetVar(average,mat): ListMat=[]for i in mat: ListMat.append(list(map(lambda x: x[0]-x[1], zip(average, i))))n=len(ListMat)m= width(ListMat) num = [0]*mfor j in range(0,m): for i in ListMat:num[j]=num[j]+(i[j]*i[j]) num[j]=num[j]/n return num def DenoisMat(mat):average=GetAverage(mat)variance=GetVar(average,mat)section=list(map(lambda x: x[0]+x[1], zip(average, variance))) n=len(mat)m= width(mat) num = [0]*mdenoisMat=[] for i in mat:for j in range(0,m):if i[j]>section[j]:i[j]=section[j]denoisMat.append(i) return denoisMat
? ?（3）訓練集采樣 ? ? ?? ? ? ? ? ? ? 上文中已經提到了，正確的采樣可以提高計算的準確性。常用的采樣的方法有隨機采樣、系統采樣、分層采樣。
隨機采樣：根據樣本的編號random出來需要的樣本數量。系統采樣：即先將總體的觀察單位按某一順序號分成n個部分，再從第一部分隨機抽取第k號觀察單位，依次用相等間距，從每一部分各抽取一個觀察單位組成樣本。分層采樣：先按對觀察指標影響較大的某種特征，將總體分為若干個類別，再從每一層內隨機抽取一定數量的觀察單位，合起來組成樣本。有按比例分配和最優分配兩種方案。
? ? ? ? 效果的比較是，分層采樣>系統采樣>隨機采樣。以下代碼實現了系統采樣和隨機采樣，分層采樣可以根據自己的數據集結合聚類算法來實現。如果是監督學習的話，記得調整正副樣本的比例哦。 ''' Sampling archive@author: Garvin Li ''' import randomdef RandomSampling(dataMat,number):try:slice = random.sample(dataMat, number) return sliceexcept:print 'sample larger than population'def SystematicSampling(dataMat,number): length=len(dataMat)k=length/numbersample=[] i=0if k>0 : while len(sample)!=number:sample.append(dataMat[0+i*k])i+=1 return sampleelse :return RandomSampling(dataMat,number)

? （4）選擇算法訓練樣本 ?? ? ? ? ? ?上面已經提到了很多的算法。針對不同的數據集，應該選用不同的算法。舉個例子，這次比賽在線下賽的時候，因為數據集比較小，我們使用的邏輯回歸算法就取得了不錯的成績。但是到了線上比賽，隨著數據量增加到TB級別，發現邏輯回歸已經不給力了。使用GBRT可以取得更理想的效果，具體用法可以參考阿里大數據比賽sesson2_RF&GBRT.一些常用的算法也可以clone我的github代碼庫（不斷更新中），本文最下方給出地址。
圖 ?3-1 My git-repo
? ?(5)模型融合 ? ? ? ? ? ?模型融合的概念也是這次參加比賽第一次聽說的。其實原理很簡單，每種算法因為自身的收斂方式不同、對特征的調配方式不同，在結果上是有比較大的差異的。如果將不同的模型計算結果加權求和的話，可以充分體現每個算法的長處，對于結果的提升是有比較大幫助的。

4.總結

? ? ?? ? ? ? ?我始終堅信大數據和云計算可以改變我們的生活方式甚至我們的意識形態。在進行大數據處理的過程中，看著自己的成績一點一滴的提升，內心會有極大的滿足感。希望有相同志趣的朋友可以留言討論，大家一起學習進步，謝謝大家。我的Github頁：點擊打開鏈接本文參加了csdn博客大賽，請為我投票！

本文參考了：《機器學習與算法》和 csdn?

u010691898的專欄

/********************************

* 本文來自博客 ?“李博Garvin“

* 轉載請標明出處:http://blog.csdn.net/buptgshengod

******************************************/

總結

以上是生活随笔為你收集整理的【云端大数据实战】大数据误区、大数据处理步骤分析的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：【机器学习算法-python实现】PCA
下一篇： csdn开源夏令营-ospaf中期报告