日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【数学建模暑期培训】Matlab数据分析 数据处理 数据挖掘

發布時間:2023/12/29 编程问答 39 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【数学建模暑期培训】Matlab数据分析 数据处理 数据挖掘 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文章目錄

  • 數據預處理任務
    • 數據集成
    • 數據變換
    • 數據清洗
    • 數據規約
    • 主要處理函數

數據預處理任務

  • 數據清洗:去掉數據中的噪聲,糾正不一致
  • 數據集成:將多個數據源合并成一致的數據存儲,構成一個完整的數據集,如數據倉庫
  • 數據規約(刪減):通過聚集、刪除冗余屬性或聚類等方法來壓縮數據
  • 數據變換:數據集的規范化
  • 數據集成

    數據挖掘需要的數據往往分布在不同的數據源中,數據集成就是將多個數據源合并存放在一個一致的數據存儲(如數據倉庫)中的過程。在數據集成時,來自多個數據源的現實世界實體的表達形式是不一樣的,不一定是匹配的,要考慮實體識別問題和屬性是不一的,不一定是匹配的,要考慮實體識別問題和屬性冗余問題,從而把源數據在最低層上加以轉換、提煉和集成。

    • 實體識別:解決單位問題
    • 屬性冗余問題:對于冗余屬性要先分析檢測到后再將其刪除。 有些冗余屬性可以用相關分析檢測到。給定兩個數值型的屬性A和B,有些冗余屬性可以用相關分析檢測到。給定兩個數值型的屬性A和B,根據其屬性值,可以用相關系數度量一個屬性在多大程度上蘊含另一個屬性。

    數據變換

    • 簡單函數變換
      使得數據保持正態分布所以對數據進行簡單的函數變換。
      x2x^2x2可將左偏數據將其變為正太分布
      logxlogxlogx可將右偏數據將其變為正太分布

    • 歸一化映射
      求梯度時數據差異較大時,導致不收斂狀況,所以對其進行歸一化。分為最小-最大規范化、零-均值規范化、小數定標規范化。

    數據清洗

    刪除無關數據及異常值,缺失值處理。

    缺失值處理
    處理缺失值的方法可分為三類:刪除記錄、數據差插補和不處理。其中常用數據插補方法見下表。

    插補可方法方法描述
    均值/中位數/眾數插補根據屬性值的類型,用該屬性取值的平均數/中位數/眾數進行插值
    使用固定值將缺失的屬性用一個常量進行替換
    最近臨插補在記錄中找到與缺失樣本最接近的樣本的該屬性進行插補(計算歐幾里得距離)
    回歸方法對帶有缺失值的變量,根據已有數據和與其有關的其他變量的數據建立擬合模型來預測缺失的屬性值
    插值法利用已知點建立合適的插值函數,未知值由對應點xix_ixi?求出函數值近似代替
    • 回歸方法使用繁瑣對于國賽試題不建議使用。
    • 拉格朗日插值法。缺點:插值函數與需插值點個數有關,當插值點個數改變的時候,插值函數也需改變,所以較繁瑣。
    • 牛頓插值法。
    %% 拉格朗日插值和牛頓插值對比 clear; % 參數初始化 inputfile = '../data/catering_sale.xls' ; % 銷量數據文件 index =2; % 銷量數據所在下標 outputfile ='../tmp/sales2.xls'; % 插值后數據存放%% 讀入數據 num = readmatrix(inputfile); data = num(:,index);%% 去除異常值 data = de_abnormal(data);%% 調用拉格朗日進行插值 la_data = ployinterp_column(data,'lagrange');%% 調用牛頓算進行插值 new_data = ployinterp_column(data,'newton');%% 結果寫入文件 rows = size(data,1); % result = cell(rows+1,3); % result{1,1}='原始值'; % result{1,2}='拉格朗日插值'; % result{1,3}='牛頓插值'; % % result(2:end,1)= num2cell(data); % result(2:end,2)= num2cell(la_data); % result(2:end,3)= num2cell(new_data); result = [data,la_data,new_data]; writematrix(result,outputfile); disp('拉格朗日插值和牛頓插值結果已寫入數據文件!');

    異常值處理方法

    異常值處理方法方法描述
    刪除含有異常值的記錄直接將含有異常值的記錄刪除
    視為缺失值將異常值視為缺失值,利用缺失值處理的方法進行處理
    平均值修正可用前后兩個觀測值的平均值修正該異常值
    不處理直接在具有異常值的數據集上進行挖掘建模

    異常值發現方法:箱型圖法

    畫箱形圖的代碼

    %% 餐飲銷量數據缺失值及異常值檢測 clear; % 初始化參數 catering_sale = '../data/catering_sale.xls'; % 餐飲數據 index = 2; % 銷量數據所在列 %% 讀入數據 num = readmatrix(catering_sale); sales =num(2:end,index); rows = size(sales,1);%% 缺失值檢測 并打印結果 nanvalue = find(isnan(sales)); if isempty(nanvalue) % 沒有缺失值disp('沒有缺失值!'); elserows_ = size(nanvalue,1);disp(['缺失值個數為:' num2str(rows_) ',缺失率為:' num2str(rows_/rows) ]); end%% 異常值檢測 % 箱形圖上下界 q_= prctile(sales,[25,75]); p25=q_(1,1); p75=q_(1,2); upper = p75+ 1.5*(p75-p25); lower = p25-1.5*(p75-p25); upper_indexes = sales(sales>upper); lower_indexes = sales(sales<lower); indexes =[upper_indexes;lower_indexes]; indexes = sort(indexes); % 箱形圖 figure hold on; boxplot(sales,'whisker',1.5,'outliersize',6); rows = size(indexes,1); flag =0; for i =1:rowsif flag ==0text(1+0.01,indexes(i,1),num2str(indexes(i,1)));flag=1;elsetext(1-0.017*length(num2str(indexes(i,1))),indexes(i,1),num2str(indexes(i,1)));flag=0;end end hold off; disp('餐飲銷量數據缺失值及異常值檢測完成!

    數據規約

    即產生更小但保持原數據完整性的新數據集,因為在大數據集上進行復雜的數據分析和挖掘往往需要很長的時間。數據規約包括屬性規約、數值規約

    • 屬性規約:主要是通過屬性合并創建新屬性維數,或者直接通過刪除不相關的屬性維數來減少數據維數,從而提高數據挖掘的效率、降低計算成本。屬性規約的目標是尋找出最小的屬性子集并確保新數據子集的概率分布、并盡可能地接近原數據集的概率分布,常用方法有合并屬性、逐步向前選擇、逐步向后刪除、決策樹歸納、主成分分析等。
    • 數值規約: 通過選擇替代的、較小的數據來減少數據量,包括有參數方和無參數方法,前者指使用一個模型來評估數據,只需存放參數而不需要存放實際數據,無參數方法則需要存放實際數據,如直方圖、聚類、抽樣、參數回歸。

    %% 主成分分析 降維 clear; % 參數初始化 inputfile = '../data/principal_component.xls'; outputfile = '../tmp/dimention_reducted.xls'; % 降維后的數據 proportion = 0.95 ; % 主成分的比例%% 數據讀取 num = readmatrix(inputfile);%% 主成分分析 [coeff,~,latent] = pca(num);%% 計算累計貢獻率,確認維度 sum_latent = cumsum(latent/sum(latent)); % 累計貢獻率 dimension = find(sum_latent>proportion); dimension= dimension(1);%% 降維 data = num * coeff(:,1:dimension); xlswrite(outputfile,data); disp('主成分特征根:'); disp(latent'); disp('主成分單位特征向量'); disp(coeff); disp('累計貢獻率'); disp(sum_latent'); disp(['主成分分析完成,降維后的數據在' outputfile]);

    主要處理函數

    函數名功能
    interp1()一維插值
    unique()去除重復元素
    find()找到相應標識的位置
    isnan()判斷是否為數值
    mapminmax()最大值最小化的規范化
    zscore()標準差規范化

    總結

    以上是生活随笔為你收集整理的【数学建模暑期培训】Matlab数据分析 数据处理 数据挖掘的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

    主站蜘蛛池模板: 综合欧美亚洲 | 久久4| 日本高清不卡二区 | 国产精品福利在线播放 | 91精品一区二区三区四区 | 日韩二级片 | 久久免费看毛片 | 二级黄色录像 | 欧美日本一区二区三区 | 美女视频一区 | 女性高潮视频 | 成人一区二区在线 | 69国产精品视频 | 在线观看的av | 狠狠撸在线视频 | 人妻夜夜爽天天爽三区麻豆av网站 | 日韩aⅴ片 | 99视频在线观看视频 | 午夜av在线免费观看 | 成年人在线观看视频 | 男人天堂网在线观看 | 国产高清毛片 | aa视频免费观看 | 日韩亚洲国产精品 | 国产污片在线观看 | 色吊妞| 蜜桃91精品入口 | 国产高潮呻吟久久 | 国产内射一区二区 | 国产成人在线视频免费观看 | 国产精品探花视频 | 九九热久久免费视频 | 蜜臀99久久精品久久久久小说 | 老司机在线永久免费观看 | 白嫩情侣偷拍呻吟刺激 | 欧美69av | 久久亚洲av成人无码国产电影 | 久久看片网 | 姝姝窝人体www聚色窝 | 亚洲男人的天堂网站 | 69热在线 | www.久久婷婷 | 黄色大片aa | 中文字幕av无码一区二区三区 | 成人亚洲一区 | 久久亚洲av无码精品色午夜麻豆 | 葵司一区二区 | 日韩不卡在线播放 | 欧美黄网在线观看 | 亚洲三区在线观看无套内射 | 欧美黄色录像片 | 求av网站| 日日夜夜爱爱 | 我和单位漂亮少妇激情 | 超薄肉色丝袜一二三 | 狠狠干香蕉 | 国产熟妇一区二区三区四区 | 99毛片 | 免费看国产曰批40分钟粉红裤头 | 天天爱天天草 | 狠狠艹狠狠干 | 国产精品视频一区二区三区 | 色妞欧美 | 韩国三级一区 | 久久国产一| 特级特黄aaaa免费看 | 国产精品视频一区二区三区, | 日韩一区二区三区电影 | 素人av在线 | 天天操操夜夜操操 | 国产中文字幕av | 成人免费视频网站 | 欧美午夜免费 | 寡妇一级片 | 无码日韩精品视频 | 一区二区麻豆 | a毛片 | 欧美精品a区 | 日本不卡在线视频 | 黄网在线观看视频 | 欧美激情亚洲综合 | 毛片.com| 亚欧综合在线 | 久久免费视频网 | 美女被男人桶出白浆喷水 | 一级特黄aaa | 欧美三区在线观看 | 欧美精品免费看 | 激情九九 | 少妇被按摩师摸高潮了 | 丰满人妻一区二区三区性色 | 毛片国产精品 | 亚洲毛片在线播放 | 一级女性全黄久久生活片免费 | 久久久成人精品视频 | 久久er99热精品一区二区介绍 | 十八禁视频网站在线观看 | 国产专区精品 | av一片|