日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【数据挖掘】数据挖掘和数据分析基础

發布時間:2024/7/5 编程问答 35 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【数据挖掘】数据挖掘和数据分析基础 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

參考文獻:《Python數據分析與挖掘實戰》張良均等

數據挖掘建模過程

  • 定義挖掘目標:理解任務,確定指標
  • 數據采樣:注意數據的完整性和有效性
  • 數據探索:異常值分析、缺失值分析、相關性分析、周期性分析
  • 數據預處理:數據篩選、數據變量轉換、缺失值處理、壞數據處理、數據標準化、主成分分析、屬性選擇、數據規約
  • 挖掘建模:所屬問題分析(分類、聚類、關聯規則、時序模式、智能推薦),選用算法
  • 模型評價:應用模型對應的評價方法,根據業務對模型進行解釋和應用
  • 數據挖掘建模工具

  • SAS Enterprise Miner
  • IBM SPSS Modeler
  • SQL Server
  • Python
  • WEKA
  • KNIME
  • RapidMiner/YALE
  • TipDM
  • 數據探索

    一、數據質量分析
    數據預處理的前提,檢查數據中是否存在臟數據(缺失值、異常值、不一致的值、重復數據、含特殊符號的數據),箱線圖可以檢測異常值。

    file_name = r'../data/catering_sale.xls' catering_sale = file_name data = pd.read_excel(catering_sale, index_col=u'日期') #加載數據 plt.figure() plt.rcParams['font.sans-serif'] = ['SimHei'] #正常顯示中文標簽 plt.rcParams['axes.unicode_minus'] = False #正常顯示±號 # 畫箱線圖 p = data.boxplot(return_type='dict') x = p['fliers'][0].get_xdata() #fliers為異常值標簽 y = p['fliers'][0].get_ydata() y.sort() #對y從小到大排序 for i in range(len(x)):#處理臨界情況, i=0時temp = y[i] - y[i - 1] if i != 0 else -78 / 3#添加注釋, xy指定標注數據,xytext指定標注的位置(所以需要特殊處理)plt.annotate(y[i], xy=(x[i], y[i]), xytext=(x[i] + 0.05 - 0.8 / temp, y[i]))plt.show()

    二、數據特征分析

  • 分布分析:解釋數據的分布特征和分布類型:頻率分布直方圖、莖葉圖、餅圖、條形圖
  • 定量數據分布分析:求極差、決定組距和組數(極差/組距)、決定分點(分布區間)、列出頻率分布表、繪制頻率分布直方圖。
  • 定性數據分布分析:百分比/頻數
  • 對比分析:折線圖
  • 統計量分析:均值、中位數、標準差、四分位間距、變異系數CV=sbxˉ×100CV=\frac{s}\bar{x}×100%CV=bs?xˉ×100 Pandas中提供的describe方法可以得到基本統計量
  • file_name = r'../data/catering_sale.xls' catering_sale = file_name data = pd.read_excel(catering_sale, index_col=u'日期') data = data[(data[u'銷量'] > 400) & data[u'銷量'] < 5000] statistics = data.describe()[u'銷量'] statistics['range'] = statistics['max'] - statistics['min'] #極差 statistics['var'] = statistics['std'] / statistics['mean'] #方差 statistics['dis'] = statistics['75%'] - statistics['25%'] #四分距 print(statistics)
  • 周期性分析:時序折線圖
  • 貢獻度分析:帕累托法則8/2定律,80%的利潤來自20%的投入,應該重點關注80%利潤的部分,繪制帕累托圖
  • file_name = '../data/catering_dish_profit.xls' dish_profit = file_name #餐飲菜品盈利數據 plt.rcParams['font.sans-serif'] = ['SimHei'] # 正常顯示中文標簽 plt.rcParams['axes.unicode_minus'] = False # 正常顯示±號 data = pd.read_excel(dish_profit, index_col=u'菜品名') data = data[u'盈利'].copy() data.sort_values(ascending=False) plt.figure() data.plot(kind='bar') plt.ylabel(u'盈利(元)') p = 1.0 * data.cumsum() / data.sum() p.plot(color='r', secondary_y=True, style='-o', linewidth=2) plt.annotate(format(p[6], '.4%'),xy=(6, p[6]),xytext=(6 * 0.9, p[6] * 0.9),arrowprops=dict(arrowstyle="->", connectionstyle="arc3,rad=.2")) plt.ylabel(u'盈利(比例)') plt.show()


    8. 相關性分析:散點圖、散點矩陣圖、計算相關系數(Pearson、Spearman)
    Pearson線性相關系數要求連續變量的取值服從正態分布
    Pearson=∑i=1n(xi?xˉ)(yi?yˉ)∑i=1n(xi?xˉ)2∑i=1n(yi?yˉ)2Pearson=\frac{\sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\sum_{i=1}^{n}(x_i-\bar{x})^2\sum_{i=1}^{n}(y_i-\bar{y})^2}}Pearson=i=1n?(xi??xˉ)2i=1n?(yi??yˉ?)2?i=1n?(xi??xˉ)(yi??yˉ?)?
    不符合正態分布的變量,分類或等級變量之間的關聯性采用Spearman秩相關系數,也稱為等級相關系數,對兩個變量成對的取值按照升序或降序編秩,RiR_iRi?表示xix_ixi?的秩次,QiQ_iQi?表示yiy_iyi?的秩次,Ri?QiR_i-Q_iRi??Qi?表示秩次之差。(秩次:排序時的位置)
    Spearman=1?6∑i=1n(Ri?Qi)2n(n2?1)Spearman=1-\frac{6\sum_{i=1}^{n}(R_i-Q_i)^2}{n(n^2-1)}Spearman=1?n(n2?1)6i=1n?(Ri??Qi?)2?
    判定系數是相關系數的平方,用r2∈[0,1]r^2∈[0,1]r2[0,1]表示,其值越接近于1則相關性越強,越接近于0則幾乎無直線相關關系。

    file_name = r'../data/catering_sale_all.xls' catering_sale = file_name data = pd.read_excel(catering_sale, index_col=u'日期') print(data.corr()) print(data.corr()[u'百合醬蒸鳳爪']) print(data[u'百合醬蒸鳳爪'].corr(data[u'翡翠蒸香茜餃']))
  • 主要數據探索函數:
  • 方法函數功能
    sum()求和
    mean()求均值
    var()求方差
    std()求均值
    corr()計算相關系數矩陣
    cov()計算協方差矩陣
    skew()計算樣本值的偏度(三階矩)
    kurt()計算樣本值的峰度(四階矩)
    describe()樣本基本描述
  • 擴展統計函數
  • 方法函數功能
    cumsum()依次給出前1,2,…,n個數的和
    cumprod()依次給出前1,2,…,n個數的積
    cummax()依次給出前1,2,…,n個數的最大值
    cummin()依次給出前1,2,…,n個數的最小值
    rolling_sum()按列計算數據樣本的總和
    rolling_mean()數據樣本的算數平均數
    rolling_var()計算數據樣本的方差
    rolling_std()計算數據樣本的標準差
    rolling_corr()計算數據樣本的相關系數矩陣
    rolling_cov()計算數據樣本的協方差矩陣
    rolling_skew()樣本值的偏度
    rolling_kurt()樣本值的峰度

    cum系列是DataFrame對象和Series對象的方法
    rolling_是pandas的函數,每k列計算一次,滾動計算

  • Python統計作圖
  • 方法函數功能
    plot()折線圖
    pie()餅狀圖
    hist()折線圖
    boxplot()箱型圖
    plot(logy=True)繪制y軸的對數圖形
    plot(yerr=error)繪制誤差條形圖

    總結

    以上是生活随笔為你收集整理的【数据挖掘】数据挖掘和数据分析基础的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

    主站蜘蛛池模板: 国产美女永久无遮挡 | 看免费的毛片 | 国产一区二区欧美 | 日韩一级欧美一级 | 毛片视频网址 | 亚洲男人第一网站 | 91免费在线视频 | 欧美性猛交久久久乱大交小说 | 99伊人| 亚洲伦乱 | 日本性久久 | 国产免费黄色小视频 | 美利坚合众国av | 免费av动漫 | 一区二区久久 | 男女av在线 | 欧美一线天 | 九九热视频在线观看 | 按摩毛片 | 中文字幕亚洲激情 | 羞羞的视频在线观看 | 亚洲自拍天堂 | 亚洲精品日韩在线 | 亚洲欧美日韩久久 | 久久成年人 | 欧美色欧美色 | 久久99精品波多结衣一区 | 亚洲区视频 | 日韩一区在线观看视频 | 一区视频 | 亚洲第一色图 | 91久久电影 | 在线观看第一页 | 午夜成人鲁丝片午夜精品 | 性欧美日韩| 国产精品人人做人人爽 | 成人精品一区二区三区视频 | 免费黄片毛片 | 亚洲欧洲在线观看 | 成人免费在线看片 | 精品午夜久久 | 免费黄在线 | 亚色视频在线观看 | 日韩黄色在线播放 | 成人涩涩软件 | 欧美精品99久久 | 国产在线观看免费视频软件 | 色综合天天综合网天天看片 | 亚洲人午夜射精精品日韩 | japanese中文字幕 | 免费看60分钟黄视频 | 欧美一区二区三区爽爽爽 | 少妇特黄a一区二区三区 | 美女扒开粉嫩的尿囗给男生桶 | 成年人a级片| 夜夜嗨国产 | 欧美午夜久久久 | 久久久久久久网站 | 1769国产精品| 老司机福利av| 国产一区二区在线视频观看 | jizz免费| 国产一区二区三区精品视频 | 国语对白91 | 欧美成人午夜精品久久久 | 一区二区三区在线观看av | 午夜不卡影院 | 国产精品xxxxxx | 日日精品| 爱的天堂 | 国产113页 | 精品视频久久久久 | 视频区小说区 | 看全黄大色黄大片美女人 | 亚洲精品aaa | 日韩欧美啪啪 | 日韩中文在线播放 | 国产精品久久久久久久蜜臀 | 中文字幕日韩一区二区三区 | 99久久久无码国产精品性青椒 | 成人网战 | 麻豆久久久久久 | 国产精品久久久久不卡 | 欧美69视频 | av伦理在线| 中国女人一级一次看片 | 久久久久高潮 | 一区二区三区中文视频 | 男人天堂黄色 | 成人二区三区 | a极黄色片 | 亚洲爽爽 | 俄罗斯女人裸体性做爰 | 国产操片 | 欧美人人爽 | 好吊妞这里只有精品 | 亚洲男性天堂 | 一级a毛片免费观看久久精品 | xxxxhdvideos |