11 单变量分析
11 單變量分析
標簽: 機器學習與數據挖掘
(此篇的R代碼對應本系列的《12 R語言手冊(第五站 單變量分析)》)
1.統計推理與數據挖掘
??從數據挖掘器的角度考慮。我們面對一個可能并不熟悉的數據集。對于該數據集我們已經完成了數據理解和數據準備階段并且使用探索性數據分析收集了一些描述性信息。下一步,我們將要執行單變量估計和預測。常見的執行估計和預測的工具為統計推理。統計推理包含一些方法,它們基于包含在樣本中的信息,對總體特征進行估計和假設檢驗??傮w指的是在一個特定研究中感興趣的所有元素的集合(人、物和數據)。
??點估計指的是使用統計量的單個已知值來估計相關的總體參數。統計量的觀測值稱為點估計。
2.均值的置信區間估計
??總體參數的置信區間估計由點估計產生的數值區間構成,連同相關的置信水平指定了區間包含參數的概率。大多數置信區間具有以下通用形式:
point  estimate(點估計)±margin  of error(誤差范圍)point\,\,estimate(點估計)\pm margin\,\,of\,error(誤差范圍)pointestimate(點估計)±marginoferror(誤差范圍)
??誤差范圍是對區間估計精確度的度量。誤差范圍越小表明精確度越大。例如,總體均值的 t-區間:
$\bar{x}\pm t_{\frac{a}{2}}\left( \frac{s}{\sqrt{n}} \right) $
??可以看到,樣本均值xˉ\bar{x}xˉ為點估計,而$t_{\frac{a}{2}}\left( \frac{s}{\sqrt{n}} \right) 就是它的誤差范圍。此外,就是它的誤差范圍。此外,就是它的誤差范圍。此外,\frac{s}{\sqrt{n}}代表樣本均值的標準誤差,當樣本容量較大或樣本可變性較小時,代表樣本均值的標準誤差,當樣本容量較大或樣本可變性較小時,代表樣本均值的標準誤差,當樣本容量較大或樣本可變性較小時,\frac{s}{\sqrt{n}}KaTeX parse error: Expected 'EOF', got '&' at position 5: 較小。 &?emsp; 對于總體…E為為為E=t_{\frac{a}{2}}\left( \frac{s}{\sqrt{n}} \right) ,可以解釋為:我們有95,可以解釋為:我們有95%的把握在,可以解釋為:我們有95E$誤差范圍內估計u。
??例如,上述所有客戶的客戶服務電話的誤差范圍為0.045個服務電話,可以被理解為:我們有95%的把握在0.045的誤差范圍內估計所有客戶的客戶服務電話均值。
3. 減小樣本誤差
??只要誤差范圍越小,我們估計的精確度就越大,而只要誤差范圍越小,樣本誤差就越小,結果就越精確,從公式可以得之:
- ta2t_{\frac{a}{2}}t2a??取決于置信水平和樣本容量。
- 樣本標準偏差sss,作為數據的特征,可能不會發生變化。
- nnn,用本容量。
因此,可以使用以下兩種方法來減小誤差范圍:
- 通過減小置信水平,即減小ta2t_{\frac{a}{2}}t2a??的取值,因此可以減小EEE。不推薦。
- 通過增大樣本容量。推薦。要想在減小誤差范圍的同時保持置信水平不變,增大樣本容量是唯一的方法。
4. 比例的置信區間估計
樣本比例 ppp 對整體比例 π\piπ 的估計:
p±Za2p?(1?p)np\pm Z_{\frac{a}{2}}\sqrt{\frac{p\cdot \left( 1-p \right)}{n}}p±Z2a??np?(1?p)??
??其中,ppp為對π\piπ的點估計,Za2p?(1?p)nZ_{\frac{a}{2}}\sqrt{\frac{p\cdot \left( 1-p \right)}{n}}Z2a??np?(1?p)??代表誤差范圍。Za2Z_{\frac{a}{2}}Z2a??依賴于置信水平,它的值可以查詢正態分布表而得知。
??對此公式,我們的文字解釋是:“我們有(1?α)(1-\alpha)(1?α)(如:95%)的把握估計 π\piπ 在 EEE 的范圍內?!?/p>
總結
- 上一篇: 机器学习系列(14)_PCA对图像数据集
- 下一篇: 爱客专业服务团队是企业转型SaaS的关键