python产品质量分析_Python数据分析实战之葡萄酒质量分析
1. 明確需求和目的
以葡萄酒類型為標(biāo)簽,分為白葡萄酒和紅葡萄酒。比較這兩種葡萄酒的差別并選取葡萄酒的化學(xué)成分:固定酸度、揮發(fā)性酸度、檸檬酸、氯化物、游離二氧化硫、總硫度、密度、PH值、硫酸鹽、酒精度數(shù)共11個(gè),針對酒的各類化學(xué)成分建立線性回歸模型,從而預(yù)測該葡萄酒的質(zhì)量評分。
2. 數(shù)據(jù)收集
數(shù)據(jù)集為“winequality-both.csv",共有6497條數(shù)據(jù),共13個(gè)特征.
3. 數(shù)據(jù)預(yù)處理
3.1 數(shù)據(jù)整合
3.1.1 加載相關(guān)庫和數(shù)據(jù)集
使用的庫有:pandas、numpy、matplotlib、seaborn、statsmodels
使用的數(shù)據(jù)集:winequality-both.csv
3.1.2 數(shù)據(jù)概覽
從上圖可以看出特征和質(zhì)量評分的均值和方差,分位數(shù)等,其中,質(zhì)量評分的均值為5.818378。
3.2 數(shù)據(jù)清洗
3.2.1 列名重命名
從上面發(fā)現(xiàn)列名不符合Python的命名規(guī)范,對列名進(jìn)行一下重命名,采用下劃線命名法:
3.2.2 數(shù)據(jù)類型處理
查看各個(gè)列的數(shù)據(jù)類型:
從上圖可以看出,除了葡萄酒的type位object類型,其余特征的數(shù)據(jù)類型都為float型,沒有問題,所以不需要進(jìn)行數(shù)據(jù)類型處理。
3.2.3 缺失值處理
查看缺失值情況:
發(fā)現(xiàn)沒有缺失值,所以不需要進(jìn)行缺失值處理。
3.2.4 異常值處理
簡單查看一下是否有異常值:
沒發(fā)現(xiàn)明顯的異常值,不需要進(jìn)行處理。
4. 數(shù)據(jù)分析
4.1 質(zhì)量評分分析
4.1.1 質(zhì)量評分的頻數(shù)統(tǒng)計(jì)
可以看出質(zhì)量評分為3-9分,其中質(zhì)量評分為6的數(shù)量是最多的,其次是評分為5, 質(zhì)量評分為9的數(shù)量是最少的。
4.1.2 質(zhì)量評分的描述性統(tǒng)計(jì)
按葡萄酒的類型分組,分為兩組,:紅葡萄酒和白葡萄酒。分別打印出兩組葡萄酒的質(zhì)量的摘要統(tǒng)計(jì)量。
可以看出紅葡萄酒和白葡萄酒的數(shù)據(jù)量相差很大,但均值、最值等都相差不大。
4.1.3 繪制質(zhì)量評分的直方圖
上圖顯示了不同類型葡萄酒的質(zhì)量評分密度條形圖,可以發(fā)現(xiàn)葡萄酒的質(zhì)量評分大部分集中在5-7分,評分為9的幾乎沒有。從對比來看,白葡萄酒的質(zhì)量評分普遍高于紅葡萄的質(zhì)量評分,尤其是評分為6分和7分的較為顯著,白葡萄酒評分為6分和7分的數(shù)量將近是紅葡萄酒的2倍。不過,評分為5的白葡萄酒和紅葡萄酒的數(shù)量相當(dāng),甚至,紅葡萄酒更勝一籌。
4.1.4 T檢驗(yàn)
對不同葡萄酒的質(zhì)量評級進(jìn)行t檢驗(yàn)(原假設(shè)設(shè)為紅白兩種葡萄酒質(zhì)量相同)
從檢驗(yàn)的結(jié)果來看,p值<0.05,拒絕原假設(shè),即認(rèn)為紅白兩種葡萄酒質(zhì)量有顯著性差異,并且從均值上來看白葡萄酒的平均質(zhì)量等級在統(tǒng)計(jì)意義上大于紅葡萄酒的平均質(zhì)量等級。
4.2 化學(xué)成分間的相關(guān)性分析
從各變量的相關(guān)系數(shù)來看酒精含量、硫酸酯、pH 值、游離二氧化硫和檸檬酸這些指標(biāo)與質(zhì)量呈現(xiàn)正相關(guān),即當(dāng)這些指標(biāo)的含量增加時(shí),葡萄酒的質(zhì)量會提高;非揮發(fā)性酸、揮發(fā)性酸、殘余糖分、氯化物、總二氧化硫和密度這些指標(biāo)與質(zhì)量呈負(fù)相關(guān)即當(dāng)這些指標(biāo)的含量增加時(shí),葡萄酒的質(zhì)量會降低。從相關(guān)系數(shù)可以看出,對葡萄酒質(zhì)量影響最大的是葡萄酒是酒精含量,其相關(guān)系數(shù)為0.444,其次是酒的密度,但酒的密度對酒的質(zhì)量是負(fù)影響的。
4.3 建立線性回歸模型
4.3.1 選取樣本
因?yàn)榧t葡萄酒和白葡萄酒的數(shù)據(jù)量相差很大,所以各選取200個(gè)樣本。
4.3.2 自變量標(biāo)準(zhǔn)化
4.3.3 建立回歸模型
線性回歸模型為:quality= 0.0877fixed acidity -0.2186volatile acidity -0.0159citric_acid+ 0.2072residual_sugar-0.0169chlorides+ 0.1060free_sulfur_dioxide -0.1648density-0.1402total_sulfur_dioxide+0.0706pH+0.1143sulphates+ 0.3185*alcohol+5.8184
4.4 預(yù)測
有了線性回歸模型,當(dāng)給出了葡萄酒的化學(xué)成分的數(shù)據(jù)就可以預(yù)測該葡萄酒的質(zhì)量評分。
參考文章:https://blog.csdn.net/weixin_42384784/article/details/106179705
總結(jié)
以上是生活随笔為你收集整理的python产品质量分析_Python数据分析实战之葡萄酒质量分析的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 绝地求生测试服画面优化软件,绝地求生超级
- 下一篇: 常用三种跨行转账方式的用户体验比较