日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程语言 > python >内容正文

python

python产品质量分析_Python数据分析实战之葡萄酒质量分析

發(fā)布時(shí)間:2023/12/20 python 40 豆豆
生活随笔 收集整理的這篇文章主要介紹了 python产品质量分析_Python数据分析实战之葡萄酒质量分析 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

1. 明確需求和目的

以葡萄酒類型為標(biāo)簽,分為白葡萄酒和紅葡萄酒。比較這兩種葡萄酒的差別并選取葡萄酒的化學(xué)成分:固定酸度、揮發(fā)性酸度、檸檬酸、氯化物、游離二氧化硫、總硫度、密度、PH值、硫酸鹽、酒精度數(shù)共11個(gè),針對酒的各類化學(xué)成分建立線性回歸模型,從而預(yù)測該葡萄酒的質(zhì)量評分。

2. 數(shù)據(jù)收集

數(shù)據(jù)集為“winequality-both.csv",共有6497條數(shù)據(jù),共13個(gè)特征.

3. 數(shù)據(jù)預(yù)處理

3.1 數(shù)據(jù)整合

3.1.1 加載相關(guān)庫和數(shù)據(jù)集

使用的庫有:pandas、numpy、matplotlib、seaborn、statsmodels

使用的數(shù)據(jù)集:winequality-both.csv

3.1.2 數(shù)據(jù)概覽

從上圖可以看出特征和質(zhì)量評分的均值和方差,分位數(shù)等,其中,質(zhì)量評分的均值為5.818378。

3.2 數(shù)據(jù)清洗

3.2.1 列名重命名

從上面發(fā)現(xiàn)列名不符合Python的命名規(guī)范,對列名進(jìn)行一下重命名,采用下劃線命名法:

3.2.2 數(shù)據(jù)類型處理

查看各個(gè)列的數(shù)據(jù)類型:

從上圖可以看出,除了葡萄酒的type位object類型,其余特征的數(shù)據(jù)類型都為float型,沒有問題,所以不需要進(jìn)行數(shù)據(jù)類型處理。

3.2.3 缺失值處理

查看缺失值情況:

發(fā)現(xiàn)沒有缺失值,所以不需要進(jìn)行缺失值處理。

3.2.4 異常值處理

簡單查看一下是否有異常值:

沒發(fā)現(xiàn)明顯的異常值,不需要進(jìn)行處理。

4. 數(shù)據(jù)分析

4.1 質(zhì)量評分分析

4.1.1 質(zhì)量評分的頻數(shù)統(tǒng)計(jì)

可以看出質(zhì)量評分為3-9分,其中質(zhì)量評分為6的數(shù)量是最多的,其次是評分為5, 質(zhì)量評分為9的數(shù)量是最少的。

4.1.2 質(zhì)量評分的描述性統(tǒng)計(jì)

按葡萄酒的類型分組,分為兩組,:紅葡萄酒和白葡萄酒。分別打印出兩組葡萄酒的質(zhì)量的摘要統(tǒng)計(jì)量。

可以看出紅葡萄酒和白葡萄酒的數(shù)據(jù)量相差很大,但均值、最值等都相差不大。

4.1.3 繪制質(zhì)量評分的直方圖

上圖顯示了不同類型葡萄酒的質(zhì)量評分密度條形圖,可以發(fā)現(xiàn)葡萄酒的質(zhì)量評分大部分集中在5-7分,評分為9的幾乎沒有。從對比來看,白葡萄酒的質(zhì)量評分普遍高于紅葡萄的質(zhì)量評分,尤其是評分為6分和7分的較為顯著,白葡萄酒評分為6分和7分的數(shù)量將近是紅葡萄酒的2倍。不過,評分為5的白葡萄酒和紅葡萄酒的數(shù)量相當(dāng),甚至,紅葡萄酒更勝一籌。

4.1.4 T檢驗(yàn)

對不同葡萄酒的質(zhì)量評級進(jìn)行t檢驗(yàn)(原假設(shè)設(shè)為紅白兩種葡萄酒質(zhì)量相同)

從檢驗(yàn)的結(jié)果來看,p值<0.05,拒絕原假設(shè),即認(rèn)為紅白兩種葡萄酒質(zhì)量有顯著性差異,并且從均值上來看白葡萄酒的平均質(zhì)量等級在統(tǒng)計(jì)意義上大于紅葡萄酒的平均質(zhì)量等級。

4.2 化學(xué)成分間的相關(guān)性分析

從各變量的相關(guān)系數(shù)來看酒精含量、硫酸酯、pH 值、游離二氧化硫和檸檬酸這些指標(biāo)與質(zhì)量呈現(xiàn)正相關(guān),即當(dāng)這些指標(biāo)的含量增加時(shí),葡萄酒的質(zhì)量會提高;非揮發(fā)性酸、揮發(fā)性酸、殘余糖分、氯化物、總二氧化硫和密度這些指標(biāo)與質(zhì)量呈負(fù)相關(guān)即當(dāng)這些指標(biāo)的含量增加時(shí),葡萄酒的質(zhì)量會降低。從相關(guān)系數(shù)可以看出,對葡萄酒質(zhì)量影響最大的是葡萄酒是酒精含量,其相關(guān)系數(shù)為0.444,其次是酒的密度,但酒的密度對酒的質(zhì)量是負(fù)影響的。

4.3 建立線性回歸模型

4.3.1 選取樣本

因?yàn)榧t葡萄酒和白葡萄酒的數(shù)據(jù)量相差很大,所以各選取200個(gè)樣本。

4.3.2 自變量標(biāo)準(zhǔn)化

4.3.3 建立回歸模型

線性回歸模型為:quality= 0.0877fixed acidity -0.2186volatile acidity -0.0159citric_acid+ 0.2072residual_sugar-0.0169chlorides+ 0.1060free_sulfur_dioxide -0.1648density-0.1402total_sulfur_dioxide+0.0706pH+0.1143sulphates+ 0.3185*alcohol+5.8184

4.4 預(yù)測

有了線性回歸模型,當(dāng)給出了葡萄酒的化學(xué)成分的數(shù)據(jù)就可以預(yù)測該葡萄酒的質(zhì)量評分。

參考文章:https://blog.csdn.net/weixin_42384784/article/details/106179705

總結(jié)

以上是生活随笔為你收集整理的python产品质量分析_Python数据分析实战之葡萄酒质量分析的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。