日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 人工智能 > ChatGpt >内容正文

ChatGpt

【机器学习PAI实践八】用机器学习算法评估学生考试成绩

發布時間:2025/4/5 ChatGpt 28 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【机器学习PAI实践八】用机器学习算法评估学生考试成绩 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

(本文數據為實驗用例)

一、背景

母親是老師反而會對孩子的學習成績造成不利影響?能上網的家庭,孩子通常能取得較好的成績?影響孩子成績的最大因素居然是母親的學歷?本文通過機器挖掘算法和中學真實的學生數據為您揭秘影響中學生學業的關鍵因素有哪些。

本文的數據采集于某中學在校生的家庭背景數據以及在校行為數據。通過邏輯回歸算法生成離線模型和學業指標評估報告,并且可以對學生的期末成績進行預測。

二、數據集介紹

數據集由25個特征和一個打標數據構成,

具體字段如下:

字段名含義類型描述
sex性別stringF是女,M表示男
address住址stringU表示城市,R表示鄉村
famsize家庭成員數stringLE3表示少于三人,GT3多于三人
pstatus是否與父母住在一起stringT住在一起,A分開
medu母親的文化水平string從0~4逐步增高
fedu父親的文化水平string從0~4逐步增高
mjob母親的工作string分為教師相關、健康相關、服務業
fjob父親的工作string分為教師相關、健康相關、服務業
guardian學生的監管人stringmother,father or other
traveltime從家到學校需要的時間double以分鐘為單位
studytime每周學習時間double以小時為單位
failures掛科數double掛科次數
schoolsup是否有額外的學習輔助stringyes or no
fumsup是否有家教stringyes or no
paid是否有相關考試學科的輔助stringyes or no
activities是否有課外興趣班stringyes or no
higher是否有向上求學意愿stringyes or no
internet家里是否聯網stringyes or no
famrel家庭關系double從1~5表示關系從差到好
freetime課余時間量double從1~5從少到多
goout跟朋友出去玩的頻率double從1~5從少到多
dalc日飲酒量double從1~5從少到多
walc周飲酒量double從1~5從少到多
health健康狀況double從1~5從狀態差到好
absences出勤量double0到93次
g3期末成績double20分制

數據截圖:

三、離線訓練

首先,實驗流程圖:

數據自上到下流入,先后經歷了數據數據預處理、拆分、訓練、預測與評估。

1.SQL腳本-數據預處理

select (case sex when 'F' then 1 else 0 end) as sex, (case address when 'U' then 1 else 0 end) as address, (case famsize when 'LE3' then 1 else 0 end) as famsize, (case Pstatus when 'T' then 1 else 0 end) as Pstatus, Medu, Fedu, (case Mjob when 'teacher' then 1 else 0 end) as Mjob, (case Fjob when 'teacher' then 1 else 0 end) as Fjob, (case guardian when 'mother' then 0 when 'father' then 1 else 2 end) as guardian, traveltime, studytime, failures, (case schoolsup when 'yes' then 1 else 0 end) as schoolsup, (case fumsup when 'yes' then 1 else 0 end) as fumsup, (case paid when 'yes' then 1 else 0 end) as paid, (case activities when 'yes' then 1 else 0 end) as activities, (case higher when 'yes' then 1 else 0 end) as higher, (case internet when 'yes' then 1 else 0 end) as internet, famrel, freetime, goout, Dalc, Walc, health, absences, (case when G3>14 then 1 else 0 end) as finalScore from ${t1};

這里SQL腳本主要處理的邏輯是將文本數據結構化。比如說源數據分別有yes和no的情況,我們可以通過0表示yes,1表示no將文本數據量化。一些多種類的文本型字段,比如說Mjob,我們可以結合業務場景來抽象,比如說如果工作是teacher就表示為1,不是teacher表示為0,抽象后這個特征的意義就是表示工作是否與教育相關。對于目標列,我們按照大于18分設為1,其它為0,擬在通過訓練,找出可以預測分數的模型。

2.歸一化

去量綱,將所有的字段都轉換成0~1之間,去除字段間大小不均衡帶來的影響。結果圖:

3.拆分

將數據集按照8:2拆分,百分之八十用來訓練模型,剩下的用來預測。

4.邏輯回歸

通過邏輯回歸算法訓練生成離線模型。具體算法詳情可以https://en.wikipedia.org/wiki/Logistic_regression

5.結果分析和評估

通過混淆矩陣可以查看模型預測的準確率。

可以看到預測準確率為82.911%。
根據邏輯回歸算法的特性,我們可以通過模型系數挖掘出一些比較有意思的信息,首先查看模型:

根據邏輯回歸算法的算法特性,權重越大表示特征對于結果的影響越大,權重是正數表示對結果1(期末高分)正相關,權重負數表示負相關。于是我們可以挑選幾個權重較大的特征進行分析。

字段名含義權重分析
mjob母親的工作-0.7998341777833717母親是老師對于孩子考高分是不利的
fjob父親工作1.422595764037065如果父親是老師,對于孩子取得好的成績是非常有利的
internet家里是否聯網1.070938672974736家里聯網不但不會影響成績,還會促進孩子的學習
medu母親的文化水平2.196219307541352母親的文化水平高低對于孩子的影響是最大的,母親文化越高孩子學習越好。

以上結論只是從實驗的很小的數據集得到的結論,僅供參考。

四、其它

作者微信公眾號(與我聯系):

總結

以上是生活随笔為你收集整理的【机器学习PAI实践八】用机器学习算法评估学生考试成绩的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。