日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Kaggle 入门练习 -- Titanic

發布時間:2025/3/12 编程问答 24 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Kaggle 入门练习 -- Titanic 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

Kaggle 入門練習 – Titanic


Kaggle 大數據比賽的入門練習,泰坦尼克遇難者預測


import pandas as pd# 導入數據集 train = pd.read_csv('Titanic_dataset/train.csv') test = pd.read_csv('Titanic_dataset/test.csv')# 查看數據集的信息 # print(train.info()) # print(test.info())# 選擇特征 selected_features = ['Pclass', 'Sex', 'Age', 'Embarked', 'SibSp', 'Parch', 'Fare'] X_train = train[selected_features] X_test = test[selected_features] y_train = train['Survived']# 查看具體特征的每個值的個數 # print(X_train['Embarked'].value_counts()) # print(X_test['Embarked'].value_counts())# 填充缺失值,Embarked 用出現頻率最高的特征值 X_train['Embarked'].fillna('S', inplace=True) X_test['Embarked'].fillna('S', inplace=True)# 填充缺失值,Age 和 Fare 用特征值的平均值 X_train['Age'].fillna(X_train['Age'].mean(), inplace=True) X_test['Age'].fillna(X_test['Age'].mean(), inplace=True) X_test['Fare'].fillna(X_test['Fare'].mean(), inplace=True)# 查看數據集的信息 # X_train.info()# 特征向量化 from sklearn.feature_extraction import DictVectorizer dict_vec = DictVectorizer(sparse=False) X_train = dict_vec.fit_transform(X_train.to_dict(orient='record')) # 查看特征向量的特征名稱 # dict_vec.feature_names_ X_test = dict_vec.transform(X_test.to_dict(orient='record'))# 創建隨機森林模型分類器 from sklearn.ensemble import RandomForestClassifier rfc = RandomForestClassifier()# 交叉驗證的精度 from sklearn.model_selection import cross_val_score print(cross_val_score(rfc, X_train, y_train, cv=5))# 分類器擬合數據集 rfc.fit(X_train, y_train) rfc_y_predict = rfc.predict(X_test)# 保存對測試集的預測結果,以便提交 rfc_submission = pd.DataFrame({'PassengerId': test['PassengerId'], 'Survived': rfc_y_predict}) rfc_submission.to_csv('titanic_submission.csv', index=False)

總結

以上是生活随笔為你收集整理的Kaggle 入门练习 -- Titanic的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。