日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

机器学习(2.sklearn(Scikit-learn)库、字典数据的特征抽取)

發布時間:2024/9/30 编程问答 28 豆豆
生活随笔 收集整理的這篇文章主要介紹了 机器学习(2.sklearn(Scikit-learn)库、字典数据的特征抽取) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

sklearn(全稱Scikit-learn庫介紹)

? ? ? ?Python語言的機器學習工具

? ? ? ?Scikit-learn包括許多知名的機器學習算法實現

? ? ? ?Scikit-learn文檔完善,容易上手,豐富API,使其在學術界頗受歡迎。

安裝:windows下? ? pip install Scikit-learn? ? ? ?注:安裝scikit-learn需要Numpy,pandas等庫

?數據的特征抽取

? ?特征抽取(進行特征值化):? · 字典特征抽取: 把字典的數據轉換為具體的數據

? ? ? ? ? ? ? ? ? ? ? ?· 文本特征抽取:? 把文本的數據轉換為具體額數據

? ? ?注:特征值化是為了計算機更好的去理解數據

字典特征抽取

1.作用:對字典數據進行特征值化

2.語法:

? ??DictVectorizer(sparse=True,)

? ? ? (1)??DictVectorizer.fit_transform(X)??????

? ? ? ? ? ? ? ? ?X:字典或者包含字典的迭代器? ? ? 傳進去一個列表,列表中包含多個字典

? ? ? ? ? ? ? ? ?返回值:返回sparse矩陣

? ? ? (2)?DictVectorizer.inverse_transform(X)

? ? ? ? ? ? ? ? ? ?X:array數組或者sparse矩陣

? ? ? ? ? ? ? ? ??返回值:轉換之前數據格式

? ? ? (3)?DictVectorizer.get_feature_names()

? ? ? ? ? ? ? ? ? ??返回類別名稱

? ? ? ?(4)?DictVectorizer.transform(X)

? ? ? ? ? ? ? ? ? ??按照原先的標準轉換

3.流程與例子

from sklearn.feature_extraction import DictVectorizerdef dictvec1():dict = DictVectorizer()data = dict.fit_transform([{"city": "上海", 'temperature': 100},{"city": "北京", 'temperature': 60},{"city": "深圳", 'temperature': 30}])print(data)return Nonedef dictvec2():dict = DictVectorizer(sparse=False)data = dict.fit_transform([{"city": "上海", 'temperature': 100},{"city": "北京", 'temperature': 60},{"city": "深圳", 'temperature': 30}])print(dict.get_feature_names())print(data)return Noneif __name__ == '__main__':dictvec1()dictvec2() 打印的結果: # 第一個函數的打印結果(0, 0) 1.0(0, 3) 100.0(1, 1) 1.0(1, 3) 60.0(2, 2) 1.0(2, 3) 30.0 # 第二個函數的打印結果 ['city=上海', 'city=北京', 'city=深圳', 'temperature'] [[ 1. 0. 0. 100.][ 0. 1. 0. 60.][ 0. 0. 1. 30.]]

? ?第一 函數dictvec1() 的打印結果,就是sparse的矩陣模式?(在scipy模塊中就是這種模式),也就是找下表,對應數據

? ? ?轉換成這種矩陣的模型是為了節約內存,方便讀取處理

第二個函數的打印結果: 是一個二維數組的類型? 對應numpy中的 ndarray類型,也即是one-hot編碼 調用 get_feature_names() 函數,類似打印出類名,最后一個是結果值 對應剛才輸入的數據,第二個函數的數據數組,的第一個小數組,對應列名,第一個城市是上海,則對應的位置上就為,1,數組的最后一個就是對應的結果值,第二個小數組同理, 第二值為1代表就是上海,最后一只也對應響應的結果值 總結: 字典數據抽取:把字典中一些類別數據,分別進行轉換成特征數據 ? ? ? ? ? ? 數據形式,有類別的這些特征,先要轉換字典數據

4.ont-hot編碼

??比如說,Human的類別為1,Penguin的類別為2,Octopus的類別為3,Ailen的類別為4

只要數據對應的列名符合就為1,不符合的都為0

總結

以上是生活随笔為你收集整理的机器学习(2.sklearn(Scikit-learn)库、字典数据的特征抽取)的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。