當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【机器学习】特征提取代码汇总

發布時間：2024/9/30 编程问答 26 豆豆

生活随笔收集整理的這篇文章主要介紹了【机器学习】特征提取代码汇总小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

特征提取代碼匯總

import jieba from sklearn.datasets import load_iris from sklearn.feature_extraction import DictVectorizer from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer from sklearn.model_selection import train_test_splitdef datasets_demo():"""sklearn 數據集使用數據集的劃分：機器學習一般的數據集會劃分為兩個部分訓練數據：用于訓練，構建模型測試數據：在模型校驗使用，用于評估模型是否可用:return:"""# 獲取數據集iris = load_iris()print("鳶尾花數據集：\n", iris)print("查詢數據集描述：\n", iris["DESCR"])print("查詢特征值的名字：\n", iris.feature_names)print("查看特征值：\n", iris.data, iris.data.shape)print("查看特征值：\n", iris.data.shape)# 數據集劃分x_train, x_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.2, random_state=22)print("訓練集的特征值：\n", x_train, x_train.shape)return Nonedef dict_demo():"""字典特征值提取:return:"""data = [{'city': '北京', 'temperature': 100}, {'city': '上海', 'temperature': 60}, {'city': '深圳', 'temperature': 30}]# 1. 實例化一個轉換器默認返回 sparse矩陣將非0值按位置表示出來以節省內存提高加載效率transfer = DictVectorizer(sparse=False)# 應用場景：數據集中類別特征值較多；將數據集的特征-》字典類型；DictVectorizer轉換；本身拿到的就是字典# 2. 調用fit_transform()data_new = transfer.fit_transform(data)print("data_new:\n", data_new)print("特征名字:\n", transfer.get_feature_names())return Nonedef count_demo():"""文本特征值抽取:return:"""data = ["life is short, i like python", "life is too long i dislike python"]# 1、實例化一個轉換器類transfer = CountVectorizer()# 演示停用詞# transfer = CountVectorizer(stop_words=["is", "too"])data_new = transfer.fit_transform(data)print("data_new:\n", data_new.toarray())print("特征名字:\n", transfer.get_feature_names())# 2、調用fit_transformreturn Nonedef count_chinese_demo():"""中文文本特征值抽取:return:"""data = ["我愛北京天安門", "天安門上太陽升"]data2 = ["我愛北京天安門", "天安門上太陽升"]# 1、實例化一個轉換器類transfer = CountVectorizer()data_new = transfer.fit_transform(data)print("data_new:\n", data_new.toarray())print("特征名字:\n", transfer.get_feature_names())# 2、調用fit_transformreturn Nonedef count_word(text):"""進行中文分詞我愛北京天安門-》我愛北京天安門:param text::return:"""a = " ".join(list(jieba.cut(text)))print(a)return adef count_chinese_demo2():"""中文文本特征值抽取自動分詞:return:"""data = ["在過去兩個月里，我和60多位小伙伴進行了1對1的一小時溝通；","TA絕大多數是想要嘗試副業變現的朋友。","從一線城市到三線城市，從寶媽到職場人，從職場到體制內。"]# 1、實例化一個轉換器類transfer = CountVectorizer(stop_words=["從寶媽"])data_new = transfer.fit_transform(count_word(item) for item in data)print("data_new:\n", data_new.toarray())print("特征名字:\n", transfer.get_feature_names())# 2、調用fit_transformreturn Nonedef tfidf_demo():"""用TF-IDF方法進行文本特征值抽取:return:"""data = ["在過去兩個月里，我和60多位小伙伴進行了1對1的一小時溝通；","TA絕大多數是想要嘗試副業變現的朋友。","從一線城市到三線城市，從寶媽到職場人，從職場到體制內。"]transfer = TfidfVectorizer(stop_words=["從寶媽"])data_new = transfer.fit_transform(count_word(item) for item in data)print("data_new:\n", data_new.toarray())print("特征名字:\n", transfer.get_feature_names())return Noneif __name__ == '__main__':# 代碼1# datasets_demo()# 代碼2# dict_demo()# 代碼3# count_demo()# 代碼4# count_chinese_demo()# 代碼5# count_chinese_demo2()# count_word("我愛后端碼匠微信公眾號")# 代碼6tfidf_demo()

總結

以上是生活随笔為你收集整理的【机器学习】特征提取代码汇总的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。