日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【机器学习】特征提取代码汇总

發布時間:2024/9/30 编程问答 26 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【机器学习】特征提取代码汇总 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

特征提取代碼匯總

import jieba from sklearn.datasets import load_iris from sklearn.feature_extraction import DictVectorizer from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer from sklearn.model_selection import train_test_splitdef datasets_demo():"""sklearn 數據集使用數據集的劃分:機器學習一般的數據集會劃分為兩個部分訓練數據:用于訓練,構建模型測試數據:在模型校驗使用,用于評估模型是否可用:return:"""# 獲取數據集iris = load_iris()print("鳶尾花數據集:\n", iris)print("查詢數據集描述:\n", iris["DESCR"])print("查詢特征值的名字:\n", iris.feature_names)print("查看特征值:\n", iris.data, iris.data.shape)print("查看特征值:\n", iris.data.shape)# 數據集劃分x_train, x_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.2, random_state=22)print("訓練集的特征值:\n", x_train, x_train.shape)return Nonedef dict_demo():"""字典特征值提取:return:"""data = [{'city': '北京', 'temperature': 100}, {'city': '上海', 'temperature': 60}, {'city': '深圳', 'temperature': 30}]# 1. 實例化一個轉換器 默認返回 sparse矩陣 將非0值按位置表示出來 以節省內存 提高加載效率transfer = DictVectorizer(sparse=False)# 應用場景:數據集中類別特征值較多;將數據集的特征-》字典類型;DictVectorizer轉換;本身拿到的就是字典# 2. 調用fit_transform()data_new = transfer.fit_transform(data)print("data_new:\n", data_new)print("特征名字:\n", transfer.get_feature_names())return Nonedef count_demo():"""文本特征值抽取:return:"""data = ["life is short, i like python", "life is too long i dislike python"]# 1、實例化一個轉換器類transfer = CountVectorizer()# 演示停用詞# transfer = CountVectorizer(stop_words=["is", "too"])data_new = transfer.fit_transform(data)print("data_new:\n", data_new.toarray())print("特征名字:\n", transfer.get_feature_names())# 2、調用fit_transformreturn Nonedef count_chinese_demo():"""中文文本特征值抽取:return:"""data = ["我 愛 北京 天安門", "天安門 上 太陽 升"]data2 = ["我愛北京天安門", "天安門上太陽升"]# 1、實例化一個轉換器類transfer = CountVectorizer()data_new = transfer.fit_transform(data)print("data_new:\n", data_new.toarray())print("特征名字:\n", transfer.get_feature_names())# 2、調用fit_transformreturn Nonedef count_word(text):"""進行中文分詞 我愛北京天安門-》我 愛 北京 天安門:param text::return:"""a = " ".join(list(jieba.cut(text)))print(a)return adef count_chinese_demo2():"""中文文本特征值抽取 自動分詞:return:"""data = ["在過去兩個月里,我和60多位小伙伴進行了1對1的一小時溝通;","TA絕大多數是想要嘗試副業變現的朋友。","從一線城市到三線城市,從寶媽到職場人,從職場到體制內。"]# 1、實例化一個轉換器類transfer = CountVectorizer(stop_words=["從寶媽"])data_new = transfer.fit_transform(count_word(item) for item in data)print("data_new:\n", data_new.toarray())print("特征名字:\n", transfer.get_feature_names())# 2、調用fit_transformreturn Nonedef tfidf_demo():"""用TF-IDF方法進行文本特征值抽取:return:"""data = ["在過去兩個月里,我和60多位小伙伴進行了1對1的一小時溝通;","TA絕大多數是想要嘗試副業變現的朋友。","從一線城市到三線城市,從寶媽到職場人,從職場到體制內。"]transfer = TfidfVectorizer(stop_words=["從寶媽"])data_new = transfer.fit_transform(count_word(item) for item in data)print("data_new:\n", data_new.toarray())print("特征名字:\n", transfer.get_feature_names())return Noneif __name__ == '__main__':# 代碼1# datasets_demo()# 代碼2# dict_demo()# 代碼3# count_demo()# 代碼4# count_chinese_demo()# 代碼5# count_chinese_demo2()# count_word("我愛后端碼匠微信公眾號")# 代碼6tfidf_demo()

總結

以上是生活随笔為你收集整理的【机器学习】特征提取代码汇总的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。