机器学习算法基础(基础机器学习课程)——第一天
01.機(jī)器學(xué)習(xí)簡(jiǎn)介
演變過程
02.機(jī)器學(xué)習(xí)概述
什么是機(jī)器學(xué)習(xí)
機(jī)器學(xué)習(xí)是從數(shù)據(jù)中自動(dòng)分析獲得規(guī)律(模型),并利用規(guī)律對(duì)未知數(shù)據(jù)進(jìn)行預(yù)測(cè)
為什么需要機(jī)器學(xué)習(xí)
機(jī)器學(xué)習(xí)的應(yīng)用場(chǎng)景
醫(yī)療、航空、教育、物流、電商......
03.數(shù)據(jù)集的組成
數(shù)據(jù)來源以及數(shù)據(jù)格式
可用數(shù)據(jù)集?
常用數(shù)據(jù)集數(shù)據(jù)的結(jié)構(gòu)組成
結(jié)構(gòu):特征值+目標(biāo)值
04.特征工程的定義
特征工程是什么
特征工程是將原始數(shù)據(jù)轉(zhuǎn)換為更好地代表預(yù)測(cè)模型的潛在問題的特征的過程,從而提高了對(duì)未知數(shù)據(jù)的模型準(zhǔn)確性
Scikit-learn庫介紹
05.字典特征數(shù)據(jù)抽取
sklearn特征抽取API
sklearn.feature_extraction
字典特征抽取
作用:對(duì)字典數(shù)據(jù)進(jìn)行特征值化類:sklearn.feature_extraction.DictVectorizer
DictVectorizer.fit_transform(X) ? ? ?
DictVectorizer.inverse_transform(X)
DictVectorizer.get_feature_names()
DictVectorizer.transform(X)
one-hot編碼分析?
???
06.文本特征抽取以及中文問題
文本特征抽取
作用:對(duì)文本數(shù)據(jù)進(jìn)行特征值化類:sklearn.feature_extraction.text.CountVectorizer
CountVectorizer語法
- CountVectorizer(max_df=1.0,min_df=1,…)
- 返回詞頻矩陣
- CountVectorizer.fit_transform(X,y) ? ? ?
- X:文本或者包含文本字符串的可迭代對(duì)象
- 返回值:返回sparse矩陣
- CountVectorizer.inverse_transform(X)
- X:array數(shù)組或者sparse矩陣
- 返回值:轉(zhuǎn)換之前數(shù)據(jù)格式
- CountVectorizer.get_feature_names()
- 返回值:單詞列表
注意:
07.tf-df分析問題
TF-IDF
TF-IDF的主要思想是:如果某個(gè)詞或短語在一篇文章中出現(xiàn)的概率高, 并且在其他文章中很少出現(xiàn),則認(rèn)為此詞或者短語具有很好的類別區(qū)分能力,適合用來分類。
TF-IDF作用:用以評(píng)估一字詞對(duì)于一個(gè)文件集或一個(gè)語料庫中的其中一份文件的重要程度。
import sklearn from sklearn import feature_extraction import jieba def cutword():con1 = jieba.cut("今天很殘酷,明天更殘酷,后天很美好,但絕對(duì)大部分是死在明天晚上,所以每個(gè)人不要放棄今天")con2 = jieba.cut("我們看到的從很遠(yuǎn)星系來的光是在幾百萬年之前發(fā)出的,這樣當(dāng)我們看到宇宙時(shí),我們是在看它的過去。")con3 = jieba.cut("如果只用一種方式了解某樣事物,你就不會(huì)真正了解它。了解事物真正含義的秘密取決于如何將其與我們所了解的事物相聯(lián)系。") #轉(zhuǎn)換成列表content1 = list(con1)content2 = list(con2)content3 = list(con3) #把列表轉(zhuǎn)換成字符串c1 = ' '.join(content1)c2 = ' '.join(content2)c3 = ' '.join(content3)return c1,c2,c3def tfidfvec():c1,c2,c3 = cutword()print(c1,c2,c3)tf = sklearn.feature_extraction.text.TfidfVectorizer()data = tf.fit_transform([c1,c2,c3])print(tf.get_feature_names())print(data.toarray())tfidfvec() 今天 很 殘酷 , 明天 更 殘酷 , 后天 很 美好 , 但 絕對(duì) 大部分 是 死 在 明天 晚上 , 所以 每個(gè) 人 不要 放棄 今天 我們 看到 的 從 很 遠(yuǎn) 星系 來 的 光是在 幾百萬年 之前 發(fā)出 的 , 這樣 當(dāng) 我們 看到 宇宙 時(shí) , 我們 是 在 看 它 的 過去 。 如果 只用 一種 方式 了解 某樣 事物 , 你 就 不會(huì) 真正 了解 它 。 了解 事物 真正 含義 的 秘密 取決于 如何 將 其 與 我們 所 了解 的 事物 相 聯(lián)系 。 ['一種', '不會(huì)', '不要', '之前', '了解', '事物', '今天', '光是在', '幾百萬年', '發(fā)出', '取決于', '只用', '后天', '含義', '大部分', '如何', '如果', '宇宙', '我們', '所以', '放棄', '方式', '明天', '星系', '晚上', '某樣', '殘酷', '每個(gè)', '看到', '真正', '秘密', '絕對(duì)', '美好', '聯(lián)系', '過去', '這樣'] [[0. 0. 0.21821789 0. 0. 0.0.43643578 0. 0. 0. 0. 0.0.21821789 0. 0.21821789 0. 0. 0.0. 0.21821789 0.21821789 0. 0.43643578 0.0.21821789 0. 0.43643578 0.21821789 0. 0.0. 0.21821789 0.21821789 0. 0. 0. ][0. 0. 0. 0.2410822 0. 0.0. 0.2410822 0.2410822 0.2410822 0. 0.0. 0. 0. 0. 0. 0.24108220.55004769 0. 0. 0. 0. 0.24108220. 0. 0. 0. 0.48216441 0.0. 0. 0. 0. 0.2410822 0.2410822 ][0.15698297 0.15698297 0. 0. 0.62793188 0.470948910. 0. 0. 0. 0.15698297 0.156982970. 0.15698297 0. 0.15698297 0.15698297 0.0.1193896 0. 0. 0.15698297 0. 0.0. 0.15698297 0. 0. 0. 0.313965940.15698297 0. 0. 0.15698297 0. 0. ]]總結(jié)
以上是生活随笔為你收集整理的机器学习算法基础(基础机器学习课程)——第一天的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 机器学习-数据科学库(第六天)
- 下一篇: 机器学习算法基础——数据特征预处理