《Python数据挖掘:概念、方法与实践》——1.5节小结
本節(jié)書(shū)摘來(lái)自華章社區(qū)《Python數(shù)據(jù)挖掘:概念、方法與實(shí)踐》一書(shū)中的第1章,第1.5節(jié)小結(jié),作者[美] 梅甘·斯夸爾(Megan Squire),更多章節(jié)內(nèi)容可以訪問(wèn)云棲社區(qū)“華章社區(qū)”公眾號(hào)查看
1.5 小結(jié)
在本章中,我們學(xué)習(xí)了將數(shù)據(jù)挖掘工具箱擴(kuò)展到大師級(jí)別所需要做的工作。首先,我們從作為數(shù)據(jù)庫(kù)知識(shí)發(fā)現(xiàn)(KDD)過(guò)程一部分的數(shù)據(jù)挖掘歷史開(kāi)始,對(duì)該領(lǐng)域進(jìn)行了全面的介紹。還比較了數(shù)據(jù)挖掘其他類(lèi)似的領(lǐng)域,如數(shù)據(jù)科學(xué)、機(jī)器學(xué)習(xí)和大數(shù)據(jù)等。
接下來(lái),概述了KDD過(guò)程中大部分專(zhuān)家認(rèn)為最重要的工具和技術(shù),特別關(guān)注挖掘和分析步驟中最頻繁使用的技術(shù)。為了真正精通數(shù)據(jù)挖掘,重要的是要關(guān)注和簡(jiǎn)單的教科書(shū)示例不同的問(wèn)題。因此,我們將致力于更獨(dú)特的數(shù)據(jù)挖掘技術(shù),如生成摘要和尋找離群值,并關(guān)注更加不同尋常的數(shù)據(jù)類(lèi)型,如文本和網(wǎng)絡(luò)。
在本章的最后,我們組合了一個(gè)健全的數(shù)據(jù)挖掘系統(tǒng)。我們的工作空間以強(qiáng)大的全功能編程語(yǔ)言Python及其許多實(shí)用數(shù)據(jù)挖掘程序包(如NTLK、Gensim、Numpy、Networkx和Scikit-learn)為中心,輔之以易于使用的免費(fèi)數(shù)據(jù)庫(kù)MySQL。
現(xiàn)在,通過(guò)以上對(duì)軟件包的討論使我們想到:你是否對(duì)哪些程序包最經(jīng)常一起使用感到疑惑?是較為常見(jiàn)的NTLK和Networkx組合,還是相對(duì)不常見(jiàn)的程序包搭配?在下一章中,我們將解決這一類(lèi)問(wèn)題。在第2章中,我們將學(xué)習(xí)如何生成經(jīng)常發(fā)現(xiàn)的配對(duì)、三元組、四元組等的列表,然后根據(jù)找出的模式作出預(yù)測(cè)。
總結(jié)
以上是生活随笔為你收集整理的《Python数据挖掘:概念、方法与实践》——1.5节小结的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 深入浅出LVS:企业集群平台负载均衡的三
- 下一篇: Python序列化