《Python数据挖掘:概念、方法与实践》——1.5节小结
本節書摘來自華章社區《Python數據挖掘:概念、方法與實踐》一書中的第1章,第1.5節小結,作者[美] 梅甘·斯夸爾(Megan Squire),更多章節內容可以訪問云棲社區“華章社區”公眾號查看
1.5 小結
在本章中,我們學習了將數據挖掘工具箱擴展到大師級別所需要做的工作。首先,我們從作為數據庫知識發現(KDD)過程一部分的數據挖掘歷史開始,對該領域進行了全面的介紹。還比較了數據挖掘其他類似的領域,如數據科學、機器學習和大數據等。
接下來,概述了KDD過程中大部分專家認為最重要的工具和技術,特別關注挖掘和分析步驟中最頻繁使用的技術。為了真正精通數據挖掘,重要的是要關注和簡單的教科書示例不同的問題。因此,我們將致力于更獨特的數據挖掘技術,如生成摘要和尋找離群值,并關注更加不同尋常的數據類型,如文本和網絡。
在本章的最后,我們組合了一個健全的數據挖掘系統。我們的工作空間以強大的全功能編程語言Python及其許多實用數據挖掘程序包(如NTLK、Gensim、Numpy、Networkx和Scikit-learn)為中心,輔之以易于使用的免費數據庫MySQL。
現在,通過以上對軟件包的討論使我們想到:你是否對哪些程序包最經常一起使用感到疑惑?是較為常見的NTLK和Networkx組合,還是相對不常見的程序包搭配?在下一章中,我們將解決這一類問題。在第2章中,我們將學習如何生成經常發現的配對、三元組、四元組等的列表,然后根據找出的模式作出預測。
總結
以上是生活随笔為你收集整理的《Python数据挖掘:概念、方法与实践》——1.5节小结的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 深入浅出LVS:企业集群平台负载均衡的三
- 下一篇: Python序列化