关于小数据博客
? ?作為博客的第一篇博文,一直在考慮應該寫點什么?思考了很久,最終還是決定聊一聊為什么要寫博客以及為什么博客名叫小數據?
為什么要寫博客?
? ?做數據挖掘純屬興趣,從大二參加數學建模開始,就深深的被數據這一塊吸引了,那個時候還沒有聽說過數據挖掘和大數據的概念,只是覺得這一塊很有意思,它讓我意識到“原來我也可以做點東西,我也可以通過努力來解決一點現實生活中的問題”,而不是一無是處,什么也做不了,我很喜歡這種感覺。于是就這樣一路玩過來。
? ?做數模的時候很崇拜技術,一直覺得我們要用很NB別人都不會用的算法,那樣才叫厲害(PS:現在回頭看以前寫的論文,才發現那時候是多么的幼稚)。由于專業的關系首先接觸到的是神經網絡,拿去做模型果然吸引了大家的眼球,屢試不爽;之后順便把所有的智能算法都學了一番,包括模糊算法、遺傳算法、粒子群、蟻群...;后來又用到了元胞自動機,排隊論等等,越學越覺得自己懂得越少,還會有很多自己不知道的很厲害的算法。于是很腦殘的花了很長的一段時間(一直到畢業)專攻算法:回歸(OLS,GLM,GAM,MARS,Lasso,Ridge...),時間序列(AR,MA,ARMA,ARIMA,Holt-Winter),分類(Decision Trees,SVM,Bayesian,KNN,...),聚類(K-means,Hierarchical-based,Density-based,GMM,...),Ensemble methods(bagging,boosting,RandomForest),推薦(Collaborative Filtering,Association Rule,Content-based,...)...
? ?學算法的同時慢慢意識到,用什么算法不是最重要的,模型背后的邏輯才重要,說清楚為什么這么做才重要。于是又回頭惡補這一部分,找了美賽最近10年的所有Outstanding論文,大概100多篇。看了三個多月,一篇一篇的解剖,找出論文的框架(這篇論文做了哪幾個模塊?研究思路是什么?為什么要做這幾個模塊?每個模塊又做了哪些子模塊?怎么做的?...),收獲頗豐,心得寫了整整兩本(PS:后來送人了,心痛啊。。。)。效果很明顯,后來看數模題目的時候,論文應該分哪幾個模塊,每個模塊寫些什么,甚至某一個段落應該寫些什么都可以想象的到(就這種很奇怪的感覺)。
? ?現在回歸頭來看雖然學了很多東西,但是一味追求數量,忽略了“質”,所有的東西都只了解了個大概,沒有一個算得上精通,越來越感覺到有點紙上談兵,很多事情無能為力。是時候靜下心來,好好沉淀沉淀了。所以,回頭梳理一下“學過”的算法,把基礎打得牢一點,把一直缺失的“質”找回來,而寫博客是一種很好的方式,這就是寫博客的原因。
為什么博客名叫小數據?
? ?現在大數據被炒得很火,所有的人都在談大數據。在進入公司之前,我也一直幻想著公司有很多數據,我可以用很多高級的算法構建一個很復雜的模型產生很好很好的效果;但是到公司之后才發現,做數據沒有那么高大上,你需要的數據要么沒有,即使有也非常的少、殘缺不全;在這里你可能用不上任何的算法模型,絕大部分工作就是做描述性的統計。
? ?我接到第一個關于數據的任務就是分析公司一款產品的運營數據并給出改進意見,數據只有7條(1-7月份運營數據,11個指標+2個目標變量),連個多元回歸模型都做不了。但是做過分析之后讓我很震撼,這么少的數據放在商業背景里去理解也能產生價值,也能幫助改進優化業務;在以前看來這是多么不可思議的一件事情。這件事對我有非常大的觸動,深深的意識到數據多少不重要,算法高級與否不重要,數據思維才重要,得到的結果有價值才重要!所以把博客取名為小數據,寓意小數據也會有價值,也值得分析。
轉載于:https://www.cnblogs.com/SmallData/p/3920868.html
總結
- 上一篇: 2008-2013年写的10个小软件
- 下一篇: placeholder调整颜色