《构建实时机器学习系统》一1.8 实时机器学习模型的生存期
1.8 實時機器學習模型的生存期
進行實時機器學習開發必須考慮生存期。生存期是指一個系統從提出、設計、開發、 測試到部署運用、維護、更新升級或退役的整個過程。若在生存期設計上出現了數據,那么在后面的使用中就會出現各種各樣的瓶頸阻礙應用產生價值。
從軟件工程的角度上講,開發實時機器學習也遵從構思、分析、設計、實現和維護五個步驟,這五個步驟可能會循環往復,隨著業務的發展進行多次迭代。實時機器學習模型的應用由于其技術的特殊性,也具有自己的小型生存期,其中包括數據收集、數據分析、離線手工建模評測、上線自動化建模評測這四個方面。如圖1-1所示,離線手工建模評測、上線自動化建模評測這兩個部分主要是靠監督式機器學習。而數據分析主要是依靠非監督式機器學習和統計數據分析。
值得一提的是,進行上面這四個步驟的前提是機器學習模型能夠給組織和用戶帶來價值。但是,眾多開發人員甚至是領導層都不愿意面對的一個問題是:我的模型真的有用嗎?
對于一些非機器學習大數據類的初創公司來說,在用戶數量并不太多的情況下,用非監督式機器學習進行少量數據分析,然后用人力進行反饋,反而有可能會取得更優良的投資回報率。筆者道聽途說得知國內一些門戶視頻網站,就算在公司都已經上市之后,仍然還在使用人工選擇的方式進行視頻推介,甚至還取得了尚可的效果。
如果機器學習不能給組織帶來直接效果,就算有高層支持,對于機器學習從業人員來說也不是很好的職業選擇。在機器學習能為組織帶來效益的情況下,讓數據說話,從業人員才能夠不斷進行深挖,并得到更多的鍛煉和領域洞見;與此相反,如果所建立的系統聽起來很好,但是卻沒能帶來相對應的效益,那么這樣崗位上從業人員的工作重心就會像浮萍一樣隨波逐流,被公司政治利益驅動,長期來說這樣很不利于從業人員的個人發展。
機器學習實戰的最高境界,就是知行合一,在創造科技前沿作品的同時,能夠為個人、組織和社會帶來效益,這也是本書寫作的指導思想。
在下面的章節里,我們將會從更實際的角度出發來探索實時機器學習的應用。其中,第2章到第4章,我們將會介紹監督式機器學習模型,并且學習建模的工具Pandas和Scikit-learn;第6章到第9章,我們將會介紹實時機器學習的架構,并且學習使用Docker、 RabbitMQ、Elasticsearch及數據庫等重要組成部分。
總結
以上是生活随笔為你收集整理的《构建实时机器学习系统》一1.8 实时机器学习模型的生存期的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 初谈Git(本机克隆项目远程仓库)
- 下一篇: Eclipse 运行Openfire源码