制造工业中的机器学习应用:I概览
前言
簡(jiǎn)單回顧一下工業(yè)中的實(shí)際的機(jī)器學(xué)習(xí)應(yīng)用。這里的工業(yè)指的是第二產(chǎn)業(yè),即生產(chǎn)制造。有時(shí)候工業(yè)界,是為了和學(xué)術(shù)界進(jìn)行區(qū)分,那時(shí)的工業(yè)界更廣泛一些,甚至主要指第三產(chǎn)業(yè)服務(wù)業(yè)了,如我們熟悉的消費(fèi)互聯(lián)網(wǎng)。
?“中國(guó)制造2025”等關(guān)乎工業(yè)互聯(lián)網(wǎng)的政策很多,但是在第二產(chǎn)業(yè)里搞機(jī)器學(xué)習(xí)根本不賺錢(qián),下次如果換工作,絕對(duì)不來(lái)Lynk這種,一定要爭(zhēng)取去錢(qián)多的消費(fèi)者互聯(lián)網(wǎng)了。不過(guò),工業(yè)互聯(lián)網(wǎng)其實(shí)也很有樂(lè)趣,而且也很適合轉(zhuǎn)行的人進(jìn)行賽道切入,尤其是機(jī)械、化工等具備專(zhuān)業(yè)知識(shí)的人。說(shuō)起來(lái),年齡大了哪有什么情懷,誰(shuí)不是找不到工作才先混跡工業(yè)的呢。
步驟和流程
如果面對(duì)一個(gè)新的任務(wù),那如何開(kāi)始整個(gè)流程呢?工業(yè)中的實(shí)際的機(jī)器學(xué)習(xí)應(yīng)用,首先掌握整個(gè)流程和big picture是很重要的。以下更多是我個(gè)人工作中總結(jié)的經(jīng)驗(yàn),可能還有很多不足。
-
梳理整體脈絡(luò),掌握全局,建立知識(shí)體系框架
-
復(fù)雜任務(wù),分解為小任務(wù),確定每個(gè)小任務(wù)的目標(biāo)和評(píng)價(jià)方式
-
搞到數(shù)據(jù),了解數(shù)據(jù)的來(lái)源、屬性,對(duì)數(shù)據(jù)探索性分析
-
驗(yàn)證、特征、訓(xùn)練、預(yù)測(cè)完整的快速baseline
-
迭代優(yōu)化,從數(shù)據(jù)、目標(biāo)、特征、模型的角度更一步優(yōu)化
-
上線部署,要注重工程性和整體的架構(gòu) 模型性能監(jiān)測(cè),繼續(xù)優(yōu)化的同時(shí)要對(duì)性能下降快速定位和修復(fù)
有些容易忽視的點(diǎn),例如第一步。面對(duì)一個(gè)新任務(wù)首先應(yīng)該試圖建立整體的脈絡(luò)。對(duì)工作來(lái)說(shuō),可以保證方向的正確,保證遇到問(wèn)題可以站在前人的肩膀上進(jìn)行解決;而對(duì)個(gè)人來(lái)說(shuō),也是提高個(gè)人能力、學(xué)習(xí)新知識(shí)的好機(jī)會(huì),甚至去別的地方面試時(shí)都更能侃侃而談裝大佬。隨著任務(wù)進(jìn)行,這個(gè)脈絡(luò)也在逐步的完善清晰中。
第二步,在開(kāi)始任務(wù)之前,要清楚這個(gè)任務(wù)在更大情景的定位,要清楚這個(gè)任務(wù)的評(píng)價(jià)方式。所以NG才在他的“machine learning yearning”強(qiáng)調(diào)一定要設(shè)定單個(gè)數(shù)值的評(píng)價(jià)方式,這樣才好讓整個(gè)團(tuán)隊(duì)朝著正確的方向前進(jìn)。
第三步和第五步中,要注意從實(shí)際情況進(jìn)行考慮,畢竟真實(shí)場(chǎng)景其實(shí)不像比賽等封閉場(chǎng)景。可以設(shè)法搞到更多數(shù)據(jù),可以設(shè)法搞到自己想搞的特征,也可能數(shù)據(jù)的來(lái)源里也有信息。比如我對(duì)BMW前工作印象依舊很深的一個(gè)案例,在研究汽車(chē)保修數(shù)據(jù)趨勢(shì)的時(shí)候,發(fā)現(xiàn)了趨勢(shì)并不是直觀反應(yīng)質(zhì)量變好或變差的,而是和每個(gè)月有幾個(gè)星期五強(qiáng)相關(guān)。繼而通過(guò)調(diào)查發(fā)現(xiàn),原來(lái)經(jīng)銷(xiāo)商雖然可以每天都上傳數(shù)據(jù),但幾乎所有經(jīng)銷(xiāo)商都是在周五集中上傳數(shù)據(jù),導(dǎo)致如果這個(gè)月有5個(gè)周五的話,自然就比4個(gè)周五的多25%左右,而不是這個(gè)月的質(zhì)量差、保修多。這種初看奇怪的現(xiàn)象,就可以通過(guò)數(shù)據(jù)的來(lái)源方式得到合理的解讀了。當(dāng)時(shí)如果看不到這一點(diǎn),就開(kāi)始做預(yù)測(cè)模型就失去預(yù)測(cè)的意義了。
第六步和第七步中,我自己也不會(huì),也沒(méi)啥工程能力,是非計(jì)算機(jī)的弱勢(shì)吧。提高一些計(jì)算機(jī)基礎(chǔ)是很有必要的。而定位線上問(wèn)題一方面要積累經(jīng)驗(yàn),另一方面也可以通過(guò)良好的系統(tǒng)設(shè)計(jì)幫助我們,例如監(jiān)控輸入特征的數(shù)據(jù)范圍、數(shù)據(jù)屬性等。
后續(xù)篇章會(huì)結(jié)合具體案例介紹了。
聯(lián)系方式
公眾號(hào)YueTan
總結(jié)
以上是生活随笔為你收集整理的制造工业中的机器学习应用:I概览的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: Mybatis源码分析之(三)mappe
- 下一篇: 时间序列预测:I概述