AI行业分析与面试指南
原創:晏茜
資料來源:陳旸
近年來,人工智能行業的受歡迎程度是有目共睹的,越來越多的人想要加入 AI 這個行業。但是在我們正式開始求職之前,應該進行理性的分析,了解現階段 AI 行業的發展趨勢,AI 行業需要什么樣的人才,AI 人才需要掌握什么樣的知識技能才能謀求更好的職業發展機會,本文將帶大家深入了解 AI 發展趨勢和 AI 人才必備技能,希望能夠幫助求職者找到正確的方向。
本文將大致分為三個方向。首先我們先帶大家了解一下我們所處的時代有哪些關鍵的技術變革;其次,會帶大家了解除了大廠以外,還有哪些傳統的行業也在做數字化的轉型,這些行業同樣值得 AI 從業者去考慮;最后,會介紹在我們的求職面試過程中有哪些需要注意的地方。
1. 云計算、AI、大數據的區別與共生
相信大家都聽說過云計算、大數據、人工智能,可能還會對他們有一定程度的了解,那么請問這三者之間有任何的聯系嗎?他們是相互獨立的,還是互生依賴的呢?其實,無論是云計算、AI 還是大數據,都屬于朝陽行業。云計算像是一個底層的存儲的框架。云計算的崗位廣泛存在于互聯網企業中,比如,阿里云、騰訊等等,如果你能去這些公司的云計算的相關崗位去工作的話,也是非常好的選擇。大數據的崗位職能主要是大數據的治理,還有大數據的運算,實際上很多的算法也是在海量的數據中進行運算的。舉個例子,比如京東要上架一本新書,這本新書叫做《數據分析》,針對這本新書,我們想要找到它的潛在的用戶去做推送,那么我們如何去做呢?據統計,京東每天的訂單量大約有 1000 萬單,那么一個月的訂單量就會有 3 億 左右,這個數量級是非常驚人的。如果按照更長的時間線的話,我們的用戶行為數據是一個海量的數據,所以直接用 Python 其實是無法解決這么大的數據量的,這就需要底層的一個大數據,所以我們可以利用基于 Spark 等大數據處理框架去跑一些數據建模,去預測一下哪些用戶會對這本書感興趣,并做推薦。這是大數據的一些底層的技術。人工智能技術大家應該會更加了解,這里不做更多的介紹。
云計算、大數據和人工智能這三個部分其實都可以把他們稱之為新基建,也就是我們在科技領域中所處的第四次革命。在前三次工業革命中,每一次都給我們帶來巨大的生產力的變化。在上個時代,出現了電腦、互聯網,而現在我們整個的新基建更像是一個機器,它把云計算、大數據以及 AI 串聯到了一起。
如圖所示,我們的底層是一個云計算,在做計算的過程中,有越來越多的數據會被放到云端,如果你在互聯網公司工作,公司一定需要一個 IT 的支持部門,這個支持部門一定會有很多的服務器一起幫你去完成運算,所以,底層可以是私有云,也可以是公有云。中間層是大數據,大數據需要有很多的結構,包括數據治理和數據安全。數據治理的目的就是要把數據標準化做成一個中臺,如果公司想要更好的去支持他的業務的發展,就需要有一個強大的中臺,這個中臺會把數據標準化、規范化,從而讓所有的業務部門都可以看到一個相對干凈的、標準的、唯一的數據,這是我們的大數據中臺。最上層是人工智能。
國內互聯網大廠(新基建戰場)
在 AI、大數據和云計算這三層架構中,哪一層架構與業務最接近呢?與業務最接近的架構一般指的是能夠直接看到結果的那一層架構。不難發現,人工智能其實是離結果最近的,也就是離業務最近的。
我們可以發現一些大廠也在做一些布局,這些互聯網公司其實是在做底層的基礎設施的建設。比如以華為云為例,華為云做了一個工具,叫做 ModelArts。ModelArts 這個產品實際上是一個自動機器學習的產品,業務人員將數據上傳之后,它就可以自動完成模型的搭建,同時也可以自動的完成部署。所以從模型的標注環節,再到數據的預處理、建模、上線、評估,一系列的過程都是通過這個產品來完善的。騰訊云做了一個偏向于云計算的架構,名為 Serverless。如果你在百度工作,一般會使用百度自主研發的深度學習技術框架,Paddle。目前,在國產的深度學習技術框架中,Paddle 是排名第一的框架,它的使用量是非常高的。阿里云目前在做的一件事叫做數據中臺,阿里云體系里面有兩個產品跟數據中臺是有關系的。一個產品叫做 DataWorks,另外一個產品叫做 MaxCompute。DataWorks 是數據治理的工具,包括底層的數據的集成、清洗等等,MaxCompute 可以做各種各樣的大數據的運算。
阿里云還有一個很好用的產品叫做數據銀行,數據銀行里面有它獨一無二的數據,也就是每個人的淘寶的用戶畫像。大家應該都會使用淘寶,也會使用支付寶、微博、優酷,或者哈啰單車等等,這些產品都是阿里系產品。而只要是阿里系產品,他的數據就會流入到阿里的數據銀行中。這個數據銀行會給每個用戶打上大約 2000 個標簽,這樣就形成了阿里對用戶的洞察,而且阿里以人群畫像的形式將他所獲取的數據開放了出來。為什么阿里不把他最直接的、個性化的 ID 畫像提供給我們,而是提供了人群畫像呢?假設我們輸入某用戶的手機號碼,數據銀行反饋給我們一些信息,包括該用戶的個人信息,還有他經常去哪些地方,有什么樣的購買行為,他的月均消費是多少,曾關注過哪些品牌等等,這就像是用戶的流調信息。如果阿里將這些最直接的信息開放給你,他實際上是沒有開放到底層的技術的,并且這些信息屬于用戶的個人隱私,是涉及到數據安全的。所以,數據銀行開放給我們的的不是 ID 的力度,也就是某一個人的數據,而是整體的人群畫像。
那么什么叫做人群畫像呢?簡單來說,人群畫像就是對用戶群體的整體統計,比如說我們要做 2000 個人的人群畫像,我們可以在微博上找到 2000 個 ID 組成一個人群包,我們把這個人群包放到數據銀行中,第二天(T + 1 天)我們可以拿到該人群包的報表,它會告訴我們這個人群包里面用不同品牌手機的人的比例是多少,他們更傾向于用哪種型號的手機,還有他們的性別、年齡、學歷、人生狀態等等,這時我們得到的是一個相對比較抽象的人群畫像,這個人群包就可以幫助我們做用戶的洞察。那么對于企業來說,這樣的人群畫像是否是有價值的呢?筆者曾詢問過很多企業,這些企業都覺得是非常有價值的,甚至這個價值大于他們自有數據的價值,這是為什么?因為企業現有的自己對用戶的洞察是非常稀疏的,事實上,他們很難收集到大量用戶的行為數據,但是我們每個人基本上都在阿里的數據銀行上有很多的行為的記錄,所以對于企業來說,這種數據非常有價值的。而且如果企業獲取了這樣的人群包,他們就可以建很多新的人群包,如果一個公司有 10 個產品,分別是產品 A、產品B、產品 C 等等,而每個產品都有它自己的獨特的受眾,只要你能把產品 A 的對應的特定受眾群體找到,那么就相當于有了產品 A 的人群包的具體的畫像。
對于我們的數據中臺來說,阿里提供了兩種不同的技術,一是工具,包括 DataWorks 和 MaxCompute,這是云計算的產品,二是開放了淘系產品里面的人群畫像,你可以自己去定義人群包,對用戶行為進行洞察。
另外,我們看到了一些行業的趨勢,比如垂直的生態。中國銀聯在做的金融云就是垂直生態的體現,中國銀聯聯合旗下及合作過的銀行,正在做金融云,并且他想賦能所有的銀行金融的企業都來進行合作。
如上圖所示,左側是互聯網公司在做的事情,右側是他們的核心能力的輸出。華為的 AutoML 的本質是給你提供一個基建,最終得到的是一個 AI 模型,企業可以通過華為的強大的算力,訓練好自己的 AI。騰訊的 Serverless 可以做到非常彈性的部署,比如我們想要搭一個云服務,以前你是不是要買一臺主機,這個主機一年大概需要 5000 塊錢,對一般人來說,因為你的使用效率不高,一年可能只訪問 10 次,平均一次就要花費 500 塊錢,相對來說是十分昂貴的。對于騰訊 Serverless 來說,如果只訪問 10 次,可能只花 1 塊錢就夠了。百度 AI 的 Paddle,我們可以把它理解成是我們深度學習的一個計算引擎,而且這個引擎也做了很多的預訓練的版本。阿里云更主要的是一些技術,還有一些數據的賦能。
上圖為阿里云的技術解決方案。他在給我們的銀行提出解決方案的時候,會給到一個整體的方案。底層是他的云平臺的基礎設施叫做飛天大數據,中間部分是他的一些數據類型的產品,可以指導銀行做一些相關的業務,而這些最終都是可以搭建在云原生這個系統上面去完成的。
如圖是谷歌的 AutoML(自動機器學習)的頁面,關于 AutoML 的使用, 我們發現有一個有趣的現象,以前使用 AutoML 的通常是業務人員,因為業務人員不寫代碼,他們只能用這樣的工具,通過網頁把數據上傳上去,點擊按鈕后,模型就出來了。而現在我們發現技術人員也在使用它。在去年的一個 CCF 的關于個貸違約預測的比賽中,就有一位選手使用了 AutoML ,并且取得了還不錯的成績。AutoML 把它每一步要做的事情標準化了,寫成了一個流程,可以把它稱之為 pipeline。這個流程是它內嵌的一套流程,我們只需要把數據給到它,選好你要操作的模式,它就會自動的幫你去進行建模,把這個模型選出來。
Google Cloud:不僅是計算平臺,還擁有數據
AutoML 的鼻祖是 Google,在谷歌云上面提供了 AutoML 這個工具, 這個產品的主導者叫做李菲菲。李菲菲在谷歌大腦的時候,做了 AutoML 這樣一個產品。AutoML 有很多企業的受眾,比如日本的電商的企業,Mercari 。Mercari 是一款在日本很受歡迎的購物應用程序(日本跳蚤市場排名第一),類似于我們的閑魚。在這個 APP 上面,用戶可以上傳任意一張照片,就可以找到與它相似的一些商品。在這個過程中,我們其實是在進行拍照識別的操作,通過拍照識別判斷出這張照片中的商品屬于哪一品牌。而這樣的操作,在以前我們是需要自己進行建模并打上標簽的,可以說這個過程是非常繁瑣的。而如果你使用了 Google 的 AutoML ,不僅會使操作更加便捷,同時也提高了效率。雖然 Mercari 自己在 TensorFlow 上訓練的模型達到了 75% 的精度,但是使用 Google AutoML Vision 解決方案對圖像進行分類,精度可以高達 91.3%,提升了 15%。所以我們可以發現使用 AutoML 不僅能夠提高效率,而且得到的效果還會更好。
Google AutoML 世界觀
AutoML 的收費模式是按小時來進行付費的,金額是每小時 20 美金,在國內,華為云一個小時的收費大約是 10 塊錢。除了 GPU 租用可能需要花一些錢,Google 這個搜索引擎還會給你提供一些專業的數據,我們知道搜索引擎天生就可以擁有海量的數據源,在 Google 里面內嵌的 5 萬張圖片,它可以自動的幫你找到這樣的 5 萬張圖片來做一些數據的標準。那么基于這件事的話,模型的效率就會更高。
所以我們得出結論,大廠在去做底層的基礎設施建設的時候,在這個基礎設施里面,我們可以直接使用云端的算例,甚至我們的數據可以來自于搜索引擎給你提供的基礎的數據。模型的訓練以前是算法工程師在做,現在我們可以直接用一個產品 AutoML 來幫助我們去做這件事。它替代了部分的算法工程師的工作,會幫助你去建一個模型,叫做自動機器學習。我們可以發現大廠已經已經開始涉足模型、算例、數據源這三個維度,他們希望把這三個維度整合到一起,讓人們去使用,通過這樣的方式,建模會比以往更加的容易。
不僅僅是谷歌,在國內也有很多的云廠商都在關注著這樣的事情,2019年 9 月 18 日,華為發布計算戰略,他研發出了目前世界上訓練速度最快的 AI 集群:Atlas 900 ResNet-50,Atlas 900 只用 59.8 秒就完成了整個訓練,它的速度是非常快的。
華為不僅是要進入硬件領域,他還想再做一個 AutoML 的產品。有這樣一則新聞報道,2019 年,華為破格招錄了 8 個博士生,這些博士生是剛剛畢業的應屆生,而他們的年薪竟然達到了 200 萬。在招聘的 8 個博士生當中,其中的兩個博士生是專門研究 AutoML 的,后來華為推出自己的產品叫做 ModelArts,也就是他們研發出來的一個 AutoML 的產品,而這個產品其實是對標了谷歌的產品。
2. AI 求職風向
總結一下最近 AI 領域的一些求職的方向,一種方向是互聯網大廠,他們做的事情更像是一個基礎設施的公司,我們所有的互聯網大廠提供的基礎設施實際上就是一個中臺,是所有人都離不開的設施。我們的技術會逐漸的下沉,下沉到產業界,比如,制造業和金融業,這兩個行業的發展依賴于算法的不斷變革和更迭。
在醫療產業中,現在很多的演變計算都是可以通過 AI 來實現的。有一則新聞曾報道,我們可以通過 AI 計算出奧密克戎病毒的分子結構,并且計算的結果與其實際的分子結構相差不大,這種模擬其實就可以通過某些算法來生成。所以,在各個行業中,比如金融行業、制造行業、醫療行業等等,我們都需要與 AI 技術進行結合。“AI + business”是我們的主流的方向。
在求職過程中,我們可以找到幾個行業點,比如說未來有機會的話可以去大廠的 AI Lab,一般大廠都有自己的 AI 實驗室,比如騰訊的 AI Lab 和優圖,這兩個都是 AI 相關的實驗室,阿里的達摩院,字節跳動的字節 AI Lab,百度的視覺技術部等等。除了 AI 的工作室以外,互聯網大廠的某些核心的產品崗中,也存在一些 AI 的就職機會,比如大家熟知的王者榮耀,前一段時間出了王者榮耀的 AI,絕悟,它已經打敗了人類的冠軍,并且王者榮耀也已經把這樣的 AI 技術遷移到其他的游戲場景中。
3. 傳統行業的數字化轉型
傳統行業的數字化轉型這部分的內容,會通過舉例說明的方式讓大家有更深刻的理解。我們以保險行業為例,在保險這樣的傳統的金融行業中,有沒有一些 AI 的機會呢?一定是有的。首先是產品定價。產品的定價如果過高,就會導致銷量的下降,收益也會減少,而如果定價太低,雖然產品的銷量提高了,但是最終的收益也不一定能上升,所以價格的界定是非常關鍵的。那么,究竟要如何定價,我們才能賺取更多的利潤呢?我們需要一個仿真模型,去模擬價格和銷量之間的關系,同時也要找到一個優化的價位,使得我們整體的收益最大化。
大數據用例:產品定價
不知道大家有沒有了解或購買過商業險,商業保險尤其是醫療保險有兩種形式,一種是給付型,另外一種是報銷型。給付型是指如果被保險人出險,保險公司會給被保險人一筆固定數目的保險金額。報銷型是指按照被保險人的實際需要的醫療費用來進行報銷,簡單來說,就是花多少報多少,在報銷型的商業保險中,保險公司會對被保險人的醫療費用做一個準確的判斷,只有這樣才會使產品定價更為合理。
那么如何去判斷價格呢?其實,這就是一個 AI 模型的具體應用。我們要收集患者的特征,收集患病的的階段,我們還會統計已有的出險情況,已經賠付了多少錢,醫療費用是多少錢,這樣我們就會有大量的樣本。有了這么多的樣本我們就可以進行建模,這是一個經典的回歸問題,我們可以利用這些樣本去構建醫療費用的預測。
在預測過程中,我們會發現,比如,在癌癥治療時,原位癌的手術的治療是以激素治療為主,費用會比較低,如果是 I-III 期的患者,除了手術以外,還可能需要進行化療,費用就會大大增加。如果是 IV 期的患者,治療就會以化療、放療為主,價格就會更高。所以如果保險公司要為其報銷的話,針對不同的用戶特征,不同的治療階段,以及不同的癌癥類型,費用其實都是不一樣的,所以,就需要建立一個更加精準的模型去實現準確的保險定價。所以,可以看出來在一些業務場景中,價格的制定是非常關鍵的,也是非常需要進行 AI 建模的。
大家有沒有買車并上過車險呢?在美國,前 10 大財產保險公司,已有 9 家開展了 UBI (Usage Based Insurance)車險。UBI 會基于駕駛行為判斷給予車主車險折扣或者基于實際駕駛里程對車主按里程付費。也就是說,你跑了 1 萬公里和你跑了 10 萬公里的保險費率是不一樣的。這里的里程數就是用戶行為,所以基于它的話,我們也需要通過它去做建模,對被保險人去制定價格。UBI 車險規則在國內處于起步階段,比如中國平安保險已經推出了 UBI 的車險,這也是他們的一個主要的項目。
在傳統行業,尤其是金融領域中,欺詐的情況尤為嚴重。對于保險公司來說,是一定會存在欺詐行為的。那么保險公司能否識別出來這樣的行為呢?大家有沒有接到過詐騙電話?當你接到了一個詐騙電話,這個電話可能是從香港打來的,詐騙者可能會問你是不是前一段時間曾在淘寶上購買過某一個商品,以此來對你實施詐騙行為,類似的情況一定會存在。詐騙行為在我們的日常生活中廣泛存在,而金融行業更是一個詐騙集中的地帶。
據統計,在保險行業中,保費的理賠有 10% ~ 20% 都是欺詐的行為,甚至在某一些細分的產品中,欺詐概率高達 50%,保險欺詐已經成為僅次于逃稅的第二大犯罪領域了。所以這種欺詐的現象,對保險公司來說損失是非常慘重的。在對過去 300 多家的美國已倒閉的保險公司的調查中,數據顯示有 30% 保險公司倒閉的原因都是因為保險反欺詐工作不利所造成的損失過多。針對這樣的問題,其實最好的解決方式是去做欺詐的預測,由機器先去做一個初篩,然后再將可能存在欺詐行為的保險理賠進行人工的復核,這是最好的解決方案。
Santam 是南非的一個短期保險公司,他們已經統計到每年欺詐行為占他已有保費的 10% 左右,這種欺詐行為就會導致保費的成本過高,轉嫁給了其他正常的客戶。不僅是價格更高,也會使理賠的周期變得更長。為了更好的去識別可能的欺詐,每一次的理賠都會要求人工介入,這會導致整個保險理賠的流程需要三個工作日才能完成。用戶的保費高,體驗差,時間長,不利于保險公司的發展。那么 Santam 的解決方案是什么呢?他通過數據建模的方式進行預測。首先通過機器預測保險是否是欺詐行為,并將保險理賠分成不同的等級,比如,欺詐概率很低的理賠,就會快速處理,大約一個小時就可以完成。欺詐概率很高的理賠,就需要進一步的人工核查,以降低保險公司的損失。所以通過 AI 的建模,不僅可以減少欺詐造成的損失,而且可以讓保險理賠的效率有了極大的提升。
4. AI 面試考什么
了解了 AI 的求職方向之后,我們再來看一下在面試過程中可能會涉及到的問題,希望對即將或計劃面試 AI 相關職位的同學有所幫助。那么接下來我們來看一下 AI 面試考核的內容。
- 理論基礎
首先,面試官會考核你的理論基礎。GBDT 的原理是考察的重點,因為在項目過程中,GBDT 是十分常用的。除此之外,還有可能會問到分類樹和回歸樹的區別。你可以關注一下面試的公司在招聘 JD 里面寫到了需要求職者具備哪些技能,他如果提到某項技術的話,你需要對這個技術的原理提前了解,理論基礎在面試之前一定要提前梳理一下,以便更好地應對面試。
- 工程能力
其次,會考察你的工程能力,考察工程能力最直接的方式就是看一看面試者以前做過的或參與過的項目,所以面試官一定會問你以前的工作履歷。可能會問你之前是否用過 XGBoost,LightGBM,也可能會問你如何防止過擬合等問題。這一部分也建議大家自己進行復習。也許你會說自己的工作還要復習嗎?即使是自己從事過的工作也是需要復習的,因為面試官必問的問題就是你拿分的問題,所以需要你提前做一下項目經歷的梳理和優化。
- 業務理解
最后,考察你的業務理解,業務理解更多的會涉及到面試官所在公司的業務。假設他們公司在做的事情與股票相關,他可能會問預測股票價格走勢一般都會出現嚴重的過擬合現象的原因等問題。假設他們公司當前核心戰略是 AutoML 產品,那么面試官可能會問你之前有沒有了解過或使用過 AutoML。
面試基本上會涉及到理論、工程、業務這三個環節,除此之外,還有一點更容易讓你從一眾面試者中脫穎而出,那就是你的影響力。如果你的面試壓力比較大,競爭也比較激烈,面試官可能還希望你能有一點影響力。比賽就是一個最直接的體現你的影響力的方式,比如說你打過比賽,并在比賽中取得了不錯的名次,在你的理論基礎、過程能力和業務理解都不錯的情況下,更容易打敗其他面試者并被錄用的。因為比賽實際上是具有大量參賽選手作為基數的,如果有 1 萬個人參加比賽,你在這 1 萬人里面排名第 10,那么就是你的一個非常有價值的地方。
5. AI Offer 4步法
那么,如何去準備 AI 面試更有益于取得 Offer 呢?我們希望大家遵循以下四個環節。
Step1,知識儲備(必備知識)
HR考核:相關知識點是否有具備 => 關鍵知識點 Cover 90%
豐富你的知識儲備,在正式面試前應盡可能積累相關技術的理論知識,關鍵知識點的考核會占到面試分數的 90% 左右。
Step2,工程力(上手能力)
HR考核:給你一個題目,能否在1小時內完成,計算復雜度如何
之前是否有相關項目經驗 => 積累項目簡歷
關于工程能力的考察,我們發現一些大廠會給面試者一道題目,讓你去進行測試,看看你能否通過。這個題目很有可能跟你的工作關系不大,原因是無論是第一步知識儲備的考核還是第二步工程力的考核,都是大廠篩選人才的主要手段,而到了第三步業務能力,才會真正地對你的實戰能力進行考核。
Step3,業務力
對大廠的核心業務,未來戰略是否了解,是否match
=> 大廠之間的交流,參加峰會
Step4,影響力
開源社區影響力
業務場景的能力和你的影響力,是你能夠戰勝一眾面試者并獲得 Offer 的關鍵因素,如果你能拿到一個比賽的冠軍,或在權威期刊發表過你的文章等等,這都會是一個非常有利的標簽。
總結
以上是生活随笔為你收集整理的AI行业分析与面试指南的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: GAN (生成对抗网络) 手写数字图片生
- 下一篇: AI 趋势