别求面经了!小夕手把手教你如何斩下和选择NLP算法岗offer!(2020.4.14更新)...
推完上一篇文章,訂閱號(hào)和知乎后臺(tái)有好多小伙伴跟小夕要面經(jīng)(還有個(gè)要買簡(jiǎn)歷的是什么鬼),然鵝小夕真的沒有整理面經(jīng)呀,真的木有時(shí)間(。 ?︿ ?。)。不過話說回來,面經(jīng)有多大用呢?最起碼對(duì)于NLP崗位的面試來說,小夕發(fā)現(xiàn)根本不是面經(jīng)中說的樣子。。。
其實(shí)今年參加NLP算法崗秋招的小伙伴可能有感慨,“照著別人的面經(jīng)去準(zhǔn)備了辣么多,輪到自己面試時(shí)內(nèi)容怎么這么不一樣?!”
“說好的要做到熟練推導(dǎo)SVM呢?怎么從來沒人讓我推導(dǎo)SVM?”
“整場(chǎng)面試都在聊前沿論文啊什么鬼?從來沒見這樣的面經(jīng)呀!”
“為什么面試官只問他簡(jiǎn)歷內(nèi)容,輪到我時(shí)一點(diǎn)簡(jiǎn)歷內(nèi)容都不問?“
不止今年,將來的面試肯定更趨向于千人千面,畢竟AI行業(yè)也將越來越細(xì)化嘛。所以小夕精心準(zhǔn)備了這篇“萬能”文章給你們,希望大家將來都能收割到自己想要的offer~
這篇文章不是面經(jīng)集合,也不是裝X和販賣焦慮的曬offer貼,也不是堆砌可能問到的知識(shí)點(diǎn),而是希望給還在迷茫的小伙伴提供一些系統(tǒng)的指導(dǎo)和建議。當(dāng)然,這些建議可能不適合每個(gè)人,因此希望大家從這篇文章里汲取到適合自己的養(yǎng)分,千萬不要邯鄲學(xué)步哦m(— —)m
目標(biāo)觀眾
首先,本文的討論范圍僅限自然語言處理(NLP)相關(guān)崗位!親測(cè)NLP崗的套路跟數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)崗還是有明顯差異的,所以千萬不要按本文的套路去準(zhǔn)備DM、ML的面試!
然后說一下本文的目標(biāo)群體。想去拿MSR、FAIR、Google Brain offer的大佬請(qǐng)放過小夕(。 ?︿ ?。)深知自己哪怕能拿到這些地方的offer,也基本是在邊邊角角的地方做做邊邊角角的事情,所以直接放棄了,真的木有經(jīng)驗(yàn)可以分享。還有那些已經(jīng)一大把頂會(huì)的小伙伴,求給小夕指導(dǎo)好么!
其實(shí)之前小夕也曾想著去外企的研究院(雖然菜的一無所有),然而很扎心的一次次打聽到外企的研究院的研究崗基本只招PhD,哪怕作為碩士進(jìn)去了也基本是干邊邊角角雜活的engineer了。雖然外企的業(yè)務(wù)部門也有NLP崗位,而且碩士也容易進(jìn),但是進(jìn)一步打聽了一下,聽說碩士進(jìn)去很少有research相關(guān)的工作,最多做做模型優(yōu)化,弄不好就是爬數(shù)據(jù)、清洗數(shù)據(jù)了。后來拿了一家的offer后聊了聊發(fā)現(xiàn)確實(shí)如此,加上后來沒什么面試的狀態(tài)了,也就把外企都統(tǒng)統(tǒng)放棄了。不過有條件的同學(xué)可以在外企研究院或業(yè)務(wù)部門做做research intern,這方面對(duì)碩士友好的多。
言歸正傳,對(duì)于想拿國內(nèi)一線大廠的核心研究部門和核心業(yè)務(wù)部門NLP崗offer的童鞋,點(diǎn)贊本文,你就收獲了半個(gè)offer!轉(zhuǎn)發(fā)本文,你就收獲了0.75個(gè)offer!(等等,文風(fēng)好像越來越像傳銷了。。。)
國內(nèi)的NLP方向的崗位一般叫做NLP算法工程師/研究員/工程師,不要被名字迷惑了,一些廠標(biāo)榜的NLP研究員本質(zhì)上就是懂點(diǎn)NLP的研發(fā)工程師,也有一些廠懶得區(qū)分,無論是做前瞻研究還是業(yè)務(wù)研發(fā)統(tǒng)一叫NLP工程師,需要大家拿到offer后自己跟主管多聊聊具體工作職責(zé)和日常工作內(nèi)容,真的不要糾結(jié)崗位名字。
簡(jiǎn)單說一下自己的經(jīng)歷吧,可以給大家做個(gè)參考。雖然踩了些雷導(dǎo)致錯(cuò)過了一些機(jī)會(huì),但是自己看好的NLP團(tuán)隊(duì)都拿到了offer,無非就是offer等級(jí)高低,package能談多高的問題。最終也有幸拿到了心儀團(tuán)隊(duì)的SSP offer,其他大廠和一些明星初創(chuàng)公司也大都拿到了不錯(cuò)的SP offer。此外,就簡(jiǎn)歷投遞來說,投了一圈都沒有沉(可能因?yàn)殚L(zhǎng)得好看),有筆試環(huán)節(jié)的大廠也沒掛過筆試,package大多開到40w左右,有兩個(gè)給出戶口承諾的,有幾個(gè)戶口抽簽的。不過要兼?zhèn)鋚ackage、戶口、團(tuán)隊(duì)實(shí)力與研究方向/業(yè)務(wù)的興趣程度的話,并不容易。
Research or Product ?
首先,要搞懂自己想要什么。粗略的看,如果想做research,比如發(fā)發(fā)paper,打打國際比賽,做做通用技術(shù)平臺(tái),為現(xiàn)在或?qū)淼漠a(chǎn)品孵化算法接口,就去偏research的團(tuán)隊(duì);如果想直接優(yōu)化產(chǎn)品的算法指標(biāo),看到自己的成果快速反映在產(chǎn)品的用戶體驗(yàn)和經(jīng)濟(jì)效益上,那就去偏業(yè)務(wù)的部門。這兩種不同導(dǎo)向的部門在面試的時(shí)候的關(guān)注點(diǎn)會(huì)存在一定差異。
當(dāng)然,再偏research的部門也會(huì)把成果直接或間接的輸出到各個(gè)產(chǎn)品線上(否則養(yǎng)你干嘛),再偏業(yè)務(wù)的部門也會(huì)有關(guān)注前沿的小團(tuán)隊(duì),畢竟NLP本身還沒有成熟嘛。
不過總的來說,比如你想做research,有不錯(cuò)的論文或比賽經(jīng)歷,對(duì)某個(gè)方向研究的比較深入,但做系統(tǒng)的經(jīng)歷相對(duì)匱乏,則偏research的團(tuán)隊(duì)可能更賞識(shí)你;如果你想做產(chǎn)品,并且做系統(tǒng)、啪代碼的能力不錯(cuò),論文也刷了不少但是科研熱情不高,則你可能跟業(yè)務(wù)部門更match。
算下來自己面了8、9個(gè)NLP團(tuán)隊(duì),加上一些跟小伙伴的交流,也算對(duì)國內(nèi)工業(yè)界NLP團(tuán)隊(duì)的大概情況有一些了解了。下面說說幾個(gè)面下來感覺團(tuán)隊(duì)不錯(cuò)或小伙伴反饋不錯(cuò)的團(tuán)隊(duì)吧,大家參考一下就好,很多優(yōu)秀團(tuán)隊(duì)沒貼上來僅僅是因?yàn)槲覀儧]去面過而已。。。
偏research/通用平臺(tái)的:
- 百度
- AIG的NLP團(tuán)隊(duì)(分布在自然語言處理部、知識(shí)圖譜部和百度研究院。其實(shí)看名字就能看出來區(qū)別,研究院大多是搞純Research的,有EMNLP會(huì)議的創(chuàng)始人Kenneth Church,有李平巨佬(CCL實(shí)驗(yàn)室主任,每年NIPS等頂頂會(huì)量產(chǎn)),北京這邊有Mingming Sun大佬帶,想做學(xué)術(shù)研究的小伙伴不用糾結(jié),去研究院絕對(duì)不會(huì)錯(cuò);自然語言處理部除了做前瞻研究以外,還會(huì)承接廠內(nèi)各大業(yè)務(wù)線中的NLP需求,做一些通用的NLP平臺(tái),基本cover了NLP領(lǐng)域全部方向,觸達(dá)廠內(nèi)各大業(yè)務(wù)線的NLP核心問題;知識(shí)圖譜部做NLP的思路則是依賴于知識(shí)圖譜啦,畢竟擁有全世界最大的中文知識(shí)圖譜,做信息抽取和知識(shí)圖譜相關(guān)工作的小伙伴的第一選擇。
多啰嗦一句,NLP是百度的支撐技術(shù)(NLP對(duì)百度的重要性遠(yuǎn)遠(yuǎn)大于國內(nèi)任何一家大廠),因此自然是NLP全方向全覆蓋且沒有弱項(xiàng),有高影響力論文(每年數(shù)十篇ACL、EMNLP)、有業(yè)界無人不知的NLP平臺(tái)(PaddleNLP、NLPC、UNIT等)、有眾多可以落地的國內(nèi)絕對(duì)領(lǐng)先的NLP業(yè)務(wù)(第一搜索引擎百度搜索,第一廣告系統(tǒng)鳳巢,第一對(duì)話系統(tǒng)度秘,第一機(jī)器翻譯系統(tǒng)百度翻譯等)。百度的NLP團(tuán)隊(duì)陣容可以說國內(nèi)沒爭(zhēng)議的最強(qiáng)了,畢竟是看家本領(lǐng)╮( ̄▽ ̄"")╭。當(dāng)然,缺點(diǎn)也有,就是大牛太多了還不愿意走,head count很少很難進(jìn),需要有過硬的技術(shù)實(shí)力和亮眼的簡(jiǎn)歷。
BASE:北京、深圳、美國硅谷
- AIG的NLP團(tuán)隊(duì)(分布在自然語言處理部、知識(shí)圖譜部和百度研究院。其實(shí)看名字就能看出來區(qū)別,研究院大多是搞純Research的,有EMNLP會(huì)議的創(chuàng)始人Kenneth Church,有李平巨佬(CCL實(shí)驗(yàn)室主任,每年NIPS等頂頂會(huì)量產(chǎn)),北京這邊有Mingming Sun大佬帶,想做學(xué)術(shù)研究的小伙伴不用糾結(jié),去研究院絕對(duì)不會(huì)錯(cuò);自然語言處理部除了做前瞻研究以外,還會(huì)承接廠內(nèi)各大業(yè)務(wù)線中的NLP需求,做一些通用的NLP平臺(tái),基本cover了NLP領(lǐng)域全部方向,觸達(dá)廠內(nèi)各大業(yè)務(wù)線的NLP核心問題;知識(shí)圖譜部做NLP的思路則是依賴于知識(shí)圖譜啦,畢竟擁有全世界最大的中文知識(shí)圖譜,做信息抽取和知識(shí)圖譜相關(guān)工作的小伙伴的第一選擇。
- 阿里
- 達(dá)摩院的NLP團(tuán)隊(duì)(以前的idst合并進(jìn)去了,前幾年SQuAD刷的風(fēng)生水起,負(fù)責(zé)阿里很多支撐性NLP基礎(chǔ)技術(shù)平臺(tái)的研發(fā),而且還有很重要的一點(diǎn)是,有錢。不過最近BERT流行之后,不知道為什么貌似一直動(dòng)靜不大,可能在憋大招吧)
BASE:北京、杭州
- 達(dá)摩院的NLP團(tuán)隊(duì)(以前的idst合并進(jìn)去了,前幾年SQuAD刷的風(fēng)生水起,負(fù)責(zé)阿里很多支撐性NLP基礎(chǔ)技術(shù)平臺(tái)的研發(fā),而且還有很重要的一點(diǎn)是,有錢。不過最近BERT流行之后,不知道為什么貌似一直動(dòng)靜不大,可能在憋大招吧)
- 騰訊
- AI lab(之前的論文高產(chǎn)地,之前被拆了,聽說最近又重組了。騰訊的組織架構(gòu)導(dǎo)致AI lab等代表的TEG事業(yè)群一直在公司里處境比較尷尬,不過論產(chǎn)論文的能力的話,前些年真是其他大廠都比不過。。最近也在努力跟業(yè)務(wù)結(jié)合,應(yīng)該會(huì)找到合適的發(fā)力點(diǎn)吧)
BASE:深圳
- AI lab(之前的論文高產(chǎn)地,之前被拆了,聽說最近又重組了。騰訊的組織架構(gòu)導(dǎo)致AI lab等代表的TEG事業(yè)群一直在公司里處境比較尷尬,不過論產(chǎn)論文的能力的話,前些年真是其他大廠都比不過。。最近也在努力跟業(yè)務(wù)結(jié)合,應(yīng)該會(huì)找到合適的發(fā)力點(diǎn)吧)
- 網(wǎng)易游戲
- 伏羲AI實(shí)驗(yàn)室(新成立不久的。雖然互娛是網(wǎng)易游戲更大的團(tuán)隊(duì),不過論研究來說,還是伏羲實(shí)驗(yàn)室更有想象力一些。NLP的業(yè)務(wù)一般也會(huì)跟游戲場(chǎng)景結(jié)合,比如智能NPC之類的。不過畢竟是做游戲的,還是需要對(duì)游戲有很大熱情的小伙伴會(huì)比較合適一些。而且終面的時(shí)候感覺面試官的實(shí)力挺贊的)
BASE:杭州
- 伏羲AI實(shí)驗(yàn)室(新成立不久的。雖然互娛是網(wǎng)易游戲更大的團(tuán)隊(duì),不過論研究來說,還是伏羲實(shí)驗(yàn)室更有想象力一些。NLP的業(yè)務(wù)一般也會(huì)跟游戲場(chǎng)景結(jié)合,比如智能NPC之類的。不過畢竟是做游戲的,還是需要對(duì)游戲有很大熱情的小伙伴會(huì)比較合適一些。而且終面的時(shí)候感覺面試官的實(shí)力挺贊的)
- 京東
- AI lab(方向上感覺有點(diǎn)對(duì)標(biāo)阿里的lab,方向也是圍繞著電商場(chǎng)景來的,總體上團(tuán)隊(duì)實(shí)力挺不錯(cuò)的,在一些小方向如對(duì)話上也有一些小夕覺得蠻不錯(cuò)的工作,而且講真,京東給出的package確實(shí)比較有誘惑力)
BASE:北京
- AI lab(方向上感覺有點(diǎn)對(duì)標(biāo)阿里的lab,方向也是圍繞著電商場(chǎng)景來的,總體上團(tuán)隊(duì)實(shí)力挺不錯(cuò)的,在一些小方向如對(duì)話上也有一些小夕覺得蠻不錯(cuò)的工作,而且講真,京東給出的package確實(shí)比較有誘惑力)
- 滴滴
- AI lab(感覺滴滴還是DM領(lǐng)域比較厲害,NLP領(lǐng)域可以落地的場(chǎng)景不多,所以研究格局相對(duì)來說更小一些,主要是在語言模型,檢索和翻譯等。但是滴滴這么多金主爸爸養(yǎng)著,不會(huì)差的,而且package灰常給力)
BASE:北京
- AI lab(感覺滴滴還是DM領(lǐng)域比較厲害,NLP領(lǐng)域可以落地的場(chǎng)景不多,所以研究格局相對(duì)來說更小一些,主要是在語言模型,檢索和翻譯等。但是滴滴這么多金主爸爸養(yǎng)著,不會(huì)差的,而且package灰常給力)
偏業(yè)務(wù)/產(chǎn)品的:
- 百度:
- 大搜(搜索策略部)(感覺不用多說了,看家業(yè)務(wù)嘛。。。國內(nèi)最硬核的IR、NLP系統(tǒng),數(shù)據(jù)資源能超乎99%的NLPer的想象,若能拿到offer,沒有猶豫的必要吧)
- 鳳巢(商業(yè)策略部)(國內(nèi)最NB的搜索廣告系統(tǒng),有大量的NLP場(chǎng)景,扛著百度近千億的年?duì)I收,有錢有數(shù)據(jù)有資源,同樣是拿到offer不用猶豫系列)
- feed(推薦策略部)(與大搜和鳳巢一樣,是公司三大現(xiàn)金牛業(yè)務(wù)線之一,推薦、搜索和廣告都是NLP最有價(jià)值的落地場(chǎng)景,做業(yè)務(wù)不會(huì)錯(cuò)系列)
- 度秘(百度對(duì)話技術(shù)主力落地的地方,做著各種“小度小度”的智能對(duì)話C端產(chǎn)品,可愛炸了。跟自動(dòng)駕駛一樣,背負(fù)著百度AI落地的使命,自然各方面都不會(huì)差。尤其在C端的對(duì)話產(chǎn)品上穩(wěn)穩(wěn)的國內(nèi)老大,全球top 2,尤其是做對(duì)話的小伙伴,不管是做算法還是做系統(tǒng),去度秘絕對(duì)不會(huì)錯(cuò)(現(xiàn)在好像叫小度云平臺(tái)部)
- 智能客服部(團(tuán)隊(duì)拿過百度最高獎(jiǎng),發(fā)展快,機(jī)會(huì)多,主要做B端的對(duì)話產(chǎn)品和外呼產(chǎn)品,也是非常NLP的業(yè)務(wù))
- 阿里
- 智能服務(wù)(也就是小蜜相關(guān)的業(yè)務(wù),分為店小蜜、云小蜜和阿里小蜜,落地到淘寶、其他阿里系產(chǎn)品以及B端用戶上。方向上來說主要是對(duì)話、問答相關(guān)的場(chǎng)景,屬于阿里的NLP技術(shù)落地最好的地方了)
- 淘寶(NLP業(yè)務(wù)跟百度大搜有點(diǎn)像,主要是淘寶中的搜索、推薦相關(guān),不過由于被檢索的目標(biāo)不是網(wǎng)頁而是商品,所以技術(shù)上來說要偏多模態(tài)一些)
- 達(dá)摩院AI labs(雖然名字叫AI labs,不過是屬于那種做比較開腦洞產(chǎn)品的lab,比如天貓精靈這種。感覺雖然背負(fù)營收KPI,但是還是蠻好玩的業(yè)務(wù))
- 騰訊
- 微信事業(yè)群(北京的模式識(shí)別中心應(yīng)該是騰訊內(nèi)部AI做的最靠譜的地方了吧,有微信這種10億用戶的業(yè)務(wù),感覺NLP想做的爛都難)
- AI技術(shù)平臺(tái)部(在深圳的同學(xué)可以好好考慮~聽說是個(gè)不錯(cuò)的地方)
- 網(wǎng)易
- 有道事業(yè)部(當(dāng)時(shí)面試時(shí)間沖突放棄了,不過有道NLP產(chǎn)品這么成功,想必也不會(huì)差。方向上來說,聽說文本挖掘、知識(shí)圖譜、機(jī)器翻譯相關(guān)的招的比較多)
好了,搞懂了自己想做什么,瞄準(zhǔn)一兩個(gè)目標(biāo)部門立個(gè)flag,后續(xù)就要圍繞這根主線來哦。有條件的童鞋可以找?guī)熜謳熃闾崆按蚵犚幌乱庀虿块T的研究方向或者業(yè)務(wù)方向,免得準(zhǔn)備了一年后發(fā)現(xiàn)人家根本不做這個(gè)。。。如果實(shí)在打聽不到,可以搜羅一下該部門近幾年的頂會(huì)paper、宣傳文章之類的,或者在知乎上撩一下相關(guān)的大佬們,結(jié)合官網(wǎng)上的宣傳,基本可以摸個(gè)差不多。
啰嗦了好多,下面就分享經(jīng)驗(yàn)啦。內(nèi)容分私貨篇和干貨篇,私貨篇主要講前期的準(zhǔn)備(筆試、簡(jiǎn)歷、論文、比賽、實(shí)習(xí)等,沒耐心的同學(xué)可以只看加粗的內(nèi)容),干貨篇看似是對(duì)小夕幾十場(chǎng)面試的面經(jīng)的知識(shí)點(diǎn)濃縮,實(shí)際上只是為了說明一個(gè)trick,即別人的面經(jīng)不重要,去為自己的關(guān)鍵詞去量身定做復(fù)習(xí)計(jì)劃吧。文末給出一些超級(jí)有信息量的tips。
目錄
私貨篇
干貨篇
私貨篇
1. 筆試與面試中的筆試的準(zhǔn)備
這方面小夕走了不少彎路,其實(shí)提前批(7月下旬到8月底)基本不會(huì)有筆試(今日頭條、網(wǎng)易、網(wǎng)易游戲這三家有),因此大可把主要精力放在簡(jiǎn)歷及延伸內(nèi)容里。但是!解基本編程題的能力還是要鍛煉出來的,這是紅線。
面試中的白板編程題一般都超級(jí)簡(jiǎn)單,基本都是leetcode簡(jiǎn)單級(jí)別的或者劍指offer上的原題,偶爾出個(gè)leetcode中等難度的題。小夕把劍指offer刷了不到一半,leetcode刷了30來道題(按類別和top interviewed過濾后刷,先刷簡(jiǎn)單的),發(fā)現(xiàn)提前批面試中的白板編程題基本都可以應(yīng)付了。當(dāng)然,精力允許的話還是多刷點(diǎn),畢竟解題解得快,別留邊界問題,會(huì)給面試官印象好一些。
哦對(duì)了,編程語言的話,放心的用python就好,小夕實(shí)在沒時(shí)間復(fù)習(xí)C/C++/Java了,所以leetcode還有各家的筆試面試都是用python寫的,親測(cè)沒毛病。
至于計(jì)算機(jī)網(wǎng)絡(luò)、操作系統(tǒng)、計(jì)算機(jī)組成原理、數(shù)據(jù)庫、編程語言、設(shè)計(jì)模式之類的基礎(chǔ)課,閑暇時(shí)翻一翻吧,全都從頭復(fù)習(xí)一遍太費(fèi)精力了,這些一般只出現(xiàn)在筆試的選擇題中。面試過程中除了今日頭條,其他家從來沒考過。
另外,矩陣論、概率統(tǒng)計(jì)這些數(shù)學(xué)課也記得順手復(fù)習(xí)哦,聽后來參加正式校招的小伙伴說,有的大廠的算法崗試題不怎么考計(jì)算機(jī)基礎(chǔ),本科的數(shù)學(xué)課倒是考了很多。不過小夕親測(cè)碩士階段的數(shù)學(xué)課像最優(yōu)化之類的,考的非常非常淺,科普級(jí)別的深度就夠應(yīng)付了。(感覺最優(yōu)化白學(xué)了(′Д` ))
最后小夕不靠譜的猜測(cè)有的廠的筆試刷人可能不全看總分。因?yàn)樾∠υ诰W(wǎng)易的筆試的選擇題部分瞎蒙了好多題,最后40分的問答題也完全空著沒做,就中間30分的編程題磕磕絆絆的基本AC了(也掛了幾個(gè)case),但是最后筆試竟然過了。
2. 簡(jiǎn)歷的準(zhǔn)備
翻了一下,發(fā)現(xiàn)自己的簡(jiǎn)歷前前后后改了23版。。。回看7月份的簡(jiǎn)歷,簡(jiǎn)直辣眼睛╮( ̄▽ ̄””)╭
毫無疑問簡(jiǎn)歷是最最最重要的東西,它不僅是面試的敲門磚,而且基本貫穿了整個(gè)面試過程!從小夕的經(jīng)歷看,不加面試中的白板編程時(shí)間,簡(jiǎn)歷內(nèi)容一般會(huì)占據(jù)每輪面試80%-100%的時(shí)間(今日頭條除外),其中占到100%時(shí)間的面試能占到50%以上。
做簡(jiǎn)歷的最基本也是最關(guān)鍵也是最容易被忽視的一條原則是,整體內(nèi)容一定要跟崗位需求match!其實(shí)做簡(jiǎn)歷跟寫文章很像,要圍繞一根主線展開,如果發(fā)現(xiàn)電路也做,視覺也做,推薦也做,NLP也做的話,很容易被打上“跟崗位不match”或者“這孩子做事浮躁”的tag。(身邊一小伙伴就這樣被某二梯隊(duì)廠以“NLP經(jīng)歷不足”為理由掛掉)
對(duì)于已經(jīng)一串paper的那種簡(jiǎn)歷來說,就不做建議了。但是如果對(duì)于比賽、論文、項(xiàng)目、專利都只有幾條的童鞋來說,完全可以把簡(jiǎn)歷做的有的放矢,match的內(nèi)容展開寫,不match的一筆帶過或者直接不寫,這樣面試官也省的一條條甄別信息量,面試過程也會(huì)變得更加主題明確。
小夕的一個(gè)小trick是,可以嘗試把最有信心在面試中談起的經(jīng)歷所在的板塊寫在最前面(僅次于教育經(jīng)歷),并用配色突出這條經(jīng)歷。小夕親測(cè)這樣的第一條經(jīng)歷可以聚焦非常多的面試火力,甚至有15%的面試是全部面試時(shí)間都在死磕這條經(jīng)歷!而且小夕神奇的發(fā)現(xiàn),各輪面試很少有第一輪面試官問第一條,第二輪面試官問第二條這種,倒是經(jīng)常有面試官覺得你第一條經(jīng)歷很亮,于是告訴下一輪面試官這條很亮,然后下一輪面試官出于好奇就深入問這條經(jīng)歷,如果他也覺得很亮,就會(huì)轉(zhuǎn)述再下一輪面試官,于是再下一輪面試官又會(huì)主要問你這條經(jīng)歷╮( ̄▽ ̄””)╭,然后offer就到手了。當(dāng)然,這樣的副作用就是,如果對(duì)面試官來說這條經(jīng)歷不亮,那面試基本掛掉一半了。
另外,除非你碩士期間對(duì)一個(gè)方向鉆的很深、已經(jīng)可以駕馭這個(gè)方向的絕大部分問題了,否則小夕墻裂建議單獨(dú)設(shè)置一個(gè)板塊列一下自己研究過的算法問題。比如分兩級(jí),第一級(jí)講方向(比如對(duì)話系統(tǒng)),第二級(jí)講具體研究的子問題(比如聊天的一致性問題),這樣可以避免面試官對(duì)你進(jìn)行天馬行空式的考察,畢竟碩士時(shí)間有限,哪怕只做NLP中的一個(gè)方向,也難以研究的面面俱到。該板塊會(huì)貢獻(xiàn)大量的關(guān)鍵詞,這些關(guān)鍵詞基本可以決定面試官對(duì)你的考察范圍,詳見后面的干貨篇。
還有一個(gè)trick,簡(jiǎn)歷內(nèi)容太多,做到兩頁后,難免最后要塞一些無關(guān)痛癢的榮譽(yù)(比如獎(jiǎng)學(xué)金啥的)還有一些主觀內(nèi)容(比如算法研究、IT技能、自我評(píng)價(jià)之類的),這樣面試官看到后面發(fā)現(xiàn)沒營養(yǎng)了反而容易忘掉前面的亮點(diǎn),所以小夕是把一條亮點(diǎn)經(jīng)歷放在簡(jiǎn)歷最后點(diǎn)個(gè)題(記得顏色突出一下,否則真被忽略了就哭了),這樣會(huì)讓面試官覺得整個(gè)簡(jiǎn)歷“干貨滿滿,這么亮的經(jīng)歷都只能排到最后面了”。
最后,對(duì)小夕簡(jiǎn)歷好奇的小伙伴也不要好奇了,除了性別沒什么亮點(diǎn)╮( ̄▽ ̄””)╭各種被HR指控填錯(cuò)了性別,最后無奈之下把性別加粗了。嗯,是加粗了,不是改了。
3. 論文的準(zhǔn)備
首先diss一下很多人把收不到NLP算法崗offer歸結(jié)于沒有頂會(huì)論文,實(shí)際上碩士期間出一篇頂會(huì)論文對(duì)于絕大部分碩士來說還是非常難的,更何況AAAI這類頂會(huì)自帶灌水嫌疑,如果面試過程中也給人感覺是水文的話更不算什么加分項(xiàng)了。一般來說,碩士期間出一篇有意義的頂會(huì)最少意味著:
一般來說研二那一年的最后能投的頂會(huì)是在4月之前的,再往后的會(huì)議出來錄取結(jié)果的時(shí)候基本校招提前批進(jìn)行一大半了,簡(jiǎn)歷能丟的都丟出去了,所以真正可以好好做科研的時(shí)間基本只有研一下學(xué)期+研二上學(xué)期。(本科出頂會(huì)的大佬忽略)
而對(duì)于大部分人來說,很難一下子就有一個(gè)idea,然后一下子就做出來了好實(shí)驗(yàn)效果,一下子論文寫的也很漂亮,一下子就中了頂會(huì)的,基本都要從水會(huì)投起,摸索套路,所以一無所有的情況下非頂會(huì)不投幾乎等同于作死(當(dāng)然水某些A類頂會(huì)的話另說)。但!是!盡自己的努力去水一篇非頂會(huì)還是不難的(比如CCF C類的水會(huì),EI檢索之類的)。水完水會(huì)之后,想進(jìn)一步水頂會(huì)的小伙伴們可以根據(jù)這個(gè)ddl時(shí)間表規(guī)劃一下自己的時(shí)間
-> AI Conference Deadlines
4. 比賽的準(zhǔn)備
除了論文,另一個(gè)有吸引力而且性價(jià)比更高的活動(dòng)就是打比賽了。個(gè)人英雄主義在大課題、大項(xiàng)目里很難體現(xiàn),但是在一個(gè)比賽中卻是有了充足的show的機(jī)會(huì)。但是注意那些小企業(yè)小機(jī)構(gòu)辦的幾十個(gè)隊(duì)伍參賽的小比賽就不要水了,提交個(gè)baseline模型就能水個(gè)top3挺沒意思的,掛簡(jiǎn)歷上會(huì)“很掉身價(jià)”的。
除了NLP各大頂會(huì)和kaggle的比賽,還可以多多關(guān)注各個(gè)互聯(lián)網(wǎng)大廠舉辦的NLP比賽,比如微軟的編程之美挑戰(zhàn)賽(去年是問答bot)、百度的機(jī)器閱讀理解大賽、阿里的天池系列比賽等,親測(cè)在各大廠的面試中很有效(非舉辦方的互聯(lián)網(wǎng)公司一般也都會(huì)關(guān)注友商的比賽的)。
另外,一定一定要打跟目標(biāo)崗位match的比賽,底線是NLP比賽。比如你想做chatbot,卻光打一些數(shù)據(jù)挖掘類的比賽,哪怕top 5也意義不大,但是這時(shí)文本匹配、生成、問答相關(guān)的比賽哪怕排名一般(差不多容忍到隊(duì)伍數(shù)的10%)也完全可以強(qiáng)行寫上去。已經(jīng)有名次很好但是match程度不高的比賽了怎么辦?簡(jiǎn)歷上一句話帶過吧,突出強(qiáng)調(diào)和大寫特寫只會(huì)讓人覺得你跟崗位不match。
具體到比賽過程中,如果你要做NLP,千萬不要靠堆開源模型做ensemble上分,這樣雖然能為你爭(zhēng)取到面試機(jī)會(huì),但是這樣基本沒有任何創(chuàng)新,只會(huì)讓面試官覺得你是個(gè)優(yōu)秀的搬磚工程師和調(diào)參小能手,如果簡(jiǎn)歷上也沒有亮點(diǎn),很容易被掛(身邊有活體例子)。對(duì)于面試來說,優(yōu)秀的單模型超級(jí)好用!另外最好把頂會(huì)SOTA也拿到比賽數(shù)據(jù)集上跑一下,這樣面試時(shí)更有說服力。
5. 實(shí)習(xí)與項(xiàng)目的準(zhǔn)備
一份兒好的實(shí)習(xí)經(jīng)歷確實(shí)可以加分,比如MSRA、百度自然語言處理部、阿里idst、騰訊AI lab這些部門的research經(jīng)歷或者大廠match的業(yè)務(wù)部門的出色工作都會(huì)讓面試難度降低不少,然鵝小夕親測(cè)這并不是必須的(心疼的抱抱導(dǎo)師不放實(shí)習(xí)的自己(。 ?︿ ?。))。同時(shí),小夕也親測(cè)實(shí)驗(yàn)室的大項(xiàng)目一般木有多少吸引力,遠(yuǎn)不如上面那幾個(gè)地方的實(shí)習(xí)經(jīng)歷值錢,所以抱怨自己實(shí)驗(yàn)室沒項(xiàng)目的童鞋可以stop了,去找實(shí)習(xí)機(jī)會(huì)吧。
6. 其他
最后啰嗦一下,頂會(huì)paper、top比賽、大廠研究院實(shí)習(xí)都不是必須的,但是最好它們?nèi)』蜻\(yùn)算后為真。從小夕身邊的小伙伴的情況看,只要取或運(yùn)算后為真,一般BAT的核心研究部門或者核心業(yè)務(wù)部門最少也能拿一個(gè)offer。
如果很不幸成為了“三無人員”,那么一定要保證扎實(shí)的數(shù)學(xué)、NLP、coding能力和最少一個(gè)研究方向的專精,能夠在面試時(shí)表現(xiàn)出超出簡(jiǎn)歷描述的能力,這樣也會(huì)非常打動(dòng)面試官的,畢竟誰都想招一個(gè)潛力股嘛。
干貨篇
1. 面試中的基礎(chǔ)知識(shí)
這一篇說起來都是淚,小夕曾經(jīng)努力擠出時(shí)間復(fù)習(xí),手?jǐn)]了一遍邏輯回歸、最大熵、決策樹、樸素貝葉斯、SVM、Adaboost、EM、HMM、CRF的推導(dǎo),結(jié)果發(fā)現(xiàn)從來沒被問到過。。。從來沒被問到過。。。從來沒。。。
然后很奇葩的竟然被問到過TCP三次握手,hadoop中的shuffle機(jī)制,linux的find命令怎么用。。。(from 今日頭條)
雖然實(shí)現(xiàn)NLP的方法基本離不開機(jī)器學(xué)習(xí)與神經(jīng)網(wǎng)絡(luò),但是如果按照前面簡(jiǎn)歷篇講的準(zhǔn)備簡(jiǎn)歷內(nèi)容,其實(shí)在NLP崗的面試中很少直接考察ML和NN的理論知識(shí)。那考察什么呢?當(dāng)然是考察關(guān)鍵詞呀!所以總結(jié)一下自己簡(jiǎn)歷的關(guān)鍵詞,然后展開復(fù)習(xí)吧!
下面小夕拿自己舉個(gè)例子。小夕簡(jiǎn)歷上出現(xiàn)的NLP關(guān)鍵字如
問答、MRC、對(duì)話、匹配、詞向量、遷移、分類、分詞、POS、NER等
下面是面試中考過的基礎(chǔ)知識(shí)舉例
trick:方向不match的面試官喜歡考察詞向量和文本分類相關(guān)的知識(shí)模型篇
- SGNS/cBoW、FastText、ELMo等(從詞向量引出)
- DSSM、DecAtt、ESIM等(從問答&匹配引出)
- HAN、DPCNN等(從分類引出)
- BiDAF、DrQA、QANet等(從MRC引出)
- CoVe、InferSent等(從遷移引出)
- MM、N-shortest等(從分詞引出)
- Bi-LSTM-CRF等(從NER引出)
- LDA等主題模型(從文本表示引出)
訓(xùn)練篇
- point-wise、pair-wise和list-wise(匹配、ranking模型)
- 負(fù)采樣、NCE
- 層級(jí)softmax方法,哈夫曼樹的構(gòu)建
- 不均衡問題的處理
- KL散度與交叉熵loss函數(shù)
評(píng)價(jià)指標(biāo)篇
- F1-score
- PPL
- MRR、MAP
可以看出,其實(shí)面試考察的基礎(chǔ)知識(shí)的內(nèi)容跟簡(jiǎn)歷中的關(guān)鍵字高度相關(guān)有木有。雖然偶爾也會(huì)問到一些超出關(guān)鍵字限制的范圍,但是非常非常少,而且基本都是些跟研究方向無關(guān)的基礎(chǔ)知識(shí)。當(dāng)然,這個(gè)前提是按照前面簡(jiǎn)歷篇的建議來認(rèn)真構(gòu)造“算法研究”的板塊吶。身邊不少小伙伴吐槽面試官問的問題很偏,跟自己的方向差別大,然而都木有反思過自己的簡(jiǎn)歷到底有沒有告訴面試官自己擅長(zhǎng)什么,遇到不match的面試官的話肯定被問成狗哇。(當(dāng)然,遇到完全不看簡(jiǎn)歷,方向又跟自己不match的面試官的話可以善意的提醒“抱歉我不是做這個(gè)方向的”)
2. 面試中的設(shè)計(jì)/方案題
除了基礎(chǔ)知識(shí),有的公司還會(huì)出一些開放性的設(shè)計(jì)題(尤其在最后一兩輪面試或者是為SP、SSP設(shè)置的加面時(shí)),解這些設(shè)計(jì)題主要還是靠項(xiàng)目和比賽的經(jīng)驗(yàn)積累,切忌不要只拿論文說事兒,要站在以最小代價(jià)來解決問題的角度出方案,而不是非要用上最新的論文。
解這類題的一條基本原則是,能用規(guī)則解決就不要用數(shù)據(jù),能用簡(jiǎn)單特征工程解決就不要上大型神經(jīng)網(wǎng)絡(luò),上大型網(wǎng)絡(luò)時(shí)盡量不要使用深度LSTM這類推理復(fù)雜度太高的東西。
最后總結(jié)一下,精心的準(zhǔn)備好簡(jiǎn)歷,那么從巨頭到startup的面試其實(shí)都大同小異(個(gè)別奇葩面試套路的公司除外)。hold住自己的簡(jiǎn)歷和研究方向,白板編程別太差,面試基本都能過。另外,小夕參加的都是提前批,不太清楚正式批會(huì)不會(huì)有變化。不過貌似正式批的NLP崗少得多,盡量不要把重心放正式批哦
TIPS篇
更多精彩文章歡迎關(guān)注小夕的微信訂閱號(hào)【夕小瑤的賣萌屋】噢 (?ω< )★
總結(jié)
以上是生活随笔為你收集整理的别求面经了!小夕手把手教你如何斩下和选择NLP算法岗offer!(2020.4.14更新)...的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 美团NLP中心算法实习生内推啦!
- 下一篇: 【小夕精选】多轮对话之对话管理(Dial