日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

别求面经了!小夕手把手教你如何斩下和选择NLP算法岗offer!(19.11.21更新)

發(fā)布時間:2024/7/5 编程问答 43 豆豆
生活随笔 收集整理的這篇文章主要介紹了 别求面经了!小夕手把手教你如何斩下和选择NLP算法岗offer!(19.11.21更新) 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

推完上一篇文章,訂閱號和知乎后臺有好多小伙伴跟小夕要面經(jīng)(還有個要買簡歷的是什么鬼),然鵝小夕真的沒有整理面經(jīng)呀,真的木有時間(。 ?︿ ?。)。不過話說回來,面經(jīng)有多大用呢?最起碼對于NLP崗位的面試來說,小夕發(fā)現(xiàn)根本不是面經(jīng)中說的樣子。。。

其實今年參加NLP算法崗秋招的小伙伴可能有感慨,
“照著別人的面經(jīng)去準(zhǔn)備了辣么多,輪到自己面試時內(nèi)容怎么這么不一樣?!”
“說好的要做到熟練推導(dǎo)SVM呢?怎么從來沒人讓我推導(dǎo)SVM?”
“整場面試都在聊前沿論文啊什么鬼?從來沒見這樣的面經(jīng)呀!”
“為什么面試官只問他簡歷內(nèi)容,輪到我時一點簡歷內(nèi)容都不問?“

不止今年,將來的面試肯定更趨向于千人千面,畢竟AI行業(yè)也將越來越細(xì)化嘛。所以小夕精心準(zhǔn)備了這篇“萬能”文章給你們,希望大家將來都能收割到自己想要的offer~
這篇文章不是面經(jīng)集合,也不是裝X和販賣焦慮的曬offer貼,也不是堆砌可能問到的知識點,而是希望給還在迷茫的小伙伴提供一些系統(tǒng)的指導(dǎo)和建議。當(dāng)然,這些建議可能不適合每個人,因此希望大家從這篇文章里汲取到適合自己的養(yǎng)分,千萬不要邯鄲學(xué)步哦m(— —)m

目標(biāo)觀眾

首先,本文的討論范圍僅限自然語言處理(NLP)相關(guān)崗位!親測NLP崗的套路跟數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)崗還是有明顯差異的,所以千萬不要按本文的套路去準(zhǔn)備DM、ML的面試!

然后說一下本文的目標(biāo)群體。想去拿MSR、FAIR、Google Brain offer的大佬請放過小夕(。 ?︿ ?。)深知自己哪怕能拿到這些地方的offer,也基本是在邊邊角角的地方做做邊邊角角的事情,所以直接放棄了,真的木有經(jīng)驗可以分享。還有那些已經(jīng)一大把頂會的小伙伴,求給小夕指導(dǎo)好么!

其實之前小夕也曾想著去外企的研究院(雖然菜的一無所有),然而很扎心的一次次打聽到外企的研究院的研究崗基本只招PhD,哪怕作為碩士進(jìn)去了也基本是干邊邊角角雜活的engineer了。雖然外企的業(yè)務(wù)部門也有NLP崗位,而且碩士也容易進(jìn),但是進(jìn)一步打聽了一下,聽說碩士進(jìn)去很少有research相關(guān)的工作,最多做做模型優(yōu)化,弄不好就是爬數(shù)據(jù)、清洗數(shù)據(jù)了。后來拿了一家的offer后聊了聊發(fā)現(xiàn)確實如此,加上后來沒什么面試的狀態(tài)了,也就把外企都統(tǒng)統(tǒng)放棄了。不過有條件的同學(xué)可以在外企研究院或業(yè)務(wù)部門做做research intern,這方面對碩士友好的多。

言歸正傳,對于想拿國內(nèi)一線大廠的核心研究部門和核心業(yè)務(wù)部門NLP崗offer的童鞋,點贊本文,你就收獲了半個offer!轉(zhuǎn)發(fā)本文,你就收獲了0.75個offer!(等等,文風(fēng)好像越來越像傳銷了。。。)

國內(nèi)的NLP方向的崗位一般叫做NLP算法工程師/研究員/工程師,不要被名字迷惑了,一些廠標(biāo)榜的NLP研究員本質(zhì)上就是懂點NLP的研發(fā)工程師,也有一些廠懶得區(qū)分,無論是做前瞻研究還是業(yè)務(wù)研發(fā)統(tǒng)一叫NLP工程師,需要大家拿到offer后自己跟主管多聊聊具體工作職責(zé)和日常工作內(nèi)容,真的不要糾結(jié)崗位名字。

簡單說一下自己的經(jīng)歷吧,可以給大家做個參考。雖然踩了些雷導(dǎo)致錯過了一些機(jī)會,但是自己看好的NLP團(tuán)隊都拿到了offer,無非就是offer等級高低,package能談多高的問題。最終也有幸拿到了心儀團(tuán)隊的SSP offer,其他大廠和一些明星初創(chuàng)公司也大都拿到了不錯的SP offer。此外,就簡歷投遞來說,投了一圈都沒有沉(可能因為長得好看),有筆試環(huán)節(jié)的大廠也沒掛過筆試,package大多開到40w左右,有兩個給出戶口承諾的,有幾個戶口抽簽的。不過要兼?zhèn)鋚ackage、戶口、團(tuán)隊實力與研究方向/業(yè)務(wù)的興趣程度的話,并不容易。

Research or Product ?

首先,要搞懂自己想要什么。粗略的看,如果想做research,比如發(fā)發(fā)paper,打打國際比賽,做做通用技術(shù)平臺,為現(xiàn)在或?qū)淼漠a(chǎn)品孵化算法接口,就去偏research的團(tuán)隊;如果想直接優(yōu)化產(chǎn)品的算法指標(biāo),看到自己的成果快速反映在產(chǎn)品的用戶體驗和經(jīng)濟(jì)效益上,那就去偏業(yè)務(wù)的部門。這兩種不同導(dǎo)向的部門在面試的時候的關(guān)注點會存在一定差異。

當(dāng)然,再偏research的部門也會把成果直接或間接的輸出到各個產(chǎn)品線上(否則養(yǎng)你干嘛),再偏業(yè)務(wù)的部門也會有關(guān)注前沿的小團(tuán)隊,畢竟NLP本身還沒有成熟嘛。

不過總的來說,比如你想做research,有不錯的論文或比賽經(jīng)歷,對某個方向研究的比較深入,但做系統(tǒng)的經(jīng)歷相對匱乏,則偏research的團(tuán)隊可能更賞識你;如果你想做產(chǎn)品,并且做系統(tǒng)、啪代碼的能力不錯,論文也刷了不少但是科研熱情不高,則你可能跟業(yè)務(wù)部門更match。

算下來自己面了8、9個NLP團(tuán)隊,加上一些跟小伙伴的交流,也算對國內(nèi)工業(yè)界NLP團(tuán)隊的大概情況有一些了解了。下面說說幾個面下來感覺團(tuán)隊不錯或小伙伴反饋不錯的團(tuán)隊吧,大家參考一下就好,很多優(yōu)秀團(tuán)隊沒貼上來僅僅是因為我們沒去面過而已。。。

偏research/通用平臺的:

  • 百度
    • AIG的NLP團(tuán)隊(分布在自然語言處理部、深度學(xué)習(xí)技術(shù)平臺部、知識圖譜部和百度研究院。其實看名字就能看出來區(qū)別,研究院大多是搞純Research的,有EMNLP會議的創(chuàng)始人Kenneth Church,有李平巨佬(CCL實驗室主任,每年NIPS,ACL等頂頂會量產(chǎn)),想做學(xué)術(shù)研究的小伙伴不用糾結(jié),去研究院絕對不會錯;自然語言處理部除了做研究,還要支撐廠內(nèi)NLP業(yè)務(wù),做一些通用的NLP平臺,基本cover了NLP領(lǐng)域全部方向,觸達(dá)廠內(nèi)各業(yè)務(wù)線;而深度學(xué)習(xí)技術(shù)平臺部(DLTP,飛槳團(tuán)隊)則是深入到DL框架層的NLP研究和系統(tǒng)研發(fā),致力于解決NLP和speech中的最關(guān)鍵問題(比如NLP中的大規(guī)模預(yù)訓(xùn)練、大規(guī)模多任務(wù)學(xué)習(xí)問題等),比較像Google的TensorFlow團(tuán)隊,只做最硬核的NLP問題,有技術(shù)信仰的小伙伴不用猶豫,AI自上而下的技術(shù)貫穿國內(nèi)只有這一個地方;知識圖譜部做NLP的思路則是依賴于知識圖譜啦,畢竟擁有全世界最大的中文知識圖譜。

      多啰嗦一句,NLP是百度的支撐技術(shù)(NLP對百度的重要性遠(yuǎn)遠(yuǎn)大于國內(nèi)任何一家大廠),因此自然是NLP全方向全覆蓋且沒有弱項,有高影響力論文(每年數(shù)十篇ACL、EMNLP)、有業(yè)界無人不知的NLP平臺(PaddleNLP、NLPC、UNIT等)、有眾多可以落地的國內(nèi)絕對領(lǐng)先的NLP業(yè)務(wù)(第一搜索引擎百度搜索,第一廣告系統(tǒng)鳳巢,第一對話系統(tǒng)度秘,第一機(jī)器翻譯系統(tǒng)百度翻譯等)。百度的NLP團(tuán)隊陣容可以說國內(nèi)沒爭議的最強(qiáng)了,畢竟是看家本領(lǐng)╮( ̄▽ ̄"")╭。當(dāng)然,缺點也有,就是大牛太多了還不愿意走,head count很少很難進(jìn),需要有過硬的技術(shù)實力和亮眼的簡歷。
      BASE:北京、深圳、美國硅谷
  • 阿里
    • 達(dá)摩院的NLP團(tuán)隊(以前的idst合并進(jìn)去了,前幾年SQuAD刷的風(fēng)生水起,負(fù)責(zé)阿里很多支撐性NLP基礎(chǔ)技術(shù)平臺的研發(fā),而且還有很重要的一點是,有錢。不過最近BERT流行之后,不知道為什么貌似一直動靜不大,可能在憋大招吧)
      BASE:北京、杭州
  • 騰訊
    • AI lab(之前的論文高產(chǎn)地,之前被拆了,聽說最近又重組了。騰訊的組織架構(gòu)導(dǎo)致AI lab等代表的TEG事業(yè)群一直在公司里處境比較尷尬,不過論產(chǎn)論文的能力的話,前些年真是其他大廠都比不過。。最近也在努力跟業(yè)務(wù)結(jié)合,應(yīng)該會找到合適的發(fā)力點吧)
      BASE:深圳
  • 網(wǎng)易游戲
    • 伏羲AI實驗室(新成立不久的。雖然互娛是網(wǎng)易游戲更大的團(tuán)隊,不過論研究來說,還是伏羲實驗室更有想象力一些。NLP的業(yè)務(wù)一般也會跟游戲場景結(jié)合,比如智能NPC之類的。不過畢竟是做游戲的,還是需要對游戲有很大熱情的小伙伴會比較合適一些。而且終面的時候感覺面試官的實力挺贊的)
      BASE:杭州
  • 京東
    • AI lab(方向上感覺有點對標(biāo)阿里的lab,方向也是圍繞著電商場景來的,總體上團(tuán)隊實力挺不錯的,在一些小方向如對話上也有一些小夕覺得蠻不錯的工作,而且講真,京東給出的package確實比較有誘惑力)
      BASE:北京
  • 滴滴
    • AI lab(感覺滴滴還是DM領(lǐng)域比較厲害,NLP領(lǐng)域可以落地的場景不多,所以研究格局相對來說更小一些,主要是在語言模型,檢索和翻譯等。但是滴滴這么多金主爸爸養(yǎng)著,不會差的,而且package灰常給力)
      BASE:北京

偏業(yè)務(wù)/產(chǎn)品的:

  • 百度:
    • 度秘(百度對話技術(shù)主力落地的地方,做著各種“小度小度”的智能對話C端產(chǎn)品,可愛炸了。跟自動駕駛一樣,背負(fù)著百度AI落地的使命,自然各方面都不會差。尤其在C端的對話產(chǎn)品上穩(wěn)穩(wěn)的國內(nèi)老大,全球top 2,尤其是做對話的小伙伴,不管是做算法還是做系統(tǒng),來度秘絕對不會錯(現(xiàn)在好像叫小度云平臺部)
    • 智能客服(現(xiàn)在貌似組織重構(gòu)到產(chǎn)業(yè)智能化部了,聽說團(tuán)隊拿過百度最高獎,主要做B端的對話產(chǎn)品)
    • 大搜索(感覺不用多說了,看家業(yè)務(wù)嘛。。。國內(nèi)最硬核的IR、NLP和ranking系統(tǒng),尤其是中文信息的處理,若能拿到offer,沒有猶豫的必要吧)
    • 鳳巢(國內(nèi)最NB的搜索廣告系統(tǒng),扛著百度幾百億的年營收,有錢有數(shù)據(jù)有資源,同樣是拿到offer不用猶豫系列)
  • 阿里
    • 智能服務(wù)(也就是小蜜相關(guān)的業(yè)務(wù),分為店小蜜、云小蜜和阿里小蜜,落地到淘寶、其他阿里系產(chǎn)品以及B端用戶上。方向上來說主要是對話、問答相關(guān)的場景,屬于阿里的NLP技術(shù)落地最好的地方了)
    • 淘寶(NLP業(yè)務(wù)跟百度大搜比較近,主要是淘寶中的搜索、推薦相關(guān),不過由于被檢索的目標(biāo)不是網(wǎng)頁而是商品,所以技術(shù)上來說要偏多模態(tài)一些)
    • 達(dá)摩院AI labs(雖然名字叫AI labs,不過是屬于那種做比較開腦洞產(chǎn)品的lab,比如天貓精靈這種。感覺雖然背負(fù)營收KPI,但是還是蠻好玩的業(yè)務(wù))
  • 騰訊
    • 微信事業(yè)群(北京的模式識別中心應(yīng)該是騰訊內(nèi)部AI做的最靠譜的地方了吧,有微信這種10億用戶的業(yè)務(wù),感覺NLP想做的爛都難)
    • AI技術(shù)平臺部(在深圳的同學(xué)可以好好考慮~聽說是個不錯的地方)
  • 網(wǎng)易
    • 有道事業(yè)部(當(dāng)時面試時間沖突放棄了,不過有道NLP產(chǎn)品這么成功,想必也不會差。方向上來說,聽說文本挖掘、知識圖譜、機(jī)器翻譯相關(guān)的招的比較多)

好了,搞懂了自己想做什么,瞄準(zhǔn)一兩個目標(biāo)部門立個flag,后續(xù)就要圍繞這根主線來哦。有條件的童鞋可以找?guī)熜謳熃闾崆按蚵犚幌乱庀虿块T的研究方向或者業(yè)務(wù)方向,免得準(zhǔn)備了一年后發(fā)現(xiàn)人家根本不做這個。。。如果實在打聽不到,可以搜羅一下該部門近幾年的頂會paper、宣傳文章之類的,或者在知乎上撩一下相關(guān)的大佬們,結(jié)合官網(wǎng)上的宣傳,基本可以摸個差不多。

啰嗦了好多,下面就分享經(jīng)驗啦。內(nèi)容分私貨篇和干貨篇,私貨篇主要講前期的準(zhǔn)備(筆試、簡歷、論文、比賽、實習(xí)等,沒耐心的同學(xué)可以只看加粗的內(nèi)容),干貨篇看似是對小夕幾十場面試的面經(jīng)的知識點濃縮,實際上只是為了說明一個trick,即別人的面經(jīng)不重要,去為自己的關(guān)鍵詞去量身定做復(fù)習(xí)計劃吧。文末給出一些超級有信息量的tips。

目錄

私貨篇

  • 筆試與面試中的筆試的準(zhǔn)備
  • 簡歷的準(zhǔn)備
  • 論文的準(zhǔn)備
  • 比賽的準(zhǔn)備
  • 實習(xí)與項目的準(zhǔn)備
  • 其他
  • 干貨篇

  • 面試中的基礎(chǔ)知識
  • 面試中的設(shè)計/方案題
  • 私貨篇

    1. 筆試與面試中的筆試的準(zhǔn)備

    這方面小夕走了不少彎路,其實提前批(7月下旬到8月底)基本不會有筆試(今日頭條、網(wǎng)易、網(wǎng)易游戲這三家有),因此大可把主要精力放在簡歷及延伸內(nèi)容里。但是!解基本編程題的能力還是要鍛煉出來的,這是紅線。

    面試中的白板編程題一般都超級簡單,基本都是leetcode簡單級別的或者劍指offer上的原題,偶爾出個leetcode中等難度的題。小夕把劍指offer刷了不到一半,leetcode刷了30來道題(按類別和top interviewed過濾后刷,先刷簡單的),發(fā)現(xiàn)提前批面試中的白板編程題基本都可以應(yīng)付了。當(dāng)然,精力允許的話還是多刷點,畢竟解題解得快,別留邊界問題,會給面試官印象好一些。

    哦對了,編程語言的話,放心的用python就好,小夕實在沒時間復(fù)習(xí)C/C++/Java了,所以leetcode還有各家的筆試面試都是用python寫的,親測沒毛病。

    至于計算機(jī)網(wǎng)絡(luò)、操作系統(tǒng)、計算機(jī)組成原理、數(shù)據(jù)庫、編程語言、設(shè)計模式之類的基礎(chǔ)課,閑暇時翻一翻吧,全都從頭復(fù)習(xí)一遍太費精力了,這些一般只出現(xiàn)在筆試的選擇題中。面試過程中除了今日頭條,其他家從來沒考過。

    另外,矩陣論、概率統(tǒng)計這些數(shù)學(xué)課也記得順手復(fù)習(xí)哦,聽后來參加正式校招的小伙伴說,有的大廠的算法崗試題不怎么考計算機(jī)基礎(chǔ),本科的數(shù)學(xué)課倒是考了很多。不過小夕親測碩士階段的數(shù)學(xué)課像最優(yōu)化之類的,考的非常非常淺,科普級別的深度就夠應(yīng)付了。(感覺最優(yōu)化白學(xué)了(′Д` ))

    最后小夕不靠譜的猜測有的廠的筆試刷人可能不全看總分。因為小夕在網(wǎng)易的筆試的選擇題部分瞎蒙了好多題,最后40分的問答題也完全空著沒做,就中間30分的編程題磕磕絆絆的基本AC了(也掛了幾個case),但是最后筆試竟然過了。

    2. 簡歷的準(zhǔn)備

    翻了一下,發(fā)現(xiàn)自己的簡歷前前后后改了23版。。。回看7月份的簡歷,簡直辣眼睛╮( ̄▽ ̄””)╭

    毫無疑問簡歷是最最最重要的東西,它不僅是面試的敲門磚,而且基本貫穿了整個面試過程!從小夕的經(jīng)歷看,不加面試中的白板編程時間,簡歷內(nèi)容一般會占據(jù)每輪面試80%-100%的時間(今日頭條除外),其中占到100%時間的面試能占到50%以上。

    做簡歷的最基本也是最關(guān)鍵也是最容易被忽視的一條原則是,整體內(nèi)容一定要跟崗位需求match!其實做簡歷跟寫文章很像,要圍繞一根主線展開,如果發(fā)現(xiàn)電路也做,視覺也做,推薦也做,NLP也做的話,很容易被打上“跟崗位不match”或者“這孩子做事浮躁”的tag。(身邊一小伙伴就這樣被某二梯隊廠以“NLP經(jīng)歷不足”為理由掛掉)

    對于已經(jīng)一串paper的那種簡歷來說,就不做建議了。但是如果對于比賽、論文、項目、專利都只有幾條的童鞋來說,完全可以把簡歷做的有的放矢,match的內(nèi)容展開寫,不match的一筆帶過或者直接不寫,這樣面試官也省的一條條甄別信息量,面試過程也會變得更加主題明確。

    小夕的一個小trick是,可以嘗試把最有信心在面試中談起的經(jīng)歷所在的板塊寫在最前面(僅次于教育經(jīng)歷),并用配色突出這條經(jīng)歷。小夕親測這樣的第一條經(jīng)歷可以聚焦非常多的面試火力,甚至有15%的面試是全部面試時間都在死磕這條經(jīng)歷!而且小夕神奇的發(fā)現(xiàn),各輪面試很少有第一輪面試官問第一條,第二輪面試官問第二條這種,倒是經(jīng)常有面試官覺得你第一條經(jīng)歷很亮,于是告訴下一輪面試官這條很亮,然后下一輪面試官出于好奇就深入問這條經(jīng)歷,如果他也覺得很亮,就會轉(zhuǎn)述再下一輪面試官,于是再下一輪面試官又會主要問你這條經(jīng)歷╮( ̄▽ ̄””)╭,然后offer就到手了。當(dāng)然,這樣的副作用就是,如果對面試官來說這條經(jīng)歷不亮,那面試基本掛掉一半了。

    另外,除非你碩士期間對一個方向鉆的很深、已經(jīng)可以駕馭這個方向的絕大部分問題了,否則小夕墻裂建議單獨設(shè)置一個板塊列一下自己研究過的算法問題。比如分兩級,第一級講方向(比如對話系統(tǒng)),第二級講具體研究的子問題(比如聊天的一致性問題),這樣可以避免面試官對你進(jìn)行天馬行空式的考察,畢竟碩士時間有限,哪怕只做NLP中的一個方向,也難以研究的面面俱到。該板塊會貢獻(xiàn)大量的關(guān)鍵詞,這些關(guān)鍵詞基本可以決定面試官對你的考察范圍,詳見后面的干貨篇。

    還有一個trick,簡歷內(nèi)容太多,做到兩頁后,難免最后要塞一些無關(guān)痛癢的榮譽(yù)(比如獎學(xué)金啥的)還有一些主觀內(nèi)容(比如算法研究、IT技能、自我評價之類的),這樣面試官看到后面發(fā)現(xiàn)沒營養(yǎng)了反而容易忘掉前面的亮點,所以小夕是把一條亮點經(jīng)歷放在簡歷最后點個題(記得顏色突出一下,否則真被忽略了就哭了),這樣會讓面試官覺得整個簡歷“干貨滿滿,這么亮的經(jīng)歷都只能排到最后面了”。

    最后,對小夕簡歷好奇的小伙伴也不要好奇了,除了性別沒什么亮點╮( ̄▽ ̄””)╭各種被HR指控填錯了性別,最后無奈之下把性別加粗了。嗯,是加粗了,不是改了。

    3. 論文的準(zhǔn)備

    首先diss一下很多人把收不到NLP算法崗offer歸結(jié)于沒有頂會論文,實際上碩士期間出一篇頂會論文對于絕大部分碩士來說還是非常難的,更何況AAAI這類頂會自帶灌水嫌疑,如果面試過程中也給人感覺是水文的話更不算什么加分項了。一般來說,碩士期間出一篇有意義的頂會最少意味著:

  • 研一下學(xué)期之前把所有基礎(chǔ)打好(不然別人刷paper的時候你刷教材么
  • 有很負(fù)責(zé)且很有經(jīng)驗的導(dǎo)師/高年級博士帶(純靠自己摸索的話基本洗洗睡了
  • 方向沒偏(有些導(dǎo)師做的方向?qū)嵲陔y出paper
  • 數(shù)學(xué)、coding能力過關(guān)(學(xué)個numpy、tensorflow要花大半年的話可以轉(zhuǎn)行了
  • 運氣好(不是說觀點新,實驗效果好,寫的也ok就能中的,你要相信神馬審稿人都會有的
  • 一般來說研二那一年的最后能投的頂會是在4月之前的,再往后的會議出來錄取結(jié)果的時候基本校招提前批進(jìn)行一大半了,簡歷能丟的都丟出去了,所以真正可以好好做科研的時間基本只有研一下學(xué)期+研二上學(xué)期。(本科出頂會的大佬忽略)

    而對于大部分人來說,很難一下子就有一個idea,然后一下子就做出來了好實驗效果,一下子論文寫的也很漂亮,一下子就中了頂會的,基本都要從水會投起,摸索套路,所以一無所有的情況下非頂會不投幾乎等同于作死(當(dāng)然水某些A類頂會的話另說)。但!是!盡自己的努力去水一篇非頂會還是不難的(比如CCF C類的水會,EI檢索之類的)。水完水會之后,想進(jìn)一步水頂會的小伙伴們可以根據(jù)這個ddl時間表規(guī)劃一下自己的時間
    -> AI Conference Deadlines

    4. 比賽的準(zhǔn)備

    除了論文,另一個有吸引力而且性價比更高的活動就是打比賽了。個人英雄主義在大課題、大項目里很難體現(xiàn),但是在一個比賽中卻是有了充足的show的機(jī)會。但是注意那些小企業(yè)小機(jī)構(gòu)辦的幾十個隊伍參賽的小比賽就不要水了,提交個baseline模型就能水個top3挺沒意思的,掛簡歷上會“很掉身價”的。

    除了NLP各大頂會和kaggle的比賽,還可以多多關(guān)注各個互聯(lián)網(wǎng)大廠舉辦的NLP比賽,比如微軟的編程之美挑戰(zhàn)賽(去年是問答bot)、百度的機(jī)器閱讀理解大賽、阿里的天池系列比賽等,親測在各大廠的面試中很有效(非舉辦方的互聯(lián)網(wǎng)公司一般也都會關(guān)注友商的比賽的)。

    另外,一定一定要打跟目標(biāo)崗位match的比賽,底線是NLP比賽。比如你想做chatbot,卻光打一些數(shù)據(jù)挖掘類的比賽,哪怕top 5也意義不大,但是這時文本匹配、生成、問答相關(guān)的比賽哪怕排名一般(差不多容忍到隊伍數(shù)的10%)也完全可以強(qiáng)行寫上去。已經(jīng)有名次很好但是match程度不高的比賽了怎么辦?簡歷上一句話帶過吧,突出強(qiáng)調(diào)和大寫特寫只會讓人覺得你跟崗位不match。

    具體到比賽過程中,如果你要做NLP,千萬不要靠堆開源模型做ensemble上分,這樣雖然能為你爭取到面試機(jī)會,但是這樣基本沒有任何創(chuàng)新,只會讓面試官覺得你是個優(yōu)秀的搬磚工程師和調(diào)參小能手,如果簡歷上也沒有亮點,很容易被掛(身邊有活體例子)。對于面試來說,優(yōu)秀的單模型超級好用!另外最好把頂會SOTA也拿到比賽數(shù)據(jù)集上跑一下,這樣面試時更有說服力。

    5. 實習(xí)與項目的準(zhǔn)備

    一份兒好的實習(xí)經(jīng)歷確實可以加分,比如MSRA、百度自然語言處理部、阿里idst、騰訊AI lab這些部門的research經(jīng)歷或者大廠match的業(yè)務(wù)部門的出色工作都會讓面試難度降低不少,然鵝小夕親測這并不是必須的(心疼的抱抱導(dǎo)師不放實習(xí)的自己(。 ?︿ ?。))。同時,小夕也親測實驗室的大項目一般木有多少吸引力,遠(yuǎn)不如上面那幾個地方的實習(xí)經(jīng)歷值錢,所以抱怨自己實驗室沒項目的童鞋可以stop了,去找實習(xí)機(jī)會吧。

    6. 其他

    最后啰嗦一下,頂會paper、top比賽、大廠研究院實習(xí)都不是必須的,但是最好它們?nèi)』蜻\算后為真。從小夕身邊的小伙伴的情況看,只要取或運算后為真,一般BAT的核心研究部門或者核心業(yè)務(wù)部門最少也能拿一個offer。

    如果很不幸成為了“三無人員”,那么一定要保證扎實的數(shù)學(xué)、NLP、coding能力和最少一個研究方向的專精,能夠在面試時表現(xiàn)出超出簡歷描述的能力,這樣也會非常打動面試官的,畢竟誰都想招一個潛力股嘛。

    干貨篇

    1. 面試中的基礎(chǔ)知識

    這一篇說起來都是淚,小夕曾經(jīng)努力擠出時間復(fù)習(xí),手?jǐn)]了一遍邏輯回歸、最大熵、決策樹、樸素貝葉斯、SVM、Adaboost、EM、HMM、CRF的推導(dǎo),結(jié)果發(fā)現(xiàn)從來沒被問到過。。。從來沒被問到過。。。從來沒。。。

    然后很奇葩的竟然被問到過TCP三次握手,hadoop中的shuffle機(jī)制,linux的find命令怎么用。。。(from 今日頭條)

    雖然實現(xiàn)NLP的方法基本離不開機(jī)器學(xué)習(xí)與神經(jīng)網(wǎng)絡(luò),但是如果按照前面簡歷篇講的準(zhǔn)備簡歷內(nèi)容,其實在NLP崗的面試中很少直接考察ML和NN的理論知識。那考察什么呢?當(dāng)然是考察關(guān)鍵詞呀!所以總結(jié)一下自己簡歷的關(guān)鍵詞,然后展開復(fù)習(xí)吧!

    下面小夕拿自己舉個例子。小夕簡歷上出現(xiàn)的NLP關(guān)鍵字如

    問答、MRC、對話、匹配、詞向量、遷移、分類、分詞、POS、NER等

    下面是面試中考過的基礎(chǔ)知識舉例

    trick:方向不match的面試官喜歡考察詞向量和文本分類相關(guān)的知識

    模型篇

    • SGNS/cBoW、FastText、ELMo等(從詞向量引出)
    • DSSM、DecAtt、ESIM等(從問答&匹配引出)
    • HAN、DPCNN等(從分類引出)
    • BiDAF、DrQA、QANet等(從MRC引出)
    • CoVe、InferSent等(從遷移引出)
    • MM、N-shortest等(從分詞引出)
    • Bi-LSTM-CRF等(從NER引出)
    • LDA等主題模型(從文本表示引出)

    訓(xùn)練篇

    • point-wise、pair-wise和list-wise(匹配、ranking模型)
    • 負(fù)采樣、NCE
    • 層級softmax方法,哈夫曼樹的構(gòu)建
    • 不均衡問題的處理
    • KL散度與交叉熵loss函數(shù)

    評價指標(biāo)篇

    • F1-score
    • PPL
    • MRR、MAP

    可以看出,其實面試考察的基礎(chǔ)知識的內(nèi)容跟簡歷中的關(guān)鍵字高度相關(guān)有木有。雖然偶爾也會問到一些超出關(guān)鍵字限制的范圍,但是非常非常少,而且基本都是些跟研究方向無關(guān)的基礎(chǔ)知識。當(dāng)然,這個前提是按照前面簡歷篇的建議來認(rèn)真構(gòu)造“算法研究”的板塊吶。身邊不少小伙伴吐槽面試官問的問題很偏,跟自己的方向差別大,然而都木有反思過自己的簡歷到底有沒有告訴面試官自己擅長什么,遇到不match的面試官的話肯定被問成狗哇。(當(dāng)然,遇到完全不看簡歷,方向又跟自己不match的面試官的話可以善意的提醒“抱歉我不是做這個方向的”)

    2. 面試中的設(shè)計/方案題

    除了基礎(chǔ)知識,有的公司還會出一些開放性的設(shè)計題(尤其在最后一兩輪面試或者是為SP、SSP設(shè)置的加面時),解這些設(shè)計題主要還是靠項目和比賽的經(jīng)驗積累,切忌不要只拿論文說事兒,要站在以最小代價來解決問題的角度出方案,而不是非要用上最新的論文。

    解這類題的一條基本原則是,能用規(guī)則解決就不要用數(shù)據(jù),能用簡單特征工程解決就不要上大型神經(jīng)網(wǎng)絡(luò),上大型網(wǎng)絡(luò)時盡量不要使用深度LSTM這類推理復(fù)雜度太高的東西。

    最后總結(jié)一下,精心的準(zhǔn)備好簡歷,那么從巨頭到startup的面試其實都大同小異(個別奇葩面試套路的公司除外)。hold住自己的簡歷和研究方向,白板編程別太差,面試基本都能過。另外,小夕參加的都是提前批,不太清楚正式批會不會有變化。不過貌似正式批的NLP崗少得多,盡量不要把重心放正式批哦

    TIPS篇

  • 一定不要錯過提前批!一定不要錯過提前批!一定不要錯過提前批!不要相信錯過提前批還有正式批的鬼話,很多核心部門的NLP崗的hc在提前批就用光了!
  • 提前批不要拖到末尾!尤其百度自然語言處理部的坑,面試當(dāng)天就給口頭offer,先占先得!
  • 阿里基本是遠(yuǎn)程面試,6輪面試都沒編程題!簡歷內(nèi)容準(zhǔn)備好就可以直接投阿里了!
  • 內(nèi)推之前千萬不要把簡歷掛到騰訊校招系統(tǒng),填上意向部門都沒用,不match的其他部門很可能以迅雷不及掩耳之勢強(qiáng)行撈起你的簡歷,然后你的騰訊之旅就舉步維艱了(我跟另外倆小伙伴血的教訓(xùn)。。。)
  • 如果只是想找算法崗,但沒有研究方向,沒刷幾篇paper,不過研發(fā)能力強(qiáng),基礎(chǔ)編程題解的快,工具用的熟,那就去投頭條吧。(親測它提前批的三輪技術(shù)面都沒學(xué)術(shù)味兒,所以優(yōu)勢在對立面的小伙伴謹(jǐn)慎)
  • 謹(jǐn)慎投遞跟第三方招聘網(wǎng)站比如前程無憂 (51jobs) 合作的企業(yè),除非你想換手機(jī)號了╮(╯▽╰)╭

  • 更多精彩文章歡迎關(guān)注小夕的微信訂閱號【夕小瑤的賣萌屋】噢 (?ω< )★

    總結(jié)

    以上是生活随笔為你收集整理的别求面经了!小夕手把手教你如何斩下和选择NLP算法岗offer!(19.11.21更新)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。