日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

计算所与北大往事回顾

發布時間:2023/12/14 编程问答 47 豆豆
生活随笔 收集整理的這篇文章主要介紹了 计算所与北大往事回顾 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

作者:劉群老師(華為諾亞方舟實驗室?語音語義首席科學家)

主頁:https://liuquncn.github.io/

大家紅,這里是NewBeeNLP。周末轉一篇劉群老師寫于2006年的舊文,很長,很有意思,強烈推薦,適合NLPer收藏慢慢看。本文已獲劉老師轉載授權,原文鏈接可以點擊文末"閱讀原文"查看。


引言

在二室

攻讀碩士學位

開始獨立研究·跟北大計算語言所合作

計算所改革·跟李所長第一次接觸

二室的一些人和事

對智能中心的印象

在軟件室

計算所的新氣象

研究工作進展

軟件室的一些事情·跟李所長第二次接觸

在數字化室

研究工作進展和取得的成績

獲得博士學位

跟李所長的第三第四次接觸

結語

后記


這篇文章,本來是為計算所建所50周年寫的一篇稿子,標題是“計算所往事回顧”,發表在計算所網站建所50周年的專欄上。因為我這些年來的工作與北大計算語言所有密不可分的聯系,我在寫初稿的時候,花了很大篇幅介紹我跟北大計算語言所合作的情況。初稿寫成后,我請了很多人幫我看,包括北大計算語言所的俞老師、詹衛東、常寶寶等人,他們看到我對以前的這些事情的回憶都很感慨,也給了我很多的鼓勵。后來在計算所網站上正式發表時,考慮到這篇稿子畢竟是為計算所建所50周年而寫的,我與北大合作的這些事情與這個主題關聯不大,所以就忍痛刪掉了很多這方面的文字,另外也刪掉了一些比較具體的技術細節。現在征得俞老師同意,把這篇稿子的全文發表在“燕園時語”上,補上了被刪除的部分,標題改成“計算所與北大往事回顧”。不過原來文章是以我在計算所的經歷為主線來寫的,這一點沒有改動。謹以此文獻給這十幾年來跟我一起在自然語言處理和機器翻譯領域并肩戰斗過的老師、同學和朋友們。借用詹衛東給我的郵件中的一句話:衷心祝愿我們這些一起戰斗過的NLPers一切順利。

引言

計算所宣傳外聯辦的祁威跟我約稿,要我為計算所建所50周年專刊寫篇稿子,回憶一下我所經歷的一些事情。她的來信引起了我對往事的一些回憶。我是1989年進入計算所的碩士研究生,畢業后一直留所工作至今。比起計算所的老同志來說,我在所里的時間并不算太長。不過在現在的計算所,放眼望去,到處都是生氣勃勃的年輕人,與計算所的絕大部分人比起來,我也確實應該算得上是“老”員工了。不算在研究生院(玉泉路)學習的一年時間,我在計算所已經工作了整整16個年頭。雖然我只是計算所一個普通研究人員,計算所這些年來發生的一些重大事件,我們并不處在這些事件的中心,但對于我們具體的每個人來說,還有很多的小事,同樣值得我們去回味。也許正是這些小事,可以從一個側面,佐證我們計算所這些年來輝煌而又曲折的發展歷史吧。

在二室

先說說我自己的經歷吧。

攻讀碩士學位

我是1989年作為免試推薦的碩士生進入計算所的。當時報的導師是高慶獅院士(當時還叫學部委員)。進所的時候,因為高院士出國未回,我的導師改成了張祥研究員,也就是當時計算所二室的主任。在玉泉路學習的一年很快就過去了,回到所里的時候,我和師妹韓向陽都被分到了陳肇雄博士領導的機器翻譯課題組,師弟潘偉被分到了蔣賢春負責的漢字識別課題組。

我剛到計算所二室的時候,張祥老師還是863專家組的組長,那時二室還是非常紅火的。1990年我們剛從玉泉路回所的時候,趕上在京西賓館舉行EST863工作站的鑒定會,規模非常大。

接下來的兩年,我開始在陳肇雄課題組研究機器翻譯,這個課題組承擔了863的“智能型機器翻譯”項目,課題經費是74萬元人民幣。當時參加這個項目的,除了計算所的人以外,還有很多合作單位,包括北京科技大學、中國科技情報所、珠海科健公司、北京工業大學等等,研究開發工作進行得非常紅火。這段時間的工作,使我對計算語言學和機器翻譯的研究發生了極大的興趣。在我以后的經歷中,雖然換過好幾個地方,但我的研究工作一直集中在這個領域,沒有離開過。

1992年,我順利完成碩士學習和碩士論文(我的論文主要是做其中的知識庫管理系統),獲得了碩士學位。也就在這個時期,機器翻譯課題組的工作取得了重大的進展。課題組和香港權智公司簽署了協議,權智公司投入74萬美元,課題組投入機器翻譯技術,雙方共同合作成立了“科智”公司,將系統植入權智公司的“快譯通”產品之中。由于權智公司的產品早已行銷全世界,產品的銷路完全不成問題,而這又是全世界第一個帶有全文翻譯功能的電子辭典產品,這是一次非常好的合作,引起了轟動。從此以后,陳肇雄的事業開始走上了快車道,先是于1993年和1995年分別獲得中科院科技進步一等獎和國家科技進步一等獎,而后又在1997年離開計算所,成立了華建公司。華建的機器翻譯產品也一直是市場上最好的機器翻譯產品之一,這是后話了。

也就在我們畢業的時候,陳肇雄脫離了計算所二室,成立了計算所機器翻譯中心。我的師妹韓向陽跟陳肇雄去了機器翻譯中心,師弟潘偉去了美國,而我則選擇留在了二室。

開始獨立研究·跟北大計算語言所合作

碩士畢業后,我就一直在考慮今后的研究方向。導師張祥給了我很大的選擇余地,讓我自己做出選擇。經過一段時間考慮,我還是決定繼續做機器翻譯研究。我選擇的課題是漢英機器翻譯。之所以選擇這個課題,是因為當時陳肇雄做的主要是英漢翻譯,我不希望做的工作跟他們重復,另外,從研究角度說,漢英機器翻譯難度更大,對漢語研究來說意義也更大。張祥老師同意我的選擇,并許諾給我盡可能的支持。方向定下來以后,我就開始埋頭考慮設計方案,到1993年上半年,初步的設計方案已經成型,系統設計已經詳細到了模塊一級,詞典、規則庫的定義也都已經完成。這時我開始考慮尋找合作者。由于做漢英翻譯的研究主要需要尋找漢語語言學方面的合作者,我首先想到了北京大學計算語言學研究所的俞士汶老師。俞士汶老師是我碩士論文答辯的主席,他的學者風度給我留下了深刻印象。我主動找上門去跟俞老師討論合作事宜。現在想起來確實冒昧。那時我還是一個剛剛碩士畢業的學生,俞老師已經是成名的學者,而我又要求進行以我為主的合作,現在看起來,幾乎是一件不太可能的事情。沒想到這次合作竟然奠定了我們以后長期合作的基礎,我也最終成為了俞老師的博士研究生。這是后話,下面還會說到。

當時俞老師在仔細聽取了我的設想以后,初步同意了合作,但希望能夠在仔細研究我的設計方案后再做出最后決定。我回去后,就把總體的設計方案交給了俞老師,其中詞典設計和規則庫設計都是用類似BNF范式的形式描述的。俞老師在仔細研究了我的方案后,完全同意了跟我合作,我們簽署了一個簡單的合作協議,由計算所提供很少的一筆研究經費和一臺計算機,北大協助我按照我的設計方案,完成詞典和語料庫的設計和調試,雙方共同合作開發一個漢英機器翻譯系統。合作期限是1993年8月到1995年1月。

協議簽署后,我們就分頭開始了開發。我主要進行軟件開發,北大一個小組在我的指導下進行詞典和規則庫的開發。當時北大這個小組由當時在北大讀碩士的周強負責,參加的人有段惠明老師、王惠老師、碩士生和博士生詹衛東、博士生常寶寶、碩士生陶曉鵬等人。到1995年,一個原型系統已經完成,這個系統運行于Sun工作站之上,詞典規模只有5000條。雖然這個原型系統還很簡單,但已經具備了一個機器翻譯程序所需的基本功能。初步的成功讓我們備受鼓舞,我和俞老師都同意將這項合作繼續進行下去,開發一個初步實用的漢英機器翻譯系統。

1996年和1997年,我們又就這個項目跟北大簽署過兩個補充協議,一方面是繼續合作,另一方面,我們以非常優惠的價格購買了北大開發的一些語言資源和工具。這一階段,除了軟件的繼續完善以外,還有兩件工作量比較大的事情,一個是將系統從Unix平臺移植到Windows平臺,另一個是詞典的開發。詞典的知識來源主要有三個部分。第一部分是漢語的語法信息,主要來源于北大提供的漢語語法信息詞典。第二部分是詞的語義信息,是我們課題組自己獨立開發的,我們設計了一套當時比較先進的語義描述體系,一方面通過一個語義分類體系(現在通常稱為本體Ontology)描述每個詞的語義,還可以對每個詞配價關系的描述來說明一個詞可以跟哪些語義的詞搭配。這部分開發工作由北大的王惠老師負責。第三部分是漢語詞到英語詞的翻譯信息,也是我們根據幾部漢英詞典獨立開發的。1996年,我們就漢英機器翻譯系統申請了863項目并得到了支持,經費16萬元人民幣,不久以后又得到了一個計算所所長基金的支持,這標志著我們的機器翻譯研究正式從自選項目的狀態轉入了官方認可的狀態。1998年,863項目結束,我們的系統也初步開發完成。當年,我們參加了863專家組組織的中文信息處理與智能人機接口技術評測,參加漢英機器翻譯評測的共有三個系統,我們在翻譯質量方面以比第二名微弱的優勢獲得第一,但在用戶界面方面,由于程序運行過程中的一個錯誤被扣分,導致總分名列第二。當時的評測結果全文刊登在《計算機世界》報上。這是我們的系統第一次出現在公眾視野中,應該說,成績還不錯。這次評測給了我們很大的信心。

從我1992年畢業到1998年我們的系統在863評測中取得較好的成績,我的工作應該說出現了一個小的高潮。這一年我的一篇論文發表在美國的AMTA會議上,我在1997年評上了副研究員。更重要的是,我在工作中結識了很多今后非常好的朋友。在計算所,除了我以外,先后加入了我這個小組的有博士生劉穎、王斌、李素建、魯松和員工葉煜。王斌后來留在計算所,先后在軟件室和前瞻研究中心工作,現在是前瞻研究中心信息檢索課題組組長。劉穎畢業后去了清華大學當老師。李素建和魯松來得比較晚,很快就隨著所里的改革進入新所軟件室,葉煜工作很短時間后就離所了。北大的詹衛東這期間獲得了碩士學位,并開始攻讀博士學生。我們幾個人長年在一個辦公室工作,結下了深厚的戰斗友誼。特別值得一提的是詹衛東,他在我這個課題組工作的時間最長。他是北大中文系陸儉明教授的學生,在漢語語法研究方面有很深厚的功底,對漢語的各種語言現象非常熟悉,在課題組內負責規則庫的編制和調試。對于他來說,用形式化的計算機規則方式處理語言是一種全新的體驗,尤其是在進行機器翻譯的時候,就會發現,機器翻譯所要處理的語言學問題跟他平時在語言學領域關心的語言學問題差距非常大,他會經常發現各種各樣的問題提出來跟我們討論。而我當時也對漢語的分析非常感興趣,看了很多語言學、特別是漢語語法理論的書籍,我們經常就語言學中的大大小小的各種問題進行非常深入的探討。由于機器翻譯幾乎涉及到一種語言的所有各種語言知識,所以我們的討論也涉及到了語言學的方方面面,我們把語言學中的很多概念按照我們的理解重新進行了清理,形成了我們共同的一些理念。這種討論讓我們都受益頗深,對我們今后的工作都產生了非常深遠的影響。對我來說,我從一個語言學的門外漢變成了一個“票友”,對語言學的各種理論我至今都有著濃厚的興趣。語言對我來說不再只是計算機處理的一堆數據,而是在其背后隱藏著深刻的規律性。到現在,雖然我們已經完全轉到了統計機器翻譯這個方向,但我并沒有像一些純粹的經驗主義者一樣,對語言知識在機器翻譯翻譯中的應用失去信心,而是一直堅持把一些語言學的知識引入到統計方法中,并獲得了某種程度的成功。我也堅信,結合語言知識的統計模型將是機器翻譯方法的最終歸途,我們將沿著這個方向一直走下去。對于詹衛東來說,機器翻譯的工作經驗使他相比于其他的語言學研究者而言具備了一種獨特的視角,這種視角更加全面、更加理性,這也使得他的研究工作在語言學界受到了更加廣泛的關注。詹衛東于1999年博士畢業,他的博士論文“面向中文信息處理的現代漢語短語結構規則研究”就是根據他在機器翻譯中的工作總結提煉形成的,這篇論文獲得了2001年全國百篇優秀博士論文獎。現在詹衛東已經是北大中文系應用語言學方面的負責人,而且擔任了北大計算語言學研究所的副所長。

對于當年開發的這套基于規則的機器翻譯系統,我現在想起來還是比較滿意的。這個系統最大的優點在于提供了一套具有強大的翻譯知識表達能力的規則描述語言。通常,基于規則的機器翻譯系統最大的問題就在于詞典和規則庫的調試。一般情況下,沒有經過數十乃至數百人月的調試,規則數目沒有數千條以上,系統很難達到初步可用的水平。而我們的系統除了在詞典開發階段招聘了一些臨時人員以外,一般只有兩三個人進行詞典和規則庫的開發,真正進入調試階段只有三四個月的時間,調試了四千個左右的漢語句子,就在863評測中取得了較好的成績。這一方面得力于詹衛東博士深厚的漢語語言學功底,為我們的規則系統打下了良好的基礎,另一方面,也確實是因為我們定義的規則描述語言非常強大,可以比較清晰準確地描述各種類型和各種層次的語言知識,為詹衛東這樣的語言專家提供了得心應手的工具。詹衛東博士對這套規則描述語言使用得非常順手,以至于直接用在了他的語言研究工作中。在他的博士論文以及其他一些論文中,都直接采用這套規則描述語言。而且,后來由于我轉到了統計機器翻譯方法,原來的系統已經棄之不用了。但詹衛東博士對這個系統仍然不忍放棄,我就把系統的全部源代碼給了他。他把其中的漢語分析部分獨立出來,后來,他又帶了一個學生,在我的幫助下,把原來的規則描述語言進一步完善,主要是增加了一些內嵌的函數,并增加了主觀評分機制,使得規則的描述能力更加強大。詹衛東博士把這套句法分析器和他后來開發的句法樹庫管理工具結合起來,構成了一個完整的漢語句法知識管理平臺,他至今仍在使用。其中的漢語句法分析器在面對真實語料的時候正確率能夠達到60%以上,這對于一個基于規則的系統來說是非常不容易做到的。有趣的是,詹衛東作為一個語言學家,為了開發這套工具,自學起了C++語言,到后來自己已經成了半個編程高手了,程序中的很多問題他都親自上陣解決,當然也免不了有一段時間經常就一些比較難解決的問題“騷擾”我。由此也可見詹衛東的勤奮與鉆研精神。對這套工具,我們一直希望把文檔好好整理出來,將有關成果發表成論文,并將這套工具公開出來提供給其他語言學研究人員使用。到現在為止他可能覺得一直還不完善,所以還沒有這樣做。但我想這是遲早的事情。

除此之外,我們這個機器翻譯系統還產生了一些有意義的結果。我們開發的機器翻譯詞典的語義部分,采用了前面提到的基于配價的描述模式。雖然我們在詞典的語義分類體系設計和詞典開發的質量方面都做得非常粗糙,但這種思想還是很先進的。當時組織這部詞典開發的北大教師王惠發表的一篇介紹這部語義詞典的論文就有很高的引用率。這種基于配價的語義詞典設計思想明顯不同于自然語言處理界常見的語義詞典(如同義詞詞林、Hownet、Wordnet)的組織形式,比較適合于機器翻譯系統的使用(目前看來,這種設計思想有點類似于Fillmore設計的FrameNet的思想)。俞老師對我們這套詞典的設計思想非常欣賞,后來北大計算語言所和北大中文系合作在這種設計框架下完成了一部新的《現代漢語語義詞典》。

另外,我們還跟俞士汶老師簽署了一份協議,授權北大計算語言所幫我們轉讓這個機器翻譯系統的成果,包括其中的軟件和詞典等等。由于俞士汶老師開發的漢語語法信息詞典影響非常之大,全世界開展漢語自然語言處理研究的幾乎所有著名的大學和研究機構都陸續跟俞老師談判轉讓了這部詞典的使用權。在談判的過程中,俞老師也順便跟這些機構推薦轉讓我們機器翻譯系統的成果,幾年下來,竟然也收獲頗豐,轉讓次數估計有七八次吧,轉讓金額總數也有近百萬元人民幣,其中一半左右分到了計算所。我記得還有一份軟件還免費轉讓給了香港中文大學做教學用。

計算所改革·跟李所長第一次接觸

在這一期863項目完成以后,我們的機器翻譯研究開始工作變得困難起來。雖然我們又成功申請了一期863重點課題,但實際上項目經費只到位5萬元。

1998年底,計算所新領導班子上任,高文任所長,科學院宣布對計算所進行重大改革,原來1000多人的計算所絕大部分人進入企業形式的計算所二部,重新組建一個不到100人編制的小計算所,小計算所同時又是聯想研究院。這使得計算所進入了一個動蕩不安的時期,很長一段時間,大家都人心惶惶,不知道將來要向何處去。后來,有一些人的去向逐漸明朗,部分人進入計算所二部,另外少數人進入新成立的小所,同時也是聯想研究院。不過讓我著急的是,我的工作沒有任何著落。原來的二室已經解散,張祥老師出國了,這時劉穎已經畢業去了清華大學,王斌剛剛畢業,留所進了智能中心,而我既沒有進入二部,也沒有被吸收進小所,成了孤家寡人。從一些間接的消息看,小所似乎按部就班地成立并正式開始運轉了,但對于我(可能還有其他一些人)來說,我沒有從任何正式的渠道得到小所成立的任何信息,也沒有任何人對我們將來的安排做出任何解釋或說明。我第一次對未來感到如此的茫然。其實我也不是沒有地方可去,俞士汶老師非常歡迎我進入北大(俞老師很長時間一直在北大為我保留了專門的工位和計算機,雖然我并沒有去北大上班),自動化所模式識別實驗室也在向我招手,還有一些公司只要我愿意也都可以去。但我還對計算所抱有一絲留戀,希望計算所能給我一個解釋,而不是這樣不明不白就走了。

那時我找了所里不少領導和部門的負責人,都得不到正面的答復。有一天下班的時候正好遇到李所長(那時候還是智能中心主任),我就壯起膽子跟他打了個招呼,說想跟他談談。李所長就帶我到他辦公室聊了一會兒。我跟他說了我的情況,表示了希望進入智能中心的愿望。他對我的情況好像也大致知道,只是告訴我,我所做的機器翻譯研究,如果不能結合到具體的項目中,在智能中心會很困難。談話的時間很短。雖然他沒有正面答復我,但從他談話的口氣看,我感覺還是很有希望的。

這是我第一次跟李所長直接接觸。我在計算所這么多年,跟李所長的接觸并不多。不過,這寥寥可數的幾次接觸,對我的在計算所的工作都產生了重大的影響,后面我會陸續提到。

我最早認識李國杰所長,還是我在中國科學技術大學計算機系學習的時候。那時他剛從國外回國不久,我們學校的陳國良教授邀請他到我們系做了一個系列學術報告,介紹了國際上并行處理方面的最新動態。不過那時候我對他的印象還不是很深。

到計算所以后,我才知道,李國杰已經擔任了智能中心主任,名氣非常大,幾乎可以用如雷貫耳來形容。不過在很長時間里,我都沒有跟他直接接觸過。對他的了解,都是通過各種媒體以及同事之間私下的交流得知的。這次也是走投無路了,才想起來去找他。

1999年末,所里的情況出現了大的變化,李國杰院士接任計算所所長,計算所的改革方向逐漸明朗起來。計算所和聯想研究院進行了明確的分割,計算所內成立了六個實驗室,而我也在2000年初得到樊建平副所長的通知,讓我到白碩那兒報到,正式進入新成立的由白碩擔任室主任的軟件研究室。

在我焦急等待的這段時間里,我做了一個重要決定,就是在1999年報考了北大的博士研究生,并被正式錄取為俞士汶老師的在職博士研究生。1999年末,俞士汶老師得到一個973子課題“面向新聞領域的漢英機器翻譯系統”,俞士汶老師讓我以計算所員工和北大博士生的雙重身份,擔任這個課題組的技術負責人,總算把我的機器翻譯研究工作延續下來了,不過主要的研究工作已經從計算所轉到了北大,北大和計算所簽署了一個協議,分擔了其中的部分工作,這個項目的另一個合作單位是清華大學,由當時已經留在清華當老師的周強博士帶兩個碩士生參加。

二室的一些人和事

我在二室的時間前后有10年之久,這里面經歷了很多事情。其中還有一些人和事我覺得有必要寫出來。

高慶獅院士本來是我的碩士導師,但自從我到計算所以后很長時間就一直沒有見過他。雖然如此,我還是聽到了很多有關他的傳說。后來到1990年代末他回國后,到北京科技大學工作,我聽了他的一次報告。我進入軟件室以后,他也被李所長重新請回計算所,我們接觸機會才多了一些。我跟高院士有過一些深入的交談,感覺高院士看問題總是站在很高的理論角度上,跟他的談話總是讓我很受啟迪,也讓我望塵莫及。

我剛到二室的時候有一個師姐張玉潔。她是高慶獅的學生,在我到二室的時候已經碩士畢業留所工作,等我1992年碩士畢業留所的時候,她到日本去攻讀博士學位。沒想到,十幾年后我們竟然成了合作伙伴。我也忘了具體是什么時候,大概是2002年下半年吧,她所在的日本綜合通信研究所(現在已經改名叫做日本情報通信研究機構)希望到中國尋找合作機會,我們見過幾次面。后來,我們又在一個中日自然語言處理研討會上見了面,我們也互相對對方的工作有了比較多的了解,她在2004年初邀請我到日本進行了一個月的訪問。這以后,我們就在一些領域開始了合作。最主要的合作是我們在863評測中的合作。她所在的研究所成了我們組織的863機器翻譯評測的日方合作單位,幫助我們組織日本的研究機構參加評測、制作與日語相關的測試語料、并進行與日語相關的機器翻譯人工評價。我們在這方面的合作非常成功,并在2005年的MTSummitX會議上合作發表了兩篇學術論文。到現在,除了863評測,我們還在其他一些項目上開展了進一步的合作,并且每年都在各種會議上有很多次見面交流的機會。

我對二室印象還比較深的一項工作是張玉志的計算機圍棋算法研究。計算機圍棋是一個非常困難的研究課題,當時張玉志提出了一種類似于磁場的棋子影響力計算方法,可以比較方便地在序盤階段判斷雙方的勢力范圍,確定關鍵的位置,理論上做得相當的漂亮。1990年張玉志還在計算所承辦了一次由臺灣應昌期先生資助的世界電腦圍棋大賽,非常熱鬧。當時有一個趣聞,據說是兩臺計算機下棋的時候,在一個地方形成了比氣互殺的局面,其中一方走出了一個“金雞獨立”,本來是活棋,眼看就可以殺死對方了,結果該方的計算機程序竟然主動認輸了,一時傳為笑談。我想現在的計算機圍棋程序應該不至于犯這么低級的錯誤了吧。另外一件值得一提的事情就是,當時還進行了少年棋手和計算機的比賽,都是讓子棋。雖然少年棋手贏得了大多數的比賽,但唯一一個獲得全勝的少年棋手就是常昊。當時很多人都看好的這個毛頭小伙,現在已經成了中國圍棋挑大梁的人物了,想起來不由得讓人感慨。計算機圍棋研究和機器翻譯研究一樣,都是對人類智力進行挑戰的工作,我至今仍然認為是非常有意思的,哪天要是等我有閑了,我倒很想嘗試一下。

我畢業后留在二室的時間里面,還有一小段時間跟劉志勇研究員做了一點并行算法的研究,幫他把一個在n-cube上的并行算法移植到了另外一種結構上,還發表了一篇論文。后來不久劉志勇就調到國家自然科學基金委去工作了。

大概在1999年前后,我還跟李錦濤老師的課題組合作,將我們開發的漢英機器翻譯系統移植到了將要推出的聯想天璣掌上電腦中。我們順利完成了這項工作,不過后來聯想天璣正式推出的時候并沒有選擇我們的系統作為隨機軟件。

我在二室的時候,錢躍良老師一直擔任863專家組辦公室的主任,有一段時間還是二室的副主任。當時我們打交道并不多。沒想到這么多年以后,我又進入數字化研究室加入了錢老師的課題組,在錢老師的領導下工作。現在錢老師是我們多語言交互技術評測實驗室的主任。

老二室的人現在還留在計算所的,除了高院士、錢老師、我和王斌以外,還有宋銦(軟件室秘書)、齊蓉(計算機研究與發展編輯部)等人。

對智能中心的印象

改革前的幾年,計算所很多部門的情況都是每況愈下。只有少數幾個部門情況較好,而智能中心無疑是其中狀況最好、也是最活躍的部門。我當時由于埋頭機器翻譯的研究開發,對其他單位的情況并沒有太關心,但智能中心的一些情況還是不斷傳入耳中,我們知道了智能中心開發出了著名的曙光計算機、智能中心有很好的研究氛圍、智能中心的人收入很高,等等。二室的很多人也都陸續轉到了智能中心工作。我自己唯一跟智能中心接觸的機會就是參與了當時智能中心討論班的一些討論。當時兩周一次的智能中心討論班非常火爆,吸引了周邊各研究所和高校的很多青年人來參加,傳播了很多的新思想,討論非常活躍。我自己也應邀在這個討論班上介紹了當時我所在的陳肇雄機器翻譯課題組的一些情況。當時負責這個討論班的是一個年輕的小伙子,他的名字我不記得了。剛開始,白碩還是北大的學生,他跟他的一個同學(忘了名字,好像姓王,單名)在這個討論班上非常活躍,名氣很大。后來白碩畢業后到智能中心工作,原來的討論班主持人也出國了,這個討論班就由白碩等人負責,延續了很長一段時間。

在軟件室

計算所的新氣象

李國杰擔任所長以后,計算所的面貌發生了很大的變化,各方面都開始顯現出一種蒸蒸日上的局面。在這種大的環境下面工作,人的精神面貌都一下子好了起來。

我所在的軟件研究室也是一個非常有活力的研究團體。這里承擔了很多大型的國家項目,人才濟濟,研究氛圍非常好,學生們的思想也很活躍,大家工作也都特別努力。室主任白碩和后來接任的程學旗知識面都非常廣泛,對前沿的學術動態也都很了解。在這種環境下,我的研究工作也取得了一些新的進展。

研究工作進展

2000在很多方面對我來說都是一個新的開始。我不僅僅是開始了博士階段的學習,開始進入軟件室這樣一個新的環境,開始承擔了機器翻譯研究的新課題,而且開始做爸爸了。可以想象得到我當時的手忙腳亂。

這時候我一直在考慮的一件事情就是,我們的機器翻譯研究下一步向什么方向去。按理說,如果要提高現有的基于規則的機器翻譯系統性能,應該找人用大量各種各樣的句子進行調試,改進詞典和規則庫。但說老實話,我很不喜歡這種模式。因為凡是調試過機器翻譯規則的人都知道,這是一件極其痛苦的事情。有點像計算機編程時的Debug,但不同之處是,機器翻譯規則的調試似乎是一個永遠沒有盡頭的工作,我們經常是按下葫蘆起來瓢(所謂翹翹板現象),這邊的句子調好,但原來調好的一些句子又出錯了。雖然總體上說,系統的性能在不斷改進,但這種改進非常之慢,以至于這對于調試者來說,這是一件非常沒有成就感的事情。我自己就很不喜歡做這種事情,同樣也不希望讓別人去做這種事情。所以我已經下決心拋棄這種大規模調試規則的方法了,而是希望從算法角度對機器翻譯系統的性能加以改進。但當時,我還看不清有什么方法能在本質上超越規則方法,當時主要的設想就是從以下幾個方面對機器翻譯系統加以改進:

????●?改進原有的漢語分詞程序和漢語句法分析程序;
????●?擴大詞典規模;
????●?建立一個短語庫;
????●?構造大規模雙語句子對齊語料庫;
????●?構造小規模雙語組塊對齊語料庫,試圖從中自動抽取規則;
????●?引入基于實例的機器翻譯引擎;
????●?采用多引擎方法,將基于實例的引擎和原有基于規則的系統以及其他一些技術結合起來,提高系統的綜合水平。

為了盡快推進項目的進展,在項目的初期,我想把我在計算所習慣的項目管理方法應用到這個項目中,也就是制定比較詳細的進度計劃,每周開會討論了解督促進度。不過實踐證明這種做法在這個項目中行不通,北大和清華的老師和學生都不能適應這種做法。我只好放棄了這種做法,還是大家分頭開發,最后集成。

經過一段時間的討論和磨合,我們三個單位的分工逐漸清晰,清華主要負責提供一個漢語分詞模塊和一個漢英命名實體的翻譯模塊,北大主要負責資源的開發,包括雙語詞典的擴充、語義詞典的擴充和雙語語料庫的開發,以及完成一個基于實例的翻譯引擎。計算所(主要是我本人)主要負責多引擎方法的設計和系統的總體集成。實際上,對于北大和清華的研究開發工作,除了開始階段我試圖統一進行管理那一階段,后來我就很少直接介入了,只是把他們開發的各種詞典、語料庫和工具集成到了我們最后的系統中。

當時,計算所的開發人員主要是我自己,北大投入的人較多,包括詹衛東(語料庫和詞典)、常寶寶(基于實例翻譯、語料庫)、孫斌(分詞)、王惠(語義詞典)、陳玉忠(組塊對齊的語料庫)、吳云芳(雙語短語庫)等人,還有一些短暫參加但很快就退出了,這里就不一一列出。清華大學除了帶隊的周強外,還有兩個碩士生(負責漢語的詞語切分和詞性標注模塊和命名實體的翻譯模塊)。這時候周強已經是清華大學的博士后了。

后來,在計算所我又有了幾個學生,也有一些員工參加了我這個組的一些工作。到2003年我離開軟件室為止,陸續在我這個組工作過的人包括我自己的學生王長勝(他是中科院研究生院的學生,找到我做他的導師)、李繼峰、鄒綱、鄧丹,程學旗的學生張華平、白碩的學生張浩和李丙辰(后來根據他的個人興趣轉成了徐志偉副所長的學生),客座員工張奕滔、張彤,客座研究生俞宏魁,員工周立新,另外員工黃雄和梁焰也少量參與這個項目的一些工作。

在軟件室這幾年(2000-2003),實際上也就是我在北大在職攻讀博士學位(1999-2004)的主要時間。剛開始,對于機器翻譯如何做,我的思路實際上并不很清晰,但我對機器翻譯的信念卻一直不減,在跟室主任程學旗的多次談話中我都跟他表達了我這種信念。我也要感謝軟件室當時并沒有給我安排其他工程性的項目工作,讓我有精力在機器翻譯的各個方面做了很多的探索,雖然當時這種探索并不很成功。

我在計算所的工作并沒有局限于只做多引擎方法和系統集成,而是跟小組的其它成員一起,幾乎嘗試了所有我能想到的各種方法,試圖提高機器翻譯系統的性能。雖然系統比原先簡單的基于規則的系統有一定的提高,但總體效果并不顯著。這一段時間做的很多事情有些不了了之,但也有很多工作取得了很好的效果,為我今后的工作奠定了重要的基礎。下面我分別介紹這些工作。?

???●?雙語詞典

早期基于規則的機器翻譯系統一個重大缺陷就是詞典規模太小。于是我們就從網上收集了數十部各種形式的電子詞典,投入人力進行數據整理和歸一化,得到了一部相當規模的電子詞典(含大約42萬詞條)。這部分工作李丙辰開了一個頭,后來由于個人興趣原因,他很快就轉到了徐志偉所長的網格組去了。不過這部分工作我們一直延續下來了,并把這部詞典以數據庫形式放在了網上供大家免費查詢,竟然非常受歡迎。在沒有對這部詞典做任何宣傳的情況下,現在每天的訪問量都在1000次以上,很多人還經常給我發信跟我探討這部詞典的一些問題。我們現在已經把這部詞典擴充到了數百萬詞條(沒有放到網上),不過由于我們后來參加的機器翻譯評測主要是參加受限語料的評測,這部詞典并沒有直接用上。不過我想這是一個非常寶貴的資源,總有發揮作用的時候。?

???●?雙語語料庫

早期我們的基于規則的系統是完全不使用語料庫的。自從我決定不再采用人工調試規則的方法以后,從語料庫中學習翻譯知識是必然的途徑。雖然具體采用哪一種策略還不明了,但是語料庫總是不可缺少的。雖然按照分工這一塊工作由北大來做,但我想語料庫總是多多益善的,所以我在計算所也組織課題組成員收集了一批語料庫,這項工作當時由梁焰等人負責,總共收集了大約18萬句對。后來,我到數字化室以后,這些語料庫用在了我們承擔的一個973項目的子課題中,目前已經可以通過ChineseLDC進行轉讓,也可以在我們課題組的網站上在線查詢。我們后來的機器翻譯和詞語對齊等工作都使用了這個語料庫。后來我們組織的863評測,也把這個語料庫作為訓練數據的一部分。但我們參加NIST評測并沒有使用這個語料庫,因為我們參加的是限定訓練語料庫的項目,只能使用NIST指定的語料庫。?

???●?參加NIST評測

2002年,我了解到美國NIST要進行一次機器翻譯評測,測試的語言主要是漢語到英語和阿拉伯語到英語的翻譯。由于我一直在做漢英機器翻譯,而且在1999年的863評測中也取得了不錯的成績。漢語又是我們的母語,應該說我們還是有一定優勢的,所以我積極投入了漢英機器翻譯評測。由于時間緊迫,我無法對原有的程序做大的改進,只是把我們收集的一部大規模漢英詞典加入了系統中。但結果卻讓我大失所望。由于我使用的是規則方法,完全沒有使用評測提供的任何語料和工具,而是使用了自己的詞典,所以我參加的是不受限語料的項目。結果在不受限語料項目的四個參評系統中,我們的結果排在最后一名,即使加上受限語料項目的六個參評系統,我們也只能排在倒數第二。這個結果讓我非常沮喪,但反過來,也讓我看清楚了,與傳統的規則方法相比,統計機器翻譯方法的優勢已經非常明顯,機器翻譯的研究轉向統計方法將是一個不可避免的趨勢。這件事使我最終下定決心轉到了統計方法上來。對我來說,雖然參評結果很差是一件壞事,但從另一個方面說,這件事讓我認清了今后工作的方向,讓我看到了機器翻譯研究的希望所在,對我來說終究是好處多于壞處。?

???●?中文自然語言處理開放平臺

從事自然語言處理和機器翻譯研究這么多年,我有一個很深的感觸,就是這個領域門檻較高。從事這個領域的研究,如果沒有一定的基礎和積累,沒有一個合適的研究環境,是很難入門的。雖然很多研究者對中文的處理都非常感興趣,但苦于缺乏基礎,不得其門而入。因此,我一直很想為這些人做一些事情,以便降低這個研究領域的門檻,讓更多的研究者能夠方便地進入這個領域,從事這方面的研究工作。恰逢當時接觸了很多開放源代碼運動的資料,于是我就萌發了一個想法,就是借鑒開放源代碼的形式,做一個公益性的網站,專門提供免費的中文自然語言處理方面的資料,不僅僅有源代碼,還可以有詞典、語料庫、論文、資料等等。在不侵犯別人知識產權的情況下,用戶可以上載自己手里的資源,也可以下載別人的資源。我想這一定會受到大家廣泛的歡迎的,對我們自己的學生上手進行研究工作也是非常有益的。說干就干,我很快把我的想法寫成了計劃,跟軟件室負責人程學旗和白碩討論并得到初步認可后,我們很快就申請了域名(nlp.org.cn),完成了設計,編寫了相關文檔(包括我們自己定義的開放資源授權協議),并請張奕滔開始實現這個系統。2002年8月,在北京大學召開了第一次學生計算語言學研討會,當時我作為在職博士生擔任會議的程序委員會主席,在一篇論文中我介紹了這個想法,引起了很多人的注意。不久后我們的網站正式定名為“中文自然語言處理開放平臺”(以下簡稱開放平臺),就正式運行了。作為啟動的第一批資源,我們把我們剛開發成功并獲得973評測第一名的漢語分詞系統ICTCLAS(后面還會有介紹)作為開放源代碼的資源放了上去,不久我們又整理了一批語料庫、詞典、開源的工具,后來詹衛東博士也貢獻了他讀博士期間收集的一大批資料,我們的網站就紅紅火火地開張了。我當時給科學時報寫了一篇稿子,他們很快采用并報道了,結果這篇稿子很快被很多報紙轉載,產生了很大的影響。現在這個網站每天下載的資源數量大約為200-500份,注冊用戶超過8000人。作為一個專業的學術網站,這無疑是很少見的。我們當時希望,在google等搜索引擎上輸入“自然語言處理”六個字,我們的網站能很快就能找到。結果這個目標很快就達到了。現在,在任何一個主流的搜索引擎上輸入這幾個字,我們的網站都牢牢占據了第一位。?

???●?漢語詞法分析

漢語詞法分析,包括漢語的切詞、未定義詞識別和詞性標注,是很多漢語自然語言處理工作的基礎。從1980年代起,各國學者,尤其是中國學者在這方面投入的大量的精力。因為不管在哪方面研究,比如機器翻譯、信息檢索、文本分類、自動文摘等等,首先要做的都是切詞。由于沒有公開好用的切詞工具,所有從事中文自然語言處理研究的學者首先都要開發一個切詞系統,這就導致這方面的研究論文層出不窮。但如果仔細分析,會發現其中大部分的工作都是在低水平上重復。雖然有一些漢語切詞系統已經達到相當高的質量(如北語的系統和北大的系統),但由于普通研究人員無法得到這樣的系統,因此對于絕大部分研究人員來說,缺乏好的分詞系統依然是一個非常嚴重的問題。由于分詞并不是一個很簡單的問題,尤其是詞語切分歧義問題和未定義詞識別問題往往糾纏在一起,這就導致漢語的切詞變得比較困難,單純依靠規則方法很難得到很好的結果。而當時采用統計方法進行切詞研究的還不太多,尤其是將切詞、未定義詞識別和詞性標注等問題結合起來的研究還非常少見。這也導致很多原本希望從事其他中文處理研究的學者不得不陷入了切詞問題的研究之中,而削弱了對其本來研究問題的關注。我自己在原來的機器翻譯系統中,也開發了一個純粹基于規則的漢語詞法分析系統。由于缺乏足夠的調試,分詞效果當然很不理想,因此開發一個好的分詞系統也是一個迫在眉睫的問題。剛好這時候我看了很多自然語言處理中統計方法的文章,我發現,隱馬爾科夫模型是一種相當強大的工具,應該可以解決漢語詞法分析中的各種問題,包括切詞、未定義詞識別和詞性標注。于是在2001年下半年,我開始讓張華平開展這方面的研究。張華平是個非常聰明也非常勤快的學生,雖然他原來并沒有任何自然語言處理工作的基礎,但他很快就動手做了起來。剛開始他還不太能理解我的設想,就不斷地跟我來討論,在這種討論中他慢慢理解了我的設想,而且在一些細節上對我原先的設想也進行了進一步的改進和完善。我們采用北京大學計算語言學研究所開發的人民日報語料庫作為訓練和測試語料,實驗結果令我們非常滿意。2002年7月,我們參加了973項目組授權姚天順老師組織的漢語詞法分析評測,我們的系統ICTCLAS在參加評測的三個系統中,以微弱的優勢領先第二名的系統獲得第一,這讓我們非常高興。

雖然我們的詞法分析程序效果非常好,但說實話我并沒有把這件事看得很重。畢竟詞法分析只是機器翻譯的第一步,而且是非常小的一步。我忽然有了一個想法,就是把這個系統以開放源代碼的形式公開出來,一方面,可以讓所有為漢語切詞而苦惱的人解脫出來,不要再糾纏在漢語切詞問題上,而可以關注他們應該關注的研究問題。另一方面,可以為真正從事漢語分詞研究的人樹立一個標桿,不要再做低水平重復的工作,至少跟我們這個系統相比水平要有所提高才有意義吧。這個想法得到批準后,我們很快把我們的系統源代碼放到了剛開張的“開放平臺”上。正好這時計算所組織向社會公開了一批開放源代碼的工具,我們就把我們這套漢語詞法分析系統ICTCLAS和另一個漢語句法分析系統ICTPROP加入了這次活動,通過計算所網站也向社會公開。在2002年底,我們了解到國際上剛剛成立的漢語處理興趣小組Sighan要舉辦第一屆漢語切詞評測比賽,我們也積極參加了這次評測比賽,評測時間是在2003年4月,結果我們在有關漢語簡體文字切分的四個評測項目中,得到了兩個第一名和一個第二名。這使得我們的研究工作在國際上引起了更多的關注。到目前為止,ICTCLAS已經成為最有影響的漢語切詞工具,在計算所網站開源軟件網站上下載次數達4500多次,在“開放平臺”上的下載次數也應該有數千次,加上用戶其他途徑的傳播,我們估計ICTCLAS的用戶數量應該會有1萬以上。在Google等著名搜索引擎上搜索ICTCLAS,可以查詢到的網頁都在6000篇以上。東北大學的博士生張樂把這個系統移植到了Linux上,并把移植的結果上載到了“開放平臺”。在“共創軟件聯盟”上也出現了一個ICTCLASFORJAVA的項目。另外,網上還有大量的文章討論ICTCLAS的Bug,求解其中的問題。由于我們沒有提供英文的文檔,也沒有在英文網站上發布這個軟件,國外用這個軟件的人還不像國內這么多。不過還是有很多中國研究人員把ICTCLAS用在了他們在國外研究機構的研究成果中。在GoogleScholar上查詢ICTCLAS可以查到90篇文獻,其中就包括了很多國外的文獻。由于我們一直很忙,ICTCLAS的1.0版推出后,我們就一直沒有進行升級,其中的一些Bug我們也沒有來得及打上補丁。不過我們現在已經開始著手做這件事情,相信不久就會有2.0版本出來。另外,我們在課題組的網站上也提供了ICTCLAS的在線測試版本,供大家隨時測試。?

???●?漢語句法分析

在進行漢語詞法分析的同時,我們組另一個碩士生張浩也在進行漢語句法分析的研究。我原來在機器翻譯中開發了一個基于規則的漢語句法分析器,我很希望張浩能開展統計句法分析的研究。張浩的導師白碩研究員對于漢語句法分析提出了一種叫做角色反演的算法,因此也同意張浩進行這方面研究。張浩在查閱有關資料的基礎上,提出了一種基于結構上下文特征的漢語句法分析算法,其中也實現了白碩提出的角色反演方法。這種算法比單純的概率上下文無關語法的句法分析性能有所提高。這種做法不同于當時性能最好的詞匯化概率上下文無關語法相比。與詞匯化概率上下文無關語法相比,性能略低,但復雜度也較低。這個句法分析器雖然沒有達到當時國際上已經發表的最好水平(在同樣的訓練和測試數據上比較),但比我原來的基于規則的句法分析器已經有了大大的提高。我們后來把這個軟件的核心算法部分也以開放源代碼形式在“開放平臺”和計算所網站的免費資源欄目同時公開了。在計算所網站上的下載次數同樣達到了4000多次。后來張浩畢業后去了美國Rochester大學讀博士,還是從事與自然語言處理相關的研究工作。我們到數字化室以后,我們課題組另外兩名碩博連讀生熊德意和米海濤后來繼續在漢語句法分析領域開展了很多研究工作,目前我們的系統性能已經超過了國際上已經報道的最好水平,而且這個句法分析器已經用在了我們的統計機器翻譯研究中,發揮了很大的作用。這個系統也在我們課題組的網站上提供在線測試。

這段時間與句法分析相關的另一個工作是李素建在她的博士論文工作中開展了漢語組塊分析的研究,不過這項研究并沒有形成可使用的軟件工具。?

???●?基于知網的詞語相似度計算

基于知網的詞語相似度計算研究是我的一項意外收獲。2002年5月要在臺灣召開第一屆漢語詞匯語義學研討會,當時我的導師俞士汶教授作為國內召集人向大家征集論文摘要。我當時響應俞老師的號召,也投了一篇摘要,題目就是“基于知網的語義相似度計算”。當時我并沒有做這項研究,只是有了一個朦朧的想法。因為詞語相似度計算是很多場合都需要用到的一項技術,包括基于實例的機器翻譯也需要用到。而知網是一個內容豐富的語義知識庫,但由于知網的結構比較復雜,將知網應用于實際的自然語言處理研究中的實例還不多見。因此我就有了這么一個想法,但當時并沒有實現。加上這次會議為部分大陸的優秀論文提供了去臺灣開會的資助,這對我也是很有吸引力的,所以我就提交了一份論文摘要,但也沒有抱多大希望。沒想到論文被錄用了,而且還得到了資助。我只好花了一些時間把這篇摘要擴充成了完整的論文,為了用實驗說明我這個算法的效果,我還開發了一個軟件來實現這種算法。后來這篇論文又被推薦到臺灣出版的ComputationalLinguistics and Chinese LanguageProcessing雜志上發表(2005年8月),我也把我開發的軟件的可執行程序在網上公開了。讓我意外的是,這篇論文竟然引來了大量的關注,現在在GoogleScholar上查這篇文章已經有39篇引用,是我的所有論文中引用率最高的一篇。知網的發明人董振東也非常欣賞這篇論文的工作,后來他在推出知網新版本的時候,也提供了一個詞語相似度計算工具,這個工具就是根據我這篇論文的思想編寫的。這真是無心插柳柳成蔭的一個最好注解。我以后也沒有再進行這方面的研究工作。這次會議的另一個收獲就是讓我有機會踏上了祖國寶島臺灣,除了在臺北開會幾天以外,我們還到臺東的花蓮太魯閣一帶旅游,飽覽了臺灣美景,讓我至今難忘。?

???●?重復串識別和新詞檢測

漢語切詞中,未定義詞識別是一個最困難的問題。對于常見的人名、地名、機構名等命名實體,我們采用隱馬爾科夫模型,已經能夠較好地解決問題。但還有很多新詞仍然無法識別。但我們可以注意到,新詞往往在一篇文章中是反復出現的,利用這個特點,也許可以在一定程度上幫助進行新詞語識別。另外,文章中的重復串其實不僅僅是詞語,通常還可以是一些有意義的短語,這對于句法分析等其他工作也都是非常有意義的。基于這個想法,我開始在課題組內開展這方面的研究工作。客座員工張彤和碩士生鄒綱陸續開展了這方面的研究工作,實驗取得了很好的效果。后來我轉到數字化室以后,以此為題和富士通研究開發中心開展了兩期的合作研究工作,這兩個項目分別由碩士生鄒綱和崔世起承擔,主要工作是把新詞識別的研究擴展到了Internet上,從Internet上采集的大量網頁并從中提取新詞,實驗非常成功。在我的建議下,崔世起還把這項工作擴充到了漢語縮略語的識別和還原,也取得了成功。富士通公司對這個項目很滿意,鄒綱畢業后就進入了富士通公司工作,而且還是進行這方面的研究。目前我們已經停止了這項研究,相關工作做成了一個網頁,放到網上,每天自動從網上采集網頁進行分析,自動形成每月的新詞報表公布在網上。我不時還能得到有關這方面研究工作的一些反饋。

這段時間,我們還在計算機輔助翻譯、基于實例的機器翻譯、多引擎機器翻譯、漢蒙機器翻譯方面做了一些工作,這里就不一一介紹了。

除了上面的工作之外,我在軟件室的時候,還有一小段時間參加了高文老師牽頭的聯合國UNL項目(實際上也是一個多國語言機器翻譯項目),當時高文老師讓我和史曉東負責。我做了一段時間,覺得這個項目本身設計非常糟糕,就退出了。史曉東不久也去了廈門大學。

2003年中旬,我正式從軟件室轉到李錦濤老師領導的數字化室工作。主要的原因是數字化室錢躍良老師和林守勛老師這時候承擔了863大規模語言資源建設和863評測課題以及北京市奧運項目中的類似課題,由于我在自然語言處理領域長時間的積累,他們很希望我能參與這些項目的工作,而且也支持我繼續從事機器翻譯的研究。而我在軟件室的工作由于長期定位不是很明確,而且我也短期內也很難申請到大的課題,因此我的工作處于了一種比較尷尬的地位,軟件室也不太支持我繼續在機器翻譯方面開展研究。因此我下決心離開軟件室來到了數字化室。

軟件室的一些事情·跟李所長第二次接觸?

我在軟件室總共呆了三年多時間。在這段時間,我跟李所長只有過一次接觸,這也是我跟李所長的第二次直接接觸。其實,進入軟件室后,雖然我很長時間一直沒有單獨見過李所長,但我能感覺到,所里對我進行的機器翻譯研究還是非常關心的。樊所長多次介紹不同的人到我這兒參觀我的系統,并給我介紹一些合作機會。可惜我那時候的系統離實用還差得很遠,一直也都沒有把握住機會。

2001年面試碩士研究生的時候,我被告知跟李所長一起面試研究生。我那時候剛開始招研究生不久,報考我的研究生人數還非常少,而報李所長研究生的人數卻非常多。我們見面后幾乎沒有談論其他話題,直接開始就面試的問題溝通了一下,馬上就開始面試了。面試了一個下午,李所長確定了他要的學生,我對報考我的那個學生不太滿意,也在報考李所長的學生中挑選了兩個學生,這兩個學生就是劉洋和熊德意,是我到目前為止帶過的最出色的兩個學生,在我們現在的統計機器翻譯課題組中,他們兩個是最核心的骨干,一些人把他們兩個人的名字連起來合稱“洋洋得意”。由于最近他們兩個人在ACL會議上發表了論文,他們的工作已經在國際統計機器翻譯研究領域暫露頭角,以至于這個研究領域的圈子里很多人都知道了“洋洋得意”這個名號。

這次見李老師,雖然我們沒有討論任何工作上的事情,但我至少知道李所長還在關注著我的工作。

在數字化室

研究工作進展和取得的成績?

進入數字化室以后,我的工作進入了一個嶄新的階段。我們連續三年組織的863中文信息處理和智能人機接口評測,以其權威性、科學性和公平性吸引了國內大量的研究機構參加,產生了很大的影響。我們組織的大規模資源建設,通過我們和自動化所等單位共同創辦的中文語言資源聯盟ChineseLDC向國內外提供授權的資源轉讓工作,目前已經受到國內外很多研究者的關注,成功地實施了大量的資源轉讓,為國內外同行提供了一個極好的資源共享平臺。更加讓我高興的是,我們的機器翻譯研究工作全面轉向了統計機器翻譯方法并且獲得了成功。我們在今年8月舉辦的NIST機器翻譯評測中取得了很好的成績,在漢英機器翻譯的受限語料項目(LargeData)評測中,我們在參評的24個單位中獲得了第5名。我們在計算語言學領域頂級學術會議ACL上連續兩年發表了3篇與統計機器翻譯相關的論文,其中一篇還獲得了MeritoriousAsian NLP PaperAward獎項。這些成績都標志著我們的研究工作已經跨入了國際先進水平的行列。這些都是近幾年的事情了,大家還都記憶猶新,細節我在這里就不詳細介紹了。

獲得博士學位

2004年5月,經過在北大5年的在職學習,我終于通過了博士學位論文答辯,獲得了博士學位。我的博士論文題目是“漢英機器翻譯若干關鍵技術研究”,在論文中我把我近幾年的工作做了一個比較完整的總結。我的論文獲得了博士答辯委員會的一致好評,擔任答辯委員會主席的是高慶獅院士。

跟李所長的第三第四次接觸?

自從上次跟李所長一起面試學生后,我很長時間都沒有再跟李所長直接交流過。即使在我在即將離開軟件室那段非常困難的時期,我也不好意思去找李所長談我的工作問題,主要原因可能是因為我的機器翻譯工作一直不見起色,我不好意思再去麻煩李所長。到數字化室以后,我一直想找機會給李所長匯報一下近期的一些工作,但也一直沒有下決心,就耽擱了下來。到2005年,我到數字化室差不多有兩年了,我的工作在同行中引起了很多注意,李所長可能在一些場合聽說了我的一些工作,于是讓所里職能部門在我的同行中對我的工作進行了一些調查,可能反響還不錯(這些都是我的一些同行告訴我的)。于是,李所長開始在所里的一些會議上對我的工作進行了表揚,大致的意思是我在所里一直默默無聞,在沒有得到所里很多支持的情況下,做出了比較好的成績。所長是在所內一些小范圍的場合說這些話的,我自己都不在場,而是別人跟我轉述的。這時我也覺得應該向所長匯報一下我的工作了,于是就跟所長約了一個時間面談。這是我跟所長的第三次直接接觸。我們談的時間也不長,所長直接跟我了解了我目前所進行的統計機器翻譯研究的情況,我向他進行了簡單的匯報。所長向我詢問了其中一些細節,然后建議我除了要跟蹤國際上最先進的做法以外,不要一味模仿,一定要注意有本質性的創新(大致意思是這樣,原話我記不準確了),這樣才能真正走到別人前面去。以后我又找所長談過一次,主要還是討論工作上的一些事情。

這以后我的工作開始在所內得到很多的重視,我被評上了研究員職稱和博士生導師,并擔任了新成立的多語言交互技術評測實驗室的副主任。

跟李所長這幾次接觸,我感覺李所長雖然是中國計算機界舉足輕重的人物,又是院士,其實他是個特別實在的人。我們的談話都很短,幾乎沒有廢話,都是直入主題,事情一談完馬上就結束,他又要去處理下面的事情。他也從來不擺什么架子,都是用一種平等的姿態跟我交流。談話也非常注重實效,每次談到的事情都能落到實處,每次跟他交流,對我的工作都有實實在在的幫助。

結語

我在計算所的經歷應該還算是比較豐富的。作為一個普通的研究人員,我在計算所的三個不同部門都呆過比較長的時間,我還在北大計算語言學研究所有過在職攻讀博士學位的經歷,這些不同的經歷讓我學到了很多東西。在計算所二室機器翻譯課題組的經歷,將我引入了自然語言處理和機器翻譯研究的大門,確定了我今后的研究方向。軟件室的研究經歷,也對我也有很大的影響。我第一次了解到如此眾多的研究方向和那么多活躍的研究思想,使我大開眼界。軟件室工程化的項目管理方法,也使我學到了很多項目管理方面的技巧。北京大學計算語言學研究所與計算所完全是另外一種管理風格,那里每個人都有充分的自由,俞老師的管理方式是無形的,但也是相當有效的。另外,在北大我也見識了很多非計算機領域出身的青年才俊,與他們的接觸讓我受益匪淺。而我后來所在的數字化研究室又是另外一種管理風格,這些都是我一生受用不盡的財富。

我在計算所這十幾年,得到了很多“貴人”的幫助,對此我懷著深深的感恩之情。

從我到二室讀研究生,到新計算所成立,二室解散為止,張祥老師一直是二室的主任。張老師對我的工作和生活一直非常關心,對我堅持機器翻譯研究這件事,他盡他的能力給我了最大的幫助,特別是早期沒有任何資助的情況下,如果沒有他的支持和幫助,我是不可能在這條路上走下來的。對此我一直懷有深深的感激。

俞士汶老師是我的博士導師,從我碩士畢業開始決定開展機器翻譯研究開始,我就一直跟俞老師保持密切的合作關系,一直到我2004年博士畢業為止。俞老師在事業上給了我極大的幫助,特別是我在北大攻讀博士學位這幾年,除了在學習和工作中幫助我以外,俞老師還經常給我一些機會,讓我出席一些重要的學術場合,使我在這個學術圈子里開始有了一定的影響。另外,俞老師對人的熱情、對工作的一絲不茍、對名利的淡薄,都讓我非常敬佩,也對我自己為人處事的方式產生了重要影響。對俞老師的感激之情,我將永遠銘記在心。

白碩和程學旗是我在軟件室期間的兩任室主任。我在軟件室工作期間,是他們給我提供了一個穩定的工作環境。雖然我的研究工作一直沒有很好地溶入軟件室的主流研究方向,但他們對我的研究工作一直都非常寬容,而且也在人力和經費方面給我了很多的幫助。我近幾年來取得的成績,其實相當大一部分基礎都是在軟件室工作的這幾年打下的。對他們的幫助我也要表示衷心的感謝。

我特別要感謝李錦濤老師、錢躍良老師和林守勛老師。他們是我在數字化室期間的幾位主要領導。我這幾年做出的主要成績,都是在他們的直接領導下取得的。他們給我了最大的空間,使我多年以來形成的積累得到了充分的發揮。這里的工作氛圍特別好,大家相處得非常融洽。在這里,我們組成了一個非常好的工作團隊,大家各司其責,互相幫助,優勢互補,讓人感覺非常愉快。我希望這種良好的工作氛圍能在今后一直保持下去。

當然我最應該感謝的還是李國杰所長。他的幾次幫助,對我的工作都起到了決定性的作用。對李所長的知遇之恩,我的感激之情是難以用言語表達的。

我在計算所這十幾年,親眼目睹計算所經歷了一個由衰弱到復蘇到重新輝煌的過程。我自己的經歷也跟計算所一樣,跌宕起伏。我衷心預祝計算所能夠在新的時期再創輝煌,而我們這些計算所人也能夠與計算所一道,在人生的道路上取得更大的成就。

后記

本來這篇稿子沒打算寫這么多,不過下起筆來才發現可以寫的事情實在不少。有些事情隔的時間長了,都快要淡忘了,正好趁這個機會回憶整理一下,也是很不錯的。我這個人記性向來不好,丟東西、不認人、忘記人的名字是常有的事。這篇稿子成稿倉促,里面涉及的人和事情,雖然我都盡量經過核實,但仍難免有錯誤,有些重要的事情也許有遺漏。如有遺漏和差錯,責任完全由我自己承擔,也希望讀者批評指正。

祈威、于天波、錢躍良老師、王斌、俞士汶老師、詹衛東、常寶寶在本文寫作過程中給我提供了很多的幫助,他們幫我指出了文中一些不太準確甚至失實的地方。錢老師對我在文章中的一些表述提出了中肯的建議。詹衛東對我的文章結構提出了很好的修改建議。在此一并表示感謝。

一起交流想和你一起學習進步!『NewBeeNLP』目前已經建立了多個不同方向交流群(機器學習 / 深度學習 / 自然語言處理 / 搜索推薦 / 圖網絡 / 面試交流 /?等),名額有限,趕緊添加下方微信加入一起討論交流吧!(注意一定o要備注信息才能通過)

總結

以上是生活随笔為你收集整理的计算所与北大往事回顾的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。