数学之美 系列十一 - Google 阿卡 47 的制造者阿米特.辛格博士
?
數(shù)學(xué)之美 系列十一 - Google 阿卡 47 的制造者阿米特.辛格博士
槍迷或者看過尼古拉斯.凱奇(Nicolas Cage)主演的電影“戰(zhàn)爭(zhēng)之王”(Lord of War)的人也許還記得影片開頭的一段話:(在所有輕武器中,)最有名的是阿卡 47(AK47)沖鋒槍(也就是中國(guó)的五六式?jīng)_鋒槍的原型),因?yàn)樗鼜牟豢ぁ牟粨p壞、可在任何環(huán)境下使用、可靠性好、殺傷力大并且操作簡(jiǎn)單。
我認(rèn)為,在計(jì)算機(jī)中一個(gè)好的算法,應(yīng)該向阿卡 47 沖鋒槍那樣簡(jiǎn)單、有效、可靠性好而且容易讀懂(或者說易操作),而不應(yīng)該是故弄玄虛。Google 的杰出工程師阿米特.辛格博士 (Amit Singhal) 就是為 Google 設(shè)計(jì)阿卡 47 沖鋒槍的人,在公司內(nèi)部,Google 的排序算法便是以他的名字命名的。
從加入 Google 的第一天,我就開始了和辛格長(zhǎng)期而愉快的合作,而他一直是我的一個(gè)良師益友。辛格、Matt Cutts(中國(guó)一些用戶誤認(rèn)為他是聯(lián)邦調(diào)查局特工,當(dāng)然他不是)、馬丁和我四個(gè)人當(dāng)時(shí)一同研究和解決網(wǎng)絡(luò)搜索中的作弊問題(Spam)。我們需要建一個(gè)分類器,我以前一直在學(xué)術(shù)界工作和學(xué)習(xí),比較傾向找一個(gè)很漂亮的解決方案。我設(shè)計(jì)了一個(gè)很完美的分類器,大約要花三個(gè)月到半年時(shí)間來實(shí)現(xiàn)和訓(xùn)練,而辛格認(rèn)為找個(gè)簡(jiǎn)單有效的辦法就行了。我們于是盡可能簡(jiǎn)化問題,一、兩個(gè)月就把作弊的數(shù)量減少了一半。當(dāng)時(shí)我們和公司工程副總裁羅森打了個(gè)賭,如果我們能減少 40% 的作弊,他就送我們四個(gè)家庭去夏威夷度假,后來羅森真的履約了。這個(gè)分類器設(shè)計(jì)得非常小巧(只用很小的內(nèi)存),而且非常快速(幾臺(tái)服務(wù)器就能處理全球搜索的分類),至今運(yùn)行得很好。
后來我和辛格一起又完成了許多項(xiàng)目,包括對(duì)中、日、韓文排名算法的改進(jìn)。每一次,辛格總是堅(jiān)持找簡(jiǎn)單有效的解決方案。這種做法在 Google 這個(gè)人才濟(jì)濟(jì)的公司常常招人反對(duì),因?yàn)楹芏噘Y深的工程師懷疑這些簡(jiǎn)單方法的有效性。不少人試圖用精確而復(fù)雜的辦法對(duì)辛格的設(shè)計(jì)的各種“阿卡47” 進(jìn)行改進(jìn),后來發(fā)現(xiàn)幾乎所有時(shí)候,辛格的簡(jiǎn)單方法都接近最優(yōu)化的解決方案,而且還快得多。另一條選擇簡(jiǎn)單方案的原因是這樣設(shè)計(jì)的系統(tǒng)很容易查錯(cuò)(debug)。
當(dāng)然,辛格之所以總是能找到那些簡(jiǎn)單有效的方法,不是靠直覺,更不是撞大運(yùn),而是靠他豐富的研究經(jīng)驗(yàn)。辛格早年從師于搜索大師薩爾頓(Salton)教授,畢業(yè)后就職于 AT&T 實(shí)驗(yàn)室。在那里,他和兩個(gè)同事半年就搭起了一個(gè)中等規(guī)模的搜索引擎,這個(gè)引擎索引的網(wǎng)頁數(shù)量雖然無法和商用的引擎相比,但是準(zhǔn)確性卻非常好。在 AT&T,他對(duì)搜索問題的各個(gè)細(xì)節(jié)進(jìn)行了仔細(xì)的研究,他的那些簡(jiǎn)單而有效的解決方案,常常是深思熟慮去偽存真的結(jié)果。
辛格非常鼓勵(lì)年輕人不怕失敗,大膽嘗試。一次一位剛畢業(yè)不久的工程師因?yàn)榘褞в绣e(cuò)誤的程序推出到 Google 的服務(wù)器上而惶惶不可終日。辛格安慰她講,你知道,我在 Google 犯的最大一次錯(cuò)誤是曾經(jīng)將所有網(wǎng)頁的相關(guān)性得分全部變成了零,于是所有搜索的結(jié)果全部是隨機(jī)的了。這位工程師后來為 Google 開發(fā)了很多好的產(chǎn)品。
辛格在 AT&T 時(shí)確立了他在學(xué)術(shù)界的地位,但是,他不是一個(gè)滿足于做實(shí)驗(yàn)寫論文的人,于是他離開了實(shí)驗(yàn)室來到了當(dāng)時(shí)只有百、十人的 Google。在這里,他得以施展才智,重寫了 Google 的排名算法,并且一直在負(fù)責(zé)改進(jìn)它。辛格因?yàn)樯岵坏梅畔聝蓚€(gè)孩子,很少參加各種會(huì)議,但是他仍然被學(xué)術(shù)界公認(rèn)為是當(dāng)今最權(quán)威的網(wǎng)絡(luò)搜索專家。2005年,辛格作為杰出校友被請(qǐng)回母校康乃爾大學(xué)計(jì)算機(jī)系在 40 年系慶上作報(bào)告,獲得這一殊榮的還有大名鼎鼎的美國(guó)工程院院士,計(jì)算機(jī)獨(dú)立磁盤冗余陣列(RAID)的發(fā)明人凱茨(Randy Katz) 教授。
?
?
http://googlechinablog.com/2006/07/google-47.html
總結(jié)
以上是生活随笔為你收集整理的数学之美 系列十一 - Google 阿卡 47 的制造者阿米特.辛格博士的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 数学之美 系列十 有限状态机和地址识别
- 下一篇: 条件随机场(CRF)相对于HMM,MEM