百度和 Google 的搜索技术是一个量级吗?
著作權(quán)歸作者所有。 商業(yè)轉(zhuǎn)載請(qǐng)聯(lián)系作者獲得授權(quán),非商業(yè)轉(zhuǎn)載請(qǐng)注明出處。 作者:Kenny Chao 鏈接:http://www.zhihu.com/question/22447908/answer/21435705 來(lái)源:知乎
很多答案是從使用上講的,我加兩個(gè)技術(shù)方面的。另外,除了搜索,Google在深度學(xué)習(xí)和機(jī)器人方面也是全球領(lǐng)先的,尤其是后者。盡管百度也有深度學(xué)習(xí)研究院,但在這兩方面跟Google比起來(lái)完全是空白。
事實(shí)上,讓百度來(lái)和谷歌比是很不公平的,搜索只是Google的一個(gè)部門(mén),但卻是百度一整個(gè)公司。Google的競(jìng)爭(zhēng)對(duì)手是Apple、Amazon、Facebook和Microsoft,百度的競(jìng)爭(zhēng)對(duì)手是360、搜狗。Google沒(méi)了搜索,還有Chrome、Android、Youtube,百度沒(méi)了搜索,那就什么都沒(méi)有了。
----------------------------------------------------------------------------------------------------------------------------------------------------
?作者:布丁 鏈接:http://www.zhihu.com/question/22447908/answer/21532527 來(lái)源:知乎
2014.06.23:不知為什麼這個(gè)答案下突然多了很多讚和評(píng)論,來(lái)補(bǔ)充信息答謝觀眾。 關(guān)于繁體字問(wèn)題,我是廣東人,看香港電視長(zhǎng)大,簡(jiǎn)繁體對(duì)我閱讀沒(méi)有什麼影響,在我眼裡更無(wú)高下之別,我用繁體字寫(xiě)這篇回答的唯一原因就是當(dāng)時(shí)輸入法的狀態(tài)是繁體…… 為保持一致正文補(bǔ)充依然為繁體,盼見(jiàn)諒。
前百度員工,現(xiàn) Google 員工,在兩個(gè)公司做的都不是搜索相關(guān)項(xiàng)目。
先一句話回答:在與搜索相關(guān)的基礎(chǔ)技術(shù)方面,百度距離 Google 仍有很大的差距,但今天是否還存在量級(jí)上的差距存疑。
開(kāi)頭先扯個(gè)不相干的領(lǐng)域,蘇聯(lián) 1960 年代裝備的 Mig-25 [1] 截?fù)魴C(jī),這是世界上第一款能飛雙三(三倍音速,30000米升限)的戰(zhàn)斗機(jī)。西方世界面對(duì)這變態(tài)的性能參數(shù)驚詫莫名,推斷蘇聯(lián)在航空技術(shù)上已全面超越西方。直到別連科駕駛 Mig-25 叛逃西方,他們終于有機(jī)會(huì)接觸真機(jī),才發(fā)現(xiàn)它使用的技術(shù)其實(shí)沒(méi)那麼先進(jìn),變態(tài)的性能指標(biāo)都是用普通的技術(shù)基礎(chǔ)硬干上去的,飛機(jī)非常笨拙以至有「直線戰(zhàn)斗機(jī)」的稱號(hào),可憐的發(fā)動(dòng)機(jī)要真飛一次三倍音速落地就得報(bào)廢。蘇聯(lián)的航空技術(shù)并沒(méi)有他們想象的這麼逆天。
2009 年我在百度,面對(duì) Google 公開(kāi)的技術(shù)資料和百度的內(nèi)部系統(tǒng),我首先想起的就是 Mig-25. 就跟這臺(tái)戰(zhàn)機(jī)一樣,當(dāng)時(shí)的百度,在中文搜索結(jié)果質(zhì)量的各項(xiàng)指標(biāo)上,對(duì)比 Google 還是有優(yōu)勢(shì)。百度的工程師非常聰明,也非常努力,在某些點(diǎn)上也做得很細(xì)很出色,但是在與搜索相關(guān)的基礎(chǔ)技術(shù)上,百度還是全面落后。百度的搜索質(zhì)量提高,有很大部分是依靠人工做大量細(xì)緻的策略調(diào)整硬拉上去的。
用普通技術(shù)飛上雙三,Mig-25 本身是個(gè)了不起的工程成就。下一代戰(zhàn)機(jī),不管是蘇聯(lián)的 Su-27 還是美國(guó)的 F-15, 乃至四代機(jī) F-22, 都沒(méi)有能飛出雙三來(lái)的,但這些下一代戰(zhàn)機(jī)在技術(shù)水準(zhǔn)和整體性能上,無(wú)疑遠(yuǎn)勝 Mig-25, 這應(yīng)該能算得上題主所說(shuō)的量級(jí)差異。技術(shù)的量級(jí)差異不能拿某個(gè)特定指標(biāo)或孤例評(píng)估(Mig-25 還曾擊落過(guò) F/A-18 呢),也不能只比較某些技術(shù)點(diǎn)上的優(yōu)劣,而往往是決定于基礎(chǔ)技術(shù)水平。
在 2009 年,我可以很肯定地說(shuō)百度搜索相關(guān)的基礎(chǔ)技術(shù)對(duì)比 Google 有量級(jí)差距。據(jù)我了解,這些年百度在基礎(chǔ)技術(shù)方面進(jìn)步很快,當(dāng)然同時(shí) Google 也在快速進(jìn)步。它們?cè)诮裉焓欠裼辛考?jí)的差異,我不確定。
下面列幾個(gè)重要的而且公開(kāi)資料較多的基礎(chǔ)技術(shù):
?大規(guī)模機(jī)群建設(shè)與管理。Google 的情況可以參見(jiàn) [2] The Datacenter as a Computer: An Introduction to the Design of Warehouse-Scale Machines, Second Edition. Google 擁有世界上最大的計(jì)算機(jī)集群,論機(jī)器數(shù)量的話能在量級(jí)上超過(guò)所有其他公司。同時(shí),它有一整套自動(dòng)化管理軟件,以便工程師申請(qǐng)和使用這些硬件資源(大致可以理解成一套 Amazon EC2)。就我的了解,現(xiàn)在在普通工程師使用機(jī)群硬件資源的方便程度和可以使用的量上,百度還是遠(yuǎn)遠(yuǎn)不及。 ?大規(guī)模計(jì)算與存儲(chǔ)。Google 論文老三篇 GFS, MapReduce, BigTable 不再贅述,近年 Google 在這些方面的研發(fā)和進(jìn)步?jīng)]有停滯甚至在加快。當(dāng)然百度也在努力追趕,百度不僅使用 Hadoop, 而且基于 Hadoop 做了大量改進(jìn)和擴(kuò)展,并貢獻(xiàn)回 Hadoop 開(kāi)源社區(qū)。百度在 SSD 存儲(chǔ)技術(shù)等方面也很有心得,比如 flash 存儲(chǔ)方面最近中了的一篇 ASPLOS '14 SDF: Software-Defined Flash for Web-Scale Internet Storage System. ?機(jī)器學(xué)習(xí)和人工智能。被吹得神乎其神的 deep learning 和 Google Brain 等等。在 deep learning 這個(gè)相對(duì)較新的領(lǐng)域,百度追趕的更快,水平也更接近。
機(jī)群管理的技術(shù)水平?jīng)Q定你能擁有和有效使用多少硬件資源,大規(guī)模計(jì)算與存儲(chǔ)決定你能在這些硬件上做多大規(guī)模的事情 —— 而最后,搜索引擎本身就是一套大規(guī)模機(jī)器學(xué)習(xí)系統(tǒng)。
在純技術(shù)之外,我想特別提一點(diǎn)極大影響技術(shù)進(jìn)步,而至少在 2009 年百度與 Google 差距巨大的因素:普通工程師所能使用的工具水平。我在 Google 感覺(jué)最爽的事情是我可以很容易獲得大量的計(jì)算資源,做以前無(wú)法想象的大規(guī)模數(shù)據(jù)分析。要驗(yàn)證一個(gè)想法,我可以基于一整天的搜索記錄做分析,只需幾分鐘就能得到結(jié)果(參見(jiàn) [3]),進(jìn)行調(diào)整和下一步分析;而如果沒(méi)有這套基礎(chǔ)軟件和可以隨意使用的硬件資源,我可能得等一整天才能有結(jié)果,或者只能分析小規(guī)模的抽樣數(shù)據(jù)。在我自己的知識(shí)和技術(shù)水平不變的前提下,Google 這套系統(tǒng)極大地提高了我的工作效率,讓我能做到以前完全無(wú)法想象的事情。
我覺(jué)得作為一個(gè)技術(shù)人員,黑或者捧哪個(gè)公司毫無(wú)意義,技術(shù)的事情很直接的,身在哪個(gè)公司都無(wú)法影響基本判斷。還在百度的時(shí)候,我就經(jīng)常想,Mig-25 的故事是個(gè)很好的警示,人很容易為類(lèi)似「雙三」這樣的成就沾沾自喜,而對(duì)實(shí)打?qū)嵉幕A(chǔ)技術(shù)差距視而不見(jiàn),不圖進(jìn)步,那前景就相當(dāng)危險(xiǎn)了。幸好據(jù)我所知的情況,百度可沒(méi)有這麼不爭(zhēng)氣。
2014.06.23: 補(bǔ)充一個(gè)實(shí)際例子來(lái)說(shuō)明不同技術(shù)條件下兩個(gè)公司做事思路的區(qū)別。
評(píng)論中有朋友提到百度的分詞技術(shù),這確實(shí)是「百度更懂中文」的一個(gè)集中體現(xiàn)。百度當(dāng)年做分詞的時(shí)候很可能是這樣的:先從一個(gè)人工編輯好的字典開(kāi)始,用這個(gè)字典跑一些網(wǎng)頁(yè),觀察分析裡面的 bad case —— 可能是分詞過(guò)細(xì),或者是中文人名沒(méi)分出來(lái),然后就嘗試根據(jù)中文語(yǔ)法規(guī)律加入規(guī)則或添加詞表解決這些 bad case, 如此往復(fù),直到有滿意的結(jié)果。上線應(yīng)用,發(fā)現(xiàn)有新的 bad case 就再研究加規(guī)則,當(dāng)然也有自動(dòng)流程發(fā)現(xiàn)和確認(rèn)如「人艱不拆」之類(lèi)的新詞。
Google 做分詞的話就是把問(wèn)題看成一個(gè)概率問(wèn)題:如果中文網(wǎng)頁(yè)中哪些字經(jīng)常一起出現(xiàn),那麼它們很有可能就是一個(gè)詞。看哪些詞后面會(huì)跟的地得,的地得后面有常跟哪些詞,語(yǔ)法結(jié)構(gòu)也就出來(lái)了。(具體的模型參見(jiàn)吳軍《數(shù)學(xué)之美》)。解題思路就是把所有抓到的中文網(wǎng)頁(yè)往 MapReduce 裡一丟,參數(shù)算出來(lái)就好了。評(píng)估分詞質(zhì)量的方法也很簡(jiǎn)單,就拿新模型放到網(wǎng)頁(yè)檢索的模型裡,做個(gè)實(shí)驗(yàn)看質(zhì)量有沒(méi)提升就行。這套方法結(jié)果之好,基本把中文分詞做成了一個(gè)沒(méi)有多少懸念的簡(jiǎn)單問(wèn)題,而且基本不需要中文語(yǔ)言專(zhuān)家的參與(自然也沒(méi)有誰(shuí)更懂中文的問(wèn)題)。同時(shí)這也就是 Google 做 Translate 的思路。這裡面基本方法其實(shí)非常簡(jiǎn)單,沒(méi)什麼祕(mì)密可言,但是你得先有這麼多的網(wǎng)頁(yè)數(shù)據(jù),還得有大機(jī)群,有分佈計(jì)算框架,還有可復(fù)用的模型……
我認(rèn)為在技術(shù)受限的條件下,人工微調(diào)優(yōu)化結(jié)果是一個(gè)恰當(dāng)?shù)漠a(chǎn)品思路,但這個(gè)產(chǎn)品思路會(huì)與技術(shù)發(fā)展路線相互影響。對(duì)于長(zhǎng)尾頭部的一千個(gè)熱詞,完全可以用人工編輯的方法做出非常好的結(jié)果,而短期內(nèi)改進(jìn)通用的機(jī)器模型達(dá)到人工編輯的效果幾乎不可能。這時(shí)候,人工調(diào)整可能會(huì)受鼓勵(lì),而通用模型的技術(shù)改進(jìn)可能就得不到足夠的重視 —— 雖然即使以中國(guó)的人力成本,對(duì)所有搜索結(jié)果人工調(diào)優(yōu)也絕無(wú)可能,但能搞定長(zhǎng)尾頭部也不錯(cuò)了不是?Google 的主流技術(shù)思路則是骨子裡不相信人工調(diào)整,什麼事情都非得弄出個(gè)自動(dòng)通用可擴(kuò)展的模型來(lái)不可,這種思路可能一開(kāi)始在那一千個(gè)熱詞上怎麼都比不過(guò)勤勞接地氣的編輯,但通過(guò)積累數(shù)據(jù)調(diào)整模型,假以時(shí)日,整體結(jié)果質(zhì)量就會(huì)顯著提升 —— 我就是這麼看 2009 年時(shí) Google 搜索質(zhì)量給我們的壓力的。這種思路在具體的產(chǎn)品運(yùn)營(yíng)上不一定對(duì),不是人人都有 Google 的資源來(lái)花時(shí)間做通用技術(shù),但 Google 確實(shí)就在這種「技術(shù)碾壓一切」的(錯(cuò)誤?)道路上越走越快。
----------------------------------------------------------------------------------------------------------------------------------------------------
好吧,既然大家都一致鄙視百度,為谷歌歡喜鼓舞的叫好,我就來(lái)插一腳,為百度打抱不平一下吧。
聲明立場(chǎng):我承認(rèn)谷歌在很多方面很強(qiáng),這里只是說(shuō)一些百度也不錯(cuò)的地方。給大家提供一些新的思維,希望能夠?qū)Υ蠹矣袉l(fā)。
1,在搜索江湖的早期歷史中,李彥宏的技術(shù)創(chuàng)新領(lǐng)先于谷歌。
1994年,infoseek公司成立,其后推出搜索引擎服務(wù),很快成為了市場(chǎng)上最受歡迎的搜索技術(shù)提供商。作為技術(shù)的領(lǐng)先者,這家公司的產(chǎn)品被網(wǎng)景瀏覽器設(shè)置為默認(rèn)的搜索引擎。要知道,在那個(gè)年代的美國(guó)市場(chǎng)上,網(wǎng)景瀏覽器占有了90%以上的市場(chǎng)份額。于是,在網(wǎng)景春風(fēng)得意的歲月里,搜索引擎=infoseek。
——infoseek的CTO是威廉張,曾經(jīng)以“次線性文本匹配算法上的突破性成果獲得了美國(guó)加州大學(xué)的計(jì)算機(jī)博士學(xué)位”,其后于2006年加入百度成為首席科學(xué)家。
——infoseek的核心研發(fā)工程師是李彥宏,其首創(chuàng)的“超鏈分析”技術(shù)是現(xiàn)代搜索引擎的基礎(chǔ)發(fā)明之一。這個(gè)技術(shù)率先解決了如何將基于網(wǎng)頁(yè)質(zhì)量的排序與基于相關(guān)性的排序完美結(jié)合的問(wèn)題,并獲得了美國(guó)專(zhuān)利。
在搜索引擎的早期發(fā)展史中,李彥宏+威廉張,無(wú)疑是技術(shù)的領(lǐng)先者。在1998年的布里斯班世界互聯(lián)網(wǎng)大會(huì)上,李彥宏是主講臺(tái)上的技術(shù)布道者,而谷歌的兩位創(chuàng)始人仍是坐在臺(tái)下聆聽(tīng)的學(xué)生而已。
infoseek的衰落,不是因?yàn)榧夹g(shù),而是因?yàn)樯虡I(yè)模式,他僅僅是隱藏在網(wǎng)景瀏覽器背后的技術(shù)提供者。隨著網(wǎng)景在與微軟IE瀏覽器的競(jìng)爭(zhēng)中失利,infoseek無(wú)可避免的出現(xiàn)了大幅虧損,賤賣(mài)給迪士尼后不適應(yīng)于傳統(tǒng)企業(yè)的官僚管理作風(fēng),更加加速了自己的末日到來(lái)。
同一年,谷歌推出自己的搜索引擎,以精準(zhǔn)廣告為商業(yè)模式,成功解決了持續(xù)成長(zhǎng)的問(wèn)題,在搜索江湖的較量中熬到了最后。谷歌今日引以為榮的網(wǎng)頁(yè)評(píng)級(jí)機(jī)制pagerank技術(shù),直到2001年才被授予美國(guó)專(zhuān)利,比李彥宏的1996年申請(qǐng)的超鏈分析專(zhuān)利技術(shù)晚了5年。
注意:我以上這段要說(shuō)的是,李彥宏的技術(shù)水平并不輸于谷歌的兩位創(chuàng)始人。看輕百度那你就無(wú)知了。
2,百度從一開(kāi)始就和谷歌走上了不同的發(fā)展方向。
谷歌在2000年就已經(jīng)建立了搜索行業(yè)的統(tǒng)治地位,而在這一年,李彥宏才回國(guó)創(chuàng)業(yè),無(wú)論在資金還是人才上都處于絕對(duì)劣勢(shì)地位。
百度如果要跟谷歌比拼搜索精度,那是飛蛾撲火,李彥宏當(dāng)然不會(huì)犯下這種蠢事。從一開(kāi)始,百度所選擇的就是一條農(nóng)村包圍城市,側(cè)翼攻擊的路線。
在早期的網(wǎng)頁(yè)搜索上,百度的原則是能用就行。所以,你在百度上搜到的,幾乎都是網(wǎng)站的首頁(yè),而谷歌的都是內(nèi)頁(yè)。
百度的真正重點(diǎn)是,提供谷歌不能提供的服務(wù)。2002年,百度率先推出mp3音樂(lè)搜索,2003年推出圖片,貼吧,新聞,搜索風(fēng)云榜服務(wù)。正是這些多元化的垂直服務(wù),讓百度實(shí)現(xiàn)了在中國(guó)市場(chǎng)上的后來(lái)者居上。如果你了解百度的歷史,你就知道,在早期的百度流量中,mp3盜版音樂(lè)的搜索和下載,一度貢獻(xiàn)了40-50%的用戶來(lái)源。貼吧同樣獲得巨大成功,在2004年的超級(jí)女聲熱潮中,大量的音樂(lè)粉絲涌入貼吧為他們的偶像加油,這個(gè)產(chǎn)品一度為百度帶來(lái)了超過(guò)20%的流量。
mp3,圖片,貼吧,是百度早期最重要的三項(xiàng)服務(wù),他們的流量貢獻(xiàn)加起來(lái)甚至超過(guò)了網(wǎng)頁(yè)搜索。
3,百度真正在搜索技術(shù)上開(kāi)始發(fā)力,是在2009年后。這一年,百度推出框計(jì)算,在一站式生活搜索方面,開(kāi)始超越谷歌。
舉個(gè)例子:
判斷百度和谷歌在搜索技術(shù)上是不是一個(gè)量級(jí)的標(biāo)準(zhǔn)是什么?
技術(shù)是不是一個(gè)量級(jí),不是由一堆玄而又玄的技術(shù)名詞決定的,而是由行業(yè)發(fā)展過(guò)程中對(duì)實(shí)際需求的滿足變化決定的。
舉個(gè)例子,
飛機(jī)時(shí)代的劃分,
一代機(jī):噴氣發(fā)動(dòng)機(jī)
二代機(jī):高空高速,2倍音速
三代機(jī):中低空機(jī)動(dòng)敏捷性
四代機(jī):隱身性能
二代機(jī)比一代機(jī)性能更好,飛的更高,速度更快,但是到了三代機(jī)的時(shí)代,即使你的飛行能夠去到3萬(wàn)米高度又怎么樣?這個(gè)時(shí)代更講究的是低空的格斗性能。
到了四代機(jī)的時(shí)代,隱身性能才是決定性的,你機(jī)動(dòng)性再好也沒(méi)用了,你發(fā)現(xiàn)不了敵人。
到了今日,智能無(wú)人機(jī)技術(shù)又是起決定性作用的技術(shù),其他的都不重要了。
技術(shù)的發(fā)展并不是線性的,而是理念的改變,帶來(lái)了更革命性的進(jìn)步。
一架性能差點(diǎn)的隱形機(jī),比一架沒(méi)有隱形性能的三代機(jī),誰(shuí)的作戰(zhàn)效果更好?什么,你認(rèn)為隱形技術(shù)不是技術(shù),發(fā)動(dòng)機(jī)性能才是技術(shù)?別腦殘了好不好。
說(shuō)回搜索引擎技術(shù)的發(fā)展,無(wú)非就是為了讓人們更好的找到自已需要的信息,是搜索結(jié)果的準(zhǔn)確性,而不是收錄的網(wǎng)頁(yè)數(shù)量,擁有的專(zhuān)利數(shù)量決定的。
第一代搜索引擎:以雅虎為代表,目錄式結(jié)果呈現(xiàn)。
第二代搜索引擎:以谷歌和百度為代表,網(wǎng)頁(yè)引用評(píng)級(jí)技術(shù)呈現(xiàn)結(jié)果,至于權(quán)重設(shè)置的不同考慮不能體現(xiàn)差距。
第三代搜索引擎:不知道各位的劃分標(biāo)準(zhǔn)是什么,是什么gps和原子鐘技術(shù)么?實(shí)際使用中差別有革命性變化么?反正我是感覺(jué)不出來(lái)。
谷歌的技術(shù)創(chuàng)新能力很強(qiáng),在安卓系統(tǒng)、無(wú)人駕駛汽車(chē)、谷歌眼鏡這些技術(shù)上都有很多創(chuàng)新,但在搜索引擎技術(shù)上,我的感覺(jué)是,最近5年來(lái)并沒(méi)有明顯的進(jìn)步。
相反,百度從2008年到2013年這5年,我的使用體驗(yàn)感覺(jué)是進(jìn)步很明顯的。
在我看來(lái),搜索引擎發(fā)展到今天這個(gè)時(shí)代,更重要的趨勢(shì)是智能化的語(yǔ)義理解,而不是一樓答案所說(shuō)的“gps和原子鐘技術(shù),打破了地理間隔,實(shí)現(xiàn)了全球規(guī)模具有一致性和實(shí)時(shí)性的數(shù)據(jù)庫(kù)。”
收錄的網(wǎng)頁(yè)多一些,搜索的速度快0.001秒,這些微不足道的區(qū)別,就相當(dāng)于IPHONE4和IPHONE4S的區(qū)別,或許是挑戰(zhàn)了新的技術(shù)極限,但是對(duì)于普通用戶的實(shí)際體驗(yàn)來(lái)說(shuō),區(qū)別不大。
而三星的大屏智能手機(jī),在很多人看來(lái)并沒(méi)有什么高深的技術(shù),但是偏偏是更滿足用戶的使用體驗(yàn)和需求的,于是三星的市場(chǎng)份額就不斷壯大了。
百度所發(fā)展的框計(jì)算技術(shù),在我看來(lái),恰恰是更適合搜索引擎行業(yè)發(fā)展趨勢(shì)的。
讓你的搜索更能理解你的問(wèn)題,給你更準(zhǔn)確的答案,
——不用跳轉(zhuǎn)就將答案直接呈現(xiàn)在你的面前。什么?你認(rèn)為百度這樣違背了搜索的公平公正精神?別腦殘了,搜索就是為用戶服務(wù)的,誰(shuí)能夠在最短的時(shí)間內(nèi)讓用戶得到最正確的答案,對(duì)于用戶來(lái)說(shuō)就是最好的搜索體驗(yàn)。將來(lái)語(yǔ)音搜索技術(shù)成熟了,你說(shuō)告訴我王菲唱過(guò)什么流行歌?百度直接就將歌曲列表呈現(xiàn)出來(lái),按熱門(mén)度排列供你選擇播放,谷歌先問(wèn)你,我這里有**,**,**,音樂(lè)公司提供的服務(wù),請(qǐng)選擇,進(jìn)了音樂(lè)公司的鏈接,音樂(lè)公司又說(shuō),請(qǐng)先登錄會(huì)員,登陸會(huì)員后……如此一番下來(lái),誰(shuí)的服務(wù)更好,自己考量吧。
——通過(guò)知道、貼吧、百科、第三方網(wǎng)站的接入,綜合滿足你的多方位搜素需求,而不是只提供一個(gè)單一的網(wǎng)頁(yè)。你想去某個(gè)地方,告訴你汽車(chē)、火車(chē)、飛機(jī)不同交通手段的通行方式,告訴你花費(fèi)的時(shí)間,購(gòu)買(mǎi)的費(fèi)用,直接購(gòu)買(mǎi)的入口,而不是只有一個(gè)冷冰冰的第三方鏈接。你輸入一個(gè)名人的名字,呈現(xiàn)給你相關(guān)的照片、影視作品、最新的新聞、粉絲討論的社區(qū)、與名人存在社交關(guān)系的名人鏈接,所有這些服務(wù),都是非常直觀的,而不是只像谷歌一樣給你一個(gè)維基百科了事。
——搜索的問(wèn)題不止于“等于”,而是“相當(dāng)于”等類(lèi)似問(wèn)題都能聽(tīng)懂。所謂智能,不就是即使我語(yǔ)法用錯(cuò)了,也能聽(tīng)懂么?
在這一點(diǎn)上,或許谷歌在英文上也有一些應(yīng)用提供,但是百度做的更加深入、更加完善,從這個(gè)角度來(lái)說(shuō),他們不但是一個(gè)量級(jí)的,百度也有領(lǐng)先谷歌的地方。
很多人認(rèn)為百度的搜索答案都只是人工干預(yù)的結(jié)果,沒(méi)有技術(shù)含量,我感到很遺憾。
或許早年是如此,但是現(xiàn)在應(yīng)該已經(jīng)有很大的改進(jìn)了。
我舉個(gè)例子。
前面的謝霆鋒的身高的問(wèn)題,為什么百度能夠給我答案,谷歌給不了呢?
百度該不會(huì)無(wú)聊到這么細(xì)節(jié)的問(wèn)題都專(zhuān)門(mén)去優(yōu)化一下答案吧,當(dāng)然不是了,這些答案都是依托于百科里用戶自行編寫(xiě)的答案,百度不過(guò)是把他們的知識(shí)有機(jī)的整合起來(lái),通過(guò)程序的設(shè)計(jì),巧妙的呈現(xiàn)到你的面前。
是的,谷歌的搜索技術(shù)很先進(jìn),但他的所有答案都是依托于外部鏈接的,他沒(méi)有自己的知識(shí)庫(kù)。這就像一個(gè)人,他的邏輯思維和知識(shí)是割裂的,可以給你答案,但這答案必然是生硬的,無(wú)法做到水乳交融。
百度不同的是,他是有自己的知識(shí)庫(kù)的,知道,貼吧,百科,這三個(gè)社區(qū)的知識(shí)可以跟他的思維進(jìn)行有機(jī)整合,將得票最高的熱門(mén)答案很直觀的呈現(xiàn)到你的面前。
…………
正是因?yàn)橛星懊孢@些有機(jī)整合為基礎(chǔ),
百度可以通過(guò)邏輯思考,a推出b,b推出c,c推出d的結(jié)論,將答案d呈現(xiàn)到你的問(wèn)題結(jié)果里。
但谷歌就做不到,他只能給你答案b,c之后的結(jié)論就只能由你自己去尋找了。
這就是為什么我問(wèn)張柏芝的兒子的爸爸的身高,百度能夠告訴我的原因。
所謂深度學(xué)習(xí),不就是人類(lèi)知識(shí)庫(kù)的有機(jī)整合嘛,谷歌的思維和知識(shí)庫(kù)的割裂,導(dǎo)致了在這方面的進(jìn)步必然要慢于百度,原理就像是一個(gè)人的頭腦指揮自己的手腳必然比兩個(gè)人的合作效率更高。
因此在未來(lái)的搜索技術(shù)競(jìng)爭(zhēng)中,我認(rèn)為百度的路線是正確的。
有朋友問(wèn),為什么你問(wèn)謝霆鋒的身高就能搜到答案,我問(wèn)陳冠西或者毛澤 東就搜不到呢?
請(qǐng)記住,這些類(lèi)似問(wèn)題的答案完全取決于用戶在社區(qū)里的編寫(xiě)。在張柏芝的百科里有提及,兒子是謝振軒,在謝振軒的百科里有提及,老子是謝霆鋒,在謝霆鋒的百科里有提及,身高是174,那么你就能搜到這個(gè)答案。
如果其中任何一個(gè)環(huán)節(jié)出現(xiàn)了缺失,你就無(wú)法得到答案。
答案的正確與否,取決于知識(shí)庫(kù)的自我完善和糾錯(cuò)。就像你問(wèn)百度是個(gè)大SB嗎?百度知道的高票答案告訴你百度就是個(gè)大SB。這能說(shuō)明這個(gè)答案是百度的人工干預(yù)嗎?很明顯不能嘛,這只能說(shuō)明SB用戶太多了而已。
就像知乎的答案一樣,開(kāi)始問(wèn)題提出的時(shí)候,高票答案是錯(cuò)誤的,沒(méi)有關(guān)系,慢慢的新的正確答案會(huì)被頂上去,錯(cuò)誤答案會(huì)被折疊或者報(bào)錯(cuò)。
人類(lèi)的知識(shí)庫(kù)是在不斷的自我完善和豐富的,百度的算法也是在不斷改進(jìn)的,目前這些技術(shù)仍然處于起步階段,請(qǐng)以發(fā)展的眼光來(lái)看待他。
PS:那些說(shuō)我偏袒百度的朋友們:
在這個(gè)提問(wèn)下面,為谷歌敲鑼打鼓,大聲贊美的答案還不夠多么?難道你們的心里就不能容忍一個(gè)不同的聲音,非要我也來(lái)高呼,谷歌千秋萬(wàn)代,一統(tǒng)江湖,你才滿意么?!
說(shuō)我不懂谷歌關(guān)鍵字搜索技巧的朋友們:
我怎么會(huì)不懂呢?但是一定要懂關(guān)鍵字,搜索引擎才能聽(tīng)懂,換個(gè)字眼,換個(gè)語(yǔ)法,他就不懂了,這語(yǔ)言理解水平也太爛了吧?你確定你不是在黑谷歌?!
最后,作為一個(gè)對(duì)互聯(lián)網(wǎng)行業(yè)觀察和研究已經(jīng)超過(guò)15年的投資者,我可以很明確的告訴大家:
搜索引擎行業(yè)的技術(shù)發(fā)展方向,一定是“自然語(yǔ)言人機(jī)對(duì)話+智能化邏輯思考”。 不要跟我說(shuō),百度是給你答案,谷歌是給你思考,人永遠(yuǎn)是懶惰的動(dòng)物,希望產(chǎn)品適應(yīng)人的需求,而不是人去適應(yīng)產(chǎn)品的要求。
在這個(gè)方面,百度的技術(shù)發(fā)展水平與谷歌的差距是越來(lái)越接近的。
須知,技術(shù)的研發(fā)來(lái)自金錢(qián)的投資和人才的聚集,百度在2008年后才逐漸擁有一定的家底,開(kāi)始加大在搜索技術(shù)的研發(fā)投入;而谷歌,她的研發(fā)重點(diǎn)已經(jīng)轉(zhuǎn)移至其他的領(lǐng)域了。這就是百度與谷歌在搜索技術(shù)的發(fā)展水平越來(lái)越接近的主要原因。
轉(zhuǎn)載于:https://www.cnblogs.com/mathbeauty/p/5021552.html
總結(jié)
以上是生活随笔為你收集整理的百度和 Google 的搜索技术是一个量级吗?的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: Google Chrome及Chrome
- 下一篇: vscode保存自动将CRLF 转换成