对于微软学术搜索的评价——陈稳霖
首先我要對IEG學術搜索小組的實習生同仁表達敬意,你們的付出歷歷在目。我在IEG也呆了三個月,做的是旅游指南項目,雖然現在轉組了,但是對IEG很有感情的。學術搜索是個很棒的網站,我一開始用就很喜歡,也一直建議我朋友也用。但是既然作業中必須要講缺點,那我只好說出我的想法,在下才疏學淺,以下觀點純屬自己粗淺的想法,如有異議或者建議,請發我email: v-wenc@microsoft.com,謝謝。大家都是為了讓微軟學術搜索能夠成功,得到廣泛好評:)
a. 微軟學術搜索的三個優點和四個缺點
??????? 首先講優點,第一個優點,就是Microsoft Academic Search建立了各種分類,比如Organization, Domain等。搜索的維度比較豐富,可以根據維度多,可以根據paper, organization, author等來搜索。第二個優點就是建立了domain中研究人員的排名或者Organization的排名,這個有點耳目一新。第三個優點就是建立了每個作者的個人主頁,同時還有co-author的關系圖,關系圖的動態效果蠻好的。
??????? 其次講缺點。第一個缺點就是數據不夠全,領域不夠多。現在大部分Domain僅僅涉及了計算機領域,對其他領域數據或者作者的采集不多,使得這個學術搜索無法推廣到其他領域。第二個缺點就是數據的錯誤。我搜索過幾個教授,發現有教授所屬Organization錯誤的,或者co-author錯誤的,paper錯誤的,關系網錯誤的等等。還有就是有些教授的照片顯示不出來,我點過教授的個人主頁,他們是有照片貼上去的,但是在Microsoft Academic Search上面卻顯示不出來,希望IEG要加大對網頁分析,盡量把正確又全的數據crawl下來。
??????? 第三個缺點,下載不夠方便,需要點擊到其他網站的鏈接才能下載,這個是很不好的UX。我知道Microsoft Academic Search是考慮了版權的問題,但是如果是我的話,我會去從教授的個人網頁上Crawl論文的PDF鏈接,直接提供在Microsoft Academic Search板面的下載服務,但是要注明一下該資源是哪里的,Google Scholar就是這么干的,人家行,為什么咱們不行。而且對于中國用戶,打開國外的網站速度很慢,論文的PDF文件放在國外專門下載網站上,對中國用戶是無法忍受的。試想,我要搜索Paper,我到Google上搜一下(無需Google Scholar),直接有PDF的下載,我干嘛還要來Microsoft Academic Search呢。
??????? 第四個缺點,也是我想重點講的,不算是技術上的缺點,而是Search Engine Optimization問題,我覺得更是Microsoft Academic Search策略上的問題,可能IEG已經有所重視了,那就當我廢話吧。總體來講,Microsoft Academic Search有很多Google學術搜索沒有的亮點,也可以說是技術創新點吧,但是我們做網站要的是能夠推廣到廣大用戶,說白了,我們就是要爭取流量。一個好的產品很少人用那就是不成功的甚至是失敗的產品。那么用Microsoft Academic Search的只可能有兩種人,第一種是本來就知道這個網站的人,并且是被這個網站吸引的常客,第二種就是到Bing去搜索paper,然后被引導到這個網站的人,而通過Google和百度搜索Paper的人絕對不會被引導到Microsoft Academic Search。以下是我的分析,我到Bing上搜索Paper, Microsoft Academic Search的排名一般很高,都能出現在搜索頁面的第一面。但是,我到Google和百度上搜索Paper,Microsoft Academic Search根本排不上,我翻到第10面了還是沒有,試問,用Google和百度的用戶那么多,但我們的Microsoft Academic Search卻排不上號,這么龐大的流量直接浪費掉。在沒有優化搜索引擎之前,Microsoft Academic Search想增加流量的話只有兩種途徑:第一,增加第一種人流量,那就是去各大網站各大高校打廣告,這個要耗費很大財力和人力,且效果不一定好;第二,增加第二種人流量,更不可能,現在Bing雖然在發展,但是增加Bing的用戶流量短時間內沒戲,MSRA也管不了。
??????? 綜上所訴,最有可能增加流量的只能是從Google或百度引導流量過來了。可是Microsoft Academic Search不知咋搞的,居然居然沒有讓Google把整個網站的所有網頁Crawl下來,只Crawl了Organization這個頁面的,以下是我的證據:
?
(用戶權限原因上傳不了圖片,大體就是在Google輸入框中輸入site: academic.research.microsoft.com以測試Google爬了哪些網頁)
?
請看上圖,我試著在Google上查到底Google爬了Microsoft Academic Search上的啥東西,為啥Microsoft Academic Search的排名一直上不去,結果發現,Google爬下來的東西只有Organization。
?
(用戶權限原因上傳不了圖-_-!)
?
請看上圖,我翻到55面了,都還是只有Organization。我試著去分析Microsoft Academic Search的主頁,首先,Publication, Author, Conference, Journal, Organization和domain這幾個tab是隨機選取的,我猜是不是Google來爬的時候剛好隨機到了Organization了,然后可能是該網站用JavaScript寫的原因,導致其他鏈接無法被Google分析到,所以爬不到。總而言之,第一,網站要能被搜索引擎引導過來,第二,網站要能夠留住被引導過來的用戶。第二點我相信Microsoft Academic Search肯定可以做到,獨特的技術創新,好的UI,肯定留得住用戶。所以我希望Microsoft Academic Search能夠加大對SEO的投入,這才是吸引顧客的最佳手段。
?
b. 和Google Scholar相比,總體評價是什么?這類項目技術難點在哪?有什么更好的解決方案?
首先,我的總體評價是良好。第一,UI涉及比Google好多了,更加友好。第二,有各種領域分類,排名,機構等,還有個人主頁,關系圖,這些都有很好的加分作用。缺點就是我剛剛講的,不能直接下載,還有SEO做得不夠。
這類項目的技術難點,依我看,有如下幾方面:(在下才疏學淺,可能有些實際中不是難點)
1.????? 從Internet上搜索各個教授或者研究員的Homepage,因此要有一個判斷標準,什么樣的url以及html是Personal Homepage. 其次即使判斷了Homepage,每個主頁的html格式可能不一樣,對各項(如Paper, Publication)等叫法不一樣,還有網頁上的圖片到底是教授自己的還是其他人的,很多人喜歡往個人主頁貼家庭圖,搞不好會把人家baby的圖貼到Microsoft Academic Search上。所以需要強大的Crawler和網頁分析器。
2.????? 關系網絡圖的實現,怎么用高效的算法來從Paper中的Author列表建立龐大的網絡關系圖
3.????? 排名的標準,Microsoft Academic Search有各種排名,標準如何制定
4.????? 從各個網頁上爬下來的人名應該會有一些重合的,比如有兩個人都叫Wenlin,那在分析或建立個人網頁或者co-author的時候,就存在一些問題。還有作者的單位可能會有變動,怎么進行實時跟蹤并且又準確定位
?
c. 如果你是項目經理,項目團隊有12人,對此項目將來一年的發展如何規劃?
1. 可能會做一下user study,了解一下用戶希望有哪些功能,以及評價
2. 繼續做SEO
3. 可能添加一些功能,比如根據論文時間排序,引用數等
4. 擴大領域,比如往物理、化學、經濟等,增大數據量
5. 加大推廣
?
總結
以上是生活随笔為你收集整理的对于微软学术搜索的评价——陈稳霖的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Excel绘制散点图并拟合输出公式和R值
- 下一篇: android sharedprefer