【2016年第4期】大数据时代的简约计算
張家琳,孫曉明
中國科學院計算技術研究所,北京 100190
摘要:大數據存儲和分析的能力是未來創新型國家的核心戰略能力。當前關于大數據的理論研究在共性問題提煉、方法論框架和實時數據算法理論上仍存在一些不足,從大數據“海量、實時、多樣”三大特征出發,聚焦網絡大數據這一對象,以數據復雜性的度量和約簡作為主線,具體從網絡鏈路預測及推薦、動態演化網絡上的算法研究、網絡小世界模型與信息傳播3個問題出發,研究大數據在時間、空間和關聯關系上的簡約計算。
關鍵詞:時間復雜性;空間復雜性;關系復雜性;數據復雜性
中圖分類號:TP3-0????????文獻標識碼:A
doi: 10.11959/j.issn.2096-0271.2016037
論文引用格式:張家琳,孫曉明.?大數據時代的簡約計算[J]. 大數據, 2016, 2(4): 3-12.
ZHANG J L, SUN X M.?On the measurements of algorithms in big data era[J]. Big Data Research,?2016, 2(4): 3-12.
On the measurements of algorithms
in big data era
ZHANG Jialin, SUN Xiaoming
Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100190, China
Abstract: The ability to store and analyze big data is a crucial capability of a powerful country in the new century. The current research of big data contains weakness on common scientific questions, general methodology, and theoretical analysis of real-time algorithm. It started from three key features about big data: volume, variety, and velocity, and the measurement and simplification of time complexity, space complexity, and relationship complexity for big data were focused.
Key words: time complexity, space complexity, relationship complexity, data complexity
1 ?引言
隨著網絡、通信、感知等技術的迅猛發展,人類正進入大數據時代:根據國外相關機構預測,全世界數據總量以每兩年翻一番的速度增長。近年來大數據的飆升主要來源于互聯網服務,并且對大到國計民生小到衣食住行都產生了革命性的影響。因此在互聯網上可訪問到的人、機、物三元世界產生的網絡大數據是大家關注的焦點。
網絡大數據具有如下3個特點。
● ?海量:網絡空間中數據的體量不斷擴大,I D C(International Data Corporation,國際數據公司)的研究報告稱,2012年網絡大數據總量為2.7 ZB,預計到2020年,總量將達到40 ZB。
● ?實時:網絡大數據通常以流的形式動態、快速地產生,具有很強的時效性,甚至呈現脈沖式的突發涌現,并且這些數據需要快速處理,實時響應。
● ?多樣:描述同一主題的數據往往來源多樣,關聯關系復雜,而且包含結構化、半結構化和非結構化等多種數據類型。
網絡大數據在經濟、社會、政治、科學等多方面都有不可估量的價值。美國政府認為大數據是“未來的新石油”,并把大數據研究上升為國家意志,這必然會在各個領域產生深遠的影響。
(1)網絡大數據的研究對捍衛國家網絡空間的數字主權、維護國家安全和社會穩定有重要作用
信息化時代,國家層面的競爭力將部分體現為一國擁有網絡大數據的規模、活性以及對數據的解釋與運用的能力。國家在網絡空間的數字主權也將是繼海、陸、空、天四大空間之后的另一個大國博弈的空間。備受矚目的“棱鏡門”,深刻暴露出一些大國在有計劃、有步驟地采集各國的數字“DNA”。2012年3月,美國國家科學基金會提出要“形成一個包括數學、統計基礎和計算機算法的獨特學科”——大數據科學。該計劃還強調,大數據技術事關美國的國家安全,影響科學研究的步伐,還將引發教育和學習的變革。這意味著網絡大數據的主權已上升為國家意志,直接影響國家和社會的穩定,事關國家的戰略安全。
(2)網絡大數據是國民經濟核心產業信息化升級的重要推動力量
“人、機、物”三元世界的融合產生了大規模的數據,如何感知、測量、利用這些網絡大數據成為國民經濟中許多行業面臨的共同難題。通過對網絡大數據共性問題的分析和研究,使企業能夠掌握網絡大數據的處理技術或者能夠承受網絡大數據處理的成本與代價,進而使整個行業邁入數字化與信息化的新階段。從這個意義上來看,對網絡大數據基礎共性問題的解決將是新一代信息技術融合應用的新焦點,是信息產業持續高速增長的新引擎,也是行業用戶提升競爭力的新動力。
(3)網絡大數據技術上的突破將催生出戰略性新興產業
網絡大數據技術的突破意味著人們能夠理清數據交互連接產生的復雜性,掌握數據冗余與缺失雙重特征引起的不確定性,駕馭數據的高速增長與交叉互連引起的涌現性,進而能夠根據實際需求從網絡數據中挖掘出其蘊含的信息、知識甚至是智慧,最終達到充分利用網絡數據價值的目的。網絡數據已成為聯系各個環節的關鍵紐帶,通過對網絡數據紐帶的分析與掌握,可以降低行業成本、促進行業效率、提升行業生產力。在網絡大數據技術的驅動下,行業模式的革新將可能催生出數據材料、數據制造、數據能源、數據制藥、數據金融等一系列戰略性的新興產業。
(4)大數據正在引起學術界對科學研究思維與方法的一場革命
傳統科學研究的范式是從現象中分析提煉理論假設,再利用實驗驗證相應的理論。大數據的出現催生了一種新的科研模式,即面對大數據,科研人員只需從數據中直接查找、分析或挖掘所需的信息和知識,這些知識表現為概率形態的關聯或因果關系,這種關系可能復雜到無法為人類直觀掌握,但是可以很好地解釋現實、預測未來。圖靈獎得主Gray J在他的最后一次演講中描繪了數據密集型科學研究的“第四范式”,把數據密集型科學從計算科學中單獨區分開來。Gray認為,要解決面臨的某些最棘手的全球性挑戰,“第四范式”可能是唯一系統性的方法。
大數據研究方興未艾,成果累累,每年僅在《Nature》及其子刊、《Science》和《PNAS》上發表的大數據分析相關論文就有近百篇。其中,網絡大數據又扮演中心的角色。從計算機科學的角度看,目前的研究主要有3方面有待進一步加強。首先,目前還缺乏專門針對海量實時流式數據的算法理論、算法設計與評估框架。其次,對于特定數據對象的研究較多,對于共性問題的提煉和分析較少,還缺乏可察覺的方法論的主線。最后,在靜態數據或離線數據上的算法測試類研究較多,在真實系統中的大規模實驗較少,還缺乏可信賴的效果評估。因此,數據科學,甚至說“第四范式”,都還只是一個模糊的雛形。
本文嘗試從數據復雜度的角度進行突破,針對網絡大數據所具備的“海量、實時、多樣”三大特征,依托國家自然科學基金重點項目“大數據結構與關系的度量與簡約計算”,圍繞大數據時間、空間、關聯復雜性的度量和約簡展開,希望探索出符合當前實時海量流式數據處理的,新的算法復雜性理論基本思想和算法設計的基本框架,尋找從時間、空間和特征關聯3方面約簡數據和處理數據的算法,從而對數據科學基礎理論和基本方法論的形成產生貢獻。
具體來說,本文將集中關注與網絡大數據有關的算法理論和應用問題,圍繞重點項目“大數據結構與關系的度量與簡約計算”實施一年多來在網絡鏈路預測與推薦、網絡小世界模型及信息傳播、動態演化網絡的相關算法3方面取得的一些進展進行匯報,展示對數據復雜度的認識和理解。
?
2 相關工作
2.1 ?網絡大數據計算
傳統的CPU密集型的計算,數據量不大,算法復雜度往往只要求是多項式級即可,理論研究的焦點也在于區分多項式級和非多項式級的算法。而網絡大數據計算動輒面臨TB乃至PB級的數據規模,計算從CPU密集型轉化為數據密集型。算法設計的關鍵是保證時間為線性甚至亞線性。另一方面,數據傳輸(無論從外存讀取還是網絡上傳輸)的時間開銷遠大于CPU處理時間,這使得CPU不再成為計算的瓶頸。因此,計算方法的重點變成了努力降低算法涉及的數據的移動開銷。主要思路有3類:分散化、局部化和增量化。
(1)分散化
大機群分布式計算是高效大數據處理的首選,因為單個計算節點的工作負載可以大幅度降低,特別是當數據分散存儲的時候,通過分布式計算可以減少數據的跨節點流動,降低數據移動開銷。Google(谷歌)公布的MapReduce編程模型在工業界乃至學術界產生了極大的影響,以至于“談大數據必談MapReduce” [1]。
(2)局部化
網絡局部性算法最早指的是在網絡分布式計算中,每個計算節點的輸出僅僅與常數跳范圍內的鄰居節點有關,與整個網絡的規模無關[2]。在網絡大數據背景下,網絡規模巨大且動態演化,對整個網絡結構的存儲、快照、訪問都需要耗費高昂的成本,此時局部性算法不再強調分布式,而是關注網絡以數據流的形式輸入,如何實時處理以及如何只訪問網絡局部的數據就能夠獲得計算結果。局部算法在時間復雜度上具有明顯的優勢(亞線性甚至常數時間),在復雜網絡的計算中越來越受到關注。
(3)增量化
在動態網絡中,每個時刻的網絡數據都可以看作在前一時刻數據基礎上作了一定的偏移(稱為增量)。如果觀察間隔較短,那么相對于整個網絡規模,增量一般不大。如果基于增量更新網絡的特定性質,在理想情況下,更新算法的時間復雜度不依賴于整個網絡的規模,僅僅與增量有關,這類算法稱為增量式算法。Desikan P等人[3]針對動態網絡的Pagerank更新,把網絡中的點分類,使得需要重新計算的點數很少,該方法后來被Bahmani B等人[4]推廣到Monte Carlo的Pagerank算法。
2.2 ?網絡大數據特征刻畫和結構挖掘
復雜網絡的特性主要由一些統計值來刻畫,如度分布、最短路徑長度等,這些宏觀特征是由各個節點的動力學行為及其節點之間相互作用產生的集中表現。1998年,Watts D J等人[5]分析了網絡中的高聚集性和短特征路徑長度等特性,研究了網絡“小世界”特性產生的機制。對于靜態網絡,通常采用拓撲距離刻畫網絡的最短路徑長度,而對于動態變化的時序網絡,一般采用時序路徑長度進行刻畫[6]。Pan RK 等人[7]提出對時序網絡中的時序路徑進行確切的定義并給出了相應的計算算法。
NewmanM E J[8]的研究成果,使得復雜網絡中的社區發現成為近幾年復雜網絡領域的一個研究熱點,并形成了復雜網絡中一個重要的研究方向。Fortunato S[9]在Physics Reports上給出了社區發現的綜述。2004年,Newman M E J[10]提出了基于模塊度優化的快速算法。隨后,研究者在Newman M E J等人的工作基礎上,提出了多種類型的基于模塊度優化的算法。
2.3 ?基于網絡的缺失預測和趨勢預測
網絡中的鏈路預測是指如何通過已知的網絡結構信息來預測網絡中尚未產生連邊的兩個節點之間產生連接的可能性。由于實際應用中通常存在嚴重的數據缺失問題,鏈路預測可以通過推斷補齊這些缺失連邊,從而更加準確地對網絡進行分析,鏈路預測已成為準確分析社會網絡和生物網絡的有力輔助工具[11]。另外,社會媒體中的推薦問題,譬如Facebook上的朋友推薦和新浪微博中的關注對象推薦,本質上也是鏈路預測問題[12]。
推薦系統通常包括3個組成要素:用戶、對象和推薦方法,其中推薦方法是整個推薦系統的核心。筆者主要考慮基于網絡的推薦系統。在簡化的情況下,推薦系統可視為二部分圖上的鏈路預測問題。在大數據環境下,推薦系統規模很大,用戶和商品數目動輒百千萬計,兩個用戶之間選擇的重疊非常少,使得絕大部分基于關聯分析的算法(譬如協同過濾)的計算效果都不好。事實上,網絡方法很早就應用于推薦系統。例如,Aggarwal C C等人[13]研究了基于圖(網絡結構)的協同推薦算法,結果表明基于圖的協同過濾方法在計算速度、推薦精度、可擴展性、學習時間等方面均優于傳統的協同推薦算法。Huang Z等人[14]用二層圖模型刻畫客戶—產品推薦系統,討論了二部分圖的小世界效應和集聚性質對不同推薦算法的影響。
?
3 網絡鏈路預測及推薦
3.1 “結構微擾法”鏈路預測方法
鏈路預測是網絡科學中一個重要的基礎問題[15]。精準的預測結果既可以指導生物學的實驗,還可以進行社交網絡的好友預測。好的預測算法本身還給出了很多網絡演化可能機制的暗示。遺憾的是,人們并不知道一個算法是否“足夠精確”。針對一個完全隨機的網絡,“什么都預測不到”可能已經是最好的結果了,但針對一個非常規則的網絡,精心設計的方法可能能夠100%進行預測。知道了一個網絡的鏈路在多大程度上“能夠被預測出來”,能夠使得人們去判斷算法是否已經接近甚至達到預測的上界,是否還有提升的空間。
事實上,“可被預測的程度”本身也可以看作網絡的一種重要性質。為了衡量網絡可被預測的難易程度,Lü L等人[15]提出了如下假設:網絡越具有某些規律性,越容易被預測。進一步地,如果隨機從網絡中抽取出一小部分鏈路,網絡的特征向量空間受到的影響很小,就說明網絡是具有規律性的。Lü L等人使用類似于量子力學中對哈密頓量做一階微擾的方法,假定減少或增加少量鏈接所產生的微擾,只對特征值有影響,而對特征向量沒有影響,這樣可以觀察微擾后通過這種辦法重構的鄰接矩陣和真實鄰接矩陣的差異。Lü L等人提出了一種度量這個差異的參數—結構一致性(structural consistence),被認為可以直接用來刻畫網絡的“可被預測的程度” [16]。
大量的模擬網絡和真實網絡實驗都支持了上述結論:結構一致性越強的網絡越容易被準確預測丟失的鏈路。Lü L等人利用結構一致性,提出了一種新的名為“結構微擾法”(structuralperturbation method)的鏈路預測方法。這個方法在預測丟失的鏈路以及甄別網絡中添加的噪音邊兩方面都明顯超過了當前主流的方法,包括知名的層次結構法和隨機分塊法。
3.2 ? 場景自適應的跨領域推薦
數據稀疏是推薦系統面臨的一大挑戰。跨領域推薦通過融合多個領域的數據來克服數據稀疏問題。現有的跨領域推薦方法主要有兩類:第一類基于同質性假設,即假設同一個對象在不同的領域共享同一個表達,這類方法適用于在每個領域都稀疏的對象,但不能刻畫領域對對象的影響;第二類基于異質性假設,即假設每個領域有一個領域獨有的變換矩陣,每個對象在不同場景中的表達由該對象的全局表達和領域變換矩陣相作用得到,這類模型適用于在部分領域稀疏而在其他領域不稀疏的對象,但對于在每個領域都稀疏的對象效果很差。針對上述問題,Shen H W等人[17]提出了一種場景自適應的跨領域推薦方法(context-adaptive matrixfactorization,AdaMF),對象的表達建模為其全局表達和場景相關表達的一個混合分布,采用混合系數來自適應地調節全局表達和場景相關表達的作用。在MovieLens-Netflix數據集上的實驗表明,AdaMF在稀疏—稀疏、稀疏—稠密、稠密—稠密等各個場景下都一致性地優于現有的兩類代表性方法。
3.3 ?基于用戶行為的購物推薦
如何對用戶下一次的購物數據進行預測是市場分析里的重要問題。傳統的方法有兩種:一種是基于商品順序的推薦,這種方式捕獲了用戶購物的順序行為,但是忽略了購物推薦的個性化因素,并且缺乏用戶對商品整體興趣的描述;另一種是協同過濾,這種方式忽略了用戶交易的特征,將用戶所有購買的商品混在一起建模。為了解決以上問題,Lan Y Y等人[18]提出了層次化表達模型(hierarchical representation model)來完成用戶的購物推薦。參考文獻[18]中假設用戶的表達和商品的表達均在同一個連續的空間中,商品的表達可以通過操作符合成交易的表達,用來代表用戶購物的順序行為,用戶的表達代表用戶的整體興趣。在模型的第二層使用操作符將兩個表達合并在一起作為用戶當前的興趣表達來預測用戶下一步購買的商品。在和多個baseline進行比較的實驗中,Lan YY等人的模型在f-measure、hit-ratio以及NDCG指標上均取得了較好的性能。
?
4 ?動態演化網絡算法研究
4.1 ? 動態演化網絡排序算法
排序作為最基本而經典的算法問題,在大數據時代依然是眾多關鍵應用的基石,如搜索、推薦系統等。筆者研究了訪問受限的動態數據模型下的排序和查找問題[19]。借鑒Anagnostopoulos等人提出的動態數據的模型,采用Kendall tau 距離作為衡量算法性能的指標。筆者研究了Topk selection問題:在每個時刻t,找出Topk的元素并將其排序。之前Anagnostopoulos等人的工作只研究了兩個極端情況k=1和k= n。筆者的主要貢獻是確定了該問題的“相變點”——k*,即當k=o(k*)時,該問題可以以1-o(1)的概率無差錯地解決。同時筆者證明了當k超過k*時,對于任何算法,所求得的順序與真實順序的Kendall tau距離都至少是k2/n,而且筆者的算法表明這個界是緊的。筆者還研究了比Topk selection弱的一個問題:Topk set問題。在這一問題中筆者只需要確認Topk的元素,而不需要確定它們的順序,證明了對任意的k,Topk set問題都可以以1-o(1)的概率無差錯地求解。
4.2 ? 基于動態距離的網絡社區發現算法
社區挖掘是大規模網絡分析和挖掘的基礎,它在社交網絡、生物網絡、腦網絡等諸多方面都有重要的應用。但如何有效地挖掘大規模網絡中存在的社區結構仍然面臨著巨大的挑戰。針對這個基礎理論研究問題,Shao J等人[20]提出了一個新的社團挖掘算法:Attractor算法。該算法的基本思想是將網絡看作一個動力學系統,每個節點與周圍節點進行交互,提出3種直觀的交互模式,通過模擬網絡中節點間的距離變化動態地發現社區結構。由于社區檢測是基于網絡內在的連接模式,因此該算法能找出網絡中不同大小的固有社團。同時由于算法的時間復雜度低,因此可以處理大規模網絡。大量人工數據集和真實數據集實驗都表明Attractor算法相比傳統算法更有優勢。這一工作為大規模網絡中的社區挖掘問題提供了新的思路和方法。
4.3 ? 并行秘書問題在線算法
秘書問題是2 0世紀6 0年代提出的經典在線問題,筆者研究了這個問題的一個一般化變種,并在并行模式下考慮了這個經典的在線優化問題[21]。假設雇主計劃從n個完全隨機到來的候選人中選擇J個人。雇主對于不同的候選人有著不同的評價,想要錄取的這些人盡可能是前k好的。這里數據是以流式的方式到來的,每面試完一個候選人,面試官才知道當前候選人的價值,并且要立即決定是否錄取這個人,不可反悔。筆者在研究中提出了一個基于觀察—選擇的確定性算法。這個算法具有高效、易實現的特點,并且從線性規劃出發,利用互補松弛定理,可以證明該算法的最優性。筆者的算法同樣可以用于解決當各隊列的名額是預先指定的情況,從而解決了EC2012上Feldman等人的文章中的一個未解問題。針對兩個典型的例子,給出了算法的近似比。
?
5 網絡小世界模型與信息傳播
5.1 ? 基于博弈論的小世界模型
小世界模型是復雜網絡模型中的一個重要模型。它刻畫了各種復雜網絡中經常出現的平均距離很短而聚合度較高的現象。2002年Kleinberg J提出了適于通行的小世界網絡的概率模型,指出當模型中的隨機長邊冪率分布系數r等于基準格子網絡的維度時,小世界網絡才是可通行的。之后的實證研究印證了現實的社交網絡的冪率系數r確實接近于網絡的有效維度。
ChenW等人[22]從博弈論的角度出發,將網絡中的每個節點看作一個網絡博弈的玩家,其長邊冪率分布系數r是其策略,r值偏大表示該節點側重于連接其附近的節點,隨著r值減小,其連接格子上較遠距離節點的概率增加。Chen W等人在這一網絡博弈中獨創性地引入了一個新的效用函數,使得每個節點的效用是其隨機長邊的平均格子距離與隨機長邊有反向邊的平均概率的乘積。前者表明,節點想連接遠處的節點以得到不同的信息,而后者表明節點傾向于連邊的互惠性(reciprocity)以使聯系更加穩定。Chen W等人在理論上論證了DRB(distance-reciprocity balanced,距離—互惠平衡)博弈僅有兩個納什均衡,而適于通行的小世界網絡是唯一一個穩定的均衡,任何團體都無法通過共謀偏離這個均衡以使得團體的成員獲利,而且即使絕大多數節點都隨機擾動,節點也能很快回到適于通行的小世界模型狀態。他們還通過模擬實驗進一步驗證了即使節點不了解其他節點的連接偏好,也同樣會收斂到適于通行的小世界網絡。Chen W等人還通過人人網和美國LiveJournal兩個實際網絡進行了驗證,實驗發現DRB博弈仍能很快收斂,而收斂后節點的連接偏好與實測結果的相關度相當高,其平均值也接近網絡的有效維度。
5.2 ? 影響力最大化問題
影響力模型和最大化研究大多數基于獨立級聯模型(independent cascade)的影響力最大化問題,主要考慮單個個體傳播或純競爭性多個體傳播,傳播過程是一次性的,并且傳播結果用期望值作為度量標準。在此基礎上,從幾個不同的角度對問題進行了推廣。
筆者首次提出了基于概率保證的影響力最大化問題[23],典型的應用是:話題或事件希望能以一定的概率保證覆蓋超過一定比例的節點,以此來爭奪社交網站上的熱點事件或者十大話題等。筆者考察當對同一事件或物品的信息傳播反復多次出現時,其影響概率逐漸累積之后,會對節點決策產生的影響,并基于此提出了基于概率累積的影響力最大化問題[24]。Lu W等人[25]還首次提出了一個比較獨立級聯模型(comparativeindependent cascade model, Com-IC model),將雙個體在競爭或互補情形下的傳播方式統一表述在一個模型下。文中研究了模型的性質,并著重研究了在互補情形下的影響力最大化問題。基于此改進了基于反向可達集合的高效算法,并提出了夾心近似策略,當影響力函數本身不具備子模性(submodularity)時仍能給出一定的近似比。
5.3 ? 基于資源分配的影響力節點發現算法
通過考慮鄰居節點的資源以及傳播率對目標節點的影響,Shang M S等人[26]提出了一種改進的迭代資源算法來識別影響力節點。該方法認為目標節點的重要性程度受鄰居感染情況以及傳播率的影響,鄰居的影響力資源為基本的中心性,如:度、k核、接近中心性、特征向量中心性等。通過在4個真實網絡中的SIR模型結果比較,該方法和原有的方法相比在沒有增加參數以及復雜度的情況下,提高了精確度。特別地,在 Erdos-Renyi 網絡里,kendall系數提高了23%左右,在Protein網絡里提高了24%左右,效果比較明顯。該改進的迭代資源算法考慮了網絡結構以及傳播屬性,可以更好地識別網絡中的重要性節點,結合網絡結構和傳播動力學機制對識別核心節點具有重要的啟示作用。
?
6 ?結束語
本文聚焦網絡大數據這一當前熱點領域,從網絡鏈路預測及推薦、動態演化網絡算法研究以及網絡小世界模型與信息傳播3個方面,展示如何從數據復雜度的角度對大數據的算法設計進行突破。希望能通過提出新的算法復雜性理論的基本思想和算法設計的基本框架,對數據科學基礎理論和基本方法論的形成產生貢獻。
?
致謝
????在本文的撰寫過程中,得到了周濤教授、陳衛研究員、陳端兵教授、沈華偉研究員、邵俊明教授等的大力支持和幫助,部分素材來源于他們的研究工作,在此一并表示真誠的感謝!
?
參考文獻:
[1] DEAN J,GHEMAWAT S. MapReduce: simplified data processing on large clusters[J].Communications of the ACM, 2008, 51(1): 107-113.
[2] SUOMELA J.Survey of local algorithms [J].ACM Computing Surveys (CSUR), 2013,45(2):94-111.
[3] DESIKAN P,PATHAK N, SRIVASTAVA J, et al. Incremental page rank computation on evolving graphs[C]//The14th International Conference on World Wide Web, May 10-14, 2005, Chiba, Japan.New York: ACM Press, 2005: 1094-1095.
[4] BAHMANI B, CHOWDHURYA, GOELA. Fast incremental and personalized PageRank[J]. Proceedings of theVLDB Endowment, 2010, 4(3): 173-184.
[5] WATTS D J,STROGATZ S H. Collective dynamics of “small-world” networks[J].Nature, 1998,393(6684): 440-442.
[6] HOLME P, SARAM?KI J . Temporal networks [J].physics Reports, 2011, 519 (3): 97-125.
[7] PANR K,SARAM?K I J. Path lengths , correlations, and centrality in temporalnetworks[J]. Physical Review E Statistical Nonlinear & Soft Matter Physics,2011,84(1 Pt 2):1577-1589.
[8] NEWMAN M E J. Modularity and community structure in networks[J]. Proceedings of theNational Academy of Sciences, 2006, 103(1): 8577-8582.
[9] FORTUNATO S.Community detection in graphs[J]. Physics Reports, 2010, 486(3-5):75-174.
[10] NEWMAN M EJ . Fast algorithm for detecting community structure in networks[J]. PhysicsReview, 2004, E 69,066133.
[11] SCHAFER L,GRAHAM J W. Missing data: our view of the state of the art[J].PsychologicalMethods, 2002, 7(2): 147-177.
[12] ZHANG Q M,Lü L , WANG W Q , et al. Potential theory for directed networks[J]. Plos One,2013, 8(2): e55437.
[13] AGGARWAL CC, WOLF J L, WU K L, et al. Horting hatches an egg: a new graph-theoreticapproach to collaborative filtering [ C ] // The Fifth ACM SIGKDD InternationalConference on Knowledge Discovery and Data Mining, August 15-18, 1999, SanDiego, CA, USA. New York: ACM Press, 1999: 201-212.
[14] HUANG Z,ZENG D, CHEN H. Analyzing consume r-product graphs: empirical findings andapplications inrecommender systems[J ]. Management science, 2007, 53(7):1146-1164.
[15] Lü L, ZHOUT .Link prediction in complex networks: a survey[J]. Physica A: StatisticalMechanics & Its Applications, 2011, 390(6):1150-1170.
[16] Lü L, PANL, Z HOU T, et al. Toward link predictability of complex networks[J]. Proceedingsof the National Academy of Sciences of the United States of America, 2015,112(8): 2325-2330.
[17] MAN T, SHENH W, HUANG J M, et al. Context-adaptive matrix factorization for multi-contextrecommendation[C]//The 24th ACM International Conference on Information andKnowledge Management(CIKM), October 19-23,2015, Melbourne, Australia. New York:ACM Press, 2015: 901-910.
[18] WANG P F,GUO J F, LAN Y Y, et al. Learning hierarchical represent at ion model for nextbasket recommendation[C]//The 38th Annual International ACM SIGIR Conference onResearch and Development in Information Retrieval(SIGIR 2015),August 9-13,2015, Santiago, Chile. New York: ACM Press, 2015: 403-412.
[19] SUN X M,ZHANG J, ZHANG J L .Solving multi-choice secretary problem in parallel: anoptimal observation-selection protocol[C]//The 25th International Symposium onAlgorithms and Computation (ISAAC 2014), December 15-17, 2014, Jeonju, Korea.[S.l.]: Springer International Publishing, 2014: 661-673.
[20] SHAO J, HANZ , YANG Q, et al .Community detection based on distance dynamics[C]// The 21thACM SIGKDD International Conference on Knowledge Discovery and Data Mining,August 10-13,2015, Sydney, Australia. New York: ACM Press, 2015:1075-1084.
[21] HUANG Q,LIU X W, SUN X M, et al. How to select the top -k elements from evolvingdata?[C]// The 26 th International Symposium on Algorithms and Computation(ISAAC 2015), August 3-8, 2015, Macao, China . New York: ACM Press, 2015:60-70.
[22] YANG Z,CHEN W. A game theoretic model for the formation of navigable small-worldnetworks [C] // The 4th International World Wide Web Conference( WWW’2015), May18 - 22 , 2015 ,Florence, Italy. [S.l.:s.n.], 2015.
[23] ZHANG P, CHENW, SUN X M, et al. Minimizing seed set selection with probabilistic cover ageguarantee in a social network[C]//The 20th ACM SIGKDD International Conferenceon Knowledge Discovery and Data Mining, August 24-27,2014, New York, USA. NewYork: ACM Press, 2014: 1306-1315.
[24] SHAN X H,CHEN W, LI Q , et al . Cumulative activation in social networks[J]. 2016,arXiv:1605.04635.
[25] LU W, CHENW, LAKSHMANAN L V S. From competition to complementarity: comparativeinfluenced if fusion and maximization[C]//The 42nd International Conference onVery Large Data Bases( VLDB’2016 ), September 5-9, 2016, New Delhi, India. NewYork: ACM Press, 2015: 60-71.
[26] ZHONG L F,LIU J G, SHANG M S. Iterative resource allocation based on propagation featureof node for identifying the influential nodes[J]. Physics Letters A, 2015,379(38): 2272-2276.
張家琳(1983-),女,中國科學院計算技術研究所副研究員,主要研究方向為在線算法、近似算法、社交網絡、算法博弈論等。
孫曉明(1978-),男,中國科學院計算技術研究所研究員,主要研究方向為算法與計算復雜性、量子計算等。
總結
以上是生活随笔為你收集整理的【2016年第4期】大数据时代的简约计算的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 作者:季统凯,男,博士,中国科学院云计算
- 下一篇: dll中的函数的调用方式统一用stdca