HugeGraph
HugeGraph體系結(jié)構(gòu)
HugeGraph已經(jīng)在GitHub上開(kāi)源,項(xiàng)目地址是https://github.com/hugegraph。HugeGraph包含了10多個(gè)關(guān)聯(lián)子項(xiàng)目,其中包括:
1. HugeGraph
HugeGraph子項(xiàng)目是HugeGraph項(xiàng)目的核心部分,包含Core、Backend、API等子模塊。該模塊實(shí)現(xiàn)了TinkerPop框 架接口,并提供Schema元數(shù)據(jù)管理,事務(wù)、緩存和序列化等功能。HugeGraph可以支持多種后端存儲(chǔ)系統(tǒng),用戶可以根據(jù)實(shí)現(xiàn)需求靈活選擇;另外通 過(guò)內(nèi)置的HugeGraph-Server(簡(jiǎn)稱(chēng)為HugeServer)對(duì)外提供Restful API,該接口也可以接收Gremlin查詢。
2. HugeGraph-Client
簡(jiǎn)稱(chēng)為HugeClient,提供了Rest API的客戶端,用于連接HugeServer,目前實(shí)現(xiàn)Java版,其他語(yǔ)言用戶可自行封裝實(shí)現(xiàn);
3. HugeGraph-Loader
簡(jiǎn)稱(chēng)為HugeLoader,是基于HugeClient的數(shù)據(jù)導(dǎo)入工具,可將普通JSON、CSV等文本數(shù)據(jù)轉(zhuǎn)化為圖的頂點(diǎn)和邊并快速插入圖數(shù)據(jù)庫(kù)中;
4. HugeGraph-Studio
簡(jiǎn)稱(chēng)為HugeStudio,是HugeGraph的Web可視化工具,可用于執(zhí)行Gremlin語(yǔ)句并將圖的鏈接關(guān)系通過(guò)Web可視化呈現(xiàn)。
HugeGraph各組件之間的關(guān)系如圖3所示:
圖3 HugeGraph各組關(guān)系圖
4. HugeGraph的應(yīng)用場(chǎng)景
百度安全每天需要處理大量的日志數(shù)據(jù),并對(duì)數(shù)據(jù)進(jìn)行挖掘分析以識(shí)別各種安全問(wèn)題,HugeGraph為安全業(yè)務(wù)提供關(guān)聯(lián)分析能力。HugeGraph在百度安全內(nèi)部的應(yīng)用場(chǎng)景非常廣泛,包括網(wǎng)址安全檢測(cè)、設(shè)備關(guān)系圖譜和數(shù)據(jù)安全治理等。
4.1 網(wǎng)址安全檢測(cè)
搜索是百度的核心業(yè)務(wù)之一,為保證用戶訪問(wèn)的網(wǎng)站是安全的,我們需要對(duì)搜索引擎的每一個(gè)網(wǎng)頁(yè)進(jìn)行安全檢測(cè),以防止用戶通過(guò)搜索引擎入口訪問(wèn)惡意網(wǎng) 站。在網(wǎng)址安全檢測(cè)項(xiàng)目中,我們使用HugeGraph存儲(chǔ)網(wǎng)站的基本信息包括域名Whois、IP和外鏈等,安全分析人員可以方便分析站點(diǎn)之間的關(guān)系。 另外從鏈接關(guān)系入手,結(jié)合PageRank等圖挖掘算法可以發(fā)現(xiàn)網(wǎng)站鏈接異常行為,識(shí)別網(wǎng)絡(luò)黑產(chǎn)業(yè)。據(jù)此我們發(fā)現(xiàn)了黑產(chǎn)利用運(yùn)營(yíng)商漏洞進(jìn)行用戶隱私竊取的 行為,也發(fā)現(xiàn)了虛擬點(diǎn)擊和非法推廣等非法行為,切實(shí)維護(hù)了網(wǎng)民的權(quán)益。
4.2 設(shè)備關(guān)系圖譜
關(guān)聯(lián)分析是威脅情報(bào)、黑產(chǎn)打擊和案件溯源等業(yè)務(wù)所需要的核心能力,構(gòu)建設(shè)備關(guān)系圖譜,提供設(shè)備關(guān)聯(lián)分析能力是黑產(chǎn)對(duì)抗所需要的核心能力。我們使用 HugeGraph存儲(chǔ)手機(jī)號(hào)碼、帳號(hào)ID、設(shè)備指紋等設(shè)備信息,通過(guò)ID-Mapping和關(guān)聯(lián)分析,精確識(shí)別黑產(chǎn)作弊設(shè)備,并為業(yè)務(wù)風(fēng)控提供細(xì)粒度的 反作弊策略。
4.3 威脅情報(bào)分析
在威脅情報(bào)處理方面,利用HugeGraph將惡意攻擊記錄、惡意IP、惡意域名、Whois信息、漏洞庫(kù)、文件、郵件地址、殺軟檢測(cè)、開(kāi)源情報(bào)等 信息結(jié)合構(gòu)建威脅情報(bào)關(guān)系網(wǎng),為風(fēng)控業(yè)務(wù)和安全應(yīng)急響應(yīng)中心提供服務(wù)。另外在偽造設(shè)備識(shí)別、群控挖掘、自然人識(shí)別等方面,HugeGraph也發(fā)揮了很大 的作用。
4.4 安全數(shù)據(jù)治理
在安全領(lǐng)域之外之外,圖數(shù)據(jù)庫(kù)也可以應(yīng)用在知識(shí)圖譜、企業(yè)圖譜、推薦系統(tǒng)、社交網(wǎng)絡(luò)、IT運(yùn)維等多種場(chǎng)景中應(yīng)用。目前我們也將HugeGraph應(yīng) 用到安全數(shù)據(jù)治理中項(xiàng)目中。我們將數(shù)據(jù)資產(chǎn)作為圖數(shù)據(jù)庫(kù)的頂點(diǎn),將對(duì)數(shù)據(jù)資產(chǎn)的ETL處理作為圖數(shù)據(jù)庫(kù)的邊,通過(guò)頂點(diǎn)和邊的關(guān)聯(lián)關(guān)系分析數(shù)據(jù)血緣,并在此 基礎(chǔ)上實(shí)施安全數(shù)據(jù)治理策略。
圖4 HugeGraph在數(shù)據(jù)治理中的應(yīng)用
總結(jié)
- 上一篇: 实战:开直通车别再走进这5个误区
- 下一篇: ca-certificates.crt