日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

AliGraph:一个工业级的图神经网络平台

發(fā)布時間:2024/9/3 编程问答 38 豆豆
生活随笔 收集整理的這篇文章主要介紹了 AliGraph:一个工业级的图神经网络平台 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

簡介: 2019年12月8日,神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)領(lǐng)域的頂會NeurIPS 在加拿大溫哥華召開,阿里巴巴計算平臺PAI團(tuán)隊和達(dá)摩院智能計算實驗室開發(fā)的Aligraph在Expo Day 現(xiàn)場進(jìn)行展示。

?

?

?

為什么專注于GNN

在大數(shù)據(jù)的背景下,利用高速計算機(jī)去發(fā)現(xiàn)數(shù)據(jù)中的規(guī)律似乎是最有效的手段。為了讓機(jī)器計算的有目的性,需要將人的知識作為輸入。我們先后經(jīng)歷了專家系統(tǒng)、經(jīng)典機(jī)器學(xué)習(xí)、深度學(xué)習(xí)三個階段,輸入的知識由具體到抽象,由規(guī)則到特征再到模式,越來越宏觀。相對來說,抽象的層次變高了,覆蓋面變廣了,但我們對底層的感知變?nèi)趿?#xff0c;模型的可解釋程度變差了。深度學(xué)習(xí)的應(yīng)用已經(jīng)讓我們看到了非常可觀的價值,但其背后的可解釋性工作進(jìn)展緩慢,也因為如此,當(dāng)我們用深度學(xué)習(xí)去解決涉及人身財產(chǎn)安全、法律等敏感問題時,只有數(shù)字效果不足以支撐這項技術(shù)的應(yīng)用,我們更需要知道結(jié)果后面的原因。

Graph是知識的載體,其間的實體聯(lián)系蘊(yùn)含了很強(qiáng)的因果關(guān)系。重要的是,這是一種直觀的、人們能夠讀懂的結(jié)構(gòu)。把Graph作為知識支撐,利用深度學(xué)習(xí)的泛化技術(shù),看上去是一個可行的方向,在某些問題上,離我們的可解釋性目標(biāo)更近了一步。各種深度學(xué)習(xí)相關(guān)的頂會在近年來的paper分布上,圖神經(jīng)網(wǎng)絡(luò)(GNN)一直處于蓬勃態(tài)勢。GNN提供了一種解決問題的思路,覆蓋范圍很廣,很多搜索推薦類算法,都可以納入到GNN范式,因此無論從未來技術(shù)儲備,還是當(dāng)下應(yīng)用擴(kuò)展的角度,GNN都是一個非常值得投入的方向。

AliGraph定位

相比CNN、RNN等成熟技術(shù)而言,GNN還處于探索階段,Graph之于GNN,不如圖像之于CNN、自然語言之于RNN那樣理所當(dāng)然。即便有Graph數(shù)據(jù),如何使用GNN沒有可遵循的固定模式,更沒有沉淀下來的類似卷積一樣的算子可直接調(diào)用。GNN的有效性需要更多的場景去驗證,而每一個場景都需要開發(fā)者的深入理解,開發(fā)者有能力處理Graph數(shù)據(jù)和編寫之上的深度學(xué)習(xí)模型。有了百花齊放的應(yīng)用場景做鋪墊,才有可能抽象出共性的GNN算子和算法,再將這些相對成熟的能力賦給使用者,GNN才會真正的推廣開來。出于這些考慮,比起開發(fā)一個成熟算法供用戶使用,平臺當(dāng)前階段會更側(cè)重提供API給開發(fā)者,讓開發(fā)者有能力貼近自己的場景去實現(xiàn)GNN。

另一方面,工業(yè)場景中的Graph數(shù)據(jù)十分復(fù)雜,而且數(shù)據(jù)量巨大。平臺不能脫離場景而獨立存在,必須以業(yè)務(wù)為驅(qū)動,才最可能孵化出有實際價值的產(chǎn)品。以阿里巴巴的電商推薦場景為例,每天的產(chǎn)生的圖數(shù)據(jù)多達(dá)幾百TB,而且高度異構(gòu)(多種類型的頂點、多種類型的邊),頂點和邊具有豐富的屬性,諸如商品的名稱、類目、價格區(qū)間,甚至是其關(guān)聯(lián)的圖像、視頻等,這些屬性以明文存在而非已經(jīng)向量化好的結(jié)構(gòu)化信息。以這樣的數(shù)據(jù)為輸入,如何高效的進(jìn)行GNN訓(xùn)練是一個非常有挑戰(zhàn)的問題。如果使用數(shù)據(jù)預(yù)處理、預(yù)訓(xùn)練等手段把Graph數(shù)據(jù)結(jié)構(gòu)化、向量化,會耗費(fèi)大量的計算資源、存儲資源和人力成本。真正對GNN開發(fā)者友好的平臺,應(yīng)該是端到端的,在一套IDE里,用戶既可以操作復(fù)雜的Graph數(shù)據(jù),又可以將數(shù)據(jù)與深度神經(jīng)網(wǎng)絡(luò)對接,自由編寫上層模型。平臺提供簡單靈活的接口,滿足GNN高速發(fā)展所需的可擴(kuò)展性與生態(tài)的兼容性,和針對復(fù)雜的分布式環(huán)境的大規(guī)模與穩(wěn)定性。

技術(shù)棧

層次化架構(gòu)

AliGraph涵蓋了從原始圖數(shù)據(jù)到GNN應(yīng)用的整體鏈路,把GNN算法的探索成本降低到和傳統(tǒng)深度學(xué)習(xí)算法同等水平。平臺可以分層來看:數(shù)據(jù)層,引擎層,應(yīng)用層。

?

數(shù)據(jù)層,支持大規(guī)模同構(gòu)圖、異構(gòu)圖、屬性圖。數(shù)據(jù)無需提前build好,平臺提供API來簡化數(shù)據(jù)解析和建圖的過程。數(shù)據(jù)層接口易擴(kuò)展,方便對接不同格式、不同介質(zhì)的Graph數(shù)據(jù)。

引擎層,包含Graph Engine和Tensor Engine。Graph Engine又可分為邏輯對象層與算子層。邏輯對象層,描述的是把原始數(shù)據(jù)加載到系統(tǒng)后展現(xiàn)給用戶的形態(tài)是什么。每一個對象實體都會提供相關(guān)的語義接口,比如對于一個Graph對象而言,可以獲取圖的拓?fù)湫畔ⅰ悩?gòu)程度、點邊數(shù)量等。對于用戶而言,實際使用中只需要聲明一個邏輯對象并指定其數(shù)據(jù)源即可。

?

算子層,在邏輯對象之上可以進(jìn)行的計算操作。比如對于Graph對象而言,支持各種Sampler算子,用于對上層GNN算法提供輸入。算子層具有很強(qiáng)的擴(kuò)展性,以滿足場景多樣化對算子種類的需求。目前,內(nèi)置支持的算子圍繞GNN算法及生態(tài)展開,包括圖查詢、圖采樣、負(fù)采樣、KNN等。

?

Tensor Engine指深度學(xué)習(xí)引擎,如TensorFlow、PyTorch,或者其他支持Python接口的Library。GraphEngine的輸出為格式對齊的NumPy對象,可無縫與深度學(xué)習(xí)引擎對接。GNN開發(fā)者可自由編寫Graph之上的NN邏輯,并可與業(yè)務(wù)需求相結(jié)合,組成一個深度網(wǎng)絡(luò)模型進(jìn)行端到端訓(xùn)練。

應(yīng)用層,強(qiáng)調(diào)與業(yè)務(wù)端到端結(jié)合,而非把Graph Embedding的結(jié)果割裂開使用。經(jīng)場景打磨的成熟算法,也會沉淀到應(yīng)用層,以算法組件的形式提供給用戶。

一體化實現(xiàn)

由GCN框架引申,典型的GNN編程范式可概括如下,系統(tǒng)是為了高效支持該范式而設(shè)計。

?

其中,向量化和聚合操作可以利用深度學(xué)習(xí)引擎的表達(dá)能力,因此,為實現(xiàn)上述計算模式,主要在于圖相關(guān)的操作以及這些操作如何與深度學(xué)習(xí)引擎對接。我們將技術(shù)棧細(xì)化成如下圖所示,其中Storage、Sampler、Operator是系統(tǒng)要解決的主要問題。信息自底向上在層與層之間前向傳播,梯度則自頂向下更新每一層的參數(shù),整個GNN應(yīng)用在一張深度網(wǎng)絡(luò)里描述。Storage層的Graph對象是邏輯存儲,在其之下有一層抽象的文件接口,可適配多種數(shù)據(jù)源,這是系統(tǒng)具備可遷移性的前提。Sampler提供豐富的算子,且可獨立擴(kuò)展,不依賴系統(tǒng)框架,滿足多樣化的需求。Operator進(jìn)行圖語義操作的封裝,把性能優(yōu)化、數(shù)據(jù)對接隱藏在簡潔的接口之下。

?

高效圖引擎

再具體的,圖引擎是連接圖數(shù)據(jù)與深度學(xué)習(xí)框架的橋梁,保證數(shù)據(jù)傳遞的高效與穩(wěn)定。這里的圖操作是面向GNN的,和一般意義的圖計算有很大區(qū)別。Graph Engine是一個分布式服務(wù),具有高性能和高可用的特點,支持百億級邊的異構(gòu)圖在2分鐘以內(nèi)完成構(gòu)建、十毫秒級按batch多跳跨機(jī)采樣,支持從失敗中狀態(tài)無損的failover。Graph Engine內(nèi)部深度優(yōu)化了RPC過程,實現(xiàn)了數(shù)據(jù)零拷貝,并且Server間的連接是線程級的,在最大化帶寬利用率的同時,每個線程可獨立無鎖的處理請求。這也是系統(tǒng)性能優(yōu)異的主要原因。此外,我們通過有效的Cache、去中心化等手段來加速采樣和負(fù)采樣,性能具有明顯提升。

?

算子可擴(kuò)展

為支持GNN的快速發(fā)展需求,系統(tǒng)允許算子自由擴(kuò)展。系統(tǒng)框架包括用戶接口分布式運(yùn)行時分布式存儲 3大部分。通過用戶接口調(diào)用某個算子,算子讀取數(shù)據(jù)并完成分布式計算。我們把分布式運(yùn)行時和存儲的接口進(jìn)行提煉,將編程接口控制在安全范圍內(nèi),用戶可以基于這些接口開發(fā)一個自定義的算子。自定義算子可以統(tǒng)一注冊到用戶接口上,無需新增用戶API。具體的,每種Operator都是一個分布式算子,計算所需的數(shù)據(jù)會分布在Service的各個Server上,我們抽象了Map()和Reduce()語義,Map()用于把計算請求拆分并轉(zhuǎn)發(fā)到對應(yīng)的Server上,保證數(shù)據(jù)和計算colocate從而避免數(shù)據(jù)搬遷的代價,Reduce()則把每個Server的結(jié)果進(jìn)行整合。Operator還需實現(xiàn)Process(),用于本地計算,數(shù)據(jù)序列化、分布式通信等則無需關(guān)心。

?

取得成果

系統(tǒng)

  • 數(shù)據(jù)種類:支持同構(gòu)圖、異構(gòu)圖、屬性圖,有向圖、無向圖,可方便與任意分布式文件系統(tǒng)對接。
  • 數(shù)據(jù)規(guī)模:支持千億級邊、十億級頂點的超大規(guī)模圖(原始存儲TB級)。
  • 算子種類:支持幾十種可與深度學(xué)習(xí)相結(jié)合的圖查詢、采樣算子,支持向量檢索,支持算子按需自定義。
  • 性能指標(biāo):支持分鐘級超大規(guī)模圖構(gòu)建,毫秒級多跳異構(gòu)圖采樣,毫秒級大規(guī)模向量檢索。
  • 用戶接口:純Python接口,與TensorFlow構(gòu)成一體化IDE,開發(fā)成本相比一般TF模型無異。

算法

已支持業(yè)界主流的GraphEmbedding算法,包括:DeepWalk、Node2Vec、GraphSAGE、GATNE等。多種自研算法正在計劃公開,已發(fā)表的相關(guān)paper參考如下。

  • Representation Learning for Attributed Multiplex Heterogeneous Network.KDD, 2019.
  • Is a Single Vector Enough? Exploring Node Polysemy for Network Embedding.KDD, 2019.
  • Towards Knowledge-Based Personalized Product Description Generation inE-commerce. KDD, 2019.
  • Sequential Scenario-Specific Meta Learner for Online Recommendation. KDD,2019.
  • AliGraph: A Comprehensive Graph Neural Network Platform. VLDB, 2019.
  • Large Scale Evolving Graphs with Burst Detection. IJCAI, 2019.
  • Hierarchical Representation Learning for Bipartite Graphs. IJCAI, 2019.
  • Cognitive Graph for Multi-Hop Reading Comprehension at Scale. ACL, 2019.
  • Bayes EMbedding (BEM): Refining Representation by Integrating KnowledgeGraphs and Behavior-specific Networks. CIKM 2019.
  • Towards Knowledge-Based Recommender Dialog System. EMNLP, 2019.
  • Learning Disentangled Representations for Recommendation. NeurIPS, 2019.

業(yè)務(wù)

在阿里巴巴集團(tuán)內(nèi),已覆蓋淘寶推薦、淘寶搜索、新零售、網(wǎng)絡(luò)安全(反恐、垃圾或異常檢測、反作弊)、線上支付、優(yōu)酷、阿里健康等相關(guān)業(yè)務(wù)。典型場景效果如下:

手機(jī)淘寶首頁猜你喜歡,云主題推薦(每天5500w PV)

相比其他系統(tǒng)實現(xiàn)的GE模型,在百億級邊、十億級頂點規(guī)模的用戶-商品二部構(gòu)圖上,AliGraph的實現(xiàn)能使單任務(wù)節(jié)省300TB存儲、萬CPU時算力,訓(xùn)練時間縮短2/3,CTR提升12%。

安全相關(guān),反恐、垃圾檢測、異常識別等5個場景

單天三十億級邊、億級頂點的異構(gòu)圖,訓(xùn)練時間縮短1/2,模型覆蓋準(zhǔn)確率提升6%-41%不等。

此外,AliGraph已在阿里云公共云平臺發(fā)布,我們會保持持續(xù)更新,希望看到GNN為更多的場景帶去更優(yōu)的解決方案,也希望更多的研究者愿意投入到這個方向。

結(jié)語

本文對AliGraph平臺做了概況介紹,在傳遞我們背后思考的同時,希望給更多GNN方向的研究者帶去便利,也希望感興趣的同學(xué)加入我們,共同打造GNN的影響力并落地到實際應(yīng)用。

總結(jié)

以上是生活随笔為你收集整理的AliGraph:一个工业级的图神经网络平台的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 国产高清在线免费观看 | 日本中文字幕高清 | 伊人快播| 国产精品suv一区二区三区 | 亚洲精品v | 狠狠操网站 | v片在线免费观看 | 成人免费看高清电影在线观看 | 日本老妇性生活 | 中文字幕在线国产 | 国模吧一区二区三区 | 黄色网页免费看 | 亚洲国产v| 最好看的mv中文字幕国语电影 | 国产成人无码一区二区在线观看 | 四虎影视av | 最色网站 | 三级黄色免费网站 | 亚洲少妇xxx | 国产性xxx | 亚洲av无码国产在丝袜线观看 | 公与妇乱理三级xxx www色 | 91性高潮久久久久久久久 | 欧美性生活一级 | www.国产一区二区三区 | 国产成人精品无码免费看夜聊软件 | 福利视频免费观看 | 欧洲精品一区二区三区 | 久草福利在线 | 欧洲av一区| 深夜免费视频 | 色偷偷一区二区三区 | 黄视频国产 | 97久久精品视频 | 狠狠操人人干 | 成都免费高清电影 | 99精品成人 | 天天摸天天| 久草资源在线观看 | 亚洲视频456 | 精品人妻少妇AV无码专区 | 99久免费精品视频在线观78 | 日韩性大片| 最黄一级片 | 日韩黄 | 中文字幕22页 | 奇米网7777 | www天天操 | 无码国产69精品久久久久网站 | 日本网站在线 | 欧美日韩在线观看一区二区 | 国产麻豆一区二区三区 | 天天综合久久综合 | 中文字幕超清在线免费观看 | 精品国产亚洲AV | 奇米网狠狠干 | 久久久久久99精品 | 嫩模被强到高潮呻吟不断 | 天天超碰 | 日本jizzjizz| 伊人7 | 美女写真福利视频 | 亚洲一区二区中文 | 免费观看h片 | 欧洲成人午夜精品无码区久久 | 久久字幕| 亚洲欧美一区二区在线观看 | 久久久久久久久久99精品 | 97国产免费 | av网站地址 | 精品毛片一区二区三区 | 伊人久久久久噜噜噜亚洲熟女综合 | 黄色午夜网站 | av激情久久 | 麻豆射区| 国产成人免费观看 | 欧美日韩免费高清一区色橹橹 | 性生生活大片又黄又 | 高清福利视频 | 中国zzji女人高潮免费 | 91久久国产综合久久91精品网站 | 91高清视频在线 | 邻居少妇张开腿让我爽了在线观看 | 一级黄色片在线免费观看 | 日日撸夜夜操 | 护士的小嫩嫩好紧好爽 | 2023毛片 | 毛片网站在线 | 91青青操 | 亚洲欧美综合视频 | 免费久久一级欧美特大黄 | 红桃视频成人在线 | 俺去草| 无码人妻一区二区三区精品视频 | 在线观看免费视频一区二区 | 精品无码久久久久成人漫画 | 成人无码av片在线观看 | 精品人妻无码一区二区三区蜜桃一 | 五月婷婷激情综合 |