日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【SDCC 2016·杭州站】9月22日大数据实战专场精彩呈现

發(fā)布時間:2025/7/25 编程问答 34 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【SDCC 2016·杭州站】9月22日大数据实战专场精彩呈现 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

http://geek.csdn.net/news/detail/103266


【SDCC 現(xiàn)場報道】2016年9月22日-23日,由CSDN重磅打造的大數(shù)據(jù)核心技術(shù)與實戰(zhàn)峰會、互聯(lián)網(wǎng)應(yīng)用架構(gòu)實戰(zhàn)峰會在杭州隆重舉行。這兩場峰會大牛講師來自唯品會、小米、蘑菇街、餓了么、有贊、游族、echo、In、萬達(dá)、百度、蘇寧、螞蟻金服、京東、網(wǎng)易云、 1藥網(wǎng)、 騰訊、美團等知名互聯(lián)網(wǎng)公司,共同探討海量數(shù)據(jù)下的應(yīng)用監(jiān)控系統(tǒng)建設(shè)、異常檢測的算法和實現(xiàn)、大數(shù)據(jù)基礎(chǔ)架構(gòu)實踐、敏捷型數(shù)據(jù)平臺的構(gòu)建及應(yīng)用、音頻分析的機器學(xué)習(xí)算法應(yīng)用等內(nèi)容,以及高可用/高并發(fā)/高性能系統(tǒng)架構(gòu)、電商架構(gòu)、分布式架構(gòu)等話題與技術(shù)。

在第一天的大數(shù)據(jù)核心技術(shù)與實戰(zhàn)峰會上,由來自唯品會、小米、蘑菇街、餓了么、有贊、游族、echo、In、萬達(dá)的資深專家分享了各自在大數(shù)據(jù)領(lǐng)域豐富的實戰(zhàn)經(jīng)驗。

上午9:00,大數(shù)據(jù)核心技術(shù)與實戰(zhàn)峰會正式開始。首先,由本次會議的獨家合作伙伴UCloud的杭州分公司架構(gòu)部負(fù)責(zé)人林超發(fā)表致辭,他介紹了大數(shù)據(jù)市場火熱的發(fā)展前景,并預(yù)祝本次大會圓滿成功。

UCloud杭州分公司架構(gòu)部負(fù)責(zé)人 林超

隨后,本場峰會主持人七牛云技術(shù)總監(jiān)陳超對本次會議主題及內(nèi)容專家做了介紹,在他的引導(dǎo)下,與會者一同簡單回顧了SDCC往屆大會及峰會的精彩歷程,SDCC成都站之行的火爆讓現(xiàn)場觀眾對本次大會的順利展開更是充滿期待。

七牛云技術(shù)總監(jiān) 陳超(左)

唯品會平臺架構(gòu)部高級架構(gòu)師 姚捷:大型互聯(lián)網(wǎng)公司海量數(shù)據(jù)下的應(yīng)用監(jiān)控系統(tǒng)建設(shè)

唯品會平臺架構(gòu)部高級架構(gòu)師姚捷在本次架構(gòu)峰會上帶來的是《大型互聯(lián)網(wǎng)公司海量數(shù)據(jù)下的應(yīng)用監(jiān)控系統(tǒng)建設(shè)》主題分享,他結(jié)合唯品會面對支撐海量數(shù)據(jù)和新業(yè)務(wù)的挑戰(zhàn)的實踐,探索大型互聯(lián)網(wǎng)公司海量數(shù)據(jù)下的應(yīng)用監(jiān)控系統(tǒng)建設(shè)之道。主要從大型互聯(lián)網(wǎng)公司應(yīng)用監(jiān)控系統(tǒng)的幾大組成部分、應(yīng)用監(jiān)控系統(tǒng)的架構(gòu)實踐、如何應(yīng)對海量的數(shù)據(jù)、如何實現(xiàn)治理、如何實現(xiàn)自監(jiān)控這五個角度展開,分享了唯品會在經(jīng)歷了Logview之痛后,轉(zhuǎn)而尋求新方向,獨立研發(fā)應(yīng)用監(jiān)控系統(tǒng)的過程中,積累的豐富經(jīng)驗以及當(dāng)中踩過的一些坑。

首先,姚捷闡述了在選擇自建平臺的過程中所考慮的因素:

  • 系統(tǒng)復(fù)雜
  • 海量數(shù)據(jù)
  • 自建服務(wù)化體系監(jiān)控
  • 高度可治理
  • 快速接入/升級便捷
  • 靈活的告警策略/高效告警
  • 與公司體系無縫對接

唯品會平臺架構(gòu)部高級架構(gòu)師 姚捷

此外,他還分析了完整的全鏈路監(jiān)控系統(tǒng)

  • 數(shù)據(jù)埋點/采集
  • 指標(biāo)計算
  • 指標(biāo)存儲/查詢/展現(xiàn)
  • 調(diào)用鏈存儲/查詢/展現(xiàn)
  • 告警/問題定位
  • 自監(jiān)控
  • 治理

小米商業(yè)產(chǎn)品部技術(shù)總監(jiān) 宋強:小米廣告大數(shù)據(jù)與算法實踐

小米商業(yè)產(chǎn)品部技術(shù)總監(jiān)宋強分享了《小米廣告大數(shù)據(jù)與算法實踐》的主題演講,主要從小米大數(shù)據(jù)和小米廣告平臺、小米廣告大數(shù)據(jù)應(yīng)用實踐,以及經(jīng)驗總結(jié)這三個方面進行分享,分別介紹大數(shù)據(jù)在小米廣告平臺的各種實踐,包括收入提升、廣告主優(yōu)化、用戶體驗優(yōu)化等。

小米商業(yè)產(chǎn)品部技術(shù)總監(jiān) 宋強(右)

首先,他在第一個部分講解了小米廣告平臺的架構(gòu):

在演講最后,宋強結(jié)合前面的實踐和踩坑分享,做了一些經(jīng)驗總結(jié):

特征工程

  • 業(yè)務(wù)相關(guān)的用戶行為特征一般來說最有效

    • 用戶在商店的安裝列表 vs 用戶的年齡性別
  • 保持?jǐn)?shù)據(jù)的“原汁原味”,二次加工反而容易丟失信息

    • 用戶瀏覽記錄 vs 用戶畫像興趣標(biāo)簽
  • 組合特征才能發(fā)揮最大威力

算法模型

  • 線性模型+組合特征效果很好

    • 離線實驗了FM等非線性模型,效果不明顯
  • 線性模型+深度模型是未來的方向

    • 正在線下實驗,已經(jīng)看到一些效果

蘑菇街實時計算平臺經(jīng)理 黃大鵬:蘑菇街實時數(shù)據(jù)平臺實踐

蘑菇街實時計算平臺經(jīng)理黃大鵬在本次演講中呈現(xiàn)的分享主題是《蘑菇街實時數(shù)據(jù)平臺實踐》。著眼于蘑菇街的實時數(shù)據(jù)平臺,結(jié)合實時數(shù)倉的建設(shè)經(jīng)驗,分析其建設(shè)中涉及的關(guān)鍵技術(shù)選型思路與,主要分享內(nèi)容涉及蘑菇街實時計算平臺Mario,數(shù)據(jù)鏈路的治理和不同的應(yīng)用場景的介紹。

蘑菇街實時計算平臺經(jīng)理 黃大鵬

鑒于Storm任務(wù)開發(fā)維護難度相對較大、統(tǒng)計邏輯可讀性差、大量統(tǒng)計任務(wù),以及基礎(chǔ)統(tǒng)計方法非常相似等因素,Mario流式計算平臺應(yīng)運而生。黃大鵬在演講過程中對其系統(tǒng)架構(gòu)進行了分析:

在介紹最后一部分內(nèi)容時,他闡述了實時數(shù)倉管理的要點:

  • ETL的管理
  • 數(shù)據(jù)接口層
  • 數(shù)據(jù)質(zhì)量監(jiān)控
  • 日志打點

其中,實時數(shù)據(jù)ETL包括:

  • 大日志拆解成小日志,各取所需,合并同類項
  • 非結(jié)構(gòu)化轉(zhuǎn)為結(jié)構(gòu)化
  • 日志質(zhì)量監(jiān)控
  • 生存周期管理

同時總結(jié)了日志打點的經(jīng)驗:

  • 頂層設(shè)計,統(tǒng)一認(rèn)知;
  • 合作共建,及時見效;
  • 接口人制度。
  • 餓了么數(shù)據(jù)架構(gòu)技術(shù)經(jīng)理 倪增光:餓了么大數(shù)據(jù)基礎(chǔ)架構(gòu)實踐

    餓了么數(shù)據(jù)架構(gòu)技術(shù)經(jīng)理倪增光在本次演講中帶來《餓了么大數(shù)據(jù)基礎(chǔ)架構(gòu)實踐》的主題分享,結(jié)合“餓了么”數(shù)據(jù)團隊的發(fā)展歷程,側(cè)重分享其數(shù)據(jù)架構(gòu)在離線、實時和工具方面的建設(shè)經(jīng)驗。

    餓了么數(shù)據(jù)架構(gòu)技術(shù)經(jīng)理 倪增光

    首先,他詳細(xì)講解了“餓了么”的離線架構(gòu)和實時架構(gòu):

    隨后,他還圍繞平臺工具展開了一系列分享:

    查詢平臺

    • 多引擎
    • 數(shù)據(jù)操作
    • 底層策略

    ETL調(diào)度

    • 任務(wù)
    • 底層工具support
    • 前端操作
    • 后端調(diào)度優(yōu)化

    實時平臺RDP

    • 集群容量
    • 任務(wù)管理
    • 任務(wù)日志
    • 常用組件封裝

    至此,本次峰會上半場在熱烈的氛圍中暫告一段落,接連超過三個小時的分享并未影響與會者的參與熱情,相反,大牛們的精彩分享反而再一次點燃了大家的情緒,現(xiàn)場互動氣氛一度高漲。

    短暫的休息之后,我們迎來了本場大數(shù)據(jù)核心技術(shù)與實戰(zhàn)峰會的下半場。下午13:30,大數(shù)據(jù)核心技術(shù)與實戰(zhàn)峰會在七牛云技術(shù)總監(jiān)陳超的主持下繼續(xù)進行。來自有贊、游族、echo、In、萬達(dá)等資深專家分享在大數(shù)據(jù)領(lǐng)域的眾多實踐經(jīng)驗。

    午后的困頓也在講師們的幽默調(diào)動下一掃而空,上半場的互動熱情延得以延續(xù),一問一答間,盡是技術(shù)靈感的碰撞,亮點紛呈,干貨不斷。

    有贊大數(shù)據(jù)團隊負(fù)責(zé)人 洪斌:有贊大數(shù)據(jù)實踐: 敏捷型數(shù)據(jù)平臺的構(gòu)建及應(yīng)用

    有贊大數(shù)據(jù)團隊負(fù)責(zé)人洪斌帶來《敏捷型數(shù)據(jù)平臺的構(gòu)建及應(yīng)用》的主題演講,從數(shù)據(jù)倉庫模型與工具、數(shù)據(jù)倉庫與數(shù)據(jù)分析、數(shù)據(jù)平臺的敏捷模式、數(shù)據(jù)平臺與信息檢索等方面入手,為觀眾呈現(xiàn)了一個接地氣的,在數(shù)據(jù)運營和研發(fā)效率上都能發(fā)揮作用的大數(shù)據(jù)平臺。

    有贊大數(shù)據(jù)團隊負(fù)責(zé)人 洪斌

    首先,洪斌介紹了有贊數(shù)據(jù)平臺的設(shè)計思路和方法,探討了與此相關(guān)的一系列問題,包括我們?yōu)槭裁匆O(shè)計數(shù)據(jù)倉庫?數(shù)據(jù)倉庫如何適應(yīng)業(yè)務(wù)的變化?在數(shù)據(jù)的易用性方面有哪些措施?隨后,他介紹了構(gòu)建在數(shù)據(jù)倉庫上的BI系統(tǒng)及其應(yīng)用,以及大數(shù)據(jù)平臺在搜索引擎方面的實踐。

    在講解數(shù)倉模型設(shè)計總體架構(gòu)的過程中,他還特別介紹了采用的數(shù)據(jù)分析工具,并提供了數(shù)據(jù)分析各種工具的對比列表,同時指出其中最常用的當(dāng)屬即席查詢:

    數(shù)據(jù)分析工具

    • 即席查詢工具
    • 多維分析工具
    • 搜索分析工具
    • 報表系統(tǒng)

    即席查詢

    • 使用者: 數(shù)據(jù)分析人員
    • SQL模式
    • 特點
      • 專業(yè)
      • 迅速
    • 挑戰(zhàn)
      • 懂?dāng)?shù)據(jù)
      • 懂業(yè)務(wù)

    游族網(wǎng)絡(luò)運維開發(fā)經(jīng)理 姚仁捷:Machine Learning in Anomaly Detection

    游族網(wǎng)絡(luò)運維開發(fā)經(jīng)理 姚仁捷分享了《Machine Learning in Anomaly Detection》的主題分享。正式開始演講之前,他以詼諧的口吻和在座觀眾分享了自己的日常,成功調(diào)動了大家的情緒,活躍了現(xiàn)場氣氛。隨后,由一組圖片引入“異常”——“正常”的邏輯關(guān)系分析,引用《Practical Machine Learning》一書中的觀點,指出定位異常的前提是定義何為正常,同時分享了兩個等式:

    • Normals = Patterns
    • Normals = Models

    發(fā)現(xiàn)問題、解決問題是運維永恒不變的兩個主題。而如何發(fā)現(xiàn)問題,是其中的難點和重點。運維收集的數(shù)據(jù)可能數(shù)以百萬計,如何從其中快速、準(zhǔn)確地發(fā)現(xiàn)問題(即異常檢測)正是本次演講的主要內(nèi)容。

    游族網(wǎng)絡(luò)運維開發(fā)經(jīng)理 姚仁捷

    演講有三個部分,首先從更加抽象、一般性的角度介紹異常本身以及異常檢測的定義。

    然后,從“靜態(tài)閾值法”開始,介紹多種異常檢測的算法和實現(xiàn),希望能通過更數(shù)學(xué)的方式,讓大家對目前流行的幾種異常檢測方法的優(yōu)缺點有所了解。

    在這一部分提供了重建的誤差分析圖,以及誤差的正態(tài)分布表:

    最后一部分會著重介紹使用機器學(xué)習(xí)的方法,介紹一些對異常檢測有很大提升的算法,通過真實數(shù)據(jù)和例子,演示機器學(xué)習(xí)對于異常檢測的幫助。由深入淺的分享過程,正對應(yīng)了他在演講中多次笑言的那一句“超簡單”。

    echo數(shù)據(jù)組算法工程師 陳健:echo探索個性化推薦和版權(quán)識曲之路

    echo數(shù)據(jù)組算法工程師陳健帶來《echo探索個性化推薦和版權(quán)識曲之路》主題分享,從echo個性化推薦和echo音樂分析兩方面展開,分析如何處理隱式音樂App等隱式數(shù)據(jù)來進行矩陣分解、如何在Spark上并行l(wèi)ogistic matrix factorization來處理超大的稀疏矩陣、音樂分析綜述,以及如何通過頻譜抽取音頻本地特征并根據(jù)深度學(xué)習(xí)等算法學(xué)習(xí)全局音頻的特征。

    echo數(shù)據(jù)組算法工程師 陳健(右)

    首先,他具體闡釋了通過App用戶的播放、喜歡、分享、下載、評論等行為隱式數(shù)據(jù),使用logistic matrix factorization模型,獲取用戶的特征向量和音樂的特征向量的方法,并對隱式反饋數(shù)據(jù)做了介紹:

    隱式反饋數(shù)據(jù)

    • 特征

      • 無負(fù)反饋
      • 反饋數(shù)據(jù)存在多種維度
      • 數(shù)據(jù)存在噪音
      • 數(shù)據(jù)大小不能代表用戶的喜好程度
    • 觀測值

      • fongshi

    此外,為了檢測用戶上傳的歌曲是否屬于未收錄版權(quán)的歌曲,通過分析音樂的音頻,進行頻譜變換以及特征學(xué)習(xí),生成對應(yīng)的音頻指紋。然后根據(jù)音頻指紋判斷用戶上傳歌曲是否侵權(quán)。音頻指紋流程如下:

    In架構(gòu)師 張毅:支持億級用戶,In數(shù)據(jù)服務(wù)的架構(gòu)演進

    In架構(gòu)師張毅本次峰會的演講主題是《支持億級用戶,In數(shù)據(jù)服務(wù)的架構(gòu)演進》,分享了in數(shù)據(jù)服務(wù)(即大數(shù)據(jù))從初創(chuàng)到支持億級用戶, 從單點服務(wù)到高可用集群服務(wù), 從簡單CRUD到融合實時大數(shù)據(jù)挖掘推薦的演變過程, 以及這一過程中的經(jīng)驗和教訓(xùn)等實踐細(xì)節(jié)。

    以架構(gòu)演進為藍(lán)本,首先從in的業(yè)務(wù)組成出發(fā),再到in的數(shù)據(jù)服務(wù),最后到in的數(shù)據(jù)服務(wù)架構(gòu)演進硬件網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),一步步講解億級用戶下,In大數(shù)據(jù)的架構(gòu)。

    In架構(gòu)師 張毅

    演講過程中,他從In第一代數(shù)據(jù)服務(wù)講起,分析歷代數(shù)據(jù)服務(wù)的有點和局限性,其中第三代為In現(xiàn)在所采用的數(shù)據(jù)服務(wù):

    • 業(yè)務(wù)挑戰(zhàn):

      • 數(shù)據(jù)量和訪問量激增
      • 基于大數(shù)據(jù)的推薦
    • 數(shù)據(jù)服務(wù)設(shè)計原則

      • 業(yè)務(wù)滿足優(yōu)先
      • 大幅重構(gòu)
      • 滿足長遠(yuǎn)需求
    • 數(shù)據(jù)服務(wù)組成:

      • 存儲: MySQL, BanyanDB, 數(shù)據(jù)倉庫
      • 計算: Spark
      • 流轉(zhuǎn): Flume, ELK, RunDeck
    • 數(shù)據(jù)服務(wù)架構(gòu)

    • 優(yōu)點:

      • 支持中等規(guī)模大數(shù)據(jù)處理
      • 自動化水平大幅提升
    • 缺點:

      • 大規(guī)模大數(shù)據(jù)處理能力不足
      • 訪問接口復(fù)雜, 對業(yè)務(wù)方要求較高

    同時他還指出,目前正處于第三代向第四代遷移的過程中,而In第四代數(shù)據(jù)服務(wù)的設(shè)計目標(biāo)是:

    • 支持大規(guī)模大數(shù)據(jù)處理
    • 建立統(tǒng)一數(shù)據(jù)訪問層

    演講最后,張毅對本次分享內(nèi)容做了一個總結(jié):

  • 按需設(shè)計, 保持模塊間低耦合狀態(tài);
  • 服務(wù)逐步疊加, 減少殺雞用牛刀的設(shè)計;
  • 業(yè)務(wù)變化速度總是超出預(yù)期的, 數(shù)據(jù)服務(wù)架構(gòu)需要保持?jǐn)U展能力并不斷重構(gòu)。
  • 萬達(dá)金融網(wǎng)絡(luò)技術(shù)中心大數(shù)據(jù)技術(shù)專家 李呈祥:Apache Flink在萬達(dá)金融的實踐

    萬達(dá)金融網(wǎng)絡(luò)技術(shù)中心大數(shù)據(jù)技術(shù)專家李呈祥帶了主題為《Apache Flink在萬達(dá)金融的實踐》的技術(shù)分享,他主要從萬達(dá)金融基于Apache Flink相關(guān)的項目、為什么選擇Flink搭建流計算平臺、在使用Flink的過程中遇到的問題和一些使用經(jīng)驗三個方面進行分析,結(jié)合Apache Flink在金融領(lǐng)域的應(yīng)用實踐,指出Apache Flink的功能特性及其與其他流計算框架的不同之處。

    萬達(dá)金融網(wǎng)絡(luò)技術(shù)中心大數(shù)據(jù)技術(shù)專家 李呈祥

    演講開始之初,他首先介紹了萬達(dá)金融基于流計算平臺的項目:

    • 數(shù)字權(quán)益交易平臺

    • 實時風(fēng)控平臺基本架構(gòu)
    • 實時風(fēng)控計算平臺設(shè)計指標(biāo)

    同時,他闡釋了選擇流式計算平臺的原因包括:

    • 正確性,交易平臺要求各階段的輸出結(jié)果絕對正確;
    • 功能完備性,各種復(fù)雜的行情統(tǒng)計功能,需要基于Event Time Window、Evictor等功能特性;
    • 低延遲,要求100ms級別的延遲,實時返回風(fēng)控結(jié)果;
    • 易用性,基于CEP庫等實現(xiàn)規(guī)則模型;
    • 高吞吐量,滿足大批量的數(shù)據(jù)索引需求;
    • 易用性,ES Connector等可方便連接ES。

    此外,李呈祥還從功能特性、延遲和吞吐量等性能指標(biāo)出發(fā),分析對比Flink、Spark和Storm,進一步揭示萬達(dá)選擇Flink搭建流式計算平臺的原因:

    在最后一組問答中,本場大數(shù)據(jù)峰會也接近尾聲,與會者在此通過SDCC的平臺進行交流切磋,在get豐富干貨的同時,更是表達(dá)了對明天架構(gòu)峰會的更高期望。

    總結(jié)

    以上是生活随笔為你收集整理的【SDCC 2016·杭州站】9月22日大数据实战专场精彩呈现的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。