日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

SDCC 2015算法专场札记:知名互联网公司的算法实践

發(fā)布時間:2025/7/25 编程问答 30 豆豆
生活随笔 收集整理的這篇文章主要介紹了 SDCC 2015算法专场札记:知名互联网公司的算法实践 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

SDCC 2015算法專場札記:知名互聯(lián)網(wǎng)公司的算法實(shí)踐

發(fā)表于4小時前|526次閱讀| 來源作者投稿|0 條評論| 作者張俊林

SDCC算法架構(gòu)大數(shù)據(jù)京東騰訊 摘要:11月21日,為期三天的SDCC2015中國軟件開發(fā)者大會成功閉幕,我們特邀請了業(yè)內(nèi)專家、與會者分享他們的聽課感受及他們眼中的算法專場。本文是來自暢捷通公共服務(wù)部總監(jiān)張俊林的參加算法專場的聽課札記,以饗讀者。

【編者按】11月21日,為期三天的SDCC2015中國軟件開發(fā)者大會成功閉幕,主辦方總計(jì)邀請了95余位演講嘉賓,為參會者奉獻(xiàn)了10個主題演講,9大技術(shù)專場論壇(80余場技術(shù)演講),另外還有5場特色活動。另外,據(jù)官方統(tǒng)計(jì)參會人數(shù)高達(dá)1067名(不含工作人員)。其中21日的算法專場,現(xiàn)場聽講人數(shù)一度爆滿,而沒有機(jī)會親臨現(xiàn)場的童鞋們,我們特邀請了業(yè)內(nèi)專家、與會者分享他們的聽課感受及他們眼中的算法專場。以下是來自暢捷通公共服務(wù)部總監(jiān)張俊林的參加算法專場的聽課札記,以饗讀者。日前,筆者也采訪了算法大牛張俊林,內(nèi)容詳實(shí),文章:《專訪張俊林:十年程序員的感悟與算法之路》。

另外,我們在算法專場舉辦的當(dāng)天也做了直播,大家也不妨一看我們的視角:【SDCC 2015現(xiàn)場】算法實(shí)踐論壇(上):網(wǎng)易、京東、騰訊的算法優(yōu)化實(shí)踐、【SDCC 2015現(xiàn)場】算法實(shí)踐論壇(下):解讀大數(shù)據(jù)創(chuàng)新與個性化算法系統(tǒng)。

以下為張俊林的聽課札記:

2015年11月19-21日,由CSDN重磅打造的2015中國軟件開發(fā)者大會在西山附近的朗麗姿西山花園酒店舉行,盡管當(dāng)天下著小雨,氣候陰冷,但是會場內(nèi)氣氛十分熱烈。

來自阿里巴巴、騰訊、京東、愛奇藝、美團(tuán)等互聯(lián)網(wǎng)公司的算法專家在算法實(shí)踐分論壇分享了各自的技術(shù)經(jīng)驗(yàn)。

網(wǎng)易技術(shù)副總監(jiān)鞠奇:Query優(yōu)化實(shí)踐

來自網(wǎng)易的鞠奇分享了之前在電子商務(wù)網(wǎng)站當(dāng)當(dāng)工作時有關(guān)搜索引擎查詢優(yōu)化的一些工作。搜索引擎有些查詢會搜不到結(jié)果,為了改善搜索體驗(yàn),此時搜索引擎會對用戶查詢進(jìn)行智能改寫,對無搜索結(jié)果的查詢進(jìn)行形式上的變換來改善搜索體驗(yàn)。

對于高頻的無搜索結(jié)果查詢來說,因?yàn)橛写罅康挠脩舨樵內(nèi)罩究梢杂靡酝诰?#xff0c;所以一般可以將查詢改寫看作一個排序問題。首先根據(jù)一定手段找出與無搜索結(jié)果查詢語義相近的候選查詢集合,一般通過對搜索引擎用戶搜索日志進(jìn)行“Session切分”,找出和無搜索結(jié)果查詢共獻(xiàn)高的其它查詢來構(gòu)造這個候選集。第二步就是如何對這些候選集內(nèi)的查詢串進(jìn)行排序的問題。鞠奇介紹了兩種排序機(jī)制,一種是無監(jiān)督的基于特征對候選查詢進(jìn)行投票的方式,另外一種是采用有監(jiān)督的機(jī)器學(xué)習(xí)排序(Learning?to?Rank)。而最典型的特征包括無搜索結(jié)果查詢和候選查詢之間的字面相似性、兩者在Session中的距離、候選查詢的熱門程度等。

對于長尾的無搜索結(jié)果查詢來說,因?yàn)樗阉鞯挠脩羯?#xff0c;所以可以直接利用的用戶行為數(shù)據(jù)很有限。對于這種情況,鞠奇介紹了他們提出的“最大權(quán)重,最小距離”的查詢改寫思路。基本思想是首先把無搜索結(jié)果查詢中的單詞根據(jù)類似于TFIDF的思路進(jìn)行賦權(quán),保留高權(quán)值單詞,然后根據(jù)這些保留特征詞找到其它語義相近的查詢集合,計(jì)算這些查詢和無搜索結(jié)果查詢的語義距離,選擇語義距離最近的作為改寫后的查詢。

京東商城搜索推薦部總監(jiān)劉思喆:京東商城推薦系統(tǒng)應(yīng)用實(shí)踐

推薦系統(tǒng)在電子商務(wù)網(wǎng)站的廣泛使用是個常態(tài),京東商城也不例外,目前京東已有80多款推薦產(chǎn)品,遍布用戶網(wǎng)購的各個環(huán)節(jié)都存在相應(yīng)的推薦服務(wù)。京東搜索推薦部總監(jiān)劉思喆介紹了京東商城推薦系統(tǒng)的使用狀況,其整體體系結(jié)構(gòu)如圖1所示,這是一個非常典型的工業(yè)界推薦系統(tǒng)架構(gòu)。由以HDFS作為基礎(chǔ)存儲平臺的離線挖掘系統(tǒng)、用戶行為實(shí)時收集并處理的近線系統(tǒng)及在線推薦服務(wù)構(gòu)成,推薦平臺提供了K近鄰、矩陣分解、圖模型等常見的推薦模型。劉思喆重點(diǎn)介紹了在將商品放入購物車后推薦相關(guān)商品這一場景下如何使用CTR預(yù)估的方式進(jìn)行推薦功能的開發(fā)。


圖1 京東商城推薦系統(tǒng)架構(gòu)

騰訊廣點(diǎn)通核心工程師嚴(yán)浩:Peacock:大規(guī)模主題模型及其在騰訊業(yè)務(wù)中的應(yīng)用

以LDA為代表的主題模型(圖2)在實(shí)際應(yīng)用中有很廣泛的用途,可以用來對文檔的隱含語義進(jìn)行建模,從而用來推導(dǎo)文檔所屬語義類別概率分布。但是LDA存在計(jì)算速度慢、很難處理大規(guī)模數(shù)據(jù)、Topic數(shù)量受限等若干實(shí)際使用中的問題。學(xué)術(shù)界和工業(yè)界也一直致力于對這些問題進(jìn)行改進(jìn),典型的例子比如SparseLDA/LightLDA等。Peacock是騰訊在主題模型方面改進(jìn)的技術(shù)方案,騰訊廣點(diǎn)通核心工程師嚴(yán)浩介紹了主題模型的基本推導(dǎo)思路以及Peacock是如何對LDA面臨的問題進(jìn)行改進(jìn)的,并介紹了Peacock在騰訊的廣告相關(guān)性計(jì)算、QQ群推薦及文本語義分析等應(yīng)用的實(shí)際使用。

為了提升LDA的Gibbs采樣計(jì)算效率,Peacock采用SparseLDA來進(jìn)行采樣,速度比常規(guī)LDA提升30倍。對于大規(guī)模文檔處理,則聯(lián)合采用了數(shù)據(jù)并行及模型并行思路,采用大規(guī)模并行處理機(jī)制,能夠支持億維級別的超大規(guī)模矩陣分解,且能計(jì)算百萬級別的不同主題。通過這些改進(jìn),切實(shí)改進(jìn)了傳統(tǒng)LDA的實(shí)際可使用性。


圖2 LDA主題模型

TalkingData首席數(shù)據(jù)科學(xué)家張夏天:隨機(jī)非參數(shù)學(xué)習(xí)算法簡介

隨機(jī)決策樹方法是由Wei Fan等人提出的一種不包含屬性選擇過程的決策樹方法,也被稱作隨機(jī)樹集成方法。隨機(jī)決策樹作為一種不含有任何屬性選擇的決策樹構(gòu)建方法,不僅可以作為一種分類和回歸方法使用,還可以作為集成學(xué)習(xí)中的基學(xué)習(xí)器使用。相對隨機(jī)決策樹,隨機(jī)決策森林是一種實(shí)踐中更經(jīng)常使用的常用集成學(xué)習(xí)算法,兩者特性對比可參考圖3。TalkingData首席數(shù)據(jù)科學(xué)家張夏天在講座中重點(diǎn)根據(jù)自身經(jīng)驗(yàn)講解了使用哈希函數(shù)確定特征的方式來對隨機(jī)決策樹及隨機(jī)決策哈希函數(shù)算法進(jìn)行高速并行改造,來快速提升算法效率。


圖3 算法比較

阿里巴巴搜索事業(yè)部算法專家嚴(yán)強(qiáng):個性化算法IN雙11

2015年雙11天貓成交量高達(dá)912億,移動端占比68.67%,其中各個平臺的個性化推薦功能對于促進(jìn)成交量起了非常重要的作用。來自阿里巴巴的算法專家嚴(yán)強(qiáng)介紹了支持阿里集團(tuán)1000多個應(yīng)用場景的電商個性化平臺TPP(參考圖4),該平臺具備易用且開發(fā)效率高、算法迭代效率高、及時反饋等優(yōu)點(diǎn)。

嚴(yán)強(qiáng)重點(diǎn)介紹了其中的個性化推薦框架eTREC和實(shí)時排序框架Olive。eTREC是一個通用的協(xié)同過濾開發(fā)框架,封裝了基于用戶和基于商品的KNN算法以及基于內(nèi)容的推薦算法,并對相似性計(jì)算等常用計(jì)算函數(shù)做了抽象,這使得該框架既具有快速開發(fā)推薦算法的優(yōu)勢,比如可以一行代碼實(shí)現(xiàn)協(xié)同過濾算法;又具有根據(jù)用戶需求定制算法的可能;同時通過優(yōu)化底層的MapReduce算法,使得框架運(yùn)算效率更高。Olive是一個融合了實(shí)時流計(jì)算和在線學(xué)習(xí)的近實(shí)時機(jī)器學(xué)習(xí)系統(tǒng),采用了典型的參數(shù)服務(wù)器架構(gòu),與MPI方案比,Olive無論在計(jì)算資源的節(jié)省方面還是訓(xùn)練速度方面都有大幅提升。


圖4 阿里個性化算法系統(tǒng)

美團(tuán)網(wǎng)數(shù)據(jù)組技術(shù)專家付晴川:機(jī)器學(xué)習(xí)在用戶畫像上的應(yīng)用

利用用戶的各種行為數(shù)據(jù)來對用戶進(jìn)行畫像,通過用戶畫像深入了解用戶的各方面特點(diǎn),并使用用戶畫像來給用戶推薦更加個性化和精準(zhǔn)的產(chǎn)品和服務(wù),這也是目前的一個產(chǎn)品發(fā)展潮流。來自美團(tuán)的數(shù)據(jù)技術(shù)專家付晴川介紹了在O2O應(yīng)用場景下如何利用機(jī)器學(xué)習(xí)技術(shù)來對用戶進(jìn)行畫像(圖5)。

同樣的,美團(tuán)用戶畫像挖掘系統(tǒng)也采用了大量的Hadoop生態(tài)系統(tǒng)產(chǎn)品,比如Flume/kafka等數(shù)據(jù)收集與分發(fā)系統(tǒng),使用Spark和MR等計(jì)算系統(tǒng)來進(jìn)行特征挖掘,使用Spark?MLLib/SKLearn/LibSVM等機(jī)器學(xué)習(xí)工具來進(jìn)行算法開發(fā)等。通過挖掘出的用戶畫像標(biāo)簽,在實(shí)際O2O產(chǎn)品中發(fā)揮了重要作用,比如“用戶是否有車”這一標(biāo)簽應(yīng)用在具體產(chǎn)品中使得下單率提升了5倍。


圖5?美團(tuán)用戶畫像的應(yīng)用場景

愛奇藝視頻推薦系統(tǒng)專家王敏:愛奇藝推薦系統(tǒng)架構(gòu)與實(shí)踐

推薦系統(tǒng)目前已經(jīng)在愛奇藝中發(fā)揮了非常重要的作用,覆蓋了各種終端的數(shù)十種應(yīng)用場景,日均貢獻(xiàn)3.5億點(diǎn)擊量,占愛奇藝所有流量的30%。來自愛奇藝的推薦系統(tǒng)專家王敏分享了愛奇藝視頻推薦系統(tǒng)的技術(shù)架構(gòu)以及一些典型應(yīng)用場景。

愛奇藝推薦系統(tǒng)也采用了典型工業(yè)推薦系統(tǒng)的技術(shù)架構(gòu)(圖6),由離線數(shù)據(jù)處理系統(tǒng)、近線準(zhǔn)實(shí)時計(jì)算系統(tǒng)以及在線實(shí)時推薦三個部分構(gòu)成。同時,他們也大量采用了Hadoop生態(tài)系統(tǒng)的開源系統(tǒng),比如使用Flume進(jìn)行日志收集、Kafka用于數(shù)據(jù)分發(fā)、HDFS和HBase存儲不同類型的數(shù)據(jù)、使用Storm和Spark進(jìn)行推薦邏輯計(jì)算等。


圖6 愛奇藝推薦系統(tǒng)技術(shù)架構(gòu)

時趣首席科學(xué)家王緒剛:如何利用“圖計(jì)算”實(shí)現(xiàn)大規(guī)模實(shí)時預(yù)測分析

社交挖掘也是目前比較火的一個研發(fā)方向,來自時趣的首席科學(xué)家王緒剛介紹了如何通過社交分析準(zhǔn)確刻畫用戶特征,并應(yīng)用在精準(zhǔn)營銷等商業(yè)場景(圖7)。他重點(diǎn)介紹了自主研發(fā)的對消費(fèi)者行為數(shù)據(jù)處理的實(shí)時圖計(jì)算引擎CrowdGraph的技術(shù)發(fā)展歷程,及其如何在社交場景下使用CrowdGraph挖掘用戶影響力、用戶親密度、用戶相似度等應(yīng)用實(shí)例。


圖7 社交挖掘商業(yè)應(yīng)用場景

(責(zé)編/錢曙光,關(guān)注架構(gòu)和算法領(lǐng)域,尋求報道或者投稿請發(fā)郵件qianshg@csdn.net,交流探討可加微信qshuguang2008,備注姓名+公司+職位)


「CSDN 算法學(xué)習(xí)交流群」,內(nèi)有SDCC 2015算法專場的講師等諸多算法大牛,如果你想進(jìn)群交流,請加微信qshuguang2008申請入群,備注姓名+公司+職位。


作者簡介:張俊林,暢捷通公共服務(wù)部總監(jiān),曾經(jīng)在阿里巴巴搜索技術(shù)中心、百度商務(wù)搜索部鳳巢廣告平臺以及新浪微博搜索部及數(shù)據(jù)系統(tǒng)部擔(dān)任資深技術(shù)專家,新浪微博技術(shù)委員會成員,負(fù)責(zé)算法策略方向。他還曾是智能信息聚合網(wǎng)站“玩聚網(wǎng)”的聯(lián)合創(chuàng)始人之一。

總結(jié)

以上是生活随笔為你收集整理的SDCC 2015算法专场札记:知名互联网公司的算法实践的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。