专栏导读:数据驱动的优化
點擊上方藍字關(guān)注我們
優(yōu)化是計算機科學(xué)和運籌學(xué)領(lǐng)域的一個分支,它研究在不同場景不同模型下達到最優(yōu)解的方法,在計算機工程和工業(yè)工程等領(lǐng)域有廣泛的應(yīng)用。傳統(tǒng)的優(yōu)化基于給定的模型及其參數(shù)的輸入。這些模型和參數(shù)通常是通過從領(lǐng)域知識中獲得的經(jīng)驗及對以往數(shù)據(jù)收集的結(jié)果進行分析獲得的,這屬于機器學(xué)習的范疇,即機器學(xué)習從收集的大量數(shù)據(jù)中總結(jié)出數(shù)據(jù)尊崇的模型和對應(yīng)的參數(shù)設(shè)置。現(xiàn)有的從數(shù)據(jù)到優(yōu)化結(jié)果的流程基本上先用機器學(xué)習學(xué)出模型和對應(yīng)的參數(shù),然后將模型和參數(shù)輸入一個基于模型的優(yōu)化算法得到優(yōu)化結(jié)果。該流程有“分而治之”的好處:機器學(xué)習和優(yōu)化有不同的技術(shù),傳統(tǒng)上也是兩個不同的計算機科學(xué)分支,由不同的領(lǐng)域?qū)<覍λ鼈冞M行研究。機器學(xué)習著重于從數(shù)據(jù)中提取和抽象出模型,優(yōu)化的任務(wù)是從學(xué)得的模型中找到最優(yōu)解。
但在大數(shù)據(jù)和人工智能時代,這樣的分工可能會帶來從數(shù)據(jù)端到優(yōu)化端整體性能的損失。Balkanski等人最近就指出有些優(yōu)化問題從采樣數(shù)據(jù)到模型的學(xué)習過程是可行的,從模型到優(yōu)化的過程也是可行的,但從采樣數(shù)據(jù)到優(yōu)化的端到端的目標卻是不可行的(BALKANSKI E, RUBINSTEIN A, SINGER Y.The limitations of optimization from samples[C]//Proceedings of the 49th Annual ACM SIGACT Symposium on Theory of Computing.New York: ACM Press, 2017: 1016-1027.)。這樣的結(jié)果看似反直觀,但它表達了機器學(xué)習和優(yōu)化兩個子任務(wù)潛在的不匹配問題。在大數(shù)據(jù)和人工智能的大背景下,很多應(yīng)用需要不斷地收集實時數(shù)據(jù),優(yōu)化的結(jié)果需要基于這些實時數(shù)據(jù),模型只是其中的一個過渡部分。我們把這樣的端到端的優(yōu)化稱為數(shù)據(jù)驅(qū)動的優(yōu)化。數(shù)據(jù)驅(qū)動的優(yōu)化在理論和應(yīng)用上都帶來了新的挑戰(zhàn)。本專欄請到了3組學(xué)者從理論和實踐的不同角度對數(shù)據(jù)驅(qū)動的優(yōu)化加以闡述。
在《基于樣本的優(yōu)化》一文中,張智杰等人詳細介紹了基于樣本的優(yōu)化框架,以及Balkanski等人(BALKANSKI E, RUBINSTEIN A, SINGER Y.The limitations of optimization from samples[C]//Proceedings of the 49th Annual ACM SIGACT Symposium on Theory of Computing.New York: ACM Press, 2017: 1016-1027.)在這個優(yōu)化框架下給出的學(xué)習和優(yōu)化不匹配導(dǎo)致的框架的局限性;然后介紹了突破這種局限性的幾個方案,其中包括作者提出的基于結(jié)構(gòu)化采樣的優(yōu)化方案,即利用數(shù)據(jù)中的結(jié)構(gòu)化信息將學(xué)習和優(yōu)化方案匹配,從而實現(xiàn)能達到良好優(yōu)化結(jié)果的端到端優(yōu)化算法。
孔芳等人撰寫的《基于優(yōu)化反饋的組合在線學(xué)習》較全面地總結(jié)了組合在線學(xué)習的研究方向。這一方向可以被看作對線性單向的從數(shù)據(jù)到優(yōu)化流程的有效改進。組合在線學(xué)習的關(guān)鍵步驟是加入了從優(yōu)化結(jié)果到數(shù)據(jù)采樣的反饋步驟,從而將單向流程變成帶反饋的閉環(huán)。通過反復(fù)地從數(shù)據(jù)到學(xué)習到優(yōu)化,再將優(yōu)化結(jié)果返回,用于指導(dǎo)下一輪的數(shù)據(jù)采樣,最終達到良好的優(yōu)化效果。組合在線學(xué)習是將組合優(yōu)化和在線學(xué)習很好結(jié)合的結(jié)果。文章總結(jié)了這個方向的基本框架和主要理論成果,對該方向的研究和應(yīng)用很有幫助。
王金予等人在《強化學(xué)習在資源優(yōu)化領(lǐng)域的應(yīng)用》中介紹了他們將強化學(xué)習應(yīng)用于資源優(yōu)化領(lǐng)域的若干實例。這些應(yīng)用的共同特點是都有大量數(shù)據(jù),因此要基于大量數(shù)據(jù)進行優(yōu)化。文章系統(tǒng)地介紹了如何對這些資源優(yōu)化問題進行建模,如何進行智能體設(shè)計等,從而幫助讀者學(xué)習如何通過數(shù)據(jù)驅(qū)動的方式進行資源優(yōu)化。
數(shù)據(jù)驅(qū)動的優(yōu)化是在大數(shù)據(jù)和人工智能時代做優(yōu)化和決策的大趨勢。它需要將數(shù)據(jù)采樣、機器學(xué)習和優(yōu)化有機地結(jié)合。本專欄的3篇文章肯定不能概括這個領(lǐng)域的所有方向,但希望它們作為一個引子,能激勵有興趣的研究者和實踐者進一步深入地探索這一方向,并在這一方向得到更豐碩的成果。
作者簡介
陳衛(wèi)(1968?),男,博士,微軟亞洲研究院首席研究員,中國科學(xué)院計算技術(shù)研究所客座研究員,中國計算機學(xué)會理論計算機科學(xué)專業(yè)委員會常務(wù)委員、大數(shù)據(jù)專家委員會委員,IEEEFellow,入選斯坦福大學(xué)全球前2%頂尖科學(xué)家榜單。主要研究方向為在線學(xué)習和優(yōu)化、社交和信息網(wǎng)絡(luò)、網(wǎng)絡(luò)博弈論和經(jīng)濟學(xué)、分布式計算、容錯等,在社交網(wǎng)絡(luò)影響力傳播和最大化以及組合在線學(xué)習方向做出了很多頗有影響力的工作,該方面論文被引次數(shù)已逾一萬次。在信息和影響力傳播方面,2013年合著一本英文專著,2020年獨立撰寫一本中文專著。擔任《大數(shù)據(jù)》等多個學(xué)術(shù)期刊的編委,并在多個學(xué)術(shù)會議中擔任過技術(shù)委員會主席和委員。
大數(shù)據(jù)期刊
《大數(shù)據(jù)(Big Data Research,BDR)》雙月刊是由中華人民共和國工業(yè)和信息化部主管,人民郵電出版社主辦,中國計算機學(xué)會大數(shù)據(jù)專家委員會學(xué)術(shù)指導(dǎo),北京信通傳媒有限責任公司出版的期刊,已成功入選中文科技核心期刊、中國計算機學(xué)會會刊、中國計算機學(xué)會推薦中文科技期刊,并被評為2018年國家哲學(xué)社會科學(xué)文獻中心學(xué)術(shù)期刊數(shù)據(jù)庫“綜合性人文社會科學(xué)”學(xué)科最受歡迎期刊。
關(guān)注《大數(shù)據(jù)》期刊微信公眾號,獲取更多內(nèi)容
總結(jié)
以上是生活随笔為你收集整理的专栏导读:数据驱动的优化的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。