机器学习用于金融市场预测难在哪?
摘要:?本文主要講述了機(jī)器學(xué)習(xí)用于金融市場預(yù)測難在哪?——金融間序是典型的部分可見馬爾科夫決策過程(POMDP)
·?數(shù)據(jù)分布
·?小樣本
·?難以計算的數(shù)據(jù)
·?十分復(fù)雜
·?部分可見馬爾科夫決策過程
·?推薦系統(tǒng)的相似性
·?結(jié)束思索
金融市場已經(jīng)成為最早的采用機(jī)器學(xué)習(xí)(ML)市場之一。20世紀(jì)80年代以來,人們一直在使用ML以發(fā)現(xiàn)市場上的規(guī)律。盡管ML在預(yù)測市場結(jié)果方面取得了巨大成功,但最近的深度學(xué)習(xí)并沒有對金融市場的預(yù)測有多大幫助。雖然深度學(xué)習(xí)和其他ML技術(shù)終于使Alexa,Google Assistant和Google Photos成為可能,但在股票市場上沒有取得多大進(jìn)展。
但是,?我將機(jī)器學(xué)習(xí)應(yīng)用于現(xiàn)實世界的金融預(yù)測問題。盡管有很多論文聲稱成功應(yīng)用了深度學(xué)習(xí)模式,但我還是持懷疑態(tài)度來看待這些結(jié)果。有些模型確實有更好的精度。然而,差異的量級往往還不夠大。
NLP的改進(jìn)有助于提高依賴文檔分析的定量策略的有效性。這是在金融市場中深度學(xué)習(xí)模型的一個不可多得的好處。
所有這一切證實了金融市場本質(zhì)上是不可預(yù)測的事實。這里有很多原因讓人難以預(yù)測。我想強(qiáng)調(diào)一些使它變得困難的主要原因:
數(shù)據(jù)分布:
數(shù)據(jù)分布問題至關(guān)重要——幾乎所有的做金融預(yù)測的研究論文都忽略了這一點。
我們可以將金融數(shù)據(jù)集與圖像分類數(shù)據(jù)集進(jìn)行對比,以更好地理解這一點。讓我們考慮CIFAR-10數(shù)據(jù)集.它包括了10個類。每個類的訓(xùn)練集中有5000個圖像,每個類的測試集中有1000個圖像。
?
我們期望在狗分類的訓(xùn)練集中,像素權(quán)重的分布與狗分類測試集中的分布相似。換而言之,狗的圖像將包含在訓(xùn)練集以及測試集中的狗。這比較傻的說明了:狗的圖像必須包含狗。
對于大多數(shù)金融數(shù)據(jù)集來說,這種明顯的屬性沒有效。你將來可能看到的和你目前看到的數(shù)據(jù)完全不同。事實上,將機(jī)器學(xué)習(xí)應(yīng)用于現(xiàn)實世界是一個比較常見的問題。除了確保測試和訓(xùn)練的數(shù)據(jù)集具有相似的分布以外,還必須確保只有當(dāng)將來的數(shù)據(jù)遵循訓(xùn)練/驗證的分布才在產(chǎn)品里使用訓(xùn)練過的模型。
雖然大多數(shù)研究者都注意不去把預(yù)測偏差納入到他們的研究中,但幾乎每個人都不承認(rèn)涉及數(shù)據(jù)分布問題。
向前優(yōu)化是解決這個問題的一種可能的選項。這在從事者中是已知的,但是研究人員常常忘記提到這一點。然而,即使是向前推進(jìn)優(yōu)化也不是解決潛在問題的靈丹妙藥——它假設(shè)未來數(shù)據(jù)分布將是什么樣的。這就是為什么向前優(yōu)化的方法并不能真正給你帶來高精度——它只是比較實用。
小樣本大小(Small Sample Sizes)
機(jī)器學(xué)習(xí)經(jīng)常需要從小數(shù)據(jù)集做預(yù)測。一個例子是勞動力統(tǒng)計,例如失業(yè)率和非農(nóng)收入。每個月得到一個數(shù)據(jù)點,沒有足夠的歷史數(shù)據(jù)。一個極端的例子是金融危機(jī)—只有一個數(shù)據(jù)點供我們借鑒。
這使得應(yīng)用自動化的學(xué)習(xí)方法變得非常困難。許多人最終采取的一種途徑是將不太頻繁的統(tǒng)計數(shù)據(jù)與相對頻繁的數(shù)據(jù)結(jié)合起來。例如,你可以結(jié)合非農(nóng)收入與每日股票收益率,并且把相結(jié)合的數(shù)據(jù)集提供給模型。然而,往往需要進(jìn)行大量的監(jiān)督,以消除對模型質(zhì)量的懷疑。
難以計算的數(shù)據(jù)(Unquantifiable Data)
有人可能會說,我們金融歷史的時間表同人類歷史本身一樣。不幸的是,轉(zhuǎn)換成量化的數(shù)據(jù)以讓算法能理解的形式是比較困難的。例如,即使我們對1930年代大蕭條期間發(fā)生的事情有一個全面的了解,也很難把它轉(zhuǎn)化成一種可以用于自動化的學(xué)習(xí)過程的形式。
十分復(fù)雜(It’s Quite Complex)
各種各樣的因素在不同的規(guī)模驅(qū)動著價格:
·?高頻交易和算法交易是短期內(nèi)價格的主要驅(qū)動力(小于1天);
·?開盤價和收盤價都有自己的模式-?包括在股票和期貨-我所使用的兩個資產(chǎn)類;
·?當(dāng)涉及到多日線時,新聞和謠言是驅(qū)動力。詳細(xì)的公司新聞可以在任何時候不預(yù)先通知的情況下發(fā)生。然而,某些事件的時間表是事先知道的,比如公司的計劃報表和經(jīng)濟(jì)數(shù)據(jù)一覽;
·?價值投資和經(jīng)濟(jì)周期在涉及多年內(nèi)價格變化時最為重要。
專家群可以被用來組合不同規(guī)模的模型,但這也是一個難題。(請注意,專家群是把相同規(guī)模的模型進(jìn)行組合的一個很常見的技術(shù)—幾乎所有定量資產(chǎn)管理公司都采用。)
部分可見馬爾科夫決策過程(Partially Observable Markov Decision Process)
我樂于考慮把價格的時間序列作為部分可見馬爾科夫決策過程(POMDP).沒有人在任何時間點都有完整的圖片。不知道明天會發(fā)生什么—但你仍然要對交易做出決定。你得到的信息非常少。同時,數(shù)據(jù)的分布也在不斷變化。
我已嘗試將強(qiáng)化學(xué)習(xí)方法應(yīng)用于金融問題。即使我把問題(即狀態(tài)和行為空間)簡化了,也學(xué)不到有用的東西。我花了幾個星期對于為什么不工作而進(jìn)行調(diào)試—結(jié)果是RL算法需要足夠的可預(yù)測性。
推薦系統(tǒng)的相似性(Similarities to Recommender Systems)
ML可應(yīng)用于非常廣泛的領(lǐng)域。在所有這些中,我發(fā)現(xiàn)推薦系統(tǒng)是最貼近金融預(yù)測問題的。對比來說提出了潛在問題的難點。跟娛樂Recsys系統(tǒng)比較,分析提出了潛在問題的難點。
·?兩者都有相對較低的精度.讓我們考慮一下Netflix的例子。Netflix在主頁上至少顯示了20種電影選項。因此,對于每個建議,選擇觀看電影的用戶的平均可能性小于1/20。有一個“小于”的標(biāo)志,因為用戶可能只是不看任何東西就離開了。同樣地,金融時間序列中的大多數(shù)二進(jìn)制分類問題的準(zhǔn)確率已經(jīng)徘徊在50%左右了。
·?兩者的數(shù)據(jù)都有很多的雜音(noise).在這兩種情況下,信噪比都很高。在金融時間序列離雜音較高,因為很多不同的因素影響著價格。Recsys數(shù)據(jù)集包含雜音(PDF),因為用戶的瀏覽通常是受影響的-用戶可以訪問特定的亞馬遜產(chǎn)品頁面,完全無意從這類產(chǎn)品中買任何東西—這就結(jié)束添加雜音(noise)了。
·?兩者的數(shù)據(jù)集都有季節(jié)性.假期間Amazon的購買模式(即產(chǎn)品銷售分銷)將與今年其它時間段不同。同樣適用于其它的Recsys問題,如電影的興趣和YouTube視頻的選擇還取決于在全年的時間。金融數(shù)據(jù)也是季節(jié)性的,最常見的季節(jié)性問題是經(jīng)濟(jì)周期。
·?兩者都必須處理看不見的“事件/商品”.亞馬遜在其目錄中添加新商品,不斷增加Netflix標(biāo)題到商品列表,每一分鐘新的視頻都被上傳到Y(jié)ouTube。推薦系統(tǒng)必須解決這個問題——如何推薦那些不是訓(xùn)練集一部分的商品。正如數(shù)據(jù)分布部分所提到的,金融數(shù)據(jù)可以包含與模型訓(xùn)練期間可用的完全不同的事件。
·?兩者都必須結(jié)合不同類型的數(shù)據(jù)進(jìn)行模型訓(xùn)練.?YouTube上有一些獨(dú)立的功能,比如“最后N個看過的視頻列表”,它也有連續(xù)的功能,比如“最后一個視頻的觀看時長”。同樣,金融數(shù)據(jù)集可以由較高的頻率價格以及較低的頻率經(jīng)濟(jì)數(shù)字組成。
結(jié)束思考:
如果因為一件事你要離開這個崗位,應(yīng)該這樣:金融時間序列是一個部分信息博弈(POMDP),甚至對于人類也是很難的,我們不應(yīng)該期望的機(jī)器和算法突然超越人的能力。
這些算法擅長的是發(fā)現(xiàn)一個硬編碼的模式并應(yīng)用,這是一把雙刃劍,但有時可以有時不行。它幫助絕大多數(shù)的簡單模式來識別實例都已經(jīng)被詳細(xì)討論了。通過無監(jiān)督學(xué)習(xí)在金融時間序列中識別模式的下一階段仍然是一個難以實現(xiàn)的夢想。
文章原標(biāo)題《Why is machine learning in finance so hard? | Hardik Patel》
作者:Hardik Patel
譯者:奧特曼,審校:袁虎。
原文鏈接
干貨好文,請關(guān)注掃描以下二維碼:
總結(jié)
以上是生活随笔為你收集整理的机器学习用于金融市场预测难在哪?的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 一份关于机器学习中线性代数学习资源的汇总
- 下一篇: 阿里云大数据计算服务MaxCompute