當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

机器学习用于金融市场预测难在哪？

發(fā)布時間：2024/8/23 编程问答 50 豆豆

生活随笔收集整理的這篇文章主要介紹了机器学习用于金融市场预测难在哪？小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

摘要：?本文主要講述了機(jī)器學(xué)習(xí)用于金融市場預(yù)測難在哪？——金融間序是典型的部分可見馬爾科夫決策過程（POMDP）

·?數(shù)據(jù)分布

·?小樣本

·?難以計算的數(shù)據(jù)

·?十分復(fù)雜

·?部分可見馬爾科夫決策過程

·?推薦系統(tǒng)的相似性

·?結(jié)束思索

金融市場已經(jīng)成為最早的采用機(jī)器學(xué)習(xí)（ML）市場之一。20世紀(jì)80年代以來，人們一直在使用ML以發(fā)現(xiàn)市場上的規(guī)律。盡管ML在預(yù)測市場結(jié)果方面取得了巨大成功，但最近的深度學(xué)習(xí)并沒有對金融市場的預(yù)測有多大幫助。雖然深度學(xué)習(xí)和其他ML技術(shù)終于使Alexa，Google Assistant和Google Photos成為可能，但在股票市場上沒有取得多大進(jìn)展。

但是,?我將機(jī)器學(xué)習(xí)應(yīng)用于現(xiàn)實世界的金融預(yù)測問題。盡管有很多論文聲稱成功應(yīng)用了深度學(xué)習(xí)模式，但我還是持懷疑態(tài)度來看待這些結(jié)果。有些模型確實有更好的精度。然而，差異的量級往往還不夠大。

NLP的改進(jìn)有助于提高依賴文檔分析的定量策略的有效性。這是在金融市場中深度學(xué)習(xí)模型的一個不可多得的好處。

所有這一切證實了金融市場本質(zhì)上是不可預(yù)測的事實。這里有很多原因讓人難以預(yù)測。我想強(qiáng)調(diào)一些使它變得困難的主要原因：

數(shù)據(jù)分布：

數(shù)據(jù)分布問題至關(guān)重要——幾乎所有的做金融預(yù)測的研究論文都忽略了這一點。

我們可以將金融數(shù)據(jù)集與圖像分類數(shù)據(jù)集進(jìn)行對比，以更好地理解這一點。讓我們考慮CIFAR-10數(shù)據(jù)集.它包括了10個類。每個類的訓(xùn)練集中有5000個圖像，每個類的測試集中有1000個圖像。

我們期望在狗分類的訓(xùn)練集中，像素權(quán)重的分布與狗分類測試集中的分布相似。換而言之，狗的圖像將包含在訓(xùn)練集以及測試集中的狗。這比較傻的說明了：狗的圖像必須包含狗。

對于大多數(shù)金融數(shù)據(jù)集來說，這種明顯的屬性沒有效。你將來可能看到的和你目前看到的數(shù)據(jù)完全不同。事實上，將機(jī)器學(xué)習(xí)應(yīng)用于現(xiàn)實世界是一個比較常見的問題。除了確保測試和訓(xùn)練的數(shù)據(jù)集具有相似的分布以外，還必須確保只有當(dāng)將來的數(shù)據(jù)遵循訓(xùn)練/驗證的分布才在產(chǎn)品里使用訓(xùn)練過的模型。

雖然大多數(shù)研究者都注意不去把預(yù)測偏差納入到他們的研究中，但幾乎每個人都不承認(rèn)涉及數(shù)據(jù)分布問題。

向前優(yōu)化是解決這個問題的一種可能的選項。這在從事者中是已知的，但是研究人員常常忘記提到這一點。然而，即使是向前推進(jìn)優(yōu)化也不是解決潛在問題的靈丹妙藥——它假設(shè)未來數(shù)據(jù)分布將是什么樣的。這就是為什么向前優(yōu)化的方法并不能真正給你帶來高精度——它只是比較實用。

小樣本大小（Small Sample Sizes）

機(jī)器學(xué)習(xí)經(jīng)常需要從小數(shù)據(jù)集做預(yù)測。一個例子是勞動力統(tǒng)計，例如失業(yè)率和非農(nóng)收入。每個月得到一個數(shù)據(jù)點，沒有足夠的歷史數(shù)據(jù)。一個極端的例子是金融危機(jī)—只有一個數(shù)據(jù)點供我們借鑒。

這使得應(yīng)用自動化的學(xué)習(xí)方法變得非常困難。許多人最終采取的一種途徑是將不太頻繁的統(tǒng)計數(shù)據(jù)與相對頻繁的數(shù)據(jù)結(jié)合起來。例如，你可以結(jié)合非農(nóng)收入與每日股票收益率，并且把相結(jié)合的數(shù)據(jù)集提供給模型。然而，往往需要進(jìn)行大量的監(jiān)督，以消除對模型質(zhì)量的懷疑。

難以計算的數(shù)據(jù)（Unquantifiable Data）

有人可能會說，我們金融歷史的時間表同人類歷史本身一樣。不幸的是，轉(zhuǎn)換成量化的數(shù)據(jù)以讓算法能理解的形式是比較困難的。例如，即使我們對1930年代大蕭條期間發(fā)生的事情有一個全面的了解，也很難把它轉(zhuǎn)化成一種可以用于自動化的學(xué)習(xí)過程的形式。

十分復(fù)雜（It’s Quite Complex）

各種各樣的因素在不同的規(guī)模驅(qū)動著價格:

·?高頻交易和算法交易是短期內(nèi)價格的主要驅(qū)動力(小于1天)；

·?開盤價和收盤價都有自己的模式-?包括在股票和期貨-我所使用的兩個資產(chǎn)類；

·?當(dāng)涉及到多日線時，新聞和謠言是驅(qū)動力。詳細(xì)的公司新聞可以在任何時候不預(yù)先通知的情況下發(fā)生。然而，某些事件的時間表是事先知道的，比如公司的計劃報表和經(jīng)濟(jì)數(shù)據(jù)一覽；

·?價值投資和經(jīng)濟(jì)周期在涉及多年內(nèi)價格變化時最為重要。

專家群可以被用來組合不同規(guī)模的模型，但這也是一個難題。(請注意，專家群是把相同規(guī)模的模型進(jìn)行組合的一個很常見的技術(shù)—幾乎所有定量資產(chǎn)管理公司都采用。)

部分可見馬爾科夫決策過程（Partially Observable Markov Decision Process）

我樂于考慮把價格的時間序列作為部分可見馬爾科夫決策過程(POMDP).沒有人在任何時間點都有完整的圖片。不知道明天會發(fā)生什么—但你仍然要對交易做出決定。你得到的信息非常少。同時，數(shù)據(jù)的分布也在不斷變化。

我已嘗試將強(qiáng)化學(xué)習(xí)方法應(yīng)用于金融問題。即使我把問題（即狀態(tài)和行為空間）簡化了，也學(xué)不到有用的東西。我花了幾個星期對于為什么不工作而進(jìn)行調(diào)試—結(jié)果是RL算法需要足夠的可預(yù)測性。

推薦系統(tǒng)的相似性（Similarities to Recommender Systems）

ML可應(yīng)用于非常廣泛的領(lǐng)域。在所有這些中，我發(fā)現(xiàn)推薦系統(tǒng)是最貼近金融預(yù)測問題的。對比來說提出了潛在問題的難點。跟娛樂Recsys系統(tǒng)比較，分析提出了潛在問題的難點。

·?兩者都有相對較低的精度.讓我們考慮一下Netflix的例子。Netflix在主頁上至少顯示了20種電影選項。因此，對于每個建議，選擇觀看電影的用戶的平均可能性小于1/20。有一個“小于”的標(biāo)志，因為用戶可能只是不看任何東西就離開了。同樣地，金融時間序列中的大多數(shù)二進(jìn)制分類問題的準(zhǔn)確率已經(jīng)徘徊在50%左右了。

·?兩者的數(shù)據(jù)都有很多的雜音（noise）.在這兩種情況下，信噪比都很高。在金融時間序列離雜音較高，因為很多不同的因素影響著價格。Recsys數(shù)據(jù)集包含雜音（PDF），因為用戶的瀏覽通常是受影響的-用戶可以訪問特定的亞馬遜產(chǎn)品頁面，完全無意從這類產(chǎn)品中買任何東西—這就結(jié)束添加雜音（noise）了。

·?兩者的數(shù)據(jù)集都有季節(jié)性.假期間Amazon的購買模式（即產(chǎn)品銷售分銷）將與今年其它時間段不同。同樣適用于其它的Recsys問題，如電影的興趣和YouTube視頻的選擇還取決于在全年的時間。金融數(shù)據(jù)也是季節(jié)性的，最常見的季節(jié)性問題是經(jīng)濟(jì)周期。

·?兩者都必須處理看不見的“事件/商品”.亞馬遜在其目錄中添加新商品，不斷增加Netflix標(biāo)題到商品列表，每一分鐘新的視頻都被上傳到Y(jié)ouTube。推薦系統(tǒng)必須解決這個問題——如何推薦那些不是訓(xùn)練集一部分的商品。正如數(shù)據(jù)分布部分所提到的，金融數(shù)據(jù)可以包含與模型訓(xùn)練期間可用的完全不同的事件。

·?兩者都必須結(jié)合不同類型的數(shù)據(jù)進(jìn)行模型訓(xùn)練.?YouTube上有一些獨(dú)立的功能，比如“最后N個看過的視頻列表”，它也有連續(xù)的功能，比如“最后一個視頻的觀看時長”。同樣，金融數(shù)據(jù)集可以由較高的頻率價格以及較低的頻率經(jīng)濟(jì)數(shù)字組成。

結(jié)束思考：

如果因為一件事你要離開這個崗位，應(yīng)該這樣：金融時間序列是一個部分信息博弈（POMDP），甚至對于人類也是很難的，我們不應(yīng)該期望的機(jī)器和算法突然超越人的能力。

這些算法擅長的是發(fā)現(xiàn)一個硬編碼的模式并應(yīng)用，這是一把雙刃劍，但有時可以有時不行。它幫助絕大多數(shù)的簡單模式來識別實例都已經(jīng)被詳細(xì)討論了。通過無監(jiān)督學(xué)習(xí)在金融時間序列中識別模式的下一階段仍然是一個難以實現(xiàn)的夢想。

文章原標(biāo)題《Why is machine learning in finance so hard? | Hardik Patel》

作者：Hardik Patel

譯者：奧特曼，審校：袁虎。

原文鏈接

干貨好文，請關(guān)注掃描以下二維碼：

總結(jié)

以上是生活随笔為你收集整理的机器学习用于金融市场预测难在哪？的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：一份关于机器学习中线性代数学习资源的汇总
下一篇：阿里云大数据计算服务MaxCompute

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

机器学习用于金融市场预测难在哪？

總結(jié)