三问(why?what?how?)金融领域的机器学习
摘要:?都喜歡人生三問,那么金融領(lǐng)域的機(jī)器學(xué)習(xí)三問了解一下。
機(jī)器學(xué)習(xí)可能會很有魔力,即使它背后沒有魔法。盡管如此,機(jī)器學(xué)習(xí)項目的成功更多地取決于構(gòu)建高效的基礎(chǔ)架構(gòu),收集合適的數(shù)據(jù)集以及應(yīng)用正確的算法。
機(jī)器學(xué)習(xí)已經(jīng)在金融服務(wù)行業(yè)中取得重大進(jìn)展。讓我們看看為什么金融公司可以通過AI和機(jī)器學(xué)習(xí)實現(xiàn)什么解決方案,以及他們?nèi)绾螒?yīng)用這項技術(shù)。
定義
我們可以將機(jī)器學(xué)習(xí)定義為數(shù)據(jù)科學(xué)的一個子集,它使用統(tǒng)計模型來繪制洞察并進(jìn)行預(yù)測。下圖解釋了人工智能,數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)之間的關(guān)系。為了簡單起見,我們在這篇文章中專注于機(jī)器學(xué)習(xí)。
機(jī)器學(xué)習(xí)解決方案的神奇之處在于,他們可以從經(jīng)驗中學(xué)習(xí)而無需明確編程。簡而言之,你需要選擇模型并將數(shù)據(jù)提供給它們。然后,模型會自動調(diào)整其參數(shù)以改善結(jié)果。
數(shù)據(jù)科學(xué)家使用現(xiàn)有數(shù)據(jù)集訓(xùn)練機(jī)器學(xué)習(xí)模型,然后將訓(xùn)練有素的模型應(yīng)用于現(xiàn)實生活中。
模型作為后臺進(jìn)程運行,并根據(jù)其訓(xùn)練方式自動提供結(jié)果。數(shù)據(jù)科學(xué)家可以根據(jù)需要重新訓(xùn)練模型,以使其保持有效性。
通常,你提供的數(shù)據(jù)越多,結(jié)果就越準(zhǔn)確。巧合的是,龐大的數(shù)據(jù)集在金融服務(wù)行業(yè)中非常普遍。關(guān)于交易、客戶、賬單、匯款等有PB級別的數(shù)據(jù)非常適合機(jī)器學(xué)習(xí)。
隨著技術(shù)的發(fā)展和最佳算法的開源,很難想象沒有機(jī)器學(xué)習(xí)的金融服務(wù)的未來。因為大多數(shù)金融服務(wù)公司都還沒有準(zhǔn)備好來用這一技術(shù)的真正價值,原因如下:
1.????企業(yè)往往對機(jī)器學(xué)習(xí)及其組織的價值抱有完全不切實際的期望。
2.????人工智能和機(jī)器學(xué)習(xí)研究和開發(fā)成本很高。
3.????DS / ML工程師的短缺是另一個主要問題,下圖顯示了人工智能和機(jī)器學(xué)習(xí)技能需求的爆炸性增長。
4.????在更新數(shù)據(jù)基礎(chǔ)架構(gòu)方面,老牌金融企業(yè)不夠靈活。
我們將在本文稍后討論如何克服這些問題。首先,讓我們看看為什么金融服務(wù)公司不能忽視機(jī)器學(xué)習(xí)。
為什么要考慮金融機(jī)器學(xué)習(xí)?
因為面臨挑戰(zhàn),許多金融公司已經(jīng)利用了這項技術(shù)。下圖顯示金融服務(wù)的高管非常重視機(jī)器學(xué)習(xí),大多出于以下原因:
1.????由于過程自動化,降低了運營成本。
2.????通過提高生產(chǎn)力和增強(qiáng)用戶體驗,增加收入。
3.????更好地遵守和加強(qiáng)安全性。
有各種各樣的開源機(jī)器學(xué)習(xí)算法和工具,可以很好地適應(yīng)金融數(shù)據(jù)。此外,成熟的金融服務(wù)公司擁有大量現(xiàn)金,他們可以負(fù)擔(dān)得起在最先進(jìn)的計算硬件上花費。對于金融領(lǐng)域的定量性和大量的歷史數(shù)據(jù),機(jī)器學(xué)習(xí)有望提升金融生態(tài)系統(tǒng)。
這就是為什么如此多的金融公司在機(jī)器學(xué)習(xí)研發(fā)方面投入巨資。至于落后者,忽視AI和ML可能會被證明是代價高昂的。
什么是金融機(jī)器學(xué)習(xí)用例?
讓我們來看看金融領(lǐng)域一些有前景的機(jī)器學(xué)習(xí)應(yīng)用程序。
過程自動化
過程自動化是機(jī)器學(xué)習(xí)在金融領(lǐng)域最常見的應(yīng)用之一。該技術(shù)可以替代手動工作,自動執(zhí)行重復(fù)性任務(wù)并提高生產(chǎn)率。
因此,機(jī)器學(xué)習(xí)使公司能夠優(yōu)化成本,改善客戶體驗并擴(kuò)展服務(wù)。以下是金融機(jī)器學(xué)習(xí)的自動化用例:
1.聊天機(jī)器人;
2.呼叫中心自動化;
3.文本工作自動化等等;
以下是銀行業(yè)務(wù)流程自動化的一些示例:
摩根大通:推出了一個智能合約(COiN)平臺,該平臺利用自然語言處理技術(shù),它解決了從法律文件中提取重要數(shù)據(jù)。對12,000份年度商業(yè)信貸協(xié)議進(jìn)行人工審查通常需要約360,000個工時。然而,機(jī)器學(xué)習(xí)允許在短短幾個小時內(nèi)審查相同數(shù)量的合同。
BNY Mello:將流程自動化集成到他們的銀行生態(tài)系統(tǒng)中。這項創(chuàng)新每年可節(jié)省30萬美元,并帶來了極大的改善了運營情況。
Privatbank:一家烏克蘭銀行,通過其移動和網(wǎng)絡(luò)平臺實施聊天機(jī)器人助理。Chatbots加快了一般客戶查詢的解決速度,并減少人工助理的數(shù)量。
安全
隨著交易、用戶和第三方集成的數(shù)量不斷增加,財務(wù)中的安全威脅也在不斷增加。機(jī)器學(xué)習(xí)算法非常適合檢測欺詐行為。
例如,銀行可以使用該技術(shù)實時監(jiān)控每個賬戶的數(shù)千個交易參數(shù)。該算法檢查持卡人采取的每個動作,并評估嘗試的活動是否是該特定用戶的特征。這種模型具有高精度的欺詐行為。
如果系統(tǒng)識別可疑帳戶行為,則它可以請求用戶提供額外的標(biāo)識以驗證交易。如果至少有95%的可能性是欺詐行為,甚至可以完全阻止交易。機(jī)器學(xué)習(xí)算法只需幾秒鐘來評估交易,有助于實時防止欺詐,而不僅僅是在犯罪發(fā)生后發(fā)現(xiàn)它們。
財務(wù)監(jiān)控是金融機(jī)器學(xué)習(xí)的另一個安全用例。數(shù)據(jù)科學(xué)家可以訓(xùn)練系統(tǒng)檢測大量小額支付,并將這種洗錢技術(shù)標(biāo)記為smurfing。
機(jī)器學(xué)習(xí)算法也可以顯著增強(qiáng)網(wǎng)絡(luò)安全性。數(shù)據(jù)科學(xué)家訓(xùn)練系統(tǒng)發(fā)現(xiàn)和隔離網(wǎng)絡(luò)威脅,因為機(jī)器學(xué)習(xí)在分析數(shù)千個參數(shù)和實時是首屈一指的。這項技術(shù)有可能在最近的將來為最先進(jìn)的網(wǎng)絡(luò)安全網(wǎng)絡(luò)提供支持。
Adyen、Payoneer、Paypal、Stripe和Skrill是一些值得注意的金融科技公司,他們在安全機(jī)器學(xué)習(xí)方面投入巨資。
承保和信用評分
機(jī)器學(xué)習(xí)算法完全適合金融和保險行業(yè)中常見的承保任務(wù)。
數(shù)據(jù)科學(xué)家在數(shù)千個客戶檔案中訓(xùn)練模型,為每個客戶提供數(shù)百個數(shù)據(jù)條目。然后,訓(xùn)練有素的系統(tǒng)可以在現(xiàn)實環(huán)境中執(zhí)行相同的承保和信用評分任務(wù)。這種評分引擎可以幫助人員更快,更準(zhǔn)確地工作。
銀行和保險公司擁有大量歷史消費者數(shù)據(jù),因此他們可以使用這些條目來訓(xùn)練機(jī)器學(xué)習(xí)模型。他們可以利用大型電信或公用事業(yè)公司生成的數(shù)據(jù)集。
例如,BBVA Bancomer正與另一個信用評分平臺Destacame合作。該銀行旨在為拉丁美洲信用記錄薄的客戶增加信貸準(zhǔn)入,Destacame通過開放API訪問公用事業(yè)公司的賬單支付信息。使用賬單支付行為,Destacame為客戶生成信用評分并將結(jié)果發(fā)送給銀行。
算法交易
在算法交易中,機(jī)器學(xué)習(xí)有助于做出更好的交易決策。數(shù)學(xué)模型實時監(jiān)控新聞和交易結(jié)果,并檢測可能迫使股價上漲或下跌的模式。然后,它可以根據(jù)其預(yù)測主動出售、持有或購買股票。
機(jī)器學(xué)習(xí)算法可以同時分析數(shù)千個數(shù)據(jù)源,這是人類無法實現(xiàn)的。機(jī)器學(xué)習(xí)算法可以幫助人類交易者在市場平均水平上占據(jù)一席之地。而且,鑒于大量的交易操作,這種小優(yōu)勢通常會轉(zhuǎn)化為巨額利潤。
ROBO-咨詢
機(jī)器人顧問現(xiàn)在在金融領(lǐng)域司空見慣。目前,在咨詢領(lǐng)域中有兩種主要的機(jī)器學(xué)習(xí)應(yīng)用。
投資組合管理:是一種在線財富管理服務(wù),它使用算法和統(tǒng)計數(shù)據(jù)來分配,管理和優(yōu)化客戶的資產(chǎn)。用戶輸入他們目前的金融資產(chǎn)和目標(biāo),例如,在50歲時節(jié)省一百萬美元。機(jī)器人顧問然后根據(jù)風(fēng)險偏好和期望目標(biāo)在投資機(jī)會中分配當(dāng)前資產(chǎn)。
金融產(chǎn)品推薦:許多在線保險服務(wù)使用機(jī)器人顧問向特定用戶推薦個性化保險計劃。由于費用較低,客戶選擇機(jī)器人顧問而不是個人理財顧問,以及個性化和校準(zhǔn)的推薦。
如何利用金融機(jī)器學(xué)習(xí)?
盡管人工智能和機(jī)器學(xué)習(xí)具有所有優(yōu)勢,但即使是擁有雄厚財力的公司也很難從這項技術(shù)中獲取真正的價值。金融服務(wù)公司希望利用機(jī)器學(xué)習(xí)的獨特機(jī)會,但實際上,他們對數(shù)據(jù)科學(xué)如何運作以及如何使用它有一個模糊的概念。
他們遇到類似的挑戰(zhàn),例如缺乏業(yè)務(wù)KPI。反過來,這會導(dǎo)致不切實際的估計并導(dǎo)致預(yù)算耗盡。擁有合適的軟件基礎(chǔ)設(shè)施是不夠的,它需要一個清晰的愿景,扎實的技術(shù)人才,以及提供有價值的機(jī)器學(xué)習(xí)開發(fā)項目的決心。
一旦你充分了解此技術(shù)將如何幫助實現(xiàn)業(yè)務(wù)目標(biāo),請繼續(xù)進(jìn)行構(gòu)思驗證。這是數(shù)據(jù)科學(xué)家的任務(wù)。他們調(diào)查這個想法,幫助你制定可行的KPI并做出切合實際的估算。
根據(jù)具體的使用案例和業(yè)務(wù)條件,金融公司可以采用不同的途徑來采用機(jī)器學(xué)習(xí)。
放棄機(jī)器學(xué)習(xí),轉(zhuǎn)而專注于大數(shù)據(jù)工程
通常,金融公司開始他們的機(jī)器學(xué)習(xí)項目只是為了意識到他們只需要適當(dāng)?shù)臄?shù)據(jù)工程。馬克斯Nechepurenko的高級數(shù)據(jù)科學(xué)家為N-IX評論:
在開發(fā)數(shù)據(jù)科學(xué)解決方案時,我建議使用Occam的剃刀原理,這意味著不會過度復(fù)雜。大多數(shù)以機(jī)器學(xué)習(xí)為目標(biāo)的公司實際上需要關(guān)注可靠的數(shù)據(jù)工程,將統(tǒng)計數(shù)據(jù)應(yīng)用于聚合數(shù)據(jù)以及對數(shù)據(jù)進(jìn)行可視化。
僅僅將統(tǒng)計模型應(yīng)用于處理過的和結(jié)構(gòu)良好的數(shù)據(jù)就足以讓銀行隔離其運營中的各種瓶頸和低效率。
這種瓶頸有哪些例子?這可能是特定分支的隊列,可以消除的重復(fù)性任務(wù),低效的人力資源活動,移動銀行應(yīng)用程序的缺陷等等。
更重要的是,任何數(shù)據(jù)科學(xué)項目中最重要的部分都?xì)w結(jié)為構(gòu)建一個協(xié)調(diào)的平臺生態(tài)系統(tǒng),從數(shù)百個來源(如CRM、報告軟件、電子表格等)收集孤立的數(shù)據(jù)。
在應(yīng)用任何算法之前,你需要對數(shù)據(jù)進(jìn)行適當(dāng)?shù)慕Y(jié)構(gòu)化和清理。只有這樣,你才能進(jìn)一步將這些數(shù)據(jù)轉(zhuǎn)化為洞察力。事實上,ETL(提取,轉(zhuǎn)換和加載)和進(jìn)一步清理數(shù)據(jù)占機(jī)器學(xué)習(xí)項目時間的80%左右。
使用第三方機(jī)器學(xué)習(xí)解決方案
即使你的公司決定在即將開展的項目中使用機(jī)器學(xué)習(xí),你也不一定需要開發(fā)新的算法和模型。
大多數(shù)機(jī)器學(xué)習(xí)項目都處理已經(jīng)解決的問題。谷歌、微軟和阿里巴巴等科技巨頭將機(jī)器學(xué)習(xí)軟件作為一種服務(wù)出售。
這些開箱即用的解決方案已經(jīng)過訓(xùn)練,可以解決各種業(yè)務(wù)任務(wù)。如果你的項目涉及相同的用例,你是否認(rèn)為你的團(tuán)隊可以通過龐大的研發(fā)中心超越這些技術(shù)巨頭的算法?
機(jī)器學(xué)習(xí)工程師可以實施專注于你的特定數(shù)據(jù)和業(yè)務(wù)領(lǐng)域的系統(tǒng)。專家需要從不同來源提取數(shù)據(jù),將其轉(zhuǎn)換為適合此特定系統(tǒng),接收結(jié)果并可視化結(jié)果。
權(quán)衡取舍是缺乏對第三方系統(tǒng)的控制和有限的解決方案靈活性。此外,機(jī)器學(xué)習(xí)算法并不適合每個用例。高級數(shù)據(jù)科學(xué)家IHAR Rubanau評論:
尚不存在通用機(jī)器學(xué)習(xí)算法,數(shù)據(jù)科學(xué)家需要在將算法應(yīng)用于不同領(lǐng)域的不同業(yè)務(wù)案例之前對其進(jìn)行調(diào)整和微調(diào)。
因此,如果Google的現(xiàn)有解決方案解決了你特定域中的特定任務(wù),你應(yīng)該使用它。如果沒有,請致力于定制開發(fā)和集成。
創(chuàng)新與整合
從頭開始開發(fā)機(jī)器學(xué)習(xí)解決方案是風(fēng)險最大,成本最高且耗時的選擇。盡管如此,這可能是將ML技術(shù)應(yīng)用于某些商業(yè)案例的唯一方法。
機(jī)器學(xué)習(xí)研究和開發(fā)針對特定利基市場的獨特需求,并要求進(jìn)行深入調(diào)查。如果沒有為解決這些特定問題而開發(fā)的現(xiàn)成解決方案,則第三方機(jī)器學(xué)習(xí)軟件可能會產(chǎn)生不準(zhǔn)確的結(jié)果。
不過,你可能需要嚴(yán)重依賴Google的開源機(jī)器學(xué)習(xí)庫。當(dāng)前的機(jī)器學(xué)習(xí)項目主要是將現(xiàn)有的最先進(jìn)的庫應(yīng)用于特定的域和用例。
在N-iX,我們確定了機(jī)器學(xué)習(xí)中成功的企業(yè)研發(fā)項目的七個共同特征:
1.????一個明確的目標(biāo):在收集數(shù)據(jù)之前,你至少需要對通過AI和機(jī)器學(xué)習(xí)實現(xiàn)的結(jié)果有一些大致的了解。在項目的早期階段,數(shù)據(jù)科學(xué)家將幫助你將這一想法轉(zhuǎn)化為實際的KPI。
2.????機(jī)器學(xué)習(xí)解決方案的強(qiáng)大架構(gòu)設(shè)計:你需要經(jīng)驗豐富的軟件架構(gòu)師來執(zhí)行此任務(wù)。
3.????適當(dāng)?shù)拇髷?shù)據(jù)工程生態(tài)系統(tǒng)(基于Apache Hadoop)是必不可少的:它允許從金融服務(wù)公司的眾多孤立數(shù)據(jù)源中收集、集成、存儲和處理大量數(shù)據(jù)。大數(shù)據(jù)架構(gòu)師和大數(shù)據(jù)工程師負(fù)責(zé)構(gòu)建生態(tài)系統(tǒng)。
4.????在新創(chuàng)建的生態(tài)系統(tǒng)上運行ETL過程(提取,轉(zhuǎn)換和加載):大數(shù)據(jù)架構(gòu)師或機(jī)器學(xué)習(xí)工程師執(zhí)行此任務(wù)。
5.????數(shù)據(jù)準(zhǔn)備:除數(shù)據(jù)轉(zhuǎn)換和技術(shù)清理外,數(shù)據(jù)科學(xué)家可能還需要進(jìn)一步優(yōu)化數(shù)據(jù),使其適用于特定的業(yè)務(wù)案例。
6.????應(yīng)用適當(dāng)?shù)乃惴?#xff1a;基于這些算法創(chuàng)建模型,微調(diào)模型以及使用新數(shù)據(jù)重新訓(xùn)練模型。數(shù)據(jù)科學(xué)家和機(jī)器學(xué)習(xí)工程師執(zhí)行這些任務(wù)。
7.????清晰可見的洞察力:商業(yè)智能專家對此負(fù)責(zé)。此外,你可能需要前端開發(fā)人員創(chuàng)建具有易于使用的UI的儀表板。
小型項目可能需要更少的工作量和更小的團(tuán)隊。例如,一些研發(fā)項目涉及小型數(shù)據(jù)集,因此他們可能不需要復(fù)雜的大數(shù)據(jù)工程。在其他情況下,根本不需要復(fù)雜的儀表板或任何數(shù)據(jù)可視化。
關(guān)鍵要點:
·? ? ? ?金融老牌企業(yè)最常使用機(jī)器學(xué)習(xí)來實現(xiàn)流程自動化和安全性;
·???????在收集數(shù)據(jù)之前,你需要清楚地了解數(shù)據(jù)科學(xué)所期望的結(jié)果;
? ? ?在項目開始之前,需要設(shè)置可行的KPI并做出切合實際的估算;
·???????許多金融服務(wù)公司需要數(shù)據(jù)工程、統(tǒng)計和數(shù)據(jù)可視化,而不是數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí);
·???????訓(xùn)練數(shù)據(jù)集越大越清潔,機(jī)器學(xué)習(xí)解決方案產(chǎn)生的結(jié)果就越準(zhǔn)確;
·???????你可以根據(jù)需要隨時重新訓(xùn)練模型,而無需停止機(jī)器學(xué)習(xí)算法;
·???????沒有通用的機(jī)器學(xué)習(xí)解決方案適用于不同的業(yè)務(wù)案例;
·???????具有機(jī)器學(xué)習(xí)功能的財務(wù)軟件的開發(fā)成本很高;
·???????像谷歌這樣的科技巨頭創(chuàng)造了機(jī)器學(xué)習(xí)解決方案。如果你的項目涉及此類用例,那么你不能指望其優(yōu)于Google,Amazon或IBM的算法。
原文鏈接
本文為云棲社區(qū)原創(chuàng)內(nèi)容,未經(jīng)允許不得轉(zhuǎn)載。
總結(jié)
以上是生活随笔為你收集整理的三问(why?what?how?)金融领域的机器学习的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 想要成为数据科学家?知道这11种机器学习
- 下一篇: 阿里巴巴开源的通用缓存访问框架JetCa