生活随笔
收集整理的這篇文章主要介紹了
多因子模型水平测试题
小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
from:https://zhuanlan.zhihu.com/p/20343666
本試題由李騰、陳燁、鄧岳、
@陳志崗
整理,歡迎補(bǔ)充!
1 試卷說明
測試目標(biāo):多因子模型是量化股票組合投資領(lǐng)域的基本工具,介紹性的資料很多。但學(xué)習(xí)這些資料之后,甚至一些老手也很難判斷自己掌握到什么程度,或是在哪些方面有所缺失。因此,我們幾位從業(yè)者合力整理了這份多因子模型水平測試題。以問題的方式激發(fā)思考,希望能夠給從業(yè)者提供一個(gè)深度學(xué)習(xí)多因子模型的參考方向。列表中的很多問題我們也不知道最好的答案是什么,提示僅供參考。
題目說明:多因子模型假設(shè)大量股票的未來收益率中的可預(yù)測部分由少數(shù)幾個(gè)因子決定。由于同時(shí)影響大量股票,所以這些因子被稱為共同因子。只影響單只或少數(shù)幾只股票的特異因子,不在本試題的討論范圍內(nèi)。多因子模型可用于收益預(yù)測、風(fēng)險(xiǎn)預(yù)測和業(yè)績歸因。業(yè)內(nèi)對(duì)三種用途的多因子模型是否應(yīng)具有統(tǒng)一的因子組并無定論。因此下面題目中很多問題,如無特殊說明,請針對(duì)三種用途分別作答。本試題側(cè)重于多因子模型本身的理論和實(shí)踐,因此對(duì)組合構(gòu)建/優(yōu)化、交易技術(shù)、歷史回測技術(shù)等低相關(guān)主題不做深入探討。
2 試題
因子
A股市場驅(qū)動(dòng)因子能分為哪幾大類?【按信息源分:技術(shù)、基本面、情緒等】常見的因子類別?【行業(yè)、技術(shù)、基本面、分析師預(yù)測、大數(shù)據(jù)】除了最常用的回歸法,還有沒有其他方法可以進(jìn)行單因子測試?各自優(yōu)劣是什么?注:下面問題均針對(duì)回歸法。【如果用分組法,可以看到非線性的關(guān)系】單因子測試是否需要糾正版塊、市值偏離等問題?如何糾正?【在版塊偏離方面,可以設(shè)置行業(yè)虛擬變量。在市值偏離方面,可以取因子對(duì)市值回歸的殘差,但這種處理不一定有必要?】行業(yè)歸屬因子是否應(yīng)選擇動(dòng)態(tài)變化的數(shù)據(jù)?【是,否則在回歸過程中用到未來信息】混業(yè)經(jīng)營的上市公司,其行業(yè)因子有哪些處理方式?利弊?行業(yè)因子采用GICS、證監(jiān)會(huì)、申萬、中信等第三方數(shù)據(jù)更好?還是利用相關(guān)性、聚類分析等算法來動(dòng)態(tài)確定更好?各自利弊?規(guī)模因子(Size,也叫市值因子)為什么在中國具有如此重大的影響?選擇長期暴露小盤股有哪些利弊?市值因子應(yīng)該怎么取?取市值本身、市值對(duì)數(shù)、市值平方根有什么區(qū)別,哪種更好?你認(rèn)為流通市值和市值哪個(gè)信號(hào)更強(qiáng)?換手率應(yīng)該怎么計(jì)算?如遇長時(shí)間停牌,如何處理?若某一因子包含長期平均數(shù)據(jù)(比如5年平均凈利潤),而中間有數(shù)據(jù)缺失的片段(比如最近5年中有2年的年報(bào)缺失),應(yīng)該如何處理?現(xiàn)有兩種參考方法:設(shè)為空值,或取現(xiàn)有數(shù)據(jù)的平均值充作長期均值。哪種更好?還是無所謂?財(cái)務(wù)數(shù)據(jù)應(yīng)該在哪個(gè)時(shí)點(diǎn)進(jìn)行更新?比如月頻的多因子模型,年報(bào)公布時(shí)間可能為3月或4月,是在3月底的時(shí)候即時(shí)更新那些已出的數(shù)據(jù),還是在4月底統(tǒng)一更新使用?【有先有后,隨時(shí)公布隨時(shí)更新,或許更有時(shí)效性】有哪些指標(biāo)可以用來衡量單因子測試的結(jié)果?【t絕對(duì)值均值,|t|>2占比,t序列方差,beta均值,beta方差等】依據(jù)單因子測試結(jié)果,如何對(duì)因子的有效程度進(jìn)行排序?或者說,如何用單一指標(biāo)衡量因子有效性?【參考:abs(mean(t))/std(t),也許有更優(yōu)解】所謂的“alpha因子”和“風(fēng)險(xiǎn)因子”,應(yīng)該怎么進(jìn)行區(qū)分?你理解中有效且有邏輯的因子應(yīng)該包括哪些?有邏輯但效果較差的因子應(yīng)該包括哪些?如果采用某種方法組合出一個(gè)古怪的因子解釋力很強(qiáng),但是看不出因子的經(jīng)濟(jì)意義,你該怎么辦?如何打磨舊的因子,提高其有效性?構(gòu)建因子的新信息源如何尋找?有哪些思路?現(xiàn)在常用的因子都是易于量化的因子,對(duì)于基本面因子、事件驅(qū)動(dòng)因子、市場情緒因子等不易量化的因子,有無合適的處理方法?
模型擬合
擬合多因子模型的綜合目標(biāo)是什么?如何選擇樣本空間?例如對(duì)初上市股票、ST股票、指數(shù)成分股變動(dòng)、停牌股票等異常情況的處理方法。如何選取因子組?有什么可以參考的經(jīng)典理論?【提示:BarraUSE3 Handbook】從選擇因子到多因子策略回測,一般有哪幾個(gè)環(huán)節(jié)?哪些可以省去,哪些不能?【單因子測試(似乎可以省略),合并因子(貌似不能省略,因?yàn)椴缓喜⑾嗨埔蜃訜o法消除共線性),預(yù)測個(gè)股收益率、成本、跟蹤誤差等,再進(jìn)行約束優(yōu)化問題求解】每一期的因子暴露度,如果不進(jìn)行離群值、缺失值以及標(biāo)準(zhǔn)化處理,會(huì)有什么后果?如果選擇進(jìn)行處理,又會(huì)帶來哪些需要注意的模型扭曲?離群值處理方法有那幾種?一種比較常用的辦法是將離開均值N倍標(biāo)準(zhǔn)差距離以外的離群值拉回N倍標(biāo)準(zhǔn)差的位置上,這時(shí)候N一般取值多少?【離群值處理還可以用中位數(shù)去極值等辦法,對(duì)題干所述方法,有把N取成2,2.5,3,5的,也許可以通過理論+實(shí)踐驗(yàn)證一下哪種取值更好】缺失值的處理方法有哪幾種?現(xiàn)提供三種參考方式:一是把空置設(shè)為NaN,回歸涉及NaN項(xiàng)時(shí)用程序自動(dòng)忽略;二是把所有含NaN項(xiàng)的個(gè)股從當(dāng)期票池中剔除;三是把所有NaN(在標(biāo)準(zhǔn)化后)設(shè)為零(或中位數(shù))。它們有什么區(qū)別?哪種好?或者有沒有更好的?標(biāo)準(zhǔn)化的方法有哪些?標(biāo)準(zhǔn)化后數(shù)據(jù)近似呈現(xiàn)何種分布規(guī)律?各種標(biāo)準(zhǔn)化方法的利弊?【除了減去均值、再除以標(biāo)準(zhǔn)差,還可以取排序序數(shù)等】帶權(quán)重的標(biāo)準(zhǔn)化,權(quán)重怎么設(shè)置?是否需要和回歸時(shí)的個(gè)股權(quán)重保持一致?標(biāo)準(zhǔn)化、離群值處理、缺失值處理,三個(gè)環(huán)節(jié)如何確立先后順序?因子之間或多或少具有一些相關(guān)性,若把所有因子進(jìn)行正交化處理,會(huì)發(fā)生什么情況?這樣做或不這樣做的理由是什么?如何選擇截面回歸的頻率?依據(jù)是什么?回歸模型涉及的個(gè)股收益率怎么計(jì)算?最簡單的(又能保證一定精確度的)方法是什么?【可以用復(fù)權(quán)收盤價(jià)。精確結(jié)果應(yīng)該是利用市場價(jià)格和分股、配股等影響收益的因素結(jié)合計(jì)算】回歸模型是否需要加入截距項(xiàng)(即常數(shù)項(xiàng))?在什么情況下可以取,什么情況下不能取?【有行業(yè)因子時(shí)不能加入截距項(xiàng),因?yàn)樾袠I(yè)因子之和為全1向量,再加截距項(xiàng)就會(huì)導(dǎo)致回歸系數(shù)不唯一確定】回歸時(shí)用OLS和WLS的區(qū)別在哪里?使用WLS的依據(jù)是什么?【Barra文檔里提到兩點(diǎn):一是市場更關(guān)注那些流通市值更大的股票;二是對(duì)消除異方差有幫助,并且支出sqrt(流通市值)是對(duì)異方差的一個(gè)較好的估計(jì),可以用作回歸權(quán)重】如何評(píng)估或衡量多因子模型的效果?如何判斷現(xiàn)有因子是否足夠解釋收益率?【R^2可以輔助判斷,也許有更好的標(biāo)準(zhǔn)?】中國股票市場多因子模型的R^2通常在什么量級(jí)?為了提高R^2,盡可能多地加入各種因子,會(huì)導(dǎo)致什么問題?如果一個(gè)因子與現(xiàn)有因子組均低相關(guān),而且能夠顯著提高R^2,那么什么樣的理由可能會(huì)使我們選擇不加入這個(gè)因子?【因子收益率不穩(wěn)定】對(duì)于回歸法因子測試,能否直接用不同截面的數(shù)據(jù)疊加在一起進(jìn)行回歸(即面板回歸)?可能產(chǎn)生的后果是什么?【牛熊市數(shù)據(jù)可能分層了,掩蓋真正的規(guī)律】進(jìn)行多元回歸時(shí),如何檢驗(yàn)共線性、異方差問題?如何解決?無風(fēng)險(xiǎn)資產(chǎn)在各個(gè)市場應(yīng)該如何選擇?中國市場有哪些選擇?各自的利弊(例如歷史長度、數(shù)據(jù)完整性、代表性等)?計(jì)算beta值的基準(zhǔn)(benchmark)如何選擇?不同選擇對(duì)整個(gè)模型影響有哪些方面?似乎研究者已經(jīng)慣于用線性模型來解釋收益率,為什么不用更復(fù)雜的模型?(或者已經(jīng)存在什么非線性的結(jié)果?)擬合多因子模型時(shí),數(shù)據(jù)挖掘問題有多嚴(yán)重?怎樣降低過擬合的程度?
收益預(yù)測
在多因子回歸中,預(yù)測的目標(biāo)是什么?收益率?對(duì)行業(yè)的超額收益率?對(duì)市場的超額收益率?還是其他的?用于收益預(yù)測的多因子模型,在擬合時(shí)應(yīng)側(cè)重考慮哪些方面?因子收益率如何預(yù)測?有哪些方法?是否有必要進(jìn)行因子擇時(shí)? 國外的文獻(xiàn)對(duì)這方面的研究成果如何?構(gòu)建選股模型時(shí),通常會(huì)對(duì)許多因子進(jìn)行降維、合并,這樣做的主要意義是什么?【國信、中信的多因子報(bào)告里都有相關(guān)介紹】對(duì)將要合并的幾個(gè)因子,如何分配它們的權(quán)重?請對(duì)靜態(tài)、動(dòng)態(tài)賦值各一例,它們各自的優(yōu)劣是什么?【提示:靜態(tài)比如簡單平均,動(dòng)態(tài)比如IC加權(quán)平均,參見安信或中信多因子報(bào)告。簡單平均的好處是邏輯簡潔便于計(jì)算,動(dòng)態(tài)平均能更多地利用市場信息】已知過去若干期的(合并后)因子暴露度,根據(jù)以上測試結(jié)果,如何預(yù)測下期收益率?用IC(橫截面相關(guān)性)衡量預(yù)測有效性有什么缺陷?未來1日收益率預(yù)測的IC通常在什么水平?未來1月的呢?不同時(shí)間尺度之間是否有固定的轉(zhuǎn)換關(guān)系?預(yù)測時(shí)間尺度如何選擇?未來1天、1周、1月、3月還是更長?【看你擁有的信息/因子在哪個(gè)時(shí)間尺度上最有效】如何將多因子模型的預(yù)測與其它預(yù)測(例如定性研究對(duì)少數(shù)股票的預(yù)測)整合?【Black-Litterman模型】
風(fēng)險(xiǎn)預(yù)測
用于風(fēng)險(xiǎn)預(yù)測的多因子模型,在擬合時(shí)應(yīng)側(cè)重考慮哪些方面?是否有必要預(yù)測收益的波動(dòng)率?如何預(yù)測收益的波動(dòng)率?是否要在優(yōu)化中使用波動(dòng)率?多因子模型預(yù)測出的協(xié)方差矩陣是否會(huì)有發(fā)生高度接近奇異的情況?設(shè)我們稱風(fēng)險(xiǎn)預(yù)測模型中的因子為“風(fēng)險(xiǎn)因子”,稱收益預(yù)測模型中的因子為“alpha因子”。如果一個(gè)alpha因子也入選了風(fēng)險(xiǎn)因子,會(huì)對(duì)組合優(yōu)化結(jié)果產(chǎn)生什么影響?如果在風(fēng)險(xiǎn)模型中特意剔除所有alpha因子,會(huì)對(duì)組合優(yōu)化結(jié)果產(chǎn)生什么影響?BARRA的多因子風(fēng)險(xiǎn)預(yù)測模型主要在哪些細(xì)節(jié)上做了精細(xì)處理?BARRA在不同市場上的多因子風(fēng)險(xiǎn)預(yù)測模型之間的細(xì)微差異,反映了各個(gè)市場的哪些特點(diǎn)?用日數(shù)據(jù)vs用月數(shù)據(jù)估計(jì)協(xié)方差矩陣,各適用于什么需求?用日內(nèi)(例如分鐘級(jí))數(shù)據(jù)來估計(jì)協(xié)方差陣的好處與壞處是什么?怎樣衡量或評(píng)估風(fēng)險(xiǎn)預(yù)測模型的有效性?
業(yè)績歸因
用于業(yè)績歸因的多因子模型,在擬合時(shí)應(yīng)側(cè)重考慮哪些方面?有人認(rèn)為,與用于預(yù)測的多因子模型相比,用于業(yè)績歸因的多因子模型,對(duì)因子之間的低共線性要求更高,請解釋可能的原因?業(yè)績歸因?qū)⒔M合收益分解為若干個(gè)因子上的收益和一個(gè)特異收益。一位有技術(shù)的定性投資經(jīng)理(基于實(shí)地調(diào)研和對(duì)某些行業(yè)、公司的洞察力)的歸因結(jié)果應(yīng)該是什么樣子?一位利用多因子模型量化選股的投資經(jīng)理的歸因結(jié)果應(yīng)該是什么樣子?在對(duì)一個(gè)已知策略邏輯大體思路的投資組合進(jìn)行業(yè)績歸因時(shí),采用標(biāo)準(zhǔn)的因子組vs采用針對(duì)性的因子組各有什么利弊?【采用標(biāo)準(zhǔn)因子組便于與其它組合橫比;采用針對(duì)性因子組便于與自身策略邏輯縱比】多因子業(yè)績歸因系統(tǒng)輸出的結(jié)果中,特異收益(specificreturn,即不可被因子解釋的收益)如果顯著地偏正或偏負(fù),怎樣解釋?怎樣調(diào)試歸因系統(tǒng)來消除偏離?純多頭組合業(yè)績歸因時(shí),以總頭寸或者主動(dòng)頭寸(=總頭寸-基準(zhǔn)頭寸)為分析對(duì)象,各有什么利弊?如果不知道組合持股明細(xì),只知道組合每日收益率,怎樣對(duì)它進(jìn)行多因子業(yè)績歸因?誤差會(huì)放大多少?多因子業(yè)績歸因模型怎樣與Brinson業(yè)績歸因模型整合使用?
組合構(gòu)建
利用多因子模型進(jìn)行選股,求解每期股票權(quán)重的問題本質(zhì)上是一個(gè)帶約束的最優(yōu)化問題,請闡述優(yōu)化目標(biāo)和約束條件各是什么?組合優(yōu)化有哪些常見方法?各要注意什么問題?股票組合中個(gè)股權(quán)重上限的設(shè)計(jì)有什么技巧?大約應(yīng)設(shè)置在什么范圍?【個(gè)股權(quán)重不能太大,否則只會(huì)集中買入每個(gè)行業(yè)預(yù)期收益最高的股票;也不能太小,否則可能出現(xiàn)某個(gè)行業(yè)內(nèi)所有股票都持倉至上限也無法達(dá)到行業(yè)中性。參考值:2%~3%,應(yīng)根據(jù)實(shí)際情況調(diào)整取值】是否要根據(jù)個(gè)股的交易量來限制個(gè)股權(quán)重的上限?如何預(yù)估市場沖擊?是否可以(大概)控制每個(gè)版塊的持倉個(gè)股數(shù)?如何做?【參考方法:股權(quán)重上限為它所處行業(yè)在滬深300(或其他基準(zhǔn))中占比除以希望持倉的個(gè)股數(shù)】建立選股模型時(shí),如何控制行業(yè)中性、市值中性(或其他條件)?建立選股模型時(shí),如何處理交易成本、股票停牌等問題?如何計(jì)買入、賣出價(jià)?純多頭約束對(duì)組合構(gòu)建的影響不止是少了一半的獲利機(jī)會(huì),這句話怎樣理解?純多頭股票組合策略應(yīng)選擇怎樣的指數(shù)作為基準(zhǔn)?滬深300、中證500、中證800?各有什么利弊?應(yīng)該每日調(diào)整頭寸,還是更低的頻率,例如每月,抑或每次財(cái)報(bào)集中發(fā)布之后?多因子模型回測過程中,是否應(yīng)對(duì)個(gè)股特別設(shè)立平倉與開倉條件(即對(duì)多因子的結(jié)果進(jìn)行修正)?如何做?
實(shí)盤
新策略從提出到開發(fā),再到上線的流程中,歷史回測(back-test)、實(shí)時(shí)模擬(paper-trading)和實(shí)盤交易(real-money)的關(guān)鍵差異何在,各自的優(yōu)劣何在?如何檢測你的模型是否已經(jīng)失效? 模型因子是否需要定期重選?實(shí)盤中一個(gè)歷史回測、實(shí)時(shí)模擬業(yè)績都很好的策略發(fā)生了異常回撤,問題可能出在什么地方?應(yīng)急預(yù)案是什么?如何設(shè)計(jì)數(shù)據(jù)庫表結(jié)構(gòu)來記錄實(shí)盤交易流水和每日資產(chǎn)明細(xì)?在實(shí)盤交易中,模型給出的交易指令常常不能被精確地執(zhí)行,如何評(píng)估其影響?
數(shù)據(jù)
基本信息、行情、基本面等基礎(chǔ)數(shù)據(jù)庫的表結(jié)構(gòu)應(yīng)該怎樣設(shè)計(jì)?出于怎樣的考慮?選擇Mysql、SQL及其它數(shù)據(jù)庫管理系統(tǒng)的利弊?常見的數(shù)據(jù)來源有哪些,數(shù)據(jù)提供商有哪些,各有哪些優(yōu)劣?用網(wǎng)頁抓取生成的數(shù)據(jù)源的利弊?如何支持多數(shù)據(jù)源?每個(gè)數(shù)據(jù)具有三個(gè)關(guān)鍵日期,數(shù)據(jù)日期、公告日期、錄入日期。對(duì)于不同類型的數(shù)據(jù)項(xiàng),上述三個(gè)關(guān)鍵日期之間的時(shí)滯情況不同,請對(duì)不同情況分別舉例。數(shù)據(jù)庫應(yīng)怎樣設(shè)計(jì)以全息保存三種關(guān)鍵日期,并使歷史回測結(jié)果更加逼真?行業(yè)分類數(shù)據(jù)選用哪家的好?發(fā)現(xiàn)一只股票的某個(gè)財(cái)務(wù)數(shù)據(jù)異常,怎樣找到真值?如何記錄基礎(chǔ)數(shù)據(jù)的勘誤歷史?怎么進(jìn)行數(shù)據(jù)清洗?擁有哪些異常行為的股票應(yīng)該列入黑名單?
程序
分析程序用MATLAB、Python、R、C++等語言各自的利弊?哪種背景和需求的人應(yīng)該選擇哪種語言?10年歷史回測,數(shù)據(jù)量大約是多少,運(yùn)算量大約是多少?怎樣的內(nèi)存不會(huì)溢出?面向過程的架構(gòu)vs面向?qū)ο蠹軜?gòu)來實(shí)現(xiàn)多因子模型各有什么利弊?
綜合
股票市場是否存在alpha,怎樣驗(yàn)證?傳統(tǒng)的基本面投資方法與多因子模型都是為了得到股票組合,他們的異同是什么?多因子回歸模型與CAPM理論和APT理論的關(guān)系是什么?一般的選股模型可以達(dá)到多少年化收益率和夏普比率?在多因子模型的構(gòu)造過程中,最核心的一個(gè)環(huán)節(jié)是什么?【我認(rèn)為是預(yù)測收益率,也許有人認(rèn)為是風(fēng)險(xiǎn)(跟蹤誤差)控制】不同交易頻率的組合投資策略——日內(nèi)(高頻、中頻、低頻)、日頻、中期、長期,其對(duì)應(yīng)的多因子模型有哪些不同?為什么同樣的策略,不同的執(zhí)行者之間會(huì)存在無法抹去的誤差(為什么你無法復(fù)制另一個(gè)人的研究報(bào)告成果)?一般來說,多因子模型對(duì)數(shù)據(jù)敏感性很強(qiáng),那么它的結(jié)果還有參考意義嗎?多因子模型作為一個(gè)如此成熟的策略,為什么還有前仆后繼的研究者?基于多因子模型的策略收益沒有吸引力,從業(yè)者眾多,是夕陽產(chǎn)業(yè)嗎?年輕人學(xué)習(xí)多因子模型是否值得?機(jī)器學(xué)習(xí)、人工智能的工具可以應(yīng)用到多因子模型的哪些地方?
3 評(píng)分標(biāo)準(zhǔn)
市場上,達(dá)到“訓(xùn)練有素”級(jí)別的人已經(jīng)為數(shù)不多,通常為大型投資研究機(jī)構(gòu)入行5年以上的從業(yè)者;“專家”級(jí)別的人更少,僅憑資歷以不能達(dá)到,還需要“天賦+勤奮+際遇”,少數(shù)機(jī)構(gòu)投研核心1-2位;“大師”級(jí)別的人在全球范圍屈指可數(shù)。
總結(jié)
以上是生活随笔為你收集整理的多因子模型水平测试题的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。