當(dāng)前位置：首頁 >

2020美赛F奖论文（三）：足球团队指标和基于机器学习的球队表现预测

發(fā)布時(shí)間：2023/12/31 48 豆豆

生活随笔收集整理的這篇文章主要介紹了 2020美赛F奖论文（三）：足球团队指标和基于机器学习的球队表现预测小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

上接：2020美賽F獎(jiǎng)?wù)撐?#xff08;二）：傳球網(wǎng)絡(luò)模型（PNM）的建立和影響因子分析
全文：

2020美賽F獎(jiǎng)?wù)撐?#xff08;一）：摘要、緒論和模型準(zhǔn)備
2020美賽F獎(jiǎng)?wù)撐?#xff08;二）：傳球網(wǎng)絡(luò)模型（PNM）的建立和影響因子分析
2020美賽F獎(jiǎng)?wù)撐?#xff08;三）：足球團(tuán)隊(duì)指標(biāo)和基于機(jī)器學(xué)習(xí)的球隊(duì)表現(xiàn)預(yù)測
2020美賽F獎(jiǎng)?wù)撐?#xff08;四）：模擬退火算法驅(qū)動(dòng)的結(jié)構(gòu)策略設(shè)計(jì)
2020美賽F獎(jiǎng)?wù)撐?#xff08;五）：結(jié)合團(tuán)隊(duì)動(dòng)力學(xué)的模型拓展、模型評價(jià)

GitHub倉庫

文章目錄

4 足球團(tuán)隊(duì)指標(biāo)和基于機(jī)器學(xué)習(xí)的球隊(duì)表現(xiàn)預(yù)測
- 4.1 靜態(tài)指標(biāo)
- 4.2 動(dòng)態(tài)指標(biāo)
- - 4.2.1數(shù)據(jù)清洗和特征工程
  - 4.2.2 可視化分析
  - 4.2.3 model建立and訓(xùn)練

4 足球團(tuán)隊(duì)指標(biāo)和基于機(jī)器學(xué)習(xí)的球隊(duì)表現(xiàn)預(yù)測

足球隊(duì)中成功團(tuán)隊(duì)合作有許多指標(biāo)，通過數(shù)據(jù)分析和實(shí)際經(jīng)驗(yàn)，我們主要考慮以下indicators：靜態(tài)指標(biāo)和動(dòng)態(tài)指標(biāo)。首先，我們使用 $Goal(G_{i})$
評價(jià)一場比賽的球隊(duì)整體發(fā)揮，作為單場比賽表現(xiàn)標(biāo)簽，定義 $Goal(G_{i})$ ：

$Goal(Gi)={?1,OwnScore?OpponentScore<?10,OwnScore?OpponentScore∈[?1,1]1,OwnScore?OpponentScore>1Goal(G_{i}) = \left\{ \begin{matrix} - 1,\ \ OwnScore - OpponentScore < - 1 \\0,\ \ OwnScore - OpponentScore \in \left\lbrack - 1,1 \right\rbrack \\1,\ \ OwnScore - OpponentScore > 1 \\\end{matrix} \right.$

4.1 靜態(tài)指標(biāo)

為了考慮球員位置分布，我們采出每個(gè)球員在整個(gè)賽季中的位置坐標(biāo)，做出球員運(yùn)動(dòng)位置的熱點(diǎn)圖，熱力圖每個(gè)點(diǎn)的值定義如下：

$Heatmappk[i,j]=14δ2∫x?δx+δ∫y?δy+δ{1,playerhasbeenhere0,playerneverpasseddxdy,δ>0\text{Heatmap}_{p_{k}}\left\lbrack i,j \right\rbrack = \frac{1}{4\delta^{2}}\int_{x - \delta}^{x + \delta}{\int_{y - \delta}^{y + \delta}\left\{ \begin{matrix} 1,player\ has\ been\ here \\ 0,\ player\ never\ passed \\ \end{matrix}\text{dxdy} \right.\ },\delta > 0$

顏色越深則表示出現(xiàn)在此處的頻率較大，越淺表示出現(xiàn)的頻率越小。經(jīng)過 $Heatmappk[i,j]\text{Heatmap}_{p_{k}}\left\lbrack i,j \right\rbrack$ 的計(jì)算，主力11人的位置熱點(diǎn)圖如下：

在一場球賽中，球隊(duì)的陣型對團(tuán)隊(duì)協(xié)作起到重要作用，我們考慮在一場球賽中球員陣型，我們采取每一場比賽中每一位球員的運(yùn)動(dòng)坐標(biāo)，采用坐標(biāo)對時(shí)間積分的方法，找出每場球賽中，每一位球員平均坐標(biāo)。將在數(shù)據(jù)中可以獲取（球員出現(xiàn)在Origin/Destination）的時(shí)間點(diǎn)作為新的橫坐標(biāo)，X或Y坐標(biāo)作為新的縱坐標(biāo)，得出函數(shù) $X(t)andY(t)X\left(t \right)\ and\ Y(t)$ 。我們近似認(rèn)為在任意兩個(gè)有記錄的時(shí)間點(diǎn)，球員在X或Y方向上勻速移動(dòng)，這樣就將離散型的數(shù)據(jù)集轉(zhuǎn)換為了連續(xù)性的數(shù)據(jù)集（每個(gè)）。因此平均坐標(biāo)，以X坐標(biāo)為例，Y坐標(biāo)同理：

$X(t)is?a?piecewisefunction,Xtis?the?X?exactly?when?t.X\left( t \right)\text{\ is\ a\ }\text{piece}wise\ function,\ X_{t}\text{\ is\ the\ X\ exactly\ when\ t.}$

${AvgX(pi)=∫090minX(t)dt≈∑i=1n[12(ti+1?ti?1)×Xt]n=numofourevents\left\{ \begin{matrix} \text{AvgX}\left( p_{i} \right) = \int_{0}^{90min}{X\left( t \right)\text{dt}} \approx \sum_{i = 1}^{n}\left\lbrack \frac{1}{2}\left( t_{i + 1} - t_{i - 1} \right) \times X_{t} \right\rbrack \\ n = num\ of\ our\ events \\ \end{matrix} \right.\$

將這11位球員的位置標(biāo)在圖中繪制出每場球賽的陣型圖，部分陣型圖如下：

4.2 動(dòng)態(tài)指標(biāo)

動(dòng)態(tài)指標(biāo)包括了球隊(duì)人為影響因素和在比賽里產(chǎn)生的技術(shù)數(shù)據(jù)：人為影響因素包括了教練、對手水平、主客場，技術(shù)數(shù)據(jù)包括了射門、傳球、解圍在內(nèi)的各種events統(tǒng)計(jì)。原始的數(shù)據(jù)以單個(gè)事件作為樣本的單位，而我們將其分類統(tǒng)計(jì)為以一場比賽為單位的動(dòng)態(tài)類型數(shù)據(jù)，通過觀察以新結(jié)構(gòu)存儲的數(shù)據(jù)，提取出其中的若干特征信息。

4.2.1數(shù)據(jù)清洗和特征工程

在特征工程中，為了降低特征的維度，不僅使用PCA篩選并剔除影響不顯著的特征，還可以使用ChiMerge這一特征分箱的方法，將EventSubTypes分為傳球，進(jìn)攻，防守和Fail四個(gè)方面，與教練、主客場、對手水平一起作為一場比賽的特征。通過標(biāo)準(zhǔn)化、啞變量、結(jié)合分析等方法處理統(tǒng)計(jì)后的數(shù)據(jù)來量化比賽的特征：

（1）統(tǒng)計(jì)型數(shù)據(jù) Statistical data

$Defence(G_{i}) = Clearance + Blocks + Interruption + Aerial\ Dual + Saves$

$Attack(G_{i}) = Shots + Dribbles + Touch + Corners + Offside$

$Fail(G_{i}) = Loss\ of\ Possession + Fouls$

$Oppo(Gi)=Pts(OpponentID)+∑j=138GDj(OpponentID)\text{Oppo}\left( G_{i} \right) = Pts\left( \text{OpponentID} \right) + \sum_{j = 1}^{38}{\text{GD}_{j}\left( \text{OpponentID} \right)}$

（2）多事件結(jié)合分析型數(shù)據(jù) Multi-event combined analysis data

$Possession(Gi)=190min∑i=2n(ti?ti+1),(nisthenumberofHuskies′data)Possession(G_{i}) = \frac{1}{90min}\sum_{i = 2}^{n}{(t_{i} - t_{i + 1})},(n\ is\ the\ number\ of\ Huskies^{'}data)$

（3）One-Hot編碼啞變量數(shù)據(jù) One-Hot encoded dummy variable data

$Side(Gi)={0,home1,away={[1,0],home[0,1],away\text{Side}\left( G_{i} \right) = \left\{ \begin{matrix} 0,h\text{ome} \\ 1,away \\ \end{matrix} \right.\ = \left\{ \begin{matrix} \left\lbrack 1,0 \right\rbrack,home \\ \left\lbrack 0,1 \right\rbrack,away \\ \end{matrix} \right.\$

${Coach(1)=[1,0,0]Coach(2)=[0,1,0]Coach(3)=[0,0,1]\left\{ \begin{matrix} \text{Coac}h\left( 1 \right) = \left\lbrack 1,0,0 \right\rbrack \\ \text{Coac}h\left( 2 \right) = \left\lbrack 0,1,0 \right\rbrack \\ \text{Coac}h\left( 3 \right) = \left\lbrack 0,0,1 \right\rbrack \\ \end{matrix} \right.\$

4.2.2 可視化分析

分析 $Side(Gi)\text{Side}\left( G_{i} \right)$ $對于$ $Goal(Gi)andRatings(Gi)\text{\ Goal}\left( G_{i} \right)\ and\ Ratings(G_{i})$ 影響：

$Side(Gi)=0\text{Side}\left( G_{i} \right) = 0$ 時(shí) $Goal(Gi)=0or1\text{Goal}\left( G_{i} \right) = 0\ or\ 1$ 的分布更多， $Ratings(G_{i})$ 分布更高，因此主場表現(xiàn)結(jié)果整體上比客場要好。

分析不同Coach的執(zhí)教水平以及對于球隊(duì) $Attack(Gi),Defence(Gi),Passes(Gi)andFail(Gi)\text{Attack}\left( G_{i} \right),Defence\left( G_{i} \right),Passes\left( G_{i} \right)\ and\ Fail(G_{i})$ 的指導(dǎo)成效：

從boxen圖我們可以看出，在Coach 3指導(dǎo)下，球隊(duì) $Goal(Gi),Attack(Gi)\text{Goal}\left( G_{i} \right),Attack\left( G_{i} \right)$ 等數(shù)據(jù)較好，其次是Coach 2和Coach 1。我們還可以得出教練們的執(zhí)教風(fēng)格，例如：教練1更具侵略性，防守就顯得平庸；教練2強(qiáng)調(diào)強(qiáng)硬防守；教練3則較為平衡，戰(zhàn)績最佳。

分析 $Attack(Gi)\text{Attack}\left( G_{i} \right)$ 、 $Passes(Gi)\text{Passes}\left( G_{i} \right)$ 對于 $Goal(Gi)\text{\ Goal}\left( G_{i} \right)$ 的貢獻(xiàn)：

從圖中我們可以看出，在不同凈勝球數(shù)下，進(jìn)攻和傳球大體上為線性相關(guān)，斜率為正。

${Passes(Gi)in?[0.0,1.0],Attack(Gi)in?[0.0,0.9],Goal(Gi)<0Passes(Gi)in?[0.0,1.0],Attack(Gi)in?[0.1,1.0],Goal(Gi)=0Passes(Gi)in?[0.5,0.8],Attack(Gi)in?[0.6,1.0],Goal(Gi)>0,Mainly\left\{ \begin{matrix} \text{Passes}\left( G_{i} \right)\text{\ in\ }\left\lbrack 0.0,1.0 \right\rbrack,Attack\left( G_{i} \right)\text{\ in\ }\left\lbrack 0.0,0.9 \right\rbrack,Goal\left( G_{i} \right) < 0 \\ \text{Passes}\left( G_{i} \right)\text{\ in\ }\left\lbrack 0.0,1.0 \right\rbrack,Attack\left( G_{i} \right)\text{\ in\ }\left\lbrack 0.1,1.0 \right\rbrack,Goal\left( G_{i} \right) = 0 \\ \text{Passes}\left( G_{i} \right)\text{\ in\ }\left\lbrack 0.5,0.8 \right\rbrack,Attack\left( G_{i} \right)\text{\ in\ }\left\lbrack 0.6,1.0 \right\rbrack,Goal\left( G_{i} \right) > 0 \\ \end{matrix},\ Mainly \right.\$

$Goal(G_{i})$ 與 $Passes(Gi)and?Attack(Gi)\text{Passes}\left( G_{i} \right)\text{\ and\ Attack}\left( G_{i} \right)$ 呈正相關(guān)，且分布越集中， $Passes(Gi)and?Attack(Gi)\text{Passes}\left( G_{i} \right)\text{\ and\ Attack}\left( G_{i} \right)$ 的方差較小。我們可以得出結(jié)論：在一場球賽乃至整個(gè)賽季， $Goal(G_{i})$ 越多，大概率有著更高的 $Passes(Gi)and?Attack(Gi)\text{Passes}\left(G_{i} \right)\text{\ and\ Attack}\left( G_{i} \right)$ 。

分析 $Defence(Gi)\text{Defence}\left( G_{i} \right)$ 、 $Fail(Gi)\text{Fail}\left( G_{i} \right)$ 對于 $Goal(Gi)\text{\ Goal}\left( G_{i} \right)$ 的貢獻(xiàn)：

${Fail(Gi)in?[?1.0,?0.2],Defence(Gi)in?[0.0,0.5],Goal(Gi)<0Fail(Gi)in?[?1.0,0.0],Defence(Gi)in?[0.0,1.0],Goal(Gi)=0Fail(Gi)in?[?0.6,?0.2],Defence(Gi)in?[0.0,0.7],Goal(Gi)>0,Mainly\left\{ \begin{matrix} \text{Fail}\left( G_{i} \right)\text{\ in\ }\left\lbrack - 1.0, - 0.2 \right\rbrack,Defence\left( G_{i} \right)\text{\ in\ }\left\lbrack 0.0,0.5 \right\rbrack,Goal\left( G_{i} \right) < 0 \\ \text{Fail}\left( G_{i} \right)\text{\ in\ }\left\lbrack - 1.0,0.0 \right\rbrack,Defence\left( G_{i} \right)\text{\ in\ }\left\lbrack 0.0,1.0 \right\rbrack,Goal\left( G_{i} \right) = 0 \\ \text{Fail}\left( G_{i} \right)\text{\ in\ }\left\lbrack - 0.6, - 0.2 \right\rbrack,Defence\left( G_{i} \right)\text{\ in\ }\left\lbrack 0.0,0.7 \right\rbrack,Goal\left( G_{i} \right) > 0 \\ \end{matrix},\ Mainly \right.\$

$Goal(Gi)\text{Goal}\left( G_{i} \right)$ 與 $Defence(Gi)\text{Defence}\left( G_{i} \right)$ 呈正相關(guān)，與 $∣Fail(Gi)∣\left| \text{Fail}\left( G_{i} \right) \right|$ 呈負(fù)相關(guān)，且分布越集中， $Defence(Gi)and?Fail(Gi)\text{Defence}\left( G_{i} \right) \text{and}\text{\ Fail}\left( G_{i}\right)$ 的方差較小。觀察發(fā)現(xiàn)：圖2左1的點(diǎn)分布在下方，因此防守不好會導(dǎo)致輸球；右1左半邊沒有點(diǎn)，因此期望贏球則失誤不能多。

以 $Attack(Gi),Defence(Gi),Passes(Gi)\text{Attack}\left( G_{i} \right),Defence\left( G_{i} \right),Passes\left( G_{i} \right)$ 作為考察球隊(duì)整體表現(xiàn)的positive指標(biāo)，結(jié)合 $Passes(Gi),Oppo(Gi)\text{Passes}\left( G_{i} \right),Oppo\left( G_{i} \right)$ 指標(biāo)進(jìn)行多角度分析：

從左圖中我們可以看出數(shù)據(jù)重心分布在右下角，認(rèn)為整個(gè)賽季上 $Attack(Gi)\text{Attack}\left( G_{i} \right)$ （進(jìn)攻表現(xiàn)）顯著優(yōu)于 $Defence(Gi)\text{Defence}\left( G_{i} \right)$ （防守表現(xiàn)）。從右圖中我們可以看出不論是在主場還是客場， $Passes(Gi)∝[α1Oppo(Gi)+β]\text{Passes}\left( G_{i} \right) \propto \left\lbrack \alpha\frac{1}{\text{Oppo}\left( G_{i}\right)} + \beta\right\rbrack$ ，但主場更可能有較小提升；結(jié)論是對手水平越高，我方傳球率越低。

綜合所有處理得到的特征，通過Pearson相關(guān)系數(shù)的計(jì)算來估計(jì)出變量間兩兩特征相關(guān)性。

$rxy=N∑xiyi?∑xi∑yiN∑xi2?(∑xi)2N∑yi2?(∑yi)2r_{\text{xy}} = \frac{N\sum_{}^{}{x_{i}y_{i} - \sum_{}^{}{x_{i}\sum_{}^{}y_{i}}}}{\sqrt{N\sum_{}^{}x_{i}^{2} - \left( \sum_{}^{}x_{i} \right)^{2}}\sqrt{N\sum_{}^{}y_{i}^{2} - \left( \sum_{}^{}y_{i} \right)^{2}}}$

令矩陣 $Arr[i,j]=rij\text{Arr}\left\lbrack i,j \right\rbrack = r_{\text{ij}}$ ，得：

4.2.3 model建立and訓(xùn)練

我們以 $Goal(G_{i})$ 作為每場比賽評價(jià)標(biāo)簽，希望學(xué)習(xí)后的模型能夠基于處理后的數(shù)據(jù)對比賽進(jìn)行分類，對應(yīng)到 $Goal(G_{i})$ 的標(biāo)簽。由于 $M = 10$ 個(gè)特征數(shù)量較多，且與標(biāo)簽相關(guān)性不一，不宜采用線性模型進(jìn)行分類；且樣本數(shù)據(jù) $N = 38$ 數(shù)量極少，在嘗試一些深度學(xué)習(xí)算法時(shí)容易有較大偏差。綜上，我們選擇隨機(jī)森林模型建立 $Goal(G_{i})$ 標(biāo)簽分類器。

隨機(jī)森林是一個(gè)包含多個(gè)決策樹的分類器，
并且其輸出的類別是由個(gè)別樹輸出的類別的眾數(shù)而定。對于很多種資料，它可以產(chǎn)生高準(zhǔn)確度的分類器；它可以在決定類別時(shí)，評估變數(shù)的重要性；在建造森林時(shí)，它可以在內(nèi)部對于一般化后的誤差產(chǎn)生不偏差的估計(jì)。建立隨機(jī)森林分類器Random
Forest Classifier的方法如下：

輸入特征數(shù)目 $m$ ，用于確定決策樹上一個(gè)節(jié)點(diǎn)的決策結(jié)果 $\sqrt[2]{M}$ ；

利用Bootstrap取樣，從 $N$ 個(gè)訓(xùn)練用例中以有放回抽樣的方式，取樣 $N$ 次，形成一個(gè)訓(xùn)練集，并用未抽到的用例作預(yù)測，評估其誤差；

對于每一個(gè)節(jié)點(diǎn)，隨機(jī)選擇m個(gè)特征，決策樹上每個(gè)節(jié)點(diǎn)的決定都是基于這些特征確定的。根據(jù)這m個(gè)特征，計(jì)算其最佳的分裂方式；

每棵樹都會完整成長而不會剪枝，這有可能在建完一棵正常樹狀分類器后會被采用。

隨機(jī)森林分類器的訓(xùn)練后，使用網(wǎng)格搜索grid search進(jìn)行參數(shù)調(diào)優(yōu)，選定

${n_estimator=50randomrate=0max_depth=3max_feature=M2\left\{ \begin{matrix} n\_ estimator = 50 \\ \text{rando}m_{\text{rate}} = 0 \\ max\_ depth = 3 \\ max\_ feature = \sqrt[2]{M} \\ \end{matrix} \right.\$

作為參數(shù)，利用K折交叉驗(yàn)證驗(yàn)計(jì)算其accuracy score，用于評估模型準(zhǔn)確率。

經(jīng)過一定的數(shù)據(jù)調(diào)整和多次模擬結(jié)果，平均情況下得分為 $65.8%65.8\%$ ，最好的數(shù)據(jù)情況下可以達(dá)到 $90\%$ 的得分，在樣本規(guī)模僅有 $N = 38$ 的情況下，我們可以接受這一模型通過動(dòng)態(tài)指標(biāo)對比賽凈勝球情況進(jìn)行預(yù)測的準(zhǔn)確率。

下接：2020美賽F獎(jiǎng)?wù)撐?#xff08;四）：模擬退火算法驅(qū)動(dòng)的結(jié)構(gòu)策略設(shè)計(jì)
全文：

2020美賽F獎(jiǎng)?wù)撐?#xff08;一）：摘要、緒論和模型準(zhǔn)備
2020美賽F獎(jiǎng)?wù)撐?#xff08;二）：傳球網(wǎng)絡(luò)模型（PNM）的建立和影響因子分析
2020美賽F獎(jiǎng)?wù)撐?#xff08;三）：足球團(tuán)隊(duì)指標(biāo)和基于機(jī)器學(xué)習(xí)的球隊(duì)表現(xiàn)預(yù)測
2020美賽F獎(jiǎng)?wù)撐?#xff08;四）：模擬退火算法驅(qū)動(dòng)的結(jié)構(gòu)策略設(shè)計(jì)
2020美賽F獎(jiǎng)?wù)撐?#xff08;五）：結(jié)合團(tuán)隊(duì)動(dòng)力學(xué)的模型拓展、模型評價(jià)

總結(jié)

以上是生活随笔為你收集整理的2020美赛F奖论文（三）：足球团队指标和基于机器学习的球队表现预测的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。