日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

2020美赛F奖论文(三):足球团队指标和基于机器学习的球队表现预测

發布時間:2023/12/31 编程问答 40 豆豆
生活随笔 收集整理的這篇文章主要介紹了 2020美赛F奖论文(三):足球团队指标和基于机器学习的球队表现预测 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

上接:2020美賽F獎論文(二):傳球網絡模型(PNM)的建立和影響因子分析
全文:

  • 2020美賽F獎論文(一):摘要、緒論和模型準備
  • 2020美賽F獎論文(二):傳球網絡模型(PNM)的建立和影響因子分析
  • 2020美賽F獎論文(三):足球團隊指標和基于機器學習的球隊表現預測
  • 2020美賽F獎論文(四):模擬退火算法驅動的結構策略設計
  • 2020美賽F獎論文(五):結合團隊動力學的模型拓展、模型評價
  • GitHub倉庫

文章目錄

  • 4 足球團隊指標和基于機器學習的球隊表現預測
    • 4.1 靜態指標
    • 4.2 動態指標
      • 4.2.1數據清洗和特征工程
      • 4.2.2 可視化分析
      • 4.2.3 model建立and訓練

4 足球團隊指標和基于機器學習的球隊表現預測

足球隊中成功團隊合作有許多指標,通過數據分析和實際經驗,我們主要考慮以下indicators:靜態指標和動態指標。首先,我們使用Goal(Gi)Goal(G_{i})Goal(Gi?)
評價一場比賽的球隊整體發揮,作為單場比賽表現標簽,定義Goal(Gi)Goal(G_{i})Goal(Gi?)

Goal(Gi)={?1,OwnScore?OpponentScore<?10,OwnScore?OpponentScore∈[?1,1]1,OwnScore?OpponentScore>1Goal(G_{i}) = \left\{ \begin{matrix} - 1,\ \ OwnScore - OpponentScore < - 1 \\0,\ \ OwnScore - OpponentScore \in \left\lbrack - 1,1 \right\rbrack \\1,\ \ OwnScore - OpponentScore > 1 \\\end{matrix} \right. Goal(Gi?)=?????1,??OwnScore?OpponentScore<?10,??OwnScore?OpponentScore[?1,1]1,??OwnScore?OpponentScore>1?

4.1 靜態指標

為了考慮球員位置分布,我們采出每個球員在整個賽季中的位置坐標,做出球員運動位置的熱點圖,熱力圖每個點的值定義如下:

Heatmappk[i,j]=14δ2∫x?δx+δ∫y?δy+δ{1,playerhasbeenhere0,playerneverpasseddxdy,δ>0\text{Heatmap}_{p_{k}}\left\lbrack i,j \right\rbrack = \frac{1}{4\delta^{2}}\int_{x - \delta}^{x + \delta}{\int_{y - \delta}^{y + \delta}\left\{ \begin{matrix} 1,player\ has\ been\ here \\ 0,\ player\ never\ passed \\ \end{matrix}\text{dxdy} \right.\ },\delta > 0 Heatmappk??[i,j]=4δ21?x?δx+δ?y?δy+δ?{1,player?has?been?here0,?player?never?passed?dxdy?,δ>0

顏色越深則表示出現在此處的頻率較大,越淺表示出現的頻率越小。經過Heatmappk[i,j]\text{Heatmap}_{p_{k}}\left\lbrack i,j \right\rbrackHeatmappk??[i,j]的計算,主力11人的位置熱點圖如下:

在一場球賽中,球隊的陣型對團隊協作起到重要作用,我們考慮在一場球賽中球員陣型,我們采取每一場比賽中每一位球員的運動坐標,采用坐標對時間積分的方法,找出每場球賽中,每一位球員平均坐標。將在數據中可以獲取(球員出現在Origin/Destination)的時間點作為新的橫坐標,X或Y坐標作為新的縱坐標,得出函數X(t)andY(t)X\left(t \right)\ and\ Y(t)X(t)?and?Y(t)。我們近似認為在任意兩個有記錄的時間點,球員在X或Y方向上勻速移動,這樣就將離散型的數據集轉換為了連續性的數據集(每個)。因此平均坐標,以X坐標為例,Y坐標同理:

X(t)is?a?piecewisefunction,Xtis?the?X?exactly?when?t.X\left( t \right)\text{\ is\ a\ }\text{piece}wise\ function,\ X_{t}\text{\ is\ the\ X\ exactly\ when\ t.} X(t)?is?a?piecewise?function,?Xt??is?the?X?exactly?when?t.

{AvgX(pi)=∫090minX(t)dt≈∑i=1n[12(ti+1?ti?1)×Xt]n=numofourevents\left\{ \begin{matrix} \text{AvgX}\left( p_{i} \right) = \int_{0}^{90min}{X\left( t \right)\text{dt}} \approx \sum_{i = 1}^{n}\left\lbrack \frac{1}{2}\left( t_{i + 1} - t_{i - 1} \right) \times X_{t} \right\rbrack \\ n = num\ of\ our\ events \\ \end{matrix} \right.\ {AvgX(pi?)=090min?X(t)dti=1n?[21?(ti+1??ti?1?)×Xt?]n=num?of?our?events??

將這11位球員的位置標在圖中繪制出每場球賽的陣型圖,部分陣型圖如下:

4.2 動態指標

動態指標包括了球隊人為影響因素和在比賽里產生的技術數據:人為影響因素包括了教練、對手水平、主客場,技術數據包括了射門、傳球、解圍在內的各種events統計。原始的數據以單個事件作為樣本的單位,而我們將其分類統計為以一場比賽為單位的動態類型數據,通過觀察以新結構存儲的數據,提取出其中的若干特征信息。

4.2.1數據清洗和特征工程

在特征工程中,為了降低特征的維度,不僅使用PCA篩選并剔除影響不顯著的特征,還可以使用ChiMerge這一特征分箱的方法,將EventSubTypes分為傳球,進攻,防守和Fail四個方面,與教練、主客場、對手水平一起作為一場比賽的特征。通過標準化、啞變量、結合分析等方法處理統計后的數據來量化比賽的特征:

(1)統計型數據 Statistical data

Defence(Gi)=Clearance+Blocks+Interruption+AerialDual+SavesDefence(G_{i}) = Clearance + Blocks + Interruption + Aerial\ Dual + Saves Defence(Gi?)=Clearance+Blocks+Interruption+Aerial?Dual+Saves

Attack(Gi)=Shots+Dribbles+Touch+Corners+OffsideAttack(G_{i}) = Shots + Dribbles + Touch + Corners + Offside Attack(Gi?)=Shots+Dribbles+Touch+Corners+Offside

Fail(Gi)=LossofPossession+FoulsFail(G_{i}) = Loss\ of\ Possession + Fouls Fail(Gi?)=Loss?of?Possession+Fouls

Oppo(Gi)=Pts(OpponentID)+∑j=138GDj(OpponentID)\text{Oppo}\left( G_{i} \right) = Pts\left( \text{OpponentID} \right) + \sum_{j = 1}^{38}{\text{GD}_{j}\left( \text{OpponentID} \right)} Oppo(Gi?)=Pts(OpponentID)+j=138?GDj?(OpponentID)

(2)多事件結合分析型數據 Multi-event combined analysis data

Possession(Gi)=190min∑i=2n(ti?ti+1),(nisthenumberofHuskies′data)Possession(G_{i}) = \frac{1}{90min}\sum_{i = 2}^{n}{(t_{i} - t_{i + 1})},(n\ is\ the\ number\ of\ Huskies^{'}data) Possession(Gi?)=90min1?i=2n?(ti??ti+1?),(n?is?the?number?of?Huskiesdata)

(3)One-Hot編碼啞變量數據 One-Hot encoded dummy variable data

Side(Gi)={0,home1,away={[1,0],home[0,1],away\text{Side}\left( G_{i} \right) = \left\{ \begin{matrix} 0,h\text{ome} \\ 1,away \\ \end{matrix} \right.\ = \left\{ \begin{matrix} \left\lbrack 1,0 \right\rbrack,home \\ \left\lbrack 0,1 \right\rbrack,away \\ \end{matrix} \right.\ Side(Gi?)={0,home1,away??={[1,0],home[0,1],away??

{Coach(1)=[1,0,0]Coach(2)=[0,1,0]Coach(3)=[0,0,1]\left\{ \begin{matrix} \text{Coac}h\left( 1 \right) = \left\lbrack 1,0,0 \right\rbrack \\ \text{Coac}h\left( 2 \right) = \left\lbrack 0,1,0 \right\rbrack \\ \text{Coac}h\left( 3 \right) = \left\lbrack 0,0,1 \right\rbrack \\ \end{matrix} \right.\ ????Coach(1)=[1,0,0]Coach(2)=[0,1,0]Coach(3)=[0,0,1]??

4.2.2 可視化分析

分析Side(Gi)\text{Side}\left( G_{i} \right)Side(Gi?)對于對于Goal(Gi)andRatings(Gi)\text{\ Goal}\left( G_{i} \right)\ and\ Ratings(G_{i})?Goal(Gi?)?and?Ratings(Gi?)影響:

Side(Gi)=0\text{Side}\left( G_{i} \right) = 0Side(Gi?)=0Goal(Gi)=0or1\text{Goal}\left( G_{i} \right) = 0\ or\ 1Goal(Gi?)=0?or?1的分布更多,Ratings(Gi)Ratings(G_{i})Ratings(Gi?)分布更高,因此主場表現結果整體上比客場要好。

分析不同Coach的執教水平以及對于球隊Attack(Gi),Defence(Gi),Passes(Gi)andFail(Gi)\text{Attack}\left( G_{i} \right),Defence\left( G_{i} \right),Passes\left( G_{i} \right)\ and\ Fail(G_{i})Attack(Gi?),Defence(Gi?),Passes(Gi?)?and?Fail(Gi?)的指導成效:



從boxen圖我們可以看出,在Coach 3指導下,球隊Goal(Gi),Attack(Gi)\text{Goal}\left( G_{i} \right),Attack\left( G_{i} \right)Goal(Gi?),Attack(Gi?)等數據較好,其次是Coach 2和Coach 1。我們還可以得出教練們的執教風格,例如:教練1更具侵略性,防守就顯得平庸;教練2強調強硬防守;教練3則較為平衡,戰績最佳。

分析Attack(Gi)\text{Attack}\left( G_{i} \right)Attack(Gi?)Passes(Gi)\text{Passes}\left( G_{i} \right)Passes(Gi?)對于Goal(Gi)\text{\ Goal}\left( G_{i} \right)?Goal(Gi?)的貢獻:

從圖中我們可以看出,在不同凈勝球數下,進攻和傳球大體上為線性相關,斜率為正。

{Passes(Gi)in?[0.0,1.0],Attack(Gi)in?[0.0,0.9],Goal(Gi)<0Passes(Gi)in?[0.0,1.0],Attack(Gi)in?[0.1,1.0],Goal(Gi)=0Passes(Gi)in?[0.5,0.8],Attack(Gi)in?[0.6,1.0],Goal(Gi)>0,Mainly\left\{ \begin{matrix} \text{Passes}\left( G_{i} \right)\text{\ in\ }\left\lbrack 0.0,1.0 \right\rbrack,Attack\left( G_{i} \right)\text{\ in\ }\left\lbrack 0.0,0.9 \right\rbrack,Goal\left( G_{i} \right) < 0 \\ \text{Passes}\left( G_{i} \right)\text{\ in\ }\left\lbrack 0.0,1.0 \right\rbrack,Attack\left( G_{i} \right)\text{\ in\ }\left\lbrack 0.1,1.0 \right\rbrack,Goal\left( G_{i} \right) = 0 \\ \text{Passes}\left( G_{i} \right)\text{\ in\ }\left\lbrack 0.5,0.8 \right\rbrack,Attack\left( G_{i} \right)\text{\ in\ }\left\lbrack 0.6,1.0 \right\rbrack,Goal\left( G_{i} \right) > 0 \\ \end{matrix},\ Mainly \right.\ ????Passes(Gi?)?in?[0.0,1.0],Attack(Gi?)?in?[0.0,0.9],Goal(Gi?)<0Passes(Gi?)?in?[0.0,1.0],Attack(Gi?)?in?[0.1,1.0],Goal(Gi?)=0Passes(Gi?)?in?[0.5,0.8],Attack(Gi?)?in?[0.6,1.0],Goal(Gi?)>0?,?Mainly?

Goal(Gi)Goal(G_{i})Goal(Gi?)Passes(Gi)and?Attack(Gi)\text{Passes}\left( G_{i} \right)\text{\ and\ Attack}\left( G_{i} \right)Passes(Gi?)?and?Attack(Gi?)呈正相關,且分布越集中,Passes(Gi)and?Attack(Gi)\text{Passes}\left( G_{i} \right)\text{\ and\ Attack}\left( G_{i} \right)Passes(Gi?)?and?Attack(Gi?)的方差較小。我們可以得出結論:在一場球賽乃至整個賽季,Goal(Gi)Goal(G_{i})Goal(Gi?)越多,大概率有著更高的Passes(Gi)and?Attack(Gi)\text{Passes}\left(G_{i} \right)\text{\ and\ Attack}\left( G_{i} \right)Passes(Gi?)?and?Attack(Gi?)

分析Defence(Gi)\text{Defence}\left( G_{i} \right)Defence(Gi?)Fail(Gi)\text{Fail}\left( G_{i} \right)Fail(Gi?)對于Goal(Gi)\text{\ Goal}\left( G_{i} \right)?Goal(Gi?)的貢獻:

{Fail(Gi)in?[?1.0,?0.2],Defence(Gi)in?[0.0,0.5],Goal(Gi)<0Fail(Gi)in?[?1.0,0.0],Defence(Gi)in?[0.0,1.0],Goal(Gi)=0Fail(Gi)in?[?0.6,?0.2],Defence(Gi)in?[0.0,0.7],Goal(Gi)>0,Mainly\left\{ \begin{matrix} \text{Fail}\left( G_{i} \right)\text{\ in\ }\left\lbrack - 1.0, - 0.2 \right\rbrack,Defence\left( G_{i} \right)\text{\ in\ }\left\lbrack 0.0,0.5 \right\rbrack,Goal\left( G_{i} \right) < 0 \\ \text{Fail}\left( G_{i} \right)\text{\ in\ }\left\lbrack - 1.0,0.0 \right\rbrack,Defence\left( G_{i} \right)\text{\ in\ }\left\lbrack 0.0,1.0 \right\rbrack,Goal\left( G_{i} \right) = 0 \\ \text{Fail}\left( G_{i} \right)\text{\ in\ }\left\lbrack - 0.6, - 0.2 \right\rbrack,Defence\left( G_{i} \right)\text{\ in\ }\left\lbrack 0.0,0.7 \right\rbrack,Goal\left( G_{i} \right) > 0 \\ \end{matrix},\ Mainly \right.\ ????Fail(Gi?)?in?[?1.0,?0.2],Defence(Gi?)?in?[0.0,0.5],Goal(Gi?)<0Fail(Gi?)?in?[?1.0,0.0],Defence(Gi?)?in?[0.0,1.0],Goal(Gi?)=0Fail(Gi?)?in?[?0.6,?0.2],Defence(Gi?)?in?[0.0,0.7],Goal(Gi?)>0?,?Mainly?

Goal(Gi)\text{Goal}\left( G_{i} \right)Goal(Gi?)Defence(Gi)\text{Defence}\left( G_{i} \right)Defence(Gi?)呈正相關,與∣Fail(Gi)∣\left| \text{Fail}\left( G_{i} \right) \right|Fail(Gi?)呈負相關,且分布越集中,Defence(Gi)and?Fail(Gi)\text{Defence}\left( G_{i} \right) \text{and}\text{\ Fail}\left( G_{i}\right)Defence(Gi?)and?Fail(Gi?)的方差較小。觀察發現:圖2左1的點分布在下方,因此防守不好會導致輸球;右1左半邊沒有點,因此期望贏球則失誤不能多。

Attack(Gi),Defence(Gi),Passes(Gi)\text{Attack}\left( G_{i} \right),Defence\left( G_{i} \right),Passes\left( G_{i} \right)Attack(Gi?),Defence(Gi?),Passes(Gi?)作為考察球隊整體表現的positive指標,結合Passes(Gi),Oppo(Gi)\text{Passes}\left( G_{i} \right),Oppo\left( G_{i} \right)Passes(Gi?),Oppo(Gi?)指標進行多角度分析:

從左圖中我們可以看出數據重心分布在右下角,認為整個賽季上Attack(Gi)\text{Attack}\left( G_{i} \right)Attack(Gi?)(進攻表現)顯著優于Defence(Gi)\text{Defence}\left( G_{i} \right)Defence(Gi?)(防守表現)。從右圖中我們可以看出不論是在主場還是客場,Passes(Gi)∝[α1Oppo(Gi)+β]\text{Passes}\left( G_{i} \right) \propto \left\lbrack \alpha\frac{1}{\text{Oppo}\left( G_{i}\right)} + \beta\right\rbrackPasses(Gi?)[αOppo(Gi?)1?+β],但主場更可能有較小提升;結論是對手水平越高,我方傳球率越低。

綜合所有處理得到的特征,通過Pearson相關系數的計算來估計出變量間兩兩特征相關性。

rxy=N∑xiyi?∑xi∑yiN∑xi2?(∑xi)2N∑yi2?(∑yi)2r_{\text{xy}} = \frac{N\sum_{}^{}{x_{i}y_{i} - \sum_{}^{}{x_{i}\sum_{}^{}y_{i}}}}{\sqrt{N\sum_{}^{}x_{i}^{2} - \left( \sum_{}^{}x_{i} \right)^{2}}\sqrt{N\sum_{}^{}y_{i}^{2} - \left( \sum_{}^{}y_{i} \right)^{2}}} rxy?=N?xi2??(?xi?)2?N?yi2??(?yi?)2?N?xi?yi???xi??yi??

令矩陣Arr[i,j]=rij\text{Arr}\left\lbrack i,j \right\rbrack = r_{\text{ij}}Arr[i,j]=rij?,得:

4.2.3 model建立and訓練

我們以Goal(Gi)Goal(G_{i})Goal(Gi?)作為每場比賽評價標簽,希望學習后的模型能夠基于處理后的數據對比賽進行分類,對應到Goal(Gi)Goal(G_{i})Goal(Gi?)的標簽。由于M=10M=10M=10個特征數量較多,且與標簽相關性不一,不宜采用線性模型進行分類;且樣本數據N=38N=38N=38數量極少,在嘗試一些深度學習算法時容易有較大偏差。綜上,我們選擇隨機森林模型建立Goal(Gi)Goal(G_{i})Goal(Gi?)標簽分類器。

隨機森林是一個包含多個決策樹的分類器,
并且其輸出的類別是由個別樹輸出的類別的眾數而定。對于很多種資料,它可以產生高準確度的分類器;它可以在決定類別時,評估變數的重要性;在建造森林時,它可以在內部對于一般化后的誤差產生不偏差的估計。建立隨機森林分類器Random
Forest Classifier的方法如下:

  • 輸入特征數目mmm,用于確定決策樹上一個節點的決策結果m<M2m < \sqrt[2]{M}m<2M?

  • 利用Bootstrap取樣,從NNN個訓練用例中以有放回抽樣的方式,取樣NNN次,形成一個訓練集,并用未抽到的用例作預測,評估其誤差;

  • 對于每一個節點,隨機選擇m個特征,決策樹上每個節點的決定都是基于這些特征確定的。根據這m個特征,計算其最佳的分裂方式;

  • 每棵樹都會完整成長而不會剪枝,這有可能在建完一棵正常樹狀分類器后會被采用。

  • 隨機森林分類器的訓練后,使用網格搜索grid search進行參數調優,選定

    {n_estimator=50randomrate=0max_depth=3max_feature=M2\left\{ \begin{matrix} n\_ estimator = 50 \\ \text{rando}m_{\text{rate}} = 0 \\ max\_ depth = 3 \\ max\_ feature = \sqrt[2]{M} \\ \end{matrix} \right.\ ????????n_estimator=50randomrate?=0max_depth=3max_feature=2M???

    作為參數,利用K折交叉驗證驗計算其accuracy score,用于評估模型準確率。

    經過一定的數據調整和多次模擬結果,平均情況下得分為65.8%65.8\%65.8%,最好的數據情況下可以達到80?90%80- 90\%80?90%的得分,在樣本規模僅有N=38N = 38N=38的情況下,我們可以接受這一模型通過動態指標對比賽凈勝球情況進行預測的準確率。

    下接:2020美賽F獎論文(四):模擬退火算法驅動的結構策略設計
    全文:

    • 2020美賽F獎論文(一):摘要、緒論和模型準備
    • 2020美賽F獎論文(二):傳球網絡模型(PNM)的建立和影響因子分析
    • 2020美賽F獎論文(三):足球團隊指標和基于機器學習的球隊表現預測
    • 2020美賽F獎論文(四):模擬退火算法驅動的結構策略設計
    • 2020美賽F獎論文(五):結合團隊動力學的模型拓展、模型評價

    總結

    以上是生活随笔為你收集整理的2020美赛F奖论文(三):足球团队指标和基于机器学习的球队表现预测的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。