日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 >

二阶矩阵转置怎么求_矩阵求导术(下)

發(fā)布時間:2025/3/21 28 豆豆
生活随笔 收集整理的這篇文章主要介紹了 二阶矩阵转置怎么求_矩阵求导术(下) 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

本文承接上篇 https://zhuanlan.zhihu.com/p/24709748,來講矩陣對矩陣的求導術。使用小寫字母x表示標量,粗體小寫字母

表示列向量,大寫字母X表示矩陣。矩陣對矩陣的求導采用了向量化的思路,常應用于二階方法中Hessian矩陣的分析。

首先來琢磨一下定義。矩陣對矩陣的導數(shù),需要什么樣的定義?第一,矩陣F(p×q)對矩陣X(m×n)的導數(shù)應包含所有mnpq個偏導數(shù)

,從而不損失信息;第二,導數(shù)與微分有簡明的聯(lián)系,因為在計算導數(shù)和應用中需要這個聯(lián)系;第三,導數(shù)有簡明的從整體出發(fā)的算法。我們先定義向量(p×1)對向量(m×1)的導數(shù)(m×p),有;再定義矩陣的(按列優(yōu)先)向量化(mn×1),并定義矩陣F對矩陣X的導數(shù)(mn×pq)。導數(shù)與微分有聯(lián)系。幾點說明如下:
  • 按此定義,標量f對矩陣X(m×n)的導數(shù)是mn×1向量,與上篇的定義不兼容,不過二者容易相互轉換。為避免混淆,用記號表示上篇定義的m×n矩陣,則有。雖然本篇的技術可以用于標量對矩陣求導這種特殊情況,但使用上篇中的技術更方便。讀者可以通過上篇中的算例試驗兩種方法的等價轉換。
  • 標量對矩陣的二階導數(shù),又稱Hessian矩陣,定義為(mn×mn),是對稱矩陣。對向量或矩陣求導都可以得到Hessian矩陣,但從矩陣出發(fā)更方便。
  • ,求導時矩陣被向量化,弊端是這在一定程度破壞了矩陣的結構,會導致結果變得形式復雜;好處是多元微積分中關于梯度、Hessian矩陣的結論可以沿用過來,只需將矩陣向量化。例如優(yōu)化問題中,牛頓法的更新,滿足。
  • 在資料中,矩陣對矩陣的導數(shù)還有其它定義,比如(mp×nq),或是(mp×nq),它能兼容上篇中的標量對矩陣導數(shù)的定義,但微分與導數(shù)的聯(lián)系(dF等于中逐個m×n子塊分別與dX做內(nèi)積)不夠簡明,不便于計算和應用。資料[5]綜述了以上定義,并批判它們是壞的定義,能配合微分運算的才是好的定義。
  • 在資料中,有分子布局和分母布局兩種定義,其中向量對向量的導數(shù)的排布有所不同。本文使用的是分母布局,機器學習和優(yōu)化中的梯度矩陣采用此定義。而控制論等領域中的Jacobian矩陣采用分子布局,向量對向量的導數(shù)定義是,對應地導數(shù)與微分的聯(lián)系是;同樣通過向量化定義矩陣F對矩陣X的導數(shù),有。兩種布局下的導數(shù)互為轉置,二者求微分的步驟是相同的,僅在對照導數(shù)與微分的聯(lián)系時有一個轉置的區(qū)別,讀者可根據(jù)所在領域的習慣選定一種布局。
  • 然后來建立運算法則。仍然要利用導數(shù)與微分的聯(lián)系

    ,求微分的方法與上篇相同,而從微分得到導數(shù)需要一些向量化的技巧:
  • 線性:。
  • 矩陣乘法:,其中表示Kronecker積,A(m×n)與B(p×q)的Kronecker積是(mp×nq)。此式證明見張賢達《矩陣分析與應用》第107-108頁。
  • 轉置:,A是m×n矩陣,其中(mn×mn)是交換矩陣(commutation matrix),將按列優(yōu)先的向量化變?yōu)榘葱袃?yōu)先的向量化。例如。
  • 逐元素乘法:,其中(mn×mn)是用A的元素(按列優(yōu)先)排成的對角陣。
  • 觀察一下可以斷言,若矩陣函數(shù)F是矩陣X經(jīng)加減乘法、逆、行列式、逐元素函數(shù)等運算構成,則使用相應的運算法則對F求微分,再做向量化并使用技巧將其它項交換至vec(dX)左側,對照導數(shù)與微分的聯(lián)系

    ,即能得到導數(shù)。

    特別地,若矩陣退化為向量,對照導數(shù)與微分的聯(lián)系

    ,即能得到導數(shù)。

    再談一談復合:假設已求得

    ,而Y是X的函數(shù),如何求呢?從導數(shù)與微分的聯(lián)系入手,,可以推出鏈式法則。

    和標量對矩陣的導數(shù)相比,矩陣對矩陣的導數(shù)形式更加復雜,從不同角度出發(fā)常會得到形式不同的結果。有一些Kronecker積和交換矩陣相關的恒等式,可用來做等價變形:

  • 。可以對求導來證明,一方面,直接求導得到;另一方面,引入,有,用鏈式法則得到。
  • ,A是m×n矩陣,B是p×q矩陣。可以對做向量化來證明,一方面,;另一方面,。
  • 接下來演示一些算例。

    例1:

    ,X是m×n矩陣,求。

    解:先求微分:

    ,再做向量化,使用矩陣乘法的技巧,注意在dX右側添加單位陣:,對照導數(shù)與微分的聯(lián)系得到。

    特例:如果X退化為向量,即

    ,則根據(jù)向量的導數(shù)與微分的關系,得到。

    例2:

    ,X是n×n矩陣,求和。

    解:使用上篇中的技術可求得

    。為求,先求微分:,再做向量化,使用轉置和矩陣乘法的技巧,對照導數(shù)與微分的聯(lián)系,得到,注意它是對稱矩陣。在是對稱矩陣時,可簡化為。

    例3:

    ,A是l×m矩陣,X是m×n矩陣,B是n×p矩陣,exp為逐元素函數(shù),求。

    解:先求微分:

    ,再做向量化,使用矩陣乘法的技巧:,再用逐元素乘法的技巧:,再用矩陣乘法的技巧:,對照導數(shù)與微分的聯(lián)系得到。

    例4【一元logistic回歸】:

    ,求和。其中是取值0或1的標量,是列向量。

    解:使用上篇中的技術可求得

    ,其中 為sigmoid函數(shù)。為求,先求微分:,其中為sigmoid函數(shù)的導數(shù),對照導數(shù)與微分的聯(lián)系,得到。

    推廣:樣本

    ,,求和。有兩種方法,解1:先對每個樣本求導,然后相加;解2:定義矩陣,向量,將寫成矩陣形式,進而可以使用上篇中的技術求得。為求,先求微分,再用逐元素乘法的技巧:,對照導數(shù)與微分的聯(lián)系,得到。

    例5【多元logistic回歸】:

    ,求和。其中其中是除一個元素為1外其它元素為0的列向量,是矩陣,是列向量,是標量。

    解:上篇中已求得

    。為求,先求微分:定義,,注意這里化簡去掉逐元素乘法,第一項中,第二項中。定義矩陣,,做向量化并使用矩陣乘法的技巧,得到。

    最后做個總結。我們發(fā)展了從整體出發(fā)的矩陣求導的技術,導數(shù)與微分的聯(lián)系是計算的樞紐,標量對矩陣的導數(shù)與微分的聯(lián)系是

    ,先對f求微分,再使用跡技巧可求得導數(shù),特別地,標量對向量的導數(shù)與微分的聯(lián)系是;矩陣對矩陣的導數(shù)與微分的聯(lián)系是,先對F求微分,再使用向量化的技巧可求得導數(shù),特別地,向量對向量的導數(shù)與微分的聯(lián)系是。

    參考資料:

  • 張賢達. 矩陣分析與應用. 清華大學出版社有限公司, 2004.
  • Fackler, Paul L. "Notes on matrix calculus." North Carolina State University(2005).
  • Petersen, Kaare Brandt, and Michael Syskind Pedersen. "The matrix cookbook." Technical University of Denmark 7 (2008): 15.
  • HU, Pili. "Matrix Calculus: Derivation and Simple Application." (2012).
  • Magnus, Jan R., and Heinz Neudecker. "Matrix Differential Calculus with Applications in Statistics and Econometrics." Wiley, 2019.
  • 《新程序員》:云原生和全面數(shù)字化實踐50位技術專家共同創(chuàng)作,文字、視頻、音頻交互閱讀

    總結

    以上是生活随笔為你收集整理的二阶矩阵转置怎么求_矩阵求导术(下)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。