深度神经网络:WX+b vs XW+b
作者:chen_h
微信號 & QQ:862251340
微信公眾號:coderpai
我的博客:請點擊這里
在大多數(shù)的神經(jīng)網(wǎng)絡(luò)教科書中,神經(jīng)網(wǎng)絡(luò)一般都會使用 y = WX+B 或者 y = XW+B 的形式。但是在 tensorflow 或者 theano 中,神經(jīng)網(wǎng)絡(luò)的實現(xiàn)都是采用了 y = XW+B 的形式。這是為什么呢?我花了很多的時間去查找資料,最后發(fā)現(xiàn)一點,可能是 y = XW+B 計算導(dǎo)數(shù)比 y = WX+B 容易。
從理論上講,XW+B 和 WX+B 在神經(jīng)網(wǎng)絡(luò)中是等價的(其實就是一個矩陣的轉(zhuǎn)置)。然而,當我們計算兩者的導(dǎo)數(shù)的時候卻差別很大。我們通過具體的數(shù)學推導(dǎo)來感受一下吧。
比如:y = XW
比如:y = WX
原文
matrix cookbook
CoderPai 是一個專注于算法實戰(zhàn)的平臺,從基礎(chǔ)的算法到人工智能算法都有設(shè)計。如果你對算法實戰(zhàn)感興趣,請快快關(guān)注我們吧。加入AI實戰(zhàn)微信群,AI實戰(zhàn)QQ群,ACM算法微信群,ACM算法QQ群。詳情請關(guān)注 “CoderPai” 微信號(coderpai)。
總結(jié)
以上是生活随笔為你收集整理的深度神经网络:WX+b vs XW+b的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 深入理解Java虚拟机——程序编译与代码
- 下一篇: maven jdk 版本配置