苏神文章总结栏
淺談Transformer的初始化、參數化與標準化
如果不除 d \sqrtozvdkddzhkzd d?的話方差過大,會導致softmax之后接近于one hot,最終導致梯度消失
針對多次提到的norm 問題,post norm與pre norm都一般,作者提出使用參數化訓練,初始化為0,之后慢慢增加
總結
- 上一篇: 掌财社:换手率选股8大技巧和方法
- 下一篇: 《UI框架_Siki老师》(一)(共2篇