當前位置：首頁 > 人文社科 > 生活经验 >内容正文

生活经验

AI框架类FAQ

發布時間：2023/11/28 生活经验 39 豆豆

生活随笔收集整理的這篇文章主要介紹了 AI框架类FAQ 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

AI框架類FAQ
數據處理
問題：如何在訓練過程中高效讀取數量很大的數據集？
? 答復：當訓練時使用的數據集數據量較大或者預處理邏輯復雜時，如果串行地進行數據讀取，數據讀取往往會成為訓練效率的瓶頸。這種情況下通常需要利用多線程或者多進程的方法異步地進行數據載入，從而提高數據讀取和整體訓練效率。
paddle1.8中推薦使用兩個異步數據加載的API：

DataLoader.from_generator，有限的異步加載
該API提供了單線程和單進程的異步加載支持。但由于線程和進程數目不可配置，所以異步加速能力是有限的，適用于數據讀取負載適中的場景。
具體使用方法及示例請參考API文檔：fluid.io.DataLoader.from_generator。
DataLoader，靈活的異步加載
該API提供了多進程的異步加載支持，也是paddle后續主推的數據讀取方式。用戶可通過配置num_workers指定異步加載數據的進程數目從而滿足不同規模數據集的讀取需求。
具體使用方法及示例請參考API文檔：fluid.io.DataLoader
問題：使用多卡進行并行訓練時，如何配置DataLoader進行異步數據讀取？
? 答復：paddle1.8中多卡訓練時設置異步讀取和單卡場景并無太大差別，動態圖模式下，由于目前僅支持多進程多卡，每個進程將僅使用一個設備，比如一張GPU卡，這種情況下，與單卡訓練無異，只需要確保每個進程使用的是正確的卡即可。
具體示例請參考飛槳API fluid.io.DataLoader.from_generator 和 fluid.io.DataLoader 中的示例。
問題：在動態圖使用paddle.dataset.mnist.train()獲得數據后，如何轉換為可操作的Tensor？
? 答復：調用fluid.dygraph.to_varibale(data)，即可將data數據轉化為可以操作的動態圖Tensor。
問題：如何給圖片添加一個通道數，并進行訓練？
? 答復：如果是在進入paddle計算流程之前，數據仍然是numpy.array的形式，使用numpy接口numpy.expand_dims為圖片數據增加維度后，再通過numpy.reshape進行操作即可，具體使用方法可查閱numpy的官方文檔。
如果是希望在模型訓練或預測流程中完成通道的操作，可以使用paddle對應的API paddle.fluid.layers.unsqueeze 和 paddle.fluid.layers.reshape。
問題：有拓展Tensor維度的Op嗎？
? 答復：有，請參考API paddle.fluid.layers.unsqueeze。
問題：如何從numpy.array生成一個具有shape和dtype的Tensor?
? 答復：在動態圖模式下，可以參考如下示例：
import paddle.fluid as fluid

with fluid.dygraph.guard(fluid.CPUPlace()):
x = np.ones([2, 2], np.float32)
y = fluid.dygraph.to_variable(x)
具體請參考API paddle.fluid.dygraph.to_variable
問題：如何初始化一個隨機數的Tensor？
? 答復：使用numpy.random生成隨機的numpy.array，再參考上一個問題中的示例創建隨機數Tensor即可。
模型搭建
問題：如何不訓練某層的權重？
? 答復：在ParamAttr里設置learning_rate=0或trainable設置為False。具體請參考文檔：https://www.paddlepaddle.org.cn/documentation/docs/zh/api_cn/fluid_cn/ParamAttr_cn.html#paramattr
問題：stop_gradient=True的影響范圍？
? 答復：如果fluid里某一層使用stop_gradient=True，那么這一層之前的層都會自動 stop_gradient=True，梯度不再回傳。
問題：請問fluid.layers.matmul和fluid.layers.mul有什么區別？
? 答復：matmul支持broadcast和任意階相乘。mul會把輸入都轉成兩維去做矩陣乘。

問題：在模型組網時，inplace參數的設置會影響梯度回傳嗎？經過不帶參數的op之后，梯度是否會保留下來？
? 答復：inplace 參數不會影響梯度回傳。只要用戶沒有手動設置stop_gradient=True，梯度都會保留下來。
模型訓練&評估
問題：使用CPU進行模型訓練，如何利用多處理器進行加速？
? 答復：在1.8版本的動態圖模式下，CPU訓練加速可以從以下兩點進行配置：

使用多進程DataLoader加速數據讀取：訓練數據較多時，數據處理往往會成為訓練速度的瓶頸，paddle提供了異步數據讀取接口DataLoader，可以使用多進程進行數據加載，充分利用多處理的優勢，具體使用方法及示例請參考API文檔：fluid.io.DataLoader。
推薦使用支持MKL（英特爾數學核心函數庫）的paddle安裝包，MKL相比Openblas等通用計算庫在計算速度上有顯著的優勢，能夠提升您的訓練效率。
問題：使用NVIDIA多卡運行Paddle時報錯 Nccl error，如何解決？
? 答復：這個錯誤大概率是環境配置不正確導致的，建議您使用NVIDIA官方提供的方法參考檢測自己的環境是否配置正確。具體地，可以使用 NCCL Tests 檢測環境；如果檢測不通過，登錄 NCCL官網下載NCCl，安裝后重新檢測。
問題：多卡訓練時啟動失敗，Error：Out of all 4 Trainers，如何處理？
? 問題描述：多卡訓練時啟動失敗，顯示如下信息：

? 報錯分析：主進程發現一號卡（邏輯）上的訓練進程退出了。
? 解決方法：查看一號卡上的日志，找出具體的出錯原因。paddle.distributed.launch 啟動多卡訓練時，設置 --log_dir 參數會將每張卡的日志保存在設置的文件夾下。
問題：訓練時報錯提示顯存不足，如何解決？
? 答復：可以嘗試按如下方法解決：

檢查是當前模型是否占用了過多顯存，可嘗試減小batch_size ；
開啟以下三個選項：
#一旦不再使用即釋放內存垃圾，=1.0 垃圾占用內存大小達到10G時，釋放內存垃圾export FLAGS_eager_delete_tensor_gb=0.0
#啟用快速垃圾回收策略，不等待cuda kernel 結束，直接釋放顯存export FLAGS_fast_eager_deletion_mode=1
#該環境變量設置只占用0%的顯存export FLAGS_fraction_of_gpu_memory_to_use=0
詳細請參考官方文檔存儲分配與優化調整相關配置。
此外，建議使用AI Studio 學習與實訓社區訓練，獲取免費GPU算力，提升您的訓練效率。
問題：如何提升模型訓練時的GPU利用率？
? 答復：有如下兩點建議：
i. 如果數據預處理耗時較長，可使用DataLoader加速數據讀取過程，具體請參考API文檔：fluid.io.DataLoader。
ii. 如果提高GPU計算量，可以增大batch_size，但是注意同時調節其他超參數以確保訓練配置的正確性。
以上兩點均為比較通用的方案，其它的優化方案和模型相關，可參考官方模型庫 models 中的具體示例。
問題：如何處理變長ID導致程序內存占用過大的問題？
? 答復：請先參考顯存分配與優化文檔開啟存儲優化開關，包括顯存垃圾及時回收和Op內部的輸出復用輸入等。若存儲空間仍然不夠，建議：
i. 降低 batch_size ；
ii. 對index進行排序，減少padding的數量。
問題：訓練過程中如果出現不收斂的情況，如何處理？
? 答復：不收斂的原因有很多，可以參考如下方式排查：
i. 檢查數據集中訓練數據的準確率，數據是否有錯誤，特征是否歸一化；
ii. 簡化網絡結構，先基于benchmark實驗，確保在baseline網絡結構和數據集上的收斂結果正確；
iii. 對于復雜的網絡，每次只增加一個改動，確保改動后的網絡正確；
iv. 檢查網絡在訓練數據上的Loss是否下降；
v. 檢查學習率、優化算法是否合適，學習率過大會導致不收斂；
vi. 檢查batch_size設置是否合適，batch_size過小會導致不收斂；
vii. 檢查梯度計算是否正確，是否有梯度過大的情況，是否為NaN。
問題：Loss為NaN，如何處理？
? 答復：可能由于網絡的設計問題，Loss過大（Loss為NaN）會導致梯度爆炸。如果沒有改網絡結構，但是出現了NaN，可能是數據讀取導致，比如標簽對應關系錯誤。還可以檢查下網絡中是否會出現除0，log0的操作等。
問題：使用GPU訓練時報錯，Error：incompatible constructor arguments.，如何處理？
? 問題描述：

? 報錯分析：CUDAPlace()接口沒有指定GPU的ID編號導致。
? 答復：CUDAPlace()接口需要指定GPU的ID編號，接口使用方法參見：paddle.fluid.CUDAPlace。
問題：增量訓練中，如何保存模型和恢復訓練？
? 答復：在增量訓練過程中，不僅需要保存模型的參數，也需要保存優化器的參數。
具體地，在1.8版本中需要使用Layer和Optimizer的state_dict和set_dict方法配合fluid.save_dygraph/load_dygraph使用。簡要示例如下：
import paddle.fluid as fluid

with fluid.dygraph.guard():
emb = fluid.dygraph.Embedding([10, 10])

state_dict = emb.state_dict()
fluid.save_dygraph(state_dict, "paddle_dy")adam = fluid.optimizer.Adam( learning_rate = fluid.layers.noam_decay( 100, 10000),parameter_list = emb.parameters() )state_dict = adam.state_dict()
fluid.save_dygraph(state_dict, "paddle_dy")para_state_dict, opti_state_dict = fluid.load_dygraph("paddle_dy")
emb.set_dict(para_state_dict)
adam.set_dict(opti_state_dict)

更多介紹請參考以下API文檔：
? save_dygraph
? load_dygraph

? 答復：報錯是由于沒有安裝GPU版本的PaddlePaddle，CPU版本默認不包含CUDA檢測功能。使用pip install paddlepaddle-gpu -U 即可。
問題：訓練后的模型很大，如何壓縮？
? 答復：建議您使用飛槳模型壓縮工具PaddleSlim。PaddleSlim是飛槳開源的模型壓縮工具庫，包含模型剪裁、定點量化、知識蒸餾、超參搜索和模型結構搜索等一系列模型壓縮策略，專注于模型小型化技術。
參數調整
問題：如何將本地數據傳入fluid.dygraph.Embedding的參數矩陣中？
? 答復：需將本地詞典向量讀取為NumPy數據格式，然后使用fluid.initializer.NumpyArrayInitializer這個op初始化fluid.dygraph.Embedding里的param_attr參數，即可實現加載用戶自定義（或預訓練）的Embedding向量。
問題：如何實現網絡層中多個feature間共享該層的向量權重？
? 答復：將所有網絡層中param_attr參數里的name設置為同一個，即可實現共享向量權重。如使用embedding層時，可以設置param_attr=fluid.ParamAttr(name=“word_embedding”)，然后把param_attr傳入embedding中。
問題：使用optimizer或ParamAttr設置的正則化和學習率，二者什么差異？
? 答復：ParamAttr中定義的regularizer優先級更高。若ParamAttr中定義了regularizer，則忽略Optimizer中的regularizer；否則，則使用Optimizer中的regularizer。ParamAttr中的學習率默認為1，在對參數優化時，最終的學習率等于optimizer的學習率乘以ParamAttr的學習率。
問題：如何導出指定層的權重，如導出最后一層的weights和bias？
? 答復：使用save_vars保存指定的vars，然后使用load_vars加載對應層的參數值。具體示例請見API文檔：load_vars 和 save_vars 。
問題：訓練過程中如何固定網絡和Batch Normalization（BN）？
? 答復：

對于固定BN：設置 use_global_stats=True，使用已加載的全局均值和方差：global mean/variance，具體內容可查看官網文檔BatchNorm。
對于固定網絡層：如： stage1→ stage2 → stage3 ，設置stage2的輸出，假設為y，設置 y.stop_gradient=True，那么， stage1→ stage2整體都固定了，不再更新。
問題：優化器設置時報錯AttributeError: parameter_list argument given to the Optimizer should not be None in dygraph mode.，如何處理？
? 錯誤分析：必選參數缺失導致。
? 答復：飛槳框架1.7版本之后，動態圖模式下，需要在optimizer的設置中加入必選項parameter_list。
問題：fluid.layer.pool2d的全局池化參數和設置參數有關系么？
? 答復：如果設置global_pooling，則設置的pool_size將忽略，不會產生影響。
問題：訓練的step在參數優化器中是如何變化的？

? 答復：
step表示的是經歷了多少組mini_batch，其統計方法為exe.run(對應Program)運行的當前次數，即每運行一次exe.run，step加1。舉例代碼如下：

執行下方代碼后相當于step增加了N x Epoch總數

for epoch in range(epochs):
# 執行下方代碼后step相當于自增了N
for data in [mini_batch_1,2,3…N]:
# 執行下方代碼后step += 1
exe.run(data)
問題：如何修改全連接層參數，比如weight，bias？
? 答復：可以通過param_attr設置參數的屬性，fluid.ParamAttr( initializer=fluid.initializer.Normal(0.0, 0.02), learning_rate=2.0)，如果learning_rate設置為0，該層就不參與訓練。也可以構造一個numpy數據，使用fluid.initializer.NumpyArrayInitializer來給權重設置想要的值。
應用預測
問題：load_inference_model在加載預測模型時能否用py_reader讀取？
? 答復：目前load_inference_model加載進行的模型還不支持py_reader輸入。

總結

以上是生活随笔為你收集整理的AI框架类FAQ的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： Paddle Release Note
下一篇：使用ONNX将模型转移至Caffe2和移