python int32 int8_Int8量化-介绍(一)
前 言
本系列的目是詳細敘述當前移動端Int8的方方面面,從最底層的Int8的匯編層實現(xiàn)原理以及匯編性能優(yōu)化手段,到中間層的移動框架的配套代碼實現(xiàn)(標準就以NCNN為例吧),以及上層對應的PC端量化方法(各種論文思路)總結及實現(xiàn),和最后模型端re-train的方法、策略及指標介紹。
此外,利用PowerPerf(一種專門針對ARM CPU應用性能優(yōu)化而開發(fā)的調試工具)對卷積kernel(匯編算子)各項硬件參數(shù)指標進行量化優(yōu)化也是本文的重點,旨在提煉出一套通用的匯編代碼調優(yōu)方法論,從而使得PowerPerf能適用于所有移動端CPU性能優(yōu)化場景。
第一章 背景
1.1量化背景
盡管模型size在不斷地壓縮,但是其計算量通常還是有一兩百MFLOPS的樣子,這個計算量對于目前的(中低端)移動端CPU算力來說,還是有點吃力的,因此模型端做了最大的努力,移動端也要不甘示弱努力加油!
通常移動端加速的方案時分CPU派跟GPU派的,目前在低端機型上arm的mali GPU性能較差,所以基本配備的還是CPU方案,而中高端機其配備的GPU大部分就是高通的了,其性能整體比CPU強勁,因此,目前在不同的定位平臺上不同的方案各有優(yōu)勢,各自根據(jù)具體的場景適配選擇方案即可。圖1-1 ARM芯片規(guī)劃圖
上圖1-1是前一陣子(2018.7.12)ARM在騰訊做介紹的ppt,可以看到性能可觀!!!可以看到arm在cpu這塊會針對性地加強AI能力,我們再看個截圖:圖1-2 ARM芯片ML部分
看紅色框內信息可知a
總結
以上是生活随笔為你收集整理的python int32 int8_Int8量化-介绍(一)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 怎么绘制机械孔_机械制图中常用的图纸简化
- 下一篇: python连接oracle详细教程_[