基于IndRNN的手机传感器动作识别
近日,來自山東大學和電子科技大學的研究者提出了基于 IndRNN 模型利用手機傳感器實現動作識別的網絡,該模型解決了現有 RNN 模型的梯度消失和梯度爆炸問題,一定程度上實現了動作識別的用戶獨立性,同時在 2020 年的 SHL (Sussex-Huawei) 移動挑戰賽中取得了亞軍。
相比于冠軍采用的混合模型和其他團隊采用的半監督學習等方法,IndRNN 僅憑借單一模型,在未知數據上預測的標簽的準確率位列第二名,展示出了模型的優良性能。
論文標題:
IndRNN Based Long-term Temporal Recognition in the Spatial and Frequency Domain
論文鏈接:
https://dl.acm.org/doi/10.1145/3410530.3414355
IndRNN
IndRNN 在 2018 年被提出之后,在圖像分類、視頻編碼、基于骨骼節點的動作識別等任務上都表現優異。我們利用 IndRNN 作為基本模型,研究基于手機傳感器數據的動作識別,取得同領域較高準確率,再次證明了 IndRNN 模型的性能的優越性。之所以選取 IndRNN,是因為它具有以下優勢:
與傳統 RNN 或常用的 LSTM 或 GRU?相比,更大程度解決了梯度消失和梯度爆炸問題
可以與非飽和激活函數,如 ReLU 一起工作,并且仍然可以被嚴格訓練
可以構建比現有 RNN 更深層次的網絡
減少每步的計算量
比普遍使用的 LSTM 計算速度快 10 倍以上
形式:
簡單 RNN:
IndRNN:
可以看到,簡單 RNN 和 LSTM 隱藏層計算公式紅色的部分是對遞歸輸入進行權值乘法處理。這使得神經元相互依賴或相互糾纏,因此很難解釋每個神經元的活動。而 IndRNN 使用 element-wise(按位相乘)處理循環的輸入或以前的隱藏狀態,使神經元是相互獨立。對于第 n 個神經元,對遞歸輸入的處理是一個標量乘法。
下圖展示了 RNN 和 IndRNN 之間的區別。在 RNN 中,由于遞歸權矩陣的存在,神經元相互糾纏,而在 IndRNN 中,神經元仍然是獨立的,然后在下一層進行融合。
▲ RNN與IndRNN神經元連接方式的對比,左圖為RNN,右圖為IndRNN,圖片來自于S. Li, W. Li and C. Cook and Y. Gao. 2019. Deep Independently Recurrent Neural Network (IndRNN). arXiv.cs.CV1910.06251.
由于我們的模型可以通過 ReLU 進行魯棒的訓練,可以將它們堆疊在一起構建深層結構的網絡或者構建殘差神經網絡(Residual Neural Network)和密集神經網絡(Dense Nerual Network)。可以像在 CNN 中同樣地使用批量歸一化(Batch Normalization)。它還可以擴展為卷積形式,其中使用卷積操作處理輸入。
傳統上,RNN 被理解為隨時間推移的多層神經網絡(MLP),其中參數隨時間推移而共享。在這里,IndRNN 展示了一個新的視角,即使用輸入權值和循環權值隨著時間的推移獨立地聚合空間模式。
▲?Longer and Deeper RNN - IndRNN,圖片來自于S. Li, W. Li, C. Cook and Y. Gao. 2019. Deep Independently Recurrent Neural Network (IndRNN). arXiv.cs.CV1910.06251.
任務描述
近年來隨著可穿戴設備的發展,利用其中的傳感器數據進行動作識別的領域越來越熱門。在最近幾年發表的論文中,在現有比較常用的手機傳感器數據集上已經實現了較高的準確率。然而在廣為人知的數據集中,幾乎都將多名用戶的數據混合,且忽略了手機在用戶身上放置位置對于準確率的影響。
SHL 數據集填充了數據集在上述方面的空白,為利用機器學習從手機傳感器中識別用戶的移動和運輸方式的方向提出了新的研究問題與挑戰。
SHL 數據集視頻介紹:
https://youtu.be/f-Hhq9z1A2E
首先,我們對 SHL 數據集進行簡單介紹,利用 3 名用戶(用戶 1、用戶 2 和用戶 3)放在身體四個部位(手、胸前、臀部、背包)的數據安卓手機中的7個傳感器提供的 20 軸的數據實現 8 種動作分類問題(靜止、走、跑、騎自行車、乘坐公交車、乘坐汽車、乘坐火車及乘坐地鐵,分別標記為 1-8),其中不僅有人自發的運動,還包含了機械驅動的運動,為識別增添了挑戰。
傳感器類別及介紹如下:
加速度計(Accelerometer): x, y, z in m/s2
陀螺儀(Gyroscope): x, y, z in rad/s
磁力計(Magnetometer): x, y, z in μT
四分儀(Orientation): quaternions in the form of w, x, y, z vector
重力計(Gravity): x, y, z in m/s2
線性加速度計(Linear acceleration): x, y, z in m/s2
壓力計(Pressure):Ambient pressure in hPa
該研究主要側重于實現利用手機傳感器實現動作識別過程中的用戶獨立性。數據集分為訓練集、驗證集及測試集,分別包含 59 天、6 天和 40 天的數據(由數據集大小可以看出提供的每天的數據的時間長度不同)。所有數據被分割為 5s 的窗口,采樣率為 100Hz。
為了探索實現用戶獨立性的方法,在集合的用戶分配上,訓練集和驗證集僅包含了用戶 1 的四個位置數據,驗證集包含用戶 2 和 3 的四個位置的數據,而測試集僅包含用戶 2 和 3 四個位置之一的數據(位置未知)。此外,為了實現分類的實時性,窗口被打亂,且保證了相鄰兩幀在時間上不連續。
盡管在利用手機傳感器數據進行動作識別的領域已經取得了不錯的成果,該任務提出了在實際生活場景中進一步細化的問題-如何實現用戶的獨立性,即在利用與預測數據來源不匹配的數據訓練模型,如何在預測數據上獲得更高的準確率?該任務的難點可以解釋為以下問題:
1. 不同用戶的影響:不同用戶由于運動量與生活習慣存在差異,放置在其身上的手機收集到的傳感器數據也會有所不同。訓練集來源于用戶 1,而測試集和驗證集的數據來源于用戶 2 和 3 的混合數據,如何盡量消除差異,使預測時的準確率與訓練時的準確率盡量接近?
▲ 三名用戶的數據標簽組成,可以看出有明顯差異,圖片來自H. Gjoreski, M. Ciliberto, L. Wang, F. J. O. Morales, S. Mekki, S. Valentin, D. Roggen. “The University of Sussex-Huawei Locomotion and Transportation Dataset for Multimodal Analytics with Mobile Devices.” IEEE Access 6 (2018): 42592-42604.
2. 位置的影響:由提供的數據集可知,測試集來源于用戶 3 的一個未知的位置,而訓練集和驗證集都包含了所有的位置。因此,應如何對于訓練集和驗證集數據進行選取?
▲ 手機放置的位置及數據收集的界面,圖片來自H. Gjoreski, M. Ciliberto, L. Wang, F. J. O. Morales, S. Mekki, S. Valentin, D. Roggen. “The University of Sussex-Huawei Locomotion and Transportation Dataset for Multimodal Analytics with Mobile Devices.” IEEE Access 6 (2018): 42592-42604.
技術方案
預處理
數據分割(Segmentation)
首先,為了使我們的模型充分學習到長時和短時特征,我們對所給窗口進行了進一步的分割。將 5s 的窗口分割為 21 個 1s 的窗口,重疊率為 80%。
▲ 分割圖示,圖片來源于L. Zheng, S. Li, Y. Gao, “Application of IndRNN for Human Activity Recognition-The Sussex-Huawei Locomotion-Transportation Challenge”
去旋轉化(De-rotation)
鑒于數據采集于手機傳感器,采用的坐標為手機自身的三軸坐標系,不僅包含了用戶運動造成的數據變化,還包括了手機自身翻轉等運動造成的數據變化。因此,把手機坐標系中的數據轉移到地球坐標系是很有必要的。
經過調研,加速度計和陀螺儀受影響較大,參考了安卓手機轉換坐標系常用方法,我們這兩個坐標系中的數據轉換到北天東(NED)坐標系。具體操作為利用四分儀構建轉換矩陣,將待轉換的三軸坐標系于矩陣 相乘,得到轉換后的坐標。
特征提取(Feature Extraction)
在將數據輸入網絡學習特征前,我們手動提取了一些重要的時域特征,如下表所示。由于智能手機傳感器采集的信號具有很強的周期性,FFT 幅度譜是提取這些信號一般短時特征的合適選擇。由于幅度譜的對稱性,FFT 變化之后的信號只需保留一半。
▲ 提取FFT幅度譜,圖片來源于L. Zheng, S. Li, Y. Gao, “Application of IndRNN for Human Activity Recognition-The Sussex-Huawei Locomotion-Transportation Challenge”
然而,通過觀察不同標簽的 FFT 幅度譜,我們發現還是有些差異,于是又提取了 FFT 幅度譜的一些統計特征。
特征提取的整體流程圖如下:
最終,我們選取了其中在預訓練中表現較好的特征(表中加粗標記),將其拼接確定為正式訓練所用的特征。
位置識別(Location Recognition)
為了消除測試集位置未知對結果的影響,我們提出了在訓練前事先訓練位置的想法,即根據位置賦予數據全新的標 -Bag 標記為 1,Hips 標記為 2,Torso 標記為 3,Hand 標記為 4,將提取到的特征輸入我們的網絡(下文講解)先構建一個位置預測模型。混淆矩陣如下。
雖然不能完全將四種位置分辨清楚,但有趣的是,若將 Bag 和 Hand 結合,Hips 和 Torso 結合,可以得到準確率大于 99% 的混淆矩陣。
我們用得到的模型去預測測試集的數據,得到的結果顯示測試集屬于 Hips+Torso 的組合。后續位置預測實驗中,我們觀察到特定位置的數據作為訓練集時沒有所有位置作為訓練集表現好,且不論用 Torso 還是 Hips 驗證,對于最終得到的模型沒有區別,所以即使沒有確定具體位置,并不影響訓練結果。
Dense IndRNN模型
針對上述具體任務,我們使用的是 Dense IndRNN 結構。訓練流程圖如下
訓練中具體的參數可參考我們的比賽論文。
后處理
因為訓練集由用戶1的數據構成,而測試集由用戶 2 和 3 的數據構成,為了盡可能實現用戶獨立性,我們引入了遷移學習(Transfer Learning),即將一部分驗證集的數據輸入先前的網絡繼續訓練對模型進行微調,另一部分用來驗證。常用的遷移學習將數據一分為二,一半用作訓練,另一半驗證。
在實驗中,我們發現驗證集的標簽有分布不均的問題。參考了數據集構建者的描述,受限制于驗證集的大小,數據收集的過程會造成此問題。
因此,我們首先將按照標簽將數據進行分組,在相同比例的位置進行切割,再將數據進行拼接。然而,受限制于驗證集的大小,當我們分別用前一半或后一半數據訓練,另一半數據驗證的時候,準確率相差較大。
為了平衡準確率,也為了充分利用驗證集數據,于是我們提出了構建兩個遷移學習的模型,在最終預測測試集數據時將兩個模型進行融合,得到最終預測結果。
結果
在遷移學習之前,我們的模型在驗證集上達到了 81.58% 的準確率。由表可看出,與 CNN 類似,Dense 結構比直接每層相連表現更好。
遷移學習和模型融合之后,模型的準確率上升了超過 5% 的準確率,證明用戶的遷移學習對于消除利用手機傳感器數據進行動作識別任務中的用戶依賴性有作用。
UbiComp SHL Challenge 2020 的結果在 6 月 25 日截止提交,根據評價指標 F1-score 排名。比賽的前三名于 9 月舉行的 UbiComp 2020 的 HASCA workshop 揭曉。IndRNN 在測試集上 F1-score 達到 79.0%,摘得挑戰賽亞軍,展示出了所構建模型的優良性能。
挑戰賽官網:
http://www.shl-dataset.org/activity-recognition-challenge-2020/
思考
一個容易被忽視的問題:學習率過小導致的過擬合
最終結果顯示我們的模型表現出了過擬合,我們猜想是選取的學習率過小,導致在訓練集和驗證集上顯示的準確率高于測試集。一般人們認為學習率只是在梯度下降過程中訓練模型的參數,與過擬合沒有必然的聯系。
而一般來說學習率足夠小的話,所得到的結果都是類似的。網絡上一些博客提出的防止過擬合的建議也主要集中在:
數據增強
提前停止(Early stopping)
增加噪聲
簡化網絡結構
Dropout
貝葉斯方法
然而,很少有人提及控制學習率的問題。猜想這是由于大部分現有文章的數據集是研究者進行劃分,在訓練后,可以通過觀察最終在測試集上面預測結果選取最優學習率。然而,真正遇到現實中的問題,即測試集沒有標簽時,模型還是有可能出現過擬合的問題,需要研究者多積累經驗,選取更加適合的學習率。
▲ 學習率的選取對模型Loss的影響
總結
來自電子科技大學和山東大學的團隊利用比現有 RNN 更加長且更深層次的網絡 -IndRNN 進行基于手機傳感器數據的動作識別的任務。該模型在訓練過程中表現優良,結合遷移學習和模型融合的后處理,一定程度上實現了利用手機傳感器數據進行動作識別的用戶獨立性。
同時,IndRNN 團隊摘得 UbiComp SHL Challenge 2020 的亞軍,再度體現 IndRNN 性能的優越性,希望該方案對大家有參考價值。
作者及團隊介紹
趙貝頔,電子科技大學,格拉斯哥學院,學生。
目前本科生在讀,研究方向為應用機器學習,基于手機傳感器的動作識別。目前已在ubiComp會議HASCA workshop發表一篇論文并做口頭報告。
李帥,山東大學,控制科學與工程學院,教授,齊魯青年學者。
致力于高效視頻編碼及分析、計算機視覺及人工智能的研究,已發表國際期刊及會議論文30余篇,包括11篇JCR Q1論文。近五年榮獲2次國際學術會議最佳論文獎,并榮獲IEEE Transactions on Broadcasting最佳論文獎提名。2篇論文入選ESI Highly Cited Paper(高被引論文),2篇論文連續數月入選為IEEE Popular Articles。現為多個IEEE及Elsevier期刊的審稿人及多個國際會議的審稿人。已提交國際及國家視頻編碼標準技術提案3項并全部被國際和國家標準組織采納,且被集成到相關視頻編碼標準的參考軟件中。已申請專利17項,其中14項已授權,1項已轉讓;并獲得一項軟件著作權。主持一項國家自然科學基金青年科學基金及一項國家重點研發計劃(戰略性國際科技創新合作重點專項)課題,并參與多項國家自然科學基金。代表性工作獨立循環神經網絡(IndRNN)獲得谷歌及國際多位知名專家引文的肯定,并被集成到多個深度學習軟件庫中包括TensorFlow。
高艷博,山東大學,軟件學院,副研究員。
博士畢業于電子科技大學信號與信息處理專業,目前就職于山東大學軟件學院。研究方向包括圖像/視頻智能編碼及分析、三維視頻信號處理。已在相關領域發表學術論文17篇,其中1篇SCI 1區,5篇SCI 2區(中科院分區),發表在包括IEEE Transactions on Image Processing(TIP)、IEEE Transactions on Circuits and Systems for Video Technology(TCSVT)等頂級SCI上,11篇EI國際會議論文包括IEEE Conference on Computer Vision and Pattern Recognition(CVPR)、IEEE International Symposium on Circuits and Systems (ISCAS)等國際會議。申請人在視頻編碼TOP期刊IEEE TCSVT上發表的一作論文入選ESI Highly Cited Papers(高被引論文),榮獲國際會議International Symposium on Broadband Multimedia Systems and Broadcasting (BMSB)最佳學生會議論文獎。已采納(或部分采納)國際國內視頻編碼標準提案5項,其中國際IVC提案1項,國內AVS提案4項。已申請專利11項,其中10項已授權、1項已轉讓。主持一項國家自然科學基金青年科學基金(在研),參與2項國家重點級項目(在研)。
參考文獻
[1] B. Zhao, S. Li, and Y. Gao. 2020. IndRNN based long-term temporal recognition in the spatial and frequency domain. In Adjunct Proceedings of the 2020 ACM International Joint Conference on Pervasive and Ubiquitous Computing and Proceedings of the 2020 ACM International Symposium on Wearable Computers (UbiComp-ISWC '20). Association for Computing Machinery, New York, NY, USA, 368–372.?
[2] S. Li, W. Li, C. Cook, C. Zhu, and Y. Gao. 2018. Independently Recurrent Neural Network (IndRNN): Building a Longer and Deeper Rnn. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 5457–5466.?
[3] S. Li, W. Li and C. Cook and Y. Gao. 2019. Deep Independently Recurrent Neural Network (IndRNN). arXiv.cs.CV1910.06251.?
[4] L. Zheng, S. Li, C. Zhu, and Y. Gao. 2019. Application of IndRNN for human activity recognition: the Sussex-Huawei locomotion-transportation challenge. In Adjunct Proceedings of the 2019 ACM International Joint Conference on Pervasive and Ubiquitous Computing and Proceedings of the 2019 ACM International Symposium on Wearable Computers (UbiComp/ISWC '19 Adjunct). Association for Computing Machinery, New York, NY, USA, 869–872.?
[5] L. Wang, H. Gjoreski, M. Ciliberto, P. Lago, K. Murao, T. Okita,and D. Roggen. “Summary of the Sussex-Huawei locomotion-transportation recognition challenge 2020”, Proceedings of the 2020 ACM International Joint Conference and 2020 International Symposium on Pervasive and Ubiquitous Computing and Wearable Computers, 2020.?
[6] H. Gjoreski, M. Ciliberto, L. Wang, F. J. O. Morales, S. Mekki, S. Valentin, D. Roggen. “The University of Sussex-Huawei Locomotion and Transportation Dataset for Multimodal Analytics with Mobile Devices.” IEEE Access 6 (2018): 42592-42604.
更多閱讀
#投 稿?通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
?????來稿標準:
? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?
? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志
?????投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發送?
? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通
????
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結
以上是生活随笔為你收集整理的基于IndRNN的手机传感器动作识别的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: FedML联邦机器学习框架正式开源,助力
- 下一篇: BERT原理、代码、相关模型、精调技巧,