當前位置：首頁 > 人文社科 > 生活经验 >内容正文

生活经验

光速对齐时间序列

發布時間：2023/11/28 生活经验 51 豆豆

生活随笔收集整理的這篇文章主要介紹了光速对齐时间序列小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

光速對齊時間序列
“時間序列是無處不在且越來越流行的數據類型[…]”。幾乎任何增量測量的信號，沿時間軸還是線性有序集，可以視為時間序列。示例包括心電圖，溫度或電壓測量，音頻，服務器日志，還有重量級數據，例如視頻和時間分辨的MRI體積。對數量不斷增加的時間序列數據進行有效而精確的處理，對于每位數據科學家都至關重要。
介紹了RapidAligner –一個CUDA加速庫，可使用以下三種流行的鎖定步驟對統一采樣的本地對齊方式，在一個非常長的時間序列流（主題）中，對齊一個短時間序列片段（查詢）。
時間序列：

滾動歐氏距離（sdist）
滾動均值調整的歐氏距離（mdist）
滾動平均值和幅度調整后的歐氏距離（zdist）
RapidAligner庫是免費軟件，可以與各種流行的數據科學和機器學習框架（例如NumPy，CuPy，RAPIDS，Numba和Pytorch）集成。源代碼可在NVIDIA RapidAligner下公開獲得。
本文的其余部分結構如下：
? 簡要介紹了流行的鎖定步驟措施和（本地）規范化技術。
? 演示了RapidAligner庫的用法。
? 結論。
時間序列數據挖掘簡介
時間序列是成對的序列（t [i]，x [i]），其中實值時間戳t [i]線性排列，相應值x [i]是在時間t [i]測得的數量。如果所有時間戳均等，即所有i的t [i + 1] -t [i] = const，可以忽略時間，將測量序列x [i]稱為均勻采樣的時間序列。將簡單地將具有實值標量x [i]的統一采樣時間序列稱為沒有奇特屬性的時間序列。
要比較兩個時間序列Q =（q [0]，q [1]，…，q [m-1]）和S =（s [0]，s [1]，…，s [m- 1]）的長度| Q | = | S | = m。一個明顯的方法，將Q和S解釋為m維向量，計算差的Lp范數。

參數p的流行選擇是對于所謂的歐幾里得距離為p = 2，對于所謂的曼哈頓或出租車距離為p = 1（見圖1）。介紹了使用索引的一對一分配i-> i比較殘差q [i] -s [i]的相似性度量-所謂的鎖步度量。以后將使用諸如q [i] -s [j]之類的索引的動態分配來討論CUDA加速測度，也稱為彈性測度類。

圖1：兩個心電圖（ECG）測量值Q（藍色信號）和S（橙色信號）的長度均為| Q | = | S | = 421，索引殘留（灰色垂直條）下4采樣為兩倍。
在長度為| S | = n的長流S中，對齊長度為| Q | = m的短查詢Q時，即0 <m <= n，可以定義滾動距離-所謂的sdist-通過掃過所有長度為m的窗口來計算所有n-m + 1個對齊分數。歐幾里得距離為：

對于每個對齊位置j，必須對m個貢獻進行求和。結果，計算所有鎖定步長，對齊的漸近最壞情況復雜度，與時間序列長度m和n_O（（n-m + 1）* m）的乘積成正比。即使對于中等大小的查詢和流，此數字也可能是巨大的，當以簡單的方式執行時，可能使大規模時間序列對齊在計算上難以處理。將針對特殊情況p = 2討論如何實現以超快的對數線性時間運行的CUDA加速方案。
查看ECG流的較大部分（參見圖2）時，可能會發現平均信號值存在時間漂移，也稱為基線漂移。通常在連續測量的時間序列中發生，并且可能是由多種外部因素引起的，例如由于心電圖中的汗水導致皮膚電導率變化，影響心電圖中電極的人體運動，電阻漂移以及溫度引起的電壓漂移電源變化，記錄環境數量時的溫度漂移，圣誕節等季節性影響或全球大流行中股價的時間漂移。

圖2：使用歐幾里德距離作為滾動相似性度量，在較長的心跳流S（橙色信號）中對齊的短ECG查詢Q（藍色信號）。注意S值的時間漂移。
為相似形狀的數據流進行挖掘時，基線漂移是有問題的–在測量軸上具有不同偏移量的兩個相似形狀可能比具有相似偏移量的兩個不相似形狀具有更大的距離。簡單有效的對策，查詢和候選序列引入規范化過程。例如，可以計算查詢muQ的平均值，并為n-m + 1個候選序列muS [j]中的每一個計算平均值，消除相應窗口中的偏移量（請參見圖3）。下面，將局部均值調整后的滾動歐氏距離mdist稱為：

圖3：平均值不消失的心跳（左側藍色信號）及其均值調整后的變量（右側橙色信號）。
仔細觀察圖1和圖2，可以進一步看出幅度的時間變化。藍色查詢中值的范圍明顯小于圖1中橙色候選序列的幅度。在挖掘形狀時，標度的時間漂移可能導致無意義的匹配。簡單的解決方案，分別將值除以查詢sigmaQ和比對候選sigmaS [j]的標準偏差來對比例進行歸一化。均值和幅度調整稱為z歸一化，指均值和單位方差均消失的正常隨機變量的z得分（參見圖4）。相應的滾動度量應稱為zdist：

庫RapidAligner以大規模并行方式支持CUDA加速計算的上述三個滾動度量sdist，mdist和zdist。將從JupyterLab內看到簡單用法。

圖4：心跳具有均值和非單位方差不消失（左側的藍色信號）及均值和幅度調整（z歸一化）的變量（右側的橙色信號）。
RapidAligner的實際應用
開始計算數字。將使用討論的三個指標sdist，mdist和zdist對齊22小時ECG流中的單個心跳。該數據集是屢獲殊榮的UCR-Suite網站上列出的實驗的一部分。克隆了RapidAligner存儲庫后，立即將RapidAligner庫以及CuPY，NumPy和Matplotlib導入，以用于以后的驗證和可視化。
查看原始小區1 + 2.ipynb 與托管的GitHub上
在下一步中，將加載ECG數據。查詢的長度相當短，只有421個條目，但流顯示了大約2000萬個時間滴答。對完整查詢（藍色）和流的初始1000值（橙色）的首次檢查顯示偏移和幅度的時間漂移。
查看原始小區3 + 4.ipynb 與托管的GitHub上
下面的代碼，將使用sdist度量來對齊查詢在流中的位置，計算所有20,140,000-421 + 1的距離得分，進行argmin歸約以確定最佳對齊位置。對于實驗，在DGX A100服務器中選擇單個A100 GPU 。需要注意的是，如果只在最佳匹配感興趣的人們，可以進一步通過采用下限級聯，作為證明加速已經快速計算。相反，rapidAligner的sdist調用返回所有位置的對齊分數，允許以后進行處理，例如計算排名匹配的不重疊分區。進一步重復對齊幾次，進行可靠的運行時測量。兩種計算模式“ fft”和“天真”都非常快，并且返回難以區分的結果：
? “天真”：將所有n-m + 1個對齊候選者（可選）進行歸一化，分別以最小的內存占用量進行比較，但漸近計算復雜度為O（n * m）。使用翹曲匯總的統計信息和累加方案，該模式仍然相當快。
? “ fft”：如果m> log_2（n），可以利用卷積定理來顯著加快計算速度，從而導致O（n * log n）運行時，但占用的內存更大。計算模式完全獨立于查詢的長度，建議使用大輸入量。較高的內存使用量，主要是由計算速度快但位置不當的原語引起的，例如CUDA加速的快速傅立葉變換和前綴掃描。
查看原始Cell5.ipynb 主辦了由GitHub上
查詢和流（主題）都以雙精度形式存儲為普通NumPy數組在CPU上。結果，測得的運行時間包括CPU和GPU之間昂貴的內存傳輸。RapidAligner允許與所有CUDA陣列接口兼容框架（例如PyTorch，CuPy，Numba，RAPIDS和Jax）進行無縫互操作。可以進一步減少在快速GPU RAM中緩存數據時的運行時間，以避免CPU和GPU之間不必要的內存移動。即使在短查詢條件下，基于傅立葉的模式，勝過簡單的模式
查看原始Cell6.ipynb 主辦了由GitHub上
這相當于單個GPU上每秒高達25億次的完全對齊。僅使用駐留在GPU上的輸入數據來報告運行時。sdist產生的匹配已經是不錯的匹配，檢查均值調整是否可以改善結果：
查看原始Cell7.ipynb 主辦了由GitHub上
正如預期的那樣，平均調整返回了更好的匹配，考慮的候選對象沿測量軸的相對偏移沒有消失。對于2000萬個對齊位置，執行時間保持在10 ms的低水平。這相當于每秒20億次完全對齊。仍然可以使用zdist改善幅度失配：
查看原始Cell8.ipynb 主辦了由GitHub上
Etvoilà，z歸一化的歐幾里得距離，揭示了數據庫中的doppelg?nger，與查詢幾乎沒有區別。在每秒超過16億次對齊中，性能仍然很高。傅里葉模式的一個驚人特性，運行時間實際上獨立于查詢長度，對于固定的流長度和變化的查詢大小，運行時間是恒定的。當對齊非常長的查詢時，變得很方便。
結論
在較長的時間序列數據流中尋找形狀是一項計算量大的任務，通常作為獨立例程或作為子例程嵌入高級算法中，例如用于異常檢測。具有空前的內存帶寬的大型并行加速器（例如NVIDIA A100 GPU）非常適合解決這一挑戰。quickAligner是輕量級的庫，每秒處理數十億個比對，同時支持候選序列的通用歸一化模式。可以進一步采用高度優化的FFT例程cuFFT和前綴掃描CUB從CUDA-X軟件堆棧中獲取數據，提供與查詢長度無關的對齊模式。源代碼和筆記本可在NVIDIA RapidAligner下公開獲得。

總結

以上是生活随笔為你收集整理的光速对齐时间序列的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。