OnLineML:时序数据挖掘
關(guān)于時(shí)序分析:
????? 我們跟隨時(shí)間的腳步,試圖解釋現(xiàn)在、理解過去、甚至預(yù)測(cè)未來(lái)........
原文鏈接:http://blog.sciencenet.cn/home.php?mod=space&uid=34250&do=blog&id=287173
?簡(jiǎn)介:
??? ??? 時(shí)間序列是一種重要的高維數(shù)據(jù)類型,它是由客觀對(duì)象的某個(gè)物理量在不同時(shí)間點(diǎn)的采樣值按照時(shí)間先后次序排列而組成的序列,在經(jīng)濟(jì)管理以及工程領(lǐng)域具有廣?泛?應(yīng)用。例如證券市場(chǎng)中股票的交易價(jià)格與交易量、外匯市場(chǎng)上的匯率、期貨和黃金的交易價(jià)格以及各種類型的指數(shù)等,這些數(shù)據(jù)都形成一個(gè)持續(xù)不斷的時(shí)間序?列。利?用時(shí)間序列數(shù)據(jù)挖掘,可以獲得數(shù)據(jù)中蘊(yùn)含的與時(shí)間相關(guān)的有用信息,實(shí)現(xiàn)知識(shí)的提取[1]。時(shí)間序列數(shù)據(jù)本身所具備的高維性、復(fù)雜性、動(dòng)態(tài)性、高噪?聲特性以?及容易達(dá)到大規(guī)模的特性,因此時(shí)間序列挖掘是數(shù)據(jù)挖掘研究中最具有挑戰(zhàn)性的十大研究方向之一[2]。
??????? 目前重點(diǎn)的研究?jī)?nèi)容包括時(shí)間序列的模式表?示、時(shí)間序列?的相似性度量和查詢、時(shí)間序列的聚類、時(shí)間序列的異常檢測(cè)、時(shí)間序列的分類、時(shí)間序列的預(yù)測(cè)等。?
特點(diǎn):
???? ?? 由于時(shí)間序列數(shù)?據(jù)本身所具備的高維性、復(fù)雜性、動(dòng)態(tài)性、高噪聲特性以及容易達(dá)到大規(guī)模的特性,直接在時(shí)間序列上進(jìn)行數(shù)據(jù)挖掘不但在儲(chǔ)存和計(jì)算上要花費(fèi)高昂?代價(jià)而且可能?會(huì)影響算法的準(zhǔn)確性和可靠性。
??????? 時(shí)間序列的模式表示是一種對(duì)時(shí)間序列進(jìn)行抽象和概括的特征表示方法,是在更高層次上對(duì)時(shí)間序列的重新描述[3,?4]。? 時(shí)間序列的模式表示具有壓縮數(shù)據(jù)、保持時(shí)間序列基本形態(tài)的功能,并且具有一定的除噪能力。
??????? 常用的時(shí)間序列模式表示方法主要包含:頻域表示法、分段線?性表示?法、符號(hào)表示法以及主成分分析表示法等。
??????? 頻域表示的基本思想是將時(shí)間序列從時(shí)域通過傅里葉變換或小波變換映射到頻域,用很少的低頻系數(shù)來(lái)代表原來(lái)的?時(shí)間?序列數(shù)據(jù),這種方法雖然數(shù)據(jù)濃縮的效率很高,但是對(duì)噪聲敏感,而且不直觀。
??????? 分段線性表示法的基本思想是用K個(gè)直線段來(lái)近似代替原來(lái)的時(shí)間序列,這種方?法?能夠?qū)崿F(xiàn)數(shù)據(jù)壓縮的目的,而且允許在時(shí)間軸上進(jìn)行縮放,但實(shí)現(xiàn)過程較復(fù)雜,且要求事先給出直線段數(shù)K。K值的選擇是一個(gè)關(guān)鍵因素,太小則丟失有用信?息,?太大又會(huì)產(chǎn)生過多的冗余信息。
??????? 時(shí)間序列的符號(hào)化表示就是通過一些離散化方法將時(shí)間序列的連續(xù)實(shí)數(shù)值或者一段時(shí)間內(nèi)的時(shí)間序列波形映射到有限的符號(hào)表?上,將?時(shí)間序列轉(zhuǎn)換為有限符號(hào)的有序集合。符號(hào)化表示的優(yōu)點(diǎn)在于可以利用許多字符串研究領(lǐng)域的成果,缺點(diǎn)在于如何選擇合適的離散化算法,解釋符號(hào)的意?義,以及定?義符號(hào)之間的相似性度量。
??????? 主成分分析是一種常見的降維方法。在時(shí)間序列的模式表示中,通過對(duì)整個(gè)時(shí)間序列數(shù)據(jù)庫(kù)的整體表示實(shí)現(xiàn)對(duì)整個(gè)時(shí)間序列?數(shù)據(jù)庫(kù)的特征?提取和壓縮。其優(yōu)點(diǎn)在于計(jì)算精度高且對(duì)噪聲數(shù)據(jù)的魯棒性強(qiáng),但由于在奇異值分解過程中涉及到特征值計(jì)算,計(jì)算開銷較大。
??????? 時(shí)間序列的相似性度量是時(shí)間序列數(shù)據(jù)挖掘的基礎(chǔ)[5,?6]。時(shí)間序列由于其特定的形狀特征,?使得目前常用的一些相似性度量和聚類方法失去了原有的優(yōu)越?性,?而幾乎所有的時(shí)間序列挖掘算法都涉及到計(jì)算序列之間的相似性問題。目前,時(shí)間序列的相似性度量主要采用Lp范數(shù)(例如歐幾里德距離)、動(dòng)態(tài)時(shí)間彎曲?距離、?最長(zhǎng)公共子序列、編輯距離、串匹配等。前兩種相似性度量方法應(yīng)用較為廣泛。但是歐幾里德距離不支持時(shí)間序列的線性漂移和時(shí)間彎曲,動(dòng)態(tài)時(shí)間彎曲距?離的計(jì)算?量很大,不適合直接應(yīng)用于海量時(shí)間序列的挖掘,從而限制了其在時(shí)間序列數(shù)據(jù)挖掘上的廣泛應(yīng)用。
特征聚類方法:
???? ? 雖然各種聚類方法已經(jīng)在數(shù)?據(jù)挖掘領(lǐng)域中得到了較為深入的研究,但這些方法大多是針對(duì)關(guān)系數(shù)據(jù)庫(kù)中的靜態(tài)數(shù)據(jù)對(duì)象而提出的。然而在現(xiàn)實(shí)世界中越來(lái)越多的應(yīng)用?涉及到流數(shù)據(jù)和時(shí)間序列?數(shù)據(jù)等隨時(shí)間變化的復(fù)雜動(dòng)態(tài)數(shù)據(jù)對(duì)象的聚類分析。由于時(shí)間序列數(shù)據(jù)與靜態(tài)數(shù)據(jù)有著極大的不同,故對(duì)其進(jìn)行聚類分析有著很大的復(fù)雜?性。
????? ? 近年來(lái),涌現(xiàn)出許多?時(shí)間序列聚類方法[7],這些時(shí)間序列數(shù)據(jù)聚類方法大體上可以分為三種,即基于原始數(shù)據(jù)的聚類、基于特征的聚類和基于模型的聚類。?其中后兩種方法的核心?思想是利用時(shí)間序列的模式表示方法把時(shí)間序列數(shù)據(jù)轉(zhuǎn)化為靜態(tài)的特征數(shù)據(jù)或者是模型參數(shù),然后再直接應(yīng)用靜態(tài)數(shù)據(jù)的聚類方法來(lái)完成聚類?任務(wù)。
?????? 在對(duì)時(shí)間序列進(jìn)行分析時(shí),?經(jīng)常希望能夠發(fā)現(xiàn)這些時(shí)間序列在不同時(shí)間段的形態(tài)有何關(guān)聯(lián)關(guān)系。這種關(guān)聯(lián)關(guān)系一般表現(xiàn)為時(shí)間序列中頻繁出現(xiàn)的變化模式和極少出現(xiàn)?的變化模式。這種極少出現(xiàn)?的變化模式稱之為異常模式。在某些領(lǐng)域,?異常模式的發(fā)現(xiàn)對(duì)人們來(lái)說往往更有價(jià)值。例如,?醫(yī)院可以從病人的心電圖序列中發(fā)現(xiàn)?異常模式從而進(jìn)行診斷和治療。按照異常的表現(xiàn)形式不同,?線性時(shí)間和空間上時(shí)間序列的異常主要可以分為點(diǎn)異常和模式異常兩種,?它們都是用于發(fā)現(xiàn)一條時(shí)間?序列上的異常情況的。
????? ? 模式異常是指在一條時(shí)間序列上與其他模式之間具有顯著差異的模式。事實(shí)上,?點(diǎn)異常也可以認(rèn)為是長(zhǎng)度為1?的模式異常。目前已經(jīng)提出?多種時(shí)間序列異常檢測(cè)方法,例如基于人工免疫系統(tǒng)的時(shí)間序列異常檢測(cè)[9]、基于支持向量聚類的時(shí)間序列異常檢測(cè)[9]以及后綴?樹和馬爾可夫模型的時(shí)間?序列異常檢測(cè)[10]。
時(shí)間序列分類:
?????? 時(shí)間序列分類是時(shí)間序列數(shù)據(jù)分析中的重要任務(wù)之一.?不同于時(shí)間序列分析中常用的算法與問題,時(shí)間序列分類?是要把整個(gè)時(shí)間序列當(dāng)作輸入,其目的是要賦予這個(gè)序列某個(gè)離散標(biāo)記。它比一般分類問題困難,主要在于?要分類的時(shí)間序列數(shù)據(jù)不等長(zhǎng),這使得一般的分類算法?不能直接應(yīng)用。即使是等長(zhǎng)的時(shí)間序列,由于不同序列在相同位置的數(shù)值一般不可直接比較,一般的分類算法?依然還是不適合直接應(yīng)用。
??????? 為了解決這些難點(diǎn),通常?有兩種方法:第一,定義合適的距離度量(最常用的距離度量是DTW距離),使得在此度量意義下相近的序列?有相同的分類標(biāo)簽,這類方法屬于領(lǐng)域無(wú)關(guān)的方?法;第二,首先對(duì)時(shí)間序列建模(利用序列中前后數(shù)據(jù)的依賴關(guān)系建立模型),再用模型參數(shù)組成等長(zhǎng)向量來(lái)表示每?條序列,最后用一般的分類算法進(jìn)行訓(xùn)練和分?類,這類方法屬于領(lǐng)域相關(guān)的方法。文[11]分析了兩類方法,并且分別在不同的合成數(shù)據(jù)集和實(shí)際數(shù)據(jù)集上比較了?領(lǐng)域無(wú)關(guān)和領(lǐng)域相關(guān)的兩類方法。結(jié)果發(fā)現(xiàn)?在訓(xùn)練數(shù)據(jù)較少時(shí),使用領(lǐng)域相關(guān)的算法比較合適;另一方面,領(lǐng)域無(wú)關(guān)的算法受噪聲的影響相對(duì)較少。
預(yù)測(cè):
?? ???? 預(yù)測(cè)是對(duì)尚未發(fā)生或目前還不明確?的事物進(jìn)行預(yù)先的估計(jì)和推測(cè),是在現(xiàn)時(shí)對(duì)事物將要發(fā)生的結(jié)果進(jìn)行探討和研究,簡(jiǎn)單地說就是指從已知事件測(cè)定未知事件。進(jìn)行?預(yù)測(cè)的總原則是:認(rèn)識(shí)事物的發(fā)?展變化規(guī)律,利用規(guī)律的必然性進(jìn)行科學(xué)預(yù)測(cè)。時(shí)間序列預(yù)測(cè)主要包括三種基本方法:內(nèi)生時(shí)間序列預(yù)測(cè)技術(shù);外生時(shí)間序列預(yù)測(cè)技?術(shù);主觀時(shí)間序列預(yù)測(cè)技術(shù)。?時(shí)間序列分析與預(yù)測(cè)在經(jīng)濟(jì)[12]、金融[13]、工程[14]等領(lǐng)域有著廣泛的應(yīng)用,研究成果也最為豐富,將另文討論。
???????????????????????????????????????????????????????
參考文獻(xiàn):
1.?????? Keogh E, Kasetty S.On the need for time series data mining benchmarks: a survey and empirical demonstration.Data Mining and Knowledge Discovery, 2003, 7(4): 349-371.
2.??????? Yang Qiang, Wu Xindong. 10 challenging problems in data mining research. International Journal of Information Technology & Decision Making, 2006, 5(4): 597-604.
3.??????Lin J, Keogh E, Lonardi S, Chiu B.A symbolic representation of time series, with implications for streaming algorithms. Proceedings of the 8th ACM SIGMOD workshop on Research issues in data mining and knowledge discovery, 2003, Pages: 2 – 11.??
4.???????Gullo F, Ponti G, Tagarelli A, Greco S. A time series representation model for accurate and fast similarity detection, Pattern Recognition, 2009, 42(11): 2998-3014.
5.??????Gunopulos D, Das G. Time series similarity measures.KDD’00: Tutorial notes of the sixth ACM SIGKDD international conference on Knowledge discovery and data mining, 2000.
6.??????Literatures on Similarity-based Time Series Retrieval.http://www.cs.ust.hk/~leichen/readings/literaturesovertimeseries.htm
7.?????? Liao T W. Clustering of time series data: a survey. Pattern Recognition, 2005, 38: 1857-1874
8.??????Dasgupta D, Forrest S. Novelty detection in time series data using ideas from immunology. In: Proceeding of the 5th International Conference on Intelligent Systems. 1996, Pages: 82- 87.
9.??????Ma J, Perkins S. Time-series Novelty Detection Using One-class Support Vector Machines. Procedding of International Joint Conference on Neural Networks, 2003.
10.????Keogh E, Lonardi S. Finding surprising patterns in a time series database in linear time and space. Proceedings of the eighth ACM SIGKDD, 2002.
11.????楊一鳴,潘嶸,潘嘉林,楊強(qiáng),李磊.?時(shí)間序列分類問題的算法比較. 計(jì)算機(jī)學(xué)報(bào),2007,30(8):1259-1265.
12.????Clements M P(柯萊蒙茲),Hendry D F(韓德瑞),陸懋祖.預(yù)測(cè)經(jīng)濟(jì)時(shí)間序列.北京大學(xué)出版社,2008
13.????Tsay R S(蔡瑞胸),潘家柱譯.金融時(shí)間序列分析.機(jī)械工業(yè)出版社,2006
14.?? ?楊叔子.時(shí)間序列分析的工程應(yīng)用(上下冊(cè)).第二版.華中科技大學(xué)出版社,2007?
總結(jié)
以上是生活随笔為你收集整理的OnLineML:时序数据挖掘的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: (zxing.net)一维码Code 1
- 下一篇: py2exe打包OpenCV,找不到li