2015年《大数据》高被引论文Top10文章No.2——大数据时代的数据挖掘 —— 从应用的角度看大数据挖掘(上)...
2015年《大數據》高被引論文Top10文章展示
【編者按】本刊將把2015年《大數據》高被引論文Top10的文章陸續發布,歡迎大家關注!本文為高被引Top10論文的No.2,刊登在2015年第4期。引用格式如下:
李濤, 曾春秋, 周武柏, 等. 大數據時代的數據挖掘——從應用的角度看大數據挖掘[J]. 大數據, 2015041.
LI T, ZENG C Q, ZHOU W B, et al.?Data mining in the era of big data: from the application perspective[J]. Big Data Research, 2015041.
李?濤1,2,曾春秋1,2,周武柏1,2,周綺鳳3,鄭?理1,2
1.?南京郵電大學計算機學院?南京?210023;2.?美國佛羅里達國際大學?邁阿密?33199;3.?廈門大學自動化系?廈門?361005
摘要:介紹了大數據時代數據挖掘的特點、任務及難點,分析了大數據挖掘的核心架構,提出大數據的核心和本質,即應用、算法、數據和平臺4個要素的有機結合。在此基礎上介紹了本團隊研究設計的大數據挖掘系統FIU-Miner。該系統是一個用戶友好并支持在分布式環境中進行高效率計算和算法快速集成的數據挖掘系統平臺,使得數據分析人員能夠快速有效地進行各類數據挖掘任務。最后,介紹了基于FIU-Miner的3個典型的成功應用案例:高端制造業數據挖掘、空間數據挖掘和商務智能數據挖掘。
關鍵詞:大數據;數據挖掘;FIU-Miner;高端制造業;空間數據挖掘;商務智能
doi:?10.11959/j.issn.2096-0271.2015041
Data mining in the era of big data: from the application perspective
LI Tao1,2, ZENG Chunqiu1,2, ZHOU Wubai1,2, ZHOU Qifeng3, ZHENG Li1,2
1. School of Computer Science & Technology, Nanjing University of Posts and Telecommunications, Nanjing 210023, China
2. School of Computer Science, Florida International University, Miami 33199, USA
3. Department of Automation, Xiamen University, Xiamen 361005, China
Abstract:?The technical characteristics, tasks, and difficulties of data mining in big data era were introduced. The system architecture of large-scale data mining was analyzed. Then, the developed FIU-Miner which is a fast, integrated, and user-friendly system for data mining, was introduced. FIU-Miner supports user-friendly rapid data mining task configuration, flexible cross-language program integration, and effective resource management in heterogeneous environments. Finally three successful real-world applications of FIU-Miner: advanced manufacturing data mining, spatial data mining, and business intelligence data mining, were presented to demonstrate its efficacy and effectiveness.
Key words:?big data, data mining, FIU-Miner, advanced manufacturing, spatial data mining, business intelligence
1 ??對大數據的理解和認識
大數據(big data)一詞經常被用以描述和指代信息爆炸時代產生的海量信息。研究大數據的意義在于發現和理解信息內容及信息與信息之間的聯系。研究大數據首先要理清和了解大數據的特點及基本概念,進而理解和認識大數據。
1.1 ?大數據的特點“4V+4V”
從數據的表現形式看,業界普遍認為大數據具有如下的“4V”特點[1]。
● volume(大量):數據體量巨大,從TB級別躍升到PB級別。
● variety(多樣):數據類型繁多,如網絡日志、視頻、圖片、地理位置信息等。
● velocity(高速):處理速度快,實時分析,這也是和傳統的數據挖掘技術的本質上的不同。
● value(價值):價值密度低,蘊含有效價值高,合理利用低密度價值的數據并對其進行正確、準確的分析,將會帶來巨大的商業和社會價值。
上述“4V”特點描述了大數據與以往部分抽樣的“小數據”的主要區別。然而,實踐是大數據的最終價值體現的唯一途徑。從實際應用和大數據處理的復雜性看,大數據還具有如下新的“4V”特點。
● variable(變化性):在不同的場景、不同的研究目標下數據的結構和意義可能會發生變化,因此,在實際研究中要考慮具體的上下文場景。
● veracity(真實性):獲取真實、可靠的數據是保證分析結果準確、有效的前提。只有真實而準確的數據才能獲取真正有意義的結果。
● volatility(波動性):由于數據本身含有噪音及分析流程的不規范性,導致采用不同的算法或不同分析過程與手段會得到不穩定的分析結果。
● visualization(可視化):在大數據環境下,通過數據可視化可以更加直觀地闡釋數據的意義,幫助理解數據,解釋結果。
1.2 ??對大數據的理解
國內外不同的專家和學者對大數據有不同的理解,中國科學院計算技術研究所李國杰院士認為:大數據就是“海量數據”?加“復雜數據類型”[2]。維基百科對大數據的定義是:“大數據是由于規模、復雜性、實時性而導致的使之無法在一定時間內用常規軟件工具對其進行獲取、存貯、搜索、分享、分析、可視化的數據集合”。?Gartner咨詢公司給出的定義是:“大數據是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產”。而互聯網數據中心將大數據定義為:“為更經濟地從高頻率、大容量、不同結構和類型的數據中獲取價值而設計的新一代架構和技術”。
結合上述大數據的“8V”特征,筆者認為大數據的核心和本質是應用、算法、數據和平臺4個要素的有機結合,如圖1所示。大數據是應用驅動的,大數據來源于實踐,海量數據產生于實際應用中。
圖1 ?大數據架構
數據挖掘源于實踐中的實際應用需求,用具體的應用數據作為驅動,以算法、工具和平臺作為支撐,最終將發現的知識和信息用到實踐中去,從而提供量化、合理、可行、能夠產生巨大價值的信息。另外,挖掘大數據所蘊含的有用信息,需要設計和開發相應的數據挖掘和機器學習算法。算法的設計和開發要以具體的應用數據為驅動,同時也要在實際問題中得到應用和驗證,而算法的實現與應用需要高效的處理平臺。高效的處理平臺需要有效地分析海量的數據及對多源數據進行集成,?同時有力支持數據挖掘算法以及數據可視化的執行,并對數據分析的流程進行規范。總而言之,這個應用、算法、數據和平臺相結合的思想是對上述大數據的理解和認識的一個綜合與凝練,體現了大數據的本質和核心。建立在此架構上的大數據挖掘,能夠有效處理大數據的復雜特征,挖掘大數據的價值。
本文在此框架下,從應用的角度探討了大數據時代的數據挖掘的機遇與挑戰,?介紹了研究團隊開發的大數據挖掘平臺FIU-Miner以及成功應用該平臺實現的高端制造業數據挖掘、空間數據挖掘和商務智能3個大型、復雜數據挖掘案例。
2?大數據時代的數據挖掘
2.1 ?數據挖掘
在大數據時代,數據的產生和收集是基礎,數據挖掘是關鍵。數據挖掘是大數據中最關鍵也最有價值的工作。通常,數據挖掘或知識發現泛指從大量數據中挖掘出隱含的、先前未知但潛在的有用信息和模式的一個工程化和系統化的過程。數據挖據可以用以下4個特性概括[3]。
(1)應用性:數據挖掘是理論算法和應用實踐的完美結合。數據挖掘源于實際生產生活中應用的需求,挖掘的數據來自于具體應用,同時通過數據挖掘發現的知識又要運用到實踐中去,輔助實際決策。所以,數據挖掘來自于應用實踐,同時也服務于應用實踐。
(2)工程性:數據挖掘是一個由多個步驟組成的工程化過程。數據挖掘的應用特性決定了數據挖掘不僅僅是算法分析和應用,而是一個包含數據準備和管理、數據預處理和轉換、挖掘算法開發和應用、結果展示和驗證以及知識積累和使用的完整過程。而且在實際應用中,典型的數據挖掘過程還是一個交互和循環的過程。
(3)集合性:數據挖掘是多種功能的集合。常用的數據挖掘功能包括數據探索分析、關聯規則挖掘、時間序列模式挖掘、分類預測、聚類分析、異常檢測、數據可視化和鏈接分析等。一個具體的應用案例往往涉及多個不同的功能。不同的功能通常有不同的理論和技術基礎,而且每一個功能都有不同的算法支撐。
(4)交叉性:數據挖掘是一個交叉學科,它利用了來自統計分析、模式識別、機器學習、人工智能、信息檢索、數據庫等諸多不同領域的研究成果和學術思想。同時,一些其他領域如隨機算法、信息論、可視化、分布式計算和最優化也對數據挖掘的發展起到重要的作用。數據挖掘與這些相關領域的區別可以由前面提到的數據挖掘的3個特性來總結,最重要的是它更側重于應用。
具體而言,實際應用的需求是數據挖掘領域很多方法提出和發展的根源。從最開始的顧客交易數據分析(market basket analysis)、多媒體數據挖掘(multimedia data mining)、隱私保護數據挖掘(privacy-preserving data mining)到文本數據挖掘(text mining)?和?Web?挖掘(Web mining),再到社交媒體挖掘(social media mining)都是由應用推動的。工程性和集合性決定了數據挖掘研究內容和方向的廣泛性。其中,工程性使得整個研究過程里的不同步驟都屬于數據挖掘的研究范疇。而集合性使得數據挖掘有多種不同的功能,?而如何將多種功能聯系和結合起來,從一定程度上影響了數據挖掘研究方法的發展。比如,2 0?世紀9 0?年代中期,數據挖掘的研究主要集中在關聯規則和時間序列模式的挖掘。到20世紀9 0年代末,研究人員開始研究基于關聯規則和時間序列模式的分類算法(如classification based on association),將兩種不同的數據挖掘功能有機地結合起來。21世紀初,一個研究的熱點是半監督學習(semi-supervised learning)和半監督聚類(semi-supervised clustering),也是將分類和聚類這兩種功能有機結合起來。近年來的一些其他研究方向如子空間聚類(subspace clustering)(特征抽取和聚類的結合)和圖分類(graph classification)?(圖挖掘和分類的結合)也是將多種功能聯系和結合在一起。最后,交叉性導致了研究思路和方法設計的多樣化。
2.2 ?從數據挖掘應用的角度看大數據
大數據是現象,核心是要挖掘數據的價值。結合數據挖掘的各種特性,尤其是其應用性,從應用業務的角度對大數據提出如下兩點的認識[3]。
首先,大數據是“一把手工程”。在一個企業里,大數據通常涉及多個業務部門,業務邏輯復雜。一方面,要對大數據進行收集和整合,需要業務部門的配合和溝通以及業務人員的大力參與,這些需要企業決策人員的重視和認可,提供必要的資源調配和支持。另一方面,要對數據挖掘的結果進行驗證和運用,更離不開相關人員的決策。數據挖掘的結果大多是相關關系,而不是因果關系,這些結果還可能有不確定性。另外,有時候數據挖掘的結果與企業運作的常識不一致,甚至相悖。所以,如何看待這些可能的不確定性和反常識的分析結論,充分利用好數據挖掘結果,必然離不開決策者的遠見卓識。
其次,大數據需要數據導入、整合和預處理。當面對來自不同數據源的大量復雜數據時,具體業務邏輯復雜與數據之間的關系瑣碎直接導致企業的業務流程和數據流程很難理解。因此,企業在實施大數據時可能并不清楚要挖掘和發現什么,對數據挖掘到底能幫助企業做什么并沒有直觀和清楚的認識。所以,很多時候都不可能先把數據事先規劃好和準備好,這樣在具體的數據挖掘中,就需要在數據的導入、整合和預處理上有很大的靈活性,只有通過業務人員和數據挖掘工程師的配合,不斷嘗試,才能有效地將企業的業務需求與數據挖掘的功能聯系起來。
2.3 ??大數據時代應用數據挖掘的挑戰
大數據時代的來臨使得數據的規模和復雜性都出現爆炸式的增長,促使不同應用領域的數據分析人員利用數據挖掘技術對數據進行分析。在應用領域中,如醫療保健、高端制造、金融等,一個典型的數據挖掘任務往往需要復雜的子任務配置,整合多種不同類型的挖掘算法以及在分布式計算環境中高效運行。因此,在大數據時代進行數據挖掘應用的一個當務之急是要開發和建立計算平臺和工具,支持應用領域的數據分析人員能夠有效地執行數據分析任務。
現有的數據挖掘工具(如Weka[4]、SPSS和SQL Server等)提供了友好的界面,方便用戶進行分析。然而,這些工具并不適合進行大規模的數據分析。同時使用這些工具時,用戶很難添加新的算法程序。流行的數據挖掘算法庫(如Mahout[5]、MLC++和MILK)提供了大量的數據挖掘算法。但是,這些算法庫需要有高級編程技能才能在一個具體的數據挖掘任務中進行任務配置和算法集成。最近出現的一些集成的數據挖掘產品(如Radoop[6]和BC-PDM[7])通過提供友好的用戶界面來快速配置數據挖掘任務。然而,這些產品是基于Hadoop框架的,對非Hadoop算法程序的支持非常有限。此外,這些產品并沒有明確地解決在多用戶和多任務情況下的資源分配問題。
為了解決現有工具和產品在大數據挖掘中的局限性,開發了一個新的平臺——FIU-Miner(a fast, integrated, and user-friendly system for data mining in distributed environment[8]),是一個用戶友好并支持在分布式環境中進行高效率計算和快速集成的數據挖掘系統,該平臺支持數據分析人員快速、有效地進行數據挖掘任務。
3 ?大數據挖掘系統FIU-Miner的研究設計
3.1 ?FIU-Miner平臺介紹
與現有數據挖掘平臺相比,FIU-Miner提供了一組新的功能,能夠幫助數據分析人員方便并有效地開展各項復雜的數據挖掘任務。
具體而言,FIU-Miner?具有以下突出的優點。
(1)用戶友好、人性化、快速的數據挖掘任務配置:基于“軟件即服務”這一模式,FIU-Miner隱藏了與數據分析任務無關的低端細節。通過FIU-Miner提供的人性化用戶界面,用戶可以通過將現有算法直接組裝成工作流,輕松完成一個復雜數據挖掘問題的任務配置,而不需要編寫任何代碼。
(2)靈活的多語言程序集成:FIU-Miner允許用戶將目前最先進的數據挖掘算法直接導入系統算法庫中,以此對分析工具集合進行擴充和管理。同時,由于FIU-Miner?能夠正確地將任務分配到有合適運行環境的計算節點上,所以對這些導入的算法沒有實現語言的限制。
(3)異構環境中有效的資源管理:?FIU-Miner支持在異構的計算環境中(包括圖形工作站、單個計算機和服務器等)運行數據挖掘任務。FIU-Miner綜合考慮各種因素(包括算法實現、服務器負載平衡和數據位置)來優化計算資源的利用率。
3.2 ?FIU-Miner系統架構
FIU-Miner的系統架構如圖2所示。該系統分為4層:user interface(用戶接口層)、task and system management(任務與系統管理層)、abstracted resources?(抽象資源層)和heterogeneous physical resource(異構物理資源層)。這種分層架構充分考慮了海量數據的分布式存儲、不同數據挖掘算法的集成、多種分析任務的配置以及系統和用戶的交互功能。
圖2 ?FIU-Miner 系統架構
3.2.1?用戶接口層
為了最大限度地提高系統的兼容性,?用戶接口層是完全用HTML 5開發的Web?應用程序。如圖3所示,用戶接口層有如下3個功能模塊。
(a)任務配置和執行
(b)程序注冊模塊
(c)系統監控模塊
圖 3 ?用戶接口層功能模塊
(1)任務配置和執行(task configuration and execution)
該模塊支持面向工作流的數據挖掘任務配置。一個數據挖掘任務的工作流可以被表示為一個有向圖,其中圖的節點表示特定的算法,圖的邊表示算法中的數據相關性。在FIU-Miner?中,一個工作流程可通過圖形用戶界面來快速配置,而不需要編程。此外,用戶可以設置數據挖掘任務的執行計劃,包括程序的定時、循環、順序等執行方式。
(2)程序注冊(program registration)
該模塊可以讓用戶輕松地導入外部數據挖掘算法,充實FIU-Miner的算法庫。如果要導入外部程序,用戶需要上傳可執行文件,提供詳細的描述信息,包括程序的功能描述、需要的運行環境、程序和相關數據以及參數規范。導入的程序可以使用任何語言編寫,只要后端服務器能支持它需要的運行環境。FIU-Miner目前支持Java(包括Hadoop的環境)、Shell、Python和C/C+ +等語言編寫的程序,因此幾乎所有實現的主流數據挖掘算法,如基于Weka、Mahout、MILK等數據挖掘和機器學習算法庫的程序,都可以很容易地導入FIU-Miner。用戶還可以將自己實現的算法導入系統中。
(3)系統監控(system monitoring)
該模塊實時監測FIU-Miner的資源利用率,并且動態跟蹤系統中提交任務的運行狀態。注意該模塊只顯示了抽象的資源(邏輯存儲和計算資源包括數據庫、文件系統、計算單元等),使底層物理資源對用戶透明。
3.2.2 ?任務及系統管理層
任務及系統管理層包含了兩個主要功能模塊:任務管理和系統管理。
(1)任務管理
FIU-Miner允許用戶動態配置數據挖掘任務,以滿足他們的分析需求。用戶可以選擇在算法庫(algorithm library)中注冊的算法作為基本模塊來構造工作流。工作流集成器(workflow integrator)負責工作流的任務集成和驗證,同時發現和報告無效的流程。一旦新的數據挖掘任務集成和配置完成后,它將被自動添加到任務庫(task library),可以隨時被調度運行。作業調度器(job scheduler)負責分配計算資源及優化運行時間。FIU-Miner里的調度比較復雜。一方面,FIU-Miner支持不同編程語言實現的程序在異構的計算環境中運行。一個任務里的不同程序可能會有不同的運行環境要求。所以,簡單地把任務分配到空閑的計算單元不一定可行。另一方面,將一個作業分成不同的步驟,讓每個步驟在不同的計算單元上運行,可能會增加I/O成本。如果再考慮多用戶、多任務的情況,FIU-Miner里的調度就會變得更加困難和復雜。為了解決上面的難題,在實現FIU-Miner的調度時,綜合考慮了如下因素:給定任務每一步的運行環境要求;?每個計算單元支持的運行環境;每個計算結點的當前運行狀態;輸入數據的大小。
(2)系統管理
作業管理器(job manager)跟蹤執行作業的運行狀態。用戶會收到作業的實時狀態。除了作業監視,FIU-Miner還會跟蹤計算單元以及相關計算資源的狀態。資源監視器(resource monitor)監視計算單元并提供作業調度程序的運行狀態,?以幫助調度決策。資源管理器(resource manager)管理所有可用的計算單元。FIU-Miner的一個獨特的優點是,它不需要人工登記可用物理資源。一旦計算單元部署在物理服務器上,它會將服務器的信息發送給資源管理器,自動將服務器在FIU-Miner里注冊。
3.2.3 ?抽象資源層
抽象資源層包括存儲和計算資源。存儲資源建立在物理設備的基礎上,包括傳統數據庫、本地文件系統、分布式文件系統(比如HDFS)等。計算單元是邏輯上的計算資源。平臺的計算能力依賴計算單元的數量。通過擴展配置計算單元的數量,能有效地支撐上層的數據挖掘任務。
在FIU-Miner中,物理服務器的計算能力是由計算單元的數量和安排的數據挖掘任務來量化的。這種機制是一個系統虛擬化的簡化版本,能夠最大限度地提高計算資源的利用率。為了有效地管理計算資源,每個計算單元都包含詳細規范的配置文件(信息包括計算能力、支持的運行環境、運行狀態等)。一臺物理服務器的存儲(包括可用的數據庫、HDFS和本地文件系統)由該服務器上布置的計算單元共享。
3.2.4 ?異構物理資源層
異構物理資源層亦稱物理資源層,主要包括底層的物理設備。這些物理設備能有效地支撐數據存儲和擴展。
3.3 ?FIU-Miner系統亮點評述
FIU-Miner?建立于分布式異構環境之上,大大減少了不同物理環境給構建數據分析任務帶來的復雜度,充分利用分布式計算的能力提升數據分析的效率。另外,FIU-Miner的計算資源是可動態增減的,使其具備根據具體分析任務數量進行在線調整計算物理資源的能力。最后,友好的用戶接口為基于FIU-Miner構建不同的大數據挖掘應用提供了極大的便捷。
4 ?FIU-Miner應用實例一:高端制造業
4.1 ?高端制造業大數據挖掘任務
制造業是指大規模地把原材料加工成成品的工業生產過程。高端制造業是指制造業中新出現的具有高技術含量、高附加值、強競爭力的產業。典型的高端制造業[9]?包括電子半導體生產、精密儀器制造、生物制藥等。這些制造領域往往涉及嚴密的工程設計、復雜的裝配生產線、大量的控制加工設備與工藝參數、精確的過程控制和材料的嚴格規范。產量和品質極大地依賴流程管控和優化決策。因此,制造企業不遺余力地采用各種措施優化生產流程,調優控制參數,提高產品品質和產量,從而提高企業的競爭力。
隨著工藝、裝備和信息技術的不斷發展,現代制造業(特別是高端制造業)產生和積累了大量生產過程的歷史數據。這些數據中蘊含對生產和管理有很高價值的知識和信息。高端制造企業利用這些技術能夠更好地收集和管理生產流程數據,也使得企業累積的相關數據在日益增多的同時,也變得更加豐富、完備、準確。
這些采集的數據來源于實際生產,并與生產設計、機器設備、原材料、環境條件、生產流程等生產要素信息高度相關。通常情況下,工程人員通過人工分析很難察覺到參數間的關聯模式和影響品質的重要生產要素等信息。然而,如何有效地利用這些數據優化生產過程,提升生產效率,成為了企業關注的焦點。因此,制造企業需要一種高效、可靠的分析方法及工具,把隱藏在海量數據中有用的、深層次的知識和信息挖掘出來,以提升高端制造業在控制、優化、調度、管理等各個層面分析和解決問題的能力。幸運的是,利用數據挖掘可以對這些數據進行有效的分析并轉換成有價值的生產知識,從而能夠在實際應用中改進產品品質,提升產品性能和生產效率,最終達到提高企業行業競爭力的目的。因此,數據挖掘技術是解決制造業海量信息數據處理的關鍵技術之一。
4.2 ?高端制造業大數據挖掘挑戰
高端制造業中的數據挖掘面臨很多挑戰,比如:如何有效分析大規模數據、如何保證數據分析效率和分析結果的準確性?在實際應用中,從海量數據中依靠傳統信息系統進行查詢和報警或單純利用專家經驗來分析和發現潛在有價值的信息已經變得不太現實。因此,企業需要利用數據分析技術、工具或平臺,智能地從大量復雜的生產原始數據中發現新的模式和知識作為改善生產過程的決策依據,系統性地提高生產效率。
4.3 ?具體案例
? ? ? FIU-Miner已經被成功地應用在四川虹歐顯示器件有限公司,作為等離子屏制造過程的數據分析平臺[3,10]。
4.3.1 ?等離子顯示器制造
等離子顯示器(plasma display panel,PDP)是一種利用氣體等離子效應放出紫外線,從而激發三原色發光體獨立發光,達到顯示不同顏色和控制亮度的高端圖像顯示器。它具有亮度高、色彩多、面積大、視角廣、圖像清晰等眾多優勢,是大面積顯示需求(如家庭影院、電子廣告墻)的首選顯示器。
四川虹歐顯示器件有限公司是國內最大的等離子生產公司,每天生產超過1萬張等離子顯示面板,其生產線的一些指標包括[10]:20個大工序、151個小工序;1 000多臺設備串聯;工藝設備共計279臺,設備種類達8 3?種;2 225個物流單元,全長6 000 m;產品制造時間約76 h;單臺產品涉及的過程設備參數超過1.17?萬個。
具體而言,在生產實踐中,技術人員關注如何提高產品的良品率。實現這個目標,?需要回答下面的一些問題:哪些是關鍵的工藝參數(它們對產品的良品率有顯著的影響)、參數值的變動會怎樣影響產品的良品率、哪些是有效的可以確保高良品率的工藝參數配方等。從PDP的數據特點來說,每天生產的數據存儲量是10 GB以上,每月有3~5億筆制造過程記錄,在數量、維度和數據產生速度上具有海量大數據特征。在生產工序復雜、設備參數眾多、數據量大的背景下,人為分析PDP生產過程,以期達到提高生產質量的效果幾乎是無法實現的。因此,迫切需要研究基于等離子顯示屏制造過程的自動化流程和產品優化工具,從而提升制造過程參數管控能力和產品品質。
4.3.2 ?基于FIU-Miner?的解決方案
在過去的幾年里,筆者的研究團隊一直與四川虹歐顯示器件有限公司的技術人員和工程師緊密合作,利用數據挖掘來提高等離子屏的生產良品率。在這個合作過程中,確定了如下兩個主要的分析難點,并提出了相應的基于FIU-Miner?的解決方案。
● 7×24 h的自動化生產方式和新數據采集工具的使用,使得數據量急劇增長,?需要強大的數據分析能力來支撐。
●?大量過程控制參數造成的數據高維特性對數據分析效率和分析結果的準確性提出了更高要求。生產數據分析是對生產工作流程的一個認知過程。這個過程本身就是對數據進行探索、分析和理解的一個循序漸進的迭代過程。因此,一個實用的系統應該提供一個集成的、高效率的分析平臺來支持這個過程。
筆者的研究團隊在FIU-Miner的基礎上,開發了離子屏制造過程數據挖掘系統(PDP-Miner)[10]來解決PDP數據分析的難題。PDP-Miner的架構如圖4所示。具體而言,在FIU-Miner的基礎上增加了數據分析層。
圖 4 ?PDP-Miner 的系統架構
數據分析層提供具體分析任務的用戶執行接口。以等離子屏數據挖掘系統為例,?數據分析任務主要包括數據立方、對比分析、回歸分析、參數選擇、參數配方、操作平臺、結果展示和報告管理。
其中,數據立方使分析人員能夠對數據進行宏觀理解和快速預覽。數據立方子系統可以通過OLAP技術建立數據立方來幫助分析人員大致掌握數據特性。通過選擇維度和建立測度來對數據集進行分析。通過數據立方操作(下鉆、上卷等)實現對數據的多粒度、多角度的理解。
對比分析子系統,能快速發現敏感參數和驗證重要參數,因此,在PDP生產系統中顯得特別重要。通過比較參數在不同時期取值的統計特性,有效發現異常參數值,從而定位敏感設備或數據集。
數據分析子系統主要負責集成數據挖掘算法,提供業務操作接口。由于該系統面向非專業領域的操作人員,并聚焦到具體的分析業務,因此數據挖掘算法被合理封裝到各個業務中,對操作人員透明。現在的挖掘算法主要支持回歸分析、參數選擇、參數配方等任務。
分析報告系統基于業務分析結果產生分析報告。這些分析報告可以直接給決策者提供決策依據。同時報告系統也為領域專家提供收集反饋的接口。領域專家知識的引入對優化模型、改進算法具有很大的指導意義。
圖5給出了兩個具體PDP挖掘的工作流。其中第一個工作流(workflow 1)先集成多種特征選擇的方法來選出影響PDP生產的重要工藝參數,然后利用回歸分析來建立這些參數與產品質量的關系。第二個工作流(workflow 2)是利用頻繁模式分析來挖掘重要工藝參數的關聯關系,從而產生可能的參數配方。圖6給出了工作流的配置界面。
圖 5 ?PDP-Miner 工作流程
圖 6 ?PDP-Miner 工作流配置界面
使用等離子屏制造過程數據挖掘系統大大降低了對前臺使用人員的要求,可以使得操作人員能夠將精力聚焦到快速發現問題和解決問題上。
通過技術人員將數據挖掘研究的結果和平臺進行有效應用,提高了對制造過程中所出現問題的分析和解決的效率(見表1),使PDP屏生產線的綜合良品率及生產效率得到了快速提升。一方面,在顯示器件制造業首次采用大數據挖據技術,實現了由傳統離散型的試驗設計方法到數據挖掘模型來進行制造過程參數管控的動態在線分析處理方法,降低了制造過程品質管控的試驗成本。另一方面,通過數據挖掘平臺,建立了等離子屏制造過程單工序/全工序的參數管控的主要數據挖掘分析模型,通過挖據結果的有效應用,促進了等離子顯示屏的制造良品率和生產效率的提升。最后,利用平臺挖掘方便快捷地指導技術人員進行參數管控的常態化螺旋式提升。在成果應用的這些年里,?促進了PDP良品率和產能的快速提升,給公司帶來了巨大的生產經濟效益。圖7給出了PDP-Miner的實際應用的主界面,該系統的功能模塊包括數據探索(對比分析、數據立方)、數據分析(操作平臺、參數選擇、回歸分析、判別分析)、結果管理(可視化、結果列表和反饋收集)。需要特別指出的是,等離子顯示屏制造挖掘平臺可方便地移植于液晶面板、OLED面板等其他平板顯示領域,具備向整個平板行業推廣的基礎。
表 1 ?PDP-Miner 數據挖掘技術與傳統數據挖掘技術比較
圖 7 ?PDP-Miner 實際應用的主界面
4.4 ?應用亮點評述
將FIU-Miner應用于高端制造業的實際案例,在國際上率先將數據挖掘技術應用于顯示器件制造業,為四川虹歐顯示器件有限公司構建了制造過程單工序/全工序數據挖掘分析模型,開發了基于數據挖掘的PDP-Miner平臺,有效提升了生產效率和產品質量。該公司應用PDP-Miner平臺后,產品綜合良品率得到了很大提高,同時,生產效率的提升也帶來了很大的經濟效益。該研究獲得2013年“中國制造業IT?新興技術應用最佳實踐獎”。
參考文獻:
[1]?嚴霄鳳,?張德馨.?大數據研究[J].?計算機技術與發展, 2013, 23(4): 168~172.
YAN X F, ZHANG D X. Big data research[J]. Computer Technology and Development, 2013, 23(4): 168~172.
[2]?李國杰.?對大數據的再認識[J].?大數據, 2015001.
LI G J. Further understanding of big data[J]. Big Data Research, 2015001.
[3]?李濤.?數據挖掘的應用與實踐:?大數據時代的案例分析[D].?廈門:?廈門大學出版社, 2013.
LI T. Data Mining Where Theory Meets Practice[D]. Xiamen: Xiamen Press, 2013.
[4] HALL M, FRANK E, HOLMES G, et al. The Weka data mining software: an update[J]. SIGKDD Explorations, 2009, 11(1): 10 ~18.
[5] OWEN S, ANIL R, DUNNING T, et al. Mahout in Action[J]. Shelter Island: Manning Publications, 2011.
[6] PREKOPCSAK Z, MAKRAI G, HENK T, et al. Radoop: analyzing big data with rapid mine rand hadoop[C]//Proceedings of Rapid Miner Community Meetingand Conference, Dublin, Ireland, 2011.
[7] YU L, ZHENG J, WU B, et al. Bc-pdm: data mining, social network analysis and text mining system based on cloud computing[C]// Proceedings of the 18th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD’12 ), Beijing, China, 2012.
[8] ZENG C Q, JIANG Y X, ZHENG L, et al. Fiu-Miner: a fast, integrated, and user-friendly system for data mining in distributed environment[C]//Proceedings of the 19th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD’13), Chicago, Illinois, USA, 2013: 1506~1509.
[9] LEI D, HITT M A, GOLDHAR J D. Advanced manufacturing technology: organizational design and strategic flexibility[J]. Organization Studies, 1996, 17(3): 501~523.
[10] ZHENG L, ZENG C Q, LI L, et al. Applying data mining techniques to address critical process optimization needs in advanced manufacturing[C]//Proceedings of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD’14), New York, USA, 2014: 1739~1748.
[11] ZHANG M J, WANG H B, LU Y, et al. TerraFly GeoCloud: an online spatial data analysis and visualization system[J]. ACM Transactions on Intelligent Systems and Technology (TIST), 2015, 6(3).
[12] ZENG C Q, LI H T, WANG H B, et al. Optimizing online spatial data analysis with sequential query patterns[C]//Proceedings of the 15th IEEE International Conference on Information Reuse and Integration, San Francisco, CA, USA, 2014.
[13] LI L, SHEN C, WANG L, et al. iMiner: mining inventory data for intelligent management[C]//Proceedings of the 23rd ACM International Conference on?Information and Knowledge Management, Shanghai, China, 2014.
李濤,男,南京郵電大學計算機學院、軟件學院院長,南京郵電大學大數據研究院院長。2004年7月獲美國羅徹斯特大學(University of Rochester)計算機科學博士學位,2004-2014年先后任美國佛羅里達國際大學(Florida International University)計算機學院助理教授、副教授(終身教授)、教授(full professor)、研究生主管(graduate program director)。由于在數據挖掘及應用領域成效顯著的研究工作,曾多次獲得各種榮譽和獎勵,其中包括2006年美國國家自然科學基金委頒發的杰出青年教授獎,2010年IBM大規模數據分析創新獎,并于2009年獲得佛羅里達國際大學最高學術研究獎。
曾春秋,男,美國佛羅里達國際大學計算機科學博士生,南京郵電大學計算機學院大數據項目組成員。2009年7月—2012年1月為阿里巴巴(中國)網絡技術有限公司高級數據工程師。主要研究興趣包括大規模分布式數據挖掘和系統管理,發表多篇頂級數據挖掘國際期刊和會議論文,參與多本數據挖掘相關應用領域書籍的編寫工作。
周武柏,男,美國佛羅里達國際大學計算機科學博士生,南京郵電大學計算機學院大數據項目組成員。主要研究興趣包括數據挖掘和計算機系統管理,發表多篇頂級數據挖掘國際期刊和會議論文,參與多本數據挖掘相關應用領域書籍的編寫工作。
周綺鳳,女,博士,廈門大學自動化系副教授。2002年起從事數據挖掘及智能系統方面的研究工作,2014—2015年在美國佛羅里達國際大學訪學,主要研究興趣包括機器學習、數據挖掘及其在可持續發展等領域的應用。
鄭理,男,2014年在美國佛羅里達國際大學獲得計算機科學博士學位,南京郵電大學計算機學院項目研究員。主要研究興趣包括信息檢索、推薦系統及災難信息管理,發表多篇頂級數據挖掘國際期刊和會議論文,參與多本數據挖掘相關應用領域書籍編寫。
總結
以上是生活随笔為你收集整理的2015年《大数据》高被引论文Top10文章No.2——大数据时代的数据挖掘 —— 从应用的角度看大数据挖掘(上)...的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 大数据存储系统I/O性能优化技术研究进展
- 下一篇: copy构造函数使用深copy