《大数据》第1期“研究”——大数据管理系统评测基准的 挑战与研究进展(上)...
大數(shù)據(jù)管理系統(tǒng)評測基準(zhǔn)的挑戰(zhàn)與研究進(jìn)展
錢衛(wèi)寧,夏 帆,周敏奇,金澈清,周傲英
華東師范大學(xué)數(shù)據(jù)科學(xué)與工程研究院 上海 200062
摘要:數(shù)據(jù)庫評測基準(zhǔn)在數(shù)據(jù)庫發(fā)展歷史中的作用不可替代,而大數(shù)據(jù)環(huán)境中傳統(tǒng)評測基準(zhǔn)不敷應(yīng)用。因此,從評測基準(zhǔn)3要素,即數(shù)據(jù)、負(fù)載、度量體系入手,研究具有高仿真性、可適配性、可測量性的大數(shù)據(jù)管理系統(tǒng)評測基準(zhǔn),對大數(shù)據(jù)管理系統(tǒng)的研發(fā)和應(yīng)用系統(tǒng)選型至關(guān)重要。基于此,在簡要分析評測基準(zhǔn)的基本要素和大數(shù)據(jù)管理系統(tǒng)發(fā)展過程的基礎(chǔ)上,重點(diǎn)分析大數(shù)據(jù)管理系統(tǒng)的基準(zhǔn)評測需求與挑戰(zhàn),然后通過社交媒體分析型查詢評測基準(zhǔn)BSMA,探討了面向應(yīng)用的大數(shù)據(jù)管理系統(tǒng)基準(zhǔn)評測的設(shè)計(jì)和實(shí)現(xiàn)問題。
關(guān)鍵詞:大數(shù)據(jù)管理系統(tǒng);評測基準(zhǔn);數(shù)據(jù)生成;負(fù)載生成;性能度量體系
Challenges and Progress of Big Data
Management System Benchmarks
Qian Weining, Xia Fan, Zhou Minqi, Jin Cheqing, Zhou Aoying
Institute for Data Science and Engineering, East China Normal University, Shanghai 200062, China
Abstract: Database benchmarking has stimulated the development of data management systems and technologies. In big data environments, benchmarking should be revisited. Therefore, research on benchmarks for big data management systems is a key problem for big data research and applications. Benchmark design can be achieved from three different perspectives, i.e. data, workload, and performance measurements. After the brief introduction to these three elements and the progress of big data management system research, the requirements and challenges to benchmarking big data management systems were analyzed. Through the introduction to a benchmark for analytical queries over social media data, named as BSMA, the issues of design and implementation of a benchmark for big data management systems were discussed.
Key words: big data management system, benchmark, data generation, workload generation, performance measurement
1 引言
數(shù)據(jù)庫管理系統(tǒng)(DBMS)廠商間的激烈競爭造就了一個(gè)數(shù)千億美元的市場。數(shù)據(jù)庫基準(zhǔn)評測(databasebenchmarking)確保了競爭的公平有序,從而引導(dǎo)了行業(yè)的健康發(fā)展。數(shù)據(jù)庫評測基準(zhǔn)是指一套用于評測、比較不同DBMS性能的規(guī)范,其所生成的性能指標(biāo)值能夠客觀、全面地比較各個(gè)DBMS的性能差距[1]。
通常,新的數(shù)據(jù)庫理論或數(shù)據(jù)管理技術(shù)被提出之后,會(huì)迅速誕生一批原型或商用系統(tǒng)。但技術(shù)上的差異常導(dǎo)致它們的性能表現(xiàn)不盡相同,從而引發(fā)系統(tǒng)開發(fā)商之間的爭議。技術(shù)層面的爭論和競爭促進(jìn)了行業(yè)的發(fā)展;而諸多非技術(shù)因素的介入,則會(huì)破壞良性競爭。1983年發(fā)布的“威斯康星基準(zhǔn)”[2],消彌了自關(guān)系型數(shù)據(jù)庫管理系統(tǒng)(RDBMS)出現(xiàn)后紛爭的性能口水戰(zhàn),促進(jìn)了各DBMS廠商優(yōu)化系統(tǒng),并最終在常用負(fù)載(workload)下取得相近的性能。威斯康星基準(zhǔn)的巨大成功以及以威斯康星大學(xué)DeWittD J教授和圖靈獎(jiǎng)獲得者Gray J為代表的一批學(xué)者對數(shù)據(jù)庫基準(zhǔn)評測的適時(shí)推動(dòng),有效地保障了20世紀(jì)80年代開始的30多年的數(shù)據(jù)庫行業(yè)的健康發(fā)展。
隨著“大數(shù)據(jù)”成為應(yīng)用熱點(diǎn),越來越多的應(yīng)用環(huán)境中,數(shù)據(jù)、應(yīng)用和系統(tǒng)體現(xiàn)出“3V”的特性[3],即量大(volume)、多樣(variety)、快速變化(velocity):數(shù)據(jù)同時(shí)具備“3V”的特性,即數(shù)據(jù)規(guī)模大、變化速度和增長速度快,且包含多源、異構(gòu)和非結(jié)構(gòu)化數(shù)據(jù);應(yīng)用中包含大量作用于大數(shù)據(jù)的多樣化的負(fù)載,且很多負(fù)載要求在快速變化的數(shù)據(jù)上獲得實(shí)時(shí)的結(jié)果;系統(tǒng)則需要同時(shí)適應(yīng)數(shù)據(jù)與應(yīng)用,在不同的接口層次上提供對大數(shù)據(jù)的多樣化的管理和處理功能。
針對新興的大數(shù)據(jù)應(yīng)用環(huán)境,在以Hadoop為代表的海量數(shù)據(jù)處理技術(shù)日趨成熟的同時(shí),一批新型大數(shù)據(jù)管理系統(tǒng)(bigdata management system,BDMS)積極涌現(xiàn),以解決大數(shù)據(jù)管理與處理中的各種問題。
新型的數(shù)據(jù)、應(yīng)用環(huán)境和系統(tǒng)決定了現(xiàn)有評測基準(zhǔn)無法產(chǎn)生具有仿真能力的數(shù)據(jù),不能反映應(yīng)用需求,無法公平、有效地評測系統(tǒng)。在包括數(shù)據(jù)生成、負(fù)載生成、度量選取、評測基準(zhǔn)架構(gòu)與評測方法等在內(nèi)的基準(zhǔn)評測的多個(gè)方面,都需要研究、開發(fā)新的技術(shù),以更真實(shí)地反映系統(tǒng)在典型應(yīng)用環(huán)境中的表現(xiàn)。評測基準(zhǔn)是對大數(shù)據(jù)應(yīng)用環(huán)境中數(shù)據(jù)管理任務(wù)的規(guī)范化與定義,對大數(shù)據(jù)系統(tǒng)的研發(fā)具有指導(dǎo)意義。
基準(zhǔn)制定是一個(gè)漫長的過程。RDBMS的基準(zhǔn)評測經(jīng)過30多年的發(fā)展,仍在不斷完善。而影響力較大的早期大數(shù)據(jù)評測基準(zhǔn)CALDA提出至今不過4年[4]。目前的相關(guān)評測基準(zhǔn)在應(yīng)用抽象、評測內(nèi)容與方法、應(yīng)用程度上都仍在初級階段。可以預(yù)見,未來的5~10年評測基準(zhǔn)將和BDMS的研發(fā)共同高速發(fā)展[5]。
另一方面,由于我國用戶分布、商業(yè)模式、政策法規(guī)的特點(diǎn),應(yīng)用環(huán)境具有一定的特殊性。這種特殊性體現(xiàn)在數(shù)據(jù)、負(fù)載特性上。國外數(shù)據(jù)庫廠商因?qū)ξ覈鴩榈牟涣私馍踔潦怯幸獾钟|,很難在短時(shí)間內(nèi)研發(fā)出適合我國需求的系統(tǒng)和應(yīng)用。面向具有特色的應(yīng)用,制定評測基準(zhǔn),有助于引領(lǐng)大數(shù)據(jù)技術(shù)和系統(tǒng)的研發(fā),為解決我國所面臨的最急迫的大數(shù)據(jù)管理問題做出貢獻(xiàn),同時(shí)促進(jìn)國內(nèi)大數(shù)據(jù)系統(tǒng)的研發(fā),提振國內(nèi)大數(shù)據(jù)行業(yè)的發(fā)展。
本文將在簡要分析評測基準(zhǔn)的基本要素和大數(shù)據(jù)管理系統(tǒng)發(fā)展過程的基礎(chǔ)上,重點(diǎn)分析大數(shù)據(jù)管理系統(tǒng)的基準(zhǔn)評測需求與挑戰(zhàn),然后通過社交媒體分析型查詢評測基準(zhǔn)(benchmarkof social media analysis,BSMA),探討面向應(yīng)用的大數(shù)據(jù)管理系統(tǒng)基準(zhǔn)評測的設(shè)計(jì)、實(shí)現(xiàn)問題。
2 評測基準(zhǔn)的基本要素
從宏觀角度看,評測基準(zhǔn)的3要素是數(shù)據(jù)、負(fù)載和度量體系,下面分別進(jìn)行介紹。
● 數(shù)據(jù):不同應(yīng)用的數(shù)據(jù)具有不同的靜態(tài)和動(dòng)態(tài)特征,體現(xiàn)在結(jié)構(gòu)、規(guī)模、數(shù)據(jù)分布、變化速率等多個(gè)方面。傳統(tǒng)基準(zhǔn)通常只采用固定數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)分布下的數(shù)據(jù)生成方法產(chǎn)生高仿真數(shù)據(jù)。而如何準(zhǔn)確刻畫大數(shù)據(jù)靜態(tài)和動(dòng)態(tài)特征,如何在特征已知或未知的情況下,高效地生成測試所需的海量數(shù)據(jù)是大數(shù)據(jù)管理系統(tǒng)基準(zhǔn)評測所需要解決的問題。
● 負(fù)載:負(fù)載是作用于數(shù)據(jù)的訪問和查詢、更新、分析任務(wù)。大數(shù)據(jù)管理系統(tǒng)評測基準(zhǔn)必須能夠產(chǎn)生反映應(yīng)用需求的多樣化的負(fù)載(variety)。和數(shù)據(jù)一樣,評測基準(zhǔn)的負(fù)載必須在靜態(tài)和動(dòng)態(tài)特征上與應(yīng)用具有相似性,即對于評價(jià)指標(biāo)而言,模擬負(fù)載能夠反映應(yīng)用的需求。具有良好適配性的負(fù)載生成理論和方法是大數(shù)據(jù)管理系統(tǒng)基準(zhǔn)評測的第二個(gè)要素。
● 度量體系:度量體系指對于性能進(jìn)行評價(jià)的指標(biāo)集合。指標(biāo)可以是單一的,也可以是多維的。BDMS應(yīng)用環(huán)境不同于傳統(tǒng)DBMS。例如,新型硬件要求在評測時(shí)考慮非傳統(tǒng)的性能度量,如忙時(shí)數(shù)據(jù)更新量(面向集群化的大內(nèi)存系統(tǒng))、熱點(diǎn)數(shù)據(jù)更新頻率等;開放的運(yùn)行環(huán)境要求評測能夠反映系統(tǒng)受干擾時(shí)的性能;分析型負(fù)載則將性能度量和結(jié)果的精確程度綁在一起。此外,性價(jià)比、能耗等因素進(jìn)一步增加了BDMS度量體系制定的難度。
3 大數(shù)據(jù)管理系統(tǒng)及其評測基準(zhǔn)需求
3.1 大數(shù)據(jù)管理系統(tǒng)的分類
大數(shù)據(jù)管理系統(tǒng)通常指那些基于集群環(huán)境,利用大容量內(nèi)存、高速網(wǎng)絡(luò),支撐海量數(shù)據(jù)存儲、索引、更新、查詢、檢索、分析和挖掘的數(shù)據(jù)管理系統(tǒng)。谷歌公司的GFS、MapReduce實(shí)現(xiàn)以及BigTable系統(tǒng)可以認(rèn)為是最早出現(xiàn)的有代表性的大數(shù)據(jù)管理系統(tǒng)。而隨著開源系統(tǒng)Hadoop的出現(xiàn)和相關(guān)開源生態(tài)圈的發(fā)展以及BerkeleyData Analytics Stack系列工具的快速發(fā)展,一大批系統(tǒng)和工具都可被歸于BDMS的范疇,如圖1所示[6]。這些系統(tǒng)的功能、接口層次、架構(gòu)、實(shí)現(xiàn)技術(shù)、面向應(yīng)用和所依賴的底層硬件各不相同,如何客觀、公正地比較它們在不同應(yīng)用場景下的性能,無論是對于系統(tǒng)開發(fā)者還是應(yīng)用開發(fā)和系統(tǒng)選型人員來說,都是一個(gè)難題。這也是BDMS基準(zhǔn)評測對于指導(dǎo)系統(tǒng)研發(fā)、系統(tǒng)選型,營造良好技術(shù)競爭環(huán)境的意義所在。
圖1 大數(shù)據(jù)管理系統(tǒng)及它們之間的關(guān)系
3.2 大數(shù)據(jù)管理系統(tǒng)基準(zhǔn)評測需求
BDMS評測基準(zhǔn)首先需要具備大數(shù)據(jù)建模與高仿真的數(shù)據(jù)生成的能力。具體而言,包括以下需求。
● 大數(shù)據(jù)靜態(tài)和動(dòng)態(tài)特征的刻畫:對現(xiàn)實(shí)應(yīng)用場景中的真實(shí)數(shù)據(jù)進(jìn)行動(dòng)態(tài)和靜態(tài)特性的刻畫,是形成數(shù)據(jù)生成理論的前提。數(shù)據(jù)的靜態(tài)特征包括數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)分布、精確性以及時(shí)序關(guān)系等。在成熟的應(yīng)用領(lǐng)域,數(shù)據(jù)靜態(tài)特征往往已經(jīng)有模型進(jìn)行描述。但大數(shù)據(jù)的動(dòng)態(tài)性(velocity)特征難以用單一模型進(jìn)行刻畫。對數(shù)據(jù)的靜態(tài)和動(dòng)態(tài)特性進(jìn)行參數(shù)化的刻畫是高仿真數(shù)據(jù)生成的前提。
● 高仿真的數(shù)據(jù)生成方法:大數(shù)據(jù)應(yīng)用的特點(diǎn)決定了需要采用應(yīng)用相關(guān)的數(shù)據(jù)生成方法。同時(shí),大數(shù)據(jù)的復(fù)雜性和動(dòng)態(tài)性決定了對數(shù)據(jù)特征的刻畫無法由領(lǐng)域?qū)<彝瓿?#xff0c;而需要通過統(tǒng)計(jì)和機(jī)器學(xué)習(xí)自動(dòng)進(jìn)行。
● 動(dòng)態(tài)數(shù)據(jù)高效持續(xù)生成:大數(shù)據(jù)不斷變化、持續(xù)更新。因此,評測基準(zhǔn)需要具備采用并行數(shù)據(jù)生成、流式數(shù)據(jù)生成等技術(shù),仿真真實(shí)的海量、快速變化的動(dòng)態(tài)數(shù)據(jù)的能力。
其次,BDMS評測基準(zhǔn)還需要具備能夠滿足多場景需求的綜合負(fù)載生成能力,具體介紹如下。
● 負(fù)載特性刻畫與建模:常見負(fù)載包括數(shù)據(jù)訪問、數(shù)據(jù)檢索與查詢、數(shù)據(jù)更新、批處理、迭代運(yùn)算、聚集計(jì)算等,它們的處理代價(jià)各不相同。應(yīng)用中的負(fù)載常常是復(fù)合的,且負(fù)載的分布隨時(shí)間而變化。同時(shí),負(fù)載作用于不同的數(shù)據(jù)對象(負(fù)載參數(shù)(argument)),其處理代價(jià)也是不同的。而且負(fù)載參數(shù)的分布也是動(dòng)態(tài)、多樣的。具備豐富、靈活的負(fù)載特性刻畫能力,是準(zhǔn)確模擬應(yīng)用負(fù)載的前提。
● BDMS原語與操作模式的抽象:BDMS的訪問接口具有多樣性。在不同層次的BDMS服務(wù)上,分別定義兼容多種系統(tǒng)的負(fù)載描述,是實(shí)現(xiàn)BDMS基準(zhǔn)評測的前提之一。這一需求也是BDMS評測基準(zhǔn)與傳統(tǒng)數(shù)據(jù)庫管理系統(tǒng)評測基準(zhǔn)的一項(xiàng)重要區(qū)別。
● 可適配的負(fù)載自動(dòng)生成方法與系統(tǒng)框架:應(yīng)用的負(fù)載各不相同。為每個(gè)應(yīng)用定制負(fù)載生成器,成本高、效率低,不能滿足同一數(shù)據(jù)集上共生多種應(yīng)用的BDMS基準(zhǔn)評測需要。因此,給定負(fù)載特性刻畫,生成不同接口層面的代表性負(fù)載和相應(yīng)負(fù)載參數(shù),是另一項(xiàng)重要的BDMS基準(zhǔn)評測需求。
第三,負(fù)載相關(guān)的度量體系與測量方法對于BDMS評測基準(zhǔn)至關(guān)重要。
● BDMS度量的基本特征與度量體系:BDMS系統(tǒng)的性能評價(jià)包括多項(xiàng)非傳統(tǒng)的度量,包括數(shù)據(jù)分析的實(shí)時(shí)性、系統(tǒng)的彈性能力,即環(huán)境變化時(shí)的自動(dòng)管理能力、精度與性能的復(fù)合度量、能耗和能效比等。因此,需要制定可重復(fù)、可核實(shí)的新度量體系。這又是一項(xiàng)顯著不同于傳統(tǒng)數(shù)據(jù)庫管理系統(tǒng)評測基準(zhǔn)的需求。
● 影響度量可測量性的不確定因素的量化與相關(guān)性分析能力:多種不確定因素會(huì)影響最終的評測結(jié)果。云計(jì)算、多租戶、虛擬機(jī)環(huán)境都可能放大這種影響,造成評測結(jié)果的不客觀、不可重復(fù)等問題。因此,需要對影響可測量性的因素進(jìn)行量化和相關(guān)性分析,并進(jìn)一步修正度量體系,以保證評測結(jié)果的客觀和全面。
● 新的測量方法學(xué):基準(zhǔn)評測要求其過程和結(jié)果具有可解釋性、可重復(fù)性、可審計(jì)性。測量方法要求對這些特定現(xiàn)象進(jìn)行準(zhǔn)確記錄和描述。另一方面,大數(shù)據(jù)應(yīng)用的數(shù)據(jù)和負(fù)載常具有非穩(wěn)態(tài)、爆發(fā)性特征,即在特定時(shí)刻數(shù)據(jù)或負(fù)載量劇增。BDMS基準(zhǔn)評測方法必須具有可伸縮性,使得對爆發(fā)性的數(shù)據(jù)和負(fù)載,評測過程和結(jié)果仍有意義。此外,評測的結(jié)果還必須通過公開的方式報(bào)告評測環(huán)境、評測過程和評測結(jié)果。
3.3 大數(shù)據(jù)管理系統(tǒng)基準(zhǔn)評測的挑戰(zhàn)
大數(shù)據(jù)管理系統(tǒng)的一個(gè)重要特點(diǎn)是“同類適用(onesize fits a bunch)”,即一個(gè)系統(tǒng)所針對的是具有相似特點(diǎn)的一類(bunch)應(yīng)用,而不是所有應(yīng)用。它不同于傳統(tǒng)數(shù)據(jù)庫管理系統(tǒng)的“一體適用(onesize fits all)”特點(diǎn)[7]。這也是不同BDMS之間的差異明顯大于傳統(tǒng)數(shù)據(jù)庫管理系統(tǒng)間差異的主要原因。系統(tǒng)間的顯著差異為基準(zhǔn)評測制造了障礙。為了應(yīng)對這一情況,BDMS評測基準(zhǔn)也應(yīng)具有“同類適用”的特點(diǎn),如圖2所示。
圖2 BDMS評測基準(zhǔn)的“同類適用”特點(diǎn)
具體而言,評測基準(zhǔn)需要滿足高仿真性、可適配性以及可測量性。
● 高仿真性,即生成的數(shù)據(jù)和負(fù)載在對于性能度量有明確影響的特征上具有高仿真性。
● 可適配性,即通過參數(shù)定制,基準(zhǔn)評測套件可適配于不同領(lǐng)域,以對應(yīng)BDMS系統(tǒng)的“同類適用”特點(diǎn)。可定制、可適配的評測基準(zhǔn)對于降低評測成本具有重要意義,這是BDMS評測所特有的問題,也是難點(diǎn)所在。
● 可測量性,即基準(zhǔn)評測結(jié)果在開放、動(dòng)態(tài)應(yīng)用環(huán)境中仍有意義,開放、動(dòng)態(tài)的大數(shù)據(jù)應(yīng)用環(huán)境向評測結(jié)果的可解釋性、可重復(fù)性、可審計(jì)性、公平性提出了挑戰(zhàn)。這一問題需要通過對BDMS進(jìn)行更細(xì)致的建模以及大量的實(shí)驗(yàn)和實(shí)驗(yàn)結(jié)果分析加以解決。
BDMS評測基準(zhǔn)還需要滿足我國特有應(yīng)用特點(diǎn)的需要。例如,在“雙十·一”促銷、“春運(yùn)”搶票、優(yōu)質(zhì)金融理財(cái)產(chǎn)品發(fā)售等應(yīng)用中,后臺系統(tǒng)都會(huì)遭遇短時(shí)間的超高峰值負(fù)載壓力。一方面,這是傳統(tǒng)零售、運(yùn)輸、金融等行業(yè)“互聯(lián)網(wǎng)化”的必然結(jié)果;另一方面,我國人口的巨大基數(shù)導(dǎo)致了此類負(fù)載壓力遠(yuǎn)大于國外同類應(yīng)用。如何模擬這類峰值(spike)場景,并進(jìn)行準(zhǔn)確的、有推廣意義的評測,是一個(gè)重要的研究問題。此外,欺詐檢測、情分析等應(yīng)用由于與文化、國情緊密相關(guān),因此在我國此類應(yīng)用也具有特殊的負(fù)載。BDMS評測基準(zhǔn)的研究與制定還需要反映這些特殊應(yīng)用的需要。
總結(jié)
以上是生活随笔為你收集整理的《大数据》第1期“研究”——大数据管理系统评测基准的 挑战与研究进展(上)...的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: NewInstance 是分配内存
- 下一篇: 【操作系统】Reboot