下列选项中 采用边界值平滑_数据挖掘期末考题(答案).doc
華南理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院2012—2013學(xué)年度第二學(xué)期期末考試《數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘技術(shù)》試 卷(假的)專業(yè):計(jì)算機(jī)科學(xué)與技術(shù) 年級(jí):2010 姓名: 學(xué)號(hào):
注意事項(xiàng):1. 本試卷共四大題,滿分100分,考試時(shí)間120分鐘;2. 所有答案請(qǐng)直接答在試卷上;
題號(hào)一二三四總分得分一.填空題(每空1分,共20分)1.數(shù)據(jù)倉(cāng)庫(kù)的特征包括_面向主題________、___集成_________、__時(shí)變_________和非易失性。2.數(shù)據(jù)倉(cāng)庫(kù)的三種數(shù)據(jù)模式包括_星形模式_、__雪花形模式__________、___事實(shí)星座形模式________。3.倉(cāng)庫(kù)數(shù)據(jù)庫(kù)服務(wù)器、_OLAP服務(wù)器________、__前端客戶__________為數(shù)據(jù)倉(cāng)庫(kù)的多層結(jié)構(gòu)。4. OLAP技術(shù)多維分析過(guò)程中,多維分析操作包括?__上卷___、__下鉆____、___切片____、__切塊__________、__轉(zhuǎn)軸_________等。5. 知識(shí)發(fā)現(xiàn)過(guò)程的主要步驟有:數(shù)據(jù)清理、__數(shù)據(jù)集成__________、__數(shù)據(jù)選擇___、數(shù)據(jù)交換、_數(shù)據(jù)挖掘________、___模式評(píng)估_________、__知識(shí)表示_______。6. 數(shù)據(jù)倉(cāng)庫(kù)的視圖的分類有:自頂向下視圖、_數(shù)據(jù)源視圖________、數(shù)據(jù)倉(cāng)庫(kù)視圖、_商務(wù)視圖_________。
二.簡(jiǎn)答題(每題6分,共42分)1.簡(jiǎn)述處理空缺值的方法。1、忽略該記錄 2、手工填寫空缺值3、使用默認(rèn)值4、使用屬性平均值5、使用同類樣本平均值6、使用最可能的值2.挖掘的知識(shí)類型。1、概念/類描述:特征化和區(qū)分2、挖掘頻繁模式、關(guān)聯(lián)和相關(guān)3、分類和預(yù)測(cè)4、聚類分析5、離群點(diǎn)分析6、演變分析
何為OLTP與OLAP及他們的主要區(qū)別。聯(lián)機(jī)事務(wù)處理OLTP (on-line transaction processing);聯(lián)機(jī)分析處理OLAP (on-line analytical processing);OLTP和OLAP的區(qū)別:用戶和系統(tǒng)的面向性:OLTP面向顧客,而OLAP面向市場(chǎng);數(shù)據(jù)內(nèi)容:OLTP系統(tǒng)管理當(dāng)前數(shù)據(jù),而OLAP管理歷史的數(shù)據(jù);數(shù)據(jù)庫(kù)設(shè)計(jì):OLTP系統(tǒng)采用實(shí)體-聯(lián)系(ER)模型和面向應(yīng)用的數(shù)據(jù)庫(kù)設(shè)計(jì),而OLAP系統(tǒng)通常采用星形和雪花模型;視圖:OLTP系統(tǒng)主要關(guān)注一個(gè)企業(yè)或部門內(nèi)部的當(dāng)前數(shù)據(jù),而OLAP 系統(tǒng)主要關(guān)注匯總的統(tǒng)一的數(shù)據(jù);訪問(wèn)模式:OLTP訪問(wèn)主要有短的原子事務(wù)組成,而OLAP系統(tǒng)的訪問(wèn)大部分是只讀操作,盡管許多可能是復(fù)雜的查詢。
在數(shù)據(jù)挖掘之前為什么要對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理?數(shù)據(jù)預(yù)處理對(duì)于數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘都是一個(gè)重要的問(wèn)題,因?yàn)楝F(xiàn)實(shí)中的數(shù)據(jù)多半是不完整的、有噪聲的和不一致的。數(shù)據(jù)預(yù)處理包括數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)交換和數(shù)據(jù)規(guī)約。
為什么需要構(gòu)建單獨(dú)隔離的數(shù)據(jù)倉(cāng)庫(kù)?使得操作數(shù)據(jù)庫(kù)與數(shù)據(jù)倉(cāng)庫(kù)都獲得高性能DBMS—OLTP: 訪問(wèn)方法, 索引, 并發(fā)控制, 數(shù)據(jù)恢復(fù)。Warehouse—OLAP: 復(fù)雜OLAP查詢, 多維視圖, 整理。對(duì)數(shù)據(jù)與功能的要求不同:丟失的數(shù)據(jù): 決策支持需要?dú)v史數(shù)據(jù),而傳統(tǒng)數(shù)據(jù)庫(kù)并不一定維護(hù)歷史數(shù)據(jù)。數(shù)據(jù)整理: 決策支持需要對(duì)異構(gòu)數(shù)據(jù)源進(jìn)行數(shù)據(jù)整理 。數(shù)據(jù)質(zhì)量: 不同的數(shù)據(jù)源常常具有不一致的數(shù)據(jù)表示,編碼結(jié)構(gòu)與格式。關(guān)聯(lián)規(guī)則的確定性度量與實(shí)用性度量的分類及定義。支持度和置信度是關(guān)聯(lián)規(guī)則的確定性度量與實(shí)用性度量。(1)支持度:事務(wù)包含XUY的概率,即support=P(XUY) 支持度計(jì)算: Support(X?Y) = P(X U Y )={XUY}的支持度計(jì)數(shù)(模式或項(xiàng)集在DB中出現(xiàn)的頻率)/事務(wù)表中總的事務(wù)數(shù)(2)置信度:事務(wù)同時(shí)包含X與Y的條件概率:confidence=P(Y|X) 置信度計(jì)算:Confidence(X?Y) = P(Y|X)=P(XUY)/P(X) = {XUY}支持度計(jì)數(shù)/X支持度計(jì)數(shù)
簡(jiǎn)述分箱平滑的方法。對(duì)數(shù)據(jù)進(jìn)行排序,然后把它們劃分到箱,然后通過(guò)箱平均值,箱中值或者箱邊界值進(jìn)行平滑。分箱的方法主要有:① 等深分箱法 ② 等寬分箱法數(shù)據(jù)平滑的方法主要有:平均值法、邊界值法和中值法
三.計(jì)算題(共38分)1.一個(gè)食品連鎖店每周的事務(wù)記錄如下表所示,其中每一條事務(wù)表示在一項(xiàng)收款機(jī)業(yè)務(wù)中賣出的項(xiàng)目,假定supmin=40%,confmin=40%,使用Apriori算法計(jì)算生成的關(guān)聯(lián)規(guī)則,標(biāo)明每趟數(shù)據(jù)庫(kù)掃描時(shí)的候選集和大項(xiàng)目集。(10分)事務(wù)項(xiàng)目T1T2T3T4T5面包、果凍、花生醬面包、花生醬面包、牛奶、花生醬啤酒、面包啤酒、牛奶
解
總結(jié)
以上是生活随笔為你收集整理的下列选项中 采用边界值平滑_数据挖掘期末考题(答案).doc的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 搜狗桌面壁纸安装使用图文教程
- 下一篇: abaqus质量缩放系数取值_ABAQU