数据挖掘论文matlab,数据挖掘论文3000字范文参考
數(shù)數(shù)據(jù)挖掘通常與計算機(jī)科學(xué)有關(guān),并通過統(tǒng)計、在線分析處理、情報檢索、機(jī)器學(xué)習(xí)、專家系統(tǒng)和模式識別等諸多方法來實(shí)現(xiàn)上述目標(biāo)。本文精選幾篇關(guān)于數(shù)據(jù)發(fā)掘論文范文供大家學(xué)習(xí)一下。
數(shù)據(jù)挖掘論文一:
《數(shù)據(jù)挖掘中的屬性選擇偏差抑制算法研究》
摘要:決策樹算法廣泛應(yīng)用于數(shù)據(jù)挖掘領(lǐng)域之中.屬性選擇是決策樹方法挖掘效率的關(guān)鍵,但I(xiàn)D3方法和C4.5方法在選擇屬性時,都會產(chǎn)生一定程度的選擇偏差.據(jù)此,該文對信息增益模型進(jìn)行了改進(jìn),將多次對數(shù)運(yùn)算的信息熵求取過程簡化為多值求和,從而規(guī)避了屬性選擇出現(xiàn)偏差的可能性,也加快了決策樹構(gòu)建的執(zhí)行速度.依托學(xué)生情況數(shù)據(jù)展開的實(shí)驗(yàn)研究表明,與經(jīng)典的ID3方法相比,該文方法構(gòu)建的決策樹更加簡潔.同時,隨著數(shù)據(jù)樣本數(shù)量的增大,該文方法的執(zhí)行時間大為降低.
關(guān)鍵詞:數(shù)據(jù)挖掘;決策樹;屬性選擇;偏差抑制
信息化技術(shù)的飛速發(fā)展,使得人們獲得信息的渠道日益豐富,來自生產(chǎn)生活各個領(lǐng)域的數(shù)據(jù)信息讓人們應(yīng)接不暇.對海量的數(shù)據(jù)信息進(jìn)行整理,并從中尋找到對自己有價值的信息至關(guān)重要,這就推動了數(shù)據(jù)發(fā)掘技術(shù)的不斷進(jìn)步[1].近年來,數(shù)據(jù)挖掘技術(shù)形成了重要的分支:基于決策樹的挖掘方法、基于貝葉斯分類的挖掘方法、基于遺傳算法的挖掘方法、基于神經(jīng)網(wǎng)絡(luò)的挖掘方法[2-4].
在這幾大類方法中,基于決策樹的挖掘方法應(yīng)用最為廣泛,這是因?yàn)闆Q策樹方法具有抑制噪聲的能力,執(zhí)行速度快,并且適合于各種規(guī)模的數(shù)據(jù)集合[5].決策樹算法根據(jù)不同的屬性對數(shù)據(jù)對象進(jìn)行分類或測試,其中ID3型決策樹算法是比較有代表性的挖掘算法之一[6].ID3型決策樹采用了一種分治策略,依托信息熵理論并通過迭代分類器實(shí)現(xiàn)數(shù)據(jù)自動分類[7].
郭亦東等[8]在口令分析中使用了數(shù)據(jù)挖掘技術(shù),并構(gòu)建了一種基于剪枝決策樹的挖掘方法,此方法中設(shè)計了節(jié)點(diǎn)代價的目標(biāo)函數(shù),并詳細(xì)地設(shè)計了節(jié)點(diǎn)擴(kuò)展、剪枝規(guī)則,從而進(jìn)一步提升了ID3型決策樹挖掘方法的效率.Kumar等[9]采取二分挖掘策略代替?zhèn)鹘y(tǒng)的線性挖掘策略,并對決策判斷的局部閾值進(jìn)行了分級改進(jìn),從而大大提高了決策樹的構(gòu)建效率.Ramos等[10]將模糊決策理論引入數(shù)據(jù)挖掘領(lǐng)域中的決策樹構(gòu)建,并證實(shí)模糊決策可以進(jìn)一步提升決策樹的歸納和推理能力.
基于決策樹的數(shù)據(jù)挖掘方法依賴于準(zhǔn)確的屬性設(shè)置和表達(dá),為了進(jìn)一步提升決策樹挖掘方法的準(zhǔn)確率,本文對決策樹挖掘過程中的屬性選擇偏差抑制問題進(jìn)行探討,以期得到具有更優(yōu)秀性能的挖掘方法.
1、基于屬性選擇偏差抑制的決策樹挖掘算法
在一個挖掘算法中,決策樹的性能是否理想取決于屬性選擇得是否理想.選擇了合適的屬性,決策樹就可以精煉,其預(yù)測能力也會大大提升.選擇合適的屬性、設(shè)置最精簡的決策樹是一個典型的NP問題(Non-Deterministic Polynomial,非確定多項式問題),已有的算法大都采取啟發(fā)式策略加以解決.這種做法的最大問題在于啟發(fā)式策略選擇的屬性,在數(shù)據(jù)分類過程中區(qū)分能力不能達(dá)到最準(zhǔn)確,并且啟發(fā)式策略執(zhí)行依靠的計算復(fù)雜程度過高.
這里,數(shù)據(jù)分類的信息量一共有n個,分別用d1,d2,…,dn來表示.可見,公式(1)的計算過程涉及了多次對數(shù)運(yùn)算,當(dāng)參與挖掘的數(shù)據(jù)量過大時,這種算法的計算成本和時間代價非常高.作為決策樹挖掘算法中的兩類代表性方法,ID3挖掘算法依靠信息熵來選擇屬性,選擇結(jié)果往往更傾向于取值較多的屬性;C4.5挖掘算法則根據(jù)信息熵的增益來選擇屬性,選擇結(jié)果往往更傾向于取值不均勻的屬性.本文構(gòu)建決策樹挖掘算法的思路是在信息熵理論的基礎(chǔ)上進(jìn)行改進(jìn),并對屬性選擇時的偏差進(jìn)行有效的抑制,同時兼顧屬性選擇的準(zhǔn)確性和算法的執(zhí)行速度.本文算法的首要工作是在信息熵和信息增益的基礎(chǔ)上建立新的屬性選擇標(biāo)準(zhǔn),抑制決策樹算法在屬性選擇過程中出現(xiàn)的偏差,提高屬性選擇的合理性、準(zhǔn)確性.
同時,本文算法試圖構(gòu)建最精煉的決策樹,提高決策樹的構(gòu)建速度、提升決策樹分類的準(zhǔn)確率和效率.
2、實(shí)驗(yàn)結(jié)果與分析
為了驗(yàn)證本文在數(shù)據(jù)挖掘算法中提出的決策樹構(gòu)建方法的有效性,本文接下來的工作將針對具體的數(shù)據(jù)展開實(shí)驗(yàn)研究.實(shí)驗(yàn)中所用的計算機(jī)硬件配置為amd雙核、主頻2.0GHz的CPU,內(nèi)存大小為8GB,硬盤大小為500GB.實(shí)驗(yàn)中所用的計算機(jī)軟件配置為windows 7.0操作系統(tǒng),matlab程序設(shè)計語言及編譯環(huán)境.實(shí)驗(yàn)?zāi)康拇_立為驗(yàn)證本文方法構(gòu)建決策樹的精煉性和執(zhí)行速度.實(shí)驗(yàn)的數(shù)據(jù)對象為某高校的學(xué)生情況,數(shù)據(jù)屬性選擇了獎學(xué)金情況、課程成績、性別.
實(shí)驗(yàn)中,總樣本數(shù)量為2 000個,從15,30,60,120,240,480,960,1920這樣的順序逐步擴(kuò)大樣本量,以測試本文提出的方法的性能.如表1所示,包含了30個樣本的學(xué)生情況數(shù)據(jù).
表1 參與數(shù)據(jù)挖掘決策樹構(gòu)建的學(xué)生情況數(shù)據(jù)樣本
為了形成和本文方法執(zhí)行效果的直觀對照,筆者還選擇了經(jīng)典的ID3方法作為本文方法的比較算法.根據(jù)ID3方法以及表1中的樣本數(shù)據(jù),構(gòu)建的決策樹如圖1所示.
圖1 經(jīng)典的ID3方法獲得的決策樹
圖2 本文方法獲得的決策樹
對比圖2和圖1的決策樹構(gòu)建結(jié)果,可以明顯看出本文方法有效地避免了屬性選擇的多值傾向,從而有效地精簡了決策樹的結(jié)構(gòu),優(yōu)于ID3方法.下面,筆者再從執(zhí)行時間上比較本文方法和ID3方法的差異.實(shí)驗(yàn)對象的樣本數(shù)量從15個樣本開始,逐步翻倍到30,60,120,240,480,960,1920.2種方法構(gòu)建決策樹的時間對比,如圖3所示.
圖3 2種方法的執(zhí)行時間對比
從圖3中可知,本文構(gòu)建的方法因?yàn)楸苊饬硕啻螌?shù)運(yùn)算,而代之以求和運(yùn)算,執(zhí)行速度明顯提升,大大優(yōu)于ID3算法.尤其是隨著數(shù)據(jù)集合規(guī)模不斷擴(kuò)大,這種優(yōu)勢更加明顯,這充分說明了本文方法在速度上的優(yōu)勢。
3、結(jié)論
針對數(shù)據(jù)挖掘問題,本文對基于決策樹的挖掘方法展開了研究.經(jīng)典的ID3方法和C4.5方法在決策樹構(gòu)建的過程中存在屬性選擇多值傾向和不均勻傾向,具有一定的選擇偏差.為此,在信息增益模型的基礎(chǔ)上,筆者對信息熵的計算過程進(jìn)行了進(jìn)一步的改進(jìn)處理,用多值求和替代了多次對數(shù)運(yùn)算.這種計算原理上的改變,抑制了屬性選擇的偏差傾向,也提升了決策樹的構(gòu)建速度.實(shí)驗(yàn)結(jié)果表明,本文方法與經(jīng)典的ID3方法相比,構(gòu)建的決策樹更加精煉,執(zhí)行速度的優(yōu)勢也非常明顯。
總結(jié)
以上是生活随笔為你收集整理的数据挖掘论文matlab,数据挖掘论文3000字范文参考的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 第一百二十六期:代码以外的生存之道,献给
- 下一篇: matlab地球卫星模型,地球卫星三维运