日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 >

数据仓库与数据挖掘 4(上)

發(fā)布時間:2024/8/1 40 豆豆
生活随笔 收集整理的這篇文章主要介紹了 数据仓库与数据挖掘 4(上) 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

SqlServer 2012 創(chuàng)建數(shù)據(jù)倉庫

開始實戰(zhàn)!很簡單的。沒有代碼,沒有代碼,沒有代碼!

對OnRet數(shù)據(jù)庫應用SSIS,創(chuàng)建ETL包,設計開發(fā)對應的數(shù)據(jù)倉庫

hive版本請看:點擊這里

實驗環(huán)境

OS:win7
SqlServer2012
SQL Server Data Tools(SSDT) (SqlServer附帶)
SSIS(SSDT的項目,是Microsoft SQL Server Integration Services的簡稱,是生成高性能數(shù)據(jù)集成解決方案(包括數(shù)據(jù)倉庫的提取、轉(zhuǎn)換和加載 (ETL) 包)的平臺)。

數(shù)據(jù)來源

OnRet數(shù)據(jù)庫:https://pan.baidu.com/s/1VFCbn9Dip3cRD4tHCBD-_Q
提取碼:whn7

下載后,打開sqlserver2012(我的版本)對象資源管理器SSMS

OnRet 數(shù)據(jù)庫為一個在線商城項目的數(shù)據(jù)庫。表格為

【請忽略我的標記為1的表格】
這樣就完成了數(shù)據(jù)庫的導入了,教學較為簡單,只用這一個數(shù)據(jù)庫作為數(shù)據(jù)倉庫的來源。

設計、創(chuàng)建數(shù)據(jù)倉庫DW

選定一個感興趣的主題,設計多維模型。例如:以商品的銷售額和銷售量為主題設計的星型模型。

需要五個維表:Dates(時間),Locates(地點),Products(產(chǎn)品),Education(教育程度),Age(年齡)
一個事實表:sales(銷售)

在SqlServer中創(chuàng)建數(shù)據(jù)庫SDW存放數(shù)據(jù)倉庫。(這種方法較為簡單)
創(chuàng)建以上幾個表格

創(chuàng)建Integration Services項目

打開SSDT

SQL Server Data Tools(SSDT) 曾叫做Business Intelligence Development Studio(BIDS),是開發(fā)人員所需要的開發(fā)環(huán)境。它為SSIS,SSAS,SSRS的商業(yè)智能項目提供了可視的設計界面。從SQL Server 2014版本開始,該環(huán)境不再包含在SQL Server的安裝包內(nèi),需要另行安裝。

此外SSIS簡易教程請看:點擊這里
或者查找官網(wǎng):https://docs.microsoft.com/en-us/sql/integration-services/sql-server-integration-services?view=sql-server-ver15

并添加OLEDB連接管理器連接OnRet和SDW數(shù)據(jù)庫


最好使用sa賬號,避免出錯。

同樣的,對于輸出數(shù)據(jù)庫也添加連接

ETL過程就是從OnRet數(shù)據(jù)庫中抽取數(shù)據(jù),轉(zhuǎn)換,統(tǒng)一后存儲到SDW中。

開始ETL

時間維表

點擊SSIS右鍵創(chuàng)建SSIS包,設置數(shù)據(jù)流任務,添加OLEDB源,設置為OnRet數(shù)據(jù)庫中的表。抽取Date數(shù)據(jù),將表設置為Sales,并在列中添加日期。

第一步,創(chuàng)建數(shù)據(jù)流任務

第二步,設計數(shù)據(jù)流任務,雙擊數(shù)據(jù)流任務,轉(zhuǎn)到數(shù)據(jù)流設計頁面:增加數(shù)據(jù)源(把對應數(shù)據(jù)源的控件拖過來),雙擊進入編輯頁面


訂單中的日期即為對應的時間,需要將其抽取出來,劃分層次。


第三步 派生列

因為只有一個列(屬性),我們希望時間是多層次的,所以添加派生列,并如圖配置。


雙擊組件進入編輯,添加對應的維成員。

第五步、 添加排序,去除時間維表的重復行

為了時間的唯一性,添加排序,去除重復行(多個訂單可能是同一天的)
同樣的方法,把排序組件拖過來,雙擊編輯

第六步 輸出到目標倉庫維表中
添加OLEDB目標(拖過來),設置輸出表為SDW的Dates表,并設置映射,部署之后就能得到結(jié)果。

映射中一一對應。

輸入是數(shù)據(jù)來源,目標列是SDW中Dates維表的屬性列,他們設置的數(shù)據(jù)類型必須一致。

第七步 點擊部署,即可。

地理維表

和上述過程基本一樣。
需要確定地理維度的來源:選取OnRet數(shù)據(jù)庫的Area表。

第一步 創(chuàng)建SSIS包,設置數(shù)據(jù)流任務,添加OLEDB源。

雙擊數(shù)據(jù)流任務進入數(shù)據(jù)流設計頁面,新增數(shù)據(jù)源(還是原來的設置)

添加OLEDB源后,選取OnRet數(shù)據(jù)庫的Area表,勾選除編號外所有可用外部列。

因為這里已經(jīng)包含了地區(qū)維層次,不必增加新成員,所以不需要派生。

添加OLEDB目標,設置輸出表為SDW的Locates表,并設置映射,部署之后就能得到結(jié)果。

部署即可。

其他的維表和事實表操作請看下一個數(shù)據(jù)倉庫與數(shù)據(jù)挖掘 4(下)。

參考

https://docs.microsoft.com/en-us/sql/integration-services/sql-server-integration-services?view=sql-server-ver15
https://baike.baidu.com/item/SSIS/5351898?fr=aladdin

總結(jié)

以上是生活随笔為你收集整理的数据仓库与数据挖掘 4(上)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。