當(dāng)前位置：首頁 >

数据挖掘：如何寻找相关项

發(fā)布時(shí)間：2023/12/18 58 豆豆

生活随笔收集整理的這篇文章主要介紹了数据挖掘：如何寻找相关项小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

導(dǎo)讀：隨著大數(shù)據(jù)時(shí)代浪潮的到來數(shù)據(jù)科學(xué)家這一新興職業(yè)也越來越受到人們的關(guān)注。本文作者Alexandru Nedelcu就將數(shù)學(xué)挖掘算法與大數(shù)據(jù)有機(jī)的結(jié)合起來，并無縫的應(yīng)用在面臨大數(shù)據(jù)浪潮的網(wǎng)站之中。

數(shù)據(jù)科學(xué)家需要具備專業(yè)領(lǐng)域知識(shí)并研究相應(yīng)的算法以分析對(duì)應(yīng)的問題，而數(shù)據(jù)挖掘是其必須掌握的重要技術(shù)。以幫助創(chuàng)建推動(dòng)業(yè)務(wù)發(fā)展的相應(yīng)大數(shù)據(jù)產(chǎn)品和大數(shù)據(jù)解決方案。EMC最近的一項(xiàng)調(diào)查也證實(shí)了這點(diǎn)。調(diào)查結(jié)果顯示83%的人認(rèn)為大數(shù)據(jù)浪潮所催生的新技術(shù)增加了數(shù)據(jù)科學(xué)家的需求。本文將為您展示如何基于一個(gè)簡(jiǎn)單的公式查找相關(guān)的項(xiàng)目。請(qǐng)注意，此項(xiàng)技術(shù)適用于所有的網(wǎng)站（如亞馬遜），以個(gè)性化用戶體驗(yàn)、提高轉(zhuǎn)換效率。

查找相關(guān)項(xiàng)問題

要想為一個(gè)特定的項(xiàng)目查找相關(guān)項(xiàng)，就必須首先為這兩個(gè)項(xiàng)目定義相關(guān)之處。而這些也正是你要解決的問題：

在博客上，你可能想以標(biāo)簽的形式分享文章，或者對(duì)比查看同一個(gè)人閱讀過的文章
亞馬遜站點(diǎn)被稱為“購(gòu)買此商品的客戶還購(gòu)買了”的部分
一個(gè)類似于IMDB（Internet Movie Database）的服務(wù)，可以根據(jù)用戶的評(píng)級(jí)，給出觀影指南建議

不論是標(biāo)簽、購(gòu)買的商品還是觀看的電影，我們都要對(duì)其進(jìn)行分門別類。這里我們將采用標(biāo)簽的形式，因?yàn)樗芎?jiǎn)單，而且其公式也適用于更復(fù)雜的情形。

以幾何關(guān)系重定義問題

現(xiàn)在以我的博客為例，來列舉一些標(biāo)簽：

["API",?"Algorithms",?"Amazon",?"Android",?"Books",?"Browser"]??

好，我們來看看在歐式空間幾何學(xué)中如何表示這些標(biāo)簽。

我們要排序或比較的每個(gè)項(xiàng)目在空間中以點(diǎn)表示，坐標(biāo)值（代表一個(gè)標(biāo)簽）為1（標(biāo)記）或者0（未標(biāo)記）。

因此，如果我們已經(jīng)獲取了一篇標(biāo)簽為“API”和“Browser”的文章，那么其關(guān)聯(lián)點(diǎn)是：

[?1,?0,?0,?0,?0,?1?]?

現(xiàn)在這些坐標(biāo)可以表示其它含義。例如，他們可以代表用戶。如果在你的系統(tǒng)中有6個(gè)用戶，其中2個(gè)用戶對(duì)一篇文章分別評(píng)了3星和5星，那么你就可以針對(duì)此文章查看相關(guān)聯(lián)的點(diǎn)（請(qǐng)注意順序）：

[?0,?3,?0,?0,?5,?0?]?

現(xiàn)在我們可以計(jì)算出相關(guān)矢量之間的夾角，以及這些點(diǎn)之間的距離。下面是它們?cè)诙S空間中的圖像：

歐式幾何空間距離

計(jì)算歐式幾何空間兩點(diǎn)之間距離的數(shù)學(xué)公式非常簡(jiǎn)單。考慮相關(guān)兩點(diǎn)A、B之間的距離：

兩點(diǎn)之間的距離越近，它們的相關(guān)性越大。下面是Ruby代碼：

#?Returns?the?Euclidean?distance?between?2?points ?

# ?

#?Params: ?

#??-?a,?b:?list?of?coordinates?(float?or?integer) ?

# ?

def?euclidean_distance(a,?b) ?

??sq?=?a.zip(b).map{|a,b|?(a?-?b)?**?2} ?

??Math.sqrt(sq.inject(0)?{|s,c|?s?+?c}) ?

end?

#?Returns?the?associated?point?of?our?tags_set,?relative?to?our ?

#?tags_space. ?

# ?

#?Params: ?

#??-?tags_set:?list?of?tags ?

#??-?tags_space:?_ordered_?list?of?tags ?

def?tags_to_point(tags_set,?tags_space) ?

??tags_space.map{|c|?tags_set.member?(c)???1?:?0} ?

end?

#?Returns?other_items?sorted?by?similarity?to?this_item? ?

#?(most?relevant?are?first?in?the?returned?list) ?

# ?

#?Params: ?

#??-?items:?list?of?hashes?that?have?[:tags] ?

#??-?by_these_tags:?list?of?tags?to?compare?with ?

def?sort_by_similarity(items,?by_these_tags) ?

??tags_space?=?by_these_tags?+?items.map{|x|?x[:tags]}?? ?

??tags_space.flatten!.sort!.uniq! ?

??this_point?=?tags_to_point(by_these_tags,?tags_space) ?

??other_points?=?items.map{|i|? ?

????[i,?tags_to_point(i[:tags],?tags_space)] ?

??} ?

??similarities?=?other_points.map{|item,?that_point| ?

????[item,?euclidean_distance(this_point,?that_point)] ?

??} ?

??sorted?=?similarities.sort?{|a,b|?a[1]?<=>?b[1]} ?

??return?sorted.map{|point,s|?point} ?

End?

這是一些示例代碼，你可以直接復(fù)制運(yùn)行：

#?SAMPLE?DATA ?

all_articles?=?[ ?

??{ ?

???:article?=>?"Data?Mining:?Finding?Similar?Items",? ?

???:tags?=>?["Algorithms",?"Programming",?"Mining",? ?

?????"Python",?"Ruby"] ?

??},? ?

??{ ?

???:article?=>?"Blogging?Platform?for?Hackers",?? ?

???:tags?=>?["Publishing",?"Server",?"Cloud",?"Heroku",? ?

?????"Jekyll",?"GAE"] ?

??},? ?

??{ ?

???:article?=>?"UX?Tip:?Don't?Hurt?Me?On?Sign-Up",? ?

???:tags?=>?["Web",?"Design",?"UX"] ?

??},? ?

??{ ?

???:article?=>?"Crawling?the?Android?Marketplace",? ?

???:tags?=>?["Python",?"Android",?"Mining",? ?

?????"Web",?"API"] ?

??} ?

] ?

#?SORTING?these?articles?by?similarity?with?an?article? ?

#?tagged?with?Publishing?+?Web?+?API ?

# ?

#?The?list?is?returned?in?this?order: ?

# ?

#?1.?article:?Crawling?the?Android?Marketplace ?

#????similarity:?2.0 ?

# ?

#?2.?article:?"UX?Tip:?Don't?Hurt?Me?On?Sign-Up" ?

#????similarity:?2.0 ?

# ?

#?3.?article:?Blogging?Platform?for?Hackers ?

#????similarity:?2.645751 ?

# ?

#?4.?article:?"Data?Mining:?Finding?Similar?Items" ?

#????similarity:?2.828427 ?

# ?

sorted?=?sort_by_similarity( ?

????all_articles,?['Publishing',?'Web',?'API']) ?

require?'yaml'?

puts?YAML.dump(sorted)?

你是否留意到我們之前選擇的數(shù)據(jù)存在一個(gè)缺陷？前兩篇文章對(duì)于標(biāo)簽“["Publishing",?"Web",?"API"]”有著相同的歐氏幾何空間距離。

為了更加形象化，我們來看看計(jì)算第一篇文章所用到的點(diǎn)：

[1,?0,?0,?0,?0,?0,?0,?0,?0,?0,?1,?0,?0,?0,?0,?1] ?

[1,?0,?1,?0,?0,?0,?0,?0,?1,?0,?0,?1,?0,?0,?0,?1]?

只有四個(gè)坐標(biāo)值不同，我們?cè)賮砜纯吹诙恼滤玫降狞c(diǎn)：

[1,?0,?0,?0,?0,?0,?0,?0,?0,?0,?1,?0,?0,?0,?0,?1] ?

[0,?0,?0,?0,?1,?0,?0,?0,?0,?0,?0,?0,?0,?0,?1,?1]?

與第一篇文章相同，也只有4個(gè)坐標(biāo)值不同。歐氏空間距離的度量取決于點(diǎn)之間的差異。這也許不太好，因?yàn)橄鄬?duì)平均值而言，有更多或更少標(biāo)簽的文章會(huì)處于不利地位。

余弦相似度

這種方法與之前的方法類似，但更關(guān)注相似性。下面是公式：

下面是Ruby代碼：

def?dot_product(a,?b) ?

??products?=?a.zip(b).map{|a,?b|?a?*?b} ?

??products.inject(0)?{|s,p|?s?+?p} ?

end?

def?magnitude(point) ?

??squares?=?point.map{|x|?x?**?2} ?

??Math.sqrt(squares.inject(0)?{|s,?c|?s?+?c}) ?

end?

#?Returns?the?cosine?of?the?angle?between?the?vectors? ?

#associated?with?2?points ?

# ?

#?Params: ?

#??-?a,?b:?list?of?coordinates?(float?or?integer) ?

# ?

def?cosine_similarity(a,?b) ?

??dot_product(a,?b)?/?(magnitude(a)?*?magnitude(b)) ?

end?

對(duì)于以上示例，我們對(duì)文章進(jìn)行分類得到：

-?article:?Crawling?the?Android?Marketplace ?

??similarity:?0.5163977794943222 ?

-?article:?"UX?Tip:?Don't?Hurt?Me?On?Sign-Up"?

??similarity:?0.33333333333333337 ?

-?article:?Blogging?Platform?for?Hackers ?

??similarity:?0.23570226039551587 ?

-?article:?"Data?Mining:?Finding?Similar?Items"?

??similarity:?0.0?

這種方法有了很大改善，我們的代碼可以很好地運(yùn)行，但它依然存在問題。

示例中的問題：Tf-ldf權(quán)重

我們的數(shù)據(jù)很簡(jiǎn)單，可以輕松地計(jì)算并作為衡量的依據(jù)。如果不采用余弦相似度，很可能會(huì)出現(xiàn)相同的結(jié)果。

Tf-ldf權(quán)重是一種解決方案。Tf-ldf是一個(gè)靜態(tài)統(tǒng)計(jì)量，用于權(quán)衡文本集合中的一個(gè)詞在一個(gè)文檔中的重要性。

根據(jù)Tf-ldff，我們可以為坐標(biāo)值賦予獨(dú)特的值，而并非局限于0和1.

對(duì)于我們剛才示例中的簡(jiǎn)單數(shù)據(jù)集，也許更簡(jiǎn)單的度量方法更適合，比如Jaccard index也許會(huì)更好。

皮爾遜相關(guān)系數(shù)（Pearson?Correlation?Coefficient）

使用皮爾遜相關(guān)系數(shù)（Pearson?Correlation?Coefficient）尋找兩個(gè)項(xiàng)目之間的相似性略顯復(fù)雜，也并不是非常適用于我們的數(shù)據(jù)集合。

例如，我們?cè)贗MDB中有2個(gè)用戶。其中一個(gè)用戶名為John，對(duì)五部電影做了評(píng)級(jí)：[1,2,3,4,5]。另一個(gè)用戶名為Mary，對(duì)這五部電影也給出了評(píng)級(jí)：[4,?5,?6,?7,?8]。這兩個(gè)用戶非常相似，他們之間有一個(gè)完美的線性關(guān)系，Mary的評(píng)級(jí)都是在John的基礎(chǔ)上加3。

計(jì)算公式如下：

?代碼如下：

def?pearson_score(a,?b) ?

??n?=?a.length ?

??return?0?unless?n?>?0 ?

??#?summing?the?preferences ?

??sum1?=?a.inject(0)?{|sum,?c|?sum?+?c} ?

??sum2?=?b.inject(0)?{|sum,?c|?sum?+?c} ?

??#?summing?up?the?squares ?

??sum1_sq?=?a.inject(0)?{|sum,?c|?sum?+?c?**?2} ?

??sum2_sq?=?b.inject(0)?{|sum,?c|?sum?+?c?**?2} ?

??#?summing?up?the?product ?

??prod_sum?=?a.zip(b).inject(0)?{|sum,?ab|?sum?+?ab[0]?*?ab[1]} ?

??#?calculating?the?Pearson?score ?

??num?=?prod_sum?-?(sum1?*sum2?/?n)?? ?

??den?=?Math.sqrt((sum1_sq?-?(sum1?**?2)?/?n)?*?(sum2_sq?-?(sum2?**?2)?/?n)) ?

??return?0?if?den?==?0 ?

??return?num?/?den?? ?

end?

puts?pearson_score([1,2,3,4,5],?[4,5,6,7,8]) ?

#?=>?1.0 ?

puts?pearson_score([1,2,3,4,5],?[4,5,0,7,8]) ?

#?=>?0.5063696835418333 ?

puts?pearson_score([1,2,3,4,5],?[4,5,0,7,7]) ?

#?=>?0.4338609156373132 ?

puts?pearson_score([1,2,3,4,5],?[8,7,6,5,4]) ?

#?=>?-1?

曼哈頓距離算法

沒有放之四海而皆準(zhǔn)的真理，我們所使用的公式取決于要處理的數(shù)據(jù)。下面我們簡(jiǎn)要介紹一下曼哈頓距離算法。

曼哈頓距離算法計(jì)算兩點(diǎn)之間的網(wǎng)格距離，維基百科中的圖形完美詮釋了它與歐氏幾何距離的不同：

紅線、黃線和藍(lán)線是具有相同長(zhǎng)度的曼哈頓距離，綠線代表歐氏幾何空間距離。（張志平/編譯）

原文鏈接：http://bionicspirit.com/blog/2012/01/16/cosine-similarity-euclidean-distance.html

云時(shí)代的企業(yè)應(yīng)用數(shù)據(jù)挖掘

本文主要分析了企業(yè)面對(duì)云時(shí)代的SaaS服務(wù)時(shí)，如何有效地對(duì)應(yīng)用數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘。首先分析了企業(yè)面對(duì)海量增長(zhǎng)的數(shù)據(jù)時(shí)數(shù)據(jù)挖掘面臨的挑戰(zhàn)，其次提出了一種適合云應(yīng)用環(huán)境的數(shù)據(jù)挖掘模式，最后對(duì)該方法進(jìn)行了總結(jié)。

趙鵬

中國(guó)電信股份有限公司北京研究院高級(jí)工程師，主要研究方向?yàn)樾畔⑾到y(tǒng)規(guī)劃與設(shè)計(jì)、語義網(wǎng)絡(luò)和知識(shí)工程。

顧茜

中國(guó)電信股份有限公司北京研究院工程師，目前從事云計(jì)算領(lǐng)域的研究工作。

隨著云時(shí)代的到來和SaaS概念的引入，越來越多的企業(yè)開始選擇由SaaS應(yīng)用提供商、運(yùn)營(yíng)商等通過互聯(lián)網(wǎng)平臺(tái)提供SaaS應(yīng)用服務(wù)，SaaS應(yīng)用的數(shù)據(jù)量面臨著TB級(jí)的增長(zhǎng)速度；不同的SaaS應(yīng)用體系，提供的數(shù)據(jù)結(jié)構(gòu)也不完全相同，數(shù)據(jù)有文本、圖形甚至小型數(shù)據(jù)庫(kù)；SaaS應(yīng)用數(shù)據(jù)隨著云服務(wù)平臺(tái)的分布性特點(diǎn)，有可能分布在不同的服務(wù)器上，如何對(duì)這些異構(gòu)異源的數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘，是云時(shí)代的企業(yè)面臨的難題。

圖1 企業(yè)面臨著在不同數(shù)據(jù)源上進(jìn)行數(shù)據(jù)挖掘的挑戰(zhàn)

如何從海量應(yīng)用挖掘出合理的數(shù)據(jù)

對(duì)于企業(yè)而言，如何將各種SaaS應(yīng)用數(shù)據(jù)進(jìn)行整合挖掘，提煉出適合其使用的商業(yè)信息是企業(yè)的一大急迫需求。傳統(tǒng)的BI模式大多基于數(shù)據(jù)倉(cāng)庫(kù)，是關(guān)系型數(shù)據(jù)庫(kù)的模式。面對(duì)急劇增長(zhǎng)的異構(gòu)數(shù)據(jù)，傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)和原有的并行計(jì)算技術(shù)由于挖掘效率低，已經(jīng)不能解決海量數(shù)據(jù)挖掘工作，影響著數(shù)據(jù)的及時(shí)提取。

云時(shí)代企業(yè)數(shù)據(jù)挖掘也面臨如下挑戰(zhàn)。

挖掘效率：進(jìn)入云計(jì)算時(shí)代后，BI的思路發(fā)生了轉(zhuǎn)換。以前是基于封閉的企業(yè)數(shù)據(jù)進(jìn)行挖掘，而面對(duì)引入互聯(lián)網(wǎng)應(yīng)用后海量的異構(gòu)數(shù)據(jù)（據(jù)預(yù)計(jì)到2020年，爆發(fā)式增長(zhǎng)的數(shù)據(jù)量將突破35ZB（1ZB=10億TB））時(shí)，目前并行挖掘算法的效率很低。

多源數(shù)據(jù)：引入云計(jì)算后，企業(yè)數(shù)據(jù)的位置有可能在提供公有云服務(wù)的平臺(tái)上，也可能在企業(yè)自建的私有云上，如何面對(duì)不同的數(shù)據(jù)源進(jìn)行挖掘也是一個(gè)挑戰(zhàn)。?如圖1所示。

異構(gòu)數(shù)據(jù)：Web數(shù)據(jù)的最大特點(diǎn)就是半結(jié)構(gòu)化，如文檔、報(bào)表、網(wǎng)頁、聲音、圖像、視頻等，而云計(jì)算帶來了大量的基于互聯(lián)網(wǎng)模式提供的SaaS應(yīng)用，如何梳理有效數(shù)據(jù)是一個(gè)挑戰(zhàn)。

SaaS應(yīng)用的數(shù)據(jù)挖掘希望能夠通過海量數(shù)據(jù)存儲(chǔ)平臺(tái)，引入快速并行的挖掘算法，提高數(shù)據(jù)挖掘的質(zhì)量。

適合云應(yīng)用數(shù)據(jù)挖掘的模式建議

數(shù)據(jù)倉(cāng)庫(kù)建模階段

為了應(yīng)對(duì)SaaS應(yīng)用大量異構(gòu)數(shù)據(jù)，引入XML標(biāo)記和交換數(shù)據(jù)。由于XML能夠使不同來源的結(jié)構(gòu)化數(shù)據(jù)很容易地結(jié)合在一起，因而使搜索多樣的不兼容的數(shù)據(jù)庫(kù)成為可能，從而為解決Web數(shù)據(jù)挖掘難題帶來了希望。XML的擴(kuò)展性和靈活性允許XML描述不同種類應(yīng)用軟件中的數(shù)據(jù)，從而能描述搜集的Web頁中的數(shù)據(jù)記錄。

引入MapReduce算法，提高數(shù)據(jù)抽取轉(zhuǎn)換的效率。MapReduce算法是Google提出的一個(gè)軟件架構(gòu)，用于大規(guī)模數(shù)據(jù)集（大于1TB）的并行運(yùn)算。當(dāng)前的實(shí)現(xiàn)方法是指定一個(gè)Map（映射）函數(shù)用來把一組鍵值對(duì)映射成一組新的鍵值對(duì)，指定并發(fā)的Reduce（化簡(jiǎn)）函數(shù)用來保證所有映射的鍵值對(duì)中的每一個(gè)共享相同的鍵組。

MapReduce更適合如下場(chǎng)景。

ETL（數(shù)據(jù)提取轉(zhuǎn)化加載）類的應(yīng)用：從多個(gè)不同的源讀取日志信息；分析以及清理日志數(shù)據(jù)；執(zhí)行復(fù)雜的變換，比如“會(huì)話轉(zhuǎn)換”；決定存儲(chǔ)什么樣的屬性以及把信息裝載到DBMS或者其他存儲(chǔ)引擎中。

復(fù)雜分析應(yīng)用：這種挖掘類型的應(yīng)用需要對(duì)數(shù)據(jù)進(jìn)行多步驟的計(jì)算和處理，通常一個(gè)程序的輸出會(huì)是另外一個(gè)程序的輸入，因此很難用單個(gè)SQL語句來表示，這種應(yīng)用場(chǎng)合下，MapReduce是很好的候選方案。

半結(jié)構(gòu)化數(shù)據(jù)：因?yàn)椴恍枰獙?duì)數(shù)據(jù)的存儲(chǔ)進(jìn)行格式定義，所以MapReduce比較適合處理半結(jié)構(gòu)化數(shù)據(jù)，這些數(shù)據(jù)通常都是一些鍵值對(duì)。這些場(chǎng)合下，MapReduce非常適合做ETL的事情。

快速實(shí)施的系統(tǒng)：完善和健壯的低成本開源解決方案是MapReduce最大的優(yōu)點(diǎn)。
圖2 數(shù)據(jù)挖掘模式圖

引入HDFS的分布式存儲(chǔ)模式。HDFS系統(tǒng)簡(jiǎn)單，利于提高實(shí)施效率，適合海量數(shù)據(jù)挖掘。HDFS架構(gòu)基于GFS體系架構(gòu)（Google?File?System，簡(jiǎn)稱GFS，是由Google設(shè)計(jì)并實(shí)現(xiàn)的一個(gè)分布式文件系統(tǒng)，基于大量安裝有Linux操作系統(tǒng)的普通PC構(gòu)成的集群系統(tǒng)），但比GFS架構(gòu)精簡(jiǎn)。GFS和HDFS都采用“單一主控機(jī)+多臺(tái)工作機(jī)”的模式，通過數(shù)據(jù)分塊和復(fù)制（多副本，一般是3）來提供更高的可靠性和性能。GFS允許文件被多次或者多個(gè)客戶端同時(shí)打開以追加數(shù)據(jù)，以記錄為單位。而在HDFS中，文件只允許一次打開并追加數(shù)據(jù)。GFS中采用主從模式備份Master的系統(tǒng)元數(shù)據(jù)，當(dāng)主Master失效時(shí)，可以通過分布式選舉備機(jī)接替主Master繼續(xù)對(duì)外提供服務(wù)，而由于Replication及主備切換本身有一定的復(fù)雜性，HDFS?Master的持久化數(shù)據(jù)只寫入到本機(jī)（可能寫入多份存放到Master機(jī)器的多個(gè)磁盤中防止某個(gè)磁盤損害），出現(xiàn)故障時(shí)需要人工介入。GFS通過內(nèi)部采用Copy-on-Write的數(shù)據(jù)結(jié)構(gòu)實(shí)現(xiàn)集群快照功能，而HDFS不提供快照功能。

引入Hive架構(gòu)。Hive是建立在Hadoop上的數(shù)據(jù)倉(cāng)庫(kù)基礎(chǔ)構(gòu)架，是一種可以存儲(chǔ)、查詢和分析Hadoop中大規(guī)模數(shù)據(jù)的機(jī)制，提供了一系列工具用來進(jìn)行數(shù)據(jù)ETL操作。Hive定義了簡(jiǎn)單的類SQL查詢語言，稱為HQL，它允許熟悉SQL的用戶查詢數(shù)據(jù)。這個(gè)語言也允許熟悉MapReduce開發(fā)者自定義Mapper和Reducer來處理內(nèi)建的Mapper?和Reducer無法完成的復(fù)雜分析工作。

數(shù)據(jù)挖掘階段

引入數(shù)據(jù)分析中間件，提供數(shù)據(jù)處理、數(shù)據(jù)探索、數(shù)據(jù)建模及模型應(yīng)用等一系列功能，開發(fā)多種數(shù)據(jù)挖掘算法和統(tǒng)計(jì)建模方法，并能夠方便、快速、高效地處理海量數(shù)據(jù)，為商業(yè)智能的應(yīng)用提供更方便、更靈活的工具和服務(wù)。

數(shù)據(jù)呈現(xiàn)階段

BI作為云計(jì)算的一種SaaS服務(wù)提供給企業(yè)，建立行業(yè)數(shù)據(jù)庫(kù)。面對(duì)林林總總的SaaS應(yīng)用，BI同樣可作為一種SaaS服務(wù)提供給企業(yè)。同時(shí)，數(shù)據(jù)挖掘工具進(jìn)行數(shù)據(jù)分析，可以發(fā)現(xiàn)重要的數(shù)據(jù)模式，這對(duì)構(gòu)建知識(shí)庫(kù)做出了巨大貢獻(xiàn)——數(shù)據(jù)和信息之間的鴻溝要求系統(tǒng)地開發(fā)數(shù)據(jù)挖掘工具，將數(shù)據(jù)“墳?zāi)埂鞭D(zhuǎn)換成知識(shí)“金塊”。

數(shù)據(jù)挖掘模式圖

我們?cè)O(shè)計(jì)的數(shù)據(jù)挖掘模式圖如圖2所示。

企業(yè)數(shù)據(jù)層：企業(yè)數(shù)據(jù)來源于各類應(yīng)用，如?SaaS應(yīng)用、企業(yè)內(nèi)部應(yīng)用數(shù)據(jù)和專有云應(yīng)用。

數(shù)據(jù)倉(cāng)庫(kù)層：主要引入HDFS分布存儲(chǔ)系統(tǒng)和Hive體系架構(gòu)，通過MapReduce算法對(duì)數(shù)據(jù)梳理和提取。

數(shù)據(jù)挖掘?qū)?#xff1a;引入基于XML數(shù)據(jù)分析中間件，實(shí)現(xiàn)統(tǒng)計(jì)查詢和數(shù)據(jù)挖掘功能。

數(shù)據(jù)分析與BI應(yīng)用層：將BI以SaaS服務(wù)的模式提供給企業(yè)使用。

總結(jié)

隨著云時(shí)代的到來，企業(yè)面臨的應(yīng)用方式更加多元化，通過云的手段提供海量數(shù)據(jù)挖掘的方法，提高了挖掘的效率，增加了挖掘的精度，更利于挖掘應(yīng)用的推廣以及專業(yè)的行業(yè)知識(shí)庫(kù)的構(gòu)建。

剖析數(shù)據(jù)挖掘在金融證券交易領(lǐng)域的應(yīng)用

[CSDN.NET報(bào)道]7月28日晚，由CSDN旗下高級(jí)技術(shù)管理者大本營(yíng)CTO俱樂部舉辦的“數(shù)據(jù)挖掘在金融證券交易領(lǐng)域的應(yīng)用經(jīng)驗(yàn)分享”主題沙龍活動(dòng)在海淀橋車庫(kù)咖啡館成功舉辦，這是CTO俱樂部金融行業(yè)軟件專業(yè)委員會(huì)成立以來的首場(chǎng)線下活動(dòng)。

本次活動(dòng)邀請(qǐng)到鳳凰網(wǎng)高級(jí)技術(shù)經(jīng)理王允、和瑞網(wǎng)CTO巨建華、搜狐金融事業(yè)部高級(jí)工程師趙士昌、金融界技術(shù)主管吳旻等嘉賓，分享了在證券交易行情數(shù)據(jù)分析領(lǐng)域所涉及的經(jīng)驗(yàn)和技術(shù)，并對(duì)數(shù)據(jù)挖掘在互聯(lián)網(wǎng)相關(guān)領(lǐng)域的應(yīng)用進(jìn)行深入的溝通和探討。活動(dòng)現(xiàn)場(chǎng)火爆，有近百位行業(yè)內(nèi)技術(shù)管理者來現(xiàn)場(chǎng)。

活動(dòng)現(xiàn)場(chǎng)火爆

和瑞網(wǎng)CTO巨建華介紹了國(guó)內(nèi)證券交易行業(yè)的數(shù)據(jù)特點(diǎn)：全部是動(dòng)態(tài)時(shí)間序列數(shù)據(jù)；每秒新增數(shù)據(jù)上千；21年歷史數(shù)據(jù)；多個(gè)交易市場(chǎng)，多種證券類別；滬深兩市每天原始數(shù)據(jù)量為2G；財(cái)務(wù)報(bào)表等數(shù)據(jù)為非結(jié)構(gòu)化數(shù)據(jù)；歷史數(shù)據(jù)永遠(yuǎn)不會(huì)發(fā)生變化。就數(shù)據(jù)清洗與去噪，他談到了幾個(gè)基本機(jī)制——編碼標(biāo)準(zhǔn)化；單位標(biāo)準(zhǔn)化；入庫(kù)檢查規(guī)則制定；缺失數(shù)據(jù)處理機(jī)制。在數(shù)據(jù)倉(cāng)庫(kù)的構(gòu)建——自定義文件數(shù)據(jù)庫(kù)方面，巨建華分析了為何當(dāng)前采用了NoSQL：因?yàn)榇疟P的效率依然低下，因此采用了MongoDB，用內(nèi)存來存儲(chǔ)數(shù)據(jù)，4臺(tái)服務(wù)器配備128G內(nèi)存，實(shí)現(xiàn)了每秒27000條的寫入速度。

和瑞網(wǎng)CTO巨建華

在研發(fā)流程規(guī)劃方面，他重點(diǎn)介紹了：產(chǎn)品規(guī)劃（產(chǎn)品經(jīng)理）-模型設(shè)計(jì)（金融工程師）-模型開發(fā)（開發(fā)團(tuán)隊(duì)）-回歸測(cè)試（測(cè)試部）-實(shí)盤驗(yàn)證（產(chǎn)品經(jīng)理）-模型監(jiān)控（產(chǎn)品經(jīng)理）的模式。

鳳凰網(wǎng)高級(jí)技術(shù)經(jīng)理王允

鳳凰網(wǎng)高級(jí)技術(shù)經(jīng)理王允分享了自己對(duì)于數(shù)據(jù)挖掘在金融證券交易領(lǐng)域應(yīng)用的未來展望——能否根據(jù)指標(biāo)值給用戶操作提示？能否提示用戶K線圖上出現(xiàn)的形態(tài)；能夠從海量數(shù)據(jù)中自動(dòng)分析得出操作提示；走勢(shì)預(yù)測(cè)；套利機(jī)會(huì)（跨A|B|H|權(quán)證|基金|商品）；按照特定模型分析財(cái)務(wù)數(shù)據(jù)；周易、占星等理論能否用在股票分析上。

互動(dòng)問答(從左到右分別為：王允、趙士昌、吳旻、巨建華)

現(xiàn)場(chǎng)聽眾提問，主要集中于幾點(diǎn)：金融行業(yè)的數(shù)據(jù)分析如何跟自身業(yè)務(wù)結(jié)合；BS/CS（客戶端）架構(gòu)區(qū)別，各自的優(yōu)劣；數(shù)據(jù)安全性；如何才能獲得更優(yōu)質(zhì)的證券交易數(shù)據(jù)、數(shù)據(jù)傳輸、清理方式等問題。在談到數(shù)據(jù)分析解決方案BS/CS架構(gòu)區(qū)別時(shí)，金融界技術(shù)主管吳旻認(rèn)為BS相對(duì)于CS來說會(huì)慢一點(diǎn)，數(shù)據(jù)量很大的時(shí)候可能不那么及時(shí)，可能會(huì)慢一兩秒。普通客戶覺得不重要，但是對(duì)于高端用戶來說半秒都是很重要的。其次是證券交易數(shù)據(jù)的獲取和使用都要合規(guī)，上交所深交所的規(guī)定都有不同的區(qū)別，很多網(wǎng)站因?yàn)槟貌坏脚普账宰霾涣?#xff0c;有些可以獲取數(shù)據(jù)做分析但不能交易。再有，數(shù)據(jù)安全是另一個(gè)不容忽視的方面。

對(duì)此，搜狐金融事業(yè)部高級(jí)工程師趙士昌并不贊同，他認(rèn)為BS架構(gòu)完全可以達(dá)到CS數(shù)據(jù)級(jí)別，搜狐技術(shù)部門做過測(cè)試，速度相差不會(huì)太多，一個(gè)級(jí)別的。CS架構(gòu)的話，因?yàn)橛锌蛻舳?#xff0c;可以在本地存儲(chǔ)一些大量數(shù)據(jù)做分析，BS架構(gòu)可能受限互聯(lián)網(wǎng)的束縛，但是可以將數(shù)據(jù)拿到客戶端處理，瀏覽器僅僅是顯示一下處理結(jié)果就可以，技術(shù)上都已經(jīng)很成熟了。

總體來看，未來的金融證券行業(yè)數(shù)據(jù)服務(wù)，下一步的技術(shù)焦點(diǎn)將在如何為個(gè)人提供個(gè)性化的服務(wù)上，現(xiàn)場(chǎng)互動(dòng)活躍，與會(huì)者提出了很多很好的需求和建議。

更多精彩內(nèi)容及CSDN CTO俱樂部的下期線下活動(dòng)，請(qǐng)持續(xù)關(guān)注CSDN CTO俱樂部。

CTO俱樂部是CSDN旗下面向廣大技術(shù)管理者的網(wǎng)上大本營(yíng)，采取采用了嚴(yán)格的邀請(qǐng)審核制，只有公司的高級(jí)技術(shù)管理者，如CTO、技術(shù)總監(jiān)、開發(fā)總監(jiān)、工程總監(jiān)才能申請(qǐng)加入，現(xiàn)已超過10000多名會(huì)員。CTO俱樂部定期舉行線下活動(dòng)，就相關(guān)主題進(jìn)行共同探討，并便于會(huì)員們相互交流

馬云的秘密武器：數(shù)據(jù)挖掘

導(dǎo)讀：最新一期英國(guó)《經(jīng)濟(jì)學(xué)人》雜志撰文稱，阿里巴巴手中掌握著中國(guó)中產(chǎn)階級(jí)的大量購(gòu)物數(shù)據(jù)，可以借此開展更多業(yè)務(wù)，另外一個(gè)有潛力的領(lǐng)域是信貸。阿里巴巴已經(jīng)成為了中國(guó)電子商務(wù)之王。

以下為文章全文：

小個(gè)子馬云脫穎而出

墻上掛著十幾個(gè)大屏幕，地圖不停地閃動(dòng)，數(shù)字則不斷地滾動(dòng)著。阿里巴巴集團(tuán)的“實(shí)時(shí)數(shù)據(jù)檢測(cè)室”為我們提供了一幅繁忙的景象：中國(guó)企業(yè)與外國(guó)企業(yè)之間的交易；中國(guó)消費(fèi)者之間的服裝交易。阿里巴巴旗下各類網(wǎng)絡(luò)服務(wù)的用戶大約為5億人。作為該集團(tuán)的創(chuàng)始人，個(gè)子矮小的馬云笑著說，生意“很好”。然而，這卻遠(yuǎn)未令他滿足。

馬云曾經(jīng)高考兩度落榜，但卻堅(jiān)持通過廣播學(xué)習(xí)英語。上世紀(jì)90年代，馬云以翻譯的身份前往美國(guó)，并“巧遇”互聯(lián)網(wǎng)。他當(dāng)時(shí)在一款搜索引擎中輸入了“Chinese Beer”，但卻沒有任何結(jié)果。他看到了機(jī)會(huì)。

馬云1999年創(chuàng)辦阿里巴巴，幫助小企業(yè)跳過中間商直接尋找客戶和供應(yīng)商。阿里巴巴網(wǎng)站如今號(hào)稱擁有5700萬用戶，幾乎遍及世界各國(guó)。這有點(diǎn)像是eBay，但更像是一個(gè)網(wǎng)絡(luò)黃頁。

作為阿里巴巴集團(tuán)旗下的另外一家網(wǎng)站，淘寶則專門針對(duì)普通消費(fèi)者。它擁有3億用戶，2009年的交易額達(dá)到290億美元。淘寶就像是亞馬遜與 eBay的結(jié)合體：既運(yùn)營(yíng)著一家專供大型商家的在線商城，也提供一個(gè)任何擁有中國(guó)居民身份證的人都可以注冊(cè)并出售合法物品的網(wǎng)站。淘寶通過廣告獲取收入。

阿里巴巴的員工對(duì)他們一手打造的業(yè)務(wù)都很驕傲。有一個(gè)村子積壓了大量的兔肉和皮毛。村長(zhǎng)讓村民想辦法。于是，一名村民通過阿里巴巴網(wǎng)站賣出了這些貨。但更多情況下，阿里巴巴的客戶都是一些希望通過廉價(jià)渠道打開國(guó)際市場(chǎng)的小企業(yè)。無需親自來中國(guó)，土耳其或英國(guó)的機(jī)械制造商就可以借助阿里巴巴找到這里的廉價(jià)供應(yīng)商。買家可以閱讀他人針對(duì)每名賣家發(fā)表的評(píng)論，盡管并不完美，但依然能夠營(yíng)造誠(chéng)信氛圍。

他處處都能看到機(jī)遇

阿里巴巴位于杭州的園區(qū)與硅谷企業(yè)的風(fēng)格很像。這里的建筑都很通風(fēng)，而且風(fēng)水很好。員工可以享受乒乓球和免費(fèi)的按摩。老人和西裝革履的人在這里都很少見。與其他中國(guó)互聯(lián)網(wǎng)公司一樣，這里的很多高級(jí)管理人員都受過國(guó)外教育或者有過海外工作經(jīng)驗(yàn)。

阿里巴巴有著實(shí)力強(qiáng)大的海外支持者：美國(guó)雅虎和日本軟銀。然而，由于身處中國(guó)，它不能向西方企業(yè)一樣運(yùn)營(yíng)。到上世紀(jì)90年代，互聯(lián)網(wǎng)的報(bào)道已經(jīng)遍及全球，但中國(guó)媒體卻罕有提及。所以馬云的創(chuàng)業(yè)之路非常艱難。但是現(xiàn)在，他處處都能看到機(jī)遇。

中國(guó)擁有數(shù)百萬小企業(yè)家，但是金融體制卻比較落后。為了提高網(wǎng)站流量，馬云2004年創(chuàng)建了一套在線支付系統(tǒng)——支付寶。它的增長(zhǎng)很大程度上受益于美國(guó)同行PayPal無法進(jìn)軍中國(guó)，后者直到最近才剛剛獲準(zhǔn)在中國(guó)開展業(yè)務(wù)。支付寶目前在全球擁有4.7億用戶，中國(guó)有超過50萬商家接受這種支付方式。部分中國(guó)城市的居民還可以利用支付寶交水電費(fèi)。

馬云還啟動(dòng)了一項(xiàng)名為阿里貸款的服務(wù)。他并不對(duì)外提供貸款，但卻與銀行合作展開業(yè)務(wù)。銀行通常無法知道小型借款人的信用，但馬云卻擁有大量數(shù)據(jù)，可以判斷小企業(yè)是否具備按時(shí)還款的能力。他還可以將相互認(rèn)識(shí)的企業(yè)進(jìn)行綁定，以便讓賣家為常客提供銀行貸款擔(dān)保。根據(jù)阿里巴巴的數(shù)據(jù)，阿里貸款的壞賬率僅為 0.35%，這也使得該服務(wù)得以快速擴(kuò)張。

阿里巴巴還面臨著許多障礙。首先，中國(guó)互聯(lián)網(wǎng)市場(chǎng)競(jìng)爭(zhēng)非常激烈，而且發(fā)展很快。作為中國(guó)最大的搜索引擎，百度雖然現(xiàn)在沒有與阿里巴巴展開正面沖突，但遲早會(huì)有這么一天。其次是人才短缺。最優(yōu)秀的工程師和管理者的薪酬一路飆升。

第三，為了推動(dòng)增長(zhǎng)，阿里巴巴已經(jīng)放棄了很多利潤(rùn)。它的主要服務(wù)是免費(fèi)的，只有在賣家要求額外服務(wù)時(shí)才會(huì)收費(fèi)，例如要出現(xiàn)在搜索結(jié)果頂部。馬云表示，這是經(jīng)過深思熟慮的：規(guī)模最終將帶來回報(bào)。但是投資者卻不會(huì)一直等下去。在認(rèn)識(shí)到這一點(diǎn)后，阿里巴巴集團(tuán)的上市子公司阿里巴巴網(wǎng)絡(luò)有限公司今年12 月承諾，將于明年1月發(fā)放1.4億美元的特別股息。

盤活龐大數(shù)據(jù)資產(chǎn)

阿里巴巴擁有一項(xiàng)龐大而未經(jīng)開發(fā)的資產(chǎn)：針對(duì)中國(guó)正在崛起的中產(chǎn)階級(jí)消費(fèi)習(xí)慣搜集的大量數(shù)據(jù)。該公司對(duì)于如何使用這些數(shù)據(jù)非常謹(jǐn)慎，并且堅(jiān)稱不會(huì)侵犯任何人的隱私。

盡管如此，阿里巴巴仍然有多種方法可以憑借現(xiàn)有資料賺取利潤(rùn)。一種方法是，利用用戶數(shù)據(jù)來判斷趨勢(shì)，并幫助企業(yè)預(yù)測(cè)用戶需求。由于中國(guó)缺乏精確的數(shù)據(jù)，因此這項(xiàng)業(yè)務(wù)將很有價(jià)值。

另外一個(gè)有潛力的領(lǐng)域是信貸。阿里貸款不向借款企業(yè)收取信用評(píng)級(jí)費(fèi)，并表示，沒有這方面的計(jì)劃。但是收費(fèi)計(jì)劃的確可行：只要對(duì)每筆貸款收取少量費(fèi)用，幾乎就可以創(chuàng)造凈利潤(rùn)。而且阿里巴巴也沒有理由限制自己幫助企業(yè)借款。另外一個(gè)可能是，幫助中國(guó)消費(fèi)者獲取信貸。目前，很少有企業(yè)能夠做到這一點(diǎn)，但是希望開展這項(xiàng)業(yè)務(wù)的卻大有人在。

原文鏈接：http://www.alibuybuy.com/posts/52342.html

五個(gè)免費(fèi)開源的數(shù)據(jù)挖掘軟件

Orange

Orange是一個(gè)基于組件的數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)軟件套裝，它的功能即友好，又很強(qiáng)大，快速而又多功能的可視化編程前端，以便瀏覽數(shù)據(jù)分析和可視化，基綁定了Python以進(jìn)行腳本開發(fā)。它包含了完整的一系列的組件以進(jìn)行數(shù)據(jù)預(yù)處理，并提供了數(shù)據(jù)帳目，過渡，建模，模式評(píng)估和勘探的功能。其由C++和Python開發(fā)，它的圖形庫(kù)是由跨平臺(tái)的Qt框架開發(fā)。

????? RapidMiner

RapidMiner，以前叫YALE(Yet Another Learning Environment)，其是一個(gè)給機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘和分析的試驗(yàn)環(huán)境，同時(shí)用于研究了真實(shí)世界數(shù)據(jù)挖掘。它提供的實(shí)驗(yàn)由大量的算子組成，而這些算子由詳細(xì)的XML文件記錄，并被RapidMiner圖形化的用戶接口表現(xiàn)出來。RapidMiner為主要的機(jī)器學(xué)習(xí)過程提供了超過500算子，并且，其結(jié)合了學(xué)習(xí)方案和Weka學(xué)習(xí)環(huán)境的屬性評(píng)估器。它是一個(gè)獨(dú)立的工具可以用來做數(shù)據(jù)分析，同樣也是一個(gè)數(shù)據(jù)挖掘引擎可以用來集成到你的產(chǎn)品中。

?? ?? Weka

由Java開發(fā)的Weka(Waikato Environment for Knowledge Analysis)是一個(gè)知名機(jī)器學(xué)機(jī)軟件，其支持幾種經(jīng)典的數(shù)據(jù)挖掘任務(wù)，顯著的數(shù)據(jù)預(yù)處理，集群，分類，回歸，虛擬化，以及功能選擇。其技術(shù)基于假設(shè)數(shù)據(jù)是以一種單個(gè)文件或關(guān)聯(lián)的，在那里，每個(gè)數(shù)據(jù)點(diǎn)都被許多屬性標(biāo)注。Weka使用Java的數(shù)據(jù)庫(kù)鏈接能力可以訪問SQL數(shù)據(jù)庫(kù)，并可以處理一個(gè)數(shù)據(jù)庫(kù)的查詢結(jié)果。它主要的用戶接品是Explorer，也同樣支持相同功能的命令行，或是一種基于組件的知識(shí)流接口。

?? ?? JHepWork

為科學(xué)家，工程師和學(xué)生所設(shè)計(jì)的jHepWork是一個(gè)免費(fèi)的開源數(shù)據(jù)分析框架，其主要是用開源庫(kù)來創(chuàng)建一個(gè)數(shù)據(jù)分析環(huán)境，并提供了豐富的用戶接口，以此來和那些收費(fèi)的的軟件競(jìng)爭(zhēng)。它主要是為了科學(xué)計(jì)算用的二維和三維的制圖，并包含了用Java實(shí)現(xiàn)的數(shù)學(xué)科學(xué)庫(kù)，隨機(jī)數(shù)，和其它的數(shù)據(jù)挖掘算法。jHepWork是基于一個(gè)高級(jí)的編程語言Jython，當(dāng)然，Java代碼同樣可以用來調(diào)用jHepWork的數(shù)學(xué)和圖形庫(kù)。

?? ?? KNIME

KNIME (Konstanz Information Miner) 是一個(gè)用戶友好，智能的，并有豐演的開源的數(shù)據(jù)集成，數(shù)據(jù)處理，數(shù)據(jù)分析和數(shù)據(jù)勘探平臺(tái)。它給了用戶有能力以可視化的方式創(chuàng)建數(shù)據(jù)流或數(shù)據(jù)通道，可選擇性地運(yùn)行一些或全部的分析步驟，并以后面研究結(jié)果，模型以及可交互的視圖。KNIME由Java寫成，其基于Eclipse并通過插件的方式來提供更多的功能。通過以插件的文件，用戶可以為文件，圖片，和時(shí)間序列加入處理模塊，并可以集成到其它各種各樣的開源項(xiàng)目中，比如：R語言，Weka，Chemistry Development Kit，和LibSVM。

源文：http://www.junauza.com/2010/11/free-data-mining-software.html

總結(jié)

以上是生活随笔為你收集整理的数据挖掘：如何寻找相关项的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

数据挖掘

上一篇： Ubuntu品牌机批量涌入世界市场，中国
下一篇：如何确定h.264的码率

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

数据挖掘：如何寻找相关项

云時(shí)代的企業(yè)應(yīng)用數(shù)據(jù)挖掘

剖析數(shù)據(jù)挖掘在金融證券交易領(lǐng)域的應(yīng)用

馬云的秘密武器：數(shù)據(jù)挖掘

五個(gè)免費(fèi)開源的數(shù)據(jù)挖掘軟件

????? RapidMiner

?? ?? Weka

?? ?? JHepWork

?? ?? KNIME

總結(jié)