数据挖掘:如何寻找相关项
導(dǎo)讀:隨著大數(shù)據(jù)時(shí)代浪潮的到來數(shù)據(jù)科學(xué)家這一新興職業(yè)也越來越受到人們的關(guān)注。本文作者Alexandru Nedelcu就將數(shù)學(xué)挖掘算法與大數(shù)據(jù)有機(jī)的結(jié)合起來,并無縫的應(yīng)用在面臨大數(shù)據(jù)浪潮的網(wǎng)站之中。
數(shù)據(jù)科學(xué)家需要具備專業(yè)領(lǐng)域知識(shí)并研究相應(yīng)的算法以分析對(duì)應(yīng)的問題,而數(shù)據(jù)挖掘是其必須掌握的重要技術(shù)。以幫助創(chuàng)建推動(dòng)業(yè)務(wù)發(fā)展的相應(yīng)大數(shù)據(jù)產(chǎn)品和大數(shù)據(jù)解決方案。EMC最近的一項(xiàng)調(diào)查也證實(shí)了這點(diǎn)。調(diào)查結(jié)果顯示83%的人認(rèn)為大數(shù)據(jù)浪潮所催生的新技術(shù)增加了數(shù)據(jù)科學(xué)家的需求。本文將為您展示如何基于一個(gè)簡(jiǎn)單的公式查找相關(guān)的項(xiàng)目。請(qǐng)注意,此項(xiàng)技術(shù)適用于所有的網(wǎng)站(如亞馬遜),以個(gè)性化用戶體驗(yàn)、提高轉(zhuǎn)換效率。
查找相關(guān)項(xiàng)問題
要想為一個(gè)特定的項(xiàng)目查找相關(guān)項(xiàng),就必須首先為這兩個(gè)項(xiàng)目定義相關(guān)之處。而這些也正是你要解決的問題:
- 在博客上,你可能想以標(biāo)簽的形式分享文章,或者對(duì)比查看同一個(gè)人閱讀過的文章
- 亞馬遜站點(diǎn)被稱為“購(gòu)買此商品的客戶還購(gòu)買了”的部分
- 一個(gè)類似于IMDB(Internet Movie Database)的服務(wù),可以根據(jù)用戶的評(píng)級(jí),給出觀影指南建議
不論是標(biāo)簽、購(gòu)買的商品還是觀看的電影,我們都要對(duì)其進(jìn)行分門別類。這里我們將采用標(biāo)簽的形式,因?yàn)樗芎?jiǎn)單,而且其公式也適用于更復(fù)雜的情形。
以幾何關(guān)系重定義問題
現(xiàn)在以我的博客為例,來列舉一些標(biāo)簽:
好,我們來看看在歐式空間幾何學(xué)中如何表示這些標(biāo)簽。
我們要排序或比較的每個(gè)項(xiàng)目在空間中以點(diǎn)表示,坐標(biāo)值(代表一個(gè)標(biāo)簽)為1(標(biāo)記)或者0(未標(biāo)記)。
因此,如果我們已經(jīng)獲取了一篇標(biāo)簽為“API”和“Browser”的文章,那么其關(guān)聯(lián)點(diǎn)是:
現(xiàn)在這些坐標(biāo)可以表示其它含義。例如,他們可以代表用戶。如果在你的系統(tǒng)中有6個(gè)用戶,其中2個(gè)用戶對(duì)一篇文章分別評(píng)了3星和5星,那么你就可以針對(duì)此文章查看相關(guān)聯(lián)的點(diǎn)(請(qǐng)注意順序):
現(xiàn)在我們可以計(jì)算出相關(guān)矢量之間的夾角,以及這些點(diǎn)之間的距離。下面是它們?cè)诙S空間中的圖像:
歐式幾何空間距離
計(jì)算歐式幾何空間兩點(diǎn)之間距離的數(shù)學(xué)公式非常簡(jiǎn)單。考慮相關(guān)兩點(diǎn)A、B之間的距離:
兩點(diǎn)之間的距離越近,它們的相關(guān)性越大。下面是Ruby代碼:
這是一些示例代碼,你可以直接復(fù)制運(yùn)行:
你是否留意到我們之前選擇的數(shù)據(jù)存在一個(gè)缺陷?前兩篇文章對(duì)于標(biāo)簽“["Publishing",?"Web",?"API"]”有著相同的歐氏幾何空間距離。
為了更加形象化,我們來看看計(jì)算第一篇文章所用到的點(diǎn):
只有四個(gè)坐標(biāo)值不同,我們?cè)賮砜纯吹诙恼滤玫降狞c(diǎn):
與第一篇文章相同,也只有4個(gè)坐標(biāo)值不同。歐氏空間距離的度量取決于點(diǎn)之間的差異。這也許不太好,因?yàn)橄鄬?duì)平均值而言,有更多或更少標(biāo)簽的文章會(huì)處于不利地位。
余弦相似度
這種方法與之前的方法類似,但更關(guān)注相似性。下面是公式:
下面是Ruby代碼:
對(duì)于以上示例,我們對(duì)文章進(jìn)行分類得到:
這種方法有了很大改善,我們的代碼可以很好地運(yùn)行,但它依然存在問題。
示例中的問題:Tf-ldf權(quán)重
我們的數(shù)據(jù)很簡(jiǎn)單,可以輕松地計(jì)算并作為衡量的依據(jù)。如果不采用余弦相似度,很可能會(huì)出現(xiàn)相同的結(jié)果。
Tf-ldf權(quán)重是一種解決方案。Tf-ldf是一個(gè)靜態(tài)統(tǒng)計(jì)量,用于權(quán)衡文本集合中的一個(gè)詞在一個(gè)文檔中的重要性。
根據(jù)Tf-ldff,我們可以為坐標(biāo)值賦予獨(dú)特的值,而并非局限于0和1.
對(duì)于我們剛才示例中的簡(jiǎn)單數(shù)據(jù)集,也許更簡(jiǎn)單的度量方法更適合,比如Jaccard index也許會(huì)更好。
皮爾遜相關(guān)系數(shù)(Pearson?Correlation?Coefficient)
使用皮爾遜相關(guān)系數(shù)(Pearson?Correlation?Coefficient)尋找兩個(gè)項(xiàng)目之間的相似性略顯復(fù)雜,也并不是非常適用于我們的數(shù)據(jù)集合。
例如,我們?cè)贗MDB中有2個(gè)用戶。其中一個(gè)用戶名為John,對(duì)五部電影做了評(píng)級(jí):[1,2,3,4,5]。另一個(gè)用戶名為Mary,對(duì)這五部電影也給出了評(píng)級(jí):[4,?5,?6,?7,?8]。這兩個(gè)用戶非常相似,他們之間有一個(gè)完美的線性關(guān)系,Mary的評(píng)級(jí)都是在John的基礎(chǔ)上加3。
計(jì)算公式如下:
?代碼如下:
曼哈頓距離算法
沒有放之四海而皆準(zhǔn)的真理,我們所使用的公式取決于要處理的數(shù)據(jù)。下面我們簡(jiǎn)要介紹一下曼哈頓距離算法。
曼哈頓距離算法計(jì)算兩點(diǎn)之間的網(wǎng)格距離,維基百科中的圖形完美詮釋了它與歐氏幾何距離的不同:
紅線、黃線和藍(lán)線是具有相同長(zhǎng)度的曼哈頓距離,綠線代表歐氏幾何空間距離。(張志平/編譯)
原文鏈接:http://bionicspirit.com/blog/2012/01/16/cosine-similarity-euclidean-distance.html
云時(shí)代的企業(yè)應(yīng)用數(shù)據(jù)挖掘
本文主要分析了企業(yè)面對(duì)云時(shí)代的SaaS服務(wù)時(shí),如何有效地對(duì)應(yīng)用數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘。首先分析了企業(yè)面對(duì)海量增長(zhǎng)的數(shù)據(jù)時(shí)數(shù)據(jù)挖掘面臨的挑戰(zhàn),其次提出了一種適合云應(yīng)用環(huán)境的數(shù)據(jù)挖掘模式,最后對(duì)該方法進(jìn)行了總結(jié)。
| 趙鵬 中國(guó)電信股份有限公司北京研究 院高級(jí)工程師,主要研究方向?yàn)樾畔⑾到y(tǒng)規(guī)劃與設(shè)計(jì)、語義網(wǎng)絡(luò)和知識(shí)工程。 |
| 顧茜 中國(guó)電信股份有限公司北京研究 院工程師,目前從事云計(jì)算領(lǐng)域的研究工作。 |
隨著云時(shí)代的到來和SaaS概念的引入,越來越多的企業(yè)開始選擇由SaaS應(yīng)用提供商、運(yùn)營(yíng)商等通過互聯(lián)網(wǎng)平臺(tái)提供SaaS應(yīng)用服務(wù),SaaS應(yīng)用的數(shù)據(jù)量面臨著TB級(jí)的增長(zhǎng)速度;不同的SaaS應(yīng)用體系,提供的數(shù)據(jù)結(jié)構(gòu)也不完全相同,數(shù)據(jù)有文本、圖形甚至小型數(shù)據(jù)庫(kù);SaaS應(yīng)用數(shù)據(jù)隨著云服務(wù)平臺(tái)的分布性特點(diǎn),有可能分布在不同的服務(wù)器上,如何對(duì)這些異構(gòu)異源的數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,是云時(shí)代的企業(yè)面臨的難題。
如何從海量應(yīng)用挖掘出合理的數(shù)據(jù)
對(duì)于企業(yè)而言,如何將各種SaaS應(yīng)用數(shù)據(jù)進(jìn)行整合挖掘,提煉出適合其使用的商業(yè)信息是企業(yè)的一大急迫需求。傳統(tǒng)的BI模式大多基于數(shù)據(jù)倉(cāng)庫(kù),是關(guān)系型數(shù)據(jù)庫(kù)的模式。面對(duì)急劇增長(zhǎng)的異構(gòu)數(shù)據(jù),傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)和原有的并行計(jì)算技術(shù)由于挖掘效率低,已經(jīng)不能解決海量數(shù)據(jù)挖掘工作,影響著數(shù)據(jù)的及時(shí)提取。
云時(shí)代企業(yè)數(shù)據(jù)挖掘也面臨如下挑戰(zhàn)。
- 挖掘效率:進(jìn)入云計(jì)算時(shí)代后,BI的思路發(fā)生了轉(zhuǎn)換。以前是基于封閉的企業(yè)數(shù)據(jù)進(jìn)行挖掘,而面對(duì)引入互聯(lián)網(wǎng)應(yīng)用后海量的異構(gòu)數(shù)據(jù)(據(jù)預(yù)計(jì)到2020年,爆發(fā)式增長(zhǎng)的數(shù)據(jù)量將突破35ZB(1ZB=10億TB))時(shí),目前并行挖掘算法的效率很低。
- 多源數(shù)據(jù):引入云計(jì)算后,企業(yè)數(shù)據(jù)的位置有可能在提供公有云服務(wù)的平臺(tái)上,也可能在企業(yè)自建的私有云上,如何面對(duì)不同的數(shù)據(jù)源進(jìn)行挖掘也是一個(gè)挑戰(zhàn)。?如圖1所示。
- 異構(gòu)數(shù)據(jù):Web數(shù)據(jù)的最大特點(diǎn)就是半結(jié)構(gòu)化,如文檔、報(bào)表、網(wǎng)頁、聲音、圖像、視頻等,而云計(jì)算帶來了大量的基于互聯(lián)網(wǎng)模式提供的SaaS應(yīng)用,如何梳理有效數(shù)據(jù)是一個(gè)挑戰(zhàn)。
SaaS應(yīng)用的數(shù)據(jù)挖掘希望能夠通過海量數(shù)據(jù)存儲(chǔ)平臺(tái),引入快速并行的挖掘算法,提高數(shù)據(jù)挖掘的質(zhì)量。
適合云應(yīng)用數(shù)據(jù)挖掘的模式建議
數(shù)據(jù)倉(cāng)庫(kù)建模階段
為了應(yīng)對(duì)SaaS應(yīng)用大量異構(gòu)數(shù)據(jù),引入XML標(biāo)記和交換數(shù)據(jù)。由于XML能夠使不同來源的結(jié)構(gòu)化數(shù)據(jù)很容易地結(jié)合在一起,因而使搜索多樣的不兼容的數(shù)據(jù)庫(kù)成為可能,從而為解決Web數(shù)據(jù)挖掘難題帶來了希望。XML的擴(kuò)展性和靈活性允許XML描述不同種類應(yīng)用軟件中的數(shù)據(jù),從而能描述搜集的Web頁中的數(shù)據(jù)記錄。
引入MapReduce算法,提高數(shù)據(jù)抽取轉(zhuǎn)換的效率。MapReduce算法是Google提出的一個(gè)軟件架構(gòu),用于大規(guī)模數(shù)據(jù)集(大于1TB)的并行運(yùn)算。當(dāng)前的實(shí)現(xiàn)方法是指定一個(gè)Map(映射)函數(shù)用來把一組鍵值對(duì)映射成一組新的鍵值對(duì),指定并發(fā)的Reduce(化簡(jiǎn))函數(shù)用來保證所有映射的鍵值對(duì)中的每一個(gè)共享相同的鍵組。
MapReduce更適合如下場(chǎng)景。
- ETL(數(shù)據(jù)提取轉(zhuǎn)化加載)類的應(yīng)用:從多個(gè)不同的源讀取日志信息;分析以及清理日志數(shù)據(jù);執(zhí)行復(fù)雜的變換,比如“會(huì)話轉(zhuǎn)換”;決定存儲(chǔ)什么樣的屬性以及把信息裝載到DBMS或者其他存儲(chǔ)引擎中。
- 復(fù)雜分析應(yīng)用:這種挖掘類型的應(yīng)用需要對(duì)數(shù)據(jù)進(jìn)行多步驟的計(jì)算和處理,通常一個(gè)程序的輸出會(huì)是另外一個(gè)程序的輸入,因此很難用單個(gè)SQL語句來表示,這種應(yīng)用場(chǎng)合下,MapReduce是很好的候選方案。
- 半結(jié)構(gòu)化數(shù)據(jù):因?yàn)椴恍枰獙?duì)數(shù)據(jù)的存儲(chǔ)進(jìn)行格式定義,所以MapReduce比較適合處理半結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)通常都是一些鍵值對(duì)。這些場(chǎng)合下,MapReduce非常適合做ETL的事情。
- 快速實(shí)施的系統(tǒng):完善和健壯的低成本開源解決方案是MapReduce最大的優(yōu)點(diǎn)。
- 圖2 數(shù)據(jù)挖掘模式圖
引入HDFS的分布式存儲(chǔ)模式。HDFS系統(tǒng)簡(jiǎn)單,利于提高實(shí)施效率,適合海量數(shù)據(jù)挖掘。HDFS架構(gòu)基于GFS體系架構(gòu)(Google?File?System,簡(jiǎn)稱GFS,是由Google設(shè)計(jì)并實(shí)現(xiàn)的一個(gè)分布式文件系統(tǒng),基于大量安裝有Linux操作系統(tǒng)的普通PC構(gòu)成的集群系統(tǒng)),但比GFS架構(gòu)精簡(jiǎn)。GFS和HDFS都采用“單一主控機(jī)+多臺(tái)工作機(jī)”的模式,通過數(shù)據(jù)分塊和復(fù)制(多副本,一般是3)來提供更高的可靠性和性能。GFS允許文件被多次或者多個(gè)客戶端同時(shí)打開以追加數(shù)據(jù),以記錄為單位。而在HDFS中,文件只允許一次打開并追加數(shù)據(jù)。GFS中采用主從模式備份Master的系統(tǒng)元數(shù)據(jù),當(dāng)主Master失效時(shí),可以通過分布式選舉備機(jī)接替主Master繼續(xù)對(duì)外提供服務(wù),而由于Replication及主備切換本身有一定的復(fù)雜性,HDFS?Master的持久化數(shù)據(jù)只寫入到本機(jī)(可能寫入多份存放到Master機(jī)器的多個(gè)磁盤中防止某個(gè)磁盤損害),出現(xiàn)故障時(shí)需要人工介入。GFS通過內(nèi)部采用Copy-on-Write的數(shù)據(jù)結(jié)構(gòu)實(shí)現(xiàn)集群快照功能,而HDFS不提供快照功能。
引入Hive架構(gòu)。Hive是建立在Hadoop上的數(shù)據(jù)倉(cāng)庫(kù)基礎(chǔ)構(gòu)架,是一種可以存儲(chǔ)、查詢和分析Hadoop中大規(guī)模數(shù)據(jù)的機(jī)制,提供了一系列工具用來進(jìn)行數(shù)據(jù)ETL操作。Hive定義了簡(jiǎn)單的類SQL查詢語言,稱為HQL,它允許熟悉SQL的用戶查詢數(shù)據(jù)。這個(gè)語言也允許熟悉MapReduce開發(fā)者自定義Mapper和Reducer來處理內(nèi)建的Mapper?和Reducer無法完成的復(fù)雜分析工作。
數(shù)據(jù)挖掘階段
引入數(shù)據(jù)分析中間件,提供數(shù)據(jù)處理、數(shù)據(jù)探索、數(shù)據(jù)建模及模型應(yīng)用等一系列功能,開發(fā)多種數(shù)據(jù)挖掘算法和統(tǒng)計(jì)建模方法,并能夠方便、快速、高效地處理海量數(shù)據(jù),為商業(yè)智能的應(yīng)用提供更方便、更靈活的工具和服務(wù)。
數(shù)據(jù)呈現(xiàn)階段
BI作為云計(jì)算的一種SaaS服務(wù)提供給企業(yè),建立行業(yè)數(shù)據(jù)庫(kù)。面對(duì)林林總總的SaaS應(yīng)用,BI同樣可作為一種SaaS服務(wù)提供給企業(yè)。同時(shí),數(shù)據(jù)挖掘工具進(jìn)行數(shù)據(jù)分析,可以發(fā)現(xiàn)重要的數(shù)據(jù)模式,這對(duì)構(gòu)建知識(shí)庫(kù)做出了巨大貢獻(xiàn)——數(shù)據(jù)和信息之間的鴻溝要求系統(tǒng)地開發(fā)數(shù)據(jù)挖掘工具,將數(shù)據(jù)“墳?zāi)埂鞭D(zhuǎn)換成知識(shí)“金塊”。
數(shù)據(jù)挖掘模式圖
我們?cè)O(shè)計(jì)的數(shù)據(jù)挖掘模式圖如圖2所示。
- 企業(yè)數(shù)據(jù)層:企業(yè)數(shù)據(jù)來源于各類應(yīng)用,如?SaaS應(yīng)用、企業(yè)內(nèi)部應(yīng)用數(shù)據(jù)和專有云應(yīng)用。
- 數(shù)據(jù)倉(cāng)庫(kù)層:主要引入HDFS分布存儲(chǔ)系統(tǒng)和Hive體系架構(gòu),通過MapReduce算法對(duì)數(shù)據(jù)梳理和提取。
- 數(shù)據(jù)挖掘?qū)?#xff1a;引入基于XML數(shù)據(jù)分析中間件,實(shí)現(xiàn)統(tǒng)計(jì)查詢和數(shù)據(jù)挖掘功能。
- 數(shù)據(jù)分析與BI應(yīng)用層:將BI以SaaS服務(wù)的模式提供給企業(yè)使用。
總結(jié)
隨著云時(shí)代的到來,企業(yè)面臨的應(yīng)用方式更加多元化,通過云的手段提供海量數(shù)據(jù)挖掘的方法,提高了挖掘的效率,增加了挖掘的精度,更利于挖掘應(yīng)用的推廣以及專業(yè)的行業(yè)知識(shí)庫(kù)的構(gòu)建。
剖析數(shù)據(jù)挖掘在金融證券交易領(lǐng)域的應(yīng)用
[CSDN.NET報(bào)道]7月28日晚,由CSDN旗下高級(jí)技術(shù)管理者大本營(yíng)CTO俱樂部舉辦的“數(shù)據(jù)挖掘在金融證券交易領(lǐng)域的應(yīng)用經(jīng)驗(yàn)分享”主題沙龍活動(dòng)在海淀橋車庫(kù)咖啡館成功舉辦,這是CTO俱樂部金融行業(yè)軟件專業(yè)委員會(huì)成立以來的首場(chǎng)線下活動(dòng)。
本次活動(dòng)邀請(qǐng)到鳳凰網(wǎng)高級(jí)技術(shù)經(jīng)理王允、和瑞網(wǎng)CTO巨建華、搜狐金融事業(yè)部高級(jí)工程師趙士昌、金融界技術(shù)主管吳旻等嘉賓,分享了在證券交易行情數(shù)據(jù)分析領(lǐng)域所涉及的經(jīng)驗(yàn)和技術(shù),并對(duì)數(shù)據(jù)挖掘在互聯(lián)網(wǎng)相關(guān)領(lǐng)域的應(yīng)用進(jìn)行深入的溝通和探討。活動(dòng)現(xiàn)場(chǎng)火爆,有近百位行業(yè)內(nèi)技術(shù)管理者來現(xiàn)場(chǎng)。
活動(dòng)現(xiàn)場(chǎng)火爆
和瑞網(wǎng)CTO巨建華介紹了國(guó)內(nèi)證券交易行業(yè)的數(shù)據(jù)特點(diǎn):全部是動(dòng)態(tài)時(shí)間序列數(shù)據(jù);每秒新增數(shù)據(jù)上千;21年歷史數(shù)據(jù);多個(gè)交易市場(chǎng),多種證券類別;滬深兩市每天原始數(shù)據(jù)量為2G;財(cái)務(wù)報(bào)表等數(shù)據(jù)為非結(jié)構(gòu)化數(shù)據(jù);歷史數(shù)據(jù)永遠(yuǎn)不會(huì)發(fā)生變化。就數(shù)據(jù)清洗與去噪,他談到了幾個(gè)基本機(jī)制——編碼標(biāo)準(zhǔn)化;單位標(biāo)準(zhǔn)化;入庫(kù)檢查規(guī)則制定;缺失數(shù)據(jù)處理機(jī)制。在數(shù)據(jù)倉(cāng)庫(kù)的構(gòu)建——自定義文件數(shù)據(jù)庫(kù)方面,巨建華分析了為何當(dāng)前采用了NoSQL:因?yàn)榇疟P的效率依然低下,因此采用了MongoDB,用內(nèi)存來存儲(chǔ)數(shù)據(jù),4臺(tái)服務(wù)器配備128G內(nèi)存,實(shí)現(xiàn)了每秒27000條的寫入速度。
和瑞網(wǎng)CTO巨建華
在研發(fā)流程規(guī)劃方面,他重點(diǎn)介紹了:產(chǎn)品規(guī)劃(產(chǎn)品經(jīng)理)-模型設(shè)計(jì)(金融工程師)-模型開發(fā)(開發(fā)團(tuán)隊(duì))-回歸測(cè)試(測(cè)試部)-實(shí)盤驗(yàn)證(產(chǎn)品經(jīng)理)-模型監(jiān)控(產(chǎn)品經(jīng)理)的模式。
鳳凰網(wǎng)高級(jí)技術(shù)經(jīng)理王允
鳳凰網(wǎng)高級(jí)技術(shù)經(jīng)理王允分享了自己對(duì)于數(shù)據(jù)挖掘在金融證券交易領(lǐng)域應(yīng)用的未來展望——能否根據(jù)指標(biāo)值給用戶操作提示?能否提示用戶K線圖上出現(xiàn)的形態(tài);能夠從海量數(shù)據(jù)中自動(dòng)分析得出操作提示;走勢(shì)預(yù)測(cè);套利機(jī)會(huì)(跨A|B|H|權(quán)證|基金|商品);按照特定模型分析財(cái)務(wù)數(shù)據(jù);周易、占星等理論能否用在股票分析上。
互動(dòng)問答(從左到右分別為:王允、趙士昌、吳旻、巨建華)
現(xiàn)場(chǎng)聽眾提問,主要集中于幾點(diǎn):金融行業(yè)的數(shù)據(jù)分析如何跟自身業(yè)務(wù)結(jié)合;BS/CS(客戶端)架構(gòu)區(qū)別,各自的優(yōu)劣;數(shù)據(jù)安全性;如何才能獲得更優(yōu)質(zhì)的證券交易數(shù)據(jù)、數(shù)據(jù)傳輸、清理方式等問題。在談到數(shù)據(jù)分析解決方案BS/CS架構(gòu)區(qū)別時(shí),金融界技術(shù)主管吳旻認(rèn)為BS相對(duì)于CS來說會(huì)慢一點(diǎn),數(shù)據(jù)量很大的時(shí)候可能不那么及時(shí),可能會(huì)慢一兩秒。普通客戶覺得不重要,但是對(duì)于高端用戶來說半秒都是很重要的。其次是證券交易數(shù)據(jù)的獲取和使用都要合規(guī),上交所深交所的規(guī)定都有不同的區(qū)別,很多網(wǎng)站因?yàn)槟貌坏脚普账宰霾涣?#xff0c;有些可以獲取數(shù)據(jù)做分析但不能交易。再有,數(shù)據(jù)安全是另一個(gè)不容忽視的方面。
對(duì)此,搜狐金融事業(yè)部高級(jí)工程師趙士昌并不贊同,他認(rèn)為BS架構(gòu)完全可以達(dá)到CS數(shù)據(jù)級(jí)別,搜狐技術(shù)部門做過測(cè)試,速度相差不會(huì)太多,一個(gè)級(jí)別的。CS架構(gòu)的話,因?yàn)橛锌蛻舳?#xff0c;可以在本地存儲(chǔ)一些大量數(shù)據(jù)做分析,BS架構(gòu)可能受限互聯(lián)網(wǎng)的束縛,但是可以將數(shù)據(jù)拿到客戶端處理,瀏覽器僅僅是顯示一下處理結(jié)果就可以,技術(shù)上都已經(jīng)很成熟了。
總體來看,未來的金融證券行業(yè)數(shù)據(jù)服務(wù),下一步的技術(shù)焦點(diǎn)將在如何為個(gè)人提供個(gè)性化的服務(wù)上,現(xiàn)場(chǎng)互動(dòng)活躍,與會(huì)者提出了很多很好的需求和建議。
更多精彩內(nèi)容及CSDN CTO俱樂部的下期線下活動(dòng),請(qǐng)持續(xù)關(guān)注CSDN CTO俱樂部。
CTO俱樂部是CSDN旗下面向廣大技術(shù)管理者的網(wǎng)上大本營(yíng),采取采用了嚴(yán)格的邀請(qǐng)審核制,只有公司的高級(jí)技術(shù)管理者,如CTO、技術(shù)總監(jiān)、開發(fā)總監(jiān)、工程總監(jiān)才能申請(qǐng)加入,現(xiàn)已超過10000多名會(huì)員。CTO俱樂部定期舉行線下活動(dòng),就相關(guān)主題進(jìn)行共同探討,并便于會(huì)員們相互交流
馬云的秘密武器:數(shù)據(jù)挖掘
導(dǎo)讀:最新一期英國(guó)《經(jīng)濟(jì)學(xué)人》雜志撰文稱,阿里巴巴手中掌握著中國(guó)中產(chǎn)階級(jí)的大量購(gòu)物數(shù)據(jù),可以借此開展更多業(yè)務(wù),另外一個(gè)有潛力的領(lǐng)域是信貸。阿里巴巴已經(jīng)成為了中國(guó)電子商務(wù)之王。
以下為文章全文:
小個(gè)子馬云脫穎而出
墻上掛著十幾個(gè)大屏幕,地圖不停地閃動(dòng),數(shù)字則不斷地滾動(dòng)著。阿里巴巴集團(tuán)的“實(shí)時(shí)數(shù)據(jù)檢測(cè)室”為我們提供了一幅繁忙的景象:中國(guó)企業(yè)與外國(guó)企業(yè)之間的交易;中國(guó)消費(fèi)者之間的服裝交易。阿里巴巴旗下各類網(wǎng)絡(luò)服務(wù)的用戶大約為5億人。作為該集團(tuán)的創(chuàng)始人,個(gè)子矮小的馬云笑著說,生意“很好”。然而,這卻遠(yuǎn)未令他滿足。
馬云曾經(jīng)高考兩度落榜,但卻堅(jiān)持通過廣播學(xué)習(xí)英語。上世紀(jì)90年代,馬云以翻譯的身份前往美國(guó),并“巧遇”互聯(lián)網(wǎng)。他當(dāng)時(shí)在一款搜索引擎中輸入了“Chinese Beer”,但卻沒有任何結(jié)果。他看到了機(jī)會(huì)。
馬云1999年創(chuàng)辦阿里巴巴,幫助小企業(yè)跳過中間商直接尋找客戶和供應(yīng)商。阿里巴巴網(wǎng)站如今號(hào)稱擁有5700萬用戶,幾乎遍及世界各國(guó)。這有點(diǎn)像是eBay,但更像是一個(gè)網(wǎng)絡(luò)黃頁。
作為阿里巴巴集團(tuán)旗下的另外一家網(wǎng)站,淘寶則專門針對(duì)普通消費(fèi)者。它擁有3億用戶,2009年的交易額達(dá)到290億美元。淘寶就像是亞馬遜與 eBay的結(jié)合體:既運(yùn)營(yíng)著一家專供大型商家的在線商城,也提供一個(gè)任何擁有中國(guó)居民身份證的人都可以注冊(cè)并出售合法物品的網(wǎng)站。淘寶通過廣告獲取收入。
阿里巴巴的員工對(duì)他們一手打造的業(yè)務(wù)都很驕傲。有一個(gè)村子積壓了大量的兔肉和皮毛。村長(zhǎng)讓村民想辦法。于是,一名村民通過阿里巴巴網(wǎng)站賣出了這些貨。但更多情況下,阿里巴巴的客戶都是一些希望通過廉價(jià)渠道打開國(guó)際市場(chǎng)的小企業(yè)。無需親自來中國(guó),土耳其或英國(guó)的機(jī)械制造商就可以借助阿里巴巴找到這里的廉價(jià)供應(yīng)商。買家可以閱讀他人針對(duì)每名賣家發(fā)表的評(píng)論,盡管并不完美,但依然能夠營(yíng)造誠(chéng)信氛圍。
他處處都能看到機(jī)遇
阿里巴巴位于杭州的園區(qū)與硅谷企業(yè)的風(fēng)格很像。這里的建筑都很通風(fēng),而且風(fēng)水很好。員工可以享受乒乓球和免費(fèi)的按摩。老人和西裝革履的人在這里都很少見。與其他中國(guó)互聯(lián)網(wǎng)公司一樣,這里的很多高級(jí)管理人員都受過國(guó)外教育或者有過海外工作經(jīng)驗(yàn)。
阿里巴巴有著實(shí)力強(qiáng)大的海外支持者:美國(guó)雅虎和日本軟銀。然而,由于身處中國(guó),它不能向西方企業(yè)一樣運(yùn)營(yíng)。到上世紀(jì)90年代,互聯(lián)網(wǎng)的報(bào)道已經(jīng)遍及全球,但中國(guó)媒體卻罕有提及。所以馬云的創(chuàng)業(yè)之路非常艱難。但是現(xiàn)在,他處處都能看到機(jī)遇。
中國(guó)擁有數(shù)百萬小企業(yè)家,但是金融體制卻比較落后。為了提高網(wǎng)站流量,馬云2004年創(chuàng)建了一套在線支付系統(tǒng)——支付寶。它的增長(zhǎng)很大程度上受益于美國(guó)同行PayPal無法進(jìn)軍中國(guó),后者直到最近才剛剛獲準(zhǔn)在中國(guó)開展業(yè)務(wù)。支付寶目前在全球擁有4.7億用戶,中國(guó)有超過50萬商家接受這種支付方式。部分中國(guó)城市的居民還可以利用支付寶交水電費(fèi)。
馬云還啟動(dòng)了一項(xiàng)名為阿里貸款的服務(wù)。他并不對(duì)外提供貸款,但卻與銀行合作展開業(yè)務(wù)。銀行通常無法知道小型借款人的信用,但馬云卻擁有大量數(shù)據(jù),可以判斷小企業(yè)是否具備按時(shí)還款的能力。他還可以將相互認(rèn)識(shí)的企業(yè)進(jìn)行綁定,以便讓賣家為常客提供銀行貸款擔(dān)保。根據(jù)阿里巴巴的數(shù)據(jù),阿里貸款的壞賬率僅為 0.35%,這也使得該服務(wù)得以快速擴(kuò)張。
阿里巴巴還面臨著許多障礙。首先,中國(guó)互聯(lián)網(wǎng)市場(chǎng)競(jìng)爭(zhēng)非常激烈,而且發(fā)展很快。作為中國(guó)最大的搜索引擎,百度雖然現(xiàn)在沒有與阿里巴巴展開正面沖突,但遲早會(huì)有這么一天。其次是人才短缺。最優(yōu)秀的工程師和管理者的薪酬一路飆升。
第三,為了推動(dòng)增長(zhǎng),阿里巴巴已經(jīng)放棄了很多利潤(rùn)。它的主要服務(wù)是免費(fèi)的,只有在賣家要求額外服務(wù)時(shí)才會(huì)收費(fèi),例如要出現(xiàn)在搜索結(jié)果頂部。馬云表示,這是經(jīng)過深思熟慮的:規(guī)模最終將帶來回報(bào)。但是投資者卻不會(huì)一直等下去。在認(rèn)識(shí)到這一點(diǎn)后,阿里巴巴集團(tuán)的上市子公司阿里巴巴網(wǎng)絡(luò)有限公司今年12 月承諾,將于明年1月發(fā)放1.4億美元的特別股息。
盤活龐大數(shù)據(jù)資產(chǎn)
阿里巴巴擁有一項(xiàng)龐大而未經(jīng)開發(fā)的資產(chǎn):針對(duì)中國(guó)正在崛起的中產(chǎn)階級(jí)消費(fèi)習(xí)慣搜集的大量數(shù)據(jù)。該公司對(duì)于如何使用這些數(shù)據(jù)非常謹(jǐn)慎,并且堅(jiān)稱不會(huì)侵犯任何人的隱私。
盡管如此,阿里巴巴仍然有多種方法可以憑借現(xiàn)有資料賺取利潤(rùn)。一種方法是,利用用戶數(shù)據(jù)來判斷趨勢(shì),并幫助企業(yè)預(yù)測(cè)用戶需求。由于中國(guó)缺乏精確的數(shù)據(jù),因此這項(xiàng)業(yè)務(wù)將很有價(jià)值。
另外一個(gè)有潛力的領(lǐng)域是信貸。阿里貸款不向借款企業(yè)收取信用評(píng)級(jí)費(fèi),并表示,沒有這方面的計(jì)劃。但是收費(fèi)計(jì)劃的確可行:只要對(duì)每筆貸款收取少量費(fèi)用,幾乎就可以創(chuàng)造凈利潤(rùn)。而且阿里巴巴也沒有理由限制自己幫助企業(yè)借款。另外一個(gè)可能是,幫助中國(guó)消費(fèi)者獲取信貸。目前,很少有企業(yè)能夠做到這一點(diǎn),但是希望開展這項(xiàng)業(yè)務(wù)的卻大有人在。
原文鏈接:http://www.alibuybuy.com/posts/52342.html
五個(gè)免費(fèi)開源的數(shù)據(jù)挖掘軟件
Orange
Orange是一個(gè)基于組件的數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)軟件套裝,它的功能即友好,又很強(qiáng)大,快速而又多功能的可視化編程前端,以便瀏覽數(shù)據(jù)分析和可視化,基綁定了Python以進(jìn)行腳本開發(fā)。它包含了完整的一系列的組件以進(jìn)行數(shù)據(jù)預(yù)處理,并提供了數(shù)據(jù)帳目,過渡,建模,模式評(píng)估和勘探的功能。其由C++和Python開發(fā),它的圖形庫(kù)是由跨平臺(tái)的Qt框架開發(fā)。
????? RapidMiner
RapidMiner,以前叫YALE(Yet Another Learning Environment),其是一個(gè)給機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘和分析的試驗(yàn)環(huán)境,同時(shí)用于研究了真實(shí)世界數(shù)據(jù)挖掘。它提供的實(shí)驗(yàn)由大量的算子組成,而這些算子由詳細(xì)的XML文件記錄,并被RapidMiner圖形化的用戶接口表現(xiàn)出來。RapidMiner為主要的機(jī)器學(xué)習(xí)過程提供了超過500算子,并且,其結(jié)合了學(xué)習(xí)方案和Weka學(xué)習(xí)環(huán)境的屬性評(píng)估器。它是一個(gè)獨(dú)立的工具可以用來做數(shù)據(jù)分析,同樣也是一個(gè)數(shù)據(jù)挖掘引擎可以用來集成到你的產(chǎn)品中。
?? ?? Weka
由Java開發(fā)的Weka(Waikato Environment for Knowledge Analysis)是一個(gè)知名機(jī)器學(xué)機(jī)軟件,其支持幾種經(jīng)典的數(shù)據(jù)挖掘任務(wù),顯著的數(shù)據(jù)預(yù)處理,集群,分類,回歸,虛擬化,以及功能選擇。其技術(shù)基于假設(shè)數(shù)據(jù)是以一種單個(gè)文件或關(guān)聯(lián)的,在那里,每個(gè)數(shù)據(jù)點(diǎn)都被許多屬性標(biāo)注。Weka使用Java的數(shù)據(jù)庫(kù)鏈接能力可以訪問SQL數(shù)據(jù)庫(kù),并可以處理一個(gè)數(shù)據(jù)庫(kù)的查詢結(jié)果。它主要的用戶接品是Explorer,也同樣支持相同功能的命令行,或是一種基于組件的知識(shí)流接口。
?? ?? JHepWork
為科學(xué)家,工程師和學(xué)生所設(shè)計(jì)的jHepWork是一個(gè)免費(fèi)的開源數(shù)據(jù)分析框架,其主要是用開源庫(kù)來創(chuàng)建一個(gè)數(shù)據(jù)分析環(huán)境,并提供了豐富的用戶接口,以此來和那些收費(fèi)的的軟件競(jìng)爭(zhēng)。它主要是為了科學(xué)計(jì)算用的二維和三維的制圖,并包含了用Java實(shí)現(xiàn)的數(shù)學(xué)科學(xué)庫(kù),隨機(jī)數(shù),和其它的數(shù)據(jù)挖掘算法。jHepWork是基于一個(gè)高級(jí)的編程語言Jython,當(dāng)然,Java代碼同樣可以用來調(diào)用jHepWork的數(shù)學(xué)和圖形庫(kù)。
?? ?? KNIME
KNIME (Konstanz Information Miner) 是一個(gè)用戶友好,智能的,并有豐演的開源的數(shù)據(jù)集成,數(shù)據(jù)處理,數(shù)據(jù)分析和數(shù)據(jù)勘探平臺(tái)。它給了用戶有能力以可視化的方式創(chuàng)建數(shù)據(jù)流或數(shù)據(jù)通道,可選擇性地運(yùn)行一些或全部的分析步驟,并以后面研究結(jié)果,模型以及可交互的視圖。KNIME由Java寫成,其基于Eclipse并通過插件的方式來提供更多的功能。通過以插件的文件,用戶可以為文件,圖片,和時(shí)間序列加入處理模塊,并可以集成到其它各種各樣的開源項(xiàng)目中,比如:R語言,Weka,Chemistry Development Kit,和LibSVM。
源文:http://www.junauza.com/2010/11/free-data-mining-software.html
總結(jié)
以上是生活随笔為你收集整理的数据挖掘:如何寻找相关项的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Ubuntu品牌机批量涌入世界市场,中国
- 下一篇: 如何确定h.264的码率