数据分析和数据挖掘的理论研究必要性
2019獨(dú)角獸企業(yè)重金招聘Python工程師標(biāo)準(zhǔn)>>>
數(shù)據(jù)分析,并不抽象,傳統(tǒng)的數(shù)據(jù)分析,包括很多。例如信號(hào)處理中的DCT,濾波,IDCT變換。由于確定了濾波窗口的特性,使得對(duì)一個(gè)時(shí)間軸上的數(shù)據(jù)進(jìn)行了頻譜處理,增強(qiáng)了我們希望的信息,弱化了我們不想要的噪聲。這就是數(shù)據(jù)分析。而如果這個(gè)濾波窗口的參數(shù)在根據(jù)期望目標(biāo)而改變時(shí),以檢測(cè)期望的目標(biāo)在數(shù)據(jù)中是否存在,則是數(shù)據(jù)挖掘。例如我們嘗試判斷在不同頻帶中是否有,具備有機(jī)組合的頻率信號(hào)存在。或許是火星人‘s 媽喊他回家吃飯的信號(hào)呢?哈。
我不想和別人討論狹義的數(shù)據(jù)分析或數(shù)據(jù)挖掘,例如,指定什么數(shù)據(jù)流程,指定什么數(shù)據(jù)處理工具。如同oracle,DB2才是數(shù)據(jù)庫(kù),mysql則不是數(shù)據(jù)庫(kù)一樣,有點(diǎn)偏激了。這會(huì)如同除了C就不是編程一樣極端,記得嵌入式有個(gè)uc/OS,我也看過(guò)部分代碼。嚴(yán)格說(shuō),只是個(gè)OS的kernel,但是也仍然是OS,OS不代表一定要談linux, windows。早期的DOS也是OS。
如果一個(gè)團(tuán)隊(duì),一個(gè)從業(yè)者,將數(shù)據(jù)分析,數(shù)據(jù)挖掘這個(gè)業(yè)務(wù)行為混為某個(gè)工具,某個(gè)設(shè)計(jì)流程規(guī)范,那么恐怕他們要被最早的數(shù)據(jù)分析和數(shù)據(jù)挖掘的技術(shù)人員BS了。就是無(wú)線電監(jiān)聽信號(hào)的模擬電子工程師們。
這里簡(jiǎn)單的再說(shuō)兩個(gè)例子。
1、例如假設(shè)京東商城,在上海,存在三個(gè)倉(cāng)庫(kù),分別在北,西,南三個(gè)外環(huán)以外的地方。任意倉(cāng)庫(kù)都不能滿足所有物品的擺放。那么如何規(guī)劃,使得物品能夠有效的擺放,以滿足更多用戶的一次性采購(gòu)需求,而不要額外增加運(yùn)輸成本。
這不是個(gè)系統(tǒng)可預(yù)先規(guī)劃的問(wèn)題。因?yàn)?#xff0c;結(jié)論和客戶的動(dòng)態(tài)行為有關(guān)聯(lián)。這里將客戶的行為,經(jīng)過(guò)分析,反過(guò)來(lái)影響系統(tǒng)運(yùn)行狀態(tài),就是數(shù)據(jù)分析和數(shù)據(jù)挖掘區(qū)別其他數(shù)據(jù)處理的差異。也是數(shù)據(jù)分析和數(shù)據(jù)挖掘和數(shù)據(jù)庫(kù)化的差異所在。
不妨可以簡(jiǎn)單的說(shuō)一句,任何數(shù)據(jù)庫(kù)只能作為數(shù)據(jù)分析或數(shù)據(jù)挖掘的一個(gè)可選擇工具,而不能作為數(shù)據(jù)分析和數(shù)據(jù)挖掘的必要條件。更別提指定的數(shù)據(jù)庫(kù)。庫(kù)化操作是可預(yù)先規(guī)劃的,而特別是數(shù)據(jù)挖掘是無(wú)法預(yù)先確認(rèn)的。
這里不再討論數(shù)據(jù)分析和數(shù)據(jù)挖掘的區(qū)別,另有水貼已討論。
2、例如假設(shè)一個(gè)客戶周末去百貨,通常會(huì)不只買一個(gè)物品。那么什么樣的物品組合銷售(包括優(yōu)惠)的方式,即能讓客戶感到實(shí)惠,也提高了銷售額和利潤(rùn)率?這是即定向廣告之后,定向營(yíng)銷的新研究?jī)?nèi)容。任何成熟的案例,有價(jià)值的是抽象出來(lái)的理論方法,而不是案例中的數(shù)據(jù)結(jié)論和案例處理中使用的工具。
這個(gè)也不是系統(tǒng)可預(yù)先規(guī)劃的問(wèn)題。而是動(dòng)態(tài)分析的。
不過(guò),以上兩點(diǎn),均存在一個(gè)數(shù)據(jù)來(lái)源問(wèn)題。但是數(shù)據(jù)來(lái)源并不屬于數(shù)據(jù)挖掘,數(shù)據(jù)分析本身。有些數(shù)據(jù)是系統(tǒng)自身產(chǎn)生的,很容易收集,有些數(shù)據(jù)則反之,例如第2個(gè)案例。百貨具備統(tǒng)一收銀系統(tǒng),而商場(chǎng)并不必備,此處對(duì)后者會(huì)引出數(shù)據(jù)從何來(lái)的問(wèn)題。包括數(shù)據(jù)準(zhǔn)確性的問(wèn)題。但這些都不屬于數(shù)據(jù)分析和數(shù)據(jù)挖掘本身所要面對(duì)的問(wèn)題。
數(shù)據(jù)分析,和數(shù)據(jù)挖掘,最有價(jià)值的在于解決方案的有效性。有效性則需要足夠的理論作為支撐,專設(shè)這個(gè)BLOG分類,就是希望從集合論開始梳理,并將集合論補(bǔ)充到現(xiàn)有圖論中人為描述過(guò)多的定義中。由此另更多的方案具備一定的理論基礎(chǔ)。希望要理解,此處的理論,并不是所謂“聚類,分類,關(guān)聯(lián)學(xué)習(xí)”等名詞手段。聚類分類,濾波,神經(jīng)網(wǎng)絡(luò),等等,都是一種手段的名詞,不會(huì)因?yàn)槊Q時(shí)髦而有價(jià)值。有價(jià)值的在于具備良好的理論支撐,哪怕理論解釋復(fù)雜,如下談?wù)摰哪:愋偷睦碚撁枋觥?/p>
特別是數(shù)據(jù)挖掘,和數(shù)據(jù)統(tǒng)計(jì)很像,同樣也存在這一個(gè)悖論。即,我知故我在,我在故我知。簡(jiǎn)單說(shuō),我知道數(shù)據(jù)確實(shí)存在,由此我做了很多方法來(lái)從數(shù)據(jù)中找到我的結(jié)論。數(shù)據(jù)挖掘不是金礦挖掘,必須要在指定坑里挖到金子。數(shù)據(jù)挖掘的價(jià)值在于,不同角度的觀測(cè),是否有具備可價(jià)值化的信息,同時(shí)對(duì)同一個(gè)角度觀測(cè),可以判斷是否存在價(jià)值化的信息。如果形而上學(xué)的為了挖掘而挖掘。努力的構(gòu)造算法,使用工具,是為了證明自身的觀測(cè)角度正確,那么對(duì)最終客戶又有何用。
如下:
1、一個(gè)數(shù)據(jù)統(tǒng)計(jì)表格中有兩個(gè)選項(xiàng)。你對(duì)這款產(chǎn)品的感受是: 1、好,2、還不錯(cuò)。
由這種題目,獲得的數(shù)據(jù),不考慮是否真實(shí)有效。但得出的統(tǒng)計(jì)結(jié)果,始終會(huì)帶有設(shè)計(jì)者的傾向性,至少我的產(chǎn)品不差。如果存在理論基礎(chǔ),例如集合論的分析,命題中并不是在觀測(cè)空間中存在互補(bǔ),這個(gè)命題則需要縮小觀測(cè)空間,同時(shí)增補(bǔ)對(duì)空間的額外約束條件。就是,針對(duì)不排斥此產(chǎn)品的人群,好的百分比,還不錯(cuò)的百分比。而不能簡(jiǎn)單說(shuō),根據(jù)統(tǒng)計(jì),覺得非常滿意(就是好)的人群百分比為多少多少。這對(duì)實(shí)際客戶有價(jià)值嗎?沒(méi)有,甚至?xí)曰蠛蛡Φ娇蛻粑磥?lái)的業(yè)務(wù)開展。
而數(shù)據(jù)挖掘,和數(shù)據(jù)統(tǒng)計(jì)之所以很象,是數(shù)據(jù)挖掘需要帶有主觀偏好性。例如古代人在一個(gè)稀土礦中找金子,金子沒(méi)找到,不妨礙現(xiàn)代人挖稀土。同樣的數(shù)據(jù),有沒(méi)有價(jià)值,在于挖掘者根據(jù)需求來(lái)做不同的篩選判斷。這又需要理論進(jìn)行嚴(yán)格的外部約束,以防止自?shī)首詷?lè)的情況出現(xiàn)。
例如,第一個(gè)例子,京東的例子,數(shù)據(jù)挖掘的對(duì)象是“客戶的大概率采購(gòu)集中度是否存在?從而獲得以通過(guò)調(diào)整倉(cāng)儲(chǔ)的存儲(chǔ)方式以優(yōu)化成本的方法”。
過(guò)小的樣本會(huì)出現(xiàn)的結(jié)論的實(shí)際概率并不大,甚至不如靜態(tài)規(guī)劃更為有效的情況。
過(guò)短的樣本窗口會(huì)導(dǎo)致,倉(cāng)儲(chǔ)方案調(diào)整密集,而額外帶來(lái)不必要的成本。
過(guò)大的樣本會(huì)導(dǎo)致信息均衡化(結(jié)論就是不需要調(diào)整)無(wú)用論的情況。
過(guò)長(zhǎng)的窗口,會(huì)導(dǎo)致調(diào)整過(guò)于緩慢,好時(shí)是好,差時(shí)周期也不短的現(xiàn)象。
如果4個(gè)人,每個(gè)人堅(jiān)持固守上述4個(gè)方法,估計(jì)最終結(jié)果就是不了了之。做等于沒(méi)做,所以不如不做,因?yàn)檎l(shuí)的結(jié)論中都有缺陷。出現(xiàn)這種情況,如果沒(méi)有理論支撐,則沒(méi)有辦法區(qū)分每個(gè)人的不同方法中,好壞的內(nèi)容。不可能某個(gè)人的方法中任何信息都是有價(jià)值的,也不可能所有的信息和手段都沒(méi)有價(jià)值。那么評(píng)價(jià)標(biāo)準(zhǔn)難道是老板的喜好?老板唯一喜好的是省錢,省心,而不是到處當(dāng)裁判,落個(gè)偏袒美女之名。其實(shí)評(píng)價(jià)的標(biāo)準(zhǔn)是在于成本的優(yōu)化。不擇手段的在保證客戶體驗(yàn)度下,最大可能的優(yōu)化成本。而前面的一個(gè)?只是一個(gè)選擇性的條件。后面的陳述才是目標(biāo)。數(shù)據(jù)挖掘沒(méi)有動(dòng)態(tài)修正觀測(cè)期望的動(dòng)作,就不是挖掘了。
我是個(gè)工程師,不是個(gè)理論研究者。但是很多理論雖然抽象,對(duì)實(shí)際工程生產(chǎn)卻具備重要的指導(dǎo)作用。甚至包括那些不可細(xì)分一一對(duì)應(yīng)的模糊理論。這種指導(dǎo)作用更大的來(lái)源于告訴你,什么不可為,而不是什么可為。例如,上面假設(shè)4個(gè)人都沒(méi)有錯(cuò),那么則告訴我們不能通過(guò)采購(gòu)集中度的概率方式來(lái)判斷,因?yàn)榛镜雀怕省R源瞬豢蔀?#xff0c;則可以引出其他再次數(shù)據(jù)挖掘的策略。
說(shuō)到理論對(duì)工程的價(jià)值,在于限制,而非指導(dǎo),例如,我的本行是做算法優(yōu)化。充分利用系統(tǒng)資源,無(wú)論軟件硬件,是我的手段,以在穩(wěn)定性,健壯性的前提下,盡可能的提升系統(tǒng)的速度或規(guī)模。但是系統(tǒng)資源我只使用85%左右。你讓我一一說(shuō)明,為什么86%就不行,我沒(méi)有辦法。但我可以理論并且聯(lián)系具體實(shí)例的告訴你。系統(tǒng)資源是組合資源。組合過(guò)程中存在成本。當(dāng)系統(tǒng)資源占用過(guò)多時(shí),瞬時(shí)負(fù)載過(guò)大,也就是傳說(shuō)中的峰值達(dá)到時(shí),沒(méi)有一定的系統(tǒng)資源余量,保證組合過(guò)程的成本得以消化,會(huì)使得系統(tǒng)負(fù)載能力迅速下降。
哈。你一定會(huì)覺得很抽象。我舉2個(gè)例子,就不說(shuō)我擅長(zhǎng)的C的算法設(shè)計(jì)了。談下抽象理論對(duì)實(shí)際的工作的意義和不可一一對(duì)應(yīng)的現(xiàn)實(shí)。
1、馬路上,車越多,開的越慢。當(dāng)然車越少,開的越快。難道是最快和最慢的車速下,馬路上的流量最大嗎?顯然不是,這個(gè)是常識(shí),而且大家的常識(shí)是對(duì)的。車最少,開的最快的時(shí)候,和車最多,馬路停車場(chǎng)狀態(tài)下,開的最慢的時(shí)候,都不是車網(wǎng)流量最大的時(shí)候。
即便每輛車之間沒(méi)有復(fù)雜的同步關(guān)系,對(duì)資源站用也是分空間,分時(shí)間的,夠簡(jiǎn)單了吧,連死鎖都沒(méi)有,除了十字路口。但車就是車,不是火車的車廂。當(dāng)車與車的距離過(guò)于緊密時(shí),車速會(huì)急速下降。再加點(diǎn)復(fù)雜的,車網(wǎng)流量不同壓力下,紅綠燈的等候時(shí)間的規(guī)劃問(wèn)題。這就是個(gè)模糊理論。
2、企業(yè)支付大量資金做廣告。幾乎很難找到一個(gè)具體自然人,是因?yàn)榭戳诉@個(gè)廣告,決定購(gòu)買產(chǎn)品的,就是有,這個(gè)人群對(duì)產(chǎn)品購(gòu)買的總貢獻(xiàn)度也不大。那么廣告沒(méi)有必要嗎?這么多企業(yè)做廣告,談不上每家的策略都是對(duì)的,至少整體,廣告行為是有存在價(jià)值的。但是如果沒(méi)有理論的支撐,行為學(xué),心理學(xué),社會(huì)學(xué)(當(dāng)然這些不是我的方向),企業(yè)做廣告幾乎和賭博沒(méi)有區(qū)別。
但專業(yè)的廣告公司,和不專業(yè)的廣告公司,不是以所用的流程,工具,手段來(lái)區(qū)分的。而是在于誰(shuí)更多的將理論應(yīng)用,通過(guò)理論,決策什么可為,什么不可為,使得企業(yè)的投入,更大概率的獲取對(duì)應(yīng)的回報(bào)。
數(shù)據(jù)分析和數(shù)據(jù)挖掘同樣需要理論進(jìn)行支撐。重復(fù),別和我提工具,語(yǔ)言和流程。我本身是做系統(tǒng)優(yōu)化的。系統(tǒng)本身是我的優(yōu)化目標(biāo)。而不是針對(duì)一個(gè)具體的系統(tǒng)、具體的工具、具體的流程,來(lái)靜態(tài)的實(shí)現(xiàn)一個(gè)任務(wù)指標(biāo)。殺雞焉牛刀?我只在討論理論,并幫助你選擇殺雞的方式和對(duì)刀的態(tài)度。因?yàn)檫@樣對(duì)實(shí)際客戶更有價(jià)值。
最后,簡(jiǎn)單重復(fù)一句話:理論的力量在于讓你遠(yuǎn)離不合理的危險(xiǎn)區(qū)域,而不是直接幫你達(dá)到目標(biāo),但這并不妨礙理論對(duì)你價(jià)值存在。轉(zhuǎn)載于:https://my.oschina.net/luckystar/blog/56190
創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎(jiǎng)勵(lì)來(lái)咯,堅(jiān)持創(chuàng)作打卡瓜分現(xiàn)金大獎(jiǎng)總結(jié)
以上是生活随笔為你收集整理的数据分析和数据挖掘的理论研究必要性的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 深度学习简明教程系列 —— 基础知识(合
- 下一篇: poj 3125 Printer Que