大数据学习的思维原理和方法?
1、數(shù)據(jù)核心原理
?
從“流程”核心轉(zhuǎn)變?yōu)椤皵?shù)據(jù)”核心
大數(shù)據(jù)時代,計算模式也發(fā)生了轉(zhuǎn)變,從“流程”核心轉(zhuǎn)變?yōu)椤皵?shù)據(jù)”核心。Hadoop體系的分布式計算框架已經(jīng)是“數(shù)據(jù)”為核心的范式。非結(jié)構(gòu)化數(shù)據(jù)及分析需求,將改變IT系統(tǒng)的升級方式:從簡單增量到架構(gòu)變化。大數(shù)據(jù)下的新思維——計算模式的轉(zhuǎn)變。
互聯(lián)網(wǎng)是當(dāng)下流行趨勢,且未來可期。大數(shù)據(jù)的發(fā)展亦是時代發(fā)展的必然,如果大家還想要了解更多大數(shù)據(jù)的相關(guān)問題,歡迎加入qq群:458345782,有大量干貨(零基礎(chǔ)以及進(jìn)階的經(jīng)典實戰(zhàn))分享給大家,并且有清華大學(xué)畢業(yè)的資深大數(shù)據(jù)講師給大家免費(fèi)授課,給大家分享目前國內(nèi)最完整的大數(shù)據(jù)高端實戰(zhàn)實用學(xué)習(xí)流程體系
例如:IBM將使用以數(shù)據(jù)為中心的設(shè)計,目的是降低在超級計算機(jī)之間進(jìn)行大量數(shù)據(jù)交換的必要性。大數(shù)據(jù)下,云計算找到了破繭重生的機(jī)會,在存儲和計算上都體現(xiàn)了數(shù)據(jù)為核心的理念。大數(shù)據(jù)和云計算的關(guān)系:云計算為大數(shù)據(jù)提供了有力的工具和途徑,大數(shù)據(jù)為云計算提供了很有價值的用武之地。而大數(shù)據(jù)比云計算更為落地,可有效利用已大量建設(shè)的云計算資源,最后加以利用。
科學(xué)進(jìn)步越來越多地由數(shù)據(jù)來推動,海量數(shù)據(jù)給數(shù)據(jù)分析既帶來了機(jī)遇,也構(gòu)成了新的挑戰(zhàn)。大數(shù)據(jù)往往是利用眾多技術(shù)和方法,綜合源自多個渠道、不同時間的信息而獲得的。為了應(yīng)對大數(shù)據(jù)帶來的挑戰(zhàn),我們需要新的統(tǒng)計思路和計算方法。
說明:用數(shù)據(jù)核心思維方式思考問題,解決問題。以數(shù)據(jù)為核心,反映了當(dāng)下IT產(chǎn)業(yè)的變革,數(shù)據(jù)成為人工智能的基礎(chǔ),也成為智能化的基礎(chǔ),數(shù)據(jù)比流程更重要,數(shù)據(jù)庫、記錄數(shù)據(jù)庫,都可開發(fā)出深層次信息。云計算機(jī)可以從數(shù)據(jù)庫、記錄數(shù)據(jù)庫中搜索出你是誰,你需要什么,從而推薦給你需要的信息。
2、數(shù)據(jù)價值原理
?
由功能是價值轉(zhuǎn)變?yōu)閿?shù)據(jù)是價值
大數(shù)據(jù)真正有意思的是數(shù)據(jù)變得在線了,這個恰恰是互聯(lián)網(wǎng)的特點。非互聯(lián)網(wǎng)時期的產(chǎn)品,功能一定是它的價值,今天互聯(lián)網(wǎng)的產(chǎn)品,數(shù)據(jù)一定是它的價值。
例如:大數(shù)據(jù)的真正價值在于創(chuàng)造,在于填補(bǔ)無數(shù)個還未實現(xiàn)過的空白。有人把數(shù)據(jù)比喻為蘊(yùn)藏能量的煤礦,煤炭按照性質(zhì)有焦煤、無煙煤、肥煤、貧煤等分類,而露天煤礦、深山煤礦的挖掘成本又不一樣。與此類似,大數(shù)據(jù)并不在“大”,而在于“有用”,價值含量、挖掘成本比數(shù)量更為重要。不管大數(shù)據(jù)的核心價值是不是預(yù)測,但是基于大數(shù)據(jù)形成決策的模式已經(jīng)為不少的企業(yè)帶來了盈利和聲譽(yù)。
數(shù)據(jù)能告訴我們,每一個客戶的消費(fèi)傾向,他們想要什么,喜歡什么,每個人的需求有哪些區(qū)別,哪些又可以被集合到一起來進(jìn)行分類。大數(shù)據(jù)是數(shù)據(jù)數(shù)量上的增加,以至于我們能夠?qū)崿F(xiàn)從量變到質(zhì)變的過程。舉例來說,這里有一張照片,照片里的人在騎馬,這張照片每一分鐘,每一秒都要拍一張,但隨著處理速度越來越快,從1分鐘一張到1秒鐘1張,突然到1秒鐘10張后,就產(chǎn)生了電影。當(dāng)數(shù)量的增長實現(xiàn)質(zhì)變時,就從照片變成了一部電影。
美國有一家創(chuàng)新企業(yè)Decide.com,它可以幫助人們做購買決策,告訴消費(fèi)者什么時候買什么產(chǎn)品,什么時候買最便宜,預(yù)測產(chǎn)品的價格趨勢,這家公司背后的驅(qū)動力就是大數(shù)據(jù)。他們在全球各大網(wǎng)站上搜集數(shù)以十億計的數(shù)據(jù),然后幫助數(shù)以十萬計的用戶省錢,為他們的采購找到最好的時間,降低交易成本,為終端的消費(fèi)者帶去更多價值。
在這類模式下,盡管一些零售商的利潤會進(jìn)一步受擠壓,但從商業(yè)本質(zhì)上來講,可以把錢更多地放回到消費(fèi)者的口袋里,讓購物變得更理性,這是依靠大數(shù)據(jù)催生出的一項全新產(chǎn)業(yè)。這家為數(shù)以十萬計的客戶省錢的公司,在幾個星期前,被eBay以高價收購。
SWIFT是全球最大的支付平臺,在該平臺上的每一筆交易都可以進(jìn)行大數(shù)據(jù)的分析,他們可以預(yù)測一個經(jīng)濟(jì)體的健康性和增長性。比如,該公司現(xiàn)在為全球性客戶提供經(jīng)濟(jì)指數(shù),這又是一個大數(shù)據(jù)服務(wù)。定制化服務(wù)的關(guān)鍵是數(shù)據(jù)。《大數(shù)據(jù)時代》的作者維克托·邁爾·舍恩伯格認(rèn)為,大量的數(shù)據(jù)能夠讓傳統(tǒng)行業(yè)更好地了解客戶需求,提供個性化的服務(wù)。
說明:用數(shù)據(jù)價值思維方式思考問題,解決問題。信息總量的變化導(dǎo)致了信息形態(tài)的變化,量變引發(fā)了質(zhì)變,最先經(jīng)歷信息爆炸的學(xué)科,如天文學(xué)和基因?qū)W,創(chuàng)造出了“大數(shù)據(jù)”這個概念。如今,這個概念幾乎應(yīng)用到了所有人類致力于發(fā)展的領(lǐng)域中。從功能為價值轉(zhuǎn)變?yōu)閿?shù)據(jù)為價值,說明數(shù)據(jù)和大數(shù)據(jù)的價值在擴(kuò)大,數(shù)據(jù)為“王”的時代出現(xiàn)了。數(shù)據(jù)被解釋是信息,信息常識化是知識,所以說數(shù)據(jù)解釋、數(shù)據(jù)分析能產(chǎn)生價值。
3、全樣本原理
?
從抽樣轉(zhuǎn)變?yōu)樾枰繑?shù)據(jù)樣本
需要全部數(shù)據(jù)樣本而不是抽樣,你不知道的事情比你知道的事情更重要,但如果現(xiàn)在數(shù)據(jù)足夠多,它會讓人能夠看得見、摸得著規(guī)律。數(shù)據(jù)這么大、這么多,所以人們覺得有足夠的能力把握未來,對不確定狀態(tài)的一種判斷,從而做出自己的決定。這些東西我們聽起來都是非常原始的,但是實際上背后的思維方式,和我們今天所講的大數(shù)據(jù)是非常像的。
舉例:在大數(shù)據(jù)時代,無論是商家還是信息的搜集者,會比我們自己更知道你可能會想干什么。現(xiàn)在的數(shù)據(jù)還沒有被真正挖掘,如果真正挖掘的話,通過信用卡消費(fèi)的記錄,可以成功預(yù)測未來5年內(nèi)的情況。統(tǒng)計學(xué)里頭最基本的一個概念就是,全部樣本才能找出規(guī)律。為什么能夠找出行為規(guī)律?一個更深層的概念是人和人是一樣的,如果是一個人特例出來,可能很有個性,但當(dāng)人口樣本數(shù)量足夠大時,就會發(fā)現(xiàn)其實每個人都是一模一樣的。
說明:用全數(shù)據(jù)樣本思維方式思考問題,解決問題。從抽樣中得到的結(jié)論總是有水分的,而全部樣本中得到的結(jié)論水分就很少,大數(shù)據(jù)越大,真實性也就越大,因為大數(shù)據(jù)包含了全部的信息。
4、關(guān)注效率原理
由關(guān)注精確度轉(zhuǎn)變?yōu)殛P(guān)注效率
關(guān)注效率而不是精確度,大數(shù)據(jù)標(biāo)志著人類在尋求量化和認(rèn)識世界的道路上前進(jìn)了一大步,過去不可計量、存儲、分析和共享的很多東西都被數(shù)據(jù)化了,擁有大量的數(shù)據(jù)和更多不那么精確的數(shù)據(jù)為我們理解世界打開了一扇新的大門。大數(shù)據(jù)能提高生產(chǎn)效率和銷售效率,原因是大數(shù)據(jù)能夠讓我們知道市場的需要,人的消費(fèi)需要。大數(shù)據(jù)讓企業(yè)的決策更科學(xué),由關(guān)注精確度轉(zhuǎn)變?yōu)殛P(guān)注效率的提高,大數(shù)據(jù)分析能提高企業(yè)的效率。
例如:在互聯(lián)網(wǎng)大數(shù)據(jù)時代,企業(yè)產(chǎn)品迭代的速度在加快。三星、小米手機(jī)制造商半年就推出一代新智能手機(jī)。利用互聯(lián)網(wǎng)、大數(shù)據(jù)提高企業(yè)效率的趨勢下,快速就是效率、預(yù)測就是效率、預(yù)見就是效率、變革就是效率、創(chuàng)新就是效率、應(yīng)用就是效率。
競爭是企業(yè)的動力,而效率是企業(yè)的生命,效率低與效率高是衡量企來成敗的關(guān)鍵。一般來講,投入與產(chǎn)出比是效率,追求高效率也就是追求高價值。手工、機(jī)器、自動機(jī)器、智能機(jī)器之間效率是不同的,智能機(jī)器效率更高,已能代替人的思維勞動。智能機(jī)器核心是大數(shù)據(jù)制動,而大數(shù)據(jù)制動的速度更快。在快速變化的市場,快速預(yù)測、快速決策、快速創(chuàng)新、快速定制、快速生產(chǎn)、快速上市成為企業(yè)行動的準(zhǔn)則,也就是說,速度就是價值,效率就是價值,而這一切離不開大數(shù)據(jù)思維。
說明:用關(guān)注效率思維方式思考問題,解決問題。大數(shù)據(jù)思維有點像混沌思維,確定與不確定交織在一起,過去那種一元思維結(jié)果,已被二元思維結(jié)果取代。過去尋求精確度,現(xiàn)在尋求高效率;過去尋求因果性,現(xiàn)在尋求相關(guān)性;過去尋找確定性,現(xiàn)在尋找概率性,對不精確的數(shù)據(jù)結(jié)果已能容忍。只要大數(shù)據(jù)分析指出可能性,就會有相應(yīng)的結(jié)果,從而為企業(yè)快速決策、快速動作、創(chuàng)占先機(jī)提高了效率。
5、關(guān)注相關(guān)性原理
?
由因果關(guān)系轉(zhuǎn)變?yōu)殛P(guān)注相關(guān)性
關(guān)注相關(guān)性而不是因果關(guān)系,社會需要放棄它對因果關(guān)系的渴求,而僅需關(guān)注相關(guān)關(guān)系,也就是說只需要知道是什么,而不需要知道為什么。這就推翻了自古以來的慣例,而我們做決定和理解現(xiàn)實的最基本方式也將受到挑戰(zhàn)。
大數(shù)據(jù)思維一個最突出的特點,就是從傳統(tǒng)的因果思維轉(zhuǎn)向相關(guān)思維,傳統(tǒng)的因果思維是說我一定要找到一個原因,推出一個結(jié)果來。而大數(shù)據(jù)沒有必要找到原因,不需要科學(xué)的手段來證明這個事件和那個事件之間有一個必然,先后關(guān)聯(lián)發(fā)生的一個因果規(guī)律。它只需要知道,出現(xiàn)這種跡象的時候,我就按照一般的情況,這個數(shù)據(jù)統(tǒng)計的高概率顯示它會有相應(yīng)的結(jié)果,那么我只要發(fā)現(xiàn)這種跡象的時候,我就可以去做一個決策,我該怎么做。這是和以前的思維方式很不一樣,老實說,它是一種有點反科學(xué)的思維,科學(xué)要求實證,要求找到準(zhǔn)確的因果關(guān)系。
在這個不確定的時代里面,等我們?nèi)フ业綔?zhǔn)確的因果關(guān)系,再去辦事的時候,這個事情早已經(jīng)不值得辦了。所以“大數(shù)據(jù)”時代的思維有點像回歸了工業(yè)社會的這種機(jī)械思維——機(jī)械思維就是說我按那個按鈕,一定會出現(xiàn)相應(yīng)的結(jié)果,是這樣狀態(tài)。而農(nóng)業(yè)社會往前推,不需要找到中間非常緊密的、明確的因果關(guān)系,而只需要找到相關(guān)關(guān)系,只需要找到跡象就可以了。社會因此放棄了尋找因果關(guān)系的傳統(tǒng)偏好,開始挖掘相關(guān)關(guān)系的好處。
例如:美國人開發(fā)一款“個性化分析報告自動可視化程序”軟件從網(wǎng)上挖掘數(shù)據(jù)信息,這款數(shù)據(jù)挖掘軟件將自動從各種數(shù)據(jù)中提取重要信息,然后進(jìn)行分析,并把此信息與以前的數(shù)據(jù)關(guān)聯(lián)起來,分析出有用的信息。
非法在屋內(nèi)打隔斷的建筑物著火的可能性比其他建筑物高很多。紐約市每年接到2。5萬宗有關(guān)房屋住得過于擁擠的投訴,但市里只有200名處理投訴的巡視員,市長辦公室一個分析專家小組覺得大數(shù)據(jù)可以幫助解決這一需求與資源的落差。該小組建立了一個市內(nèi)全部90萬座建筑物的數(shù)據(jù)庫,并在其中加入市里19個部門所收集到的數(shù)據(jù):欠稅扣押記錄、水電使用異常、繳費(fèi)拖欠、服務(wù)切斷、救護(hù)車使用、當(dāng)?shù)胤缸锫省⑹蠡纪对V,諸如此類。
接下來,他們將這一數(shù)據(jù)庫與過去5年中按嚴(yán)重程度排列的建筑物著火記錄進(jìn)行比較,希望找出相關(guān)性。果然,建筑物類型和建造年份是與火災(zāi)相關(guān)的因素。不過,一個沒怎么預(yù)料到的結(jié)果是,獲得外磚墻施工許可的建筑物與較低的嚴(yán)重火災(zāi)發(fā)生率之間存在相關(guān)性。利用所有這些數(shù)據(jù),該小組建立了一個可以幫助他們確定哪些住房擁擠投訴需要緊急處理的系統(tǒng)。他們所記錄的建筑物的各種特征數(shù)據(jù)都不是導(dǎo)致火災(zāi)的原因,但這些數(shù)據(jù)與火災(zāi)隱患的增加或降低存在相關(guān)性。這種知識被證明是極具價值的:過去房屋巡視員出現(xiàn)場時簽發(fā)房屋騰空令的比例只有13%,在采用新辦法之后,這個比例上升到了70%——效率大大提高了。
全世界的商界人士都在高呼大數(shù)據(jù)時代來臨的優(yōu)勢:騰訊一項針對社交網(wǎng)絡(luò)的統(tǒng)計顯示,愛看家庭劇的男人是女性的兩倍還多;最關(guān)心金價的是中國大媽,但緊隨其后的卻是90后。而在過去一年,支付寶中無線支付比例排名前十的竟然全部在青海、西藏和內(nèi)蒙古地區(qū)。
說明:用關(guān)注相關(guān)性思維方式來思考問題,解決問題。尋找原因是一種現(xiàn)代社會的一神論,大數(shù)據(jù)推翻了這個論斷。過去尋找原因的信念正在被“更好”的相關(guān)性所取代。當(dāng)世界由探求因果關(guān)系變成挖掘相關(guān)關(guān)系,我們怎樣才能既不損壞建立在因果推理基礎(chǔ)之上的社會繁榮和人類進(jìn)步的基石,又取得實際的進(jìn)步呢?這是值得思考的問題。
轉(zhuǎn)向相關(guān)性,不是不要因果關(guān)系,因果關(guān)系還是基礎(chǔ),科學(xué)的基石還是要的。只是在高速信息化的時代,為了得到即時信息,實時預(yù)測,在快速的大數(shù)據(jù)分析技術(shù)下,尋找到相關(guān)性信息,就可預(yù)測用戶的行為,為企業(yè)快速決策提供提前量。
比如預(yù)警技術(shù),只有提前幾十秒察覺,防御系統(tǒng)才能起作用。雷達(dá)顯示有個提前量,如果沒有這個預(yù)知的提前量,雷達(dá)的作用也就沒有了,相關(guān)性也是這個原理。相對論與量子論的爭論也能說明問題,一個說上帝不擲骰子,一個說上帝擲骰子,爭論幾十年,最后承認(rèn)兩個都存在,而且量子論取得更大的發(fā)展——一個適用于宇宙尺度,一個適用于原子尺度。
6、預(yù)測原理
從不能預(yù)測轉(zhuǎn)變?yōu)榭梢灶A(yù)測
大數(shù)據(jù)的核心就是預(yù)測,大數(shù)據(jù)能夠預(yù)測體現(xiàn)在很多方面。大數(shù)據(jù)不是要教機(jī)器像人一樣思考,相反,它是把數(shù)學(xué)算法運(yùn)用到海量的數(shù)據(jù)上來預(yù)測事情發(fā)生的可能性。正因為在大數(shù)據(jù)規(guī)律面前,每個人的行為都跟別人一樣,沒有本質(zhì)變化,所以商家會比消費(fèi)者更了消費(fèi)者的行為。
例如:大數(shù)據(jù)助微軟準(zhǔn)確預(yù)測世界懷。微軟大數(shù)據(jù)團(tuán)隊在2014年巴西世界足球賽前設(shè)計了世界懷模型,該預(yù)測模型正確預(yù)測了賽事最后幾輪每場比賽的結(jié)果,包括預(yù)測德國隊將最終獲勝。預(yù)測成功歸功于微軟在世界懷進(jìn)行過程中獲取的大量數(shù)據(jù),到淘汰賽階段,數(shù)據(jù)如滾雪球般增多,常握了有關(guān)球員和球隊的足夠信息,以適當(dāng)校準(zhǔn)模型并調(diào)整對接下來比賽的預(yù)測。
世界杯預(yù)測模型的方法與設(shè)計其它事件的模型相同,訣竅就是在預(yù)測中去除主觀性,讓數(shù)據(jù)說話。預(yù)測性數(shù)學(xué)模型幾乎不算新事物,但它們正變得越來越準(zhǔn)確。在這個時代,數(shù)據(jù)分析能力終于開始趕上數(shù)據(jù)收集能力,分析師不僅有比以往更多的信息可用于構(gòu)建模型,也擁有在很短時間內(nèi)通過計算機(jī)將信息轉(zhuǎn)化為相關(guān)數(shù)據(jù)的技術(shù)。
幾年前,得等每場比賽結(jié)束以后才能獲取所有數(shù)據(jù),現(xiàn)在,數(shù)據(jù)是自動實時發(fā)送的,這讓預(yù)測模型能獲得更好的調(diào)整且更準(zhǔn)確。微軟世界懷模型的成績說明了其模型的實力,它的成功為大數(shù)據(jù)的力量提供了強(qiáng)有力的證明,利用同樣的方法還可預(yù)測選舉或關(guān)注股票。類似的大數(shù)據(jù)分析正用于商業(yè)、政府、經(jīng)濟(jì)學(xué)和社會科學(xué),它們都關(guān)于原始數(shù)據(jù)進(jìn)行分析。
我們進(jìn)入了一個用數(shù)據(jù)進(jìn)行預(yù)測的時代,雖然我們可能無法解釋其背后的原因。如果一個醫(yī)生只要求病人遵從醫(yī)囑,卻沒法說明醫(yī)學(xué)干預(yù)的合理性的話,情況會怎么樣呢?實際上,這是依靠大數(shù)據(jù)取得病理分析的醫(yī)生們一定會做的事情。
從一個人亂穿馬路時行進(jìn)的軌跡和速度來看他能及時穿過馬路的可能性,都是大數(shù)據(jù)可以預(yù)測的范圍。當(dāng)然,如果一個人能及時穿過馬路,那么他亂穿馬路時,車子就只需要稍稍減速就好。但是這些預(yù)測系統(tǒng)之所以能夠成功,關(guān)鍵在于它們是建立在海量數(shù)據(jù)的基礎(chǔ)之上的。
此外,隨著系統(tǒng)接收到的數(shù)據(jù)越來越多,通過記錄找到的最好的預(yù)測與模式,可以對系統(tǒng)進(jìn)行改進(jìn)。它通常被視為人工智能的一部分,或者更確切地說,被視為一種機(jī)器學(xué)習(xí)。真正的革命并不在于分析數(shù)據(jù)的機(jī)器,而在于數(shù)據(jù)本身和我們?nèi)绾芜\(yùn)用數(shù)據(jù)。一旦把統(tǒng)計學(xué)和現(xiàn)在大規(guī)模的數(shù)據(jù)融合在一起,將會顛覆很多我們原來的思維。現(xiàn)在能夠變成數(shù)據(jù)的東西越來越多,計算和處理數(shù)據(jù)的能力越來越強(qiáng),大數(shù)據(jù)能干很多很有意思的事情。
預(yù)測當(dāng)年葡萄酒的品質(zhì)
很多品酒師品的不是葡萄酒,那時候葡萄酒還沒有真正的做成,他們品的是發(fā)爛的葡萄。因此在那個時間點就預(yù)測當(dāng)年葡萄酒的品質(zhì)是比較冒險的。而且人的心理的因素是會影響他做的這個預(yù)測,比如說地位越高的品酒師,在做預(yù)測時會越保守,因為他一旦預(yù)測錯了,要損失的名譽(yù)代價是很大的。所以的品酒大師一般都不敢貿(mào)然說今年的酒特別好,或者是特別差;而剛出道的品酒師往往會“語不驚人死不休的”。
普林斯頓大學(xué)有一個英語學(xué)教授,他也很喜歡喝酒,喜歡儲藏葡萄酒,所以他就想是否可以分析到底哪年酒的品質(zhì)好。然后他就找了很多數(shù)據(jù),比如說降雨量、平均氣溫、土壤成分等等,然后他做回歸,最后他說把參數(shù)都找出來,做了個網(wǎng)站,告訴大家今年葡萄酒的品質(zhì)好壞以及秘訣是什么。
當(dāng)他的研究公布的時候,引起了業(yè)界的軒然大波,因為他做預(yù)測做的很提前,因為今年的葡萄收獲后要經(jīng)過一段的時間發(fā)酵,酒的味道才會好,但這個教授突然預(yù)測說今年的酒是世紀(jì)最好的酒。大家說怎么敢這么說,太瘋狂了。更瘋狂的是到了第二年,他預(yù)測今年的酒比去年的酒更好,連續(xù)兩次預(yù)測說是百年最好的酒,但他真的預(yù)測對了。現(xiàn)在品酒師在做評判之前,要先到他的網(wǎng)站上看看他的預(yù)測,然后再做出自己的判斷。有很多的規(guī)律我們不知道,但是它潛伏在這些大數(shù)據(jù)里頭。
大數(shù)據(jù)描繪“傷害圖譜”
廣州市傷害監(jiān)測信息系統(tǒng)通過廣州市紅十字會醫(yī)院、番禺區(qū)中心醫(yī)院、越秀區(qū)兒童醫(yī)院3個傷害監(jiān)測哨點醫(yī)院,持續(xù)收集市內(nèi)發(fā)生的傷害信息,分析傷害發(fā)生的原因及危險因素,系統(tǒng)共收集傷害患者14681例,接近九成半都是意外事故。整體上,傷害多發(fā)生于男性,占61。76%,5歲以下兒童傷害比例高達(dá)14。36%,家長和社會應(yīng)高度重視,45。19%的傷害都是發(fā)生在家中,其次才是公路和街道。
收集到監(jiān)測數(shù)據(jù)后,關(guān)鍵是通過分析處理,把數(shù)據(jù)“深加工”以利用。比如,監(jiān)測數(shù)據(jù)顯示,老人跌倒多數(shù)不是發(fā)生在雨天屋外,而是發(fā)生在家里,尤其是旱上剛起床時和浴室里,這就提示,防控老人跌倒的對策應(yīng)該著重在家居,起床要注意不要動作過猛,浴室要防滑,加扶手等等。
說明:用大數(shù)據(jù)預(yù)測思維方式來思考問題,解決問題。數(shù)據(jù)預(yù)測、數(shù)據(jù)記錄預(yù)測、數(shù)據(jù)統(tǒng)計預(yù)測、數(shù)據(jù)模型預(yù)測,數(shù)據(jù)分析預(yù)測、數(shù)據(jù)模式預(yù)測、數(shù)據(jù)深層次信息預(yù)測等等,已轉(zhuǎn)變?yōu)榇髷?shù)據(jù)預(yù)測、大數(shù)據(jù)記錄預(yù)測、大數(shù)據(jù)統(tǒng)計預(yù)測、大數(shù)據(jù)模型預(yù)測,大數(shù)據(jù)分析預(yù)測、大數(shù)據(jù)模式預(yù)測、大數(shù)據(jù)深層次信息預(yù)測。
互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)和云計算機(jī)保證了大數(shù)據(jù)實時預(yù)測的可能性,也為企業(yè)和用戶提供了實時預(yù)測的信息,相關(guān)性預(yù)測的信息,讓企業(yè)和用戶搶占先機(jī)。由于大數(shù)據(jù)的全樣本性,人和人都是一樣的,所以云計算機(jī)軟件預(yù)測的效率和準(zhǔn)確性大大提高,有這種跡象,就有這種結(jié)果。
7、信息找人原理
從人找信息,轉(zhuǎn)變?yōu)樾畔⒄胰?/p>
互聯(lián)網(wǎng)和大數(shù)據(jù)的發(fā)展,是一個從人找信息,到信息找人的過程。先是人找信息,人找人,信息找信息,現(xiàn)在是信息找人的這樣一個時代。信息找人的時代,就是說一方面我們回到了一種最初的,廣播模式是信息找人,我們聽收音機(jī),我們看電視,它是信息推給我們的,但是有一個缺陷,不知道我們是誰,后來互聯(lián)網(wǎng)反其道而行,提供搜索引擎技術(shù),讓我知道如何找到我所需要的信息,所以搜索引擎是一個很關(guān)鍵的技術(shù)。
例如:從搜索引擎向推薦引擎轉(zhuǎn)變。今天,后搜索引擎時代已經(jīng)正式來到,什么叫做后搜索引擎時代呢?使用搜索引擎的頻率會大大降低,使用的時長也會大大的縮短,為什么使用搜索引擎的頻率在下降?時長在下降?原因是推薦引擎的誕生。就是說從人找信息到信息找人越來越成為了一個趨勢,推薦引擎就是說它很懂我,知道我要知道,所以是最好的技術(shù)。喬布斯說,讓人感受不到技術(shù)的技術(shù)是最好的技術(shù)。
大數(shù)據(jù)還改變了信息優(yōu)勢。按照循證醫(yī)學(xué),現(xiàn)在治病的第一件事情不是去研究病理學(xué),而是拿過去的數(shù)據(jù)去研究,相同情況下是如何治療的。這導(dǎo)致專家和普通人之間的信息優(yōu)勢沒有了。原來我相信醫(yī)生,因為醫(yī)生知道的多,但現(xiàn)在我可以到谷歌上查一下,知道自己得了什么病。
谷歌有一個機(jī)器翻譯的團(tuán)隊,最開始的時候翻譯之后的文字根本看不懂,但是現(xiàn)在60%的內(nèi)容都能讀得懂。谷歌機(jī)器翻譯團(tuán)隊里頭有一個笑話,說從團(tuán)隊每離開一個語言學(xué)家,翻譯質(zhì)量就會提高。越是專家越搞不明白,但打破常規(guī)讓數(shù)據(jù)說話,得到真理的速度反而更快。
說明:用信息找人的思維方式思考問題,解決問題。從人找信息到信息找人,是交互時代一個轉(zhuǎn)變,也是智能時代的要求。智能機(jī)器已不是冷冰冰的機(jī)器,而是具有一定智能的機(jī)器。信息找人這四個字,預(yù)示著大數(shù)據(jù)時代可以讓信息找人,原因是企業(yè)懂用戶,機(jī)器懂用戶,你需要什么信息,企業(yè)和機(jī)器提前知道,而且主動提供你需要的信息。
8、機(jī)器懂人原理
由人懂機(jī)器轉(zhuǎn)變?yōu)闄C(jī)器更懂人
不是讓人更懂機(jī)器,而是讓機(jī)器更懂人,或者說是能夠在使用者很笨的情況下,仍然可以使用機(jī)器。甚至不是讓人懂環(huán)境,而是讓我們的環(huán)境來懂我們,環(huán)境來適應(yīng)人,某種程度上自然環(huán)境不能這樣講,但是在數(shù)字化環(huán)境中已經(jīng)是這樣的一個趨勢,就是我們所在的生活世界,越來越趨向于它更適應(yīng)于我們,更懂我們。哪個企業(yè)能夠真正做到讓機(jī)器更懂人,讓環(huán)境更懂人,讓我們隨身攜帶的整個的生活世界更懂得我們的話,那他一定是具有競爭力的了,而“大數(shù)據(jù)”技術(shù)能夠助我們一臂之力。
例如:亞馬遜網(wǎng)站,只要買書,就會提供一個今天司空見慣的推薦,買了這本書的人還買了什么書,后來發(fā)現(xiàn)相關(guān)推薦的書比我想買的書還要好,時間久之后就會對它產(chǎn)生一種信任。
解題機(jī)器人挑戰(zhàn)大型預(yù)科學(xué)校高考模擬試題的結(jié)果,解題機(jī)器人的學(xué)歷水平應(yīng)該比肩普通高三學(xué)生。計算機(jī)不擅長對語言和知識進(jìn)行綜合解析,但通過借助大規(guī)模數(shù)據(jù)庫對普通文章做出判斷的方法,在對話填空和語句重排等題型上成績有所提高。
讓機(jī)器懂人,是讓機(jī)器具有學(xué)習(xí)的功能。人工智能已轉(zhuǎn)變?yōu)檠芯繖C(jī)器學(xué)習(xí)。大數(shù)據(jù)分析要求機(jī)器更智能,具有分析能力,機(jī)器即時學(xué)習(xí)變得更重要。機(jī)器學(xué)習(xí)是指:計算機(jī)利用經(jīng)驗改善自身性能的行為。機(jī)器學(xué)習(xí)主要研究如何使用計算機(jī)模擬和實現(xiàn)人類獲取知識(學(xué)習(xí))過程、創(chuàng)新、重構(gòu)已有的知識,從而提升自身處理問題的能力,機(jī)器學(xué)習(xí)的最終目的是從數(shù)據(jù)中獲取知識。
大數(shù)據(jù)技術(shù)的其中一個核心目標(biāo)是要從體量巨大、結(jié)構(gòu)繁多的數(shù)據(jù)中挖掘出隱蔽在背后的規(guī)律,從而使數(shù)據(jù)發(fā)揮最大化的價值。由計算機(jī)代替人去挖掘信息,獲取知識。從各種各樣的數(shù)據(jù)(包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù))中快速獲取有價值信息的能力,就是大數(shù)據(jù)技術(shù)。大數(shù)據(jù)機(jī)器分析中,半監(jiān)督學(xué)習(xí)、集成學(xué)習(xí)、概率模型等技術(shù)尤為重要。
說明:用機(jī)器更懂人的思維方式思考問題,解決問題。機(jī)器從沒有常識到逐步有點常識,這是很大的變化。去年,美國人把一臺云計算機(jī)送到大學(xué)里去進(jìn)修,增加知識和常識。最近俄羅斯人開發(fā)一臺計算機(jī)軟件通過圖林測試,表明計算機(jī)已初步具有智能。
讓機(jī)器懂人,這是人工智能的成功,同時,也是人的大數(shù)據(jù)思維轉(zhuǎn)變。你的機(jī)器、你的軟件、你的服務(wù)是否更懂人?將是衡量一個機(jī)器、一件軟件、一項服務(wù)好壞的標(biāo)準(zhǔn)。人機(jī)關(guān)系已發(fā)生很大變化,由人機(jī)分離,轉(zhuǎn)化為人機(jī)溝通,人機(jī)互補(bǔ),機(jī)器懂人,現(xiàn)在年青人已離不開智能手機(jī)是一個很好的例證。在互聯(lián)網(wǎng)大數(shù)據(jù)時代,有問題—問機(jī)器—問百度,成為生活的一部分。機(jī)器什么都知道,原因是有大數(shù)據(jù)庫,機(jī)器可搜索到相關(guān)數(shù)據(jù),從而使機(jī)器懂人。是人讓機(jī)器更懂人,如果機(jī)器更懂人,那么機(jī)器的價值更高。
9、電子商務(wù)智能原理
大數(shù)據(jù)改變了電子商務(wù)模式,讓電子商務(wù)更智能
商務(wù)智能,大數(shù)據(jù)時代重新獲得定義。
例如:傳統(tǒng)企業(yè)進(jìn)入互聯(lián)網(wǎng),在掌握了“大數(shù)據(jù)”技術(shù)應(yīng)用途徑之后,會發(fā)現(xiàn)有一種豁然開朗的感覺,我整天就像在黑屋子里面找東西,找不著,突然碰到了一個開關(guān),發(fā)現(xiàn)那么費(fèi)力的找東西,原來很容易找得到。大數(shù)據(jù)思維,事實上它不是一個全稱的判斷,只是對我們所處的時代某一個緯度的描述。
大數(shù)據(jù)時代不是說我們這個時代除了大數(shù)據(jù)什么都沒有,哪怕是在互聯(lián)網(wǎng)和IT領(lǐng)域,它也不是一切,只是說在我們的時代特征里面加上這么一道很明顯的光,從而導(dǎo)致我們對以前的生存狀態(tài),以及我們個人的生活狀態(tài)的一個差異化的一種表達(dá)。
大數(shù)據(jù)讓軟件更智能。盡管我們?nèi)蕴幱诖髷?shù)據(jù)時代來臨的前夕,但我們的日常生活已經(jīng)離不開它了。交友網(wǎng)站根據(jù)個人的性格與之前成功配對的情侶之間的關(guān)聯(lián)來進(jìn)行新的配對。例如,具有“自動改正”功能的智能手機(jī)通過分析我們以前的輸入,將個性化的新單詞添加到手機(jī)詞典里。在不久的將來,世界許多現(xiàn)在單純依靠人類判斷力的領(lǐng)域都會被計算機(jī)系統(tǒng)所改變甚至取代。計算機(jī)系統(tǒng)可以發(fā)揮作用的領(lǐng)域遠(yuǎn)遠(yuǎn)不止駕駛和交友,還有更多更復(fù)雜的任務(wù)。別忘了,亞馬遜可以幫我們推薦想要的書,谷歌可以為關(guān)聯(lián)網(wǎng)站排序,Facebook知道我們的喜好,而linkedIn可以猜出我們認(rèn)識誰。
當(dāng)然,同樣的技術(shù)也可以運(yùn)用到疾病診斷、推薦治療措施,甚至是識別潛在犯罪分子上。或者說,在你還不知道的情況下,體檢公司、醫(yī)院提醒你趕緊去做檢查,可能會得某些病,商家比你更了解你自己,以及你這樣的人在某種情況下會出現(xiàn)的可能變化。就像互聯(lián)網(wǎng)通過給計算機(jī)添加通信功能而改變了世界,大數(shù)據(jù)也將改變我們生活中最重要的方面,因為它為我們的生活創(chuàng)造了前所未有的可量化的維度。
說明:用電子商務(wù)更智能的思維方式思考問題,解決問題。人腦思維與機(jī)器思維有很大差別,但機(jī)器思維在速度上是取勝的,而且智能軟件在很多領(lǐng)域已能代替人腦思維的操作工作。例如美國一家媒體公司已用電腦智能軟件寫稿,可用率已達(dá)70%。云計算機(jī)已能處理超字節(jié)的大數(shù)據(jù)量,人們需要的所有信息都可得到顯現(xiàn),而且每個人互聯(lián)網(wǎng)行為都可記錄,這些記錄的大數(shù)據(jù)經(jīng)過云計算處理能產(chǎn)生深層次信息,經(jīng)過大數(shù)據(jù)軟件挖掘,企業(yè)需要的商務(wù)信息都能實時提供,為企業(yè)決策和營銷、定制產(chǎn)品等提供了大數(shù)據(jù)支持。
10、定制產(chǎn)品原理
?
由企業(yè)生產(chǎn)產(chǎn)品轉(zhuǎn)變?yōu)橛煽蛻舳ㄖ飘a(chǎn)品
下一波的改革是大規(guī)模定制,為大量客戶定制產(chǎn)品和服務(wù),成本低、又兼具個性化。比如消費(fèi)者希望他買的車有紅色、綠色,廠商有能力滿足要求,但價格又不至于像手工制作那般讓人無法承擔(dān)。因此,在廠家可以負(fù)擔(dān)得起大規(guī)模定制帶去的高成本的前提下,要真正做到個性化產(chǎn)品和服務(wù),就必須對客戶需求有很好的了解,這背后就需要依靠大數(shù)據(jù)技術(shù)。
例如:大數(shù)據(jù)改變了企業(yè)的競爭力。定制產(chǎn)品這是一個很好的技術(shù),但是能不能夠形成企業(yè)的競爭力呢?在產(chǎn)業(yè)經(jīng)濟(jì)學(xué)里面有一個很重要的區(qū)別,就是生產(chǎn)力和競爭力的區(qū)別,就是說一個東西是具有生產(chǎn)力的,那這種生產(chǎn)力變成一種通用生產(chǎn)力的時候,就不能形成競爭力,因為每一個人,每一個企業(yè)都有這個生產(chǎn)力的時候,只能提高自己的生產(chǎn)力,過去沒有車的時候和有車的時候,你的活動半徑、運(yùn)行速度大大提高了,但是當(dāng)每一個人都沒有車的時候,你有車,就會形成競爭力。大數(shù)據(jù)也一樣,你有大數(shù)據(jù)定制產(chǎn)品,別人沒有,就會形成競爭力。
在互聯(lián)網(wǎng)大數(shù)據(jù)的時代,商家最后很可能可以針對每一個顧客進(jìn)行精準(zhǔn)的價格歧視。我們現(xiàn)在很多的行為都是比較粗放的,航空公司會給我們里程卡,根據(jù)飛行公里數(shù)來累計里程,但其實不同顧客所飛行的不同里程對航空公司的利潤貢獻(xiàn)是不一樣的。所以有一天某位顧客可能會收到一封信,“恭喜先生,您已經(jīng)被我們選為幸運(yùn)顧客,我們提前把您升級到白金卡。”這說明這個顧客對航空公司的貢獻(xiàn)已經(jīng)夠多了。有一天銀行說“恭喜您,您的額度又被提高了,”就說明錢花得已經(jīng)太多了。
正因為在大數(shù)據(jù)規(guī)律面前,每個人的行為都跟別人一樣,沒有本質(zhì)變化。所以商家會比消費(fèi)者更了消費(fèi)者的行為。也許你正在想,工作了一年很辛苦,要不要去哪里度假?打開e-Mail,就有航空公司、旅行社的郵件。
說明:用定制產(chǎn)品思維方式思考問題,解決問題。大數(shù)據(jù)時代讓企業(yè)找到了定制產(chǎn)品、訂單生產(chǎn)、用戶銷售的新路子。用戶在家購買商品已成為趨勢,快遞的快速,讓用戶體驗到實時購物的快感,進(jìn)而成為網(wǎng)購迷,個人消費(fèi)不是減少了,反而是增加了。為什么企業(yè)要互聯(lián)網(wǎng)化大數(shù)據(jù)化,也許有這個原因。2000萬家互聯(lián)網(wǎng)網(wǎng)店的出現(xiàn),說明數(shù)據(jù)廣告、數(shù)據(jù)傳媒的重要性。
企業(yè)產(chǎn)品直接銷售給用戶,省去了中間商流通環(huán)節(jié),使產(chǎn)品的價格可以以出廠價銷售,讓銷費(fèi)者獲得了好處,網(wǎng)上產(chǎn)品便宜成為用戶的信念,網(wǎng)購市場形成了。要讓用戶成為你的產(chǎn)品粉絲,就必須了解用戶需要,定制產(chǎn)品成為用戶的心愿,也就成為企業(yè)發(fā)展的新方向。
大數(shù)據(jù)思維是客觀存在,大數(shù)據(jù)思維是新的思維觀。用大數(shù)據(jù)思維方式思考問題,解決問題是當(dāng)下企業(yè)潮流。大數(shù)據(jù)思維開啟了一次重大的時代轉(zhuǎn)型。
于國內(nèi)的大數(shù)據(jù)工作還處在一個有待開發(fā)的階段,因此能從其中挖掘出多少價值完全取決于工程師的個人能力。已經(jīng)身處這個行業(yè)的專家給出了一些人才需求的大體框架,包括要有計算機(jī)編碼能力、數(shù)學(xué)及統(tǒng)計學(xué)相關(guān)背景,當(dāng)然如果能對一些特定領(lǐng)域或行業(yè)有比較深入的了解,對于其快速判斷并抓準(zhǔn)關(guān)鍵因素則更有幫助。
雖然對于一些大公司來說,擁有碩博學(xué)歷的公司人是比較好的選擇,不過阿里巴巴集團(tuán)研究員薛貴榮強(qiáng)調(diào),學(xué)歷并不是最主要的因素,能有大規(guī)模處理數(shù)據(jù)的經(jīng)驗并且有喜歡在數(shù)據(jù)海洋中尋寶的好奇心會更適合這個工作。
除此之外,一個優(yōu)秀的大數(shù)據(jù)工程師要具備一定的邏輯分析能力,并能迅速定位某個商業(yè)問題的關(guān)鍵屬性和決定因素。“他得知道什么是相關(guān)的,哪個是重要的,使用什么樣的數(shù)據(jù)是最有價值的,如何快速找到每個業(yè)務(wù)最核心的需求。”聯(lián)合國百度大數(shù)據(jù)聯(lián)合實驗室數(shù)據(jù)科學(xué)家沈志勇說。學(xué)習(xí)能力能幫助大數(shù)據(jù)工程師快速適應(yīng)不同的項目,并在短時間內(nèi)成為這個領(lǐng)域的數(shù)據(jù)專家;溝通能力則能讓他們的工作開展地更順利,因為大數(shù)據(jù)工程師的工作主要分為兩種方式:由市場部驅(qū)動和由數(shù)據(jù)分析部門驅(qū)動,前者需要常常向產(chǎn)品經(jīng)理了解開發(fā)需求,后者則需要找運(yùn)營部了解數(shù)據(jù)模型實際轉(zhuǎn)化的情況。
你可以將以上這些要求看做是成為大數(shù)據(jù)工程師的努力方向,因為根據(jù)萬寶瑞華管理合伙人顏莉萍的觀察,這是一個很大的人才缺口。目前國內(nèi)的大數(shù)據(jù)應(yīng)用多集中在互聯(lián)網(wǎng)領(lǐng)域,有超過56%的企業(yè)在籌備發(fā)展大數(shù)據(jù)研究,“未來5年,94%的公司都會需要數(shù)據(jù)科學(xué)家。”顏莉萍說。因此她也建議一些原本從事與數(shù)據(jù)工作相關(guān)的公司人可以考慮轉(zhuǎn)型。
大數(shù)據(jù)工程師做什么?
用阿里巴巴集團(tuán)研究員薛貴榮的話來說,大數(shù)據(jù)工程師就是一群“玩數(shù)據(jù)”的人,玩出數(shù)據(jù)的商業(yè)價值,讓數(shù)據(jù)變成生產(chǎn)力。大數(shù)據(jù)和傳統(tǒng)數(shù)據(jù)的最大區(qū)別在于,它是在線的、實時的,規(guī)模海量且形式不規(guī)整,無章法可循,因此“會玩”這些數(shù)據(jù)的人就很重要。
沈志勇認(rèn)為如果把大數(shù)據(jù)想象成一座不停累積的礦山,那么大數(shù)據(jù)工程師的工作就是,“第一步,定位并抽取信息所在的數(shù)據(jù)集,相當(dāng)于探礦和采礦。第二步,把它變成直接可以做判斷的信息,相當(dāng)于冶煉。最后是應(yīng)用,把數(shù)據(jù)可視化等。”
因此分析歷史、預(yù)測未來、優(yōu)化選擇,這是大數(shù)據(jù)工程師在“玩數(shù)據(jù)”時最重要的三大任務(wù)。通過這三個工作方向,他們幫助企業(yè)做出更好的商業(yè)決策。
找出過去事件的特征
大數(shù)據(jù)工程師一個很重要的工作,就是通過分析數(shù)據(jù)來找出過去事件的特征。比如,騰訊的數(shù)據(jù)團(tuán)隊正在搭建一個數(shù)據(jù)倉庫,把公司所有網(wǎng)絡(luò)平臺上數(shù)量龐大、不規(guī)整的數(shù)據(jù)信息進(jìn)行梳理,總結(jié)出可供查詢的特征,來支持公司各類業(yè)務(wù)對數(shù)據(jù)的需求,包括廣告投放、游戲開發(fā)、社交網(wǎng)絡(luò)等。
找出過去事件的特征,最大的作用是可以幫助企業(yè)更好地認(rèn)識消費(fèi)者。通過分析用戶以往的行為軌跡,就能夠了解這個人,并預(yù)測他的行為。“你可以知道他是什么樣的人、他的年紀(jì)、興趣愛好,是不是互聯(lián)網(wǎng)付費(fèi)用戶、喜歡玩什么類型的游戲,平常喜歡在網(wǎng)上做什么事情。”騰訊云計算有限公司北京研發(fā)中心總經(jīng)理鄭立峰對《第一財經(jīng)周刊》說。下一步到了業(yè)務(wù)層面,就可以針對各類人群推薦相關(guān)服務(wù),比如手游,或是基于不同特征和需求衍生出新的業(yè)務(wù)模式,比如微信的電影票業(yè)務(wù)。
預(yù)測未來可能發(fā)生的事情
通過引入關(guān)鍵因素,大數(shù)據(jù)工程師可以預(yù)測未來的消費(fèi)趨勢。在阿里媽媽的營銷平臺上,工程師正試圖通過引入氣象數(shù)據(jù)來幫助淘寶賣家做生意。“比如今年夏天不熱,很可能某些產(chǎn)品就沒有去年暢銷,除了空調(diào)、電扇,背心、游泳衣等都可能會受其影響。那么我們就會建立氣象數(shù)據(jù)和銷售數(shù)據(jù)之間的關(guān)系,找到與之相關(guān)的品類,提前警示賣家周轉(zhuǎn)庫存。”薛貴榮說。
在百度,沈志勇支持“百度預(yù)測”部分產(chǎn)品的模型研發(fā),試圖用大數(shù)據(jù)為更廣泛的人群服務(wù)。已經(jīng)上線的包括世界杯預(yù)測、高考預(yù)測、景點預(yù)測等。以百度景點預(yù)測為例,大數(shù)據(jù)工程師需要收集所有可能影響一段時間內(nèi)景點人流量的關(guān)鍵因素進(jìn)行預(yù)測,并為全國各個景點未來的擁擠度分級—在接下來的若干天時間里,它究竟是暢通、擁擠,還是一般擁擠?
找出最優(yōu)化的結(jié)果
根據(jù)不同企業(yè)的業(yè)務(wù)性質(zhì),大數(shù)據(jù)工程師可以通過數(shù)據(jù)分析來達(dá)到不同的目的。
以騰訊來說,鄭立峰認(rèn)為能反映大數(shù)據(jù)工程師工作的最簡單直接的例子就是選項測試(AB Test),即幫助產(chǎn)品經(jīng)理在A、B兩個備選方案中做出選擇。在過去,決策者只能依據(jù)經(jīng)驗進(jìn)行判斷,但如今大數(shù)據(jù)工程師可以通過大范圍地實時測試—比如,在社交網(wǎng)絡(luò)產(chǎn)品的例子中,讓一半用戶看到A界面,另一半使用B界面,觀察統(tǒng)計一段時間內(nèi)的點擊率和轉(zhuǎn)化率,以此幫助市場部做出最終選擇。
作為電商的阿里巴巴,則希望通過大數(shù)據(jù)鎖定精準(zhǔn)的人群,幫助賣家做更好的營銷。“我們更期待的是你能找到這樣一批人,比起現(xiàn)有的用戶,這些人對產(chǎn)品更感興趣。”薛貴榮說。一個淘寶的實例是,某人參賣家原來推廣的目標(biāo)人群是產(chǎn)婦,但工程師通過挖掘數(shù)據(jù)之間的關(guān)聯(lián)性后發(fā)現(xiàn),針對孕婦群體投放的營銷轉(zhuǎn)化率更高。
B 需要具備的能力
數(shù)學(xué)及統(tǒng)計學(xué)相關(guān)的背景
就我們采訪過的BAT三家互聯(lián)網(wǎng)大公司來說,對于大數(shù)據(jù)工程師的要求都是希望是統(tǒng)計學(xué)和數(shù)學(xué)背景的碩士或博士學(xué)歷。沈志勇認(rèn)為,缺乏理論背景的數(shù)據(jù)工作者,更容易進(jìn)入一個技能上的危險區(qū)域(Danger Zone)—一堆數(shù)字,按照不同的數(shù)據(jù)模型和算法總能捯飭出一些結(jié)果來,但如果你不知道那代表什么,就并不是真正有意義的結(jié)果,并且那樣的結(jié)果還容易誤導(dǎo)你。“只有具備一定的理論知識,才能理解模型、復(fù)用模型甚至創(chuàng)新模型,來解決實際問題。”沈志勇說。
計算機(jī)編碼能力
實際開發(fā)能力和大規(guī)模的數(shù)據(jù)處理能力是作為大數(shù)據(jù)工程師的一些必備要素。“因為許多數(shù)據(jù)的價值來自于挖掘的過程,你必須親自動手才能發(fā)現(xiàn)金子的價值。”鄭立峰說。
舉例來說,現(xiàn)在人們在社交網(wǎng)絡(luò)上所產(chǎn)生的許多記錄都是非結(jié)構(gòu)化的數(shù)據(jù),如何從這些毫無頭緒的文字、語音、圖像甚至視頻中攫取有意義的信息就需要大數(shù)據(jù)工程師親自挖掘。即使在某些團(tuán)隊中,大數(shù)據(jù)工程師的職責(zé)以商業(yè)分析為主,但也要熟悉計算機(jī)處理大數(shù)據(jù)的方式。
對特定應(yīng)用領(lǐng)域或行業(yè)的知識
在顏莉萍看來,大數(shù)據(jù)工程師這個角色很重要的一點是,不能脫離市場,因為大數(shù)據(jù)只有和特定領(lǐng)域的應(yīng)用結(jié)合起來才能產(chǎn)生價值。所以,在某個或多個垂直行業(yè)的經(jīng)歷能為應(yīng)聘者積累對行業(yè)的認(rèn)知,對于之后成為大數(shù)據(jù)工程師有很大幫助,因此這也是應(yīng)聘這個崗位時較有說服力的加分項。
“他不能只是懂得數(shù)據(jù),還要有商業(yè)頭腦,不論對零售、醫(yī)藥、游戲還是旅游等行業(yè),能就其中某些領(lǐng)域有一定的理解,最好還是與公司的業(yè)務(wù)方向一致的,”就此薛貴榮還打了個比方,“過去我們說一些奢侈品店員勢利,看人一眼就知道買得起買不起,但這群人恰恰是有敏銳度的,我們認(rèn)為他們是這個行業(yè)的專家。又比如對醫(yī)療行業(yè)了解的人,他在考慮醫(yī)療保險業(yè)務(wù)時,不僅會和人們醫(yī)院看病的記錄相關(guān),也會考慮飲食數(shù)據(jù),這些都是基于對該領(lǐng)域的了解。”
C 大數(shù)據(jù)工程師的職業(yè)發(fā)展
如何成為大數(shù)據(jù)工程師
由于目前大數(shù)據(jù)人才匱乏,對于公司來說,很難招聘到合適的人才—既要有高學(xué)歷,同時最好還有大規(guī)模數(shù)據(jù)處理經(jīng)驗。因此很多企業(yè)會通過內(nèi)部挖掘。
今年8月,阿里巴巴舉辦了一個大數(shù)據(jù)競賽,把天貓平臺上的數(shù)據(jù)拿出來,去除敏感問題后,放到云計算平臺上交予7000多支隊伍進(jìn)行比賽,比賽分為內(nèi)部賽和外部賽。“通過這個方式來激勵內(nèi)部員工,同時也發(fā)現(xiàn)外部人才,讓各行業(yè)的大數(shù)據(jù)工程師涌現(xiàn)出來。”
顏莉萍建議,目前長期從事數(shù)據(jù)庫管理、挖掘、編程工作的人,包括傳統(tǒng)的量化分析師、Hadoop方面的工程師,以及任何在工作中需要通過數(shù)據(jù)來進(jìn)行判斷決策的管理者,比如某些領(lǐng)域的運(yùn)營經(jīng)理等,都可以嘗試該職位,而各個領(lǐng)域的達(dá)人只要學(xué)會運(yùn)用數(shù)據(jù),也可以成為大數(shù)據(jù)工程師。
薪酬待遇
作為IT類職業(yè)中的“大熊貓”,大數(shù)據(jù)工程師的收入待遇可以說達(dá)到了同類的頂級。根據(jù)顏莉萍的觀察,國內(nèi)IT、通訊、行業(yè)招聘中,有10%都是和大數(shù)據(jù)相關(guān)的,且比例還在上升。顏莉萍表示,“大數(shù)據(jù)時代的到來很突然,在國內(nèi)發(fā)展勢頭激進(jìn),而人才卻非常有限,現(xiàn)在完全是供不應(yīng)求的狀況。”在美國,大數(shù)據(jù)工程師平均每年薪酬高達(dá)17.5萬美元,而據(jù)了解,在國內(nèi)頂尖互聯(lián)網(wǎng)類公司,同一個級別大數(shù)據(jù)工程師的薪酬可能要比其他職位高20%至30%,且頗受企業(yè)重視。
職業(yè)發(fā)展路徑
由于大數(shù)據(jù)人才數(shù)量較少,因此大多數(shù)公司的數(shù)據(jù)部門一般都是扁平化的層級模式,大致分為數(shù)據(jù)分析師、資深研究員、部門總監(jiān)3個級別。大公司可能按照應(yīng)用領(lǐng)域的維度來劃分不同團(tuán)隊,而在小公司則需要身兼數(shù)職。有些特別強(qiáng)調(diào)大數(shù)據(jù)戰(zhàn)略的互聯(lián)網(wǎng)公司則會另設(shè)最高職位—如阿里巴巴的首席數(shù)據(jù)官。“這個職位的大部分人會往研究方向發(fā)展,成為重要數(shù)據(jù)戰(zhàn)略人才。”顏莉萍說。另一方面,大數(shù)據(jù)工程師對商業(yè)和產(chǎn)品的理解,并不亞于業(yè)務(wù)部門員工,因此也可轉(zhuǎn)向產(chǎn)品部或市場部,乃至上升為公司的高級管理層。
?
總結(jié)
以上是生活随笔為你收集整理的大数据学习的思维原理和方法?的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: flash跨域访问解决办法
- 下一篇: 11-11 又是一年光棍节!