“多变量分析”——数据挖掘、数据分析
對(duì)應(yīng)分析對(duì)數(shù)據(jù)的格式要求:
- 對(duì)應(yīng)分析數(shù)據(jù)的典型格式是列聯(lián)表或交叉頻數(shù)表。
- 常表示不同背景的消費(fèi)者對(duì)若干產(chǎn)品或產(chǎn)品的屬性的選擇頻率。
- 背景變量或?qū)傩宰兞靠梢圆⒘惺褂没騿为?dú)使用。
- 兩個(gè)變量間——簡單對(duì)應(yīng)分析。
- 多個(gè)變量間——多元對(duì)應(yīng)分析。
現(xiàn)在,我們還是來看看如何操作多重對(duì)應(yīng)分析并如何解讀對(duì)應(yīng)圖;
我們假定有個(gè)汽車數(shù)據(jù)集,包括:來源國(1-美國、2-歐洲、3-日本),尺寸(1-大型、2-中型、3-小型),類型 (1-家庭、2-運(yùn)動(dòng)、3-工作),擁有(1-自有、2-租賃)性別(1-男、2-女),收入來源(1-1份工資來源、2-2份工資來源),婚姻狀況(1-已婚、2-已婚有孩子、3-單身、4-單身有孩子);
從數(shù)據(jù)集看,我們有7個(gè)定類變量,如果組合成簡單的交叉表是困難的事情,此時(shí)采用多重對(duì)應(yīng)分析是恰當(dāng)?shù)姆治龇椒ā?/p>
下面我還是采用SPSS18.0,現(xiàn)在叫PASW Statistics 18.0來操作!注意:不同版本在多重對(duì)應(yīng)分析方法有一些不同,但大家基本上可以看出了,高版本只能是更好,但選擇會(huì)復(fù)雜和不同!
在進(jìn)行多重對(duì)應(yīng)分析之前,研究者應(yīng)該能夠記住各個(gè)變量大致有多少類別,個(gè)別變量如果變量取值太偏或異常值出現(xiàn),都會(huì)影響對(duì)應(yīng)分析的結(jié)果和對(duì)應(yīng)圖分析!
在SPSS分析菜單下選擇降維(Data Redaction-數(shù)據(jù)消減)后選擇最優(yōu)尺度算法,該選項(xiàng)下,根據(jù)數(shù)據(jù)集和數(shù)據(jù)測量尺度不同有三種不同的高級(jí)定類分析算法,主要包括:多重對(duì)應(yīng)分析、分類(非線性)主成分分析、非線性典型相關(guān)分析;
注意:隨著版本的增高,研究人員在統(tǒng)計(jì)分析時(shí)就要各位主要變量的測量尺度,并且最好在進(jìn)行數(shù)據(jù)清理和分析前,明確定義好測量尺度;當(dāng)然也要做好Lable工作!
接下來,我們就可以選擇變量和條件了!
大家可以把要分析的變量都放到分析變量內(nèi),補(bǔ)充變量的含義是如果有哪個(gè)變量你并不想作為對(duì)應(yīng)分析的變量,而只是作為附屬變量表現(xiàn)在對(duì)應(yīng)圖上可以加入!這一點(diǎn)其實(shí)在簡單對(duì)應(yīng)分析也有這種定義。(我們將在專門的簡單對(duì)應(yīng)分析方法中再講!)
然后我們要選擇“變量”選項(xiàng),大家可以選擇類別圖:每一個(gè)變量的分類圖,重點(diǎn)是選擇聯(lián)合類別圖,我們把7個(gè)變量全部放入,執(zhí)行!(其它選項(xiàng)大家可以測試,我還有一些沒有搞清楚)
下面我們看結(jié)果:
從圖中我們可以看出:美國車都比較大,家庭型,主要購買者是已婚帶孩子的;日本和歐洲車主要是小型、運(yùn)動(dòng)的和已婚沒有孩子的人購買;特別注意:單身和單身帶孩子的往往是租賃汽車,收入單一來源,但這個(gè)地區(qū)沒有車滿足這個(gè)市場,或許是市場空白;
具體的解讀大家可以根據(jù)自己的研究設(shè)計(jì)和假設(shè)去尋找答案!
主要統(tǒng)計(jì)指標(biāo)可以看:
上圖主要給我們了對(duì)應(yīng)圖維度的解釋比率,最下面的圖大家會(huì)看嗎?
提示:夾角是銳角意味著相關(guān),所以:定類變量的相關(guān)性是不是可以解釋啦!
總結(jié):(同樣適合簡單對(duì)應(yīng)分析)
對(duì)應(yīng)分析的優(yōu)點(diǎn):
- 定性變量劃分的類別越多,這種方法的優(yōu)勢越明顯。
- 揭示行變量類別間與列變量類別間的聯(lián)系。
- 將類別聯(lián)系直觀地表現(xiàn)在二維圖形中(對(duì)應(yīng)圖)。
- 可以將名義變量或次序變量轉(zhuǎn)變?yōu)殚g距變量。
對(duì)應(yīng)分析的缺點(diǎn):
- 不能用于相關(guān)關(guān)系的假設(shè)檢驗(yàn)。
- 維度要由研究者決定。
- 有時(shí)候?qū)?yīng)圖解釋比較困難。
- 對(duì)極端值比較敏感。
????這里主要介紹大家了解對(duì)應(yīng)分析的基本方法,如何幫助探索數(shù)據(jù),分析列聯(lián)表和卡方的獨(dú)立性檢驗(yàn),如何解釋對(duì)應(yīng)圖,當(dāng)然大家也可以看到如何用SPSS操作對(duì)應(yīng)分析和對(duì)數(shù)據(jù)格式的要求!
????對(duì)應(yīng)分析是一種數(shù)據(jù)分析技術(shù),它能夠幫助我們研究由定性變量構(gòu)成的交互匯總表來揭示變量間的聯(lián)系。交互表的信息以圖形的方式展示。主要適用于有多個(gè)類別的定類變量,可以揭示同一個(gè)變量的各個(gè)類別之間的差異,以及不同變量各個(gè)類別之間的對(duì)應(yīng)關(guān)系。適用于兩個(gè)或多個(gè)定類變量。
主要應(yīng)用領(lǐng)域:
- 概念發(fā)展 ??(Concept Development)
- 新產(chǎn)品開發(fā)??(New Product Development)
- 市場細(xì)分?????(Market Segmentation)
- 競爭分析?????(Competitive Analysis)
- 廣告研究?????(Advertisement Research)
主要回答以下問題:
- 誰是我的用戶?
- 還有誰是我的用戶?
- 誰是我競爭對(duì)手的用戶?
- 相對(duì)于我的競爭對(duì)手的產(chǎn)品,我的產(chǎn)品的定位如何?
- 與競爭對(duì)手有何差異?
- 我還應(yīng)該開發(fā)哪些新產(chǎn)品?
- 對(duì)于我的新產(chǎn)品,我應(yīng)該將目標(biāo)指向哪些消費(fèi)者?
- ?對(duì)應(yīng)分析數(shù)據(jù)的典型格式是列聯(lián)表或交叉頻數(shù)表。 常表示不同背景的消費(fèi)者對(duì)若干產(chǎn)品或產(chǎn)品的屬性的選擇頻率。背景變量或?qū)傩宰兞靠梢圆⒘惺褂没騿为?dú)使用。
?????????兩個(gè)變量間——簡單對(duì)應(yīng)分析。
?????????多個(gè)變量間——多元對(duì)應(yīng)分析。
上面的交互分析表,主要收集了48961人的自殺方式以及自殺者的性別和年齡數(shù)據(jù)!POISON(毒藥)GAS(煤氣)HANG(上吊)DROWN(溺水)GUN(開槍)JUMP(跳樓)(我們就不翻譯成中文了,讀者可以把六個(gè)方式想象成品牌或別的什么)
當(dāng)然,我們拿到的最初原始數(shù)據(jù)可能是SPSS數(shù)據(jù)格式記錄表,
其中,性別取值1-male 2-female,年齡取值1-5,分別表示不同年齡段。
要回答的問題是:
1-不同性別的人在選擇自殺方式上有什么差別?
2-不同年齡的人在選擇自殺方式上有什么差別?
3-不同性別年齡的人在選擇自殺方式上有什么差別?
我們首先,把性別字段乘上10加上年齡字段生成新字段sexage,取值是11-15,21-25,然后分別用M/F和年齡組中值代表Sexage字段的變量值標(biāo),這樣我們就可以進(jìn)行簡單對(duì)應(yīng)分析了!
現(xiàn)在問大家,如果你看到上面的6×10的矩陣-列聯(lián)表,你能看出什么差異?
現(xiàn)在我們采用SPSS軟件進(jìn)行對(duì)應(yīng)分析!
(我現(xiàn)在用的是SPSS17.0多語言版本,前兩天聽博易智訊的人說,現(xiàn)在SPSS已經(jīng)有18.0版本了,不過從對(duì)應(yīng)分析方法角度我還是希望用11.5版本,因?yàn)榭梢宰约翰鸱种匦陆M合修改圖形,現(xiàn)在的版本是圖片了,不能隨心所欲的修改,不爽!)
分別定義好行列變量以及它們的取值范圍!
對(duì)應(yīng)分析中,6×10的列聯(lián)表(交互表)可以得到行列維度最小值減1的維度,我們看到第一維度Dim1解釋了列聯(lián)表的60.4%,第二維度Dim2解釋了列聯(lián)表的33.0%,說明在兩個(gè)維度上已經(jīng)能夠說明數(shù)據(jù)的93.4%,這是比較理想的,當(dāng)然我們也可以看卡方檢驗(yàn)等!
下面我們主要解釋如何解讀對(duì)應(yīng)圖(小蚊子的博客中也有非常相似的解釋,我非常欣賞他的博客)
首先對(duì)SPSS分析得到的對(duì)應(yīng)圖進(jìn)行修飾和編輯,在零點(diǎn)增加兩條中線!
解讀方法:
1-總體觀察:
我們從圖上左右可以看出,左邊全部是M*,男性,右邊F*全部是女性,說明男女有顯著差異;同時(shí)看橫軸中線上方都是年齡大的,下面都是年齡小的,說明年齡有差異;這樣就一目了然看出和回答了前兩個(gè)問題;
2-觀察鄰近區(qū)域
我們從圖上可以看出,老的男性比較喜歡HANG,GAS和GUN是年輕男性的偏好;老的女性比較喜歡DAWN,年輕的女性比較偏好POISON;
3-向量分析——偏好排序
我們可以從中心向任意點(diǎn)連線-向量,例如從中心向GUN做向量,然后讓所有的人往這條向量及延長線上作垂線,垂點(diǎn)越靠近向量正向的表示越偏好這種方法。
記住:是垂點(diǎn)到GUN正向排名,從圖中我們可以看出,希望GUN方法的人依次是M15、M30、M45、M60、M80、F15等等;依次類推,我們還可以從中心向任意一種方法作垂線,都可以排出每種方法選擇人群的偏好次序;當(dāng)然,你也可以從中心往所有的人作向量,得到每一類人在選擇六種方法上的偏好排名!
你是否可以看出,F15年輕的女性對(duì)六個(gè)“品牌”的偏好嗎?
4-向量的夾角——余弦定理
接著,我們可以從向量夾角的角度看不同方法或不同人之間的相似情況,從余弦定理的角度看相似性!
從圖上我們可以看出,當(dāng)我們從中心向任意兩個(gè)點(diǎn)(相同類別)做向量的時(shí)候,夾角是銳角的話表示兩個(gè)方法具有相似性,銳角越小越相似;也就是說,GUN和GAS是相似品牌,當(dāng)如也是競爭品牌,也具有替代性,如果這次開槍沒有自殺成功,下次他一定選擇毒氣啦;我們也看出F15和F30的人比較相似,但F15與M80就有非常大的差異了,因?yàn)槿绻飨蛄克麄兪氢g角,幾乎是平角了!
5-從距離中的位置看:越靠近中心,越?jīng)]有特征,越遠(yuǎn)離中心,說明特征越明顯
從這張對(duì)應(yīng)圖中我們看到,有些點(diǎn)遠(yuǎn)離中心,有些點(diǎn)靠近中心,這說明什么呢?從幾何空間的角度,如果我對(duì)每一人都一樣的好,在規(guī)范圖上我就應(yīng)該站在大家的重心,也就是中心;這說明越靠近中心的點(diǎn),越?jīng)]有差異,(記住:沒有差異并不代表不重要,只是沒有差異,因?yàn)榻y(tǒng)計(jì)的技術(shù)是研究差異的技術(shù),差異越大往往重要性就大!),越遠(yuǎn)離中心特征越明顯,也就是說,如果聽到一個(gè)M80的人自殺了,估計(jì)你就會(huì)想到是不是HANG啦!
從品牌角度思考,說明越遠(yuǎn)離中的的品牌,消費(fèi)者很容易識(shí)別,說明品牌特征(特色、特點(diǎn))明顯,越靠近中心的品牌,消費(fèi)者不易識(shí)別,也說明你的品牌定位沒有顯著可識(shí)別的特征,沒有差異認(rèn)知!
6-坐標(biāo)軸定義和象限分析
我們還沒有定義坐標(biāo)軸呢?從第一點(diǎn)的分析,其實(shí)我們很快就可以定義坐標(biāo)軸的含義了!(當(dāng)然有時(shí)候?qū)?yīng)圖的座位是非常難定義的)
因此,落在第四象限的是年輕的女性所喜歡的品牌!
7-產(chǎn)品定位:理想點(diǎn)與反理想點(diǎn)模型
我們可以在圖上以POISON為定位點(diǎn),以POISON為圓心,以它的利益為半徑畫圓,那么我們可以得出這樣的結(jié)論:越先圈進(jìn)來的人就是最喜歡這個(gè)品牌的消費(fèi)群,越先圈進(jìn)來的品牌越可能是競爭品牌;當(dāng)然,你也可以以某類人作為圓心,同意解讀;如果POISON是市場不存在的,在調(diào)查中可以設(shè)定為理想點(diǎn),這樣我們就可以得到理想點(diǎn)模型,同理也可以得到反理想點(diǎn)模型分析!
8-市場細(xì)分和定位
最后,研究人員可以根據(jù)前面的分析和自身市場狀況,進(jìn)行市場細(xì)分,找到目標(biāo)消費(fèi)群,然后定位進(jìn)行分析!最終選擇不同的目標(biāo)市場制定有針對(duì)性的營銷策略和市場投放!
我們也可以嘗試采用多元對(duì)應(yīng)分析,但不如簡單對(duì)應(yīng)分析有意義!
簡單對(duì)應(yīng)分析的優(yōu)點(diǎn):
定性變量劃分的類別越多,這種方法的優(yōu)勢越明顯,揭示行變量類別間與列變量類別間的聯(lián)系,將類別聯(lián)系直觀地表現(xiàn)在二維圖形中(對(duì)應(yīng)圖),可以將名義變量或次序變量轉(zhuǎn)變?yōu)殚g距變量。
簡單對(duì)應(yīng)分析的缺點(diǎn):不能用于相關(guān)關(guān)系的假設(shè)檢驗(yàn),維度要由研究者決定,有時(shí)候?qū)?yīng)圖解釋比較困難,對(duì)極端值比較敏感。 結(jié)合分析(Conjoint Analysis)是一種應(yīng)用廣泛,非常流行和有效的市場研究技術(shù)。近些年來,結(jié)合分析廣泛地應(yīng)用在消費(fèi)品、工業(yè)產(chǎn)品和商業(yè)服務(wù)等相關(guān)領(lǐng)域的市場研究中,在我國越來越受到市場研究公司和企業(yè)的重視,尤其是在汽車行業(yè)的市場研究領(lǐng)域,結(jié)合分析在汽車的新產(chǎn)品開發(fā)、市場占有率分析、競爭分析、市場細(xì)分和價(jià)格策略等方面都發(fā)揮了積極而有效的作用。結(jié)合分析也叫聯(lián)合分析技術(shù)!
?
結(jié)合分析適用于測量消費(fèi)者的心理判斷,如理解(Perceptions)和偏好(Preferences)。在結(jié)合分析中,產(chǎn)品/服務(wù)被描述為“輪廓”(Profiles),每一個(gè)輪廓是由能夠描述產(chǎn)品/服務(wù)重要特征的屬性(Attributes)以及賦予每一個(gè)屬性的不同水平的組合構(gòu)成的。結(jié)合分析的一個(gè)重要的基本假定是:消費(fèi)者是根據(jù)構(gòu)成產(chǎn)品/服務(wù)的多個(gè)屬性來進(jìn)行理解和作偏好判斷;也就是說,消費(fèi)者對(duì)產(chǎn)品/服務(wù)的偏好每次并不是基于一個(gè)因素而是基于幾個(gè)因素的結(jié)合來判斷的,消費(fèi)者對(duì)某一輪廓的偏好可以分解成構(gòu)成該輪廓的多個(gè)屬性的偏好得分(Preference Scores)。在結(jié)合分析中用效用值(utilities)來描述。
結(jié)合分析是一種多元統(tǒng)計(jì)分析方法。其因變量是消費(fèi)者對(duì)某一輪廓的整體偏好評(píng)價(jià)。某一輪廓的整體也稱為全輪廓(full profiles),是由全部屬性的各個(gè)水平組合構(gòu)成的。自變量是組成各輪廓的不同屬性(因子)水平。因此,結(jié)合分析是在已知消費(fèi)者對(duì)全輪廓的評(píng)價(jià)結(jié)果(overall evaluations)的基礎(chǔ)上,經(jīng)過分解的方法(decompositional approach)去估計(jì)其偏好結(jié)構(gòu)的一種分析法。
在結(jié)合分析中,輪廓是由研究人員事先按照某種因子結(jié)構(gòu)(factorial structure)采用部分因子正交實(shí)驗(yàn)加以設(shè)計(jì)的。結(jié)合分析有三個(gè)主要目的:(1)確定消費(fèi)者賦予某個(gè)預(yù)測變量(水平)的貢獻(xiàn)和效用(utilities)以及屬性的相對(duì)重要性(2)尋找消費(fèi)者可接受的某種產(chǎn)品的最佳市場組合,這種組合最初可能并沒有被消費(fèi)者所評(píng)價(jià)(3)模擬市場,估計(jì)市場占有率和市場占有率變化。為了達(dá)到這些研究目的,首先要估計(jì)不同屬性水平的效用,進(jìn)一步計(jì)算出屬性的相對(duì)重要性(Attributes relative importance)和輪廓效用(profile utilities),以便定量化地測量消費(fèi)者的偏好,然后基于消費(fèi)者的偏好采用最大效用模型或者Bradley-Terry-Luce(BTL)模型和logit模型估計(jì)市場占有率。
??????全輪廓方法:每一個(gè)屬性同時(shí)展現(xiàn)給消費(fèi)者
?
?
- 樣本量:一般消費(fèi)者研究 ??100到400之間
- 調(diào)查方法:派調(diào)查員面訪 face-to-face
- 因子設(shè)計(jì):屬性和水平數(shù)目不太多??(<20個(gè)最多不超過30個(gè))
- 部分因子設(shè)計(jì): 正交排列法 orthoplan
- 估計(jì)主效應(yīng) ( main effect )
- 產(chǎn)品/服務(wù)的概念(輪廓)事先設(shè)計(jì)和確定。
- 調(diào)查可以采用紙張或計(jì)算機(jī)輔助訪問。
????????其中:?????NC: 最小組合輪廓數(shù)
??????????????????NL: 所有屬性水平數(shù)的和
??????????????????NA: 所有屬性數(shù)的和
?????例如:六個(gè)屬性,每個(gè)屬性有4個(gè)水平,可能組合數(shù)=4×4×4×4×4×4=4096(種),
???????????最小組合數(shù)=(4+4+4+4+4+4)- 6+1=19(種)
?????推薦組合輪廓數(shù):最小輪廓數(shù)的 1.5 到 2 倍
下面我們通過一個(gè)案例:賽歐轎車上市前的市場分析,闡述了結(jié)合分析在汽車市場的應(yīng)用,以及采用一般最小二乘法(OLS)回歸估計(jì)主效應(yīng)的全輪廓結(jié)合分析法的基本概念、原理、步驟和方法。
(備注:研究的時(shí)候產(chǎn)品配置已知,但還沒有下線投放市場)
根據(jù)研究目的和前期的定性研究,最終確定了產(chǎn)品的屬性和水平:
在確認(rèn)了屬性水平后,我們通過SPSS來進(jìn)行正交實(shí)驗(yàn)設(shè)計(jì)。
我們可以依次定義每一個(gè)屬性和水平,SPSS軟件最多提供每個(gè)屬性有9個(gè)水平的可能性,所以如果水平數(shù)太多就要考慮其它方法,或者進(jìn)行相應(yīng)的變換,當(dāng)然,如果屬性的水平數(shù)越多代表了你越重視它,將來的分析相當(dāng)重要性就會(huì)高!
????正交實(shí)驗(yàn)設(shè)計(jì)方法,在SPSS是比較簡單的,人為的控制不多,我們只能寄希望SPSS的正交實(shí)驗(yàn)設(shè)計(jì)給我們一個(gè)號(hào)的結(jié)果,但沒有評(píng)估設(shè)計(jì)效應(yīng)的指標(biāo)。如果你希望下次得到同樣的正交設(shè)計(jì)集,必須設(shè)定一樣的隨機(jī)種子!
????在這點(diǎn)上說,如果對(duì)于復(fù)雜的正交實(shí)驗(yàn)設(shè)計(jì),我還是比較偏向用SAS軟件來進(jìn)行,不僅得到的結(jié)果比較好,還有設(shè)計(jì)效應(yīng)等各種指標(biāo)評(píng)估,所以,實(shí)際市場研究中,大部分情況都是SAS來完成的!其實(shí)我用SAS,有時(shí)候更簡單的,就幾個(gè)命令:%mktrun和%mktex等;
????設(shè)計(jì)好后,大家記住,先不用運(yùn)行,先要“粘貼”下來,也就是把語法粘貼下來,因?yàn)镃onjoint Analysis分析方法在SPSS中沒有窗體命令,必須用語法執(zhí)行!
????當(dāng)然,在細(xì)節(jié)上還有“Holdout”卡片的問題,(檢驗(yàn)問題,但是對(duì)于商業(yè)研究我基本上都不用了,為了保證更好的建模卡片,為了減輕被訪者負(fù)擔(dān),反正做都做了!——這里我沒有學(xué)術(shù)思想啦)
正交實(shí)驗(yàn)設(shè)計(jì)生成了16張卡片,同時(shí)也是隨機(jī)卡片集,并產(chǎn)生兩個(gè)系統(tǒng)變量,不要改變變量名稱,其中:STATUS_值標(biāo) 1-Design 2-Holdout 3-Simulation
記住:我們并不關(guān)心這16張卡片如何,我們只是關(guān)系這16張卡片的對(duì)432種組合產(chǎn)品的代表性,原則上即使有不理想或不現(xiàn)實(shí)的卡片出現(xiàn),也不要沒理由的刪除!在SPSS系統(tǒng)分析中,最好考察屬性水平設(shè)定的問題,而不要隨意改變!
下面我們就要考慮收集被訪者評(píng)價(jià)信息了,當(dāng)然也包括卡片的展示方式!
收集到被訪者信息后,我們就可以分析了!
我這里采用了最一般的離散變量方法,實(shí)際上屬性變量可以有多種模型(離散、線性、理想點(diǎn)、反理想點(diǎn)等)
結(jié)合分析既可以分析群體、總體也可以分析每個(gè)人的偏好選擇!
大家可以根據(jù)公式自己計(jì)算個(gè)體和群體的效用值、屬性相對(duì)重要性等,但是記住:所以群體的效用值、相對(duì)重要性來自于個(gè)體的平均!
????從分析的角度,有時(shí)候模擬市場,模擬市場份額是最重要的分析,但是如果研究者不是最終決策者,就必須設(shè)計(jì)市場組合份額的模擬器,我一般采用Excel來設(shè)計(jì),這需要大家懂得結(jié)合分析原理,并能夠設(shè)計(jì)Excel應(yīng)用!
????在文章的最上面,我是采用Excel設(shè)計(jì)的電腦配置的市場研究模擬器,希望對(duì)你有所啟發(fā)!
????近年來,結(jié)合分析成為市場研究的重要利器,但是它也有著局限性,所以開發(fā)了不同的改進(jìn)方法和軟件工具,代表性的就是Sawtooth公司的產(chǎn)品,另外也可以考慮更復(fù)雜的CBC技術(shù),離散選擇模型!(下次再專題講)
????最后,要說明的是結(jié)合分析只是得到了消費(fèi)者的偏好,喜歡一個(gè)人,并不一定會(huì)跟她結(jié)婚的!
多元回歸分析(Multiple Regression Analysis)是多變量分析的基礎(chǔ),也是理解監(jiān)督類分析方法的入口!實(shí)際上大部分學(xué)習(xí)統(tǒng)計(jì)分析和市場研究的人的都會(huì)用回歸分析,操作也是比較簡單的,但能夠知道多元回歸分析的適用條件或是如何將回歸應(yīng)用于實(shí)踐,可能還要真正領(lǐng)會(huì)回歸分析的基本思想和一些實(shí)際應(yīng)用手法! 下面我們就來談?wù)劧嘣貧w分析,這張圖是利用多元線性回歸制作的策略分析圖,你可以理解X軸是重要性,Y軸是表現(xiàn);
首先,多元回歸分析應(yīng)該強(qiáng)調(diào)是多元線性回歸分析!強(qiáng)調(diào)線性是因?yàn)榇蟛糠秩擞没貧w都是線性回歸,線性的就是直線的,直線的就是簡單的,簡單的就是因果成比例的;理論上講,非線性的關(guān)系我們都可以通過函數(shù)變化線性化,就比如:Y=a+bLnX,我們可以令 t=LnX,方程就變成了 Y=a+bt,也就線性化了。
一般我們采用的變化要根據(jù)數(shù)據(jù)分布特征來進(jìn)行,下表是常用的變化方法:
當(dāng)然,變化的主要目的是線性化,同時(shí)期望數(shù)據(jù)分布是近似正態(tài)分布!
第二,線性回歸思想包含在其它多變量分析中,例如:判別分析的自變量實(shí)際上是回歸,尤其是Fisher線性回歸方程;Logistics回歸的自變量也是回歸,只不過是計(jì)算線性回歸方程的得分進(jìn)行了概率轉(zhuǎn)換;甚至因子分析和主成分分析最終的因子得分或主成分得分也是回歸算出來的;當(dāng)然,還有很多分析最終也是回歸思想!
第三:什么是“回歸”,回歸就是向平均靠攏。
第四:如果你用線性回歸方式去解釋過去,你只能朝著一個(gè)趨勢繼續(xù),但未來對(duì)過去的偏離有無數(shù)種可能性;
第五:線性回歸方程納入的自變量越多,越應(yīng)該能夠反應(yīng)現(xiàn)實(shí),但解釋起來就越困難;
第六:統(tǒng)計(jì)學(xué)家往往追求的是簡約的模型和更高的解釋度,往往關(guān)注模型R平方,共線性和回歸診斷問題;
第七:市場研究人員往往注重模型的解釋合理性,是否與預(yù)設(shè)的直覺一直,是否支持了我的市場假設(shè)等;
下面我們從市場研究人員的角度看看如何利用多元線性回歸:
多元線性回歸分析的主要目的是:解釋和預(yù)測
假設(shè)我們收集了100個(gè)企業(yè)客戶經(jīng)理對(duì)我產(chǎn)品的總體滿意度和分項(xiàng)指標(biāo)的滿意度評(píng)價(jià),我期望知道,什么分項(xiàng)指標(biāo)對(duì)我總體滿意度有重要影響,它的改進(jìn)更能夠提升總體滿意度;如果建立預(yù)測模型,我期望知道了分項(xiàng)指標(biāo)的評(píng)價(jià)就能夠預(yù)測總體滿意度數(shù)值;
在SPSS中選擇回歸分析后,把X10作為因變量,X1到X7作為自變量
一般選擇自變量進(jìn)入方程的方法,可以先采用逐步回歸,讓計(jì)算機(jī)程序幫助確定變量的重要性,這在統(tǒng)計(jì)層面非常好,但是如果針對(duì)我現(xiàn)在的研究我需要采用Enter全部進(jìn)入,如果某個(gè)指標(biāo)不顯著,就不在方程中了我如何與客戶說呢?(假設(shè)他不懂統(tǒng)計(jì),并且我需要完成上面的策略圖);
選擇相應(yīng)的統(tǒng)計(jì)參數(shù)和輸出結(jié)果,注意:多變量分析都需要考慮缺省值問題,逐步回歸中我們可以得到R平方的變化對(duì)我們理解方程有幫助!(Enter方法不需要)
R平方是我們最需要關(guān)注的,該值說明了方程的擬合好壞,R平方=0.80非常不錯(cuò)了,說明:1)總體滿意度的80%的變差都可以由7個(gè)分項(xiàng)指標(biāo)解釋,或者說,7個(gè)分項(xiàng)指標(biāo)可以解釋總體滿意度80%的變差!2)R平方如果太大,大家不要高興太早,社會(huì)科學(xué)很少有那么完美的預(yù)測或解釋,一定存在了共線性!
方程分析表的顯著性表明了回歸具有解釋力!
線性回歸方程給出可預(yù)測的計(jì)算系數(shù),但是,社會(huì)科學(xué)很少進(jìn)行預(yù)測,重要的是解釋;
這里要注意的是如果自變量的測量尺度是統(tǒng)一的話,我們可以直接比較系數(shù)的大小,但是如果自變量的測量尺度不統(tǒng)一的話,我們必須看標(biāo)準(zhǔn)化回歸系數(shù),標(biāo)準(zhǔn)化回歸系數(shù)去掉的量綱,且反應(yīng)了重要性!我們就是需要重要性測量!
當(dāng)然,這個(gè)時(shí)候,研究人員應(yīng)該關(guān)注每個(gè)指標(biāo)的回歸系數(shù)是否真的等于零,要進(jìn)行假設(shè)檢驗(yàn)!
我這里就直接應(yīng)用了,我們可以把7個(gè)自變量指標(biāo)的均值作為表現(xiàn),7個(gè)自變量的標(biāo)準(zhǔn)化相關(guān)系數(shù)作為重要性,完成散點(diǎn)圖!重要的指標(biāo),表現(xiàn)差當(dāng)然是我們急需改進(jìn)的了,這就是前面策略圖了。
我這是典型的市場研究思維方式,不太關(guān)注統(tǒng)計(jì)意義,而且我將所有的坐標(biāo)軸和坐標(biāo)數(shù)值都讓你看不到,我只是表現(xiàn)了測量,或許對(duì)市場洞察足夠了;但記住統(tǒng)計(jì)學(xué)家不能這樣!如果你是關(guān)注統(tǒng)計(jì)思想的人,應(yīng)該要理解下面這張回歸解釋圖!
????聚類分析:顧名思義是一種分類的多元統(tǒng)計(jì)分析方法。按照個(gè)體或樣品(individuals, objects or subjects)的特征將它們分類,使同一類別內(nèi)的個(gè)體具有盡可能高的同質(zhì)性(homogeneity),而類別之間則應(yīng)具有盡可能高的異質(zhì)性(heterogeneity)。
????我們也可以對(duì)變量進(jìn)行聚類—分類,但是更常見的還是對(duì)個(gè)體分類(樣本聚類——細(xì)分)。為了得到比較合理的分類,首先要采用適當(dāng)?shù)闹笜?biāo)來定量地描述研究對(duì)象(樣本或變量,常用的是樣本)之間的聯(lián)系的緊密程度。常用的指標(biāo)為“距離”和“相似系數(shù)”,假定研究對(duì)象均用所謂的“點(diǎn)”來表示。
????在聚類分析中,一般的規(guī)則是將“距離”較小的點(diǎn)或“相似系數(shù)”較大的點(diǎn)歸為同一類,將“距離”較大的點(diǎn)或“相似系數(shù)”較小的點(diǎn)歸為不同的類!(一般的相似系數(shù)就是相關(guān)系數(shù)了)
????基本概念:
????需要一組表示個(gè)體性質(zhì)或特征的變量,稱之為聚類變量。根據(jù)個(gè)體或樣本之間聯(lián)系的緊密程度進(jìn)行分類。一般來說分類變量的組合都是由研究者規(guī)定的,不是像其它多元分析方法那樣估計(jì)推導(dǎo)出來的。
????聚類分析前所有個(gè)體或樣本所屬的類別是未知的,類別個(gè)數(shù)一般也是未知的,分析的依據(jù)就是原始數(shù)據(jù),沒有任何事先的有關(guān)類別的信息可參考。所以:嚴(yán)格說來聚類分析并不是純粹的統(tǒng)計(jì)技術(shù),它不像其它多元分析法那樣,需要從樣本去推斷總體。聚類分析一般都涉及不到有關(guān)統(tǒng)計(jì)量的分布,也不需要進(jìn)行顯著性檢驗(yàn)。聚類分析更像是一種建立假設(shè)的方法,而對(duì)假設(shè)的檢驗(yàn)還需要借助其它統(tǒng)計(jì)方法。
????聚類方法:
- 聚類分析簡單、直觀。
- 聚類分析主要應(yīng)用于探索性的研究,其分析的結(jié)果可以提供多個(gè)可能的解,選擇最終的解需要研究者的主觀判斷和后續(xù)的分析;
- 不管實(shí)際數(shù)據(jù)中是否真正存在不同的類別,利用聚類分析都能得到分成若干類別的解;
- 聚類分析的解完全依賴于研究者所選擇的聚類變量,增加或刪除一些變量對(duì)最終的解都可能產(chǎn)生實(shí)質(zhì)性的影響。
- 研究者在使用聚類分析時(shí)應(yīng)特別注意可能影響結(jié)果的各個(gè)因素。
- 異常值和特殊的變量對(duì)聚類有較大影響
當(dāng)分類變量的測量尺度不一致時(shí),需要事先做標(biāo)準(zhǔn)化處理。
- 自動(dòng)發(fā)現(xiàn)和告訴你應(yīng)該分成多少個(gè)類——屬于非監(jiān)督類分析方法
- 期望能很清楚的找到大致相等的類或細(xì)分市場是不現(xiàn)實(shí)的;
- 樣本聚類,變量之間的關(guān)系需要研究者決定;
- 不會(huì)自動(dòng)給出一個(gè)最佳聚類結(jié)果;
?????根據(jù)聚類變量得到的描述兩個(gè)個(gè)體間(或變量間)的對(duì)應(yīng)程度或聯(lián)系緊密程度的度量。
?????可以用兩種方式來測量:
- 采用描述個(gè)體對(duì)(變量對(duì))之間的接近程度的指標(biāo),例如“距離”,“距離”越小的個(gè)體(變量)越具有相似性。
- 采用表示相似程度的指標(biāo),例如“相關(guān)系數(shù)”,“相關(guān)系數(shù)”越大的個(gè)體(變量)越具有相似性。
注意:上面主要在譜系聚類方法中采用,但譜系聚類主要用在變量聚類上,如果對(duì)樣本聚類樣本不能太多了,否則你要等很長時(shí)間,還不一定有用!
????
總體推薦:
- 聚類變量的測量尺度不同,需要事先對(duì)變量標(biāo)準(zhǔn)化;
- 聚類變量中如果有些變量非常相關(guān),意味著這個(gè)變量的權(quán)重會(huì)更大
- 歐式距離的平方是最常用的距離測量方法;
- 聚類算法要比距離測量方法對(duì)聚類結(jié)果影響更大;
- 標(biāo)準(zhǔn)化方法影響聚類模式:
- 變量標(biāo)準(zhǔn)化傾向產(chǎn)生基于數(shù)量的聚類;
- 樣本標(biāo)準(zhǔn)化傾向產(chǎn)生基于模式的聚類;
- 一般聚類個(gè)數(shù)在4-6類,不易太多,或太少;
- 數(shù)據(jù)挖掘軟件中的聚類更理想
????當(dāng)然我現(xiàn)在聚類都用數(shù)據(jù)挖掘技術(shù)了,其實(shí)聚類分析采用數(shù)據(jù)挖掘技術(shù)更合理,畢竟是發(fā)現(xiàn)知識(shí),我們事先不知道是否存在顯著差異的細(xì)分市場,而且往往在統(tǒng)計(jì)分析聚類中,需要研究者主觀給出聚類變量,得到的結(jié)果也可能是研究者或客戶能想到的,往往客戶最希望得到事先不知道的,直覺不能感知到的,數(shù)據(jù)挖掘就體現(xiàn)了這一點(diǎn)。當(dāng)然采用數(shù)據(jù)挖掘軟件得到的聚類結(jié)果,也更直觀,最重要的是采用SPSS聚類的結(jié)果要呈現(xiàn)出來,是個(gè)體力活,用Clementine得到的結(jié)果就非常容易看出來和理解了!
????關(guān)于市場細(xì)分中的聚類分析,主要是采用兩階段聚類或快速聚類,一般要先進(jìn)行因子分析,聚類分析,類的識(shí)別,聚成幾類,類的穩(wěn)定性測試,選擇目標(biāo)類,定位,描述細(xì)分市場,市場營銷組合等!
上一篇博客提到聚類分析方法和基本概念,但是可能沒有回答一些人的疑問?比如到底應(yīng)該分成多少類,類的穩(wěn)定性以及如何評(píng)估聚類的結(jié)果。其實(shí),要想解決這個(gè)問題,首先是要與分析目的有關(guān),不簡單是一個(gè)統(tǒng)計(jì)分析問題,或者說聚類問題,而應(yīng)該是研究者的判斷或者說研究者的洞察力,當(dāng)然,我們還是要有一套方法去指導(dǎo)。
??????但大家記住:聚類分析不是統(tǒng)計(jì)方法,是一種數(shù)據(jù)處理技術(shù),也就是說在SPSS里面,有時(shí)候你的數(shù)據(jù)排序改變,聚類的結(jié)果都會(huì)改變;
??????還要記住:如果市場上不存在明顯的細(xì)分市場,只要聚類總是能夠按照聚類要求分成類的,這時(shí)候你就要注意了,如果采用不同的聚類方法,總是能夠聚成大致相等(樣本)的類,先不要高興,可能就是不存在有差異細(xì)分市場;這就像一個(gè)球或圓,按照要求總能分割成大致相等的塊一樣;
????還要記住:如果市場存在著明顯的細(xì)分市場,也就是差遠(yuǎn)很大的類,無論什么細(xì)節(jié)技術(shù)或聚類技術(shù)都應(yīng)該得到類似的結(jié)果;難點(diǎn)主要是細(xì)分不明顯的時(shí)候,需要依賴方法了,嘗試不同的聚類方法!
?????
????我記得曾經(jīng)做過一個(gè)市場細(xì)分項(xiàng)目,因?yàn)槲覜]有能夠得到滿意的細(xì)分市場,或者說無法解釋清楚細(xì)分市場的獨(dú)特性,客戶提出一個(gè)問題:你嘗試了各種聚類結(jié)果嗎?當(dāng)時(shí)還沒有數(shù)據(jù)挖掘技術(shù),不過因?yàn)檫@個(gè)要求,我把聚類過程和可能的情況有了新的認(rèn)識(shí),與大家分享:
????上面的樣本,實(shí)際上存在不同的類,但粗看可能看不出來,但是如果我們采用聚類分析,就可以得到如下可能結(jié)果:
比較明顯的可以看出,上面的樣本在兩個(gè)維度上存在著五個(gè)不同類別。
現(xiàn)在我們來看看聚類分析的基本思路和思考:
1)市場細(xì)分:是采用聚類分析的主要目的,主要分成監(jiān)督類和非監(jiān)督類,我們現(xiàn)在討論的是非監(jiān)督類方法,就是事先不知道是否存在細(xì)分市場,也就是事后細(xì)分;
- 這就需要我們采用市場研究的方法收集目標(biāo)市場消費(fèi)者的分類變量和關(guān)鍵性描述信息。
- 在收集和分析所有相關(guān)信息之前,市場細(xì)分并不確定。
- 采用多元統(tǒng)計(jì)分析技術(shù)識(shí)別細(xì)分市場,并將消費(fèi)者按一定的算法規(guī)則劃分為不同的市場。
- 經(jīng)驗(yàn)、直覺、統(tǒng)計(jì)結(jié)果和常識(shí)判斷,所有這些都可以用來決定市場細(xì)分的個(gè)數(shù)。
- 如果細(xì)分后存在著幾個(gè)非常小的市場,需要修正分類標(biāo)準(zhǔn),或者將原始資料中的異常值剔除掉。
- 如果市場被劃分得太細(xì)的話,將導(dǎo)致對(duì)一些小的、相似性的市場采用許多不同的市場營銷策略。
- 根據(jù)量表的信度和效度得到的因子應(yīng)該有意義和進(jìn)行因子命名,否則后面的聚類都是根據(jù)因子名稱來理解的;
- 原始變量需要進(jìn)行標(biāo)準(zhǔn)化,但是因子分析后得到的因子已經(jīng)是標(biāo)準(zhǔn)化變量了;
- 一種思路直接用因子進(jìn)行聚類分析,因子是正交的,得到的是“清晰”的聚類結(jié)果;但是記住:有時(shí)候更適合聚類的因子分析是采用斜交因子!所以,我們?nèi)绻繕?biāo)是聚類的話,要考慮斜交方法;
- 一種思路是放棄因子,而采用原始變量,但這時(shí)候要考慮選擇每個(gè)因子負(fù)荷前幾個(gè)的變量,最好數(shù)量相當(dāng),否則某些變量越相關(guān),意味著權(quán)重越大;
從上面我們可以看出:基于量的聚類A和B,C和D是一類,但基于模式則A和C,B和D是一路;
記住:所以在聚類變量的標(biāo)準(zhǔn)化要考慮這一點(diǎn)!
5)聚類數(shù)量:一般從3-7個(gè)不斷嘗試,如果你用SPSS軟件,建議事項(xiàng)保證樣本是排序的;
6)類的評(píng)估:一般我們可以采用類均值的F檢驗(yàn),看不同類在F統(tǒng)計(jì)量上的差異,也就是每個(gè)類在聚類變量上的顯著差異:
上面的3個(gè)類,進(jìn)行方差分析,得到F統(tǒng)計(jì)量,我們可以看到,F值越大說明分成3類的主要差異在什么變量上;
7)測試不同的聚類結(jié)果:同上想法,我們可以嘗試在4類后的情況發(fā)生什么變化,然后把3類和4類結(jié)果進(jìn)行交互分析,看看3類變成4類到底在哪里發(fā)生變化,主要影響變量是什么因素影響:
8)最后,針對(duì)可能的穩(wěn)定聚類,測試每個(gè)變量(最初的量表)在各個(gè)類的F統(tǒng)計(jì)量,看看最初的原始變量(不是因子)的影響特性;
9)把最后確定的聚類結(jié)果寫入原始數(shù)據(jù)集,進(jìn)行類命名;
10)采用判別分析,判別類和聚類變量的可視化,畫判別圖,進(jìn)一步識(shí)別類的特征
11) 采用對(duì)應(yīng)分析和多元對(duì)應(yīng)分析,識(shí)別類的屬性和關(guān)鍵類(細(xì)分)表述變量,比如:性別、年齡、職業(yè)、收入、消費(fèi)特性等
12)采用CHAID分類決策樹,自動(dòng)偵測進(jìn)一步識(shí)別類的特性;
記住:
- 為了得到比較好的結(jié)果,我們一般現(xiàn)在都采用Two-step聚類,這樣可以把定類變量納入聚類
- 如果希望得到穩(wěn)定的聚類結(jié)果,可以在聚類分析的時(shí)候提供類中心——一般來自分類均值
- 聚類結(jié)果得到的細(xì)分市場一定是研究者能表述并有營銷手段達(dá)到目標(biāo)市場的
- 細(xì)分不光為自己找到細(xì)分市場,也為競爭對(duì)手細(xì)分了市場
請(qǐng)大家記住一句話:選擇什么樣的多變量統(tǒng)計(jì)分析方法,主要是根據(jù)變量的測量尺度決定的,更明確的說是根據(jù)因變量的測量尺度和類型決定的!這就要求研究者能夠在從事項(xiàng)目前明確:研究設(shè)計(jì)和假設(shè),確認(rèn)因變量,以及如何測量,測量尺度達(dá)到什么等級(jí)等要素。
我們看到除了SPSS軟件,還有就是SAS軟件,當(dāng)然懂得SAS的人不多,但特殊情況下SAS更有效,比如,在進(jìn)行實(shí)驗(yàn)設(shè)計(jì),非標(biāo)準(zhǔn)的正交實(shí)驗(yàn)設(shè)計(jì),Conjoint Analysis等市場研究核心技術(shù)方面,SAS更靈活些!
????4. 當(dāng)然,除了我們看到的SPSS和SAS軟件以外,要真正在市場研究中利用好各種分析和模型技術(shù),還需要掌握各種專業(yè)軟件工具。例如:
- AMOS/Lisrel軟件:主要用于顧客滿意度研究,品牌驅(qū)動(dòng)研究等;
- ACA/CBC/VCA軟件:主要用于結(jié)合分析(聯(lián)合分析)conjoint analysis以及離散選擇模型等,產(chǎn)品開發(fā)等都經(jīng)常用這些軟件;
- Ucinet/Netdraw軟件:是社會(huì)網(wǎng)絡(luò)分析工具,主要用于關(guān)系研究,開放題和半開放題、相似性和差異性矩陣等都可以用;
- Clementine/Miner軟件:主要是數(shù)據(jù)挖掘技術(shù);
- Xcelsius軟件:動(dòng)態(tài)報(bào)表和分析報(bào)告軟件,非常炫的Dashbaord儀表盤工具;
- 其它工具:Yed、Visio、SmartDraw、Mindmanager、Swiff Chart、AnswerTree、DecisionTime&Whatif等等!
我們還是回到市場研究的多變量分析技術(shù)吧!
這里的多變量分析技術(shù)主要是指統(tǒng)計(jì)分析和數(shù)據(jù)挖掘技術(shù):
- 描述性統(tǒng)計(jì)分析技術(shù)
- 頻數(shù)分析:主要用于數(shù)據(jù)清洗,調(diào)查結(jié)果的Q&A,各種統(tǒng)計(jì)量、基本報(bào)告數(shù)據(jù)源等
- 數(shù)據(jù)探查:探索性分析主要從統(tǒng)計(jì)的角度查看統(tǒng)計(jì)量來評(píng)估數(shù)據(jù)分布,主要用于異常值偵測、正態(tài)分布檢驗(yàn)、數(shù)據(jù)分段、分位點(diǎn)測算等
- 交叉表分析:交互分析是市場研究的主要工作,大部分市場研究分析到此為止。主要用于分析報(bào)告和分析數(shù)據(jù)源,各種圖表等,寶潔公司要求的很多分析就是完成各種交叉表,制作各種報(bào)表,當(dāng)然其中也有卡方檢驗(yàn)和T檢驗(yàn),尋找差異;一般我們采用列百分比進(jìn)行圖表分析,記住:如果交叉表單元格數(shù)據(jù)比較小需要合并或者不要用百分?jǐn)?shù)來說,直接說值就可以了。
- T檢驗(yàn):假設(shè)檢驗(yàn)方法,主要用來比較兩個(gè)總體均值的差異是否顯著;
- 方差分析:超過兩個(gè)總體的均值檢驗(yàn),也經(jīng)常用于實(shí)驗(yàn)設(shè)計(jì)后的檢驗(yàn)問題;
- 相關(guān)分析:線性相關(guān)性,只有變量呈現(xiàn)相關(guān)我們才能進(jìn)行影響關(guān)系的研究,但記住相關(guān)主要是線性相關(guān),不相關(guān)并不代表沒有關(guān)系;
- 多變量分析技術(shù)
- 回歸分析技術(shù):是監(jiān)督類分析方法,最重要的認(rèn)識(shí)多變量分析的基礎(chǔ)方法,只有掌握了回歸我們才能進(jìn)入多變量分析,其它很多方法都是變種。主要用在影響研究、滿意度研究等,當(dāng)然市場研究基本上是解釋性回歸分析,也就是不注重預(yù)測而關(guān)注解釋自變量對(duì)因變量的影響。主要把握R平方、逐步回歸、標(biāo)準(zhǔn)化回歸系數(shù)(當(dāng)作權(quán)重或重要性)等;回歸也是預(yù)處理技術(shù),缺省值處理等
- 主成分分析和因子分析:是非監(jiān)督類分析方法的代表,是主要認(rèn)識(shí)多變量分析的基礎(chǔ)方法,只有掌握了因子分析我們才能進(jìn)入多因素相互關(guān)系的研究;主要用在消費(fèi)者行為態(tài)度等研究、價(jià)值觀態(tài)度語句的分析、市場細(xì)分之前的因子聚類等,問卷的信度和效度檢驗(yàn)等,因子分析也可算是數(shù)據(jù)的預(yù)處理技術(shù)。主成分分析與因子分析是兩種方法,要能夠區(qū)分。主成分分析可以消減變量,權(quán)重等,主成分還可以用作構(gòu)建綜合排名!
- 判別分析技術(shù):判別分析是最好的構(gòu)建Biplot二元判別圖的好方法,主要用于分類和判別圖,也是圖示化技術(shù)的一種;
- 對(duì)應(yīng)分析技術(shù):市場研究非常有用的研究技術(shù),主要分析定類變量,構(gòu)建二元圖,也是圖示化技術(shù)的一種;
- Logistics回歸技術(shù):分類技術(shù),主要針對(duì)因變量是0-1情況下的判別,該技術(shù)是我們認(rèn)識(shí)非線性關(guān)系的重要基礎(chǔ),很多情況下,我們需要作出是與否的判斷,基礎(chǔ)模型就是它了,像客戶離網(wǎng)分析、客戶價(jià)值分析、客戶信用等都用這個(gè)模型;
- 聚類分析技術(shù):主要用在市場細(xì)分方面,但聚類分析本質(zhì)上不是統(tǒng)計(jì)分析,是數(shù)據(jù)處理技術(shù),從事市場細(xì)分的人要好好把握,特別是注重聚類分析的細(xì)節(jié),可以進(jìn)行變量和樣本的聚類;記住:樣本聚類有可能數(shù)據(jù)排列不同聚類結(jié)果不同,要進(jìn)行聚類后的穩(wěn)定性測試,一般也要采用方差最大旋轉(zhuǎn),有時(shí)候斜交更適合聚類細(xì)分;當(dāng)然,聚類后的細(xì)分市場識(shí)別是頭痛問題,用到上面的幾種技術(shù),也很繁瑣!我現(xiàn)在進(jìn)行市場細(xì)分基本上都用數(shù)據(jù)挖掘軟件工具了!現(xiàn)在比較好用的是Two-Step兩階段聚類;
- MDS多維尺度分析技術(shù):這個(gè)技術(shù)目前不太用了,但它是認(rèn)識(shí)多變量分析技術(shù),尤其是測量與分析技術(shù)好的視角。比如,相似性和差異性測量、語異差異法等,洞察潛在消費(fèi)者心理和潛在分類維度等。
- 其它:GLM通用線性模型、Logit回歸、Probit分析、可靠性分析等
- 市場研究分析技術(shù)
- 結(jié)合分析(聯(lián)合分析)Conjoint Analysis技術(shù):如果一家市場研究公司沒有掌握該技術(shù),就不能稱為一流的市場研究!可見該技術(shù)的地位,應(yīng)用領(lǐng)域非常廣泛,新產(chǎn)品開發(fā)、產(chǎn)品重新定位、市場細(xì)分、利潤分析、偏好分析等,我就是掌握了這個(gè)技術(shù)后,才發(fā)現(xiàn)統(tǒng)計(jì)與市場這么緊密聯(lián)系,學(xué)好數(shù)學(xué)和統(tǒng)計(jì)有這么大的用武之地!
- 離散選擇模型(Choice base analysis):也叫Discrete Choice Analysis分析技術(shù),現(xiàn)在市場研究采用這種方法越來越大,屬于結(jié)合分析的一種,但更復(fù)雜也更反映現(xiàn)實(shí)選擇行為;主要應(yīng)用在價(jià)格研究中!研究消費(fèi)者微觀選擇行為的人得了諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)呢!SPSS軟件沒有這個(gè)分析方法,只能用SAS軟件,或者選擇Sawtooth公司的產(chǎn)品。
- 結(jié)構(gòu)方程式模型(SEM):其實(shí)SEM本質(zhì)上是實(shí)證研究,證實(shí)性分析,特別適合寫學(xué)術(shù)論文和研究性項(xiàng)目,在市場研究主要用在顧客滿意度上,也可以用在品牌驅(qū)動(dòng)力研究等方面;主要軟件是AMOS;
- 多維偏好分析(Multidimensional Preference Analysis):主要用于構(gòu)建偏好圖,進(jìn)行產(chǎn)品定位,消費(fèi)者偏好結(jié)構(gòu),屬于圖示化技術(shù)的一種;SPSS沒有專門稱呼的模塊,可以采用因子分析或主成分分析的轉(zhuǎn)換來完成,但在SAS中就比較方便了;
- 決策樹技術(shù):屬于監(jiān)督類建模技術(shù),主要用于分類和細(xì)分,因?yàn)闆Q策樹比較好理解,所以可以非常自動(dòng)和智能化的得到無法感知到的結(jié)果;掌握了決策樹后,我就不愿意用交互分析了!主要有CHAID、C&RT、QUEST等,當(dāng)然還有C5.0規(guī)則等!
- 其它:PSM價(jià)格彈性測量、品牌資產(chǎn)指數(shù)等等;
- 數(shù)據(jù)挖掘和建模技術(shù)(數(shù)據(jù)挖掘技術(shù)將來再詳細(xì)描述)
- 分類建模技術(shù):
- 預(yù)測建模技術(shù):
- 細(xì)分建模技術(shù):
- 關(guān)聯(lián)建模技術(shù):
- 序列建模技術(shù):
主要的英文描述:
多變量分析方法的分類圖譜!(主要部分)
從圖中,大家可以看到,假設(shè)你不知道研究目的的意義,但看到數(shù)據(jù)后,你可以嘗試沿著分類圖譜去找尋你該選擇的分析方法!
當(dāng)然,選擇什么樣的多變量分析技術(shù),前提還是你的研究設(shè)計(jì)和假設(shè),也就是說我們?cè)O(shè)計(jì)了什么樣的問卷或者說什么樣的測量變量及尺度,應(yīng)該在數(shù)據(jù)收集回來之前就應(yīng)該明確的,特別是選擇了針對(duì)性的研究模型也就意味著分析技術(shù)的明確,如果你在調(diào)查之前還不知道用什么分析方法,應(yīng)該不是一個(gè)合格的研究人員!
多變量分析技術(shù)的選擇主要看變量測量等級(jí),特別是因變量!
因子分析(Factor Analysis)是一種非常有用的多變量分析技術(shù)。我想說,你要想學(xué)好多變量分析技術(shù),一是:理解多元回歸分析,二是:理解因子分析;這是多變量分析技術(shù)的兩個(gè)出發(fā)點(diǎn)。為什么這么說呢?多元回歸分析是掌握有因變量影響關(guān)系的重點(diǎn),無論什么分析,只要研究的變量有Y,也就是因變量,一般都是回歸思想,無非就是Y的測量尺度不同,選擇不同的變形方法。而因子分析則是研究沒有因變量和自變量之分的一組變量X1 X2 X3 ... Xn之間的關(guān)系。
????在市場研究中,我們經(jīng)常要測量消費(fèi)者的消費(fèi)行為、態(tài)度、信仰和價(jià)值觀,當(dāng)然最重要的是測量消費(fèi)者的消費(fèi)行為和態(tài)度!我們往往采用一組態(tài)度量表進(jìn)行測量,用1-5打分或1-9打分,經(jīng)常提到的李克特量表。?
????上面的數(shù)據(jù)是我們?yōu)榱藴y量消費(fèi)者的生活方式或者價(jià)值觀什么的,選擇了24個(gè)語句,讓消費(fèi)者進(jìn)行評(píng)估,同意還是不同意,像我還是不像,贊成還是不贊成等等,用1-9打分;
????因子分析有探索性因子分析和證實(shí)性因子分析之分,這里我們主要討論探索性因子分析!證實(shí)性因子分析主要采用SEM結(jié)構(gòu)方程式來解決。
從探索性因子分析角度看:
- 一種非常實(shí)用的多元統(tǒng)計(jì)分析方法;
- 一種探索性變量分析技術(shù);
- 分析多變量相互依賴關(guān)系的方法;
- 數(shù)據(jù)和變量的消減技術(shù);
- 其它細(xì)分技術(shù)的預(yù)處理過程;
????首先,24個(gè)可測量的觀測變量之間的存在相互依賴關(guān)系,并且我們確信某些觀測變量指示了潛在的結(jié)構(gòu)-因子,也就是存在潛在的因子;而潛在的因子是不可觀測的,例如:真實(shí)的滿意度水平,購買的傾向性、收獲、態(tài)度、經(jīng)濟(jì)地位、忠誠度、促銷、廣告效果、品牌形象等,所以,我們必須從多個(gè)角度或維度去測量,比如多維度測量購買產(chǎn)品的動(dòng)機(jī)、消費(fèi)習(xí)慣、生活態(tài)度和方式等;
????這樣,一組量表,有太多的變量,我們希望能夠消減變量,用一個(gè)新的、更小的由原始變量集組合成的新變量集作進(jìn)一步分析。這就是因子分析的本質(zhì),所以在SPSS軟件中,因子分析方法歸類在消減變量菜單下。新的變量集能夠更好的說明問題,利于簡化和解釋問題。
????當(dāng)然,因子分析也往往是預(yù)處理技術(shù),例如,在市場研究中我們要進(jìn)行市場細(xì)分研究,往往采用一組量表測量消費(fèi)者,首先,通過因子分析得到消減變量后的正交的因子(概念),然后利用因子進(jìn)行聚類分析,而不再用原來的測量變量了!我想這是市場研究中因子分析的主要應(yīng)用!??
????其實(shí),你可以想象,例如在多元回歸分析中,如果多個(gè)自變量存在相關(guān)性,如果可以用因子分析,得到幾個(gè)不相關(guān)的變量(因子),再進(jìn)行回歸,就解決了自變量共線性問題。(理論上是這樣的,但市場研究很少這么操作!)
下面是要理解的因子分析的基本概念:
- 一種簡化數(shù)據(jù)的技術(shù)。
- 探索性因子分析和證實(shí)性因子分析
- 因子分析就是要找到具有本質(zhì)意義的少量因子。
- 用一定的結(jié)構(gòu)/模型,去表達(dá)或解釋大量可觀測的變量。
- 用相對(duì)少量的幾個(gè)因子解釋原來許多相互關(guān)聯(lián)的變量之間的關(guān)系。
- 描述的變量是可觀測的——顯在變量。
- 相關(guān)性較高,聯(lián)系比較緊密的變量放在一類。
- 每一類變量隱含一個(gè)因子——潛在變量。
- 不同類的變量之間相關(guān)性較弱。
- 各個(gè)因子之間不相關(guān)。
????在進(jìn)行因子分析前,大家務(wù)必明確你的數(shù)據(jù)集中24個(gè)變量是否存在缺失值問題!默認(rèn)情況下系統(tǒng)采用Lisewase,也即是只要24個(gè)變量有一個(gè)缺失,該記錄刪除,也就是說如果你的樣本存在大量缺失,可能造成因子分析的樣本量大量收縮!
我們將24個(gè)變量選擇后,選擇描述對(duì)話框,可以選擇KMO和Bartlett的球形度檢驗(yàn)!這個(gè)指標(biāo)主要從統(tǒng)計(jì)角度給出24個(gè)變量是否存在內(nèi)在結(jié)構(gòu),也就是潛在因子結(jié)構(gòu),說白了,就是不適合因子分析!極端可能就是所有24個(gè)變量都測量的是一個(gè)維度的因子概念,另一個(gè)極端就是24個(gè)變量全部是正交不相關(guān)的,根本不存在因子,不適合因子分析!
接下來我們要選擇抽取因子的方法:在方法上,我們?nèi)绻皇欠浅@斫饣蛴刑厥庖?#xff0c;就選擇主成份方法;這也是為什么在SPSS軟件中沒有獨(dú)立的主成份分析,其實(shí)是包容在因子分析中了!記住一點(diǎn):如果24個(gè)變量存在因子結(jié)構(gòu),用什么方法得當(dāng)?shù)慕Y(jié)果基本相同!況且,市場研究采用量表24個(gè)變量的測量尺度都是一致的!如果你沒有特殊要求,默然選擇抽取特征值大于1的因子!選擇碎石圖——也是表達(dá)因子選擇的圖示方式!因?yàn)槭茄芯拷Y(jié)構(gòu),所以從相關(guān)矩陣出發(fā),實(shí)際上就是標(biāo)準(zhǔn)化后的方差矩陣,沒有了量綱!
接下來,我們選擇因子旋轉(zhuǎn)方法!
????因子旋轉(zhuǎn)是因子分析的核心技巧,也是我們期望得到的結(jié)果。旋轉(zhuǎn)的概念就是坐標(biāo)變換,不過旋轉(zhuǎn)有正交和斜交旋轉(zhuǎn)差別罷了!從解釋因子結(jié)構(gòu)的角度正交旋轉(zhuǎn)是最容易解釋的,得到的因子也是不相關(guān)的;斜交則得到的因子具有相關(guān)性,但更符合或能捕捉數(shù)據(jù)的維度!所以,有一種說法,如果是接下來要進(jìn)行市場細(xì)分,最好采用斜交更好!當(dāng)然,我們最常用的,一般采用最大方差旋轉(zhuǎn)!
最后,有一個(gè)選擇要完成,就是選項(xiàng)對(duì)話框!
我們要選擇按大小排序,并且將因子負(fù)荷小于0.4的都不顯示,這樣我們看的更清楚!
為什么選擇0.4呢?這主要依賴樣本量和絕對(duì)誤差的考慮!
從樣本量角度看因子負(fù)荷,大部分市場研究樣本量都在200以上!
記住:如果你不能精細(xì)考慮,就選0.4吧!
下面我們就可以執(zhí)行了!我們看看結(jié)果:
????從結(jié)果可以看出,Bartlett球檢驗(yàn)是顯著的,說明存在因子結(jié)構(gòu),另外KMO=0.764,較適宜因子分析!,一般KMO=0.8就是Excellent了!
接下來看因子方差解釋,總的方差解釋是63.448%,總共存在7個(gè)公因子,說明如果將來不用24個(gè)變量,而改用這7個(gè)因子可以說明原來24個(gè)變量的63.4%的變差。(如果你確認(rèn)了這樣的結(jié)果,可以選擇把7個(gè)因子得分保存為變量了)
如果我們只是看非旋轉(zhuǎn)的話,就是主成份分析部分了,我們來看旋轉(zhuǎn)后的結(jié)果:
?????我們可以看到因子排列非常恰當(dāng)和明顯,這都是因?yàn)槲覀冊(cè)谶x項(xiàng)中選擇了排序和壓縮了小于0.4的負(fù)荷值!
你可以看到F1_6變量在3和4因子上都有負(fù)荷,這就產(chǎn)生了雙負(fù)荷!如果存在大量的雙負(fù)荷,我們就要考慮是否要斜交旋轉(zhuǎn)了!
最后,我們要完成因子命名!如果不能給出好的因子命名,我們放棄24個(gè)變量用7個(gè)因子變量都不知道意義,如何分析呢!當(dāng)然如何命名因子是個(gè)藝術(shù)活了!我一般的思考方式是:1)先看意義,哪些變量負(fù)荷在一個(gè)因子上,是否能解釋這些因子;2)如果可以,選擇因子名稱;3)如果不能給出恰當(dāng)名字,就選擇負(fù)荷變量的簡稱綜合在一起,先代表著;4)隨著后續(xù)的分析,因子慢慢確定;
到這里因子分析就完成了!
但因子分析往往是預(yù)處理技術(shù),如果要用來細(xì)分市場,該如何進(jìn)一步操作呢?是選因子還是選前兩個(gè)負(fù)荷最大的變量,我將在聚類分析中講解!
注:僅供學(xué)習(xí),所有資源來自互聯(lián)網(wǎng)。
總結(jié)
以上是生活随笔為你收集整理的“多变量分析”——数据挖掘、数据分析的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: DOM节点层次之Node类型
- 下一篇: 广东省智慧高速公路建设指南