SPSS由IBM公司出品,它提供了包括描述性統(tǒng)計(jì)、推斷性統(tǒng)計(jì)、因子分析、聚類分析、回歸分析等多種統(tǒng)計(jì)分析功能,并包括文本分析、機(jī)器學(xué)習(xí)算法、數(shù)據(jù)分析模型等。SPSS的界面友好,易于操作,能夠快速從數(shù)據(jù)中提取有用的洞察和分析,廣泛應(yīng)用于教育、心理、醫(yī)學(xué)、市場、人口、保險(xiǎn)等多個研究領(lǐng)域,也用于產(chǎn)品質(zhì)量控制、人事檔案管理和日常統(tǒng)計(jì)報(bào)表等。 對數(shù)據(jù)進(jìn)行一定條件下的分類分組是數(shù)據(jù)分析中經(jīng)常需要的環(huán)節(jié),IBM SPSS Statistics為用戶提供了幾種常用的分類方法:快速聚類、二階聚類和系統(tǒng)聚類。
接下來我們就簡單演示一下SPSS的系統(tǒng)聚類分析方法該如何使用。
一、系統(tǒng)聚類
系統(tǒng)聚類也叫做分層聚類,主要的分析思路是將每個個體看做是一類,再將相似度較高的個體組成新的一類,再將新類之間根據(jù)相似度重復(fù)合并,直到歸類結(jié)束。
常用的系統(tǒng)聚類方法有最短距離法、最長距離法、質(zhì)心距離法等。
圖1:功能位置
SPSS的系統(tǒng)聚類功能在“分析”菜單下的“分類”中,點(diǎn)擊可進(jìn)入系統(tǒng)聚類分析的操作窗口。
二、操作方法
1.數(shù)據(jù)樣本
圖2:數(shù)據(jù)樣本
聚類分析適用于基數(shù)較大的數(shù)據(jù)樣本,為了便于理解,我們這里選擇的是一份學(xué)生成績單作為示例。
2.變量設(shè)置
圖3:變量設(shè)置
我們這里是依據(jù)學(xué)生的單科成績、平均成績和總成績進(jìn)行分析,所以將這些變量都移入“變量”窗口作為聚類依據(jù)。
學(xué)生序號移入“標(biāo)注個案”窗口,注意這個窗口只能接受字符串格式的變量,必要時需要進(jìn)行變量的格式修改。
選擇個案聚類,輸出內(nèi)容勾選統(tǒng)計(jì)量和圖。
3.統(tǒng)計(jì)量
圖4:統(tǒng)計(jì)量設(shè)置
這個對話框設(shè)置的是輸出統(tǒng)計(jì)量,合并進(jìn)程表是每個進(jìn)程中被合并的類和類間距離,相似性矩陣是觀測值之間的距離矩陣。
聚類成員輸出的是成員所屬分類的設(shè)置,選擇“無”即可。
4.繪制
圖5:繪制設(shè)置
我們將聚類圖形設(shè)置為譜系圖,冰柱圖設(shè)置為全部聚類,方向設(shè)置為垂直方向。
5.方法
圖6:聚類方法
前文我們有簡單提到幾種聚類方法,這個對話框內(nèi)顯示了所有SPSS中可用的聚類方法,我們選擇質(zhì)心聚類法。
度量標(biāo)準(zhǔn)有三個,區(qū)間、計(jì)算和二分類,一般數(shù)據(jù)使用的是區(qū)間度量,選擇區(qū)間中的平方歐式距離。
在這個分析方法中,標(biāo)準(zhǔn)化和轉(zhuǎn)換度量不需要進(jìn)行特殊設(shè)置。
6.保存
圖7:保存設(shè)置
用戶可以設(shè)置保存的內(nèi)容,可以不保存任何信息;也可以選擇保存單一方案,即將每一步的變量信息保存到新變量;或者選擇制定方案范圍,設(shè)置保存的上下限,本例中不做過多設(shè)置。
7.分析
圖8:譜系圖
在輸出日志中會查看到多個圖表,我們這里對譜系圖做一個簡單說明:如上圖,被樹狀連接的個案間、分類間具有相似性,從中我們可以發(fā)現(xiàn)多種分類方法,圖中標(biāo)示的是較為明顯的一種,共分為五類,有兩個個案單獨(dú)成一類。
三、小結(jié)
系統(tǒng)聚類的概念比快速聚類復(fù)雜一點(diǎn),但結(jié)果更為多樣,適合分析者嘗試多種類型的分類分析操作。
世界上許多有影響的報(bào)刊雜志就SPSS給予了高度的評價。 |