SPSS由IBM公司出品,它提供了包括描述性統(tǒng)計(jì)、推斷性統(tǒng)計(jì)、因子分析、聚類分析、回歸分析等多種統(tǒng)計(jì)分析功能,并包括文本分析、機(jī)器學(xué)習(xí)算法、數(shù)據(jù)分析模型等。SPSS的界面友好,易于操作,能夠快速?gòu)臄?shù)據(jù)中提取有用的洞察和分析,廣泛應(yīng)用于教育、心理、醫(yī)學(xué)、市場(chǎng)、人口、保險(xiǎn)等多個(gè)研究領(lǐng)域,也用于產(chǎn)品質(zhì)量控制、人事檔案管理和日常統(tǒng)計(jì)報(bào)表等。 聚類分析共有三類:快速聚類、系統(tǒng)聚類和二階聚類,下面我們要介紹的是IBM SPSS Statistics的二階聚類分析的方法。
一、二階聚類
使用二階聚類,SPSS會(huì)為用戶探索數(shù)據(jù)間較為自然的一種分類,可以同時(shí)處理分類變量和連續(xù)變量,也叫作兩步聚類。
圖1:二階聚類
第一步是構(gòu)建分類的特征數(shù),將觀測(cè)點(diǎn)記在某個(gè)節(jié)點(diǎn)處,然后判斷后續(xù)觀測(cè)點(diǎn)與該節(jié)點(diǎn)的相似性,若不相似,將構(gòu)建一個(gè)新的節(jié)點(diǎn);第二步是對(duì)節(jié)點(diǎn)進(jìn)行分組,分組完成就是二階聚類分析完成。
SPSS的聚類功能都在“分析”——“分類”菜單下,點(diǎn)擊“二階聚類”,可以進(jìn)入二階聚類分析窗口。
二、分析操作
1.數(shù)據(jù)樣本
圖2:數(shù)據(jù)樣本
我們這里選用的是SPSS自帶的一份數(shù)據(jù)樣本,各類汽車的參數(shù)及銷售數(shù)據(jù),使用二階聚類可以將這些個(gè)案對(duì)象進(jìn)行分類分析處理。
2.變量設(shè)置
圖3:二階聚類的變量設(shè)置
將汽車類型“type”移入分類變量窗口,將分類依據(jù)的變量移入連續(xù)變量窗口,我們這里依據(jù)的是價(jià)格、寬度、長(zhǎng)度、燃料效率等基礎(chǔ)參數(shù)的變量,可以使用Shift鍵將這些變量選中后一次性添加。
3.其他設(shè)置
圖4:其他設(shè)置
距離測(cè)量使用對(duì)數(shù)似然,因?yàn)槲覀冞@里使用到了分類變量,所以歐氏距離不可用。
聚類數(shù)量使用自動(dòng)確定,最多可以分為15類,當(dāng)然,也可以自己確定聚類數(shù)。
聚類準(zhǔn)則使用BIC標(biāo)準(zhǔn)。
4.選項(xiàng)
圖5:選項(xiàng)設(shè)置
勾選使用噪聲處理離群值,數(shù)值使用默認(rèn)的25%即可,這會(huì)將數(shù)據(jù)的析出節(jié)點(diǎn)合并為一個(gè)噪聲節(jié)點(diǎn),判斷后保留特定的節(jié)點(diǎn),不能被歸類的觀測(cè)值會(huì)被標(biāo)記為離群值。
內(nèi)存分配設(shè)置的是聚類過(guò)程中的最大空間,超過(guò)設(shè)定值后會(huì)使用硬盤存儲(chǔ)數(shù)據(jù)。
連續(xù)變量的標(biāo)準(zhǔn)化這里不需要多加設(shè)置,如果已標(biāo)準(zhǔn)化,可以減少右側(cè)窗口內(nèi)的變量。
5.輸出
圖6:輸出設(shè)置
勾選輸出透視表,會(huì)輸出四個(gè)表格:BIC統(tǒng)計(jì)表、連續(xù)變量的均值和標(biāo)準(zhǔn)差、最終分類的觀測(cè)個(gè)數(shù)、最終分類變量的頻數(shù)統(tǒng)計(jì)表。
保持默認(rèn)已勾選的圖表和表格,下面的工作數(shù)據(jù)文件和XML文件根據(jù)需要設(shè)置保存及導(dǎo)出位置。
6.完成分析
圖7:自動(dòng)聚類表格
上圖是輸出結(jié)果的第一個(gè)表格,從這個(gè)表格中可以分析最佳的聚類數(shù)目:較小的BIC值,較大的更該比率,較大的距離度量比率,最佳聚類數(shù)目是3類。
圖8:聚類概要
在質(zhì)心和聚類頻率表格中可以看到具體的三組分類下各個(gè)變量的均值和偏差,頻率和百分比情況。
三、小結(jié)
以上就是在IBM SPSS Statistics中如何使用二階聚類方法對(duì)數(shù)據(jù)樣本進(jìn)行分析處理了,聚類分析的操作難度不大,合理選擇聚類方法可以找到現(xiàn)有數(shù)據(jù)的最佳聚類分布,便于后續(xù)分析操作的進(jìn)行。
世界上許多有影響的報(bào)刊雜志就SPSS給予了高度的評(píng)價(jià)。 |