《SPSS的聚類分析》PPT課件.ppt
《《SPSS的聚類分析》PPT課件.ppt》由會員分享,可在線閱讀,更多相關(guān)《《SPSS的聚類分析》PPT課件.ppt(28頁珍藏版)》請?jiān)谘b配圖網(wǎng)上搜索。
2020年4月26日星期日,1,第九章SPSS的聚類分析,2020年4月26日星期日,2,9.1聚類分析的一般問題,9.1.1聚類分析的意義聚類分析是統(tǒng)計(jì)學(xué)中研究“物以類聚”問題的多元統(tǒng)計(jì)分析方法。聚類分析是一種建立分類的多元統(tǒng)計(jì)分析方法,它能夠?qū)⒁慌鷺颖荆ɑ蜃兞浚?shù)據(jù)根據(jù)其諸多特征,按照在性質(zhì)上的親疏程度在沒有先驗(yàn)知識的情況下進(jìn)行自動分類,產(chǎn)生多個分類結(jié)果。類內(nèi)部的個體在特征上具有相似性,不同類間個體特征的差異性較大。,2020年4月26日星期日,3,例如,學(xué)校里有些同學(xué)經(jīng)常在一起,關(guān)系比較密切,而他們與另一些同學(xué)卻很少來往,關(guān)系比較疏遠(yuǎn)。究其原因可能會發(fā)現(xiàn),經(jīng)常在一起的同學(xué)的家庭情況、性格、學(xué)習(xí)成績、課余愛好等方面有許多共同之處,而關(guān)系比較疏遠(yuǎn)的同學(xué)在這些方面有較大的差異性。為了研究家庭情況、性格、學(xué)習(xí)成績、課余愛好等是否會成為劃分學(xué)生小群體的主要決定因素,可以從有關(guān)這些方面的數(shù)據(jù)入手,進(jìn)行客觀分組,然后比較所得的分組是否與實(shí)際相吻合。對學(xué)生的客觀分組就可采用聚類分析方法。,2020年4月26日星期日,4,9.1.2聚類分析中“親疏程度”的度量方法1、定距型變量個體間距離的計(jì)算方式歐式距離(Euclideandistance)平方歐式距離(SquaredEuclideandistance)切比雪夫(Chebychev)距離Block距離明考斯基(Minkowski)距離夾角余弦(Cosine)距離用戶自定義(Customized)距離,2020年4月26日星期日,5,2、計(jì)數(shù)變量個體間距離的計(jì)算方式卡方(Chi-Squaremeasure)距離Phi方(Phi-Squaremeasure)距離3、二值(Binary)變量個體間距離的計(jì)算方式簡單匹配系數(shù)(SimpleMatching)雅科比系數(shù)(Jaccard)注:聚類分析的幾點(diǎn)說明所選擇的變量應(yīng)符合聚類的要求各變量的變量值不應(yīng)有數(shù)量級上的差異各變量間不應(yīng)有較強(qiáng)的線性相關(guān)關(guān)系,2020年4月26日星期日,6,9.2層次聚類,9.2.1層次聚類的兩種類型和兩種方式層次聚類又稱系統(tǒng)聚類,簡單地講是指聚類過程是按照一定層次進(jìn)行的。層次聚類有兩種類型,分別是Q型聚類和R型聚類;層次聚類的聚類方式又有兩種,分別是凝聚方式聚類和分解方式聚類。,2020年4月26日星期日,7,Q型聚類:對樣本進(jìn)行聚類,使具有相似特征的樣本聚集在一起,使差異性大的樣本分離開來。R型聚類:對變量進(jìn)行聚類,使具有相似性的變量聚集在一起,差異性大的變量分離開來,可在相似變量中選擇少數(shù)具有代表性的變量參與其他分析,實(shí)現(xiàn)減少變量個數(shù),達(dá)到變量降維的目的。,2020年4月26日星期日,8,凝聚方式聚類:其過程是,首先,每個個體自成一類;然后,按照某種方法度量所有個體間的親疏程度,并將其中最“親密”的個體聚成一小類,形成n-1個類;接下來,再次度量剩余個體和小類間的親疏程度,并將當(dāng)前最親密的個體或小類再聚到一類;重復(fù)上述過程,直到所有個體聚成一個大類為止。可見,這種聚類方式對n個個體通過n-1步可凝聚成一大類。分解方式聚類:其過程是,首先,所有個體都屬一大類;然后,按照某種方法度量所有個體間的親疏程度,將大類中彼此間最“疏遠(yuǎn)”的個體分離出去,形成兩類;接下來,再次度量類中剩余個體間的親疏程度,并將最疏遠(yuǎn)的個體再分離出去;重復(fù)上述過程,不斷進(jìn)行類分解,直到所有個體自成一類為止??梢姡@種聚類方式對包含n個個體的大類通過n-1步可分解成n個個體。SPSS中的層次聚類采用的是凝聚方式。,2020年4月26日星期日,9,9.2.2個體與小類、小類與小類間“親疏程度”的度量方法SPSS中提供了多種度量個體與小類、小類與小類間“親疏程度”的方法。與個體間“親疏程度”的測度方法類似,應(yīng)首先定義個體與小類、小類與小類的距離。距離小的關(guān)系親密,距離大的關(guān)系疏遠(yuǎn)。這里的距離是在個體間距離的基礎(chǔ)上定義的,常見的距離有:,2020年4月26日星期日,10,最近鄰居(NearestNeighbor)距離:個體與小類中每個個體距離的最小值。最遠(yuǎn)鄰居(FurthestNeighbor)距離:個體與小類中每個個體距離的最大值。組間平均鏈鎖(Between-groupslinkage)距離:個體與小類中每個個體距離的平均值。組內(nèi)平均鏈鎖(Within-groupslinkage)距離:個體與小類中每個個體距離以及小類內(nèi)各個體間距離的平均值。重心(Centroidclustering)距離:個體與小類的重心點(diǎn)的距離。離差平方和法(Wardsmethod):聚類過程中使小類內(nèi)離差平方和增加最小的兩小類應(yīng)首先合并為一類。,2020年4月26日星期日,11,9.2.3層次聚類的基本操作1、選擇菜單AnalyzeClassifyHierarchicalCluster,出現(xiàn)窗口:,2020年4月26日星期日,12,2、把參與層次聚類分析的變量選到Variable(s)框中。3、把一個字符型變量作為標(biāo)記變量選到LabelCasesby框中,它將大大增強(qiáng)聚類分析結(jié)果的可讀性。4、在Cluster框中選擇聚類類型。其中Cases表示進(jìn)行Q型聚類(默認(rèn)類型);Variables表示進(jìn)行R型聚類。5、在Display框中選擇輸出內(nèi)容。其中Statistics表示輸出聚類分析的相關(guān)統(tǒng)計(jì)量;Plot表示輸出聚類分析的相關(guān)圖形。,2020年4月26日星期日,13,6、單擊Method按鈕指定距離的計(jì)算方法。,2020年4月26日星期日,14,Measure框中給出的是不同變量類型下的個體距離的計(jì)算方法。其中Interval框中的方法適用于連續(xù)型定距變量;Counts框中的方法適用于計(jì)數(shù)型變量;Binary框中的方法適用于二值變量。ClusterMethod框中給出的是計(jì)算個體與小類、小類與小類間距離的方法。7、如果參與聚類分析的變量存在數(shù)量級上的差異,應(yīng)在TransformValues框中的Standardize選項(xiàng)中選擇消除數(shù)量級差的方法。并指定處理是針對變量的還是針對樣本的。Byvariable表示針對變量,適于Q型聚類分析;Bycase表示針對樣本,適于R型聚類分析。,2020年4月26日星期日,15,8、單擊Statistics按鈕指定輸出哪些統(tǒng)計(jì)量,2020年4月26日星期日,16,Agglomerationschedule表示輸出聚類分析的凝聚狀態(tài)表;Proximitymatrix表示輸出個體間的距離矩陣;ClusterMembership框中,None表示不輸出樣本所屬類,SingleSolution表示指定輸出當(dāng)分成n類時(shí)各樣本所屬類,是單一解。Rangeofsolution表示指定輸出當(dāng)分成m至n類(m小于等于n)時(shí)各樣本所屬類,是多個解。,2020年4月26日星期日,17,9、單擊Plot按鈕指定輸出哪種聚類分析圖。,2020年4月26日星期日,18,Dendrogram選項(xiàng)表示表示輸出聚類分析樹形圖;在Icicle框中指定輸出冰掛圖,其中,Allclusters表示輸出聚類分析每個階段的冰掛圖,Specifiedrangeofclusters表示只輸出某個階段的冰掛圖,輸入從第幾步開始,到第幾步結(jié)束,中間間隔幾步;在Orientation框中指定如何顯示冰掛圖,其中,Vertical表示縱向顯示,Horizontal表示橫向水平顯示。樹形圖以躺倒樹的形式展現(xiàn)了聚類分析中的每一次類合并的情況。SPSS自動將各類間的距離映射到025之間,并將凝聚過程近似地表示在圖上。,2020年4月26日星期日,19,10、單擊Save按鈕可以將聚類分析的結(jié)果以變量的形式保存到數(shù)據(jù)編輯窗口中。生成的變量名為clun_m(如clu2_1),其中n表示類數(shù)(如2),m表示是第m次分析(如1)。由于不同的距離計(jì)算方法會產(chǎn)生不同的聚類分析結(jié)果,即使聚成n類,同一樣本的類歸屬也會因計(jì)算方法的不同而不同。因此實(shí)際分析中應(yīng)反復(fù)嘗試以最終得到符合實(shí)際的合理解,并保存于SPSS變量中。,2020年4月26日星期日,20,9.2.4層次聚類的應(yīng)用舉例1、利用對5個商廈的評分做聚類分析。2、例:31個省市自治區(qū)小康和現(xiàn)代化指數(shù)的層次聚類分析。利用SPSS層次聚類Q型聚類對31個省市自治區(qū)進(jìn)行分類分析。其中個體距離采用歐式距離,類間距離采用平均組間鏈鎖距離,由于數(shù)據(jù)不存在數(shù)量級上的差異,因此無需進(jìn)行標(biāo)準(zhǔn)化處理。,2020年4月26日星期日,21,9.3K-Means聚類,9.3.1K-Means聚類分析的核心步驟K-Means聚類也稱快速聚類,仍將數(shù)據(jù)看成k維空間上的點(diǎn),仍以距離作為測度個體“親疏程度”的指標(biāo),并通過犧牲多個解為代價(jià)換得高的執(zhí)行效率,其核心步驟是:第一,指定聚類數(shù)目K第二,確定K個初始類中心SPSS中初始類中心的指定方式有兩種:一是用戶指定方式;二是系統(tǒng)指定方式。,2020年4月26日星期日,22,第三,根據(jù)距離最近原則進(jìn)行分類依次計(jì)算每個樣本數(shù)據(jù)點(diǎn)到K個類中心點(diǎn)的歐式距離,并按距K個類中心點(diǎn)距離最短的原則將所有樣本分成K類。第四,重新確定K個類中心中心點(diǎn)的確定原則是,依次計(jì)算各類中k個變量的均值,并以均值點(diǎn)作為K個類的中心點(diǎn)。第五,判斷是否已滿足中止聚類分析的條件條件有兩個:一是迭代次數(shù)(SPSS默認(rèn)為10);二是類中心點(diǎn)偏移程度,即新確定的類中心點(diǎn)距上個類中心點(diǎn)的最大偏移量小于指定的量(SPSS默認(rèn)為0.02)時(shí)中止聚類。,2020年4月26日星期日,23,9.3.2K-Means聚類分析的操作步驟1.選擇選項(xiàng)AnalyzeClassifyK-MeansCluster,打開主窗口。,2020年4月26日星期日,24,2.選定參與K-Means聚類的變量放入Variables框中。3.選擇一個字符型變量作為標(biāo)記變量放入LabelCases框中,增加分析結(jié)果的可讀性。4.在NumberofClusters框中輸入聚類數(shù)目,該數(shù)應(yīng)小于樣本數(shù)。5.如果用戶自行指定初始類中心點(diǎn),則單擊Centers按鈕,并在Readinitialfrom框后給出存放初始類中心的SPSS數(shù)據(jù)文件名;否則本步可略去。,2020年4月26日星期日,25,6.在Method框中指定聚類過程是否調(diào)整類中心點(diǎn)。其中,Iterateandclassify表示在聚類分析的每一步都重新確定類中心點(diǎn)(SPSS默認(rèn));Classifyonly表示聚類分析過程中類中心點(diǎn)始終為初始類中心點(diǎn),此時(shí)僅進(jìn)行一次迭代。7.單擊Iterate按鈕確定中止聚類的條件。在Maximumiterations框后輸入最大迭代次數(shù),在Convergencecriterion框后輸入類中心的偏移量。另外,Userunningmeans選項(xiàng),選中表示每當(dāng)一個樣本被分配到一類時(shí)便立即重新計(jì)算新的類中心點(diǎn),此時(shí)類中心點(diǎn)與樣本分配的前后順序有關(guān);不選該項(xiàng)表示只有當(dāng)完成了所有樣本的類分配后再計(jì)算類中心,該方式可節(jié)省運(yùn)算時(shí)間,通常不選中該選項(xiàng)。,2020年4月26日星期日,26,8.單擊Save按鈕將聚類分析的部分結(jié)果以SPSS變量的形式保存到數(shù)據(jù)編輯窗口中,其中Clustermembership表示保存樣本所屬類的類號;Distancefromclustercenter表示保存樣本距各自類中心點(diǎn)的距離。9.單擊Option按鈕確定輸出哪些相關(guān)分析結(jié)果和缺失值的處理方式。Statistics框中,Initialclustercenters表示輸出初始類中心點(diǎn);ANOVAtable表示以聚類分析產(chǎn)生的類為控制變量,以k個變量為觀測變量進(jìn)行單因素方差分析,并輸出各個變量的方差分析表;Clusterinformationforeachcase表示輸出樣本分類信息及距所屬類中心點(diǎn)的距離。至此完成了K-Means聚類分析的全部操作。,2020年4月26日星期日,27,9.3.3K-Means聚類分析應(yīng)用舉例,用2001年全國31個省市自治區(qū)各類小康好人現(xiàn)代化指數(shù)的數(shù)據(jù),對地區(qū)進(jìn)行K-Means聚類分析,要求分成3類,初始類中心點(diǎn)由SPSS自行確定。,2020年4月26日星期日,28,- 1.請仔細(xì)閱讀文檔,確保文檔完整性,對于不預(yù)覽、不比對內(nèi)容而直接下載帶來的問題本站不予受理。
- 2.下載的文檔,不會出現(xiàn)我們的網(wǎng)址水印。
- 3、該文檔所得收入(下載+內(nèi)容+預(yù)覽)歸上傳者、原創(chuàng)作者;如果您是本文檔原作者,請點(diǎn)此認(rèn)領(lǐng)!既往收益都?xì)w您。
下載文檔到電腦,查找使用更方便
9.9 積分
下載 |
- 配套講稿:
如PPT文件的首頁顯示word圖標(biāo),表示該P(yáng)PT已包含配套word講稿。雙擊word圖標(biāo)可打開word文檔。
- 特殊限制:
部分文檔作品中含有的國旗、國徽等圖片,僅作為作品整體效果示例展示,禁止商用。設(shè)計(jì)者僅對作品中獨(dú)創(chuàng)性部分享有著作權(quán)。
- 關(guān) 鍵 詞:
- SPSS的聚類分析 SPSS 聚類分析 PPT 課件
鏈接地址:http://italysoccerbets.com/p-11499256.html