《SPSS的聚類分析》PPT課件.ppt

上傳人：tia****nde

文檔編號：11499256

上傳時(shí)間：2020-04-26

格式：PPT

頁數(shù)：28

大?。?56.50KB

《《SPSS的聚類分析》PPT課件.ppt》由會員分享，可在線閱讀，更多相關(guān)《《SPSS的聚類分析》PPT課件.ppt（28頁珍藏版）》請?jiān)谘b配圖網(wǎng)上搜索。

2020年4月26日星期日,1,第九章SPSS的聚類分析,2020年4月26日星期日,2,9.1聚類分析的一般問題,9.1.1聚類分析的意義聚類分析是統(tǒng)計(jì)學(xué)中研究“物以類聚”問題的多元統(tǒng)計(jì)分析方法。聚類分析是一種建立分類的多元統(tǒng)計(jì)分析方法，它能夠?qū)⒁慌鷺颖荆ɑ蜃兞浚?shù)據(jù)根據(jù)其諸多特征，按照在性質(zhì)上的親疏程度在沒有先驗(yàn)知識的情況下進(jìn)行自動分類，產(chǎn)生多個分類結(jié)果。類內(nèi)部的個體在特征上具有相似性，不同類間個體特征的差異性較大。,2020年4月26日星期日,3,例如，學(xué)校里有些同學(xué)經(jīng)常在一起，關(guān)系比較密切，而他們與另一些同學(xué)卻很少來往，關(guān)系比較疏遠(yuǎn)。究其原因可能會發(fā)現(xiàn)，經(jīng)常在一起的同學(xué)的家庭情況、性格、學(xué)習(xí)成績、課余愛好等方面有許多共同之處，而關(guān)系比較疏遠(yuǎn)的同學(xué)在這些方面有較大的差異性。為了研究家庭情況、性格、學(xué)習(xí)成績、課余愛好等是否會成為劃分學(xué)生小群體的主要決定因素，可以從有關(guān)這些方面的數(shù)據(jù)入手，進(jìn)行客觀分組，然后比較所得的分組是否與實(shí)際相吻合。對學(xué)生的客觀分組就可采用聚類分析方法。,2020年4月26日星期日,4,9.1.2聚類分析中“親疏程度”的度量方法1、定距型變量個體間距離的計(jì)算方式歐式距離（Euclideandistance）平方歐式距離（SquaredEuclideandistance）切比雪夫（Chebychev）距離Block距離明考斯基（Minkowski）距離夾角余弦（Cosine）距離用戶自定義（Customized）距離,2020年4月26日星期日,5,2、計(jì)數(shù)變量個體間距離的計(jì)算方式卡方（Chi-Squaremeasure）距離Phi方（Phi-Squaremeasure）距離3、二值（Binary）變量個體間距離的計(jì)算方式簡單匹配系數(shù)（SimpleMatching）雅科比系數(shù)（Jaccard）注：聚類分析的幾點(diǎn)說明所選擇的變量應(yīng)符合聚類的要求各變量的變量值不應(yīng)有數(shù)量級上的差異各變量間不應(yīng)有較強(qiáng)的線性相關(guān)關(guān)系,2020年4月26日星期日,6,9.2層次聚類,9.2.1層次聚類的兩種類型和兩種方式層次聚類又稱系統(tǒng)聚類，簡單地講是指聚類過程是按照一定層次進(jìn)行的。層次聚類有兩種類型，分別是Q型聚類和R型聚類；層次聚類的聚類方式又有兩種，分別是凝聚方式聚類和分解方式聚類。,2020年4月26日星期日,7,Q型聚類：對樣本進(jìn)行聚類，使具有相似特征的樣本聚集在一起，使差異性大的樣本分離開來。R型聚類：對變量進(jìn)行聚類，使具有相似性的變量聚集在一起，差異性大的變量分離開來，可在相似變量中選擇少數(shù)具有代表性的變量參與其他分析，實(shí)現(xiàn)減少變量個數(shù)，達(dá)到變量降維的目的。,2020年4月26日星期日,8,凝聚方式聚類：其過程是，首先，每個個體自成一類；然后，按照某種方法度量所有個體間的親疏程度，并將其中最“親密”的個體聚成一小類，形成n-1個類；接下來，再次度量剩余個體和小類間的親疏程度，并將當(dāng)前最親密的個體或小類再聚到一類；重復(fù)上述過程，直到所有個體聚成一個大類為止。可見，這種聚類方式對n個個體通過n-1步可凝聚成一大類。分解方式聚類：其過程是，首先，所有個體都屬一大類；然后，按照某種方法度量所有個體間的親疏程度，將大類中彼此間最“疏遠(yuǎn)”的個體分離出去，形成兩類；接下來，再次度量類中剩余個體間的親疏程度，并將最疏遠(yuǎn)的個體再分離出去；重復(fù)上述過程，不斷進(jìn)行類分解，直到所有個體自成一類為止?？梢姡@種聚類方式對包含n個個體的大類通過n-1步可分解成n個個體。SPSS中的層次聚類采用的是凝聚方式。,2020年4月26日星期日,9,9.2.2個體與小類、小類與小類間“親疏程度”的度量方法SPSS中提供了多種度量個體與小類、小類與小類間“親疏程度”的方法。與個體間“親疏程度”的測度方法類似，應(yīng)首先定義個體與小類、小類與小類的距離。距離小的關(guān)系親密，距離大的關(guān)系疏遠(yuǎn)。這里的距離是在個體間距離的基礎(chǔ)上定義的，常見的距離有：,2020年4月26日星期日,10,最近鄰居（NearestNeighbor）距離：個體與小類中每個個體距離的最小值。最遠(yuǎn)鄰居（FurthestNeighbor）距離：個體與小類中每個個體距離的最大值。組間平均鏈鎖（Between-groupslinkage）距離：個體與小類中每個個體距離的平均值。組內(nèi)平均鏈鎖（Within-groupslinkage）距離：個體與小類中每個個體距離以及小類內(nèi)各個體間距離的平均值。重心（Centroidclustering）距離：個體與小類的重心點(diǎn)的距離。離差平方和法（Wardsmethod）：聚類過程中使小類內(nèi)離差平方和增加最小的兩小類應(yīng)首先合并為一類。,2020年4月26日星期日,11,9.2.3層次聚類的基本操作1、選擇菜單AnalyzeClassifyHierarchicalCluster，出現(xiàn)窗口：,2020年4月26日星期日,12,2、把參與層次聚類分析的變量選到Variable(s)框中。3、把一個字符型變量作為標(biāo)記變量選到LabelCasesby框中，它將大大增強(qiáng)聚類分析結(jié)果的可讀性。4、在Cluster框中選擇聚類類型。其中Cases表示進(jìn)行Q型聚類（默認(rèn)類型）；Variables表示進(jìn)行R型聚類。5、在Display框中選擇輸出內(nèi)容。其中Statistics表示輸出聚類分析的相關(guān)統(tǒng)計(jì)量；Plot表示輸出聚類分析的相關(guān)圖形。,2020年4月26日星期日,13,6、單擊Method按鈕指定距離的計(jì)算方法。,2020年4月26日星期日,14,Measure框中給出的是不同變量類型下的個體距離的計(jì)算方法。其中Interval框中的方法適用于連續(xù)型定距變量；Counts框中的方法適用于計(jì)數(shù)型變量；Binary框中的方法適用于二值變量。ClusterMethod框中給出的是計(jì)算個體與小類、小類與小類間距離的方法。7、如果參與聚類分析的變量存在數(shù)量級上的差異，應(yīng)在TransformValues框中的Standardize選項(xiàng)中選擇消除數(shù)量級差的方法。并指定處理是針對變量的還是針對樣本的。Byvariable表示針對變量，適于Q型聚類分析；Bycase表示針對樣本，適于R型聚類分析。,2020年4月26日星期日,15,8、單擊Statistics按鈕指定輸出哪些統(tǒng)計(jì)量,2020年4月26日星期日,16,Agglomerationschedule表示輸出聚類分析的凝聚狀態(tài)表；Proximitymatrix表示輸出個體間的距離矩陣；ClusterMembership框中，None表示不輸出樣本所屬類，SingleSolution表示指定輸出當(dāng)分成n類時(shí)各樣本所屬類，是單一解。Rangeofsolution表示指定輸出當(dāng)分成m至n類（m小于等于n）時(shí)各樣本所屬類，是多個解。,2020年4月26日星期日,17,9、單擊Plot按鈕指定輸出哪種聚類分析圖。,2020年4月26日星期日,18,Dendrogram選項(xiàng)表示表示輸出聚類分析樹形圖；在Icicle框中指定輸出冰掛圖，其中，Allclusters表示輸出聚類分析每個階段的冰掛圖，Specifiedrangeofclusters表示只輸出某個階段的冰掛圖，輸入從第幾步開始，到第幾步結(jié)束，中間間隔幾步；在Orientation框中指定如何顯示冰掛圖，其中，Vertical表示縱向顯示，Horizontal表示橫向水平顯示。樹形圖以躺倒樹的形式展現(xiàn)了聚類分析中的每一次類合并的情況。SPSS自動將各類間的距離映射到025之間，并將凝聚過程近似地表示在圖上。,2020年4月26日星期日,19,10、單擊Save按鈕可以將聚類分析的結(jié)果以變量的形式保存到數(shù)據(jù)編輯窗口中。生成的變量名為clun_m（如clu2_1），其中n表示類數(shù)（如2），m表示是第m次分析（如1）。由于不同的距離計(jì)算方法會產(chǎn)生不同的聚類分析結(jié)果，即使聚成n類，同一樣本的類歸屬也會因計(jì)算方法的不同而不同。因此實(shí)際分析中應(yīng)反復(fù)嘗試以最終得到符合實(shí)際的合理解，并保存于SPSS變量中。,2020年4月26日星期日,20,9.2.4層次聚類的應(yīng)用舉例1、利用對5個商廈的評分做聚類分析。2、例：31個省市自治區(qū)小康和現(xiàn)代化指數(shù)的層次聚類分析。利用SPSS層次聚類Q型聚類對31個省市自治區(qū)進(jìn)行分類分析。其中個體距離采用歐式距離，類間距離采用平均組間鏈鎖距離，由于數(shù)據(jù)不存在數(shù)量級上的差異，因此無需進(jìn)行標(biāo)準(zhǔn)化處理。,2020年4月26日星期日,21,9.3K-Means聚類,9.3.1K-Means聚類分析的核心步驟K-Means聚類也稱快速聚類，仍將數(shù)據(jù)看成k維空間上的點(diǎn)，仍以距離作為測度個體“親疏程度”的指標(biāo)，并通過犧牲多個解為代價(jià)換得高的執(zhí)行效率，其核心步驟是：第一，指定聚類數(shù)目K第二，確定K個初始類中心SPSS中初始類中心的指定方式有兩種：一是用戶指定方式；二是系統(tǒng)指定方式。,2020年4月26日星期日,22,第三，根據(jù)距離最近原則進(jìn)行分類依次計(jì)算每個樣本數(shù)據(jù)點(diǎn)到K個類中心點(diǎn)的歐式距離，并按距K個類中心點(diǎn)距離最短的原則將所有樣本分成K類。第四，重新確定K個類中心中心點(diǎn)的確定原則是，依次計(jì)算各類中k個變量的均值，并以均值點(diǎn)作為K個類的中心點(diǎn)。第五，判斷是否已滿足中止聚類分析的條件條件有兩個：一是迭代次數(shù)（SPSS默認(rèn)為10）；二是類中心點(diǎn)偏移程度，即新確定的類中心點(diǎn)距上個類中心點(diǎn)的最大偏移量小于指定的量（SPSS默認(rèn)為0.02）時(shí)中止聚類。,2020年4月26日星期日,23,9.3.2K-Means聚類分析的操作步驟1.選擇選項(xiàng)AnalyzeClassifyK-MeansCluster，打開主窗口。,2020年4月26日星期日,24,2.選定參與K-Means聚類的變量放入Variables框中。3.選擇一個字符型變量作為標(biāo)記變量放入LabelCases框中，增加分析結(jié)果的可讀性。4.在NumberofClusters框中輸入聚類數(shù)目，該數(shù)應(yīng)小于樣本數(shù)。5.如果用戶自行指定初始類中心點(diǎn)，則單擊Centers按鈕，并在Readinitialfrom框后給出存放初始類中心的SPSS數(shù)據(jù)文件名；否則本步可略去。,2020年4月26日星期日,25,6.在Method框中指定聚類過程是否調(diào)整類中心點(diǎn)。其中，Iterateandclassify表示在聚類分析的每一步都重新確定類中心點(diǎn)（SPSS默認(rèn)）；Classifyonly表示聚類分析過程中類中心點(diǎn)始終為初始類中心點(diǎn)，此時(shí)僅進(jìn)行一次迭代。7.單擊Iterate按鈕確定中止聚類的條件。在Maximumiterations框后輸入最大迭代次數(shù)，在Convergencecriterion框后輸入類中心的偏移量。另外，Userunningmeans選項(xiàng)，選中表示每當(dāng)一個樣本被分配到一類時(shí)便立即重新計(jì)算新的類中心點(diǎn)，此時(shí)類中心點(diǎn)與樣本分配的前后順序有關(guān)；不選該項(xiàng)表示只有當(dāng)完成了所有樣本的類分配后再計(jì)算類中心，該方式可節(jié)省運(yùn)算時(shí)間，通常不選中該選項(xiàng)。,2020年4月26日星期日,26,8.單擊Save按鈕將聚類分析的部分結(jié)果以SPSS變量的形式保存到數(shù)據(jù)編輯窗口中，其中Clustermembership表示保存樣本所屬類的類號；Distancefromclustercenter表示保存樣本距各自類中心點(diǎn)的距離。9.單擊Option按鈕確定輸出哪些相關(guān)分析結(jié)果和缺失值的處理方式。Statistics框中，Initialclustercenters表示輸出初始類中心點(diǎn)；ANOVAtable表示以聚類分析產(chǎn)生的類為控制變量，以k個變量為觀測變量進(jìn)行單因素方差分析，并輸出各個變量的方差分析表；Clusterinformationforeachcase表示輸出樣本分類信息及距所屬類中心點(diǎn)的距離。至此完成了K-Means聚類分析的全部操作。,2020年4月26日星期日,27,9.3.3K-Means聚類分析應(yīng)用舉例,用2001年全國31個省市自治區(qū)各類小康好人現(xiàn)代化指數(shù)的數(shù)據(jù)，對地區(qū)進(jìn)行K-Means聚類分析，要求分成3類，初始類中心點(diǎn)由SPSS自行確定。,2020年4月26日星期日,28,

下載提示(請認(rèn)真閱讀)

1.請仔細(xì)閱讀文檔，確保文檔完整性，對于不預(yù)覽、不比對內(nèi)容而直接下載帶來的問題本站不予受理。
2.下載的文檔，不會出現(xiàn)我們的網(wǎng)址水印。
3、該文檔所得收入（下載+內(nèi)容+預(yù)覽）歸上傳者、原創(chuàng)作者；如果您是本文檔原作者，請點(diǎn)此認(rèn)領(lǐng)！既往收益都?xì)w您。

同意并開始全文預(yù)覽

文檔包含非法信息？點(diǎn)此舉報(bào)后獲取現(xiàn)金獎勵！

文檔加載中……請稍候！
如果長時(shí)間未打開，您也可以點(diǎn)擊刷新試試。

下載文檔到電腦，查找使用更方便

9.9 積分

還剩頁未讀，繼續(xù)閱讀

舉報(bào)

版權(quán)申訴 word格式文檔無特別注明外均可編輯修改；預(yù)覽文檔經(jīng)過壓縮，下載后原文更清晰！ 立即下載

配套講稿：: 如PPT文件的首頁顯示word圖標(biāo)，表示該P(yáng)PT已包含配套word講稿。雙擊word圖標(biāo)可打開word文檔。
特殊限制：: 部分文檔作品中含有的國旗、國徽等圖片，僅作為作品整體效果示例展示，禁止商用。設(shè)計(jì)者僅對作品中獨(dú)創(chuàng)性部分享有著作權(quán)。
關(guān) 鍵詞：: SPSS的聚類分析 SPSS 聚類分析 PPT 課件

溫馨提示:
1: 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

裝配圖網(wǎng)所有資源均是用戶自行上傳分享，僅供網(wǎng)友學(xué)習(xí)交流，未經(jīng)上傳用戶書面授權(quán)，請勿作他用。

關(guān)于本文

本文標(biāo)題：《SPSS的聚類分析》PPT課件.ppt
鏈接地址：http://italysoccerbets.com/p-11499256.html

相關(guān)資源更多

正為您匹配相似的精品文檔

相關(guān)搜索

SPSS的聚類分析 SPSS 聚類分析 PPT 課件

關(guān)于我們 - 網(wǎng)站聲明 - 網(wǎng)站地圖 - 資源地圖 - 友情鏈接 - 網(wǎng)站客服 - 聯(lián)系我們

備案號:蜀ICP備2024067431號-1 川公網(wǎng)安備51140202000466號

本站為文檔C2C交易模式，即用戶上傳的文檔直接被用戶下載，本站只是中間服務(wù)平臺，本站所有文檔下載所得的收益歸上傳人(含作者)所有。裝配圖網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對上載內(nèi)容本身不做任何修改或編輯。若文檔所含內(nèi)容侵犯了您的版權(quán)或隱私，請立即通知裝配圖網(wǎng)，我們立即給予刪除！

《SPSS的聚類分析》PPT課件.ppt

最新文檔