聚類(lèi)分析(數(shù)學(xué)建模).ppt

上傳人：zhu****ei

文檔編號(hào)：3542208

上傳時(shí)間：2019-12-17

格式：PPT

頁(yè)數(shù)：77

大?。?.76MB

《聚類(lèi)分析(數(shù)學(xué)建模).ppt》由會(huì)員分享，可在線閱讀，更多相關(guān)《聚類(lèi)分析(數(shù)學(xué)建模).ppt（77頁(yè)珍藏版）》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。

聚類(lèi)分析,分類(lèi),俗語(yǔ)說(shuō)，物以類(lèi)聚、人以群分。但什么是分類(lèi)的根據(jù)呢？比如，要想把中國(guó)的縣分成若干類(lèi)，就有很多種分類(lèi)法；可以按照自然條件來(lái)分，比如考慮降水、土地、日照、濕度等各方面；也可以考慮收入、教育水準(zhǔn)、醫(yī)療條件、基礎(chǔ)設(shè)施等指標(biāo)；既可以用某一項(xiàng)來(lái)分類(lèi)，也可以同時(shí)考慮多項(xiàng)指標(biāo)來(lái)分類(lèi)。,一、聚類(lèi)分析的基本概念,研究對(duì)樣品或指標(biāo)進(jìn)行分類(lèi)的一種多元統(tǒng)計(jì)方法,是依據(jù)研究對(duì)象的個(gè)體的特征進(jìn)行分類(lèi)的方法。聚類(lèi)分析把分類(lèi)對(duì)象按一定規(guī)則分成若干類(lèi)，這些類(lèi)非事先給定的，而是根據(jù)數(shù)據(jù)特征確定的。在同一類(lèi)中這些對(duì)象在某種意義上趨向于彼此相似，而在不同類(lèi)中趨向于不相似。職能是建立一種能按照樣品或變量的相似程度進(jìn)行分類(lèi)的方法。,聚類(lèi)分析,對(duì)于一個(gè)數(shù)據(jù)，人們既可以對(duì)變量（指標(biāo)）進(jìn)行分類(lèi)(相當(dāng)于對(duì)數(shù)據(jù)中的列分類(lèi))，也可以對(duì)觀測(cè)值（事件，樣品）來(lái)分類(lèi)（相當(dāng)于對(duì)數(shù)據(jù)中的行分類(lèi)）。比如學(xué)生成績(jī)數(shù)據(jù)就可以對(duì)學(xué)生按照理科或文科成績(jī)（或者綜合考慮各科成績(jī)）分類(lèi)，當(dāng)然，并不一定事先假定有多少類(lèi)，完全可以按照數(shù)據(jù)本身的規(guī)律來(lái)分類(lèi)。本章要介紹的分類(lèi)的方法稱(chēng)為聚類(lèi)分析（clusteranalysis）。對(duì)變量的聚類(lèi)稱(chēng)為R型聚類(lèi)，而對(duì)觀測(cè)值聚類(lèi)稱(chēng)為Q型聚類(lèi)。這兩種聚類(lèi)在數(shù)學(xué)上是對(duì)稱(chēng)的，沒(méi)有什么不同。,聚類(lèi)分析的基本思想是認(rèn)為我們所研究的樣本或指標(biāo)（變量）之間存在著程度不同的相似性（親疏關(guān)系）。于是根據(jù)一批樣本的多個(gè)觀測(cè)指標(biāo)，具體找出一些彼此之間相似程度較大的樣本（或指標(biāo)）聚合為一類(lèi)，把另外一些彼此之間相似程度較大的樣本（或指標(biāo)）又聚合為另一類(lèi)，關(guān)系密切的聚合到一個(gè)小的分類(lèi)單位，關(guān)系疏遠(yuǎn)的聚合到一個(gè)大的分類(lèi)單位，直到把所有樣本（或指標(biāo)）都聚合完畢，把不同的類(lèi)型一一劃分出來(lái)，形成一個(gè)由小到大的分類(lèi)系統(tǒng)。最后把整個(gè)分類(lèi)系統(tǒng)畫(huà)成一張譜系圖，用它把所有樣本（或指標(biāo)）間的親疏關(guān)系表示出來(lái)。這種方法是最常用的、最基本的一種，稱(chēng)為系統(tǒng)聚類(lèi)分析。,飲料數(shù)據(jù)（drink.sav）,16種飲料的熱量、咖啡因、鈉及價(jià)格四種變量,如何度量遠(yuǎn)近？,如果想要對(duì)100個(gè)學(xué)生進(jìn)行分類(lèi)，如果僅僅知道他們的數(shù)學(xué)成績(jī)，則只好按照數(shù)學(xué)成績(jī)來(lái)分類(lèi)；這些成績(jī)?cè)谥本€上形成100個(gè)點(diǎn)。這樣就可以把接近的點(diǎn)放到一類(lèi)。如果還知道他們的物理成績(jī)，這樣數(shù)學(xué)和物理成績(jī)就形成二維平面上的100個(gè)點(diǎn)，也可以按照距離遠(yuǎn)近來(lái)分類(lèi)。三維或者更高維的情況也是類(lèi)似；只不過(guò)三維以上的圖形無(wú)法直觀地畫(huà)出來(lái)而已。在飲料數(shù)據(jù)中，每種飲料都有四個(gè)變量值。這就是四維空間點(diǎn)的問(wèn)題了。,兩個(gè)距離概念,按照遠(yuǎn)近程度來(lái)聚類(lèi)需要明確兩個(gè)概念：一個(gè)是點(diǎn)和點(diǎn)之間的距離，一個(gè)是類(lèi)和類(lèi)之間的距離。點(diǎn)間距離有很多定義方式。最簡(jiǎn)單的是歐氏距離，還有其他的距離。當(dāng)然還有一些和距離相反但起同樣作用的概念，比如相似性等，兩點(diǎn)越相似度越大，就相當(dāng)于距離越短。由一個(gè)點(diǎn)組成的類(lèi)是最基本的類(lèi)；如果每一類(lèi)都由一個(gè)點(diǎn)組成，那么點(diǎn)間的距離就是類(lèi)間距離。但是如果某一類(lèi)包含不止一個(gè)點(diǎn)，那么就要確定類(lèi)間距離，類(lèi)間距離是基于點(diǎn)間距離定義的：比如兩類(lèi)之間最近點(diǎn)之間的距離可以作為這兩類(lèi)之間的距離，也可以用兩類(lèi)中最遠(yuǎn)點(diǎn)之間的距離作為這兩類(lèi)之間的距離；當(dāng)然也可以用各類(lèi)的中心之間的距離來(lái)作為類(lèi)間距離。在計(jì)算時(shí)，各種點(diǎn)間距離和類(lèi)間距離的選擇是通過(guò)統(tǒng)計(jì)軟件的選項(xiàng)實(shí)現(xiàn)的。不同的選擇的結(jié)果會(huì)不同，但一般不會(huì)差太多。,二、距離,用表示第i個(gè)樣本與第j個(gè)樣本之間的距離。一切距離應(yīng)滿足以下條件：,每個(gè)樣本有p個(gè)指標(biāo)，因此每個(gè)樣本可以看成p維空間中的一個(gè)點(diǎn)，n個(gè)樣本就組成p維空間中的n個(gè)點(diǎn)，這時(shí)很自然想到用距離來(lái)度量n個(gè)樣本間的接近程度。,常見(jiàn)的距離有：,minkowskidistance（明氏距離）：,當(dāng)q=1blockdistance絕對(duì)值距離:,當(dāng)q=2squaredeuclideandistance平方歐式距離,當(dāng)q=chebychevdistance切比雪夫距離,明氏距離在實(shí)際中應(yīng)用的很多，但也存在一些缺點(diǎn)：,處理辦法：標(biāo)準(zhǔn)化,2、指標(biāo)間的相關(guān)問(wèn)題；,1、量綱的問(wèn)題；,Mahalanobis馬氏距離,改進(jìn)的辦法，采用馬氏距離,相似系數(shù),夾角余弦,相關(guān)系數(shù),夾角余弦兩變量的夾角余弦定義為：,相關(guān)系數(shù)兩變量的相關(guān)系數(shù)定義為：,16,系統(tǒng)聚類(lèi)方法,1、最短距離（NearestNeighbor),三、系統(tǒng)聚類(lèi)法基本步驟,1.選擇樣本間距離的定義及類(lèi)間距離的定義；2.計(jì)算n個(gè)樣本兩兩之間的距離，得到距離矩陣3.構(gòu)造個(gè)類(lèi)，每類(lèi)只含有一個(gè)樣本；4.合并符合類(lèi)間距離定義要求的兩類(lèi)為一個(gè)新類(lèi)；5.計(jì)算新類(lèi)與當(dāng)前各類(lèi)的距離。若類(lèi)的個(gè)數(shù)為1，則轉(zhuǎn)到步驟6，否則回到步驟4;6.畫(huà)出聚類(lèi)圖；7.決定類(lèi)的個(gè)數(shù)和類(lèi)。,系統(tǒng)聚類(lèi)分析的方法,系統(tǒng)聚類(lèi)法的聚類(lèi)原則決定于樣品間的距離以及類(lèi)間距離的定義，類(lèi)間距離的不同定義就產(chǎn)生了不同的系統(tǒng)聚類(lèi)分析方法。以下用dij表示樣品X(i)和X(j)之間的距離，當(dāng)樣品間的親疏關(guān)系采用相似系數(shù)Cij時(shí)，令；以下用D(p,q)表示類(lèi)Gp和Gq之間的距離。,3.重心法(CENtroidmethod),4.類(lèi)平均法(AVEragemethod),例,為了研究遼寧等5省1991年城鎮(zhèn)居民生活消費(fèi)情況的分布規(guī)律，根據(jù)調(diào)查資料做類(lèi)型分類(lèi)，用最短距離做類(lèi)間分類(lèi)。數(shù)據(jù)如下：,將每一個(gè)省區(qū)視為一個(gè)樣本，先計(jì)算5個(gè)省區(qū)之間的歐式距離，用D0表示距離矩陣（對(duì)稱(chēng)陣，故給出下三角陣）因此將3.4合并為一類(lèi)，為類(lèi)6，替代了3、4兩類(lèi)類(lèi)6與剩余的1、2、5之間的距離分別為：d(3,4)1=min(d31,d41)=min(13.80,13.12)=13.12d(3,4)2=min(d32,d42)=min(24.63,24.06)=24.06d(3,4)5=min(d35,d45)=min(3.51,2.21)=2.21,得到新矩陣合并類(lèi)6和類(lèi)5，得到新類(lèi)7類(lèi)7與剩余的1、2之間的距離分別為：d(5,6)1=min(d51,d61)=min(12.80,13.12)=12.80d(5,6)2=min(d52,d62)=min(23.54,24.06)=23.54,得到新矩陣合并類(lèi)1和類(lèi)2，得到新類(lèi)8此時(shí)，我們有兩個(gè)不同的類(lèi)：類(lèi)7和類(lèi)8。它們的最近距離d(7,8)=min(d71,d72)=min(12.80,23.54)=12.80,得到矩陣最后合并為一個(gè)大類(lèi)。這就是按最短距離定義類(lèi)間距離的系統(tǒng)聚類(lèi)方法。最長(zhǎng)距離法類(lèi)似！,26,最長(zhǎng)距離（FurthestNeighbor）,27,組間平均連接（Between-groupLinkage),28,組內(nèi)平均連接法（Within-groupLinkage),29,重心法（Centroidclustering):均值點(diǎn)的距離,類(lèi)的個(gè)數(shù)的確定,由適當(dāng)?shù)拈撝荡_定；根據(jù)數(shù)據(jù)點(diǎn)的散布直觀地確定類(lèi)的個(gè)數(shù)；根據(jù)統(tǒng)計(jì)量確定分類(lèi)個(gè)數(shù)；,類(lèi)的個(gè)數(shù)的確定,根據(jù)譜系圖確定分類(lèi)個(gè)數(shù)的準(zhǔn)則：各類(lèi)重心間的距離必須很大；類(lèi)中保包含的元素不要太多；類(lèi)的個(gè)數(shù)必須符合實(shí)際應(yīng)用；如果采用幾種不同的聚類(lèi)方法處理，則在各種聚類(lèi)圖中應(yīng)該發(fā)現(xiàn)相同的類(lèi)。,聚類(lèi)分析,1、系統(tǒng)聚類(lèi)法-（分層聚類(lèi)）系統(tǒng)聚類(lèi)法是應(yīng)用最廣泛的一種（HierarchicalCluster過(guò)程）1）、聚類(lèi)原則：都是相近的聚為一類(lèi)，即距離最近或最相似的聚為一類(lèi)。2）、分層聚類(lèi)的方法可以用于樣本聚類(lèi)（Q）型，也可以用于變量聚類(lèi)（R型）。2、非系統(tǒng)聚類(lèi)法-（快速聚類(lèi)法-K-均值聚類(lèi)法）（K-meansCluster)3、兩步聚類(lèi)法-一種探索性的聚類(lèi)方法（TwoStepCluster）,四、系統(tǒng)聚類(lèi)的參數(shù)選擇聚類(lèi)類(lèi)別：統(tǒng)計(jì)圖：樹(shù)型譜系圖冰柱譜系圖聚類(lèi)方法1.Between-groupslinkage類(lèi)間平均法兩類(lèi)距離為兩類(lèi)元素兩兩之間平均平方距離2.Within-groupslinkage類(lèi)內(nèi)平均法兩類(lèi)距離為合并后類(lèi)中可能元素兩兩之間平均平方距離3.Nearestneighbor最短距離法4.Furthestneighbor最長(zhǎng)距離法5.Centroidclustering重心法(歐式距離)6.Medianclustering中間距離法(歐式距離)7.WardMethod離差平方法(歐式距離),數(shù)據(jù)標(biāo)準(zhǔn)化處理：,存儲(chǔ)中間過(guò)程數(shù)據(jù),數(shù)據(jù)標(biāo)準(zhǔn)化處理，并存儲(chǔ)。,指定5類(lèi),收斂標(biāo)準(zhǔn)值,存儲(chǔ)最終結(jié)果輸出情況，在數(shù)據(jù)文件中（QCL-1、QCL-2）,初始聚心選項(xiàng)，輸出方差分析表,初始聚類(lèi)中心表,具體城市看后表,最終聚類(lèi)中心表,聚類(lèi)結(jié)果：QCL-1說(shuō)明聚類(lèi)結(jié)果，QCL-2說(shuō)明聚類(lèi)的長(zhǎng)度情況,主要城市日照時(shí)數(shù),注：連續(xù)變量,SPSS提供不同類(lèi)間距離的測(cè)量方法1、組間連接法2、組內(nèi)連接法3、最近距離法4、最遠(yuǎn)距離法5、重心法6、中位數(shù)法7、Ward最小偏差平方和法,觀測(cè)量概述表,聚類(lèi)步驟，與圖結(jié)合看！,研究各種飲料在市場(chǎng)消費(fèi)的分配規(guī)律，試確定各種飲料消費(fèi)類(lèi)型,聚類(lèi)分析的第幾步,哪兩個(gè)樣本或小類(lèi)聚成一類(lèi),相應(yīng)的樣本距離或小類(lèi)距離,指明是樣本(0)還是小類(lèi)(n),下面第幾步用到,垂直冰柱圖顯示層次聚類(lèi)分析,從冰柱圖最后一行開(kāi)始觀察，第一列表示類(lèi)數(shù),兩步聚類(lèi)法TwoStepCluster,一種探索性的聚類(lèi)方法，是隨著人工智能的發(fā)展起來(lái)的智能聚類(lèi)方法中的一種。用于解決海量數(shù)據(jù)或具有復(fù)雜類(lèi)別結(jié)構(gòu)的聚類(lèi)分析問(wèn)題。,兩步聚類(lèi)法特點(diǎn)：1、同時(shí)處理離散變量和連續(xù)變量的能力2、自動(dòng)選擇聚類(lèi)數(shù)3、通過(guò)預(yù)先選取樣本中的部分?jǐn)?shù)據(jù)構(gòu)建聚類(lèi)模型4、可以處理超大樣本量的數(shù)據(jù),簡(jiǎn)單介紹基本原理分兩步進(jìn)行第一步：預(yù)聚類(lèi)。對(duì)記錄進(jìn)行初始的歸類(lèi)，用戶自定義最大類(lèi)別數(shù)。通過(guò)構(gòu)建和修改特征樹(shù)（CTFree）完成。第二步：正式聚類(lèi)。對(duì)第一步完成的初步聚類(lèi)進(jìn)行再聚類(lèi)并確定最終的聚類(lèi)方案，系統(tǒng)根據(jù)一定的統(tǒng)計(jì)標(biāo)準(zhǔn)確定聚類(lèi)的類(lèi)別數(shù)目。以后，可以通過(guò)傳統(tǒng)的聚類(lèi)方法進(jìn)行聚類(lèi)（SPSS中采用合并型分層聚類(lèi)法）。,輸出各變量在聚類(lèi)中比重圖,輸出出聚類(lèi)餅分圖,每個(gè)變量做一張條圖,每一各類(lèi)別做兩張,分別為連續(xù)與離散聚類(lèi),重要性測(cè)度,1、質(zhì)心表和頻數(shù)表2、聚類(lèi)分析表3、自動(dòng)聚類(lèi)結(jié)果表,聚類(lèi)數(shù)目,數(shù)值越小效果越好,BIC相鄰兩項(xiàng)差值,看數(shù)據(jù)的峰值，看聚類(lèi)效果。4、8、10、14類(lèi)。,BIC準(zhǔn)則-SchwartzBayesianCriterion,離散變量頻數(shù)表的圖形表示,連續(xù)變量在各個(gè)類(lèi)別中的誤差圖,

下載提示(請(qǐng)認(rèn)真閱讀)

1.請(qǐng)仔細(xì)閱讀文檔，確保文檔完整性，對(duì)于不預(yù)覽、不比對(duì)內(nèi)容而直接下載帶來(lái)的問(wèn)題本站不予受理。
2.下載的文檔，不會(huì)出現(xiàn)我們的網(wǎng)址水印。
3、該文檔所得收入（下載+內(nèi)容+預(yù)覽）歸上傳者、原創(chuàng)作者；如果您是本文檔原作者，請(qǐng)點(diǎn)此認(rèn)領(lǐng)！既往收益都?xì)w您。

同意并開(kāi)始全文預(yù)覽

文檔包含非法信息？點(diǎn)此舉報(bào)后獲取現(xiàn)金獎(jiǎng)勵(lì)！

文檔加載中……請(qǐng)稍候！
如果長(zhǎng)時(shí)間未打開(kāi)，您也可以點(diǎn)擊刷新試試。

下載文檔到電腦，查找使用更方便

14.9 積分

還剩頁(yè)未讀，繼續(xù)閱讀

舉報(bào)

版權(quán)申訴 word格式文檔無(wú)特別注明外均可編輯修改；預(yù)覽文檔經(jīng)過(guò)壓縮，下載后原文更清晰！ 立即下載

配套講稿：: 如PPT文件的首頁(yè)顯示word圖標(biāo)，表示該P(yáng)PT已包含配套word講稿。雙擊word圖標(biāo)可打開(kāi)word文檔。
特殊限制：: 部分文檔作品中含有的國(guó)旗、國(guó)徽等圖片，僅作為作品整體效果示例展示，禁止商用。設(shè)計(jì)者僅對(duì)作品中獨(dú)創(chuàng)性部分享有著作權(quán)。
關(guān) 鍵詞：: 聚類(lèi)分析數(shù)學(xué) 建模

溫馨提示:
1: 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

裝配圖網(wǎng)所有資源均是用戶自行上傳分享，僅供網(wǎng)友學(xué)習(xí)交流，未經(jīng)上傳用戶書(shū)面授權(quán)，請(qǐng)勿作他用。

關(guān)于本文

本文標(biāo)題：聚類(lèi)分析(數(shù)學(xué)建模).ppt
鏈接地址：http://italysoccerbets.com/p-3542208.html

相關(guān)資源更多

正為您匹配相似的精品文檔

相關(guān)搜索

聚類(lèi)分析 數(shù)學(xué) 建模

關(guān)于我們 - 網(wǎng)站聲明 - 網(wǎng)站地圖 - 資源地圖 - 友情鏈接 - 網(wǎng)站客服 - 聯(lián)系我們

備案號(hào):蜀ICP備2024067431號(hào)-1 川公網(wǎng)安備51140202000466號(hào)

本站為文檔C2C交易模式，即用戶上傳的文檔直接被用戶下載，本站只是中間服務(wù)平臺(tái)，本站所有文檔下載所得的收益歸上傳人(含作者)所有。裝配圖網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)上載內(nèi)容本身不做任何修改或編輯。若文檔所含內(nèi)容侵犯了您的版權(quán)或隱私，請(qǐng)立即通知裝配圖網(wǎng)，我們立即給予刪除！

聚類(lèi)分析(數(shù)學(xué)建模).ppt

最新文檔