聚類(lèi)分析(數(shù)學(xué)建模).ppt
《聚類(lèi)分析(數(shù)學(xué)建模).ppt》由會(huì)員分享,可在線閱讀,更多相關(guān)《聚類(lèi)分析(數(shù)學(xué)建模).ppt(77頁(yè)珍藏版)》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。
聚類(lèi)分析,分類(lèi),俗語(yǔ)說(shuō),物以類(lèi)聚、人以群分。但什么是分類(lèi)的根據(jù)呢?比如,要想把中國(guó)的縣分成若干類(lèi),就有很多種分類(lèi)法;可以按照自然條件來(lái)分,比如考慮降水、土地、日照、濕度等各方面;也可以考慮收入、教育水準(zhǔn)、醫(yī)療條件、基礎(chǔ)設(shè)施等指標(biāo);既可以用某一項(xiàng)來(lái)分類(lèi),也可以同時(shí)考慮多項(xiàng)指標(biāo)來(lái)分類(lèi)。,一、聚類(lèi)分析的基本概念,研究對(duì)樣品或指標(biāo)進(jìn)行分類(lèi)的一種多元統(tǒng)計(jì)方法,是依據(jù)研究對(duì)象的個(gè)體的特征進(jìn)行分類(lèi)的方法。聚類(lèi)分析把分類(lèi)對(duì)象按一定規(guī)則分成若干類(lèi),這些類(lèi)非事先給定的,而是根據(jù)數(shù)據(jù)特征確定的。在同一類(lèi)中這些對(duì)象在某種意義上趨向于彼此相似,而在不同類(lèi)中趨向于不相似。職能是建立一種能按照樣品或變量的相似程度進(jìn)行分類(lèi)的方法。,聚類(lèi)分析,對(duì)于一個(gè)數(shù)據(jù),人們既可以對(duì)變量(指標(biāo))進(jìn)行分類(lèi)(相當(dāng)于對(duì)數(shù)據(jù)中的列分類(lèi)),也可以對(duì)觀測(cè)值(事件,樣品)來(lái)分類(lèi)(相當(dāng)于對(duì)數(shù)據(jù)中的行分類(lèi))。比如學(xué)生成績(jī)數(shù)據(jù)就可以對(duì)學(xué)生按照理科或文科成績(jī)(或者綜合考慮各科成績(jī))分類(lèi),當(dāng)然,并不一定事先假定有多少類(lèi),完全可以按照數(shù)據(jù)本身的規(guī)律來(lái)分類(lèi)。本章要介紹的分類(lèi)的方法稱(chēng)為聚類(lèi)分析(clusteranalysis)。對(duì)變量的聚類(lèi)稱(chēng)為R型聚類(lèi),而對(duì)觀測(cè)值聚類(lèi)稱(chēng)為Q型聚類(lèi)。這兩種聚類(lèi)在數(shù)學(xué)上是對(duì)稱(chēng)的,沒(méi)有什么不同。,聚類(lèi)分析的基本思想是認(rèn)為我們所研究的樣本或指標(biāo)(變量)之間存在著程度不同的相似性(親疏關(guān)系)。于是根據(jù)一批樣本的多個(gè)觀測(cè)指標(biāo),具體找出一些彼此之間相似程度較大的樣本(或指標(biāo))聚合為一類(lèi),把另外一些彼此之間相似程度較大的樣本(或指標(biāo))又聚合為另一類(lèi),關(guān)系密切的聚合到一個(gè)小的分類(lèi)單位,關(guān)系疏遠(yuǎn)的聚合到一個(gè)大的分類(lèi)單位,直到把所有樣本(或指標(biāo))都聚合完畢,把不同的類(lèi)型一一劃分出來(lái),形成一個(gè)由小到大的分類(lèi)系統(tǒng)。最后把整個(gè)分類(lèi)系統(tǒng)畫(huà)成一張譜系圖,用它把所有樣本(或指標(biāo))間的親疏關(guān)系表示出來(lái)。這種方法是最常用的、最基本的一種,稱(chēng)為系統(tǒng)聚類(lèi)分析。,飲料數(shù)據(jù)(drink.sav),16種飲料的熱量、咖啡因、鈉及價(jià)格四種變量,如何度量遠(yuǎn)近?,如果想要對(duì)100個(gè)學(xué)生進(jìn)行分類(lèi),如果僅僅知道他們的數(shù)學(xué)成績(jī),則只好按照數(shù)學(xué)成績(jī)來(lái)分類(lèi);這些成績(jī)?cè)谥本€上形成100個(gè)點(diǎn)。這樣就可以把接近的點(diǎn)放到一類(lèi)。如果還知道他們的物理成績(jī),這樣數(shù)學(xué)和物理成績(jī)就形成二維平面上的100個(gè)點(diǎn),也可以按照距離遠(yuǎn)近來(lái)分類(lèi)。三維或者更高維的情況也是類(lèi)似;只不過(guò)三維以上的圖形無(wú)法直觀地畫(huà)出來(lái)而已。在飲料數(shù)據(jù)中,每種飲料都有四個(gè)變量值。這就是四維空間點(diǎn)的問(wèn)題了。,兩個(gè)距離概念,按照遠(yuǎn)近程度來(lái)聚類(lèi)需要明確兩個(gè)概念:一個(gè)是點(diǎn)和點(diǎn)之間的距離,一個(gè)是類(lèi)和類(lèi)之間的距離。點(diǎn)間距離有很多定義方式。最簡(jiǎn)單的是歐氏距離,還有其他的距離。當(dāng)然還有一些和距離相反但起同樣作用的概念,比如相似性等,兩點(diǎn)越相似度越大,就相當(dāng)于距離越短。由一個(gè)點(diǎn)組成的類(lèi)是最基本的類(lèi);如果每一類(lèi)都由一個(gè)點(diǎn)組成,那么點(diǎn)間的距離就是類(lèi)間距離。但是如果某一類(lèi)包含不止一個(gè)點(diǎn),那么就要確定類(lèi)間距離,類(lèi)間距離是基于點(diǎn)間距離定義的:比如兩類(lèi)之間最近點(diǎn)之間的距離可以作為這兩類(lèi)之間的距離,也可以用兩類(lèi)中最遠(yuǎn)點(diǎn)之間的距離作為這兩類(lèi)之間的距離;當(dāng)然也可以用各類(lèi)的中心之間的距離來(lái)作為類(lèi)間距離。在計(jì)算時(shí),各種點(diǎn)間距離和類(lèi)間距離的選擇是通過(guò)統(tǒng)計(jì)軟件的選項(xiàng)實(shí)現(xiàn)的。不同的選擇的結(jié)果會(huì)不同,但一般不會(huì)差太多。,二、距離,用表示第i個(gè)樣本與第j個(gè)樣本之間的距離。一切距離應(yīng)滿足以下條件:,每個(gè)樣本有p個(gè)指標(biāo),因此每個(gè)樣本可以看成p維空間中的一個(gè)點(diǎn),n個(gè)樣本就組成p維空間中的n個(gè)點(diǎn),這時(shí)很自然想到用距離來(lái)度量n個(gè)樣本間的接近程度。,常見(jiàn)的距離有:,minkowskidistance(明氏距離):,當(dāng)q=1blockdistance絕對(duì)值距離:,當(dāng)q=2squaredeuclideandistance平方歐式距離,當(dāng)q=chebychevdistance切比雪夫距離,明氏距離在實(shí)際中應(yīng)用的很多,但也存在一些缺點(diǎn):,處理辦法:標(biāo)準(zhǔn)化,2、指標(biāo)間的相關(guān)問(wèn)題;,1、量綱的問(wèn)題;,Mahalanobis馬氏距離,改進(jìn)的辦法,采用馬氏距離,相似系數(shù),夾角余弦,相關(guān)系數(shù),夾角余弦兩變量的夾角余弦定義為:,相關(guān)系數(shù)兩變量的相關(guān)系數(shù)定義為:,16,系統(tǒng)聚類(lèi)方法,1、最短距離(NearestNeighbor),三、系統(tǒng)聚類(lèi)法基本步驟,1.選擇樣本間距離的定義及類(lèi)間距離的定義;2.計(jì)算n個(gè)樣本兩兩之間的距離,得到距離矩陣3.構(gòu)造個(gè)類(lèi),每類(lèi)只含有一個(gè)樣本;4.合并符合類(lèi)間距離定義要求的兩類(lèi)為一個(gè)新類(lèi);5.計(jì)算新類(lèi)與當(dāng)前各類(lèi)的距離。若類(lèi)的個(gè)數(shù)為1,則轉(zhuǎn)到步驟6,否則回到步驟4;6.畫(huà)出聚類(lèi)圖;7.決定類(lèi)的個(gè)數(shù)和類(lèi)。,系統(tǒng)聚類(lèi)分析的方法,系統(tǒng)聚類(lèi)法的聚類(lèi)原則決定于樣品間的距離以及類(lèi)間距離的定義,類(lèi)間距離的不同定義就產(chǎn)生了不同的系統(tǒng)聚類(lèi)分析方法。以下用dij表示樣品X(i)和X(j)之間的距離,當(dāng)樣品間的親疏關(guān)系采用相似系數(shù)Cij時(shí),令;以下用D(p,q)表示類(lèi)Gp和Gq之間的距離。,3.重心法(CENtroidmethod),4.類(lèi)平均法(AVEragemethod),例,為了研究遼寧等5省1991年城鎮(zhèn)居民生活消費(fèi)情況的分布規(guī)律,根據(jù)調(diào)查資料做類(lèi)型分類(lèi),用最短距離做類(lèi)間分類(lèi)。數(shù)據(jù)如下:,將每一個(gè)省區(qū)視為一個(gè)樣本,先計(jì)算5個(gè)省區(qū)之間的歐式距離,用D0表示距離矩陣(對(duì)稱(chēng)陣,故給出下三角陣)因此將3.4合并為一類(lèi),為類(lèi)6,替代了3、4兩類(lèi)類(lèi)6與剩余的1、2、5之間的距離分別為:d(3,4)1=min(d31,d41)=min(13.80,13.12)=13.12d(3,4)2=min(d32,d42)=min(24.63,24.06)=24.06d(3,4)5=min(d35,d45)=min(3.51,2.21)=2.21,得到新矩陣合并類(lèi)6和類(lèi)5,得到新類(lèi)7類(lèi)7與剩余的1、2之間的距離分別為:d(5,6)1=min(d51,d61)=min(12.80,13.12)=12.80d(5,6)2=min(d52,d62)=min(23.54,24.06)=23.54,得到新矩陣合并類(lèi)1和類(lèi)2,得到新類(lèi)8此時(shí),我們有兩個(gè)不同的類(lèi):類(lèi)7和類(lèi)8。它們的最近距離d(7,8)=min(d71,d72)=min(12.80,23.54)=12.80,得到矩陣最后合并為一個(gè)大類(lèi)。這就是按最短距離定義類(lèi)間距離的系統(tǒng)聚類(lèi)方法。最長(zhǎng)距離法類(lèi)似!,26,最長(zhǎng)距離(FurthestNeighbor),27,組間平均連接(Between-groupLinkage),28,組內(nèi)平均連接法(Within-groupLinkage),29,重心法(Centroidclustering):均值點(diǎn)的距離,類(lèi)的個(gè)數(shù)的確定,由適當(dāng)?shù)拈撝荡_定;根據(jù)數(shù)據(jù)點(diǎn)的散布直觀地確定類(lèi)的個(gè)數(shù);根據(jù)統(tǒng)計(jì)量確定分類(lèi)個(gè)數(shù);,類(lèi)的個(gè)數(shù)的確定,根據(jù)譜系圖確定分類(lèi)個(gè)數(shù)的準(zhǔn)則:各類(lèi)重心間的距離必須很大;類(lèi)中保包含的元素不要太多;類(lèi)的個(gè)數(shù)必須符合實(shí)際應(yīng)用;如果采用幾種不同的聚類(lèi)方法處理,則在各種聚類(lèi)圖中應(yīng)該發(fā)現(xiàn)相同的類(lèi)。,聚類(lèi)分析,1、系統(tǒng)聚類(lèi)法-(分層聚類(lèi))系統(tǒng)聚類(lèi)法是應(yīng)用最廣泛的一種(HierarchicalCluster過(guò)程)1)、聚類(lèi)原則:都是相近的聚為一類(lèi),即距離最近或最相似的聚為一類(lèi)。2)、分層聚類(lèi)的方法可以用于樣本聚類(lèi)(Q)型,也可以用于變量聚類(lèi)(R型)。2、非系統(tǒng)聚類(lèi)法-(快速聚類(lèi)法-K-均值聚類(lèi)法)(K-meansCluster)3、兩步聚類(lèi)法-一種探索性的聚類(lèi)方法(TwoStepCluster),四、系統(tǒng)聚類(lèi)的參數(shù)選擇聚類(lèi)類(lèi)別:統(tǒng)計(jì)圖:樹(shù)型譜系圖冰柱譜系圖聚類(lèi)方法1.Between-groupslinkage類(lèi)間平均法兩類(lèi)距離為兩類(lèi)元素兩兩之間平均平方距離2.Within-groupslinkage類(lèi)內(nèi)平均法兩類(lèi)距離為合并后類(lèi)中可能元素兩兩之間平均平方距離3.Nearestneighbor最短距離法4.Furthestneighbor最長(zhǎng)距離法5.Centroidclustering重心法(歐式距離)6.Medianclustering中間距離法(歐式距離)7.WardMethod離差平方法(歐式距離),數(shù)據(jù)標(biāo)準(zhǔn)化處理:,存儲(chǔ)中間過(guò)程數(shù)據(jù),數(shù)據(jù)標(biāo)準(zhǔn)化處理,并存儲(chǔ)。,指定5類(lèi),收斂標(biāo)準(zhǔn)值,存儲(chǔ)最終結(jié)果輸出情況,在數(shù)據(jù)文件中(QCL-1、QCL-2),初始聚心選項(xiàng),輸出方差分析表,初始聚類(lèi)中心表,具體城市看后表,最終聚類(lèi)中心表,聚類(lèi)結(jié)果:QCL-1說(shuō)明聚類(lèi)結(jié)果,QCL-2說(shuō)明聚類(lèi)的長(zhǎng)度情況,主要城市日照時(shí)數(shù),注:連續(xù)變量,SPSS提供不同類(lèi)間距離的測(cè)量方法1、組間連接法2、組內(nèi)連接法3、最近距離法4、最遠(yuǎn)距離法5、重心法6、中位數(shù)法7、Ward最小偏差平方和法,觀測(cè)量概述表,聚類(lèi)步驟,與圖結(jié)合看!,研究各種飲料在市場(chǎng)消費(fèi)的分配規(guī)律,試確定各種飲料消費(fèi)類(lèi)型,聚類(lèi)分析的第幾步,哪兩個(gè)樣本或小類(lèi)聚成一類(lèi),相應(yīng)的樣本距離或小類(lèi)距離,指明是樣本(0)還是小類(lèi)(n),下面第幾步用到,垂直冰柱圖顯示層次聚類(lèi)分析,從冰柱圖最后一行開(kāi)始觀察,第一列表示類(lèi)數(shù),兩步聚類(lèi)法TwoStepCluster,一種探索性的聚類(lèi)方法,是隨著人工智能的發(fā)展起來(lái)的智能聚類(lèi)方法中的一種。用于解決海量數(shù)據(jù)或具有復(fù)雜類(lèi)別結(jié)構(gòu)的聚類(lèi)分析問(wèn)題。,兩步聚類(lèi)法特點(diǎn):1、同時(shí)處理離散變量和連續(xù)變量的能力2、自動(dòng)選擇聚類(lèi)數(shù)3、通過(guò)預(yù)先選取樣本中的部分?jǐn)?shù)據(jù)構(gòu)建聚類(lèi)模型4、可以處理超大樣本量的數(shù)據(jù),簡(jiǎn)單介紹基本原理分兩步進(jìn)行第一步:預(yù)聚類(lèi)。對(duì)記錄進(jìn)行初始的歸類(lèi),用戶自定義最大類(lèi)別數(shù)。通過(guò)構(gòu)建和修改特征樹(shù)(CTFree)完成。第二步:正式聚類(lèi)。對(duì)第一步完成的初步聚類(lèi)進(jìn)行再聚類(lèi)并確定最終的聚類(lèi)方案,系統(tǒng)根據(jù)一定的統(tǒng)計(jì)標(biāo)準(zhǔn)確定聚類(lèi)的類(lèi)別數(shù)目。以后,可以通過(guò)傳統(tǒng)的聚類(lèi)方法進(jìn)行聚類(lèi)(SPSS中采用合并型分層聚類(lèi)法)。,輸出各變量在聚類(lèi)中比重圖,輸出出聚類(lèi)餅分圖,每個(gè)變量做一張條圖,每一各類(lèi)別做兩張,分別為連續(xù)與離散聚類(lèi),重要性測(cè)度,1、質(zhì)心表和頻數(shù)表2、聚類(lèi)分析表3、自動(dòng)聚類(lèi)結(jié)果表,聚類(lèi)數(shù)目,數(shù)值越小效果越好,BIC相鄰兩項(xiàng)差值,看數(shù)據(jù)的峰值,看聚類(lèi)效果。4、8、10、14類(lèi)。,BIC準(zhǔn)則-SchwartzBayesianCriterion,離散變量頻數(shù)表的圖形表示,連續(xù)變量在各個(gè)類(lèi)別中的誤差圖,- 1.請(qǐng)仔細(xì)閱讀文檔,確保文檔完整性,對(duì)于不預(yù)覽、不比對(duì)內(nèi)容而直接下載帶來(lái)的問(wèn)題本站不予受理。
- 2.下載的文檔,不會(huì)出現(xiàn)我們的網(wǎng)址水印。
- 3、該文檔所得收入(下載+內(nèi)容+預(yù)覽)歸上傳者、原創(chuàng)作者;如果您是本文檔原作者,請(qǐng)點(diǎn)此認(rèn)領(lǐng)!既往收益都?xì)w您。
下載文檔到電腦,查找使用更方便
14.9 積分
下載 |
- 配套講稿:
如PPT文件的首頁(yè)顯示word圖標(biāo),表示該P(yáng)PT已包含配套word講稿。雙擊word圖標(biāo)可打開(kāi)word文檔。
- 特殊限制:
部分文檔作品中含有的國(guó)旗、國(guó)徽等圖片,僅作為作品整體效果示例展示,禁止商用。設(shè)計(jì)者僅對(duì)作品中獨(dú)創(chuàng)性部分享有著作權(quán)。
- 關(guān) 鍵 詞:
- 聚類(lèi)分析 數(shù)學(xué) 建模
鏈接地址:http://italysoccerbets.com/p-3542208.html