模式識(shí)別第2章課件聚類分析.ppt

資源ID：13228508 資源大?。?span id="7inytmz" class="font-tahoma">1,010.50KB 全文頁(yè)數(shù)：49頁(yè)
資源格式： PPT 下載積分：9.9積分

快捷下載

會(huì)員登錄下載

微信登錄下載

三方登錄下載：

微信掃一掃登錄

下載資源需要9.9積分

郵箱/手機(jī)：
溫馨提示：	用戶名和密碼都是您填寫的郵箱或者手機(jī)號(hào)，方便查詢和重復(fù)下載（系統(tǒng)自動(dòng)生成）
支付方式：
驗(yàn)證碼：	換一換

賬號(hào)：
密碼：
驗(yàn)證碼：	換一換
當(dāng)日自動(dòng)登錄忘記密碼？

友情提示

1、下載資料失敗解決辦法

2、PDF文件下載后，可能會(huì)被瀏覽器默認(rèn)打開，此種情況可以點(diǎn)擊瀏覽器菜單，保存網(wǎng)頁(yè)到桌面，就可以正常下載了。

3、本站不支持迅雷下載，請(qǐng)使用電腦自帶的IE瀏覽器，或者360瀏覽器、谷歌瀏覽器下載即可。

4、本站資源下載后的文檔和圖紙-無(wú)水印,預(yù)覽文檔經(jīng)過(guò)壓縮，下載后原文更清晰。

5、試題試卷類文檔，如果標(biāo)題沒(méi)有明確說(shuō)明有答案則都視為沒(méi)有答案，請(qǐng)知曉。

網(wǎng)站客服

侵權(quán)投訴

模式識(shí)別第2章課件聚類分析.ppt

第二章聚類分析,分類與聚類的區(qū)別,分類：用已知類別的樣本訓(xùn)練集來(lái)設(shè)計(jì)分類器（監(jiān)督學(xué)習(xí)）聚類（集群）：用事先不知類別的樣本，而利用樣本的先驗(yàn)知識(shí)來(lái)構(gòu)造分類器（無(wú)監(jiān)督學(xué)習(xí)）,2.1聚類分析的概念,基本思想：對(duì)一批沒(méi)有標(biāo)明類別及類數(shù)的模式樣本集，根據(jù)模式間的相似程度，按照物以類聚、人以群分的思想，將相似的模式分為一類，不相似的分為另一類。,特征的類型,1.低層特征：無(wú)序尺度：有明確的數(shù)量和數(shù)值。有序尺度：有先后、好壞的次序關(guān)系，如酒分為上，中，下三個(gè)等級(jí)。名義尺度：無(wú)數(shù)量、無(wú)次序關(guān)系，如有紅，黃兩種顏色2.中層特征：經(jīng)過(guò)計(jì)算，變換得到的特征3.高層特征：在中層特征的基礎(chǔ)上有目的的經(jīng)過(guò)運(yùn)算形成例如：椅子的重量=體積*比重體積與長(zhǎng)，寬，高有關(guān)；比重與材料，紋理，顏色有關(guān)。這里低、中、高三層特征都有了。,方法的有效性,特征選取不當(dāng)特征過(guò)少特征過(guò)多量綱問(wèn)題,主要聚類分析技術(shù),譜系法（系統(tǒng)聚類，層次聚類法）基于目標(biāo)函數(shù)的聚類法（動(dòng)態(tài)聚類）圖論聚類法模糊聚類分析法,2.2模式相似度度量,各種距離表示相似性：絕對(duì)值距離已知兩個(gè)樣本xi=(xi1,xi2,xi3,xin)Txj=(xj1,xj2,xj3,xjn)T,歐幾里德距離明考夫斯基距離其中當(dāng)q=1時(shí)為絕對(duì)值距離，當(dāng)q=2時(shí)為歐氏距離,切比雪夫距離q趨向無(wú)窮大時(shí)明氏距離的極限情況馬哈拉諾比斯距離其中xi，xj為特征向量，為協(xié)方差。使用的條件是樣本符合正態(tài)分布,夾角余弦為xixj的均值即樣本間夾角小的為一類，具有相似性例：x1,x2,x3的夾角如圖：因?yàn)閤1,x2的夾角小，所以x1,x2最相似。,x2,x3,相關(guān)系數(shù)為xixj的均值注意：在求相關(guān)系數(shù)之前，要將數(shù)據(jù)標(biāo)準(zhǔn)化,2.3類的定義和與類間距離,用距離進(jìn)行定義類（書）,非監(jiān)督學(xué)習(xí)方法分類,1、基于概率密度函數(shù)估計(jì)的直接方法(不實(shí)用）2、基于樣本間相似性度量的間接聚類方法,兩類間的距離,1、最短距離：兩類中相距最近的兩樣本間的距離。,2、最長(zhǎng)距離：兩類中相距最遠(yuǎn)的兩個(gè)樣本間的距離。3、中間距離：最短距離和最長(zhǎng)距離都有片面性，因此有時(shí)用中間距離。設(shè)1類和23類間的最短距離為d12，最長(zhǎng)距離為d13，23類的長(zhǎng)度為d23，則中間距離為：上式推廣為一般情況：,4、重心距離：均值間的距離5、類平均距離：兩類中各個(gè)元素兩兩之間的距離平方相加后取平均值,6、離差平方和：設(shè)N個(gè)樣品原分q類，則定義第i類的離差平方和為：離差平方和增量：設(shè)樣本已分成p,q兩類，若把p,q合為r類，則定義離差平方：,聚類準(zhǔn)則,類內(nèi)距離越小越好類間距離越大越好一些準(zhǔn)則函數(shù),聚類分析三要素,相似性測(cè)度聚類準(zhǔn)則聚類算法,2.4聚類的算法,（1)根據(jù)相似性閾值和最小距離原則的簡(jiǎn)單聚類法（2）按照最小距離原則不斷進(jìn)行兩類合并的方法（3）依據(jù)準(zhǔn)則函數(shù)的動(dòng)態(tài)動(dòng)態(tài)聚類算法,系統(tǒng)聚類的算法,譜系聚類的算法原理、步驟例：如下圖所示1、設(shè)全部樣本分為6類，2、作距離矩陣D(0),3、求最小元素：4、把1,3合并7=(1,3)4,6合并8=(4,6)5、作距離矩陣D(1),6、若合并的類數(shù)沒(méi)有達(dá)到要求，轉(zhuǎn)3。否則停止。3、求最小元素：4、8,5,2合并,9=（2,5,4,6）,分解聚類,分解聚類：把全部樣本作為一類，然后根據(jù)相似性、相鄰性分解。目標(biāo)函數(shù)兩類均值方差,N：總樣本數(shù)，：1類樣本數(shù)：2類樣本數(shù)，,分解聚類框圖：,對(duì)分算法：略例：已知21個(gè)樣本，每個(gè)樣本取二個(gè)特征，原始資料矩陣如下表：,解：第一次分類時(shí)計(jì)算所有樣本，分別劃到,時(shí)的E值，找出最大的。1、開始時(shí)，,2、分別計(jì)算當(dāng)劃入,時(shí)的E值,把劃入,時(shí)有,然后再把劃入時(shí)對(duì)應(yīng)的E值，找出一個(gè)最大的E值。把劃為的E值最大。,E(1)=56.6,再繼續(xù)進(jìn)行第二，第三次迭代計(jì)算出E(2),E(3),次數(shù)E值156.6279.16390.904102.615120.116137.157154.108176.159195.2610213.0711212.01,第10次迭代劃入時(shí)，E最大。于是分成以下兩類：,每次分類后要重新計(jì)算的值?？捎靡韵逻f推公式：,動(dòng)態(tài)聚類兼顧系統(tǒng)聚類和分解聚類,一、動(dòng)態(tài)聚類的方法概要先選定某種距離作為樣本間的相似性的度量;確定評(píng)價(jià)聚類結(jié)果的準(zhǔn)則函數(shù);給出某種初始分類，用迭代法找出使準(zhǔn)則函數(shù)取極值的最好的聚類結(jié)果。,動(dòng)態(tài)聚類框圖,二、代表點(diǎn)的選取方法：代表點(diǎn)就是初始分類的聚類中心數(shù)k憑經(jīng)驗(yàn)選代表點(diǎn)，根據(jù)問(wèn)題的性質(zhì)、數(shù)據(jù)分布，從直觀上看來(lái)較合理的代表點(diǎn)k;將全部樣本隨機(jī)分成k類，計(jì)算每類重心，把這些重心作為每類的代表點(diǎn);,按密度大小選代表點(diǎn)：以每個(gè)樣本作為球心，以d為半徑做球形;落在球內(nèi)的樣本數(shù)稱為該點(diǎn)的密度，并按密度大小排序。首先選密度最大的作為第一個(gè)代表點(diǎn)，即第一個(gè)聚類中心。再考慮第二大密度點(diǎn)，若第二大密度點(diǎn)距第一代表點(diǎn)的距離大于d1（人為規(guī)定的正數(shù)）則把第二大密度點(diǎn)作為第二代表點(diǎn)，否則不能作為代表點(diǎn)，這樣按密度大小考察下去，所選代表點(diǎn)間的距離都大于d1。d1太小，代表點(diǎn)太多，d1太大，代表點(diǎn)太小，一般選d12d。對(duì)代表點(diǎn)內(nèi)的密度一般要求大于T。T>0為規(guī)定的一個(gè)正數(shù)。用前k個(gè)樣本點(diǎn)作為代表點(diǎn)。,三、初始分類和調(diào)整選一批代表點(diǎn)后，代表點(diǎn)就是聚類中心，計(jì)算其它樣本到聚類中心的距離，把所有樣本歸于最近的聚類中心點(diǎn)，形成初始分類，再重新計(jì)算各聚類中心，稱為成批處理法。選一批代表點(diǎn)后,依次計(jì)算其它樣本的歸類，當(dāng)計(jì)算完第一個(gè)樣本時(shí)，把它歸于最近的一類，形成新的分類。再計(jì)算新的聚類中心，再計(jì)算第二個(gè)樣本到新的聚類中心的距離，對(duì)第二個(gè)樣本歸類。即每個(gè)樣本的歸類都改變一次聚類中心。此法稱為逐個(gè)處理法。直接用樣本進(jìn)行初始分類，先規(guī)定距離d,把第一個(gè)樣品作為第一類的聚類中心，考察第二個(gè)樣本，若第二個(gè)樣本距第一個(gè)聚類中心距離小于d，就把第二個(gè)樣本歸于第一類，否則第二個(gè)樣本就成為第二類的聚類中心，再考慮其它樣本，根據(jù)樣本到聚類中心距離大于還是小于d，決定分裂還是合并。,最佳初始分類。如圖所示，隨著初始分類k的增大，準(zhǔn)則函數(shù)下降很快，經(jīng)過(guò)拐點(diǎn)A后，下降速度減慢。拐點(diǎn)A就是最佳初始分類。,四、C平均算法例：已知有20個(gè)樣本，每個(gè)樣本有2個(gè)特征，數(shù)據(jù)分布如下圖,第一步：令C=2，選初始聚類中心為,第三步：根據(jù)新分成的兩類建立新的聚類中心,第四步：轉(zhuǎn)第二步。第二步：重新計(jì)算到z1(2),z2(2)的距離，把它們歸為最近聚類中心，重新分為兩類，,第三步，更新聚類中心,第四步，第二步，第三步，更新聚類中心,迭代自組織數(shù)據(jù)分析算法（ISOData）,方法步驟（1）任選初始值（中心），C個(gè)（2）將N個(gè)樣本分到C類中（3）計(jì)算距離：（4）要求對(duì)中心分裂，合并新的中心（5）判斷。,上機(jī)作業(yè),已知50個(gè)樣本（隨機(jī)產(chǎn)生），每個(gè)樣本2個(gè)特征（取值在010），數(shù)據(jù)如下：用c平均算法和ISODATA算法分類，編程上機(jī)，并畫出分類圖。,

注意事項(xiàng)

本文（模式識(shí)別第2章課件聚類分析.ppt）為本站會(huì)員（max****ui）主動(dòng)上傳，裝配圖網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)上載內(nèi)容本身不做任何修改或編輯。若此文所含內(nèi)容侵犯了您的版權(quán)或隱私，請(qǐng)立即通知裝配圖網(wǎng)（點(diǎn)擊聯(lián)系客服），我們立即給予刪除！

溫馨提示：如果因?yàn)榫W(wǎng)速或其他原因下載失敗請(qǐng)重新下載，重復(fù)下載不扣分。