聚類(lèi)分析讀書(shū)報(bào)告.doc

資源ID：6523702 資源大?。?span id="zpdnpjb" class="font-tahoma">423KB 全文頁(yè)數(shù)：11頁(yè)
資源格式： DOC 下載積分：9.9積分

快捷下載

會(huì)員登錄下載

微信登錄下載

三方登錄下載：

微信掃一掃登錄

下載資源需要9.9積分

郵箱/手機(jī)：
溫馨提示：	用戶(hù)名和密碼都是您填寫(xiě)的郵箱或者手機(jī)號(hào)，方便查詢(xún)和重復(fù)下載（系統(tǒng)自動(dòng)生成）
支付方式：
驗(yàn)證碼：	換一換

賬號(hào)：
密碼：
驗(yàn)證碼：	換一換
當(dāng)日自動(dòng)登錄忘記密碼？

友情提示

1、下載資料失敗解決辦法

2、PDF文件下載后，可能會(huì)被瀏覽器默認(rèn)打開(kāi)，此種情況可以點(diǎn)擊瀏覽器菜單，保存網(wǎng)頁(yè)到桌面，就可以正常下載了。

3、本站不支持迅雷下載，請(qǐng)使用電腦自帶的IE瀏覽器，或者360瀏覽器、谷歌瀏覽器下載即可。

4、本站資源下載后的文檔和圖紙-無(wú)水印,預(yù)覽文檔經(jīng)過(guò)壓縮，下載后原文更清晰。

5、試題試卷類(lèi)文檔，如果標(biāo)題沒(méi)有明確說(shuō)明有答案則都視為沒(méi)有答案，請(qǐng)知曉。

網(wǎng)站客服

侵權(quán)投訴

聚類(lèi)分析讀書(shū)報(bào)告.doc

聚類(lèi)分析讀書(shū)報(bào)告王晨研數(shù)理1535 1152209008基本原理聚類(lèi)問(wèn)題實(shí)際上是將一組數(shù)據(jù)分成若干個(gè)組，每個(gè)組里的對(duì)象具有很大的相似性，不同的組之間存在盡量大的差異性。在這些組之間尋找數(shù)據(jù)之間內(nèi)在的聯(lián)系。這個(gè)過(guò)程實(shí)際上是一中在無(wú)監(jiān)督狀態(tài)下尋找最優(yōu)劃分的過(guò)程。聚類(lèi)有效性的評(píng)價(jià)可以參考以下幾個(gè)指標(biāo)：聚類(lèi)質(zhì)量的度量、聚類(lèi)算法與某種數(shù)據(jù)集適合的程度、劃分的最佳聚類(lèi)數(shù)目。聚類(lèi)分析的內(nèi)容十分豐富，一般情況下按方法可以分為以下幾種：系統(tǒng)聚類(lèi)法，調(diào)優(yōu)法(動(dòng)態(tài)聚類(lèi)法)，最優(yōu)分割法(有序樣品聚類(lèi)法)，模糊聚類(lèi)法，圖論聚類(lèi)法，聚類(lèi)預(yù)報(bào)法。按照分類(lèi)對(duì)象的不同可以分為R型和Q型兩大類(lèi)，R型是對(duì)變量進(jìn)行分類(lèi)，Q型是對(duì)樣品進(jìn)行分類(lèi)。聚類(lèi)分析就是用數(shù)學(xué)方法研究和處理給定對(duì)象的分類(lèi)。聚類(lèi)問(wèn)題是一個(gè)久遠(yuǎn)的問(wèn)題，是隨著人類(lèi)的產(chǎn)生和社會(huì)的發(fā)展而不斷深化的一個(gè)問(wèn)題。人們要認(rèn)知世界、改變世界就要區(qū)分不同的事物并感知存在于不同事物間的相似性。經(jīng)典分類(lèi)學(xué)是從單對(duì)象或有限的幾個(gè)對(duì)象出發(fā)，單憑經(jīng)驗(yàn)或?qū)I(yè)知識(shí)對(duì)事物進(jìn)行分類(lèi)。這種分類(lèi)具有的優(yōu)點(diǎn)是界限非常清晰。但是，隨著人們認(rèn)識(shí)的加深，發(fā)現(xiàn)這種分類(lèi)常常不適用于具有模糊性的分類(lèi)問(wèn)題。如把人按漂亮分為“漂亮的人，“不漂亮的人”。這就產(chǎn)生了經(jīng)典分類(lèi)方法解決不了的問(wèn)題一如何判定某個(gè)人的類(lèi)別。由此產(chǎn)生了模糊聚類(lèi)分析，應(yīng)用模糊聚類(lèi)得到了對(duì)象屬于不同類(lèi)別的不確定性程度，表達(dá)了樣本類(lèi)屬的中介性，更能客觀地反映現(xiàn)實(shí)世界。我們把應(yīng)用普通數(shù)學(xué)方法進(jìn)行分類(lèi)的聚類(lèi)方法稱(chēng)為普通聚類(lèi)分析，而把應(yīng)用模糊數(shù)學(xué)方法進(jìn)行分析的聚類(lèi)分析稱(chēng)為模糊聚類(lèi)分析。1.1三種類(lèi)的定義：【定義一】設(shè)閾值是給定的正數(shù)，若集合中任何兩個(gè)元素的距離都滿(mǎn)足：，則稱(chēng)對(duì)于閾值組成一個(gè)類(lèi)?！径x二】設(shè)閾值是給定的正數(shù)，若集合中每個(gè)都滿(mǎn)足：，其中，是集合中元素的個(gè)數(shù)，則稱(chēng)對(duì)于閾值組成一個(gè)類(lèi)?！径x三】設(shè)和是兩個(gè)給定的正數(shù)，如果集合中兩兩元素距離的平均滿(mǎn)足：，其中是集合中元素的個(gè)數(shù)，則稱(chēng)對(duì)于閾值，組成一個(gè)類(lèi)。1.2類(lèi)的性質(zhì)特征：設(shè)類(lèi)包含的樣品為，其中為元總體的樣本，可以從不同角度來(lái)刻畫(huà)：（1）的重心（或稱(chēng)均值）：（2）樣本離差陣及樣本協(xié)方差陣分別為：（3）類(lèi)的直徑：用表示類(lèi)的直徑，通常用以下來(lái)表示直徑，距離與相似系數(shù)對(duì)樣品進(jìn)行分類(lèi)，就需要研究它們之間的關(guān)系，現(xiàn)在用的較多的是距離和相似系數(shù)。1.3距離把個(gè)樣品看成是維空間中的個(gè)點(diǎn)，那么兩個(gè)樣品間的相似系數(shù)用度量。一般要求：，對(duì)任意；當(dāng)；，對(duì)任意；，對(duì)任意。1.3.1明氏（Minkowski）距離，當(dāng)時(shí)的一階明氏距離為即絕對(duì)距離當(dāng)時(shí)，即歐氏距離當(dāng)趨于時(shí)，，即為切比雪夫距離。1.3.2馬氏（Mahalanobis)距離馬氏距離是1936年印度的馬哈拉諾比斯提出的，具有很重要的作用。為指標(biāo)的協(xié)方差陣，其中，，當(dāng)存在時(shí)，則為馬氏距離。樣品到總體的馬氏距離定義為，其中為總體的均值向量。1.3.3蘭氏(Canberra)距離蘭氏距離是由蘭思和威廉姆斯所給定的一種距離。其計(jì)算公式為：， 1.3.4杰氏距離杰氏距離是由杰斐瑞和馬突斯塔提出的。計(jì)算公式為：1.3.5斜交空間距離由于變量之間往往存在著不同的相關(guān)關(guān)系，正交空間的距離計(jì)算樣本空間易變性，可以采用斜交空間距離。1.4相似系數(shù)為了將樣品進(jìn)行分類(lèi)，研究樣品之間的關(guān)系，采用相似系數(shù)的方法；性質(zhì)接近的樣品，相似系數(shù)就越接近1或者-1，而無(wú)關(guān)系的樣品的相關(guān)系數(shù)就越接近0.比較相似的樣品歸為一類(lèi)，不相似的樣品歸屬不同的類(lèi)。設(shè) （為常數(shù)）；，對(duì)任意均成立；，對(duì)任意均成立。這里的絕對(duì)值越接近1，表示和越相似。反之，兩者關(guān)系疏遠(yuǎn)。常用的相似系數(shù)有：夾角余弦當(dāng)和平行式，夾角，說(shuō)明這兩個(gè)向量完全相似；當(dāng)和正交時(shí)，夾角，說(shuō)明這兩個(gè)向量不相關(guān)。相關(guān)系數(shù)表示兩個(gè)向量線(xiàn)性相關(guān)。指數(shù)相似系數(shù)非參數(shù)方法令相似系數(shù)定義為當(dāng)非負(fù)時(shí)，有三種相似系數(shù)：聯(lián)列系數(shù)1.5聚類(lèi)分析的性質(zhì)1.5.1單調(diào)性設(shè)為系統(tǒng)聚類(lèi)中第次并類(lèi)時(shí)的距離。如果，則稱(chēng)它具有單調(diào)性。在聚類(lèi)方法當(dāng)中，可以證明的是只有重心法和中間距離法不具有單調(diào)性。圖2為一個(gè)等角三角形，兩個(gè)腰長(zhǎng)為1.1，底邊是1，則第一次A，B并為一類(lèi)，并類(lèi)的距離幾=l，第二次并類(lèi)的距離是C至AB中點(diǎn)的距離，它是AB邊的高，它等于。所以重心法不能夠滿(mǎn)足單調(diào)性。1.5.2空間的濃縮與擴(kuò)張?jiān)O(shè)兩個(gè)同階矩陣和。如果的每一個(gè)元素不小于相應(yīng)元素，則記為。特別的如果矩陣的元素非負(fù)，則有.如果，表示將的每一個(gè)元素平方，則。令，則若有兩個(gè)系統(tǒng)聚類(lèi)法，在第步距離陣記為和，若則稱(chēng)比使空間擴(kuò)張或比使空間濃縮。這種性質(zhì)稱(chēng)為最長(zhǎng)距離法比最短距離法擴(kuò)張；或最短距離法比最長(zhǎng)距離法濃縮。基本方法聚類(lèi)方法主要有劃分聚類(lèi)法、層次聚類(lèi)法和密度聚類(lèi)法、基于網(wǎng)格的方法和基于模型的方法等。2.1層次聚類(lèi)CURE算法層次聚類(lèi)方法是一種目前應(yīng)用較廣的聚類(lèi)技術(shù)，是一種針對(duì)大型數(shù)據(jù)庫(kù)的高效的聚類(lèi)算法，可為用戶(hù)提供多種可選的聚類(lèi)結(jié)果，可以隨時(shí)完成聚類(lèi)實(shí)施過(guò)程。CURE，ROCK和CHAMELEON算法是聚合聚類(lèi)中最具代表性的三個(gè)方法。Guha等人在1998年提出了CURE算法。該方法選擇數(shù)據(jù)空間中固定數(shù)目的、具有代表性的一些點(diǎn)共同來(lái)表示相應(yīng)的類(lèi)，這樣就可以識(shí)別具有復(fù)雜形狀和不同大小的聚類(lèi)，找到更合適的孤立點(diǎn)。ROCK算法是對(duì)CURE的改進(jìn)，適用于類(lèi)別屬性的數(shù)據(jù)。CHAMELEON算法是KaryPis等人于1999年提出來(lái)的，它在聚合聚類(lèi)的過(guò)程中利用了動(dòng)態(tài)建模的技術(shù)。例如在“自底向上”方案中，初始時(shí)每一個(gè)數(shù)據(jù)紀(jì)錄都組成一個(gè)單獨(dú)的組，在接下來(lái)的迭代中，它把那些相互鄰近的組合并成一個(gè)組，直到所有的記錄組成一個(gè)分組或者某個(gè)條件滿(mǎn)足為止。它是一種分裂的層次聚類(lèi)。CURE采用了用多個(gè)點(diǎn)代表一個(gè)簇的方法，可以較好的處理以上問(wèn)題。并且在處理大數(shù)據(jù)量的時(shí)候采用了隨機(jī)取樣，分區(qū)的方法，來(lái)提高其效率，使得其可以高效的處理大量數(shù)據(jù)。算法分為以下六步：(1)從原始數(shù)據(jù)中抽取一個(gè)隨機(jī)樣本S。(2)將樣本S分割為一組劃分。(3)對(duì)每個(gè)劃分局部的聚類(lèi)。(4)通過(guò)隨機(jī)取樣剔除孤立點(diǎn)。如果一個(gè)類(lèi)增長(zhǎng)太慢，就去掉它。(5)對(duì)局部的類(lèi)進(jìn)行聚類(lèi)。落在每個(gè)新形成的類(lèi)中的代表點(diǎn)根據(jù)用戶(hù)定義的一個(gè)收縮因子收縮或向類(lèi)中心移動(dòng)。這些點(diǎn)代表和捕捉到了類(lèi)的形狀。(6)用相應(yīng)的類(lèi)標(biāo)簽來(lái)標(biāo)記數(shù)據(jù)。CURE算法的思想主要體現(xiàn)在如下幾個(gè)方面：(1)CURE算法采用的是聚結(jié)層次聚類(lèi)。把每一個(gè)對(duì)象設(shè)立為一個(gè)類(lèi)，隨即根據(jù)相似點(diǎn)對(duì)它們進(jìn)行合并。(2)CURE算法采用分割方法，先把樣本分割為幾塊然后針對(duì)各個(gè)部分中的對(duì)象分別進(jìn)行局部聚類(lèi)，形成子類(lèi)。再對(duì)子類(lèi)進(jìn)行聚類(lèi)，形成新的類(lèi)。2.2 BIRCH方法BIRCH(Balanced Iterative Reducing and clustering using Hierarchies)是專(zhuān)門(mén)針對(duì)大規(guī)模數(shù)據(jù)集提出的聚集型層次聚類(lèi)算法，它綜合了層次凝聚和迭代的重定位方法。首先用自底向上的層次算法，然后用迭代的重定位來(lái)改進(jìn)結(jié)果。它的主要思想是：掃描數(shù)據(jù)庫(kù)，建立一個(gè)初始存放于內(nèi)存中的聚類(lèi)特征樹(shù)，然后對(duì)聚類(lèi)特征樹(shù)的葉結(jié)點(diǎn)進(jìn)行聚類(lèi)。聚類(lèi)特征的定義(CF)：一個(gè)聚類(lèi)特征(CF)是一個(gè)三元組(N，LS，SS)，其中N是簇中的點(diǎn)的數(shù)目，LS是N個(gè)點(diǎn)的線(xiàn)性和，SS是N個(gè)點(diǎn)的平方和。聚類(lèi)特征樹(shù)的定義(CF樹(shù))：一顆CF樹(shù)是一個(gè)帶有分支因子B的平衡樹(shù)，每一個(gè)內(nèi)部結(jié)點(diǎn)對(duì)于每一個(gè)子結(jié)點(diǎn)都包含一個(gè)CF三元組。每個(gè)葉結(jié)點(diǎn)也代表一個(gè)簇，并且對(duì)于其中每一個(gè)子簇都包含一個(gè)CF條目。在葉結(jié)點(diǎn)中的子簇要有一個(gè)不超過(guò)給定閾值T的直徑。合并假定：假定個(gè)簇進(jìn)行合并，個(gè)簇的聚類(lèi)特征表示為，其中，那么合并后簇為，其聚類(lèi)特征為其中，合并后簇的聚類(lèi)特征精確地表示了兩個(gè)聚類(lèi)合并后的漸增性。在層次聚類(lèi)方法中，要按照一定的相似性判斷標(biāo)準(zhǔn)合并最相似的部分，或者分割最不相似的兩個(gè)部分，判斷各個(gè)類(lèi)之間的相似程度的準(zhǔn)則是：假設(shè)和是聚結(jié)過(guò)程中同一層次上的兩個(gè)類(lèi)，和分別是和兩個(gè)類(lèi)中的對(duì)象數(shù)目，為中的任意一個(gè)對(duì)象，為中的任意一個(gè)對(duì)象，為中對(duì)象的平均值，為中對(duì)象的平均值，下面的四種距離計(jì)算被廣泛地應(yīng)用于計(jì)算兩個(gè)類(lèi)之間的差異度：平均值距離：，平均距離：，最大距離：最小距離：BIRCH聚類(lèi)算法利用特征樹(shù)結(jié)構(gòu)對(duì)數(shù)據(jù)集進(jìn)行聚類(lèi)，算法主要過(guò)程為：首先，將所有初始數(shù)據(jù)掃描，建立一個(gè)原始化聚集CF樹(shù)，盡最大可能使得特征樹(shù)包含所有信息；然后，用聚集特征代替原有數(shù)據(jù)集進(jìn)行聚類(lèi)。在第一階段，CF樹(shù)是隨著原始數(shù)據(jù)的加入而自動(dòng)形成的；一個(gè)對(duì)象被放入那個(gè)離它最近的葉子結(jié)點(diǎn)中去。如果放入以后這個(gè)簇的半徑大于閾值T的話(huà)，那么這個(gè)葉結(jié)點(diǎn)就會(huì)被分割。插入過(guò)程類(lèi)似于B+樹(shù)構(gòu)建中的插入和結(jié)點(diǎn)分裂。2.3 劃分法(Partitioning methods )劃分法(Partitioning methods)通常是指給定數(shù)據(jù)庫(kù)，其中有N個(gè)元素，采用分裂法將其構(gòu)造為K個(gè)組，每一個(gè)分組就代表一個(gè)聚類(lèi)，K<N。而且這K個(gè)分組滿(mǎn)足下列條件：(1)每一個(gè)分組至少包含一個(gè)數(shù)據(jù)紀(jì)錄；(2)每一個(gè)數(shù)據(jù)紀(jì)錄屬于且僅屬于一個(gè)分組；對(duì)于給定的K，算法首先給出一個(gè)初始的分組方法，以后通過(guò)反復(fù)迭代的方法改變分組，使得每一次改進(jìn)之后的分組方案都較前一次好。我們通常使用的K一MEANS算法、K一MEDO工DS算法、CLARANS算法基本上都采用這中思想。K一MEANS算法首先是輸入量為K；然后將N個(gè)數(shù)據(jù)對(duì)象劃分為K個(gè)聚類(lèi)使得到的聚類(lèi)滿(mǎn)足：(1)同一聚類(lèi)中的數(shù)據(jù)相似度較高，(2)而不同聚類(lèi)中的數(shù)據(jù)相似度較小。聚類(lèi)相似度是利用各聚類(lèi)中對(duì)象的均值所獲得一個(gè)“中心對(duì)象”來(lái)進(jìn)行計(jì)算的。CLARA算法的思想就是用實(shí)際數(shù)據(jù)的抽樣來(lái)代替整個(gè)數(shù)據(jù)，然后再在這些抽樣的數(shù)據(jù)上利用K一medoids算法得到最佳的medoids。CLRAR算法從實(shí)際數(shù)據(jù)中抽取多個(gè)采樣，在每個(gè)采樣上都用K一medoids算法得到相應(yīng)的，然后在這當(dāng)中選取E最小的一個(gè)作為最終的結(jié)果。2.4 K_means算法K_means算法是劃分聚類(lèi)中較流行的一種算法，它是一種迭代的聚類(lèi)算法，迭代過(guò)程中不斷移動(dòng)簇集中的對(duì)象，直至得到理想的簇集為止，每個(gè)簇用該簇中對(duì)象的平均值來(lái)表示。利用k_means算法得到的簇，簇中對(duì)象的相似度很高，不同簇中對(duì)象之間的相異度也很高。算法的主要步驟為：從n個(gè)數(shù)據(jù)對(duì)象隨機(jī)選取k個(gè)對(duì)象作為初始簇中心；計(jì)算每個(gè)簇的平均值，并用該平均值代表相應(yīng)的簇；根據(jù)每個(gè)對(duì)象與各個(gè)簇中心的距離，分配給最近的簇；轉(zhuǎn)第二步，重新計(jì)算每個(gè)簇的平均值。這個(gè)過(guò)程不斷重復(fù)直到滿(mǎn)足某個(gè)準(zhǔn)則函數(shù)不再明顯變化或者聚類(lèi)的對(duì)象不再變化才停止。一般，K_means算法的準(zhǔn)則函數(shù)采用平方誤差準(zhǔn)則，定義為：其中，是數(shù)據(jù)集中所有對(duì)象與相應(yīng)類(lèi)聚中心的均方差之和，為給定的數(shù)據(jù)對(duì)象，為聚類(lèi)的均值（和均是多維的）。2.5基于密度的DBSCAN算法DBSCAN算法屬于基于密度的方法當(dāng)中的一個(gè)。密度聚類(lèi)法是指只要一個(gè)區(qū)域中的點(diǎn)的密度大于某個(gè)值，就把它添加到與之相鄰的類(lèi)中。DBS以N算法是密度聚類(lèi)法中一個(gè)具有代表的算法，它將簇定義為密度相連的點(diǎn)的最大集合，只要臨近區(qū)域的密度(對(duì)象或數(shù)據(jù)點(diǎn)的數(shù)目)超來(lái)控制簇的增長(zhǎng)?；径x：點(diǎn)的鄰域，以選定點(diǎn)為中心，以為半徑的區(qū)域：1. 核心點(diǎn)：如果一個(gè)點(diǎn)的領(lǐng)域包含最小數(shù)目個(gè)點(diǎn)，則稱(chēng)該點(diǎn)為核心點(diǎn)。2. 直接密度可達(dá)：如果點(diǎn)p在點(diǎn)q的領(lǐng)域內(nèi)，而q是一個(gè)核心點(diǎn)，則稱(chēng)該點(diǎn)p是從點(diǎn)q直接密度可達(dá)。3. 間接密度可達(dá)：給定一個(gè)點(diǎn)集，如果存在一個(gè)點(diǎn)鏈，對(duì)，是從關(guān)于和直接密度可達(dá)的，則點(diǎn)p是從點(diǎn)q關(guān)于和間接密度可達(dá)。4. 密度相連：如果點(diǎn)集M中存在一個(gè)點(diǎn)o，使得點(diǎn)p和q，是從o關(guān)于和間接密度可達(dá)，則稱(chēng)點(diǎn)p和q是關(guān)于和密度相連。5. 噪聲：不屬于密度可達(dá)或密度相連集合的點(diǎn)(即孤立點(diǎn))，稱(chēng)為噪聲。2.6 CLARANS算法CLARANS算法是一種分割聚類(lèi)方法。它首先隨機(jī)選擇一個(gè)點(diǎn)作為當(dāng)前點(diǎn)，然后隨機(jī)檢查它周?chē)怀^(guò)參數(shù)Maxneighbor個(gè)的一些鄰接點(diǎn)，若能找到一個(gè)更適合的點(diǎn)，把它移入該臨近點(diǎn)。然后再隨機(jī)選擇一個(gè)點(diǎn)來(lái)尋找另一個(gè)局部最小量，直至所找到的局部最小量數(shù)目達(dá)到用戶(hù)要求為止。該算法要求聚類(lèi)的對(duì)象必須都預(yù)先調(diào)人內(nèi)存，并且需多次掃描數(shù)據(jù)集，這對(duì)大數(shù)據(jù)量而言，無(wú)論時(shí)間復(fù)雜度還是空間復(fù)雜度都相當(dāng)大。2.7 CLIQUE算法CLIQUE算法為自動(dòng)子空間聚類(lèi)算法。該算法利用自頂向上方法求出各個(gè)子空間的聚類(lèi)單元。CLIQUE算法主要用于找出在高維數(shù)據(jù)空間中存在的低維聚類(lèi)。為了求出d維空間聚類(lèi)，必須組合給出所有維子空間的聚類(lèi)，導(dǎo)致其算法的空間和時(shí)間效率都較低，而且要求用戶(hù)輸入兩個(gè)參數(shù)：數(shù)據(jù)取值空間等間隔距離和密度閾值。這兩個(gè)參數(shù)與樣木數(shù)據(jù)緊密相關(guān)，用戶(hù)一般難以確定。優(yōu)缺點(diǎn)及解決方法優(yōu)點(diǎn)缺點(diǎn)層次法識(shí)別形狀復(fù)雜、大小不一的聚類(lèi)，過(guò)濾孤立點(diǎn)。一旦一組對(duì)象合并，下一步將在新生成的類(lèi)上進(jìn)行；因?yàn)楹喜⒒蚍至训臎Q定需要檢查和估算大量的對(duì)象或類(lèi)。劃分法計(jì)算時(shí)間段，速度快；容易解釋?zhuān)痪垲?lèi)效果好。結(jié)果好壞依賴(lài)對(duì)初始聚類(lèi)中心的選擇；容易陷入局部最優(yōu)解；對(duì)K值的選擇沒(méi)有準(zhǔn)則可依循；對(duì)異常數(shù)據(jù)較為敏感；只能處理數(shù)值屬性的數(shù)據(jù)；聚類(lèi)結(jié)構(gòu)可能不平衡?；诿芏鹊姆椒ㄓ休^強(qiáng)的抗“噪聲”的能力若原始數(shù)據(jù)庫(kù)中有較大的聚類(lèi)，則難解決存儲(chǔ)核心對(duì)象信息的問(wèn)題；輸入?yún)?shù)敏感；當(dāng)數(shù)據(jù)分布不均勻時(shí)聚類(lèi)質(zhì)量較差。對(duì)于層次法的改進(jìn)：聚集特征樹(shù)的大小可以通過(guò)調(diào)節(jié)參數(shù)來(lái)改變，如果要存儲(chǔ)樹(shù)需要的內(nèi)存大于主存，可以定義一個(gè)較小的閉值，然后通過(guò)提升閉值重新建立一個(gè)聚類(lèi)CF樹(shù)，這個(gè)重建過(guò)程并不需要將整個(gè)記錄掃描一次，而是建立在原有樹(shù)的葉子結(jié)點(diǎn)的基礎(chǔ)之上的，因此，建立一個(gè)樹(shù)數(shù)據(jù)記錄只需要被掃描一次。當(dāng)樹(shù)建好以后，可以在第二階段用其他的聚類(lèi)算法對(duì)聚類(lèi)特征進(jìn)行聚類(lèi)。對(duì)于劃分法的改進(jìn)：l)并行化。針對(duì)數(shù)據(jù)分布不均，可以對(duì)數(shù)據(jù)進(jìn)行劃分，參照每個(gè)劃分中的數(shù)據(jù)的分布密度選取EPs值，這樣可以降低全局變量EPs值的影響。也降低了DBSCAN算法對(duì)內(nèi)存的較高要求。2)增量式處理。當(dāng)要考察的較大的數(shù)據(jù)有變化的時(shí)候，我們只需考慮其增加或刪除的數(shù)據(jù)所影響到的那些類(lèi).就不必重新對(duì)數(shù)據(jù)庫(kù)中的所有數(shù)據(jù)進(jìn)行聚類(lèi)。只需要對(duì)類(lèi)進(jìn)行漸進(jìn)性地更新，修正和加強(qiáng)己發(fā)現(xiàn)的類(lèi)。3)由于高維數(shù)據(jù)的復(fù)雜性，使聚類(lèi)分析的效率和實(shí)用性都很差。通過(guò)確定聚類(lèi)空間中和聚類(lèi)主題相關(guān)性較強(qiáng)的數(shù)據(jù)維，來(lái)降低聚類(lèi)空間的維度。利用數(shù)據(jù)降維可以降低數(shù)據(jù)結(jié)構(gòu)上的復(fù)雜性。聚類(lèi)分析的應(yīng)用聚類(lèi)分析是一個(gè)極富挑戰(zhàn)性的研究領(lǐng)域，是近年來(lái)迅速發(fā)展起來(lái)的一種新興的數(shù)據(jù)處理技術(shù)，它在氣象分析、圖像處理、模糊控制、計(jì)算機(jī)視覺(jué)、天氣預(yù)報(bào)、模式識(shí)別、生物醫(yī)學(xué)、化學(xué)、食品檢驗(yàn)、生物種群劃分、市場(chǎng)細(xì)分、業(yè)績(jī)?cè)u(píng)估等諸多領(lǐng)域有著廣泛的應(yīng)用，并在這些領(lǐng)域中取得了長(zhǎng)足的發(fā)展。4.1聚類(lèi)分析在文本中的應(yīng)用文本聚類(lèi)是將文本集中相似的文本分為一組的全自動(dòng)處理過(guò)程，根據(jù)對(duì)象的某種聯(lián)系或相關(guān)性，對(duì)文檔進(jìn)行有效的摘要、組織，以便從文本集中發(fā)現(xiàn)內(nèi)在相關(guān)的信息。同類(lèi)的文本相似程度較大。文本聚類(lèi)方法通常先通過(guò)向量空間模型把文檔轉(zhuǎn)換成高維空間中的向量，然后對(duì)這些向量進(jìn)行聚類(lèi)。中文文檔轉(zhuǎn)換成向量，需要先有分詞軟件對(duì)中文文本分詞后轉(zhuǎn)換成向量，再通過(guò)特征抽取形成樣本矩陣，最后進(jìn)行聚類(lèi)，文本聚類(lèi)的輸出一般為文檔集合的一個(gè)劃分。由于聚類(lèi)不需要訓(xùn)練，也不需要預(yù)先對(duì)文檔手工標(biāo)注類(lèi)別，具有一定的靈活性和自動(dòng)化處理能力，目前已經(jīng)成為對(duì)文本信息進(jìn)行處理的的重要手段。42聚類(lèi)分析在市場(chǎng)營(yíng)銷(xiāo)客戶(hù)細(xì)分中的應(yīng)用市場(chǎng)營(yíng)銷(xiāo)業(yè)利用數(shù)據(jù)挖掘技術(shù)進(jìn)行市場(chǎng)定位和消費(fèi)分析，輔助制定營(yíng)銷(xiāo)方案。通過(guò)對(duì)客戶(hù)數(shù)據(jù)庫(kù)不同消費(fèi)者消費(fèi)同一類(lèi)商品或服務(wù)的眾多不同數(shù)據(jù)進(jìn)行聚類(lèi)分析，爭(zhēng)取潛在的客戶(hù)，制定有利于市場(chǎng)運(yùn)行的策略。目前企業(yè)都己經(jīng)意識(shí)到“客戶(hù)就是上帝”，在這種經(jīng)營(yíng)理念的指引下，對(duì)現(xiàn)有客戶(hù)和潛在客戶(hù)的培養(yǎng)和挖掘正成為企業(yè)成功的關(guān)鍵。例如，客戶(hù)的需求傾向一般有內(nèi)因和外因共同局決定的，內(nèi)因一般包括對(duì)某種產(chǎn)品的需要，認(rèn)知，而影響外因的元素相對(duì)較多，比如文化，社會(huì)，小群體，參考群體等等。把這些因素作為分析變量，把所有潛在客戶(hù)的每一個(gè)分析變量的指標(biāo)值量化出來(lái)，用聚類(lèi)分析法進(jìn)行分類(lèi)。除此之外，戶(hù)滿(mǎn)意度和重復(fù)購(gòu)買(mǎi)的機(jī)率都可以作為屬性進(jìn)行分類(lèi)。根據(jù)這些分析得到的歸類(lèi)，可以為企業(yè)制定市場(chǎng)運(yùn)營(yíng)決策提供參考和保障。4.3聚類(lèi)分析在金融領(lǐng)域中的應(yīng)用隨著世界經(jīng)濟(jì)的快速發(fā)展，金融業(yè)面臨的考驗(yàn)與日俱增。在分析市場(chǎng)和預(yù)測(cè)發(fā)展、各類(lèi)客戶(hù)的歸類(lèi)、銀行及各類(lèi)擔(dān)保公司的擔(dān)保和信用評(píng)估等工作上需要收集和處理大量的數(shù)據(jù)，這些數(shù)據(jù)不可能通過(guò)人工或簡(jiǎn)單的數(shù)據(jù)處理軟件可以完成的?？梢圆捎媚：垲?lèi)分析法對(duì)客戶(hù)進(jìn)行分類(lèi)，預(yù)防產(chǎn)生不良賬戶(hù)，防范金融詐騙。對(duì)潛在良好信用客戶(hù)的挖掘，設(shè)計(jì)和制定更符合客戶(hù)要求的金融產(chǎn)品，分析、觀測(cè)金融市場(chǎng)的發(fā)展趨勢(shì)起到重要的作用。4.4聚類(lèi)分析在檢驗(yàn)醫(yī)學(xué)方面的應(yīng)用檢驗(yàn)醫(yī)學(xué)包括很多項(xiàng)目，隨著技術(shù)的不斷提高，其中的生化檢驗(yàn)項(xiàng)目自動(dòng)化分析迅速普及，常規(guī)的檢查項(xiàng)目不斷地在增多，新項(xiàng)目的歸類(lèi)和合理的配置已經(jīng)成為一項(xiàng)新的課題。聚類(lèi)分析試分析項(xiàng)目組合用之有效的工具，避免醫(yī)療資源的浪費(fèi)，合理配置了檢驗(yàn)項(xiàng)目。在醫(yī)藥研究中，中藥的指紋圖譜要求考察的是同一品種藥材的相似性，而不是某一藥材個(gè)體的特性，強(qiáng)調(diào)的是能夠準(zhǔn)確識(shí)別出某一品種，不是要考察辨認(rèn)藥材之間是否相同。這些要求恰好符合了模糊聚類(lèi)分析的特征，因此，采用模糊聚類(lèi)的方法了解中藥指紋圖譜的相關(guān)信息，有助于指紋圖譜的建立并實(shí)現(xiàn)指紋圖譜的自動(dòng)化識(shí)別。4.5聚類(lèi)分析在模式識(shí)別中的應(yīng)用模式識(shí)別的一個(gè)重要問(wèn)題就是特征的提取，而模糊聚類(lèi)分析方法是可以直接從原始數(shù)據(jù)內(nèi)找到相關(guān)的內(nèi)在聯(lián)系，提取特征，進(jìn)行優(yōu)選和降維，采用模糊聚類(lèi)算法提供的最近鄰原型分類(lèi)器，構(gòu)造基于模糊IF一THEN規(guī)則的分類(lèi)器；在對(duì)線(xiàn)條檢測(cè)或識(shí)別物體中，模糊聚類(lèi)可以原始數(shù)據(jù)上，也可以用于變換域中。在一些模式識(shí)別的具體應(yīng)用中，模糊聚類(lèi)取得了較好的效果，比如漢字字符識(shí)別中的字符預(yù)分類(lèi)、語(yǔ)音識(shí)別中的分類(lèi)和匹配；雷達(dá)目標(biāo)識(shí)別中目標(biāo)庫(kù)的建立和新到目標(biāo)的歸類(lèi)等。4.6聚類(lèi)分析在圖像處理中的應(yīng)用計(jì)算機(jī)是現(xiàn)代生活和工作的重要工具。圖像處理是計(jì)算機(jī)視覺(jué)功能的重要組成部分。人眼視覺(jué)具有主觀性，所以處理圖像比較適合采用模糊手段，另一方面也解決了樣本圖像的匾乏與無(wú)監(jiān)督分析的要求，它己成為圖像處理中一個(gè)重要的研究分析工具。模糊聚類(lèi)在圖像處理中的一個(gè)最廣泛的應(yīng)用是圖像分割，它實(shí)質(zhì)上就是研究象素的無(wú)監(jiān)督分類(lèi)，Coleman和Andr旦WS在1979年，就提出用聚類(lèi)算法進(jìn)行圖像分割，陸續(xù)人們經(jīng)過(guò)實(shí)踐與學(xué)習(xí)，提出了多種基于模糊聚類(lèi)的灰度圖像分割新方法，該方法在分割紋理圖像、序列圖像、遙感圖像等方面獲得了很大的成果。Stewart等人應(yīng)用模糊聚類(lèi)分析對(duì)雷達(dá)目標(biāo)的識(shí)別和歸類(lèi)進(jìn)行了研究。

注意事項(xiàng)

本文（聚類(lèi)分析讀書(shū)報(bào)告.doc）為本站會(huì)員（w****2）主動(dòng)上傳，裝配圖網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)上載內(nèi)容本身不做任何修改或編輯。若此文所含內(nèi)容侵犯了您的版權(quán)或隱私，請(qǐng)立即通知裝配圖網(wǎng)（點(diǎn)擊聯(lián)系客服），我們立即給予刪除！

溫馨提示：如果因?yàn)榫W(wǎng)速或其他原因下載失敗請(qǐng)重新下載，重復(fù)下載不扣分。