歡迎來(lái)到裝配圖網(wǎng)! | 幫助中心 裝配圖網(wǎng)zhuangpeitu.com!
裝配圖網(wǎng)
ImageVerifierCode 換一換
首頁(yè) 裝配圖網(wǎng) > 資源分類(lèi) > DOC文檔下載  

聚類(lèi)分析讀書(shū)報(bào)告.doc

  • 資源ID:6523702       資源大?。?span id="zpdnpjb" class="font-tahoma">423KB        全文頁(yè)數(shù):11頁(yè)
  • 資源格式: DOC        下載積分:9.9積分
快捷下載 游客一鍵下載
會(huì)員登錄下載
微信登錄下載
三方登錄下載: 微信開(kāi)放平臺(tái)登錄 支付寶登錄   QQ登錄   微博登錄  
二維碼
微信掃一掃登錄
下載資源需要9.9積分
郵箱/手機(jī):
溫馨提示:
用戶(hù)名和密碼都是您填寫(xiě)的郵箱或者手機(jī)號(hào),方便查詢(xún)和重復(fù)下載(系統(tǒng)自動(dòng)生成)
支付方式: 支付寶    微信支付   
驗(yàn)證碼:   換一換

 
賬號(hào):
密碼:
驗(yàn)證碼:   換一換
  忘記密碼?
    
友情提示
2、PDF文件下載后,可能會(huì)被瀏覽器默認(rèn)打開(kāi),此種情況可以點(diǎn)擊瀏覽器菜單,保存網(wǎng)頁(yè)到桌面,就可以正常下載了。
3、本站不支持迅雷下載,請(qǐng)使用電腦自帶的IE瀏覽器,或者360瀏覽器、谷歌瀏覽器下載即可。
4、本站資源下載后的文檔和圖紙-無(wú)水印,預(yù)覽文檔經(jīng)過(guò)壓縮,下載后原文更清晰。
5、試題試卷類(lèi)文檔,如果標(biāo)題沒(méi)有明確說(shuō)明有答案則都視為沒(méi)有答案,請(qǐng)知曉。

聚類(lèi)分析讀書(shū)報(bào)告.doc

聚類(lèi)分析讀書(shū)報(bào)告王晨 研數(shù)理1535 1152209008基本原理聚類(lèi)問(wèn)題實(shí)際上是將一組數(shù)據(jù)分成若干個(gè)組,每個(gè)組里的對(duì)象具有很大的相似性,不同的組之間存在盡量大的差異性。在這些組之間尋找數(shù)據(jù)之間內(nèi)在的聯(lián)系。這個(gè)過(guò)程實(shí)際上是一中在無(wú)監(jiān)督狀態(tài)下尋找最優(yōu)劃分的過(guò)程。聚類(lèi)有效性的評(píng)價(jià)可以參考以下幾個(gè)指標(biāo):聚類(lèi)質(zhì)量的度量、聚類(lèi)算法與某種數(shù)據(jù)集適合的程度、劃分的最佳聚類(lèi)數(shù)目。聚類(lèi)分析的內(nèi)容十分豐富,一般情況下按方法可以分為以下幾種:系統(tǒng)聚類(lèi)法,調(diào)優(yōu)法(動(dòng)態(tài)聚類(lèi)法),最優(yōu)分割法(有序樣品聚類(lèi)法),模糊聚類(lèi)法,圖論聚類(lèi)法,聚類(lèi)預(yù)報(bào)法。按照分類(lèi)對(duì)象的不同可以分為R型和Q型兩大類(lèi),R型是對(duì)變量進(jìn)行分類(lèi),Q型是對(duì)樣品進(jìn)行分類(lèi)。聚類(lèi)分析就是用數(shù)學(xué)方法研究和處理給定對(duì)象的分類(lèi)。聚類(lèi)問(wèn)題是一個(gè)久遠(yuǎn)的問(wèn)題,是隨著人類(lèi)的產(chǎn)生和社會(huì)的發(fā)展而不斷深化的一個(gè)問(wèn)題。人們要認(rèn)知世界、改變世界就要區(qū)分不同的事物并感知存在于不同事物間的相似性。經(jīng)典分類(lèi)學(xué)是從單對(duì)象或有限的幾個(gè)對(duì)象出發(fā),單憑經(jīng)驗(yàn)或?qū)I(yè)知識(shí)對(duì)事物進(jìn)行分類(lèi)。這種分類(lèi)具有的優(yōu)點(diǎn)是界限非常清晰。但是,隨著人們認(rèn)識(shí)的加深,發(fā)現(xiàn)這種分類(lèi)常常不適用于具有模糊性的分類(lèi)問(wèn)題。如把人按漂亮分為“漂亮的人,“不漂亮的人”。這就產(chǎn)生了經(jīng)典分類(lèi)方法解決不了的問(wèn)題一如何判定某個(gè)人的類(lèi)別。由此產(chǎn)生了模糊聚類(lèi)分析,應(yīng)用模糊聚類(lèi)得到了對(duì)象屬于不同類(lèi)別的不確定性程度,表達(dá)了樣本類(lèi)屬的中介性,更能客觀地反映現(xiàn)實(shí)世界。我們把應(yīng)用普通數(shù)學(xué)方法進(jìn)行分類(lèi)的聚類(lèi)方法稱(chēng)為普通聚類(lèi)分析,而把應(yīng)用模糊數(shù)學(xué)方法進(jìn)行分析的聚類(lèi)分析稱(chēng)為模糊聚類(lèi)分析。1.1三種類(lèi)的定義:【定義一】設(shè)閾值是給定的正數(shù),若集合中任何兩個(gè)元素的距離都滿(mǎn)足: ,則稱(chēng)對(duì)于閾值組成一個(gè)類(lèi)?!径x二】設(shè)閾值是給定的正數(shù),若集合中每個(gè)都滿(mǎn)足:,其中,是集合中元素的個(gè)數(shù),則稱(chēng)對(duì)于閾值組成一個(gè)類(lèi)?!径x三】設(shè)和是兩個(gè)給定的正數(shù),如果集合中兩兩元素距離的平均滿(mǎn)足:,其中是集合中元素的個(gè)數(shù),則稱(chēng)對(duì)于閾值,組成一個(gè)類(lèi)。1.2類(lèi)的性質(zhì)特征:設(shè)類(lèi)包含的樣品為,其中為元總體的樣本,可以從不同角度來(lái)刻畫(huà):(1)的重心(或稱(chēng)均值):(2)樣本離差陣及樣本協(xié)方差陣分別為:(3)類(lèi)的直徑:用表示類(lèi)的直徑,通常用以下來(lái)表示直徑,距離與相似系數(shù)對(duì)樣品進(jìn)行分類(lèi),就需要研究它們之間的關(guān)系,現(xiàn)在用的較多的是距離和相似系數(shù)。1.3距離把個(gè)樣品看成是維空間中的個(gè)點(diǎn),那么兩個(gè)樣品間的相似系數(shù)用度量。一般要求:,對(duì)任意;當(dāng);,對(duì)任意;,對(duì)任意。1.3.1明氏(Minkowski)距離,當(dāng)時(shí)的一階明氏距離為 即絕對(duì)距離當(dāng)時(shí),即歐氏距離當(dāng)趨于時(shí), ,即為切比雪夫距離。1.3.2馬氏(Mahalanobis)距離馬氏距離是1936年印度的馬哈拉諾比斯提出的,具有很重要的作用。為指標(biāo)的協(xié)方差陣,其中, ,當(dāng)存在時(shí),則為馬氏距離。樣品到總體的馬氏距離定義為,其中為總體的均值向量。1.3.3蘭氏(Canberra)距離蘭氏距離是由蘭思和威廉姆斯所給定的一種距離。其計(jì)算公式為:, 1.3.4杰氏距離杰氏距離是由杰斐瑞和馬突斯塔提出的。計(jì)算公式為:1.3.5斜交空間距離由于變量之間往往存在著不同的相關(guān)關(guān)系,正交空間的距離計(jì)算樣本空間易變性,可以采用斜交空間距離。1.4相似系數(shù)為了將樣品進(jìn)行分類(lèi),研究樣品之間的關(guān)系,采用相似系數(shù)的方法;性質(zhì)接近的樣品,相似系數(shù)就越接近1或者-1,而無(wú)關(guān)系的樣品的相關(guān)系數(shù)就越接近0.比較相似的樣品歸為一類(lèi),不相似的樣品歸屬不同的類(lèi)。設(shè) (為常數(shù));,對(duì)任意均成立;,對(duì)任意均成立。這里的絕對(duì)值越接近1,表示和越相似。反之,兩者關(guān)系疏遠(yuǎn)。常用的相似系數(shù)有:夾角余弦當(dāng)和平行式,夾角,說(shuō)明這兩個(gè)向量完全相似;當(dāng)和正交時(shí),夾角,說(shuō)明這兩個(gè)向量不相關(guān)。相關(guān)系數(shù)表示兩個(gè)向量線(xiàn)性相關(guān)。指數(shù)相似系數(shù)非參數(shù)方法令 相似系數(shù)定義為當(dāng)非負(fù)時(shí),有三種相似系數(shù):聯(lián)列系數(shù)1.5聚類(lèi)分析的性質(zhì)1.5.1單調(diào)性設(shè)為系統(tǒng)聚類(lèi)中第次并類(lèi)時(shí)的距離。如果,則稱(chēng)它具有單調(diào)性。在聚類(lèi)方法當(dāng)中,可以證明的是只有重心法和中間距離法不具有單調(diào)性。圖2為一個(gè)等角三角形,兩個(gè)腰長(zhǎng)為1.1,底邊是1,則第一次A,B并為一類(lèi),并類(lèi)的距離幾=l,第二次并類(lèi)的距離是C至AB中點(diǎn)的距離,它是AB邊的高,它等于。所以重心法不能夠滿(mǎn)足單調(diào)性。1.5.2空間的濃縮與擴(kuò)張?jiān)O(shè)兩個(gè)同階矩陣和。如果的每一個(gè)元素不小于相應(yīng)元素,則記為。特別的如果矩陣的元素非負(fù),則有.如果,表示將的每一個(gè)元素平方,則。令,則若有兩個(gè)系統(tǒng)聚類(lèi)法,在第步距離陣記為和,若則稱(chēng)比使空間擴(kuò)張或比使空間濃縮。這種性質(zhì)稱(chēng)為最長(zhǎng)距離法比最短距離法擴(kuò)張;或最短距離法比最長(zhǎng)距離法濃縮。基本方法聚類(lèi)方法主要有劃分聚類(lèi)法、層次聚類(lèi)法和密度聚類(lèi)法、基于網(wǎng)格的方法和基于模型的方法等。2.1層次聚類(lèi)CURE算法層次聚類(lèi)方法是一種目前應(yīng)用較廣的聚類(lèi)技術(shù),是一種針對(duì)大型數(shù)據(jù)庫(kù)的高效的聚類(lèi)算法,可為用戶(hù)提供多種可選的聚類(lèi)結(jié)果,可以隨時(shí)完成聚類(lèi)實(shí)施過(guò)程。CURE,ROCK和CHAMELEON算法是聚合聚類(lèi)中最具代表性的三個(gè)方法。Guha等人在1998年提出了CURE算法。該方法選擇數(shù)據(jù)空間中固定數(shù)目的、具有代表性的一些點(diǎn)共同來(lái)表示相應(yīng)的類(lèi),這樣就可以識(shí)別具有復(fù)雜形狀和不同大小的聚類(lèi),找到更合適的孤立點(diǎn)。ROCK算法是對(duì)CURE的改進(jìn),適用于類(lèi)別屬性的數(shù)據(jù)。CHAMELEON算法是KaryPis等人于1999年提出來(lái)的,它在聚合聚類(lèi)的過(guò)程中利用了動(dòng)態(tài)建模的技術(shù)。例如在“自底向上”方案中,初始時(shí)每一個(gè)數(shù)據(jù)紀(jì)錄都組成一個(gè)單獨(dú)的組,在接下來(lái)的迭代中,它把那些相互鄰近的組合并成一個(gè)組,直到所有的記錄組成一個(gè)分組或者某個(gè)條件滿(mǎn)足為止。它是一種分裂的層次聚類(lèi)。CURE采用了用多個(gè)點(diǎn)代表一個(gè)簇的方法,可以較好的處理以上問(wèn)題。并且在處理大數(shù)據(jù)量的時(shí)候采用了隨機(jī)取樣,分區(qū)的方法,來(lái)提高其效率,使得其可以高效的處理大量數(shù)據(jù)。算法分為以下六步:(1)從原始數(shù)據(jù)中抽取一個(gè)隨機(jī)樣本S。(2)將樣本S分割為一組劃分。(3)對(duì)每個(gè)劃分局部的聚類(lèi)。(4)通過(guò)隨機(jī)取樣剔除孤立點(diǎn)。如果一個(gè)類(lèi)增長(zhǎng)太慢,就去掉它。(5)對(duì)局部的類(lèi)進(jìn)行聚類(lèi)。落在每個(gè)新形成的類(lèi)中的代表點(diǎn)根據(jù)用戶(hù)定義的一個(gè)收縮因子收縮或向類(lèi)中心移動(dòng)。這些點(diǎn)代表和捕捉到了類(lèi)的形狀。(6)用相應(yīng)的類(lèi)標(biāo)簽來(lái)標(biāo)記數(shù)據(jù)。CURE算法的思想主要體現(xiàn)在如下幾個(gè)方面:(1)CURE算法采用的是聚結(jié)層次聚類(lèi)。把每一個(gè)對(duì)象設(shè)立為一個(gè)類(lèi),隨即根據(jù)相似點(diǎn)對(duì)它們進(jìn)行合并。(2)CURE算法采用分割方法,先把樣本分割為幾塊然后針對(duì)各個(gè)部分中的對(duì)象分別進(jìn)行局部聚類(lèi),形成子類(lèi)。再對(duì)子類(lèi)進(jìn)行聚類(lèi),形成新的類(lèi)。2.2 BIRCH方法BIRCH(Balanced Iterative Reducing and clustering using Hierarchies)是專(zhuān)門(mén)針對(duì)大規(guī)模數(shù)據(jù)集提出的聚集型層次聚類(lèi)算法,它綜合了層次凝聚和迭代的重定位方法。首先用自底向上的層次算法,然后用迭代的重定位來(lái)改進(jìn)結(jié)果。它的主要思想是:掃描數(shù)據(jù)庫(kù),建立一個(gè)初始存放于內(nèi)存中的聚類(lèi)特征樹(shù),然后對(duì)聚類(lèi)特征樹(shù)的葉結(jié)點(diǎn)進(jìn)行聚類(lèi)。聚類(lèi)特征的定義(CF):一個(gè)聚類(lèi)特征(CF)是一個(gè)三元組(N,LS,SS),其中N是簇中的點(diǎn)的數(shù)目,LS是N個(gè)點(diǎn)的線(xiàn)性和,SS是N個(gè)點(diǎn)的平方和。聚類(lèi)特征樹(shù)的定義(CF樹(shù)):一顆CF樹(shù)是一個(gè)帶有分支因子B的平衡樹(shù),每一個(gè)內(nèi)部結(jié)點(diǎn)對(duì)于每一個(gè)子結(jié)點(diǎn)都包含一個(gè)CF三元組。每個(gè)葉結(jié)點(diǎn)也代表一個(gè)簇,并且對(duì)于其中每一個(gè)子簇都包含一個(gè)CF條目。在葉結(jié)點(diǎn)中的子簇要有一個(gè)不超過(guò)給定閾值T的直徑。合并假定:假定個(gè)簇進(jìn)行合并,個(gè)簇的聚類(lèi)特征表示為,其中,那么合并后簇為,其聚類(lèi)特征為其中,合并后簇的聚類(lèi)特征精確地表示了兩個(gè)聚類(lèi)合并后的漸增性。在層次聚類(lèi)方法中,要按照一定的相似性判斷標(biāo)準(zhǔn)合并最相似的部分,或者分割最不相似的兩個(gè)部分,判斷各個(gè)類(lèi)之間的相似程度的準(zhǔn)則是:假設(shè)和是聚結(jié)過(guò)程中同一層次上的兩個(gè)類(lèi),和分別是和兩個(gè)類(lèi)中的對(duì)象數(shù)目,為中的任意一個(gè)對(duì)象,為中的任意一個(gè)對(duì)象,為中對(duì)象的平均值,為中對(duì)象的平均值,下面的四種距離計(jì)算被廣泛地應(yīng)用于計(jì)算兩個(gè)類(lèi)之間的差異度:平均值距離:,平均距離:,最大距離:最小距離:BIRCH聚類(lèi)算法利用特征樹(shù)結(jié)構(gòu)對(duì)數(shù)據(jù)集進(jìn)行聚類(lèi),算法主要過(guò)程為:首先,將所有初始數(shù)據(jù)掃描,建立一個(gè)原始化聚集CF樹(shù),盡最大可能使得特征樹(shù)包含所有信息;然后,用聚集特征代替原有數(shù)據(jù)集進(jìn)行聚類(lèi)。在第一階段,CF樹(shù)是隨著原始數(shù)據(jù)的加入而自動(dòng)形成的;一個(gè)對(duì)象被放入那個(gè)離它最近的葉子結(jié)點(diǎn)中去。如果放入以后這個(gè)簇的半徑大于閾值T的話(huà),那么這個(gè)葉結(jié)點(diǎn)就會(huì)被分割。插入過(guò)程類(lèi)似于B+樹(shù)構(gòu)建中的插入和結(jié)點(diǎn)分裂。2.3 劃分法(Partitioning methods )劃分法(Partitioning methods)通常是指給定數(shù)據(jù)庫(kù),其中有N個(gè)元素,采用分裂法將其構(gòu)造為K個(gè)組,每一個(gè)分組就代表一個(gè)聚類(lèi),K<N。而且這K個(gè)分組滿(mǎn)足下列條件:(1)每一個(gè)分組至少包含一個(gè)數(shù)據(jù)紀(jì)錄;(2)每一個(gè)數(shù)據(jù)紀(jì)錄屬于且僅屬于一個(gè)分組;對(duì)于給定的K,算法首先給出一個(gè)初始的分組方法,以后通過(guò)反復(fù)迭代的方法改變分組,使得每一次改進(jìn)之后的分組方案都較前一次好。我們通常使用的K一MEANS算法、K一MEDO工DS算法、CLARANS算法基本上都采用這中思想。K一MEANS算法首先是輸入量為K;然后將N個(gè)數(shù)據(jù)對(duì)象劃分為K個(gè)聚類(lèi)使得到的聚類(lèi)滿(mǎn)足:(1)同一聚類(lèi)中的數(shù)據(jù)相似度較高,(2)而不同聚類(lèi)中的數(shù)據(jù)相似度較小。聚類(lèi)相似度是利用各聚類(lèi)中對(duì)象的均值所獲得一個(gè)“中心對(duì)象”來(lái)進(jìn)行計(jì)算的。CLARA算法的思想就是用實(shí)際數(shù)據(jù)的抽樣來(lái)代替整個(gè)數(shù)據(jù),然后再在這些抽樣的數(shù)據(jù)上利用K一medoids算法得到最佳的medoids。CLRAR算法從實(shí)際數(shù)據(jù)中抽取多個(gè)采樣,在每個(gè)采樣上都用K一medoids算法得到相應(yīng)的,然后在這當(dāng)中選取E最小的一個(gè)作為最終的結(jié)果。2.4 K_means算法K_means算法是劃分聚類(lèi)中較流行的一種算法,它是一種迭代的聚類(lèi)算法,迭代過(guò)程中不斷移動(dòng)簇集中的對(duì)象,直至得到理想的簇集為止,每個(gè)簇用該簇中對(duì)象的平均值來(lái)表示。利用k_means算法得到的簇,簇中對(duì)象的相似度很高,不同簇中對(duì)象之間的相異度也很高。算法的主要步驟為:從n個(gè)數(shù)據(jù)對(duì)象隨機(jī)選取k個(gè)對(duì)象作為初始簇中心;計(jì)算每個(gè)簇的平均值,并用該平均值代表相應(yīng)的簇;根據(jù)每個(gè)對(duì)象與各個(gè)簇中心的距離,分配給最近的簇;轉(zhuǎn)第二步,重新計(jì)算每個(gè)簇的平均值。這個(gè)過(guò)程不斷重復(fù)直到滿(mǎn)足某個(gè)準(zhǔn)則函數(shù)不再明顯變化或者聚類(lèi)的對(duì)象不再變化才停止。一般,K_means算法的準(zhǔn)則函數(shù)采用平方誤差準(zhǔn)則,定義為:其中,是數(shù)據(jù)集中所有對(duì)象與相應(yīng)類(lèi)聚中心的均方差之和,為給定的數(shù)據(jù)對(duì)象,為聚類(lèi)的均值(和均是多維的)。2.5基于密度的DBSCAN算法DBSCAN算法屬于基于密度的方法當(dāng)中的一個(gè)。密度聚類(lèi)法是指只要一個(gè)區(qū)域中的點(diǎn)的密度大于某個(gè)值,就把它添加到與之相鄰的類(lèi)中。DBS以N算法是密度聚類(lèi)法中一個(gè)具有代表的算法,它將簇定義為密度相連的點(diǎn)的最大集合,只要臨近區(qū)域的密度(對(duì)象或數(shù)據(jù)點(diǎn)的數(shù)目)超來(lái)控制簇的增長(zhǎng)?;径x:點(diǎn)的鄰域,以選定點(diǎn)為中心,以為半徑的區(qū)域:1. 核心點(diǎn):如果一個(gè)點(diǎn)的領(lǐng)域包含最小數(shù)目個(gè)點(diǎn),則稱(chēng)該點(diǎn)為核心點(diǎn)。2. 直接密度可達(dá):如果點(diǎn)p在點(diǎn)q的領(lǐng)域內(nèi),而q是一個(gè)核心點(diǎn),則稱(chēng)該點(diǎn)p是從點(diǎn)q直接密度可達(dá)。3. 間接密度可達(dá):給定一個(gè)點(diǎn)集,如果存在一個(gè)點(diǎn)鏈,對(duì),是從關(guān)于和直接密度可達(dá)的,則點(diǎn)p是從點(diǎn)q關(guān)于和間接密度可達(dá)。4. 密度相連:如果點(diǎn)集M中存在一個(gè)點(diǎn)o,使得點(diǎn)p和q,是從o關(guān)于和間接密度可達(dá),則稱(chēng)點(diǎn)p和q是關(guān)于和密度相連。5. 噪聲:不屬于密度可達(dá)或密度相連集合的點(diǎn)(即孤立點(diǎn)),稱(chēng)為噪聲。2.6 CLARANS算法CLARANS算法是一種分割聚類(lèi)方法。它首先隨機(jī)選擇一個(gè)點(diǎn)作為當(dāng)前點(diǎn),然后隨機(jī)檢查它周?chē)怀^(guò)參數(shù)Maxneighbor個(gè)的一些鄰接點(diǎn),若能找到一個(gè)更適合的點(diǎn),把它移入該臨近點(diǎn)。然后再隨機(jī)選擇一個(gè)點(diǎn)來(lái)尋找另一個(gè)局部最小量,直至所找到的局部最小量數(shù)目達(dá)到用戶(hù)要求為止。該算法要求聚類(lèi)的對(duì)象必須都預(yù)先調(diào)人內(nèi)存,并且需多次掃描數(shù)據(jù)集,這對(duì)大數(shù)據(jù)量而言,無(wú)論時(shí)間復(fù)雜度還是空間復(fù)雜度都相當(dāng)大。2.7 CLIQUE算法CLIQUE算法為自動(dòng)子空間聚類(lèi)算法。該算法利用自頂向上方法求出各個(gè)子空間的聚類(lèi)單元。CLIQUE算法主要用于找出在高維數(shù)據(jù)空間中存在的低維聚類(lèi)。為了求出d維空間聚類(lèi),必須組合給出所有維子空間的聚類(lèi),導(dǎo)致其算法的空間和時(shí)間效率都較低,而且要求用戶(hù)輸入兩個(gè)參數(shù):數(shù)據(jù)取值空間等間隔距離和密度閾值。這兩個(gè)參數(shù)與樣木數(shù)據(jù)緊密相關(guān),用戶(hù)一般難以確定。優(yōu)缺點(diǎn)及解決方法優(yōu)點(diǎn)缺點(diǎn)層次法識(shí)別形狀復(fù)雜、大小不一的聚類(lèi),過(guò)濾孤立點(diǎn)。一旦一組對(duì)象合并,下一步將在新生成的類(lèi)上進(jìn)行;因?yàn)楹喜⒒蚍至训臎Q定需要檢查和估算大量的對(duì)象或類(lèi)。劃分法計(jì)算時(shí)間段,速度快;容易解釋?zhuān)痪垲?lèi)效果好。結(jié)果好壞依賴(lài)對(duì)初始聚類(lèi)中心的選擇;容易陷入局部最優(yōu)解;對(duì)K值的選擇沒(méi)有準(zhǔn)則可依循;對(duì)異常數(shù)據(jù)較為敏感;只能處理數(shù)值屬性的數(shù)據(jù);聚類(lèi)結(jié)構(gòu)可能不平衡?;诿芏鹊姆椒ㄓ休^強(qiáng)的抗“噪聲”的能力若原始數(shù)據(jù)庫(kù)中有較大的聚類(lèi),則難解決存儲(chǔ)核心對(duì)象信息的問(wèn)題;輸入?yún)?shù)敏感;當(dāng)數(shù)據(jù)分布不均勻時(shí)聚類(lèi)質(zhì)量較差。對(duì)于層次法的改進(jìn):聚集特征樹(shù)的大小可以通過(guò)調(diào)節(jié)參數(shù)來(lái)改變,如果要存儲(chǔ)樹(shù)需要的內(nèi)存大于主存,可以定義一個(gè)較小的閉值,然后通過(guò)提升閉值重新建立一個(gè)聚類(lèi)CF樹(shù),這個(gè)重建過(guò)程并不需要將整個(gè)記錄掃描一次,而是建立在原有樹(shù)的葉子結(jié)點(diǎn)的基礎(chǔ)之上的,因此,建立一個(gè)樹(shù)數(shù)據(jù)記錄只需要被掃描一次。當(dāng)樹(shù)建好以后,可以在第二階段用其他的聚類(lèi)算法對(duì)聚類(lèi)特征進(jìn)行聚類(lèi)。對(duì)于劃分法的改進(jìn):l)并行化。針對(duì)數(shù)據(jù)分布不均,可以對(duì)數(shù)據(jù)進(jìn)行劃分,參照每個(gè)劃分中的數(shù)據(jù)的分布密度選取EPs值,這樣可以降低全局變量EPs值的影響。也降低了DBSCAN算法對(duì)內(nèi)存的較高要求。2)增量式處理。當(dāng)要考察的較大的數(shù)據(jù)有變化的時(shí)候,我們只需考慮其增加或刪除的數(shù)據(jù)所影響到的那些類(lèi).就不必重新對(duì)數(shù)據(jù)庫(kù)中的所有數(shù)據(jù)進(jìn)行聚類(lèi)。只需要對(duì)類(lèi)進(jìn)行漸進(jìn)性地更新,修正和加強(qiáng)己發(fā)現(xiàn)的類(lèi)。3)由于高維數(shù)據(jù)的復(fù)雜性,使聚類(lèi)分析的效率和實(shí)用性都很差。通過(guò)確定聚類(lèi)空間中和聚類(lèi)主題相關(guān)性較強(qiáng)的數(shù)據(jù)維,來(lái)降低聚類(lèi)空間的維度。利用數(shù)據(jù)降維可以降低數(shù)據(jù)結(jié)構(gòu)上的復(fù)雜性。聚類(lèi)分析的應(yīng)用聚類(lèi)分析是一個(gè)極富挑戰(zhàn)性的研究領(lǐng)域,是近年來(lái)迅速發(fā)展起來(lái)的一種新興的數(shù)據(jù)處理技術(shù),它在氣象分析、圖像處理、模糊控制、計(jì)算機(jī)視覺(jué)、天氣預(yù)報(bào)、模式識(shí)別、生物醫(yī)學(xué)、化學(xué)、食品檢驗(yàn)、生物種群劃分、市場(chǎng)細(xì)分、業(yè)績(jī)?cè)u(píng)估等諸多領(lǐng)域有著廣泛的應(yīng)用,并在這些領(lǐng)域中取得了長(zhǎng)足的發(fā)展。4.1聚類(lèi)分析在文本中的應(yīng)用文本聚類(lèi)是將文本集中相似的文本分為一組的全自動(dòng)處理過(guò)程,根據(jù)對(duì)象的某種聯(lián)系或相關(guān)性,對(duì)文檔進(jìn)行有效的摘要、組織,以便從文本集中發(fā)現(xiàn)內(nèi)在相關(guān)的信息。同類(lèi)的文本相似程度較大。文本聚類(lèi)方法通常先通過(guò)向量空間模型把文檔轉(zhuǎn)換成高維空間中的向量,然后對(duì)這些向量進(jìn)行聚類(lèi)。中文文檔轉(zhuǎn)換成向量,需要先有分詞軟件對(duì)中文文本分詞后轉(zhuǎn)換成向量,再通過(guò)特征抽取形成樣本矩陣,最后進(jìn)行聚類(lèi),文本聚類(lèi)的輸出一般為文檔集合的一個(gè)劃分。由于聚類(lèi)不需要訓(xùn)練,也不需要預(yù)先對(duì)文檔手工標(biāo)注類(lèi)別,具有一定的靈活性和自動(dòng)化處理能力,目前已經(jīng)成為對(duì)文本信息進(jìn)行處理的的重要手段。42聚類(lèi)分析在市場(chǎng)營(yíng)銷(xiāo)客戶(hù)細(xì)分中的應(yīng)用市場(chǎng)營(yíng)銷(xiāo)業(yè)利用數(shù)據(jù)挖掘技術(shù)進(jìn)行市場(chǎng)定位和消費(fèi)分析,輔助制定營(yíng)銷(xiāo)方案。通過(guò)對(duì)客戶(hù)數(shù)據(jù)庫(kù)不同消費(fèi)者消費(fèi)同一類(lèi)商品或服務(wù)的眾多不同數(shù)據(jù)進(jìn)行聚類(lèi)分析,爭(zhēng)取潛在的客戶(hù),制定有利于市場(chǎng)運(yùn)行的策略。目前企業(yè)都己經(jīng)意識(shí)到“客戶(hù)就是上帝”,在這種經(jīng)營(yíng)理念的指引下,對(duì)現(xiàn)有客戶(hù)和潛在客戶(hù)的培養(yǎng)和挖掘正成為企業(yè)成功的關(guān)鍵。例如,客戶(hù)的需求傾向一般有內(nèi)因和外因共同局決定的,內(nèi)因一般包括對(duì)某種產(chǎn)品的需要,認(rèn)知,而影響外因的元素相對(duì)較多,比如文化,社會(huì),小群體,參考群體等等。把這些因素作為分析變量,把所有潛在客戶(hù)的每一個(gè)分析變量的指標(biāo)值量化出來(lái),用聚類(lèi)分析法進(jìn)行分類(lèi)。除此之外,戶(hù)滿(mǎn)意度和重復(fù)購(gòu)買(mǎi)的機(jī)率都可以作為屬性進(jìn)行分類(lèi)。根據(jù)這些分析得到的歸類(lèi),可以為企業(yè)制定市場(chǎng)運(yùn)營(yíng)決策提供參考和保障。4.3聚類(lèi)分析在金融領(lǐng)域中的應(yīng)用隨著世界經(jīng)濟(jì)的快速發(fā)展,金融業(yè)面臨的考驗(yàn)與日俱增。在分析市場(chǎng)和預(yù)測(cè)發(fā)展、各類(lèi)客戶(hù)的歸類(lèi)、銀行及各類(lèi)擔(dān)保公司的擔(dān)保和信用評(píng)估等工作上需要收集和處理大量的數(shù)據(jù),這些數(shù)據(jù)不可能通過(guò)人工或簡(jiǎn)單的數(shù)據(jù)處理軟件可以完成的??梢圆捎媚:垲?lèi)分析法對(duì)客戶(hù)進(jìn)行分類(lèi),預(yù)防產(chǎn)生不良賬戶(hù),防范金融詐騙。對(duì)潛在良好信用客戶(hù)的挖掘,設(shè)計(jì)和制定更符合客戶(hù)要求的金融產(chǎn)品,分析、觀測(cè)金融市場(chǎng)的發(fā)展趨勢(shì)起到重要的作用。4.4聚類(lèi)分析在檢驗(yàn)醫(yī)學(xué)方面的應(yīng)用檢驗(yàn)醫(yī)學(xué)包括很多項(xiàng)目,隨著技術(shù)的不斷提高,其中的生化檢驗(yàn)項(xiàng)目自動(dòng)化分析迅速普及,常規(guī)的檢查項(xiàng)目不斷地在增多,新項(xiàng)目的歸類(lèi)和合理的配置已經(jīng)成為一項(xiàng)新的課題。聚類(lèi)分析試分析項(xiàng)目組合用之有效的工具,避免醫(yī)療資源的浪費(fèi),合理配置了檢驗(yàn)項(xiàng)目。在醫(yī)藥研究中,中藥的指紋圖譜要求考察的是同一品種藥材的相似性,而不是某一藥材個(gè)體的特性,強(qiáng)調(diào)的是能夠準(zhǔn)確識(shí)別出某一品種,不是要考察辨認(rèn)藥材之間是否相同。這些要求恰好符合了模糊聚類(lèi)分析的特征,因此,采用模糊聚類(lèi)的方法了解中藥指紋圖譜的相關(guān)信息,有助于指紋圖譜的建立并實(shí)現(xiàn)指紋圖譜的自動(dòng)化識(shí)別。4.5聚類(lèi)分析在模式識(shí)別中的應(yīng)用模式識(shí)別的一個(gè)重要問(wèn)題就是特征的提取,而模糊聚類(lèi)分析方法是可以直接從原始數(shù)據(jù)內(nèi)找到相關(guān)的內(nèi)在聯(lián)系,提取特征,進(jìn)行優(yōu)選和降維,采用模糊聚類(lèi)算法提供的最近鄰原型分類(lèi)器,構(gòu)造基于模糊IF一THEN規(guī)則的分類(lèi)器;在對(duì)線(xiàn)條檢測(cè)或識(shí)別物體中,模糊聚類(lèi)可以原始數(shù)據(jù)上,也可以用于變換域中。在一些模式識(shí)別的具體應(yīng)用中,模糊聚類(lèi)取得了較好的效果,比如漢字字符識(shí)別中的字符預(yù)分類(lèi)、語(yǔ)音識(shí)別中的分類(lèi)和匹配;雷達(dá)目標(biāo)識(shí)別中目標(biāo)庫(kù)的建立和新到目標(biāo)的歸類(lèi)等。4.6聚類(lèi)分析在圖像處理中的應(yīng)用計(jì)算機(jī)是現(xiàn)代生活和工作的重要工具。圖像處理是計(jì)算機(jī)視覺(jué)功能的重要組成部分。人眼視覺(jué)具有主觀性,所以處理圖像比較適合采用模糊手段,另一方面也解決了樣本圖像的匾乏與無(wú)監(jiān)督分析的要求,它己成為圖像處理中一個(gè)重要的研究分析工具。模糊聚類(lèi)在圖像處理中的一個(gè)最廣泛的應(yīng)用是圖像分割,它實(shí)質(zhì)上就是研究象素的無(wú)監(jiān)督分類(lèi),Coleman和Andr旦WS在1979年,就提出用聚類(lèi)算法進(jìn)行圖像分割,陸續(xù)人們經(jīng)過(guò)實(shí)踐與學(xué)習(xí),提出了多種基于模糊聚類(lèi)的灰度圖像分割新方法,該方法在分割紋理圖像、序列圖像、遙感圖像等方面獲得了很大的成果。Stewart等人應(yīng)用模糊聚類(lèi)分析對(duì)雷達(dá)目標(biāo)的識(shí)別和歸類(lèi)進(jìn)行了研究。

注意事項(xiàng)

本文(聚類(lèi)分析讀書(shū)報(bào)告.doc)為本站會(huì)員(w****2)主動(dòng)上傳,裝配圖網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)上載內(nèi)容本身不做任何修改或編輯。 若此文所含內(nèi)容侵犯了您的版權(quán)或隱私,請(qǐng)立即通知裝配圖網(wǎng)(點(diǎn)擊聯(lián)系客服),我們立即給予刪除!

溫馨提示:如果因?yàn)榫W(wǎng)速或其他原因下載失敗請(qǐng)重新下載,重復(fù)下載不扣分。




關(guān)于我們 - 網(wǎng)站聲明 - 網(wǎng)站地圖 - 資源地圖 - 友情鏈接 - 網(wǎng)站客服 - 聯(lián)系我們

copyright@ 2023-2025  zhuangpeitu.com 裝配圖網(wǎng)版權(quán)所有   聯(lián)系電話(huà):18123376007

備案號(hào):ICP2024067431號(hào)-1 川公網(wǎng)安備51140202000466號(hào)


本站為文檔C2C交易模式,即用戶(hù)上傳的文檔直接被用戶(hù)下載,本站只是中間服務(wù)平臺(tái),本站所有文檔下載所得的收益歸上傳人(含作者)所有。裝配圖網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)上載內(nèi)容本身不做任何修改或編輯。若文檔所含內(nèi)容侵犯了您的版權(quán)或隱私,請(qǐng)立即通知裝配圖網(wǎng),我們立即給予刪除!