聚類分析讀書報(bào)告.doc

上傳人：w****2

文檔編號(hào)：6523702

上傳時(shí)間：2020-02-28

格式：DOC

頁數(shù)：11

大?。?23KB

《聚類分析讀書報(bào)告.doc》由會(huì)員分享，可在線閱讀，更多相關(guān)《聚類分析讀書報(bào)告.doc（11頁珍藏版）》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。

聚類分析讀書報(bào)告王晨研數(shù)理1535 1152209008基本原理聚類問題實(shí)際上是將一組數(shù)據(jù)分成若干個(gè)組，每個(gè)組里的對(duì)象具有很大的相似性，不同的組之間存在盡量大的差異性。在這些組之間尋找數(shù)據(jù)之間內(nèi)在的聯(lián)系。這個(gè)過程實(shí)際上是一中在無監(jiān)督狀態(tài)下尋找最優(yōu)劃分的過程。聚類有效性的評(píng)價(jià)可以參考以下幾個(gè)指標(biāo)：聚類質(zhì)量的度量、聚類算法與某種數(shù)據(jù)集適合的程度、劃分的最佳聚類數(shù)目。聚類分析的內(nèi)容十分豐富，一般情況下按方法可以分為以下幾種：系統(tǒng)聚類法，調(diào)優(yōu)法(動(dòng)態(tài)聚類法)，最優(yōu)分割法(有序樣品聚類法)，模糊聚類法，圖論聚類法，聚類預(yù)報(bào)法。按照分類對(duì)象的不同可以分為R型和Q型兩大類，R型是對(duì)變量進(jìn)行分類，Q型是對(duì)樣品進(jìn)行分類。聚類分析就是用數(shù)學(xué)方法研究和處理給定對(duì)象的分類。聚類問題是一個(gè)久遠(yuǎn)的問題，是隨著人類的產(chǎn)生和社會(huì)的發(fā)展而不斷深化的一個(gè)問題。人們要認(rèn)知世界、改變世界就要區(qū)分不同的事物并感知存在于不同事物間的相似性。經(jīng)典分類學(xué)是從單對(duì)象或有限的幾個(gè)對(duì)象出發(fā)，單憑經(jīng)驗(yàn)或?qū)I(yè)知識(shí)對(duì)事物進(jìn)行分類。這種分類具有的優(yōu)點(diǎn)是界限非常清晰。但是，隨著人們認(rèn)識(shí)的加深，發(fā)現(xiàn)這種分類常常不適用于具有模糊性的分類問題。如把人按漂亮分為“漂亮的人，“不漂亮的人”。這就產(chǎn)生了經(jīng)典分類方法解決不了的問題一如何判定某個(gè)人的類別。由此產(chǎn)生了模糊聚類分析，應(yīng)用模糊聚類得到了對(duì)象屬于不同類別的不確定性程度，表達(dá)了樣本類屬的中介性，更能客觀地反映現(xiàn)實(shí)世界。我們把應(yīng)用普通數(shù)學(xué)方法進(jìn)行分類的聚類方法稱為普通聚類分析，而把應(yīng)用模糊數(shù)學(xué)方法進(jìn)行分析的聚類分析稱為模糊聚類分析。1.1三種類的定義：【定義一】設(shè)閾值是給定的正數(shù)，若集合中任何兩個(gè)元素的距離都滿足：，則稱對(duì)于閾值組成一個(gè)類?！径x二】設(shè)閾值是給定的正數(shù)，若集合中每個(gè)都滿足：，其中，是集合中元素的個(gè)數(shù)，則稱對(duì)于閾值組成一個(gè)類?！径x三】設(shè)和是兩個(gè)給定的正數(shù)，如果集合中兩兩元素距離的平均滿足：，其中是集合中元素的個(gè)數(shù)，則稱對(duì)于閾值，組成一個(gè)類。1.2類的性質(zhì)特征：設(shè)類包含的樣品為，其中為元總體的樣本，可以從不同角度來刻畫：（1）的重心（或稱均值）：（2）樣本離差陣及樣本協(xié)方差陣分別為：（3）類的直徑：用表示類的直徑，通常用以下來表示直徑，距離與相似系數(shù)對(duì)樣品進(jìn)行分類，就需要研究它們之間的關(guān)系，現(xiàn)在用的較多的是距離和相似系數(shù)。1.3距離把個(gè)樣品看成是維空間中的個(gè)點(diǎn)，那么兩個(gè)樣品間的相似系數(shù)用度量。一般要求：，對(duì)任意；當(dāng)；，對(duì)任意；，對(duì)任意。1.3.1明氏（Minkowski）距離，當(dāng)時(shí)的一階明氏距離為即絕對(duì)距離當(dāng)時(shí)，即歐氏距離當(dāng)趨于時(shí)，，即為切比雪夫距離。1.3.2馬氏（Mahalanobis)距離馬氏距離是1936年印度的馬哈拉諾比斯提出的，具有很重要的作用。為指標(biāo)的協(xié)方差陣，其中，，當(dāng)存在時(shí)，則為馬氏距離。樣品到總體的馬氏距離定義為，其中為總體的均值向量。1.3.3蘭氏(Canberra)距離蘭氏距離是由蘭思和威廉姆斯所給定的一種距離。其計(jì)算公式為：， 1.3.4杰氏距離杰氏距離是由杰斐瑞和馬突斯塔提出的。計(jì)算公式為：1.3.5斜交空間距離由于變量之間往往存在著不同的相關(guān)關(guān)系，正交空間的距離計(jì)算樣本空間易變性，可以采用斜交空間距離。1.4相似系數(shù)為了將樣品進(jìn)行分類，研究樣品之間的關(guān)系，采用相似系數(shù)的方法；性質(zhì)接近的樣品，相似系數(shù)就越接近1或者-1，而無關(guān)系的樣品的相關(guān)系數(shù)就越接近0.比較相似的樣品歸為一類，不相似的樣品歸屬不同的類。設(shè) （為常數(shù)）；，對(duì)任意均成立；，對(duì)任意均成立。這里的絕對(duì)值越接近1，表示和越相似。反之，兩者關(guān)系疏遠(yuǎn)。常用的相似系數(shù)有：夾角余弦當(dāng)和平行式，夾角，說明這兩個(gè)向量完全相似；當(dāng)和正交時(shí)，夾角，說明這兩個(gè)向量不相關(guān)。相關(guān)系數(shù)表示兩個(gè)向量線性相關(guān)。指數(shù)相似系數(shù)非參數(shù)方法令相似系數(shù)定義為當(dāng)非負(fù)時(shí)，有三種相似系數(shù)：聯(lián)列系數(shù)1.5聚類分析的性質(zhì)1.5.1單調(diào)性設(shè)為系統(tǒng)聚類中第次并類時(shí)的距離。如果，則稱它具有單調(diào)性。在聚類方法當(dāng)中，可以證明的是只有重心法和中間距離法不具有單調(diào)性。圖2為一個(gè)等角三角形，兩個(gè)腰長(zhǎng)為1.1，底邊是1，則第一次A，B并為一類，并類的距離幾=l，第二次并類的距離是C至AB中點(diǎn)的距離，它是AB邊的高，它等于。所以重心法不能夠滿足單調(diào)性。1.5.2空間的濃縮與擴(kuò)張?jiān)O(shè)兩個(gè)同階矩陣和。如果的每一個(gè)元素不小于相應(yīng)元素，則記為。特別的如果矩陣的元素非負(fù)，則有.如果，表示將的每一個(gè)元素平方，則。令，則若有兩個(gè)系統(tǒng)聚類法，在第步距離陣記為和，若則稱比使空間擴(kuò)張或比使空間濃縮。這種性質(zhì)稱為最長(zhǎng)距離法比最短距離法擴(kuò)張；或最短距離法比最長(zhǎng)距離法濃縮?；痉椒ň垲惙椒ㄖ饕袆澐志垲惙?、層次聚類法和密度聚類法、基于網(wǎng)格的方法和基于模型的方法等。2.1層次聚類CURE算法層次聚類方法是一種目前應(yīng)用較廣的聚類技術(shù)，是一種針對(duì)大型數(shù)據(jù)庫的高效的聚類算法，可為用戶提供多種可選的聚類結(jié)果，可以隨時(shí)完成聚類實(shí)施過程。CURE，ROCK和CHAMELEON算法是聚合聚類中最具代表性的三個(gè)方法。Guha等人在1998年提出了CURE算法。該方法選擇數(shù)據(jù)空間中固定數(shù)目的、具有代表性的一些點(diǎn)共同來表示相應(yīng)的類，這樣就可以識(shí)別具有復(fù)雜形狀和不同大小的聚類，找到更合適的孤立點(diǎn)。ROCK算法是對(duì)CURE的改進(jìn)，適用于類別屬性的數(shù)據(jù)。CHAMELEON算法是KaryPis等人于1999年提出來的，它在聚合聚類的過程中利用了動(dòng)態(tài)建模的技術(shù)。例如在“自底向上”方案中，初始時(shí)每一個(gè)數(shù)據(jù)紀(jì)錄都組成一個(gè)單獨(dú)的組，在接下來的迭代中，它把那些相互鄰近的組合并成一個(gè)組，直到所有的記錄組成一個(gè)分組或者某個(gè)條件滿足為止。它是一種分裂的層次聚類。CURE采用了用多個(gè)點(diǎn)代表一個(gè)簇的方法，可以較好的處理以上問題。并且在處理大數(shù)據(jù)量的時(shí)候采用了隨機(jī)取樣，分區(qū)的方法，來提高其效率，使得其可以高效的處理大量數(shù)據(jù)。算法分為以下六步：(1)從原始數(shù)據(jù)中抽取一個(gè)隨機(jī)樣本S。(2)將樣本S分割為一組劃分。(3)對(duì)每個(gè)劃分局部的聚類。(4)通過隨機(jī)取樣剔除孤立點(diǎn)。如果一個(gè)類增長(zhǎng)太慢，就去掉它。(5)對(duì)局部的類進(jìn)行聚類。落在每個(gè)新形成的類中的代表點(diǎn)根據(jù)用戶定義的一個(gè)收縮因子收縮或向類中心移動(dòng)。這些點(diǎn)代表和捕捉到了類的形狀。(6)用相應(yīng)的類標(biāo)簽來標(biāo)記數(shù)據(jù)。CURE算法的思想主要體現(xiàn)在如下幾個(gè)方面：(1)CURE算法采用的是聚結(jié)層次聚類。把每一個(gè)對(duì)象設(shè)立為一個(gè)類，隨即根據(jù)相似點(diǎn)對(duì)它們進(jìn)行合并。(2)CURE算法采用分割方法，先把樣本分割為幾塊然后針對(duì)各個(gè)部分中的對(duì)象分別進(jìn)行局部聚類，形成子類。再對(duì)子類進(jìn)行聚類，形成新的類。2.2 BIRCH方法BIRCH(Balanced Iterative Reducing and clustering using Hierarchies)是專門針對(duì)大規(guī)模數(shù)據(jù)集提出的聚集型層次聚類算法，它綜合了層次凝聚和迭代的重定位方法。首先用自底向上的層次算法，然后用迭代的重定位來改進(jìn)結(jié)果。它的主要思想是：掃描數(shù)據(jù)庫，建立一個(gè)初始存放于內(nèi)存中的聚類特征樹，然后對(duì)聚類特征樹的葉結(jié)點(diǎn)進(jìn)行聚類。聚類特征的定義(CF)：一個(gè)聚類特征(CF)是一個(gè)三元組(N，LS，SS)，其中N是簇中的點(diǎn)的數(shù)目，LS是N個(gè)點(diǎn)的線性和，SS是N個(gè)點(diǎn)的平方和。聚類特征樹的定義(CF樹)：一顆CF樹是一個(gè)帶有分支因子B的平衡樹，每一個(gè)內(nèi)部結(jié)點(diǎn)對(duì)于每一個(gè)子結(jié)點(diǎn)都包含一個(gè)CF三元組。每個(gè)葉結(jié)點(diǎn)也代表一個(gè)簇，并且對(duì)于其中每一個(gè)子簇都包含一個(gè)CF條目。在葉結(jié)點(diǎn)中的子簇要有一個(gè)不超過給定閾值T的直徑。合并假定：假定個(gè)簇進(jìn)行合并，個(gè)簇的聚類特征表示為，其中，那么合并后簇為，其聚類特征為其中，合并后簇的聚類特征精確地表示了兩個(gè)聚類合并后的漸增性。在層次聚類方法中，要按照一定的相似性判斷標(biāo)準(zhǔn)合并最相似的部分，或者分割最不相似的兩個(gè)部分，判斷各個(gè)類之間的相似程度的準(zhǔn)則是：假設(shè)和是聚結(jié)過程中同一層次上的兩個(gè)類，和分別是和兩個(gè)類中的對(duì)象數(shù)目，為中的任意一個(gè)對(duì)象，為中的任意一個(gè)對(duì)象，為中對(duì)象的平均值，為中對(duì)象的平均值，下面的四種距離計(jì)算被廣泛地應(yīng)用于計(jì)算兩個(gè)類之間的差異度：平均值距離：，平均距離：，最大距離：最小距離：BIRCH聚類算法利用特征樹結(jié)構(gòu)對(duì)數(shù)據(jù)集進(jìn)行聚類，算法主要過程為：首先，將所有初始數(shù)據(jù)掃描，建立一個(gè)原始化聚集CF樹，盡最大可能使得特征樹包含所有信息；然后，用聚集特征代替原有數(shù)據(jù)集進(jìn)行聚類。在第一階段，CF樹是隨著原始數(shù)據(jù)的加入而自動(dòng)形成的；一個(gè)對(duì)象被放入那個(gè)離它最近的葉子結(jié)點(diǎn)中去。如果放入以后這個(gè)簇的半徑大于閾值T的話，那么這個(gè)葉結(jié)點(diǎn)就會(huì)被分割。插入過程類似于B+樹構(gòu)建中的插入和結(jié)點(diǎn)分裂。2.3 劃分法(Partitioning methods )劃分法(Partitioning methods)通常是指給定數(shù)據(jù)庫，其中有N個(gè)元素，采用分裂法將其構(gòu)造為K個(gè)組，每一個(gè)分組就代表一個(gè)聚類，KN。而且這K個(gè)分組滿足下列條件：(1)每一個(gè)分組至少包含一個(gè)數(shù)據(jù)紀(jì)錄；(2)每一個(gè)數(shù)據(jù)紀(jì)錄屬于且僅屬于一個(gè)分組；對(duì)于給定的K，算法首先給出一個(gè)初始的分組方法，以后通過反復(fù)迭代的方法改變分組，使得每一次改進(jìn)之后的分組方案都較前一次好。我們通常使用的K一MEANS算法、K一MEDO工DS算法、CLARANS算法基本上都采用這中思想。K一MEANS算法首先是輸入量為K；然后將N個(gè)數(shù)據(jù)對(duì)象劃分為K個(gè)聚類使得到的聚類滿足：(1)同一聚類中的數(shù)據(jù)相似度較高，(2)而不同聚類中的數(shù)據(jù)相似度較小。聚類相似度是利用各聚類中對(duì)象的均值所獲得一個(gè)“中心對(duì)象”來進(jìn)行計(jì)算的。CLARA算法的思想就是用實(shí)際數(shù)據(jù)的抽樣來代替整個(gè)數(shù)據(jù)，然后再在這些抽樣的數(shù)據(jù)上利用K一medoids算法得到最佳的medoids。CLRAR算法從實(shí)際數(shù)據(jù)中抽取多個(gè)采樣，在每個(gè)采樣上都用K一medoids算法得到相應(yīng)的，然后在這當(dāng)中選取E最小的一個(gè)作為最終的結(jié)果。2.4 K_means算法K_means算法是劃分聚類中較流行的一種算法，它是一種迭代的聚類算法，迭代過程中不斷移動(dòng)簇集中的對(duì)象，直至得到理想的簇集為止，每個(gè)簇用該簇中對(duì)象的平均值來表示。利用k_means算法得到的簇，簇中對(duì)象的相似度很高，不同簇中對(duì)象之間的相異度也很高。算法的主要步驟為：從n個(gè)數(shù)據(jù)對(duì)象隨機(jī)選取k個(gè)對(duì)象作為初始簇中心；計(jì)算每個(gè)簇的平均值，并用該平均值代表相應(yīng)的簇；根據(jù)每個(gè)對(duì)象與各個(gè)簇中心的距離，分配給最近的簇；轉(zhuǎn)第二步，重新計(jì)算每個(gè)簇的平均值。這個(gè)過程不斷重復(fù)直到滿足某個(gè)準(zhǔn)則函數(shù)不再明顯變化或者聚類的對(duì)象不再變化才停止。一般，K_means算法的準(zhǔn)則函數(shù)采用平方誤差準(zhǔn)則，定義為：其中，是數(shù)據(jù)集中所有對(duì)象與相應(yīng)類聚中心的均方差之和，為給定的數(shù)據(jù)對(duì)象，為聚類的均值（和均是多維的）。2.5基于密度的DBSCAN算法DBSCAN算法屬于基于密度的方法當(dāng)中的一個(gè)。密度聚類法是指只要一個(gè)區(qū)域中的點(diǎn)的密度大于某個(gè)值，就把它添加到與之相鄰的類中。DBS以N算法是密度聚類法中一個(gè)具有代表的算法，它將簇定義為密度相連的點(diǎn)的最大集合，只要臨近區(qū)域的密度(對(duì)象或數(shù)據(jù)點(diǎn)的數(shù)目)超來控制簇的增長(zhǎng)?；径x：點(diǎn)的鄰域，以選定點(diǎn)為中心，以為半徑的區(qū)域：1. 核心點(diǎn)：如果一個(gè)點(diǎn)的領(lǐng)域包含最小數(shù)目個(gè)點(diǎn)，則稱該點(diǎn)為核心點(diǎn)。2. 直接密度可達(dá)：如果點(diǎn)p在點(diǎn)q的領(lǐng)域內(nèi)，而q是一個(gè)核心點(diǎn)，則稱該點(diǎn)p是從點(diǎn)q直接密度可達(dá)。3. 間接密度可達(dá)：給定一個(gè)點(diǎn)集，如果存在一個(gè)點(diǎn)鏈，對(duì)，是從關(guān)于和直接密度可達(dá)的，則點(diǎn)p是從點(diǎn)q關(guān)于和間接密度可達(dá)。4. 密度相連：如果點(diǎn)集M中存在一個(gè)點(diǎn)o，使得點(diǎn)p和q，是從o關(guān)于和間接密度可達(dá)，則稱點(diǎn)p和q是關(guān)于和密度相連。5. 噪聲：不屬于密度可達(dá)或密度相連集合的點(diǎn)(即孤立點(diǎn))，稱為噪聲。2.6 CLARANS算法CLARANS算法是一種分割聚類方法。它首先隨機(jī)選擇一個(gè)點(diǎn)作為當(dāng)前點(diǎn)，然后隨機(jī)檢查它周圍不超過參數(shù)Maxneighbor個(gè)的一些鄰接點(diǎn)，若能找到一個(gè)更適合的點(diǎn)，把它移入該臨近點(diǎn)。然后再隨機(jī)選擇一個(gè)點(diǎn)來尋找另一個(gè)局部最小量，直至所找到的局部最小量數(shù)目達(dá)到用戶要求為止。該算法要求聚類的對(duì)象必須都預(yù)先調(diào)人內(nèi)存，并且需多次掃描數(shù)據(jù)集，這對(duì)大數(shù)據(jù)量而言，無論時(shí)間復(fù)雜度還是空間復(fù)雜度都相當(dāng)大。2.7 CLIQUE算法CLIQUE算法為自動(dòng)子空間聚類算法。該算法利用自頂向上方法求出各個(gè)子空間的聚類單元。CLIQUE算法主要用于找出在高維數(shù)據(jù)空間中存在的低維聚類。為了求出d維空間聚類，必須組合給出所有維子空間的聚類，導(dǎo)致其算法的空間和時(shí)間效率都較低，而且要求用戶輸入兩個(gè)參數(shù)：數(shù)據(jù)取值空間等間隔距離和密度閾值。這兩個(gè)參數(shù)與樣木數(shù)據(jù)緊密相關(guān)，用戶一般難以確定。優(yōu)缺點(diǎn)及解決方法優(yōu)點(diǎn)缺點(diǎn)層次法識(shí)別形狀復(fù)雜、大小不一的聚類，過濾孤立點(diǎn)。一旦一組對(duì)象合并，下一步將在新生成的類上進(jìn)行；因?yàn)楹喜⒒蚍至训臎Q定需要檢查和估算大量的對(duì)象或類。劃分法計(jì)算時(shí)間段，速度快；容易解釋；聚類效果好。結(jié)果好壞依賴對(duì)初始聚類中心的選擇；容易陷入局部最優(yōu)解；對(duì)K值的選擇沒有準(zhǔn)則可依循；對(duì)異常數(shù)據(jù)較為敏感；只能處理數(shù)值屬性的數(shù)據(jù)；聚類結(jié)構(gòu)可能不平衡?；诿芏鹊姆椒ㄓ休^強(qiáng)的抗“噪聲”的能力若原始數(shù)據(jù)庫中有較大的聚類，則難解決存儲(chǔ)核心對(duì)象信息的問題；輸入?yún)?shù)敏感；當(dāng)數(shù)據(jù)分布不均勻時(shí)聚類質(zhì)量較差。對(duì)于層次法的改進(jìn)：聚集特征樹的大小可以通過調(diào)節(jié)參數(shù)來改變，如果要存儲(chǔ)樹需要的內(nèi)存大于主存，可以定義一個(gè)較小的閉值，然后通過提升閉值重新建立一個(gè)聚類CF樹，這個(gè)重建過程并不需要將整個(gè)記錄掃描一次，而是建立在原有樹的葉子結(jié)點(diǎn)的基礎(chǔ)之上的，因此，建立一個(gè)樹數(shù)據(jù)記錄只需要被掃描一次。當(dāng)樹建好以后，可以在第二階段用其他的聚類算法對(duì)聚類特征進(jìn)行聚類。對(duì)于劃分法的改進(jìn)：l)并行化。針對(duì)數(shù)據(jù)分布不均，可以對(duì)數(shù)據(jù)進(jìn)行劃分，參照每個(gè)劃分中的數(shù)據(jù)的分布密度選取EPs值，這樣可以降低全局變量EPs值的影響。也降低了DBSCAN算法對(duì)內(nèi)存的較高要求。2)增量式處理。當(dāng)要考察的較大的數(shù)據(jù)有變化的時(shí)候，我們只需考慮其增加或刪除的數(shù)據(jù)所影響到的那些類.就不必重新對(duì)數(shù)據(jù)庫中的所有數(shù)據(jù)進(jìn)行聚類。只需要對(duì)類進(jìn)行漸進(jìn)性地更新，修正和加強(qiáng)己發(fā)現(xiàn)的類。3)由于高維數(shù)據(jù)的復(fù)雜性，使聚類分析的效率和實(shí)用性都很差。通過確定聚類空間中和聚類主題相關(guān)性較強(qiáng)的數(shù)據(jù)維，來降低聚類空間的維度。利用數(shù)據(jù)降維可以降低數(shù)據(jù)結(jié)構(gòu)上的復(fù)雜性。聚類分析的應(yīng)用聚類分析是一個(gè)極富挑戰(zhàn)性的研究領(lǐng)域，是近年來迅速發(fā)展起來的一種新興的數(shù)據(jù)處理技術(shù)，它在氣象分析、圖像處理、模糊控制、計(jì)算機(jī)視覺、天氣預(yù)報(bào)、模式識(shí)別、生物醫(yī)學(xué)、化學(xué)、食品檢驗(yàn)、生物種群劃分、市場(chǎng)細(xì)分、業(yè)績(jī)?cè)u(píng)估等諸多領(lǐng)域有著廣泛的應(yīng)用，并在這些領(lǐng)域中取得了長(zhǎng)足的發(fā)展。4.1聚類分析在文本中的應(yīng)用文本聚類是將文本集中相似的文本分為一組的全自動(dòng)處理過程，根據(jù)對(duì)象的某種聯(lián)系或相關(guān)性，對(duì)文檔進(jìn)行有效的摘要、組織，以便從文本集中發(fā)現(xiàn)內(nèi)在相關(guān)的信息。同類的文本相似程度較大。文本聚類方法通常先通過向量空間模型把文檔轉(zhuǎn)換成高維空間中的向量，然后對(duì)這些向量進(jìn)行聚類。中文文檔轉(zhuǎn)換成向量，需要先有分詞軟件對(duì)中文文本分詞后轉(zhuǎn)換成向量，再通過特征抽取形成樣本矩陣，最后進(jìn)行聚類，文本聚類的輸出一般為文檔集合的一個(gè)劃分。由于聚類不需要訓(xùn)練，也不需要預(yù)先對(duì)文檔手工標(biāo)注類別，具有一定的靈活性和自動(dòng)化處理能力，目前已經(jīng)成為對(duì)文本信息進(jìn)行處理的的重要手段。42聚類分析在市場(chǎng)營(yíng)銷客戶細(xì)分中的應(yīng)用市場(chǎng)營(yíng)銷業(yè)利用數(shù)據(jù)挖掘技術(shù)進(jìn)行市場(chǎng)定位和消費(fèi)分析，輔助制定營(yíng)銷方案。通過對(duì)客戶數(shù)據(jù)庫不同消費(fèi)者消費(fèi)同一類商品或服務(wù)的眾多不同數(shù)據(jù)進(jìn)行聚類分析，爭(zhēng)取潛在的客戶，制定有利于市場(chǎng)運(yùn)行的策略。目前企業(yè)都己經(jīng)意識(shí)到“客戶就是上帝”，在這種經(jīng)營(yíng)理念的指引下，對(duì)現(xiàn)有客戶和潛在客戶的培養(yǎng)和挖掘正成為企業(yè)成功的關(guān)鍵。例如，客戶的需求傾向一般有內(nèi)因和外因共同局決定的，內(nèi)因一般包括對(duì)某種產(chǎn)品的需要，認(rèn)知，而影響外因的元素相對(duì)較多，比如文化，社會(huì)，小群體，參考群體等等。把這些因素作為分析變量，把所有潛在客戶的每一個(gè)分析變量的指標(biāo)值量化出來，用聚類分析法進(jìn)行分類。除此之外，戶滿意度和重復(fù)購買的機(jī)率都可以作為屬性進(jìn)行分類。根據(jù)這些分析得到的歸類，可以為企業(yè)制定市場(chǎng)運(yùn)營(yíng)決策提供參考和保障。4.3聚類分析在金融領(lǐng)域中的應(yīng)用隨著世界經(jīng)濟(jì)的快速發(fā)展，金融業(yè)面臨的考驗(yàn)與日俱增。在分析市場(chǎng)和預(yù)測(cè)發(fā)展、各類客戶的歸類、銀行及各類擔(dān)保公司的擔(dān)保和信用評(píng)估等工作上需要收集和處理大量的數(shù)據(jù)，這些數(shù)據(jù)不可能通過人工或簡(jiǎn)單的數(shù)據(jù)處理軟件可以完成的。可以采用模糊聚類分析法對(duì)客戶進(jìn)行分類，預(yù)防產(chǎn)生不良賬戶，防范金融詐騙。對(duì)潛在良好信用客戶的挖掘，設(shè)計(jì)和制定更符合客戶要求的金融產(chǎn)品，分析、觀測(cè)金融市場(chǎng)的發(fā)展趨勢(shì)起到重要的作用。4.4聚類分析在檢驗(yàn)醫(yī)學(xué)方面的應(yīng)用檢驗(yàn)醫(yī)學(xué)包括很多項(xiàng)目，隨著技術(shù)的不斷提高，其中的生化檢驗(yàn)項(xiàng)目自動(dòng)化分析迅速普及，常規(guī)的檢查項(xiàng)目不斷地在增多，新項(xiàng)目的歸類和合理的配置已經(jīng)成為一項(xiàng)新的課題。聚類分析試分析項(xiàng)目組合用之有效的工具，避免醫(yī)療資源的浪費(fèi)，合理配置了檢驗(yàn)項(xiàng)目。在醫(yī)藥研究中，中藥的指紋圖譜要求考察的是同一品種藥材的相似性，而不是某一藥材個(gè)體的特性，強(qiáng)調(diào)的是能夠準(zhǔn)確識(shí)別出某一品種，不是要考察辨認(rèn)藥材之間是否相同。這些要求恰好符合了模糊聚類分析的特征，因此，采用模糊聚類的方法了解中藥指紋圖譜的相關(guān)信息，有助于指紋圖譜的建立并實(shí)現(xiàn)指紋圖譜的自動(dòng)化識(shí)別。4.5聚類分析在模式識(shí)別中的應(yīng)用模式識(shí)別的一個(gè)重要問題就是特征的提取，而模糊聚類分析方法是可以直接從原始數(shù)據(jù)內(nèi)找到相關(guān)的內(nèi)在聯(lián)系，提取特征，進(jìn)行優(yōu)選和降維，采用模糊聚類算法提供的最近鄰原型分類器，構(gòu)造基于模糊IF一THEN規(guī)則的分類器；在對(duì)線條檢測(cè)或識(shí)別物體中，模糊聚類可以原始數(shù)據(jù)上，也可以用于變換域中。在一些模式識(shí)別的具體應(yīng)用中，模糊聚類取得了較好的效果，比如漢字字符識(shí)別中的字符預(yù)分類、語音識(shí)別中的分類和匹配；雷達(dá)目標(biāo)識(shí)別中目標(biāo)庫的建立和新到目標(biāo)的歸類等。4.6聚類分析在圖像處理中的應(yīng)用計(jì)算機(jī)是現(xiàn)代生活和工作的重要工具。圖像處理是計(jì)算機(jī)視覺功能的重要組成部分。人眼視覺具有主觀性，所以處理圖像比較適合采用模糊手段，另一方面也解決了樣本圖像的匾乏與無監(jiān)督分析的要求，它己成為圖像處理中一個(gè)重要的研究分析工具。模糊聚類在圖像處理中的一個(gè)最廣泛的應(yīng)用是圖像分割，它實(shí)質(zhì)上就是研究象素的無監(jiān)督分類，Coleman和Andr旦WS在1979年，就提出用聚類算法進(jìn)行圖像分割，陸續(xù)人們經(jīng)過實(shí)踐與學(xué)習(xí)，提出了多種基于模糊聚類的灰度圖像分割新方法，該方法在分割紋理圖像、序列圖像、遙感圖像等方面獲得了很大的成果。Stewart等人應(yīng)用模糊聚類分析對(duì)雷達(dá)目標(biāo)的識(shí)別和歸類進(jìn)行了研究。

下載提示(請(qǐng)認(rèn)真閱讀)

1.請(qǐng)仔細(xì)閱讀文檔，確保文檔完整性，對(duì)于不預(yù)覽、不比對(duì)內(nèi)容而直接下載帶來的問題本站不予受理。
2.下載的文檔，不會(huì)出現(xiàn)我們的網(wǎng)址水印。
3、該文檔所得收入（下載+內(nèi)容+預(yù)覽）歸上傳者、原創(chuàng)作者；如果您是本文檔原作者，請(qǐng)點(diǎn)此認(rèn)領(lǐng)！既往收益都?xì)w您。

同意并開始全文預(yù)覽

文檔包含非法信息？點(diǎn)此舉報(bào)后獲取現(xiàn)金獎(jiǎng)勵(lì)！

文檔加載中……請(qǐng)稍候！
如果長(zhǎng)時(shí)間未打開，您也可以點(diǎn)擊刷新試試。

下載文檔到電腦，查找使用更方便

9.9 積分

還剩頁未讀，繼續(xù)閱讀

舉報(bào)

版權(quán)申訴 word格式文檔無特別注明外均可編輯修改；預(yù)覽文檔經(jīng)過壓縮，下載后原文更清晰！ 立即下載

配套講稿：: 如PPT文件的首頁顯示word圖標(biāo)，表示該P(yáng)PT已包含配套word講稿。雙擊word圖標(biāo)可打開word文檔。
特殊限制：: 部分文檔作品中含有的國旗、國徽等圖片，僅作為作品整體效果示例展示，禁止商用。設(shè)計(jì)者僅對(duì)作品中獨(dú)創(chuàng)性部分享有著作權(quán)。
關(guān) 鍵詞：: 聚類分析讀書報(bào)告

溫馨提示:
1: 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

裝配圖網(wǎng)所有資源均是用戶自行上傳分享，僅供網(wǎng)友學(xué)習(xí)交流，未經(jīng)上傳用戶書面授權(quán)，請(qǐng)勿作他用。

關(guān)于本文

本文標(biāo)題：聚類分析讀書報(bào)告.doc
鏈接地址：http://italysoccerbets.com/p-6523702.html

相關(guān)資源更多

正為您匹配相似的精品文檔

相關(guān)搜索

聚類分析 讀書 報(bào)告

關(guān)于我們 - 網(wǎng)站聲明 - 網(wǎng)站地圖 - 資源地圖 - 友情鏈接 - 網(wǎng)站客服 - 聯(lián)系我們

備案號(hào):蜀ICP備2024067431號(hào)-1 川公網(wǎng)安備51140202000466號(hào)

本站為文檔C2C交易模式，即用戶上傳的文檔直接被用戶下載，本站只是中間服務(wù)平臺(tái)，本站所有文檔下載所得的收益歸上傳人(含作者)所有。裝配圖網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)上載內(nèi)容本身不做任何修改或編輯。若文檔所含內(nèi)容侵犯了您的版權(quán)或隱私，請(qǐng)立即通知裝配圖網(wǎng)，我們立即給予刪除！

聚類分析讀書報(bào)告.doc

最新文檔