聚類分析讀書報(bào)告.doc
《聚類分析讀書報(bào)告.doc》由會(huì)員分享,可在線閱讀,更多相關(guān)《聚類分析讀書報(bào)告.doc(11頁珍藏版)》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。
聚類分析讀書報(bào)告王晨 研數(shù)理1535 1152209008基本原理聚類問題實(shí)際上是將一組數(shù)據(jù)分成若干個(gè)組,每個(gè)組里的對(duì)象具有很大的相似性,不同的組之間存在盡量大的差異性。在這些組之間尋找數(shù)據(jù)之間內(nèi)在的聯(lián)系。這個(gè)過程實(shí)際上是一中在無監(jiān)督狀態(tài)下尋找最優(yōu)劃分的過程。聚類有效性的評(píng)價(jià)可以參考以下幾個(gè)指標(biāo):聚類質(zhì)量的度量、聚類算法與某種數(shù)據(jù)集適合的程度、劃分的最佳聚類數(shù)目。聚類分析的內(nèi)容十分豐富,一般情況下按方法可以分為以下幾種:系統(tǒng)聚類法,調(diào)優(yōu)法(動(dòng)態(tài)聚類法),最優(yōu)分割法(有序樣品聚類法),模糊聚類法,圖論聚類法,聚類預(yù)報(bào)法。按照分類對(duì)象的不同可以分為R型和Q型兩大類,R型是對(duì)變量進(jìn)行分類,Q型是對(duì)樣品進(jìn)行分類。聚類分析就是用數(shù)學(xué)方法研究和處理給定對(duì)象的分類。聚類問題是一個(gè)久遠(yuǎn)的問題,是隨著人類的產(chǎn)生和社會(huì)的發(fā)展而不斷深化的一個(gè)問題。人們要認(rèn)知世界、改變世界就要區(qū)分不同的事物并感知存在于不同事物間的相似性。經(jīng)典分類學(xué)是從單對(duì)象或有限的幾個(gè)對(duì)象出發(fā),單憑經(jīng)驗(yàn)或?qū)I(yè)知識(shí)對(duì)事物進(jìn)行分類。這種分類具有的優(yōu)點(diǎn)是界限非常清晰。但是,隨著人們認(rèn)識(shí)的加深,發(fā)現(xiàn)這種分類常常不適用于具有模糊性的分類問題。如把人按漂亮分為“漂亮的人,“不漂亮的人”。這就產(chǎn)生了經(jīng)典分類方法解決不了的問題一如何判定某個(gè)人的類別。由此產(chǎn)生了模糊聚類分析,應(yīng)用模糊聚類得到了對(duì)象屬于不同類別的不確定性程度,表達(dá)了樣本類屬的中介性,更能客觀地反映現(xiàn)實(shí)世界。我們把應(yīng)用普通數(shù)學(xué)方法進(jìn)行分類的聚類方法稱為普通聚類分析,而把應(yīng)用模糊數(shù)學(xué)方法進(jìn)行分析的聚類分析稱為模糊聚類分析。1.1三種類的定義:【定義一】設(shè)閾值是給定的正數(shù),若集合中任何兩個(gè)元素的距離都滿足: ,則稱對(duì)于閾值組成一個(gè)類?!径x二】設(shè)閾值是給定的正數(shù),若集合中每個(gè)都滿足:,其中,是集合中元素的個(gè)數(shù),則稱對(duì)于閾值組成一個(gè)類?!径x三】設(shè)和是兩個(gè)給定的正數(shù),如果集合中兩兩元素距離的平均滿足:,其中是集合中元素的個(gè)數(shù),則稱對(duì)于閾值,組成一個(gè)類。1.2類的性質(zhì)特征:設(shè)類包含的樣品為,其中為元總體的樣本,可以從不同角度來刻畫:(1)的重心(或稱均值):(2)樣本離差陣及樣本協(xié)方差陣分別為:(3)類的直徑:用表示類的直徑,通常用以下來表示直徑,距離與相似系數(shù)對(duì)樣品進(jìn)行分類,就需要研究它們之間的關(guān)系,現(xiàn)在用的較多的是距離和相似系數(shù)。1.3距離把個(gè)樣品看成是維空間中的個(gè)點(diǎn),那么兩個(gè)樣品間的相似系數(shù)用度量。一般要求:,對(duì)任意;當(dāng);,對(duì)任意;,對(duì)任意。1.3.1明氏(Minkowski)距離,當(dāng)時(shí)的一階明氏距離為 即絕對(duì)距離當(dāng)時(shí),即歐氏距離當(dāng)趨于時(shí), ,即為切比雪夫距離。1.3.2馬氏(Mahalanobis)距離馬氏距離是1936年印度的馬哈拉諾比斯提出的,具有很重要的作用。為指標(biāo)的協(xié)方差陣,其中, ,當(dāng)存在時(shí),則為馬氏距離。樣品到總體的馬氏距離定義為,其中為總體的均值向量。1.3.3蘭氏(Canberra)距離蘭氏距離是由蘭思和威廉姆斯所給定的一種距離。其計(jì)算公式為:, 1.3.4杰氏距離杰氏距離是由杰斐瑞和馬突斯塔提出的。計(jì)算公式為:1.3.5斜交空間距離由于變量之間往往存在著不同的相關(guān)關(guān)系,正交空間的距離計(jì)算樣本空間易變性,可以采用斜交空間距離。1.4相似系數(shù)為了將樣品進(jìn)行分類,研究樣品之間的關(guān)系,采用相似系數(shù)的方法;性質(zhì)接近的樣品,相似系數(shù)就越接近1或者-1,而無關(guān)系的樣品的相關(guān)系數(shù)就越接近0.比較相似的樣品歸為一類,不相似的樣品歸屬不同的類。設(shè) (為常數(shù));,對(duì)任意均成立;,對(duì)任意均成立。這里的絕對(duì)值越接近1,表示和越相似。反之,兩者關(guān)系疏遠(yuǎn)。常用的相似系數(shù)有:夾角余弦當(dāng)和平行式,夾角,說明這兩個(gè)向量完全相似;當(dāng)和正交時(shí),夾角,說明這兩個(gè)向量不相關(guān)。相關(guān)系數(shù)表示兩個(gè)向量線性相關(guān)。指數(shù)相似系數(shù)非參數(shù)方法令 相似系數(shù)定義為當(dāng)非負(fù)時(shí),有三種相似系數(shù):聯(lián)列系數(shù)1.5聚類分析的性質(zhì)1.5.1單調(diào)性設(shè)為系統(tǒng)聚類中第次并類時(shí)的距離。如果,則稱它具有單調(diào)性。在聚類方法當(dāng)中,可以證明的是只有重心法和中間距離法不具有單調(diào)性。圖2為一個(gè)等角三角形,兩個(gè)腰長(zhǎng)為1.1,底邊是1,則第一次A,B并為一類,并類的距離幾=l,第二次并類的距離是C至AB中點(diǎn)的距離,它是AB邊的高,它等于。所以重心法不能夠滿足單調(diào)性。1.5.2空間的濃縮與擴(kuò)張?jiān)O(shè)兩個(gè)同階矩陣和。如果的每一個(gè)元素不小于相應(yīng)元素,則記為。特別的如果矩陣的元素非負(fù),則有.如果,表示將的每一個(gè)元素平方,則。令,則若有兩個(gè)系統(tǒng)聚類法,在第步距離陣記為和,若則稱比使空間擴(kuò)張或比使空間濃縮。這種性質(zhì)稱為最長(zhǎng)距離法比最短距離法擴(kuò)張;或最短距離法比最長(zhǎng)距離法濃縮?;痉椒ň垲惙椒ㄖ饕袆澐志垲惙?、層次聚類法和密度聚類法、基于網(wǎng)格的方法和基于模型的方法等。2.1層次聚類CURE算法層次聚類方法是一種目前應(yīng)用較廣的聚類技術(shù),是一種針對(duì)大型數(shù)據(jù)庫的高效的聚類算法,可為用戶提供多種可選的聚類結(jié)果,可以隨時(shí)完成聚類實(shí)施過程。CURE,ROCK和CHAMELEON算法是聚合聚類中最具代表性的三個(gè)方法。Guha等人在1998年提出了CURE算法。該方法選擇數(shù)據(jù)空間中固定數(shù)目的、具有代表性的一些點(diǎn)共同來表示相應(yīng)的類,這樣就可以識(shí)別具有復(fù)雜形狀和不同大小的聚類,找到更合適的孤立點(diǎn)。ROCK算法是對(duì)CURE的改進(jìn),適用于類別屬性的數(shù)據(jù)。CHAMELEON算法是KaryPis等人于1999年提出來的,它在聚合聚類的過程中利用了動(dòng)態(tài)建模的技術(shù)。例如在“自底向上”方案中,初始時(shí)每一個(gè)數(shù)據(jù)紀(jì)錄都組成一個(gè)單獨(dú)的組,在接下來的迭代中,它把那些相互鄰近的組合并成一個(gè)組,直到所有的記錄組成一個(gè)分組或者某個(gè)條件滿足為止。它是一種分裂的層次聚類。CURE采用了用多個(gè)點(diǎn)代表一個(gè)簇的方法,可以較好的處理以上問題。并且在處理大數(shù)據(jù)量的時(shí)候采用了隨機(jī)取樣,分區(qū)的方法,來提高其效率,使得其可以高效的處理大量數(shù)據(jù)。算法分為以下六步:(1)從原始數(shù)據(jù)中抽取一個(gè)隨機(jī)樣本S。(2)將樣本S分割為一組劃分。(3)對(duì)每個(gè)劃分局部的聚類。(4)通過隨機(jī)取樣剔除孤立點(diǎn)。如果一個(gè)類增長(zhǎng)太慢,就去掉它。(5)對(duì)局部的類進(jìn)行聚類。落在每個(gè)新形成的類中的代表點(diǎn)根據(jù)用戶定義的一個(gè)收縮因子收縮或向類中心移動(dòng)。這些點(diǎn)代表和捕捉到了類的形狀。(6)用相應(yīng)的類標(biāo)簽來標(biāo)記數(shù)據(jù)。CURE算法的思想主要體現(xiàn)在如下幾個(gè)方面:(1)CURE算法采用的是聚結(jié)層次聚類。把每一個(gè)對(duì)象設(shè)立為一個(gè)類,隨即根據(jù)相似點(diǎn)對(duì)它們進(jìn)行合并。(2)CURE算法采用分割方法,先把樣本分割為幾塊然后針對(duì)各個(gè)部分中的對(duì)象分別進(jìn)行局部聚類,形成子類。再對(duì)子類進(jìn)行聚類,形成新的類。2.2 BIRCH方法BIRCH(Balanced Iterative Reducing and clustering using Hierarchies)是專門針對(duì)大規(guī)模數(shù)據(jù)集提出的聚集型層次聚類算法,它綜合了層次凝聚和迭代的重定位方法。首先用自底向上的層次算法,然后用迭代的重定位來改進(jìn)結(jié)果。它的主要思想是:掃描數(shù)據(jù)庫,建立一個(gè)初始存放于內(nèi)存中的聚類特征樹,然后對(duì)聚類特征樹的葉結(jié)點(diǎn)進(jìn)行聚類。聚類特征的定義(CF):一個(gè)聚類特征(CF)是一個(gè)三元組(N,LS,SS),其中N是簇中的點(diǎn)的數(shù)目,LS是N個(gè)點(diǎn)的線性和,SS是N個(gè)點(diǎn)的平方和。聚類特征樹的定義(CF樹):一顆CF樹是一個(gè)帶有分支因子B的平衡樹,每一個(gè)內(nèi)部結(jié)點(diǎn)對(duì)于每一個(gè)子結(jié)點(diǎn)都包含一個(gè)CF三元組。每個(gè)葉結(jié)點(diǎn)也代表一個(gè)簇,并且對(duì)于其中每一個(gè)子簇都包含一個(gè)CF條目。在葉結(jié)點(diǎn)中的子簇要有一個(gè)不超過給定閾值T的直徑。合并假定:假定個(gè)簇進(jìn)行合并,個(gè)簇的聚類特征表示為,其中,那么合并后簇為,其聚類特征為其中,合并后簇的聚類特征精確地表示了兩個(gè)聚類合并后的漸增性。在層次聚類方法中,要按照一定的相似性判斷標(biāo)準(zhǔn)合并最相似的部分,或者分割最不相似的兩個(gè)部分,判斷各個(gè)類之間的相似程度的準(zhǔn)則是:假設(shè)和是聚結(jié)過程中同一層次上的兩個(gè)類,和分別是和兩個(gè)類中的對(duì)象數(shù)目,為中的任意一個(gè)對(duì)象,為中的任意一個(gè)對(duì)象,為中對(duì)象的平均值,為中對(duì)象的平均值,下面的四種距離計(jì)算被廣泛地應(yīng)用于計(jì)算兩個(gè)類之間的差異度:平均值距離:,平均距離:,最大距離:最小距離:BIRCH聚類算法利用特征樹結(jié)構(gòu)對(duì)數(shù)據(jù)集進(jìn)行聚類,算法主要過程為:首先,將所有初始數(shù)據(jù)掃描,建立一個(gè)原始化聚集CF樹,盡最大可能使得特征樹包含所有信息;然后,用聚集特征代替原有數(shù)據(jù)集進(jìn)行聚類。在第一階段,CF樹是隨著原始數(shù)據(jù)的加入而自動(dòng)形成的;一個(gè)對(duì)象被放入那個(gè)離它最近的葉子結(jié)點(diǎn)中去。如果放入以后這個(gè)簇的半徑大于閾值T的話,那么這個(gè)葉結(jié)點(diǎn)就會(huì)被分割。插入過程類似于B+樹構(gòu)建中的插入和結(jié)點(diǎn)分裂。2.3 劃分法(Partitioning methods )劃分法(Partitioning methods)通常是指給定數(shù)據(jù)庫,其中有N個(gè)元素,采用分裂法將其構(gòu)造為K個(gè)組,每一個(gè)分組就代表一個(gè)聚類,KN。而且這K個(gè)分組滿足下列條件:(1)每一個(gè)分組至少包含一個(gè)數(shù)據(jù)紀(jì)錄;(2)每一個(gè)數(shù)據(jù)紀(jì)錄屬于且僅屬于一個(gè)分組;對(duì)于給定的K,算法首先給出一個(gè)初始的分組方法,以后通過反復(fù)迭代的方法改變分組,使得每一次改進(jìn)之后的分組方案都較前一次好。我們通常使用的K一MEANS算法、K一MEDO工DS算法、CLARANS算法基本上都采用這中思想。K一MEANS算法首先是輸入量為K;然后將N個(gè)數(shù)據(jù)對(duì)象劃分為K個(gè)聚類使得到的聚類滿足:(1)同一聚類中的數(shù)據(jù)相似度較高,(2)而不同聚類中的數(shù)據(jù)相似度較小。聚類相似度是利用各聚類中對(duì)象的均值所獲得一個(gè)“中心對(duì)象”來進(jìn)行計(jì)算的。CLARA算法的思想就是用實(shí)際數(shù)據(jù)的抽樣來代替整個(gè)數(shù)據(jù),然后再在這些抽樣的數(shù)據(jù)上利用K一medoids算法得到最佳的medoids。CLRAR算法從實(shí)際數(shù)據(jù)中抽取多個(gè)采樣,在每個(gè)采樣上都用K一medoids算法得到相應(yīng)的,然后在這當(dāng)中選取E最小的一個(gè)作為最終的結(jié)果。2.4 K_means算法K_means算法是劃分聚類中較流行的一種算法,它是一種迭代的聚類算法,迭代過程中不斷移動(dòng)簇集中的對(duì)象,直至得到理想的簇集為止,每個(gè)簇用該簇中對(duì)象的平均值來表示。利用k_means算法得到的簇,簇中對(duì)象的相似度很高,不同簇中對(duì)象之間的相異度也很高。算法的主要步驟為:從n個(gè)數(shù)據(jù)對(duì)象隨機(jī)選取k個(gè)對(duì)象作為初始簇中心;計(jì)算每個(gè)簇的平均值,并用該平均值代表相應(yīng)的簇;根據(jù)每個(gè)對(duì)象與各個(gè)簇中心的距離,分配給最近的簇;轉(zhuǎn)第二步,重新計(jì)算每個(gè)簇的平均值。這個(gè)過程不斷重復(fù)直到滿足某個(gè)準(zhǔn)則函數(shù)不再明顯變化或者聚類的對(duì)象不再變化才停止。一般,K_means算法的準(zhǔn)則函數(shù)采用平方誤差準(zhǔn)則,定義為:其中,是數(shù)據(jù)集中所有對(duì)象與相應(yīng)類聚中心的均方差之和,為給定的數(shù)據(jù)對(duì)象,為聚類的均值(和均是多維的)。2.5基于密度的DBSCAN算法DBSCAN算法屬于基于密度的方法當(dāng)中的一個(gè)。密度聚類法是指只要一個(gè)區(qū)域中的點(diǎn)的密度大于某個(gè)值,就把它添加到與之相鄰的類中。DBS以N算法是密度聚類法中一個(gè)具有代表的算法,它將簇定義為密度相連的點(diǎn)的最大集合,只要臨近區(qū)域的密度(對(duì)象或數(shù)據(jù)點(diǎn)的數(shù)目)超來控制簇的增長(zhǎng)?;径x:點(diǎn)的鄰域,以選定點(diǎn)為中心,以為半徑的區(qū)域:1. 核心點(diǎn):如果一個(gè)點(diǎn)的領(lǐng)域包含最小數(shù)目個(gè)點(diǎn),則稱該點(diǎn)為核心點(diǎn)。2. 直接密度可達(dá):如果點(diǎn)p在點(diǎn)q的領(lǐng)域內(nèi),而q是一個(gè)核心點(diǎn),則稱該點(diǎn)p是從點(diǎn)q直接密度可達(dá)。3. 間接密度可達(dá):給定一個(gè)點(diǎn)集,如果存在一個(gè)點(diǎn)鏈,對(duì),是從關(guān)于和直接密度可達(dá)的,則點(diǎn)p是從點(diǎn)q關(guān)于和間接密度可達(dá)。4. 密度相連:如果點(diǎn)集M中存在一個(gè)點(diǎn)o,使得點(diǎn)p和q,是從o關(guān)于和間接密度可達(dá),則稱點(diǎn)p和q是關(guān)于和密度相連。5. 噪聲:不屬于密度可達(dá)或密度相連集合的點(diǎn)(即孤立點(diǎn)),稱為噪聲。2.6 CLARANS算法CLARANS算法是一種分割聚類方法。它首先隨機(jī)選擇一個(gè)點(diǎn)作為當(dāng)前點(diǎn),然后隨機(jī)檢查它周圍不超過參數(shù)Maxneighbor個(gè)的一些鄰接點(diǎn),若能找到一個(gè)更適合的點(diǎn),把它移入該臨近點(diǎn)。然后再隨機(jī)選擇一個(gè)點(diǎn)來尋找另一個(gè)局部最小量,直至所找到的局部最小量數(shù)目達(dá)到用戶要求為止。該算法要求聚類的對(duì)象必須都預(yù)先調(diào)人內(nèi)存,并且需多次掃描數(shù)據(jù)集,這對(duì)大數(shù)據(jù)量而言,無論時(shí)間復(fù)雜度還是空間復(fù)雜度都相當(dāng)大。2.7 CLIQUE算法CLIQUE算法為自動(dòng)子空間聚類算法。該算法利用自頂向上方法求出各個(gè)子空間的聚類單元。CLIQUE算法主要用于找出在高維數(shù)據(jù)空間中存在的低維聚類。為了求出d維空間聚類,必須組合給出所有維子空間的聚類,導(dǎo)致其算法的空間和時(shí)間效率都較低,而且要求用戶輸入兩個(gè)參數(shù):數(shù)據(jù)取值空間等間隔距離和密度閾值。這兩個(gè)參數(shù)與樣木數(shù)據(jù)緊密相關(guān),用戶一般難以確定。優(yōu)缺點(diǎn)及解決方法優(yōu)點(diǎn)缺點(diǎn)層次法識(shí)別形狀復(fù)雜、大小不一的聚類,過濾孤立點(diǎn)。一旦一組對(duì)象合并,下一步將在新生成的類上進(jìn)行;因?yàn)楹喜⒒蚍至训臎Q定需要檢查和估算大量的對(duì)象或類。劃分法計(jì)算時(shí)間段,速度快;容易解釋;聚類效果好。結(jié)果好壞依賴對(duì)初始聚類中心的選擇;容易陷入局部最優(yōu)解;對(duì)K值的選擇沒有準(zhǔn)則可依循;對(duì)異常數(shù)據(jù)較為敏感;只能處理數(shù)值屬性的數(shù)據(jù);聚類結(jié)構(gòu)可能不平衡?;诿芏鹊姆椒ㄓ休^強(qiáng)的抗“噪聲”的能力若原始數(shù)據(jù)庫中有較大的聚類,則難解決存儲(chǔ)核心對(duì)象信息的問題;輸入?yún)?shù)敏感;當(dāng)數(shù)據(jù)分布不均勻時(shí)聚類質(zhì)量較差。對(duì)于層次法的改進(jìn):聚集特征樹的大小可以通過調(diào)節(jié)參數(shù)來改變,如果要存儲(chǔ)樹需要的內(nèi)存大于主存,可以定義一個(gè)較小的閉值,然后通過提升閉值重新建立一個(gè)聚類CF樹,這個(gè)重建過程并不需要將整個(gè)記錄掃描一次,而是建立在原有樹的葉子結(jié)點(diǎn)的基礎(chǔ)之上的,因此,建立一個(gè)樹數(shù)據(jù)記錄只需要被掃描一次。當(dāng)樹建好以后,可以在第二階段用其他的聚類算法對(duì)聚類特征進(jìn)行聚類。對(duì)于劃分法的改進(jìn):l)并行化。針對(duì)數(shù)據(jù)分布不均,可以對(duì)數(shù)據(jù)進(jìn)行劃分,參照每個(gè)劃分中的數(shù)據(jù)的分布密度選取EPs值,這樣可以降低全局變量EPs值的影響。也降低了DBSCAN算法對(duì)內(nèi)存的較高要求。2)增量式處理。當(dāng)要考察的較大的數(shù)據(jù)有變化的時(shí)候,我們只需考慮其增加或刪除的數(shù)據(jù)所影響到的那些類.就不必重新對(duì)數(shù)據(jù)庫中的所有數(shù)據(jù)進(jìn)行聚類。只需要對(duì)類進(jìn)行漸進(jìn)性地更新,修正和加強(qiáng)己發(fā)現(xiàn)的類。3)由于高維數(shù)據(jù)的復(fù)雜性,使聚類分析的效率和實(shí)用性都很差。通過確定聚類空間中和聚類主題相關(guān)性較強(qiáng)的數(shù)據(jù)維,來降低聚類空間的維度。利用數(shù)據(jù)降維可以降低數(shù)據(jù)結(jié)構(gòu)上的復(fù)雜性。聚類分析的應(yīng)用聚類分析是一個(gè)極富挑戰(zhàn)性的研究領(lǐng)域,是近年來迅速發(fā)展起來的一種新興的數(shù)據(jù)處理技術(shù),它在氣象分析、圖像處理、模糊控制、計(jì)算機(jī)視覺、天氣預(yù)報(bào)、模式識(shí)別、生物醫(yī)學(xué)、化學(xué)、食品檢驗(yàn)、生物種群劃分、市場(chǎng)細(xì)分、業(yè)績(jī)?cè)u(píng)估等諸多領(lǐng)域有著廣泛的應(yīng)用,并在這些領(lǐng)域中取得了長(zhǎng)足的發(fā)展。4.1聚類分析在文本中的應(yīng)用文本聚類是將文本集中相似的文本分為一組的全自動(dòng)處理過程,根據(jù)對(duì)象的某種聯(lián)系或相關(guān)性,對(duì)文檔進(jìn)行有效的摘要、組織,以便從文本集中發(fā)現(xiàn)內(nèi)在相關(guān)的信息。同類的文本相似程度較大。文本聚類方法通常先通過向量空間模型把文檔轉(zhuǎn)換成高維空間中的向量,然后對(duì)這些向量進(jìn)行聚類。中文文檔轉(zhuǎn)換成向量,需要先有分詞軟件對(duì)中文文本分詞后轉(zhuǎn)換成向量,再通過特征抽取形成樣本矩陣,最后進(jìn)行聚類,文本聚類的輸出一般為文檔集合的一個(gè)劃分。由于聚類不需要訓(xùn)練,也不需要預(yù)先對(duì)文檔手工標(biāo)注類別,具有一定的靈活性和自動(dòng)化處理能力,目前已經(jīng)成為對(duì)文本信息進(jìn)行處理的的重要手段。42聚類分析在市場(chǎng)營(yíng)銷客戶細(xì)分中的應(yīng)用市場(chǎng)營(yíng)銷業(yè)利用數(shù)據(jù)挖掘技術(shù)進(jìn)行市場(chǎng)定位和消費(fèi)分析,輔助制定營(yíng)銷方案。通過對(duì)客戶數(shù)據(jù)庫不同消費(fèi)者消費(fèi)同一類商品或服務(wù)的眾多不同數(shù)據(jù)進(jìn)行聚類分析,爭(zhēng)取潛在的客戶,制定有利于市場(chǎng)運(yùn)行的策略。目前企業(yè)都己經(jīng)意識(shí)到“客戶就是上帝”,在這種經(jīng)營(yíng)理念的指引下,對(duì)現(xiàn)有客戶和潛在客戶的培養(yǎng)和挖掘正成為企業(yè)成功的關(guān)鍵。例如,客戶的需求傾向一般有內(nèi)因和外因共同局決定的,內(nèi)因一般包括對(duì)某種產(chǎn)品的需要,認(rèn)知,而影響外因的元素相對(duì)較多,比如文化,社會(huì),小群體,參考群體等等。把這些因素作為分析變量,把所有潛在客戶的每一個(gè)分析變量的指標(biāo)值量化出來,用聚類分析法進(jìn)行分類。除此之外,戶滿意度和重復(fù)購買的機(jī)率都可以作為屬性進(jìn)行分類。根據(jù)這些分析得到的歸類,可以為企業(yè)制定市場(chǎng)運(yùn)營(yíng)決策提供參考和保障。4.3聚類分析在金融領(lǐng)域中的應(yīng)用隨著世界經(jīng)濟(jì)的快速發(fā)展,金融業(yè)面臨的考驗(yàn)與日俱增。在分析市場(chǎng)和預(yù)測(cè)發(fā)展、各類客戶的歸類、銀行及各類擔(dān)保公司的擔(dān)保和信用評(píng)估等工作上需要收集和處理大量的數(shù)據(jù),這些數(shù)據(jù)不可能通過人工或簡(jiǎn)單的數(shù)據(jù)處理軟件可以完成的。可以采用模糊聚類分析法對(duì)客戶進(jìn)行分類,預(yù)防產(chǎn)生不良賬戶,防范金融詐騙。對(duì)潛在良好信用客戶的挖掘,設(shè)計(jì)和制定更符合客戶要求的金融產(chǎn)品,分析、觀測(cè)金融市場(chǎng)的發(fā)展趨勢(shì)起到重要的作用。4.4聚類分析在檢驗(yàn)醫(yī)學(xué)方面的應(yīng)用檢驗(yàn)醫(yī)學(xué)包括很多項(xiàng)目,隨著技術(shù)的不斷提高,其中的生化檢驗(yàn)項(xiàng)目自動(dòng)化分析迅速普及,常規(guī)的檢查項(xiàng)目不斷地在增多,新項(xiàng)目的歸類和合理的配置已經(jīng)成為一項(xiàng)新的課題。聚類分析試分析項(xiàng)目組合用之有效的工具,避免醫(yī)療資源的浪費(fèi),合理配置了檢驗(yàn)項(xiàng)目。在醫(yī)藥研究中,中藥的指紋圖譜要求考察的是同一品種藥材的相似性,而不是某一藥材個(gè)體的特性,強(qiáng)調(diào)的是能夠準(zhǔn)確識(shí)別出某一品種,不是要考察辨認(rèn)藥材之間是否相同。這些要求恰好符合了模糊聚類分析的特征,因此,采用模糊聚類的方法了解中藥指紋圖譜的相關(guān)信息,有助于指紋圖譜的建立并實(shí)現(xiàn)指紋圖譜的自動(dòng)化識(shí)別。4.5聚類分析在模式識(shí)別中的應(yīng)用模式識(shí)別的一個(gè)重要問題就是特征的提取,而模糊聚類分析方法是可以直接從原始數(shù)據(jù)內(nèi)找到相關(guān)的內(nèi)在聯(lián)系,提取特征,進(jìn)行優(yōu)選和降維,采用模糊聚類算法提供的最近鄰原型分類器,構(gòu)造基于模糊IF一THEN規(guī)則的分類器;在對(duì)線條檢測(cè)或識(shí)別物體中,模糊聚類可以原始數(shù)據(jù)上,也可以用于變換域中。在一些模式識(shí)別的具體應(yīng)用中,模糊聚類取得了較好的效果,比如漢字字符識(shí)別中的字符預(yù)分類、語音識(shí)別中的分類和匹配;雷達(dá)目標(biāo)識(shí)別中目標(biāo)庫的建立和新到目標(biāo)的歸類等。4.6聚類分析在圖像處理中的應(yīng)用計(jì)算機(jī)是現(xiàn)代生活和工作的重要工具。圖像處理是計(jì)算機(jī)視覺功能的重要組成部分。人眼視覺具有主觀性,所以處理圖像比較適合采用模糊手段,另一方面也解決了樣本圖像的匾乏與無監(jiān)督分析的要求,它己成為圖像處理中一個(gè)重要的研究分析工具。模糊聚類在圖像處理中的一個(gè)最廣泛的應(yīng)用是圖像分割,它實(shí)質(zhì)上就是研究象素的無監(jiān)督分類,Coleman和Andr旦WS在1979年,就提出用聚類算法進(jìn)行圖像分割,陸續(xù)人們經(jīng)過實(shí)踐與學(xué)習(xí),提出了多種基于模糊聚類的灰度圖像分割新方法,該方法在分割紋理圖像、序列圖像、遙感圖像等方面獲得了很大的成果。Stewart等人應(yīng)用模糊聚類分析對(duì)雷達(dá)目標(biāo)的識(shí)別和歸類進(jìn)行了研究。- 1.請(qǐng)仔細(xì)閱讀文檔,確保文檔完整性,對(duì)于不預(yù)覽、不比對(duì)內(nèi)容而直接下載帶來的問題本站不予受理。
- 2.下載的文檔,不會(huì)出現(xiàn)我們的網(wǎng)址水印。
- 3、該文檔所得收入(下載+內(nèi)容+預(yù)覽)歸上傳者、原創(chuàng)作者;如果您是本文檔原作者,請(qǐng)點(diǎn)此認(rèn)領(lǐng)!既往收益都?xì)w您。
下載文檔到電腦,查找使用更方便
9.9 積分
下載 |
- 配套講稿:
如PPT文件的首頁顯示word圖標(biāo),表示該P(yáng)PT已包含配套word講稿。雙擊word圖標(biāo)可打開word文檔。
- 特殊限制:
部分文檔作品中含有的國旗、國徽等圖片,僅作為作品整體效果示例展示,禁止商用。設(shè)計(jì)者僅對(duì)作品中獨(dú)創(chuàng)性部分享有著作權(quán)。
- 關(guān) 鍵 詞:
- 聚類分析 讀書 報(bào)告
鏈接地址:http://italysoccerbets.com/p-6523702.html