《主成分分析 》PPT課件

上傳人:san****019 文檔編號:16510737 上傳時間:2020-10-05 格式:PPT 頁數(shù):58 大?。?.35MB
收藏 版權(quán)申訴 舉報 下載
《主成分分析 》PPT課件_第1頁
第1頁 / 共58頁
《主成分分析 》PPT課件_第2頁
第2頁 / 共58頁
《主成分分析 》PPT課件_第3頁
第3頁 / 共58頁

下載文檔到電腦,查找使用更方便

14.9 積分

下載資源

還剩頁未讀,繼續(xù)閱讀

資源描述:

《《主成分分析 》PPT課件》由會員分享,可在線閱讀,更多相關(guān)《《主成分分析 》PPT課件(58頁珍藏版)》請在裝配圖網(wǎng)上搜索。

1、CH.10 主成分分析,主成分分析 主成分回歸 立體數(shù)據(jù)表的主成分分析,一項十分著名的工作是美國的統(tǒng)計學家斯通(stone)在1947年關(guān)于國民經(jīng)濟的研究。他曾利用美國1929一1938年各年的數(shù)據(jù),得到了17個反映國民收入與支出的變量要素,例如雇主補貼、消費資料和生產(chǎn)資料、純公共支出、凈增庫存、股息、利息外貿(mào)平衡等等。,1 基本思想,在進行主成分分析后,竟以97.4的精度,用三新變量就取代了原17個變量。根據(jù)經(jīng)濟學知識,斯通給這三個新變量分別命名為總收入F1、總收入變化率F2和經(jīng)濟發(fā)展或衰退的趨勢F3。更有意思的是,這三個變量其實都是可以直接測量的。斯通將他得到的主成分與實際測量的總收入I

2、、總收入變化率I以及時間t因素做相關(guān)分析,得到下表:,主成分分析是把各變量之間互相關(guān)聯(lián)的復雜關(guān)系進行簡化分析的方法。 在社會經(jīng)濟的研究中,為了全面系統(tǒng)的分析和研究問題,必須考慮許多經(jīng)濟指標,這些指標能從不同的側(cè)面反映我們所研究的對象的特征,但在某種程度上存在信息的重疊,具有一定的相關(guān)性。,主成分分析試圖在力保數(shù)據(jù)信息丟失最少的原則下,對這種多變量的截面數(shù)據(jù)表進行最佳綜合簡化,也就是說,對高維變量空間進行降維處理。 很顯然,識辨系統(tǒng)在一個低維空間要比在一個高維空間容易得多。,(1) 基于相關(guān)系數(shù)矩陣還是基于協(xié)方差矩陣做主成分分析。當分析中所選擇的經(jīng)濟變量具有不同的量綱,變量水平差異很大,應該

3、選擇基于相關(guān)系數(shù)矩陣的主成分分析。,在力求數(shù)據(jù)信息丟失最少的原則下,對高維的變量空間降維,即研究指標體系的少數(shù)幾個線性組合,并且這幾個線性組合所構(gòu)成的綜合指標將盡可能多地保留原來指標變異方面的信息。這些綜合指標就稱為主成分。要討論的問題是:,(2) 選擇幾個主成分。主成分分析的目的是簡化變量,一般情況下主成分的個數(shù)應該小于原始變量的個數(shù)。關(guān)于保留幾個主成分,應該權(quán)衡主成分個數(shù)和保留的信息。 (3)如何解釋主成分所包含的經(jīng)濟意義。,,,,,2 數(shù)學模型與幾何解釋,假設我們所討論的實際問題中,有p個指標,我們把這p個指標看作p個隨機變量,記為X1,X2,,Xp,主成分分析就是要把這p個指標的問

4、題,轉(zhuǎn)變?yōu)橛懻損個指標的線性組合的問題,而這些新的指標F1,F(xiàn)2,,F(xiàn)k(kp),按照保留主要信息量的原則充分反映原指標的信息,并且相互獨立。,這種由討論多個指標降為少數(shù)幾個綜合指標的過程在數(shù)學上就叫做降維。主成分分析通常的做法是,尋求原指標的線性組合Fi。,滿足如下的條件:,主成分之間相互獨立,即無重疊的信息。即,主成分的方差依次遞減,重要性依次遞減,即,每個主成分的系數(shù)平方和為1。即,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,主成分分析的幾何解釋,平移、旋轉(zhuǎn)坐標軸,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,

5、主成分分析的幾何解釋,平移、旋轉(zhuǎn)坐標軸,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,主成分分析的幾何解釋,平移、旋轉(zhuǎn)坐標軸,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,主成分分析的幾何解釋,平移、旋轉(zhuǎn)坐標軸,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,為了方便,我們在二維空間中討論主成分的幾何意義。 設有n個樣品,每個樣品有兩個觀測變量xl和x2,在由變量xl和x2 所確定的二維平面中,n個樣本點所散布的情況如橢圓狀。由圖可以看出這n

6、個樣本點無論是沿著xl 軸方向或x2軸方向都具有較大的離散性,其離散的程度可以分別用觀測變量xl 的方差和x2 的方差定量地表示。顯然,如果只考慮xl和x2 中的任何一個,那么包含在原始數(shù)據(jù)中的經(jīng)濟信息將會有較大的損失。,如果我們將xl 軸和x2軸先平移,再同時按逆時針方向旋轉(zhuǎn)角度,得到新坐標軸Fl和F2。Fl和F2是兩個新變量。,根據(jù)旋轉(zhuǎn)變換的公式:,旋轉(zhuǎn)變換的目的是為了使得n個樣品點在Fl軸方向上的離 散程度最大,即Fl的方差最大。變量Fl代表了原始數(shù)據(jù)的絕大 部分信息,在研究某經(jīng)濟問題時,即使不考慮變量F2也無損大局。經(jīng)過上述旋轉(zhuǎn)變換原始數(shù)據(jù)的大部分信息集中到Fl軸上,對數(shù)據(jù)中包含的信息

7、起到了濃縮作用。,Fl,F(xiàn)2除了可以對包含在Xl,X2中的信息起著濃縮作用之外,還具有不相關(guān)的性質(zhì),這就使得在研究復雜的問題時避免了信息重疊所帶來的虛假性。二維平面上的個點的方差大部分都歸結(jié)在Fl軸上,而F2軸上的方差很小。Fl和F2稱為原始變量x1和x2的綜合變量。F簡化了系統(tǒng)結(jié)構(gòu),抓住了主要矛盾。,3 主成分的推導及性質(zhì),一、兩個線性代數(shù)的結(jié)論,1、若A是p階實對稱陣,則一定可以找到正交陣U,使,其中 是A的特征根。,2、若上述矩陣的特征根所對應的單位特征向量為,,則實對稱陣 屬于不同特征根所對應的特征向量是正交的,即有,,令,,,二、主成分的推導,(一) 第一主成分,設X的協(xié)方差陣為

8、,由于x為非負定的對稱陣,則有利用線性代數(shù)的知識可得,必存在正交陣U,使得,其中1, 2,, p為x的特征根,不妨假設1 2 p 。而U恰好是由特征根相對應的特征向量所組成的正交陣。,,下面我們來看,是否由U的第一列元素所構(gòu)成為原始 變量的線性組合是否有最大的方差。,設有P維正交向量,,,,,,當且僅當a1 =u1時,即 時, 有最大的方差1。因為Var(F1)=U1xU1=1。 如果第一主成分的信息不夠,則需要尋找第二主成分。,(二) 第二主成分,在約束條件 下,尋找第二主成分,因為 所以,,則,對p維向量 ,有,,,所以如果取線性變換:,則 的方差次大。,類推,

9、,寫為矩陣形式:,,,4 主成分的性質(zhì),一、均值,二、方差為所有特征根之和,說明主成分分析把P個隨機變量的總方差分解成為P個不相關(guān)的隨機變量的方差之和。 協(xié)方差矩陣的對角線上的元素之和等于特征根之和。,,三、精度分析,1)貢獻率:第i個主成分的方差在全部方差中所占比重 ,稱為貢獻率 ,反映了原來P個指標多大的信息,有多大的綜合能力 。,2)累積貢獻率:前k個主成分共有多大的綜合能力,用這k個主成分的方差和在全部方差中所占比重 來描述,稱為累積貢獻率。,我們進行主成分分析的目的之一是希望用盡可能少的主成分F1,F(xiàn)2,,F(xiàn)k(kp)代替原來的P個指標。到底應該選擇多少個主成分,在實際工作中,主

10、成分個數(shù)的多少取決于能夠反映原來變量80%以上的信息量為依據(jù),即當累積貢獻率80%時的主成分的個數(shù)就足夠了。最常見的情況是主成分為2到3個。,,四、原始變量與主成分之間的相關(guān)系數(shù),,,,,,可見, 和 的相關(guān)的密切程度取決于對應線性組合系數(shù)的大小。,五、原始變量被主成分的提取率,前面我們討論了主成分的貢獻率和累計貢獻率,他度量了F1,F(xiàn)2,,F(xiàn)m分別從原始變量X1,X2,XP中提取了多少信息。那么X1,X2,XP各有多少信息分別F1,F(xiàn)2,,F(xiàn)m被提取了。應該用什么指標來度量?我們考慮到當討論F1分別與X1,X2,XP的關(guān)系時,可以討論F1分別與X1,X2,XP的相關(guān)系數(shù),但是由于相關(guān)系數(shù)有正

11、有負,所以只有考慮相關(guān)系數(shù)的平方。,如果我們僅僅提出了m個主成分,則第i 原始變量信息的被提取率為:,,是Fj 能說明的第i 原始變量的方差,是Fj 提取的第i 原始變量信息的比重,例 設 的協(xié)方差矩陣為,,解得特征根為 , ,,,,,第一個主成分的貢獻率為5.83/(5.83+2.00+0.17)=72.875%,盡管第一個主成分的貢獻率并不小,但在本題中第一主成分不含第三個原始變量的信息,所以應該取兩個主成分。,,,,,定義:如果一個主成分僅僅對某一個原始變量有作用,則稱為特殊成分。如果一個主成分所有的原始變量都起作用稱為公共成分。,(該題無公共因子),六、載荷矩陣,,,5 主成分分

12、析的步驟,在 實際問題中,X的協(xié)方差通常是未知的,樣品有 的,,第一步:由X的協(xié)方差陣x,求出其特征根,即解方程 ,可得特征根 。,一、基于協(xié)方差矩陣,第二步:求出分別所對應的特征向量U1,U2,,Up,,第三步:計算累積貢獻率,給出恰當?shù)闹鞒煞謧€數(shù)。,第四步:計算所選出的k個主成分的得分。將原始數(shù)據(jù)的中心化值: 代入前k個主成分的表達式,分別計算出各單位k個主成分的得分,并按得分值的大小排隊。,二、基于相關(guān)系數(shù)矩陣 如果變量有不同的量綱,則必須基于相關(guān)系數(shù)矩陣進行主成分分析。不同的是計算得分時應采用標準化后的數(shù)據(jù)。,例子(中學生身體四項指標的主成分分析),在某中學隨機抽取

13、某年級30名學生,測量起身高(X1),體重(X2),胸圍(X3)和坐高(X4),數(shù)據(jù)如下表。試對這30名中學生身體四項指標數(shù)據(jù)做主成分分析。,,對數(shù)據(jù)的相關(guān)陣作主成分分析,有, pr.stud summary(pr.stud,loadings=TRUE) Importance of components: Comp.1 Comp.2 Comp.3 Comp.4 Standard deviation 1.8817805 0.55980636 0.28179594 0.25711844 Proportion of Variance 0.8852745 0.07834579 0.

14、01985224 0.01652747 Cumulative Proportion 0.8852745 0.96362029 0.98347253 1.00000000 Loadings: Comp.1 Comp.2 Comp.3 Comp.4 X1 -0.497 0.543 -0.450 0.506 X2 -0.515 -0.210 -0.462 -0.691 X3 -0.481 -0.725 0.175 0.461 X4 -0.507 0.368 0.744 -0.232 其中Standard deviation為主成分的標準差,即方差的開方,也就是相應的特征值的開方。Proportio

15、n of Variane表示方差的貢獻率,而Cumulative Proportion表示方差的累計貢獻率。Loadings=FALSE或缺省就不列出loadings。,,分析:從主成分分析結(jié)果可看出前兩個主成分的累計貢獻率高達96%,選擇兩個主成分。 第一個主成分對應系數(shù)的符號都相同,其值在0.5左右,反映了中學生身材的魁梧程度,身材高大的學生,他的四個部分的尺寸都比較大,因此第一主成分的值就較小。 而身材矮小的同學他的四部分都比較小,第一主成分的值較大。 第一主成分為大小因子。 第二主成分是高度和圍度之差,比較大表明該學生細高,比較小為“矮胖”,稱第二因子為形體因子。 看一下各樣本的主成份

16、值,,畫第一個主成分的散點圖,可看出10, 11,15,29值較大,說明學生比較瘦小,而3,5,25值較小,說明學生比較高大. predict(pr.stud)-score plot(1:30, score,1) plot(1:30, score,2),,,,,從這個圖很容易看出,那些學生屬于高大魁梧型,比如25號學生,3,5號學生,那些學生屬于高瘦型比如23,19,4.等等.,根據(jù)主成分分析的定義及性質(zhì),我們已大體上能看出主成分分析的一些應用。概括起來說,主成分分析主要有以下幾方面的應用。 1主成分分析能降低所研究的數(shù)據(jù)空間的維數(shù)。即用研究m維的Y空間代替p維的X空間(mp),而低維的Y

17、空間代替 高維的x空間所損失的信息很少。即:使只有一個主成分Yl(即 m1)時,這個Yl仍是使用全部X變量(p個)得到的。例如要計算Yl的均值也得使用全部x的均值。在所選的前m個主成分中,如果某個Xi的系數(shù)全部近似于零的話,就可以把這個Xi刪除,這也是一種刪除多余變量的方法。,6 主成分分析主要有以下幾方面的應用,,2有時可通過因子負荷aij的結(jié)構(gòu),弄清X變量間的某些關(guān)系。 3. 多維數(shù)據(jù)的一種圖形表示方法。我們知道當維數(shù)大于3時便不能畫出幾何圖形,多元統(tǒng)計研究的問題大都多于3個變量。要把研究的問題用圖形表示出來是不可能的。然而,經(jīng)過主成分分析后,我們可以選取前兩個主成分或其中某兩個主成分,根據(jù)主成分的得分,畫出n個樣品在二維平面上的分布況,由圖形可直觀地看出各樣品在主分量中的地位。,4由主成分分析法構(gòu)造回歸模型。即把各主成分作為新自變量代替原來自變量x做回歸分析。 5用主成分分析篩選回歸變量?;貧w變量的選擇有著重的實際意義,為了使模型本身易于做結(jié)構(gòu)分析、控制和預報,好從原始變量所構(gòu)成的子集合中選擇最佳變量,構(gòu)成最佳變量集合。用主成分分析篩選變量,可以用較少的計算量來選擇量,獲得選擇最佳變量子集合的效果。,

展開閱讀全文
溫馨提示:
1: 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

相關(guān)資源

更多
正為您匹配相似的精品文檔
關(guān)于我們 - 網(wǎng)站聲明 - 網(wǎng)站地圖 - 資源地圖 - 友情鏈接 - 網(wǎng)站客服 - 聯(lián)系我們

copyright@ 2023-2025  zhuangpeitu.com 裝配圖網(wǎng)版權(quán)所有   聯(lián)系電話:18123376007

備案號:ICP2024067431-1 川公網(wǎng)安備51140202000466號


本站為文檔C2C交易模式,即用戶上傳的文檔直接被用戶下載,本站只是中間服務平臺,本站所有文檔下載所得的收益歸上傳人(含作者)所有。裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對上載內(nèi)容本身不做任何修改或編輯。若文檔所含內(nèi)容侵犯了您的版權(quán)或隱私,請立即通知裝配圖網(wǎng),我們立即給予刪除!