《回歸分析與聚類分析.ppt》由會員分享,可在線閱讀,更多相關《回歸分析與聚類分析.ppt(28頁珍藏版)》請在裝配圖網(wǎng)上搜索。
1、1,第8章回歸分析與聚類分析初步,8.1一元線性回歸分析8.2二元線性回歸8.3主成分分析8.4聚類分析,內容提要,2,8.1一元線性回歸,(1)確定性關系對應關系、函數(shù)關系。其變量稱確定性變量。(2)相關關系對應的變量稱隨機變量。沒有一一對應的函數(shù)關系,但有統(tǒng)計規(guī)律散點圖、回歸方程。,一元回歸分析研究單因素與試驗指標間相關關系;多元回歸分析研究多因素與試驗指標間相關關系;線性回歸、非線性回歸相關關系為線性或非線性。,8.1.1概述,科研與生產中,變量之間的關系有兩種情況,3,設有一組試驗數(shù)據(jù)xi,yi(i=1,2,n),其中x是自變量,y是因變量。若x,y符合線性關系,或已知經(jīng)驗公式為直線形
2、式,即:,8.1一元線性回歸,8.1.2回歸方法,a,b稱為回歸系數(shù);是由xi代入回歸方程的計算值,稱為回歸值。,4,與yi之間的偏差稱為殘差,用ei表示,則有:,殘差平方值(考慮到殘差有正有負)之和為:,顯然,只有殘差平方和最小時,回歸方程與試驗值的擬合程度最好。,殘差平方和SSe為a,b的函數(shù),即:SSe=f(a,b),為使SSe值到達極小,根據(jù)極值原理,只要對上式分別對a,b求偏導數(shù),并令其等于零,求解方程組即可求得a,b之值最小二乘法原理。,5,要使誤差最小,則,對方程組求解,即可得到回歸系數(shù)a,b的計算式:,正規(guī)方程組,6,為了方便計算,令:,于是:,7,(1)相關系數(shù)檢驗法,先求出
3、回歸方程的相關系數(shù),然后與臨界值進行對比:計算值臨界值兩變量不是獨立,相關關系成立;計算值F0.01(fR,fe),稱x與y有非常顯著的線性關系,用兩個“*”號表示2.若F0.05(fR,fe)FF0.01(fR,fe),稱x與y有顯著的線性關系,用一個“*”號表示;3.若FF0.01(fR,fe),稱y與x1,x2,xm有非常顯著的線性關系,用兩個“*”號表示2.若F0.05(fR,fe)FF0.01(fR,fe),稱y與x1,x2,xm有顯著的線性關系,用一個“*”號表示;3.若FF0.05(fR,fe),則稱y與x1,x2,xm沒有明顯著的線性關系,回歸方程不可信。,17,8.3主成分分
4、析,多元統(tǒng)計分析處理的是多變量(多指標)問題。由于變量較多,增加了分析問題的復雜性。但在實際問題中,變量之間可能存在一定的相關性,多變量中可能存在信息的重疊。因此,人們自然希望通過克服相關性、重疊性,用較少的變量來代替原來較多的變量,而這種代替可以反映原來多個變量的大部分信息.這實際上是一種“降維”的思想。,18,主成分分析也稱主分量分析,是由Hotelling于1933年首先提出的。由于多個變量之間往往存在著一定程度的相關性。人們自然希望通過線性組合的方式,從這些指標中盡可能快地提取信息。當?shù)谝粋€線性組合不能提取更多的信息時,再考慮用第二個線性組合繼續(xù)這個快速提取的過程,直到所提取的信息與原
5、指標相差不多時為止。這就是主成分分析的思想。,19,在力求數(shù)據(jù)信息丟失最少的原則下,對高維的變量空間降維,即研究指標體系的少數(shù)幾個線性組合,并且這幾個線性組合所構成的綜合指標將盡可能多地保留原來指標變異方面的信息。這些綜合指標就稱為主成分。要討論的問題是:(1)基于相關系數(shù)矩陣還是基于協(xié)方差矩陣做主成分分析當分析中所選擇的經(jīng)濟變量具有不同的量綱,變量水平差異很大,應該選擇基于相關系數(shù)矩陣的主成分分析。,20,(2)選擇幾個主成分主成分分析的目的是簡化變量,一般情況下主成分的個數(shù)應該小于原始變量的個數(shù)。關于保留幾個主成分,應該權衡主成分個數(shù)和保留的信息。(3)如何解釋主成分所包含的經(jīng)濟意義,21
6、,8.3.2主成分的計算,設兩個變量(x1,x2)的樣板數(shù)據(jù)如下表,求得平均值和協(xié)和方差矩陣分別為,并有,適當選?。╝1,a2)使y1處于方差最大的方向。,22,設總體X的樣本數(shù)據(jù)陣為,則樣本協(xié)方差陣S及樣本相關陣R分別為,23,其中,下面以樣本協(xié)方差陣S作為的估計或用R作為總體相關陣的估計,然后按上節(jié)方法求樣本主成分。,24,8.4聚類分析,8.4.1概述,聚類分析的基本思想是在樣品之間定義距離,在樣品之間定義相似系數(shù),距離或相似系數(shù)代表樣品或者變量之間的相似程度。按相似程度的大小,將樣品(或變量)逐一歸類,關系密切的類聚集到一個小的分類單位,然后逐步擴大,使得關系疏遠的聚合到一個大的分類單位,直到所有的樣品(或變量)都聚集完畢,形成一個表示親疏關系的譜系圖,依次按照某些要求對樣品(或變量)進行分類.,25,(距離可以自己定義,只要滿足距離的條件),8.4.2樣品間的距離,26,一般情況下,我們常用到下面定義的幾種距離,歐氏距離(Euclideandistance),絕對距離(Block距離),明考斯基距離(Minkowski),27,切比雪夫距離(Chebychev),馬氏距離,方差加權距離,28,五種系統(tǒng)聚類方法的距離參數(shù)值,8.4.3類聚方法,