回歸分析與聚類分析.ppt
1,第8章回歸分析與聚類分析初步,8.1一元線性回歸分析8.2二元線性回歸8.3主成分分析8.4聚類分析,內(nèi)容提要,2,8.1一元線性回歸,(1)確定性關(guān)系對(duì)應(yīng)關(guān)系、函數(shù)關(guān)系。其變量稱確定性變量。(2)相關(guān)關(guān)系對(duì)應(yīng)的變量稱隨機(jī)變量。沒有一一對(duì)應(yīng)的函數(shù)關(guān)系,但有統(tǒng)計(jì)規(guī)律散點(diǎn)圖、回歸方程。,一元回歸分析研究單因素與試驗(yàn)指標(biāo)間相關(guān)關(guān)系;多元回歸分析研究多因素與試驗(yàn)指標(biāo)間相關(guān)關(guān)系;線性回歸、非線性回歸相關(guān)關(guān)系為線性或非線性。,8.1.1概述,科研與生產(chǎn)中,變量之間的關(guān)系有兩種情況,3,設(shè)有一組試驗(yàn)數(shù)據(jù)xi,yi(i=1,2,n),其中x是自變量,y是因變量。若x,y符合線性關(guān)系,或已知經(jīng)驗(yàn)公式為直線形式,即:,8.1一元線性回歸,8.1.2回歸方法,a,b稱為回歸系數(shù);是由xi代入回歸方程的計(jì)算值,稱為回歸值。,4,與yi之間的偏差稱為殘差,用ei表示,則有:,殘差平方值(考慮到殘差有正有負(fù))之和為:,顯然,只有殘差平方和最小時(shí),回歸方程與試驗(yàn)值的擬合程度最好。,殘差平方和SSe為a,b的函數(shù),即:SSe=f(a,b),為使SSe值到達(dá)極小,根據(jù)極值原理,只要對(duì)上式分別對(duì)a,b求偏導(dǎo)數(shù),并令其等于零,求解方程組即可求得a,b之值最小二乘法原理。,5,要使誤差最小,則,對(duì)方程組求解,即可得到回歸系數(shù)a,b的計(jì)算式:,正規(guī)方程組,6,為了方便計(jì)算,令:,于是:,7,(1)相關(guān)系數(shù)檢驗(yàn)法,先求出回歸方程的相關(guān)系數(shù),然后與臨界值進(jìn)行對(duì)比:計(jì)算值>臨界值兩變量不是獨(dú)立,相關(guān)關(guān)系成立;計(jì)算值F0.01(fR,fe),稱x與y有非常顯著的線性關(guān)系,用兩個(gè)“*”號(hào)表示2.若F0.05(fR,fe)<F<F0.01(fR,fe),稱x與y有顯著的線性關(guān)系,用一個(gè)“*”號(hào)表示;3.若FF0.01(fR,fe),稱y與x1,x2,xm有非常顯著的線性關(guān)系,用兩個(gè)“*”號(hào)表示2.若F0.05(fR,fe)<F<F0.01(fR,fe),稱y與x1,x2,xm有顯著的線性關(guān)系,用一個(gè)“*”號(hào)表示;3.若F<F0.05(fR,fe),則稱y與x1,x2,xm沒有明顯著的線性關(guān)系,回歸方程不可信。,17,8.3主成分分析,多元統(tǒng)計(jì)分析處理的是多變量(多指標(biāo))問題。由于變量較多,增加了分析問題的復(fù)雜性。但在實(shí)際問題中,變量之間可能存在一定的相關(guān)性,多變量中可能存在信息的重疊。因此,人們自然希望通過克服相關(guān)性、重疊性,用較少的變量來代替原來較多的變量,而這種代替可以反映原來多個(gè)變量的大部分信息.這實(shí)際上是一種“降維”的思想。,18,主成分分析也稱主分量分析,是由Hotelling于1933年首先提出的。由于多個(gè)變量之間往往存在著一定程度的相關(guān)性。人們自然希望通過線性組合的方式,從這些指標(biāo)中盡可能快地提取信息。當(dāng)?shù)谝粋€(gè)線性組合不能提取更多的信息時(shí),再考慮用第二個(gè)線性組合繼續(xù)這個(gè)快速提取的過程,直到所提取的信息與原指標(biāo)相差不多時(shí)為止。這就是主成分分析的思想。,19,在力求數(shù)據(jù)信息丟失最少的原則下,對(duì)高維的變量空間降維,即研究指標(biāo)體系的少數(shù)幾個(gè)線性組合,并且這幾個(gè)線性組合所構(gòu)成的綜合指標(biāo)將盡可能多地保留原來指標(biāo)變異方面的信息。這些綜合指標(biāo)就稱為主成分。要討論的問題是:(1)基于相關(guān)系數(shù)矩陣還是基于協(xié)方差矩陣做主成分分析當(dāng)分析中所選擇的經(jīng)濟(jì)變量具有不同的量綱,變量水平差異很大,應(yīng)該選擇基于相關(guān)系數(shù)矩陣的主成分分析。,20,(2)選擇幾個(gè)主成分主成分分析的目的是簡(jiǎn)化變量,一般情況下主成分的個(gè)數(shù)應(yīng)該小于原始變量的個(gè)數(shù)。關(guān)于保留幾個(gè)主成分,應(yīng)該權(quán)衡主成分個(gè)數(shù)和保留的信息。(3)如何解釋主成分所包含的經(jīng)濟(jì)意義,21,8.3.2主成分的計(jì)算,設(shè)兩個(gè)變量(x1,x2)的樣板數(shù)據(jù)如下表,求得平均值和協(xié)和方差矩陣分別為,并有,適當(dāng)選?。╝1,a2)使y1處于方差最大的方向。,22,設(shè)總體X的樣本數(shù)據(jù)陣為,則樣本協(xié)方差陣S及樣本相關(guān)陣R分別為,23,其中,下面以樣本協(xié)方差陣S作為的估計(jì)或用R作為總體相關(guān)陣的估計(jì),然后按上節(jié)方法求樣本主成分。,24,8.4聚類分析,8.4.1概述,聚類分析的基本思想是在樣品之間定義距離,在樣品之間定義相似系數(shù),距離或相似系數(shù)代表樣品或者變量之間的相似程度。按相似程度的大小,將樣品(或變量)逐一歸類,關(guān)系密切的類聚集到一個(gè)小的分類單位,然后逐步擴(kuò)大,使得關(guān)系疏遠(yuǎn)的聚合到一個(gè)大的分類單位,直到所有的樣品(或變量)都聚集完畢,形成一個(gè)表示親疏關(guān)系的譜系圖,依次按照某些要求對(duì)樣品(或變量)進(jìn)行分類.,25,(距離可以自己定義,只要滿足距離的條件),8.4.2樣品間的距離,26,一般情況下,我們常用到下面定義的幾種距離,歐氏距離(Euclideandistance),絕對(duì)距離(Block距離),明考斯基距離(Minkowski),27,切比雪夫距離(Chebychev),馬氏距離,方差加權(quán)距離,28,五種系統(tǒng)聚類方法的距離參數(shù)值,8.4.3類聚方法,