用R軟件做聚類分析的例子.ppt
應(yīng)用統(tǒng)計(jì)分析實(shí)驗(yàn) R軟件,SPSS:這是一個很受歡迎的統(tǒng)計(jì)軟件 容易操作, 輸出漂亮, 功能齊全, 價格合理。 對于非統(tǒng)計(jì)工作者是很好的選擇。,SAS:這是功能非常齊全的軟件; 美國政府政策傾斜(“權(quán)威性”) 許多美國公司使用。 價格不菲,每年交費(fèi).即使贈送,條件苛刻 盡管現(xiàn)在已經(jīng)盡量“傻瓜化”,仍然需要一定的訓(xùn)練才可以進(jìn)入。,R軟件:免費(fèi)的,志愿者管理的軟件。 編程方便,語言靈活,圖形功能強(qiáng)大 有不斷加入的各個方向統(tǒng)計(jì)學(xué)家編寫的統(tǒng)計(jì)軟件包。也可以自己加入自己算法的軟件包. 這是發(fā)展最快的軟件,受到世界上統(tǒng)計(jì)師生的歡迎。是用戶量增加最快的統(tǒng)計(jì)軟件。 對于一般非統(tǒng)計(jì)工作者來說,主要問題是它沒有“傻瓜化”。,Minitab:這個軟件是很方便的功能強(qiáng)大而又齊全的軟件,也已經(jīng)“傻瓜化”,在我國用的不如SPSS與SAS那么普遍。 Eviews:這是一個主要處理回歸和時間序列的軟件。 GAUSS:這是一個很好用的統(tǒng)計(jì)軟件,許多搞經(jīng)濟(jì)的喜歡它。主要也是編程功能強(qiáng)大。目前在我國使用的人不多。 MATLAB:這也是應(yīng)用于各個領(lǐng)域的以編程為主的軟件,在工程上應(yīng)用廣泛。但是統(tǒng)計(jì)方法不多。,R的歷史,S語言在1980年代后期在AT它是一個由志愿者組成的工作努力的國際團(tuán)隊(duì),下載R軟件 http:/www.r-project.org,學(xué)習(xí)網(wǎng)站 http:/www.biosino.org/pages/newhtm/r/schtml/,基本語法 向量 矩陣 list與data.frame 讀寫數(shù)據(jù)文件 控制語句與自定義函數(shù),一. R軟件的使用,基本語法,1. 變量使用即定義: 變量名區(qū)分大小寫, 也可用中文命名 變量賦值可采用4種形式:=,, assign() 變量類型自動由變量賦值確定。,a=10; bc ; assign(“d”,40) 中國=“中華人民共和國” #生成字符串變量,2.注釋符號 # 語句連接符 ;,3. 算術(shù)運(yùn)算符: +,-,*,/,(乘方),% (模), %/% (整除),4.常用的數(shù)學(xué)函數(shù)有:abs , sign , log , log2, log10 , sqrt , exp , sin , cos , tan , acos , asin, atan , cosh , sinh, tanh,5. 查看幫助 help(round) ?abs,向量,向量的賦值(一維數(shù)組, 下標(biāo)從1開始) a=c(d1,d2,d3,) 間隔為1的等差序列: a:b 指定間隔的等差序列: seq(from,to,by) seq(length, from, by) 重復(fù)序列: rep(vec, times) rep(vec,times,len,each),a=c(3,5,8,10); b=1:10; c=seq(1,10,2); d=seq(-pi,pi, 0.2) e=rep(a,3); f=rep(a, 2, each=3),隨機(jī)向量 rnorm(10) #10個服從標(biāo)準(zhǔn)正態(tài)分布的隨機(jī)數(shù),a=1:5 (b=1:5) #同上,只不過顯示出來 a2 #取出a中第二個元素 ac(2,4)=c(4,8) #修改a中第2、4個元素分別為4、8 a-5 #扣除第5個元素取出來 a<3 #判斷a中元素是否小于3 1 TRUE TRUE FALSE FALSE FALSE aa<3 # 取出a中小于3的元素 a6=12 a=a-c(1,3,5) #去掉第1、3、5元素.,2.向量的下標(biāo)運(yùn)算,3.向量的長度,length(a),matrix(data=NA, nrow=1, ncol=1, byrow=FALSE),A=matrix(1:10, 2,5) B=matrix(1:10,2,5,byrow=TRUE) #按行放置元素,注意:默認(rèn)是按列放置元素,1 ,2 ,3 ,4 ,5 1, 1 2 3 4 5 2, 6 7 8 9 10,1 ,2 ,3 ,4 ,5 1, 1 3 5 7 9 2, 2 4 6 8 10,矩陣(二維數(shù)組),x=matrix(rnorm(24),4,6) x2,1 #第2,1元素 xc(2,1), #第2和第1行 x,c(1,3) #第1和第3列 xx,10,1 #第1列大于0的元素 x,-c(1,3) #沒有第1、3列的x x-2,-c(1,3) #沒有第2行、第1、3列的x.,1.矩陣的元素訪問,2. 矩陣的維數(shù)問題 dim(A) #獲得維數(shù),返回向量 nrow(A) ,ncol(A) #獲得行數(shù)和列數(shù),rownames(A), colnames(A) #訪問各維名稱,3. 向量和數(shù)組/矩陣的轉(zhuǎn)化: 只要定義向量的維數(shù)即可實(shí)現(xiàn)向量和數(shù)組轉(zhuǎn)化,c=1:12; a=matrix(c, nrow=2,ncol=6) dim(c)=c(3,4) b=as.vector(c) A=diag(c(1,4,5) #以向量為對角元生成對角矩陣 a=diag(A) #獲取矩陣的對角元,3. 矩陣運(yùn)算 +,-,*,/ 分別是矩陣內(nèi)部元素的四則運(yùn)算 向量矩陣間:向量按列匹配與矩陣運(yùn)算 例如: A=matrix(1:6, nrow=3) B=matrix(10:15,nrow=3) C=c(100,200) 則: A+B A*B A+C,11 17 10 52 101 204 13 19 22 70 202 105 15 21 36 90 103 206,A %*% B #乘法 t(mat) #轉(zhuǎn)置 det(mat)#行列式 solve(mat)#逆矩陣 eigen(mat) #求特征值與特征向量,4.多維數(shù)組,a=array(data=1:24,dim=c(2,3,4) a,1,列表和數(shù)據(jù)框,1. 列表是一種特殊的對象集合,各元素類型任意 生成: list(name1=value1, , namen=valuen) 訪問/修改:對象名下標(biāo) 或 對象名$namei,stu=list(age=10, name=“Tom”, interests=c(“swimming”,”drawing”) stu2 stu$name stu$name=“john” names(stu) #得到所有的對象名,2. 數(shù)據(jù)框是R的一種數(shù)據(jù)結(jié)構(gòu),以矩陣形式保存數(shù)據(jù)各列類型可以不同,每列為一變量,每行為樣品 各列長度相等 data.frame( ),stu=data.frame(name=c(Tom, Rose), age=c(30,32) names(stu) #得到所有的變量名 colnames(stu) #列名,同上 rownames(stu) #得到行名 attach(x) #把數(shù)據(jù)框中的變量鏈接到內(nèi)存中 x=data.frame(matrix(1:6,nrow=2) #矩陣轉(zhuǎn)化為數(shù)據(jù)框,x=data.frame(id=101:120,score=round(rnorm(20,70,10) #取出前兩行數(shù)據(jù) x1:2, #選出score<60的數(shù)據(jù) xx2<60,讀寫數(shù)據(jù)文件,讀表格形式文本文件 read.table(file, header=FALSE,sep=“ “,) header表示第一行是否有變量名,sep表示數(shù)據(jù)分割的字符,D1=read.table(“e:test1.txt”,header=TRUE) D2=read.table(“clipboard”) #從剪貼板中獲得文本數(shù)據(jù),2. 計(jì)算的數(shù)據(jù)保存成文本文件或CSV文本文件 write.table(data, file=“”) #純文本格式,write.table(D1,file=“e:file_1.txt”),1. 分支結(jié)構(gòu) 單分支:if(條件) 語句 if(條件) 復(fù)合語句; 雙分支:if(條件) 語句1 else 語句2 多分支:if() 語句1 else if () 語句2 else if() 語句n else 語句n+1,x=1; if(x0) a=10;b=10 else a=20; b=20;,控制語句控制語句與自定義函數(shù),2. 循環(huán)結(jié)構(gòu) for (name in express) expr; while(condition) expr; repeat exprs; if(達(dá)到中止條件) break ,例子:計(jì)算11+22+33+1010 i=1;j=1; k=1; s1=0; s2=0; s3=0; for( i in 1:10) s1=s1+ii; #用for while(j10) break ,fun<-function(arg1,arg2,) 注意:最后一句表達(dá)式的值為返回值 ,myfun=function(k ) sum=0; for(i in 1:k) sum=sum+ii sum ,自定義函數(shù),統(tǒng)計(jì)量 數(shù)據(jù)中心化與標(biāo)準(zhǔn)化 和分布有關(guān) 數(shù)據(jù)的圖形表示 統(tǒng)計(jì)圖形,二. 數(shù)據(jù)描述性統(tǒng)計(jì),統(tǒng)計(jì)量,sum(),max(),min() mean() #平均值 median() #中位數(shù) var() #方差 sd() #標(biāo)準(zhǔn)差 cov() #協(xié)方差陣,參數(shù)為矩陣或數(shù)據(jù)框 cor() #相關(guān)系數(shù),參數(shù)為矩陣或數(shù)據(jù)框 summary() table() #列聯(lián)表,統(tǒng)計(jì)不同值出現(xiàn)的個數(shù),x = c(10,90,71:78) mean(x) mean(x, trim = 0.10),A = cbind(c(90,60,70),c(85,66,95) apply(A,1,mean) # 對每一行取平均 apply(A,2,mean) #對每一列取平均 cov(A) cor(A),數(shù)據(jù)中心化與標(biāo)準(zhǔn)化,scale(x, center = TRUE, scale = TRUE),dnorm(x, mean = 0, sd = 1) #計(jì)算正態(tài)分布的密度函數(shù) pnorm(p, mean = 0, sd = 1) #計(jì)算正態(tài)分布的分布函數(shù) qnorm(q, mean = 0, sd = 1) #計(jì)算正態(tài)分布的分位數(shù) rnorm(n, mean = 0, sd = 1) #計(jì)算n個正態(tài)分布的隨機(jī)數(shù) 其它分布的關(guān)鍵詞: unif , exp,chisq, t, f, binom,pois,#得到參數(shù)為1的指數(shù)分布在2的密度函數(shù)值 dexp(2,1 ) #產(chǎn)生5個均勻分布U(0,10)的隨機(jī)數(shù) runif(5,0,10),和分布相關(guān),抽樣樣本,x=sample(1:20,10) #從1,20中隨機(jī)地不放回抽取10個值作為樣本 y=sample(1:20,10, replace =TRUE) #從1,20中隨機(jī)地有放回抽取10個值作為樣本,數(shù)據(jù)的圖形表示,x=seq(-10,10,2); y=rnorm(11) plot(x, y) plot(x, y,main=散點(diǎn)圖,xlab=橫坐標(biāo)x,ylab=縱坐標(biāo)y) text(x,y, 1:length(x),-1) # 寫入點(diǎn)序號,第三個參數(shù)默認(rèn)如此 plot(x,y,type = o, col = red,pch=2,lty=3),1.散點(diǎn)圖 plot(x,y,),type=“p” #散點(diǎn)圖,默認(rèn) type=“l(fā) #繪實(shí)線 type=“o” #實(shí)線通過所有的點(diǎn) type=“n” #不畫點(diǎn) 參數(shù)lty表示線的類型 0=blank, 1=solid (default), 2=dashed, 3=dotted, 4=dotdash, 5=longdash, 6=twodash,低水平作圖函數(shù)有 points(x=,y=)#增加點(diǎn)(x,y) lines(x=,y=) #增加(x,y)連成的線 abline( a=,b=) #增加線y=a+bx text(x=, y=, labels = ) #增加文本 legend(x, y = , legend, col ) #增加標(biāo)注,x=seq(-10,10,2); y=rnorm(11) par(mfrow=c(3,1) #準(zhǔn)備畫3個圖 plot(x, y) plot(x, y,main=散點(diǎn)圖,xlab=橫坐標(biāo)x,ylab=縱坐標(biāo)y) text(x,y, 1:length(x),-1) # 寫入點(diǎn)序號 plot(x,y,type = o, col = red,pch=2,lty=3),2.散點(diǎn)圖矩陣 pairs(x,),A=matrix(rnorm(72,70,20),nrow=24) pairs(A),3. 多組散點(diǎn)圖,matplot(x,y,),x=seq(0,2*pi,0.2) matplot(x,cbind(sin(x),cos(x),type=c(p, l),col=2:3),4.星座圖 5.臉譜圖,library(aplpack) faces(x),stars(x),例1. 在同一圖中繪制標(biāo)準(zhǔn)正態(tài)分布和自由度為5的t分布的概率密度圖.,x=seq(-4,4,0.01) plot(x,dnorm(x),type=l,ylab=f(x),main=概率密度圖) lines(x,dt(x,5),col=red,lty=2) legend(2,0.4,c(N(0,1),t(5),lty=1:2,col=c(black,red),x=seq(-4,4,0.01) matplot(x,cbind(dnorm(x),dt(x,5),type=l,ylab=f(x),main=概率密度圖) legend(2,0.4,c(N(0,1),t(5),lty=1:2,col=1:2),lwl.andrews=function(X) t=seq(-pi,pi,0.2) n=nrow(X) f=matrix(0,nrow=length(t),ncol=n) for(i in 1:n) f,i=Xi,1/sqrt(2) for(j in 2:ncol(X) if (j%2=0) f,i=f,i+Xi,j*sin(j/2*t) else f,i=f,i+Xi,j*cos(j%/%2*t) matplot(t,f,col=1:n,type=o,main=調(diào)和曲線圖) ,例2:繪制調(diào)和曲線圖,實(shí)驗(yàn)一 R軟件的使用,求矩陣B的行列式、逆矩陣、特征根和特征向量及ABA,實(shí)驗(yàn)?zāi)康模菏炀毷褂肦軟件,掌握對向量、矩陣和數(shù)據(jù)框的操作和對數(shù)據(jù)的描述性統(tǒng)計(jì),學(xué)號 性別 數(shù)學(xué) 語文 英語 物理 1 3001 男 80 76 81 90 2 3002 男 55 67 79 63 3 3003 女 27 52 53 43 4 3004 女 62 57 66 69 5 3005 女 94 80 76 71 6 3006 男 97 59 61 74 7 3007 男 79 62 78 88 8 3008 男 70 92 78 83 9 3009 女 67 66 65 55 10 3010 男 97 46 55 75 11 3011 男 84 82 88 92 12 3012 男 40 57 67 53 13 3013 男 72 70 80 84 14 3014 男 43 31 56 60 15 3015 男 95 75 58 74 16 3016 男 62 85 91 83 17 3017 女 71 76 68 74 18 3018 男 80 40 52 71 19 3019 女 96 75 77 80 20 3020 女 82 51 73 77 21 3021 女 70 73 85 77 22 3022 男 61 40 47 56 23 3023 女 64 75 66 71 24 3024 女 60 21 48 65 25 3025 男 81 88 80 84 26 3026 女 89 54 65 71 27 3027 男 55 38 58 62 28 3028 女 60 54 68 62 29 3029 男 65 63 65 75 30 3030 男 69 55 73 75 31 3031 男 80 29 61 68 32 3032 男 91 59 73 85 33 3033 男 69 73 75 78 34 3034 女 90 88 73 87 35 3035 女 64 70 72 77,2. 某班35人期末成績見右圖 繪制四科成績的散點(diǎn)圖矩陣、雷達(dá)圖和臉譜圖 繪制前5名學(xué)生各科成績的輪廓圖 繪制數(shù)學(xué)與物理成績的散點(diǎn)圖,其中男生與女生用不同的顏色和形狀的點(diǎn)表示。,計(jì)算四科成績的平均分和相關(guān)矩陣 分性別統(tǒng)計(jì)四科成績的平均分,例3. 在同一圖中繪制二項(xiàng)分布B(10,0.2)、泊松分布P(2)的概率分布圖形.,三. 回歸分析,與線性回歸相關(guān)常用函數(shù)全局挑選最佳自變量組合逐步回歸,lm( ) #建立線性回歸模型 summary( ) #提取模型資料 predict( ) #用模型作預(yù)測 plot() #繪制模型診斷的幾種圖形,與線性回歸相關(guān)常用函數(shù),lm(yx) # y為向量, x可為向量與矩陣 lm(yx+0) #回歸方程沒有常數(shù)項(xiàng) lm(yx1+x2+I(x12) #自變量有三項(xiàng)x1,x2,x12,lm(yx1+x2,data=X) # X為數(shù)據(jù)框, y,x1,x2為其中變量名 lm(y.,data=X) #自變量為其它所有變量 lm(y.-x2,data=X) #自變量為除x2的其它所有變量,例1:某氣象站收集了15年關(guān)于年初的最高溫度X(從1月11日算起)與秋季第一次強(qiáng)冷空氣出現(xiàn)日期Y(從9月11日算起)的數(shù)據(jù),,flm=lm(yx) summary(flm) plot(x,y,main=一元回歸圖) abline(flm) points(x,flm$fitted,col=red,pch=3),常數(shù)項(xiàng),回歸系數(shù),回歸系數(shù)的標(biāo)準(zhǔn)差,t檢驗(yàn)值,t檢驗(yàn)P值。標(biāo)注*,則說明此項(xiàng)回歸系數(shù)顯著不為零,即有意義,模型殘差的標(biāo)準(zhǔn)差的估計(jì)量,決定系數(shù)R2,修正后的決定系數(shù),回歸方程的F檢驗(yàn)統(tǒng)計(jì)量值及檢驗(yàn)P值,Residuals: Min 1Q Median 3Q Max -7.3217 -1.6211 -0.1418 1.5485 6.0382 Coefficients: Estimate Std. Error t value Pr(|t|) (Intercept) 3.36014 2.06876 1.624 0.128 x 0.82006 0.08895 9.219 4.58e-07 * - Signif. codes: 0 * 0.001 * 0.01 * 0.05 . 0.1 1 Residual standard error: 3.243 on 13 degrees of freedom Multiple R-squared: 0.8673, Adjusted R-squared: 0.8571 F-statistic: 84.99 on 1 and 13 DF, p-value: 4.584e-07,若需編程,很多信息存放在lm和summary對象中 flm$coef #得到回歸系數(shù) flm$resi #得到殘差向量 flm$fitt #得到擬合向量 summary(flm)$sigma #模型殘差的標(biāo)準(zhǔn)差的估計(jì)量 summary(flm)$r.squared #決定系數(shù)R2 summary(flm)$adj.r.squared #修正后的決定系數(shù),#預(yù)測,注意第二個參數(shù)為數(shù)據(jù)框類型,成員名稱必須與原始的自變量一致 predict(flm,data.frame(x=c(14,26) predict(flm,data.frame(x=c(14,26),interval=prediction) #區(qū)間預(yù)測 fit lwr upr 1 14.84093 7.472051 22.2098 2 24.68160 17.389301 31.9739,例2:回歸模擬,x=runif(30,0,10) #均勻分布的隨機(jī)數(shù) x=sort(x) y=3*x-0.2*x2+rnorm(x) # y與x的準(zhǔn)確關(guān)系 plot(x,y) l1=lm(yx);l2=lm(yx+0); l3=lm(yx+I(x2); l4=lm(yx+I(x2)+0) abline(l1,col=red,lty=1); abline(a=0,b=l2$coef,col=green,lty=2) lines(x,l3$fit,col=blue,lty=3) lines(x,l4$fit,col=orange,lty=4) legend(bottomright, legend=c(線性, 無常數(shù)項(xiàng)線性, 二次, 二次無常數(shù)項(xiàng)),col=c(red, green, blue, orange),lty=1:4),實(shí)驗(yàn)二:最小二乘估計(jì)的求解及檢驗(yàn),全局挑選最佳自變量組合,library(leaps) r=summary(regsubsets(y.,data=X) n=nrow(X) aic=n*log(r$rss/n)+2*apply(r$which,1,sum) #計(jì)算AIC統(tǒng)計(jì)量 data.frame(r$outmat,r$rss,r$rsq,r$adjr2,r$cp,AIC=aic),例:水泥放熱數(shù)據(jù)挑選最佳自變量組合,x1 x2 x3 x4 y 1 7 26 6 60 78.5 2 1 29 15 52 74.3 3 11 56 8 20 104.3 4 11 31 8 47 87.6 5 7 52 6 33 95.9 6 11 55 9 22 109.2 7 3 71 17 6 102.7 8 1 31 22 44 72.5 9 2 54 18 22 93.1 10 21 47 4 26 115.9 11 1 40 23 34 83.8 12 11 66 9 12 113.3 13 10 68 8 12 109.4,殘差平方和,決定系數(shù)R2,修正后的決定系數(shù),Cp統(tǒng)計(jì)量,AIC統(tǒng)計(jì)量,step(lm(y.,data=X) step(lm(y1,data=X),+x1+x2+x3+x4),逐步回歸,實(shí)驗(yàn)三:回歸分析中的自變量的挑選,四.判別分析,距離判別 Bayes判別 fisher判別,#計(jì)算馬氏距離 mahalanobis(x, center, cov, inverted=FALSE, .),距離判別,某總體的中心即均值向量,某總體的協(xié)方差陣,若設(shè)為TRUE,表明cov已求逆。默認(rèn)為False,dda1=function(x,newx=NULL) #x 為訓(xùn)練樣本,最后一列為類別, newx為待判樣本 x=as.matrix(x); p=ncol(x)-1; #變量個數(shù) k=max(x,p+1); #類別個數(shù) n=nrow(x); #已知數(shù)據(jù)的個數(shù) if(is.null(newx)|ncol(newx)!=p) newx=x,1:p #如果待判樣本newX為空,則為訓(xùn)練樣本 m=nrow(newx); #待判數(shù)據(jù)的個數(shù) md=matrix(-1,m,k); #距離矩陣k列,分別為到k個總體的距離 colnames(md)=paste(Dis,1:k,sep=); newClass=rep(-1,m); #新的類別 cov_each=matrix(0,nrow=p,ncol=p) ; for(i in 1:k) temp=xx,p+1=i,1:p; center=apply(temp,2,mean); #計(jì)算當(dāng)前總體的中心 cov_each=cov(temp) md,i=mahalanobis(newx,center,cov_each);# 計(jì)算待判樣本到當(dāng)前總體的馬氏距離 newClass=apply(md,1,which.min); #距離矩陣md每一行最小的列就是歸屬類 list(matrix_Distance=md,newClass=newClass) ,假設(shè)各總體協(xié)方差陣不相等時的距離判別,例1,濕度差 壓溫差 q 1 -1.9 3.2 1 2 -6.9 10.4 1 3 5.2 2.0 1 4 5.0 2.5 1 5 7.3 0.0 1 6 6.8 12.7 1 7 0.9 -15.4 1 8 -12.5 -2.5 1 9 1.5 1.3 1 10 3.8 6.8 1 11 0.2 6.2 2 12 -0.1 7.5 2 13 0.4 14.6 2 14 2.7 8.3 2 15 2.1 0.8 2 16 -4.6 4.3 2 17 -1.7 10.9 2 18 -2.6 13.1 2 19 2.6 12.8 2 20 -2.8 10.0 2,假設(shè)協(xié)方差陣不等時的距離判別結(jié)果:,$MarsDistances ,1 ,2 1, 0.23479212 2.1460083 2, 3.03833480 6.9243049 3, 0.45790973 7.3283556 4, 0.40796928 6.6425393 5, 1.15825305 13.3381431 6, 2.44342495 9.2742507 7, 5.21569514 31.8233372 8, 4.51109115 31.4452037 9, 0.02172825 3.5632768 10, 0.51080152 2.9935950 11, 0.31493244 0.4242599 12, 0.55187015 0.1087923 13, 2.70320062 1.9090285 14, 0.67515753 1.5358775 15, 0.07154715 4.3721831 16, 0.90447066 4.1014802 17, 1.61226774 0.4918710 18, 2.57485181 1.7141432 19, 1.92540870 2.3430943 20, 1.56318137 0.9992699,$newClass 1 1 1 1 1 1 1 1 1 1 1 2 2 1 1 1 2 2 1 2,實(shí)驗(yàn)?zāi)康模赫莆站嚯x判別準(zhǔn)則和R軟件編程 實(shí)驗(yàn)任務(wù):編寫假設(shè)各總體協(xié)方差陣相等時的距離判別算法,并對p182數(shù)據(jù)進(jìn)行距離判別,實(shí)驗(yàn)四:距離判別,Bayes判別,Library(MASS) qda() #Quadratic discriminant analysis. #其實(shí)質(zhì)是正態(tài)總體時的最大后驗(yàn)概率準(zhǔn)則,Library(MASS) #默認(rèn)先驗(yàn)概率prior 為各組數(shù)據(jù)所占比例 qd=qda(g.,data=X)# X為數(shù)據(jù)框類型,含有類別g qd=qda(x,g) #x中不含類別,g為類別,z=predict(qd, test) #test為待判樣本,若省略,則對訓(xùn)練樣本判別 z$class # 類別結(jié)果 z$posterior # 后驗(yàn)概率 table(X$g,z$class) #若對訓(xùn)練樣品判別,可輸出判對情況,library(MASS) qd=qda(g.,data=X) predict(qd)$class 1 2 1 1 1 1 1 1 1 1 2 2 2 2 2 1 1 2 2 2 2 plot(X,1:2,pch=X,3,col=X,3) text(X,1,X,2,adj=-0.5, col=X,3),濕度差 壓溫差 q 1 -1.9 3.2 1 2 -6.9 10.4 1 3 5.2 2.0 1 4 5.0 2.5 1 5 7.3 0.0 1 6 6.8 12.7 1 7 0.9 -15.4 1 8 -12.5 -2.5 1 9 1.5 1.3 1 10 3.8 6.8 1 11 0.2 6.2 2 12 -0.1 7.5 2 13 0.4 14.6 2 14 2.7 8.3 2 15 2.1 0.8 2 16 -4.6 4.3 2 17 -1.7 10.9 2 18 -2.6 13.1 2 19 2.6 12.8 2 20 -2.8 10.0 2,#舍一驗(yàn)證 qd=qda(g.,data=X,CV=TRUE),$class 1 2 2 1 1 1 1 1 1 1 2 2 2 2 2 1 1 2 2 2 2,ld=lda(G.,data=X) ld$scaling #投影方向 z=predict(ld,test) z$class z$posterior #后驗(yàn)概率 z$x # X* ld$scaling中心化后的矩陣,費(fèi)希爾判別 數(shù)據(jù)降維后,在各組協(xié)方差陣相等下進(jìn)行的最大后驗(yàn)概率準(zhǔn)則判別,濕度差 壓溫差 q 1 -1.9 3.2 1 2 -6.9 10.4 1 3 5.2 2.0 1 4 5.0 2.5 1 5 7.3 0.0 1 6 6.8 12.7 1 7 0.9 -15.4 1 8 -12.5 -2.5 1 9 1.5 1.3 1 10 3.8 6.8 1 11 0.2 6.2 2 12 -0.1 7.5 2 13 0.4 14.6 2 14 2.7 8.3 2 15 2.1 0.8 2 16 -4.6 4.3 2 17 -1.7 10.9 2 18 -2.6 13.1 2 19 2.6 12.8 2 20 -2.8 10.0 2, ld$scaling LD1 濕度差 -0.0682677 壓溫差 0.1562112 predict(ld)$class 1 1 2 1 1 1 2 1 1 1 1 2 2 2 2 1 2 2 2 2 2,library(MASS) class1=predict(qda(class.,data=train)$class #Bayes判別 class2=predict(lda(class.,data=train)$class #Fisher線性判別 newtrain=predict(lda(class.,data=train)$x class3=predict(qda(newtrain, train$class)$class #Fisher投影后再做Bayes判別 rbind(class1, class2, class3) table(train$class, class1) table(train$class, class2) table(train$class, class3),class1 2 1 1 1 1 1 1 1 1 2 2 2 2 2 1 1 2 2 2 2 class2 1 2 1 1 1 2 1 1 1 1 2 2 2 2 1 2 2 2 2 2 class3 1 2 1 1 1 2 1 1 1 2 2 2 2 2 1 2 2 2 2 2,2281342011 2451341040 2001671227 17015078 1001672014 225125714 130100612 15011776 1201331026 160100510 185115519 17012564 16514253 135108212 10011772,例2:,1 ,2 ,3 ,4 ,5 ,6 ,7 ,8 ,9 ,10 ,11 ,12 ,13 ,14 ,15 class1 1 1 1 1 1 2 2 2 2 2 3 3 3 3 3 class2 1 1 1 3 1 2 2 3 2 2 2 3 3 3 3 class3 1 1 1 1 1 2 2 3 2 2 2 3 3 3 3,實(shí)驗(yàn)五 判別分析實(shí)驗(yàn)?zāi)康模赫莆誃ayes判別和Fisher判別的基本原理及R軟件實(shí)現(xiàn)實(shí)驗(yàn)任務(wù):,費(fèi)希爾于1936年發(fā)表的鳶尾花數(shù)據(jù)是對3種鳶尾花:剛毛鳶尾花、變色鳶尾花和弗吉尼亞鳶尾花個抽取容量為50的樣本,測量其花萼長、花萼寬、花瓣長和花瓣寬。請將用每組前30個作為訓(xùn)練樣本,剩余數(shù)據(jù)作為待判樣本進(jìn)行如下判別: 1. 進(jìn)行Bayes判別,輸出60個待判樣本的判別結(jié)果。 2. 進(jìn)行Fisher線性判別,輸出投影矩陣及60個待判數(shù)據(jù)的判別結(jié)果,并畫出訓(xùn)練樣本投影后的散點(diǎn)圖,不同類別的點(diǎn)用不同的符號和顏色表示。 3. 將第2題中投影后的數(shù)據(jù)進(jìn)行Bayes判別,輸出60個待判數(shù)據(jù)的判別結(jié)果。,R軟件中已有數(shù)據(jù)iris,iris3,且如下可得到題中的訓(xùn)練樣本。 train=data.frame(rbind(iris31:30,1, iris31:30,2, iris31:30,3), class=rep(c(1,2,3),each=30),五.聚類分析,系統(tǒng)聚類 快速聚類,d=dist(scale(X),method=euclidean) #默認(rèn)是歐式距離 hc1=hclust(d,method=complete) plot(hc1,hang=-1,main=聚類譜系圖最長距離法),系統(tǒng)聚類,d=dist(scale(X) ) hc1=hclust(d2,method=centroid) hc1$height=sqrt(hc1$height) cbind(hc1$merge,hc1$height) plot(hc1,hang=-1,main=聚類譜系圖重心法),注意: “median” 中間距離法;“centroid” 重心法;“ward” 離差平方和法這三種應(yīng)以歐式距離的平方矩陣為遞推矩陣。,和譜系圖有關(guān)的還有 as.dendrogram(x,type=c(“rectangle“, “triangle“),horiz=FALSE),d=dist(c(1,2,6,8,11,13,15) hc1=hclust(d) dend1=as.dendrogram(hc1) par(mfrow=c(2,2) plot(dend1) plot(dend1,type=t,nodePar=list(pch=c(1,NA) plot(dend1,horiz=T) plot(dend1,edgePar=list(col=gray, lwd=2),nodePar=list(col=3:2, cex=c(2.0, 0.75), pch= 21:22,bg= c(light blue, pink),cutree(hc1,3) 或者rect.hclust(hc1,k=3,border=red),根據(jù)系統(tǒng)聚類劃分為若干個類,變量聚類,d=as.dist(sqrt(1-cor(X)2) #將相關(guān)系數(shù)轉(zhuǎn)化為距離矩陣 hc1=hclust(d,method=single) plot(hc1,hang=-1),快速聚類(k均值聚類),kmeans(x, centers) #centers為聚類個數(shù),實(shí)驗(yàn)六:聚類分析,實(shí)驗(yàn)?zāi)康模赫莆障到y(tǒng)聚類和k均值聚類的原理,并熟練使用R軟件實(shí)現(xiàn) 實(shí)現(xiàn)任務(wù):了研究亞洲各國發(fā)展情況,選取了20個國家的六個指標(biāo)數(shù)據(jù),進(jìn)行以下聚類 選取前四個指標(biāo),用標(biāo)準(zhǔn)化數(shù)據(jù)的歐式距離作用距離度量,分別按最小距離、類平均距離、重心法和Ward法和最大距離法分別對這些國家做聚類,畫出聚類譜系圖。并輸出按Ward法分成三類的結(jié)果 用相關(guān)系數(shù)轉(zhuǎn)化為距離,分別按最小距離法和類平均距離對這些變量做聚類,畫出聚類譜系圖。并輸出按類平均法分成兩類的結(jié)果。,