用R軟件做聚類分析的例子.ppt

上傳人:za****8 文檔編號:14172386 上傳時間:2020-07-08 格式:PPT 頁數(shù):95 大?。?55.56KB
收藏 版權申訴 舉報 下載
用R軟件做聚類分析的例子.ppt_第1頁
第1頁 / 共95頁
用R軟件做聚類分析的例子.ppt_第2頁
第2頁 / 共95頁
用R軟件做聚類分析的例子.ppt_第3頁
第3頁 / 共95頁

下載文檔到電腦,查找使用更方便

14.9 積分

下載資源

還剩頁未讀,繼續(xù)閱讀

資源描述:

《用R軟件做聚類分析的例子.ppt》由會員分享,可在線閱讀,更多相關《用R軟件做聚類分析的例子.ppt(95頁珍藏版)》請在裝配圖網(wǎng)上搜索。

1、應用統(tǒng)計分析實驗 R軟件,SPSS:這是一個很受歡迎的統(tǒng)計軟件 容易操作, 輸出漂亮, 功能齊全, 價格合理。 對于非統(tǒng)計工作者是很好的選擇。,SAS:這是功能非常齊全的軟件; 美國政府政策傾斜(“權威性”) 許多美國公司使用。 價格不菲,每年交費.即使贈送,條件苛刻 盡管現(xiàn)在已經(jīng)盡量“傻瓜化”,仍然需要一定的訓練才可以進入。,R軟件:免費的,志愿者管理的軟件。 編程方便,語言靈活,圖形功能強大 有不斷加入的各個方向統(tǒng)計學家編寫的統(tǒng)計軟件包。也可以自己加入自己算法的軟件包. 這是發(fā)展最快的軟件,受到世界上統(tǒng)計師生的歡迎。是用戶量增加最快的統(tǒng)計軟件。 對于一般非統(tǒng)計工作者來說,主要問題是它沒有“

2、傻瓜化”。,Minitab:這個軟件是很方便的功能強大而又齊全的軟件,也已經(jīng)“傻瓜化”,在我國用的不如SPSS與SAS那么普遍。 Eviews:這是一個主要處理回歸和時間序列的軟件。 GAUSS:這是一個很好用的統(tǒng)計軟件,許多搞經(jīng)濟的喜歡它。主要也是編程功能強大。目前在我國使用的人不多。 MATLAB:這也是應用于各個領域的以編程為主的軟件,在工程上應用廣泛。但是統(tǒng)計方法不多。,R的歷史,S語言在1980年代后期在AT它是一個由志愿者組成的工作努力的國際團隊,下載R軟件 http:/www.r-project.org,學習網(wǎng)站 http:/www.biosino.org/pages/newht

3、m/r/schtml/,基本語法 向量 矩陣 list與data.frame 讀寫數(shù)據(jù)文件 控制語句與自定義函數(shù),一. R軟件的使用,基本語法,1. 變量使用即定義: 變量名區(qū)分大小寫, 也可用中文命名 變量賦值可采用4種形式:=,, assign() 變量類型自動由變量賦值確定。,a=10; bc ; assign(“d”,40) 中國=“中華人民共和國” #生成字符串變量,2.注釋符號 # 語句連接符 ;,3. 算術運算符: +,-,*,/,(乘方),% (模), %/% (整除),4.常用的數(shù)學函數(shù)有:abs , sign , log , log2, log10 , sqrt , exp

4、 , sin , cos , tan , acos , asin, atan , cosh , sinh, tanh,5. 查看幫助 help(round) ?abs,向量,向量的賦值(一維數(shù)組, 下標從1開始) a=c(d1,d2,d3,) 間隔為1的等差序列: a:b 指定間隔的等差序列: seq(from,to,by) seq(length, from, by) 重復序列: rep(vec, times) rep(vec,times,len,each),a=c(3,5,8,10); b=1:10; c=seq(1,10,2); d=seq(-pi,pi, 0.2) e=rep(a,3);

5、 f=rep(a, 2, each=3),隨機向量 rnorm(10) #10個服從標準正態(tài)分布的隨機數(shù),a=1:5 (b=1:5) #同上,只不過顯示出來 a2 #取出a中第二個元素 ac(2,4)=c(4,8) #修改a中第2、4個元素分別為4、8 a-5 #扣除第5個元素取出來 a3 #判斷a中元素是否小于3 1 TRUE TRUE FALSE FALSE FALSE aa3 # 取出a中小于3的元素 a6=12 a=a-c(1,3,5) #去掉第1、3、5元素.,2.向量的下標運算,3.向量的長度,length(a),matrix(data=NA, nrow=1, ncol=1, by

6、row=FALSE),A=matrix(1:10, 2,5) B=matrix(1:10,2,5,byrow=TRUE) #按行放置元素,注意:默認是按列放置元素,1 ,2 ,3 ,4 ,5 1, 1 2 3 4 5 2, 6 7 8 9 10,1 ,2 ,3 ,4 ,5 1, 1 3 5 7 9 2, 2 4 6 8 10,矩陣(二維數(shù)組),x=matrix(rnorm(24),4,6) x2,1 #第2,1元素 xc(2,1), #第2和第1行 x,c(1,3) #第1和第3列 xx,10,1 #第1列大于0的元素 x,-c(1,3) #沒有第1、3列的x x-2,-c(1,3) #沒有第

7、2行、第1、3列的x.,1.矩陣的元素訪問,2. 矩陣的維數(shù)問題 dim(A) #獲得維數(shù),返回向量 nrow(A) ,ncol(A) #獲得行數(shù)和列數(shù),rownames(A), colnames(A) #訪問各維名稱,3. 向量和數(shù)組/矩陣的轉化: 只要定義向量的維數(shù)即可實現(xiàn)向量和數(shù)組轉化,c=1:12; a=matrix(c, nrow=2,ncol=6) dim(c)=c(3,4) b=as.vector(c) A=diag(c(1,4,5) #以向量為對角元生成對角矩陣 a=diag(A) #獲取矩陣的對角元,3. 矩陣運算 +,-,*,/ 分別是矩陣內(nèi)部元素的四則運算 向量矩陣間:向

8、量按列匹配與矩陣運算 例如: A=matrix(1:6, nrow=3) B=matrix(10:15,nrow=3) C=c(100,200) 則: A+B A*B A+C,11 17 10 52 101 204 13 19 22 70 202 105 15 21 36 90 103 206,A %*% B #乘法 t(mat) #轉置 det(mat)#行列式 solve(mat)#逆矩陣 eigen(mat) #求特征值與特征向量,4.多維數(shù)組,a=array(data=1:24,dim=c(2,3,4) a,1,列表和數(shù)據(jù)框,1. 列表是一種特殊的對象集合,各元素類型任意 生成: li

9、st(name1=value1, , namen=valuen) 訪問/修改:對象名下標 或 對象名$namei,stu=list(age=10, name=“Tom”, interests=c(“swimming”,”drawing”) stu2 stu$name stu$name=“john” names(stu) #得到所有的對象名,2. 數(shù)據(jù)框是R的一種數(shù)據(jù)結構,以矩陣形式保存數(shù)據(jù)各列類型可以不同,每列為一變量,每行為樣品 各列長度相等 data.frame( ),stu=data.frame(name=c(Tom, Rose), age=c(30,32) names(stu) #得到

10、所有的變量名 colnames(stu) #列名,同上 rownames(stu) #得到行名 attach(x) #把數(shù)據(jù)框中的變量鏈接到內(nèi)存中 x=data.frame(matrix(1:6,nrow=2) #矩陣轉化為數(shù)據(jù)框,x=data.frame(id=101:120,score=round(rnorm(20,70,10) #取出前兩行數(shù)據(jù) x1:2, #選出score60的數(shù)據(jù) xx260,讀寫數(shù)據(jù)文件,讀表格形式文本文件 read.table(file, header=FALSE,sep=“ “,) header表示第一行是否有變量名,sep表示數(shù)據(jù)分割的字符,D1=read.t

11、able(“e:test1.txt”,header=TRUE) D2=read.table(“clipboard”) #從剪貼板中獲得文本數(shù)據(jù),2. 計算的數(shù)據(jù)保存成文本文件或CSV文本文件 write.table(data, file=“”) #純文本格式,write.table(D1,file=“e:file_1.txt”),1. 分支結構 單分支:if(條件) 語句 if(條件) 復合語句; 雙分支:if(條件) 語句1 else 語句2 多分支:if() 語句1 else if () 語句2 else if() 語句n else 語句n+1,x=1; if(x0) a=10;b=10

12、else a=20; b=20;,控制語句控制語句與自定義函數(shù),2. 循環(huán)結構 for (name in express) expr; while(condition) expr; repeat exprs; if(達到中止條件) break ,例子:計算11+22+33+1010 i=1;j=1; k=1; s1=0; s2=0; s3=0; for( i in 1:10) s1=s1+ii; #用for while(j10) break ,fun-function(arg1,arg2,) 注意:最后一句表達式的值為返回值 ,myfun=function(k ) sum=0; for(i i

13、n 1:k) sum=sum+ii sum ,自定義函數(shù),統(tǒng)計量 數(shù)據(jù)中心化與標準化 和分布有關 數(shù)據(jù)的圖形表示 統(tǒng)計圖形,二. 數(shù)據(jù)描述性統(tǒng)計,統(tǒng)計量,sum(),max(),min() mean() #平均值 median() #中位數(shù) var() #方差 sd() #標準差 cov() #協(xié)方差陣,參數(shù)為矩陣或數(shù)據(jù)框 cor() #相關系數(shù),參數(shù)為矩陣或數(shù)據(jù)框 summary() table() #列聯(lián)表,統(tǒng)計不同值出現(xiàn)的個數(shù),x = c(10,90,71:78) mean(x) mean(x, trim = 0.10),A = cbind(c(90,60,70),c(85,66,95)

14、 apply(A,1,mean) # 對每一行取平均 apply(A,2,mean) #對每一列取平均 cov(A) cor(A),數(shù)據(jù)中心化與標準化,scale(x, center = TRUE, scale = TRUE),dnorm(x, mean = 0, sd = 1) #計算正態(tài)分布的密度函數(shù) pnorm(p, mean = 0, sd = 1) #計算正態(tài)分布的分布函數(shù) qnorm(q, mean = 0, sd = 1) #計算正態(tài)分布的分位數(shù) rnorm(n, mean = 0, sd = 1) #計算n個正態(tài)分布的隨機數(shù) 其它分布的關鍵詞: unif , exp,chisq

15、, t, f, binom,pois,#得到參數(shù)為1的指數(shù)分布在2的密度函數(shù)值 dexp(2,1 ) #產(chǎn)生5個均勻分布U(0,10)的隨機數(shù) runif(5,0,10),和分布相關,抽樣樣本,x=sample(1:20,10) #從1,20中隨機地不放回抽取10個值作為樣本 y=sample(1:20,10, replace =TRUE) #從1,20中隨機地有放回抽取10個值作為樣本,數(shù)據(jù)的圖形表示,x=seq(-10,10,2); y=rnorm(11) plot(x, y) plot(x, y,main=散點圖,xlab=橫坐標x,ylab=縱坐標y) text(x,y, 1:leng

16、th(x),-1) # 寫入點序號,第三個參數(shù)默認如此 plot(x,y,type = o, col = red,pch=2,lty=3),1.散點圖 plot(x,y,),type=“p” #散點圖,默認 type=“l(fā) #繪實線 type=“o” #實線通過所有的點 type=“n” #不畫點 參數(shù)lty表示線的類型 0=blank, 1=solid (default), 2=dashed, 3=dotted, 4=dotdash, 5=longdash, 6=twodash,低水平作圖函數(shù)有 points(x=,y=)#增加點(x,y) lines(x=,y=) #增加(x,y)連成的線

17、 abline( a=,b=) #增加線y=a+bx text(x=, y=, labels = ) #增加文本 legend(x, y = , legend, col ) #增加標注,x=seq(-10,10,2); y=rnorm(11) par(mfrow=c(3,1) #準備畫3個圖 plot(x, y) plot(x, y,main=散點圖,xlab=橫坐標x,ylab=縱坐標y) text(x,y, 1:length(x),-1) # 寫入點序號 plot(x,y,type = o, col = red,pch=2,lty=3),2.散點圖矩陣 pairs(x,),A=matrix

18、(rnorm(72,70,20),nrow=24) pairs(A),3. 多組散點圖,matplot(x,y,),x=seq(0,2*pi,0.2) matplot(x,cbind(sin(x),cos(x),type=c(p, l),col=2:3),4.星座圖 5.臉譜圖,library(aplpack) faces(x),stars(x),例1. 在同一圖中繪制標準正態(tài)分布和自由度為5的t分布的概率密度圖.,x=seq(-4,4,0.01) plot(x,dnorm(x),type=l,ylab=f(x),main=概率密度圖) lines(x,dt(x,5),col=red,lty=

19、2) legend(2,0.4,c(N(0,1),t(5),lty=1:2,col=c(black,red),x=seq(-4,4,0.01) matplot(x,cbind(dnorm(x),dt(x,5),type=l,ylab=f(x),main=概率密度圖) legend(2,0.4,c(N(0,1),t(5),lty=1:2,col=1:2),lwl.andrews=function(X) t=seq(-pi,pi,0.2) n=nrow(X) f=matrix(0,nrow=length(t),ncol=n) for(i in 1:n) f,i=Xi,1/sqrt(2) for(j

20、 in 2:ncol(X) if (j%2=0) f,i=f,i+Xi,j*sin(j/2*t) else f,i=f,i+Xi,j*cos(j%/%2*t) matplot(t,f,col=1:n,type=o,main=調(diào)和曲線圖) ,例2:繪制調(diào)和曲線圖,實驗一 R軟件的使用,求矩陣B的行列式、逆矩陣、特征根和特征向量及ABA,實驗目的:熟練使用R軟件,掌握對向量、矩陣和數(shù)據(jù)框的操作和對數(shù)據(jù)的描述性統(tǒng)計,學號 性別 數(shù)學 語文 英語 物理 1 3001 男 80 76 81 90 2 3002 男 55 67 79 63 3 3003 女 27 52 53 43 4 3004 女 62

21、57 66 69 5 3005 女 94 80 76 71 6 3006 男 97 59 61 74 7 3007 男 79 62 78 88 8 3008 男 70 92 78 83 9 3009 女 67 66 65 55 10 3010 男 97 46 55 75 11 3011 男 84 82 88 92 12 3012 男 40 57 67 53 13 3013 男 72 70 80 84 14 3014 男 43 31 56 60 15 3015 男 95 75 58 74 16 3016 男 62 85 91 83 17 3017 女 71 76 68 74 18 3018 男

22、80 40 52 71 19 3019 女 96 75 77 80 20 3020 女 82 51 73 77 21 3021 女 70 73 85 77 22 3022 男 61 40 47 56 23 3023 女 64 75 66 71 24 3024 女 60 21 48 65 25 3025 男 81 88 80 84 26 3026 女 89 54 65 71 27 3027 男 55 38 58 62 28 3028 女 60 54 68 62 29 3029 男 65 63 65 75 30 3030 男 69 55 73 75 31 3031 男 80 29 61 68 32

23、 3032 男 91 59 73 85 33 3033 男 69 73 75 78 34 3034 女 90 88 73 87 35 3035 女 64 70 72 77,2. 某班35人期末成績見右圖 繪制四科成績的散點圖矩陣、雷達圖和臉譜圖 繪制前5名學生各科成績的輪廓圖 繪制數(shù)學與物理成績的散點圖,其中男生與女生用不同的顏色和形狀的點表示。,計算四科成績的平均分和相關矩陣 分性別統(tǒng)計四科成績的平均分,例3. 在同一圖中繪制二項分布B(10,0.2)、泊松分布P(2)的概率分布圖形.,三. 回歸分析,與線性回歸相關常用函數(shù)全局挑選最佳自變量組合逐步回歸,lm( ) #建立線性回歸模型 su

24、mmary( ) #提取模型資料 predict( ) #用模型作預測 plot() #繪制模型診斷的幾種圖形,與線性回歸相關常用函數(shù),lm(yx) # y為向量, x可為向量與矩陣 lm(yx+0) #回歸方程沒有常數(shù)項 lm(yx1+x2+I(x12) #自變量有三項x1,x2,x12,lm(yx1+x2,data=X) # X為數(shù)據(jù)框, y,x1,x2為其中變量名 lm(y.,data=X) #自變量為其它所有變量 lm(y.-x2,data=X) #自變量為除x2的其它所有變量,例1:某氣象站收集了15年關于年初的最高溫度X(從1月11日算起)與秋季第一次強冷空氣出現(xiàn)日期Y(從9月11

25、日算起)的數(shù)據(jù),,flm=lm(yx) summary(flm) plot(x,y,main=一元回歸圖) abline(flm) points(x,flm$fitted,col=red,pch=3),常數(shù)項,回歸系數(shù),回歸系數(shù)的標準差,t檢驗值,t檢驗P值。標注*,則說明此項回歸系數(shù)顯著不為零,即有意義,模型殘差的標準差的估計量,決定系數(shù)R2,修正后的決定系數(shù),回歸方程的F檢驗統(tǒng)計量值及檢驗P值,Residuals: Min 1Q Median 3Q Max -7.3217 -1.6211 -0.1418 1.5485 6.0382 Coefficients: Estimate Std. E

26、rror t value Pr(|t|) (Intercept) 3.36014 2.06876 1.624 0.128 x 0.82006 0.08895 9.219 4.58e-07 * - Signif. codes: 0 * 0.001 * 0.01 * 0.05 . 0.1 1 Residual standard error: 3.243 on 13 degrees of freedom Multiple R-squared: 0.8673, Adjusted R-squared: 0.8571 F-statistic: 84.99 on 1 and 13 DF, p-value:

27、4.584e-07,若需編程,很多信息存放在lm和summary對象中 flm$coef #得到回歸系數(shù) flm$resi #得到殘差向量 flm$fitt #得到擬合向量 summary(flm)$sigma #模型殘差的標準差的估計量 summary(flm)$r.squared #決定系數(shù)R2 summary(flm)$adj.r.squared #修正后的決定系數(shù),#預測,注意第二個參數(shù)為數(shù)據(jù)框類型,成員名稱必須與原始的自變量一致 predict(flm,data.frame(x=c(14,26) predict(flm,data.frame(x=c(14,26),interval=p

28、rediction) #區(qū)間預測 fit lwr upr 1 14.84093 7.472051 22.2098 2 24.68160 17.389301 31.9739,例2:回歸模擬,x=runif(30,0,10) #均勻分布的隨機數(shù) x=sort(x) y=3*x-0.2*x2+rnorm(x) # y與x的準確關系 plot(x,y) l1=lm(yx);l2=lm(yx+0); l3=lm(yx+I(x2); l4=lm(yx+I(x2)+0) abline(l1,col=red,lty=1); abline(a=0,b=l2$coef,col=green,lty=2) lines

29、(x,l3$fit,col=blue,lty=3) lines(x,l4$fit,col=orange,lty=4) legend(bottomright, legend=c(線性, 無常數(shù)項線性, 二次, 二次無常數(shù)項),col=c(red, green, blue, orange),lty=1:4),實驗二:最小二乘估計的求解及檢驗,全局挑選最佳自變量組合,library(leaps) r=summary(regsubsets(y.,data=X) n=nrow(X) aic=n*log(r$rss/n)+2*apply(r$which,1,sum) #計算AIC統(tǒng)計量 data.fram

30、e(r$outmat,r$rss,r$rsq,r$adjr2,r$cp,AIC=aic),例:水泥放熱數(shù)據(jù)挑選最佳自變量組合,x1 x2 x3 x4 y 1 7 26 6 60 78.5 2 1 29 15 52 74.3 3 11 56 8 20 104.3 4 11 31 8 47 87.6 5 7 52 6 33 95.9 6 11 55 9 22 109.2 7 3 71 17 6 102.7 8 1 31 22 44 72.5 9 2 54 18 22 93.1 10 21 47 4 26 115.9 11 1 40 23 34 83.8 12 11 66 9 12 113.3 13

31、 10 68 8 12 109.4,殘差平方和,決定系數(shù)R2,修正后的決定系數(shù),Cp統(tǒng)計量,AIC統(tǒng)計量,step(lm(y.,data=X) step(lm(y1,data=X),+x1+x2+x3+x4),逐步回歸,實驗三:回歸分析中的自變量的挑選,四.判別分析,距離判別 Bayes判別 fisher判別,#計算馬氏距離 mahalanobis(x, center, cov, inverted=FALSE, .),距離判別,某總體的中心即均值向量,某總體的協(xié)方差陣,若設為TRUE,表明cov已求逆。默認為False,dda1=function(x,newx=NULL) #x 為訓練樣本,最

32、后一列為類別, newx為待判樣本 x=as.matrix(x); p=ncol(x)-1; #變量個數(shù) k=max(x,p+1); #類別個數(shù) n=nrow(x); #已知數(shù)據(jù)的個數(shù) if(is.null(newx)|ncol(newx)!=p) newx=x,1:p #如果待判樣本newX為空,則為訓練樣本 m=nrow(newx); #待判數(shù)據(jù)的個數(shù) md=matrix(-1,m,k); #距離矩陣k列,分別為到k個總體的距離 colnames(md)=paste(Dis,1:k,sep=); newClass=rep(-1,m); #新的類別 cov_each=matrix(0,nro

33、w=p,ncol=p) ; for(i in 1:k) temp=xx,p+1=i,1:p; center=apply(temp,2,mean); #計算當前總體的中心 cov_each=cov(temp) md,i=mahalanobis(newx,center,cov_each);# 計算待判樣本到當前總體的馬氏距離 newClass=apply(md,1,which.min); #距離矩陣md每一行最小的列就是歸屬類 list(matrix_Distance=md,newClass=newClass) ,假設各總體協(xié)方差陣不相等時的距離判別,例1,濕度差 壓溫差 q 1 -1.9 3.2

34、 1 2 -6.9 10.4 1 3 5.2 2.0 1 4 5.0 2.5 1 5 7.3 0.0 1 6 6.8 12.7 1 7 0.9 -15.4 1 8 -12.5 -2.5 1 9 1.5 1.3 1 10 3.8 6.8 1 11 0.2 6.2 2 12 -0.1 7.5 2 13 0.4 14.6 2 14 2.7 8.3 2 15 2.1 0.8 2 16 -4.6 4.3 2 17 -1.7 10.9 2 18 -2.6 13.1 2 19 2.6 12.8 2 20 -2.8 10.0 2,假設協(xié)方差陣不等時的距離判別結果:,$MarsDistances ,1 ,2 1

35、, 0.23479212 2.1460083 2, 3.03833480 6.9243049 3, 0.45790973 7.3283556 4, 0.40796928 6.6425393 5, 1.15825305 13.3381431 6, 2.44342495 9.2742507 7, 5.21569514 31.8233372 8, 4.51109115 31.4452037 9, 0.02172825 3.5632768 10, 0.51080152 2.9935950 11, 0.31493244 0.4242599 12, 0.55187015 0.1087923 13, 2.7

36、0320062 1.9090285 14, 0.67515753 1.5358775 15, 0.07154715 4.3721831 16, 0.90447066 4.1014802 17, 1.61226774 0.4918710 18, 2.57485181 1.7141432 19, 1.92540870 2.3430943 20, 1.56318137 0.9992699,$newClass 1 1 1 1 1 1 1 1 1 1 1 2 2 1 1 1 2 2 1 2,實驗目的:掌握距離判別準則和R軟件編程 實驗任務:編寫假設各總體協(xié)方差陣相等時的距離判別算法,并對p182數(shù)據(jù)進行

37、距離判別,實驗四:距離判別,Bayes判別,Library(MASS) qda() #Quadratic discriminant analysis. #其實質(zhì)是正態(tài)總體時的最大后驗概率準則,Library(MASS) #默認先驗概率prior 為各組數(shù)據(jù)所占比例 qd=qda(g.,data=X)# X為數(shù)據(jù)框類型,含有類別g qd=qda(x,g) #x中不含類別,g為類別,z=predict(qd, test) #test為待判樣本,若省略,則對訓練樣本判別 z$class # 類別結果 z$posterior # 后驗概率 table(X$g,z$class) #若對訓練樣品判別,可輸

38、出判對情況,library(MASS) qd=qda(g.,data=X) predict(qd)$class 1 2 1 1 1 1 1 1 1 1 2 2 2 2 2 1 1 2 2 2 2 plot(X,1:2,pch=X,3,col=X,3) text(X,1,X,2,adj=-0.5, col=X,3),濕度差 壓溫差 q 1 -1.9 3.2 1 2 -6.9 10.4 1 3 5.2 2.0 1 4 5.0 2.5 1 5 7.3 0.0 1 6 6.8 12.7 1 7 0.9 -15.4 1 8 -12.5 -2.5 1 9 1.5 1.3 1 10 3.8 6.8 1 11

39、 0.2 6.2 2 12 -0.1 7.5 2 13 0.4 14.6 2 14 2.7 8.3 2 15 2.1 0.8 2 16 -4.6 4.3 2 17 -1.7 10.9 2 18 -2.6 13.1 2 19 2.6 12.8 2 20 -2.8 10.0 2,#舍一驗證 qd=qda(g.,data=X,CV=TRUE),$class 1 2 2 1 1 1 1 1 1 1 2 2 2 2 2 1 1 2 2 2 2,ld=lda(G.,data=X) ld$scaling #投影方向 z=predict(ld,test) z$class z$posterior #后驗概率 z

40、$x # X* ld$scaling中心化后的矩陣,費希爾判別 數(shù)據(jù)降維后,在各組協(xié)方差陣相等下進行的最大后驗概率準則判別,濕度差 壓溫差 q 1 -1.9 3.2 1 2 -6.9 10.4 1 3 5.2 2.0 1 4 5.0 2.5 1 5 7.3 0.0 1 6 6.8 12.7 1 7 0.9 -15.4 1 8 -12.5 -2.5 1 9 1.5 1.3 1 10 3.8 6.8 1 11 0.2 6.2 2 12 -0.1 7.5 2 13 0.4 14.6 2 14 2.7 8.3 2 15 2.1 0.8 2 16 -4.6 4.3 2 17 -1.7 10.9 2 18

41、 -2.6 13.1 2 19 2.6 12.8 2 20 -2.8 10.0 2, ld$scaling LD1 濕度差 -0.0682677 壓溫差 0.1562112 predict(ld)$class 1 1 2 1 1 1 2 1 1 1 1 2 2 2 2 1 2 2 2 2 2,library(MASS) class1=predict(qda(class.,data=train)$class #Bayes判別 class2=predict(lda(class.,data=train)$class #Fisher線性判別 newtrain=predict(lda(class.,da

42、ta=train)$x class3=predict(qda(newtrain, train$class)$class #Fisher投影后再做Bayes判別 rbind(class1, class2, class3) table(train$class, class1) table(train$class, class2) table(train$class, class3),class1 2 1 1 1 1 1 1 1 1 2 2 2 2 2 1 1 2 2 2 2 class2 1 2 1 1 1 2 1 1 1 1 2 2 2 2 1 2 2 2 2 2 class3 1 2 1 1

43、1 2 1 1 1 2 2 2 2 2 1 2 2 2 2 2,2281342011 2451341040 2001671227 17015078 1001672014 225125714 130100612 15011776 1201331026 160100510 185115519 17012564 16514253 135108212 10011772,例2:,1 ,2 ,3 ,4 ,5 ,6 ,7 ,8 ,9 ,10 ,11 ,12 ,13 ,14 ,15 class1 1 1 1 1 1 2 2 2 2 2 3 3 3 3 3 class2 1 1 1 3 1 2 2 3 2 2

44、2 3 3 3 3 class3 1 1 1 1 1 2 2 3 2 2 2 3 3 3 3,實驗五 判別分析實驗目的:掌握Bayes判別和Fisher判別的基本原理及R軟件實現(xiàn)實驗任務:,費希爾于1936年發(fā)表的鳶尾花數(shù)據(jù)是對3種鳶尾花:剛毛鳶尾花、變色鳶尾花和弗吉尼亞鳶尾花個抽取容量為50的樣本,測量其花萼長、花萼寬、花瓣長和花瓣寬。請將用每組前30個作為訓練樣本,剩余數(shù)據(jù)作為待判樣本進行如下判別: 1. 進行Bayes判別,輸出60個待判樣本的判別結果。 2. 進行Fisher線性判別,輸出投影矩陣及60個待判數(shù)據(jù)的判別結果,并畫出訓練樣本投影后的散點圖,不同類別的點用不同的符號和顏色表

45、示。 3. 將第2題中投影后的數(shù)據(jù)進行Bayes判別,輸出60個待判數(shù)據(jù)的判別結果。,R軟件中已有數(shù)據(jù)iris,iris3,且如下可得到題中的訓練樣本。 train=data.frame(rbind(iris31:30,1, iris31:30,2, iris31:30,3), class=rep(c(1,2,3),each=30),五.聚類分析,系統(tǒng)聚類 快速聚類,d=dist(scale(X),method=euclidean) #默認是歐式距離 hc1=hclust(d,method=complete) plot(hc1,hang=-1,main=聚類譜系圖最長距離法),系統(tǒng)聚類,d=d

46、ist(scale(X) ) hc1=hclust(d2,method=centroid) hc1$height=sqrt(hc1$height) cbind(hc1$merge,hc1$height) plot(hc1,hang=-1,main=聚類譜系圖重心法),注意: “median” 中間距離法;“centroid” 重心法;“ward” 離差平方和法這三種應以歐式距離的平方矩陣為遞推矩陣。,和譜系圖有關的還有 as.dendrogram(x,type=c(“rectangle“, “triangle“),horiz=FALSE),d=dist(c(1,2,6,8,11,13,15)

47、hc1=hclust(d) dend1=as.dendrogram(hc1) par(mfrow=c(2,2) plot(dend1) plot(dend1,type=t,nodePar=list(pch=c(1,NA) plot(dend1,horiz=T) plot(dend1,edgePar=list(col=gray, lwd=2),nodePar=list(col=3:2, cex=c(2.0, 0.75), pch= 21:22,bg= c(light blue, pink),cutree(hc1,3) 或者rect.hclust(hc1,k=3,border=red),根據(jù)系統(tǒng)聚

48、類劃分為若干個類,變量聚類,d=as.dist(sqrt(1-cor(X)2) #將相關系數(shù)轉化為距離矩陣 hc1=hclust(d,method=single) plot(hc1,hang=-1),快速聚類(k均值聚類),kmeans(x, centers) #centers為聚類個數(shù),實驗六:聚類分析,實驗目的:掌握系統(tǒng)聚類和k均值聚類的原理,并熟練使用R軟件實現(xiàn) 實現(xiàn)任務:了研究亞洲各國發(fā)展情況,選取了20個國家的六個指標數(shù)據(jù),進行以下聚類 選取前四個指標,用標準化數(shù)據(jù)的歐式距離作用距離度量,分別按最小距離、類平均距離、重心法和Ward法和最大距離法分別對這些國家做聚類,畫出聚類譜系圖。并輸出按Ward法分成三類的結果 用相關系數(shù)轉化為距離,分別按最小距離法和類平均距離對這些變量做聚類,畫出聚類譜系圖。并輸出按類平均法分成兩類的結果。,

展開閱讀全文
溫馨提示:
1: 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

相關資源

更多
正為您匹配相似的精品文檔
關于我們 - 網(wǎng)站聲明 - 網(wǎng)站地圖 - 資源地圖 - 友情鏈接 - 網(wǎng)站客服 - 聯(lián)系我們

copyright@ 2023-2025  zhuangpeitu.com 裝配圖網(wǎng)版權所有   聯(lián)系電話:18123376007

備案號:ICP2024067431-1 川公網(wǎng)安備51140202000466號


本站為文檔C2C交易模式,即用戶上傳的文檔直接被用戶下載,本站只是中間服務平臺,本站所有文檔下載所得的收益歸上傳人(含作者)所有。裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對上載內(nèi)容本身不做任何修改或編輯。若文檔所含內(nèi)容侵犯了您的版權或隱私,請立即通知裝配圖網(wǎng),我們立即給予刪除!