武漢大學(xué)醫(yī)學(xué)統(tǒng)計(jì)學(xué)串講講義演示文檔
.,醫(yī)學(xué)統(tǒng)計(jì)學(xué)武漢大學(xué),.,第一部分 緒 論,.,一、什么是統(tǒng)計(jì)學(xué)? Whats statistics?,是一門關(guān)于收集、整理和分析(統(tǒng)計(jì))數(shù)據(jù)的科學(xué)。醫(yī)學(xué)統(tǒng)計(jì)學(xué)是統(tǒng)計(jì)學(xué)方法在醫(yī)學(xué)中的運(yùn)用。醫(yī)學(xué)研究中觀測結(jié)果多為隨機(jī)事件,通過統(tǒng)計(jì)學(xué)方法可以揭示其內(nèi)在規(guī)律。,.,(1)設(shè)計(jì): design(2)收集資料 collection of data (3)整理資料 sorting data (4)分析資料 analysis of data,二、統(tǒng)計(jì)工作的基本步驟,1)專業(yè)設(shè)計(jì)2)統(tǒng)計(jì)設(shè)計(jì),1)統(tǒng)計(jì)報(bào)表2)醫(yī)療衛(wèi)生工作記錄3)專題調(diào)查和實(shí)驗(yàn),1)對數(shù)據(jù)檢查、核對2)按分析要求分組、匯總,1)統(tǒng)計(jì)描述 2)統(tǒng)計(jì)推斷,.,用定量方法測定得到,有大小之分,有度量衡單位。,三、 統(tǒng)計(jì)資料類型,(一)計(jì)量資料 measurement data,.,將觀察單位按屬性或類型分組計(jì)數(shù)所得的資料。分為:1、二項(xiàng)分類資料; 2、多項(xiàng)分類資料。,(二)計(jì)數(shù)資料 enumeration count data,.,.,(三)等級資料 ranked ordinal data,將觀察單位按某屬性不同程度分組計(jì)數(shù)所得的資料。,.,例:測得一群人Hb值(g/dL),此資料為 計(jì)量資料 ; 按正常和異常分為兩組,此時(shí)資料為 計(jì)數(shù)資料 ; 按量的多少分為: 16 (Hb增高)。此時(shí)資料為 等級資料 。,資料間的相互轉(zhuǎn)化,.,四、統(tǒng)計(jì)學(xué)的基本概念,(一)同質(zhì)與變異,同質(zhì)(homogeneity) 指各觀察指標(biāo)受相同因素影響的部分。,變異(variation) 在同質(zhì)的基礎(chǔ)上個(gè)體間的差異。,.,例某地某年用隨機(jī)抽樣方法檢查了140名健康成年男子的紅細(xì)胞數(shù)(1012/L),檢測結(jié)果如下表:,觀察指標(biāo)的同質(zhì)部分:“某地某年健康成年男子”觀察指標(biāo)的變異部分:各個(gè)體間紅細(xì)胞數(shù)間的差異,.,醫(yī)學(xué)統(tǒng)計(jì)學(xué)的基本概念,(二)總體與樣本(population & sample),總體:是根據(jù)研究目的所確定的同質(zhì)觀察單位(某種變量值)的全體。 1)有限總體(有時(shí)間、空間限制) 例研究2008年溫州市肝癌死亡率。 2)無限總體 例研究某藥對高血壓病的療效。樣本:從總體中隨機(jī)抽取一部分個(gè)體所組成的集合。,.,醫(yī)學(xué)統(tǒng)計(jì)學(xué)的基本概念,(三)隨機(jī)抽樣,1.單純隨機(jī)抽樣2.系統(tǒng)(機(jī)械)隨機(jī)抽樣3.整群隨機(jī)抽樣4.分層隨機(jī)抽樣,從總體中隨機(jī)抽取部分個(gè)體的過程。(總體中每一個(gè)觀察單位均有同等的機(jī)會(huì)被抽取到) 隨機(jī)抽樣是樣本客觀反映總體情況的前提。 隨機(jī)抽樣方法:,.,單純隨機(jī)抽樣,即先將調(diào)查總體的全部觀察單位編號(hào),再隨機(jī)抽取部分觀察單位組成樣本。,例:欲了解某單位職工HBsAg陽性率,該單位有職工1000人,試按單純隨機(jī)抽樣法,抽取一例數(shù)為100的樣本。,.,系統(tǒng)隨機(jī)抽樣,又稱等距抽樣或機(jī)械抽樣,即先將總體的觀察單位按某一順序號(hào)等分成n個(gè)部分,再從第一部分隨機(jī)抽第k號(hào)觀察單位,依次用相等間隔,機(jī)械地從每一部分各抽一個(gè)觀察單位組成樣本。,例:欲了解某單位職工HBsAg陽性率,該單位有職工1000人,試按系統(tǒng)抽樣法,抽取一例數(shù)為100的樣本。,.,整群隨機(jī)抽樣,先將總體劃分為n個(gè)群,每個(gè)群包括若干觀察單位,再隨機(jī)抽取k個(gè)群,并將被抽取的各個(gè)群的全部觀察單位組成樣本。,例:某校有80個(gè)班級,各班學(xué)生50人,現(xiàn)用錫克氏試驗(yàn)調(diào)查該校學(xué)生白喉易感率,隨機(jī)抽查了8個(gè)班的全部學(xué)生。,.,分層隨機(jī)抽樣,按有關(guān)影響因素把觀察對象分成若干層次,然后將同一層次的觀察對象進(jìn)行隨機(jī)抽取。,例:欲了解某地人群HBsAg陽性率情況,按年齡段、職業(yè)、性別等因素分層后進(jìn)行抽樣。,.,醫(yī)學(xué)統(tǒng)計(jì)學(xué)的基本概念,(四)誤差 主要有:粗差、系統(tǒng)誤差、隨機(jī)誤差(如測量誤差、 抽樣誤差等),問題:某中醫(yī)師對某方劑進(jìn)行改良,改良后的方劑治療某病患者30例,有效率為80%,原方劑治療30例,有效率為60%,問兩者有效率有無差別?,抽樣誤差:抽樣引起的總體參數(shù)與樣本統(tǒng)計(jì)量之間sampling error 的差別。,.,醫(yī)學(xué)統(tǒng)計(jì)學(xué)的基本概念,(五)參數(shù)與統(tǒng)計(jì)量 (parameter & statistic) 參數(shù): 統(tǒng)計(jì)量: 檢驗(yàn)統(tǒng)計(jì)量:,總體的特征量,如總體均數(shù)、總體標(biāo)準(zhǔn)差等。樣本的統(tǒng)計(jì)指標(biāo)如樣本均數(shù)、標(biāo)準(zhǔn)差等。用于統(tǒng)計(jì)檢驗(yàn)的樣本指標(biāo)。 如 t、u、x2、F 等,.,均表示某事件發(fā)生可能性大小的量。,(六)頻率和概率,但:頻率為變量,fn(A) =m/n 概率P(A)為常數(shù)。 若n足夠大, fn(A) P(A),小概率事件 P(A) 0.05“小概率事件一次是不太可能發(fā)生的”,醫(yī)學(xué)統(tǒng)計(jì)學(xué)的基本概念,第二部分 計(jì)量資料的統(tǒng)計(jì)描述,.,第一節(jié) 計(jì)量資料的統(tǒng)計(jì)描述,一、計(jì)量資料的頻數(shù)表二、集中趨勢的描述三、離散程度的描述,.,1、頻數(shù)表的編制2、頻數(shù)分布的特征3、頻數(shù)分布的類型4、頻數(shù)表的用途,一、計(jì)量資料的頻數(shù)表,.,例某地用隨機(jī)抽樣方法檢查了140名成年男子的紅細(xì)胞數(shù),檢測結(jié)果如下表:,.,(1)求全距或極差(R),(2)定組段和組距(i),1. 頻數(shù)表的編制,.,(3)列出頻數(shù)表,某地140名正常男子紅細(xì)胞數(shù)的頻數(shù)表,.,2. 頻數(shù)分布的特征,(1)集中趨勢(2)離散趨勢,.,(1)對稱分布 其中一種常見的類型為正態(tài)分布.(2)偏態(tài)分布 有正偏態(tài)、負(fù)偏態(tài)之分.,3. 頻數(shù)分布的類型,.,4. 頻數(shù)表的用途(1)了解資料的分布類型.(2)發(fā)現(xiàn)異常值.(3)在頻數(shù)表的基礎(chǔ)上計(jì)算有關(guān)指標(biāo)。,.,1、算術(shù)均數(shù) µ ,X2、幾何均數(shù) G3、中位數(shù) M,二、集中趨勢的描述,.,概念: 數(shù)值的平均.計(jì)算: 1)直接法:,例2.1 求某地140名正常成年男子紅細(xì)胞數(shù)均值為,1. 均數(shù)(mean) µ ,X,2)加權(quán)法:,應(yīng)用: 對稱分布,尤其是正態(tài)分布.,.,概念:指一組數(shù)據(jù)的倍數(shù)平均。計(jì)算:(1)直接法:,2. 幾何均數(shù) ( geometric mean, G ),.,例:5份血清的抗體效價(jià)為1:10,1:100,1:1000,1:10000,1:100000,求其平均效價(jià)。,或者: 1:10,1:100,1:1000,1:10000,1:100000的指數(shù)部分為:-1,-2,-3,-4,-5,其平均值為-3,故G =10-3=1:1000,.,(2)加權(quán)法:,.,何謂對數(shù)正態(tài)分布? 某資料由變量值 X1,X2, Xn組成,已知其分布呈偏態(tài)。若每個(gè)變量值取對數(shù),如Y1=lgX1,Y2=lgX2, Yn=lgXn,且Y1,Y2, Yn呈正態(tài)分布。 此時(shí),,將對數(shù)值還原為原始數(shù)值,則:,應(yīng)用: (1)變量值呈倍數(shù)關(guān)系 (2)對數(shù)正態(tài)分布,.,3. 中位數(shù) M,概念:是一組由小到大按順序排列的觀察 值中位次居中的數(shù)值。計(jì)算:(1)直接法: n為奇數(shù)時(shí),n為偶數(shù)時(shí),某病患者9人發(fā)病潛伏期為2,3,3,3,4,5,6,9,16天, 求中位數(shù)。若在第20天又發(fā)現(xiàn)1例患者,則其中位數(shù)為:,3. 中位數(shù) (median M),.,利用百分位數(shù)計(jì)算公式進(jìn)行計(jì)算. 百分位數(shù)(PX)是一種位置指標(biāo), 。中位數(shù)是一個(gè)特定的百分位數(shù),即M= P50 。,(2)頻數(shù)表法:,.,百分位數(shù)計(jì)算公式:,.,百分位數(shù)計(jì)算公式:,M,.,M,.,.,.,.,應(yīng)用:(1)偏態(tài)分布資料;(2)資料分布一端或兩端有未確定值。,.,.,三、離散程度的描述,例: 三組同性別、同年齡兒童的體重(Kg)如下,分析其集中趨勢與離散趨勢。 甲組:26 28 30 32 34 均數(shù):X=30 Kg 乙組:24 27 30 33 36 均數(shù):X=30 Kg 丙組:26 29 30 31 34 均數(shù):X=30 Kg,三、離散趨勢的描述,.,描述離散程度的常用指標(biāo),1、全距(極差) (R)2、四分位數(shù)間距(QR)3、方差(2 S2)和 標(biāo)準(zhǔn)差(、S)4、變異系數(shù) (CV),.,反映一組同質(zhì)觀察值個(gè)體差異的范圍。 R甲=8; R乙=12; R丙=8。 缺點(diǎn)(1)不能反映組內(nèi)其它觀察值的變異度。 (2)樣本含量越大,則全距可能也越大。,1. 全距(極差),.,即P75P25 四分位數(shù)可看作是一組同質(zhì)觀察值居中的50%變量值的變異范圍。,2. 四分位數(shù)間距(quartile range, QR),.,不受極值影響,較穩(wěn)定。,與全距比較有何優(yōu)點(diǎn)?,應(yīng)用: (1)偏態(tài)分布; (2)資料一端或兩端有未確定值。,.,.,變量值的離散程度可看作是各個(gè)變量值距離中心點(diǎn)(均數(shù))的遠(yuǎn)近問題。 用算式表示: x 但: x=0 則求: x2 (離均差平方和) x2 大小與變異度有關(guān)外,還與變量值個(gè)數(shù)(N)有關(guān)。 故:,3. 方差(2 S2)和 標(biāo)準(zhǔn)差(、S)(variance & standard deviation),.,為了用原單位表示,開方即:,標(biāo)準(zhǔn)差或方差越大,說明個(gè)體差異越大,則均數(shù)的代表性越差。,.,實(shí)際工作中經(jīng)常得到的是樣本資料,總體均數(shù)是不知道的,只能用樣本均數(shù)來估計(jì)總體均數(shù),這樣: 用 xx2 代替 x2 n 代替 N 但這樣算得結(jié)果常比真實(shí)低。,因此,統(tǒng)計(jì)學(xué)家提出用 n - 1 來校正。,.,即:樣本標(biāo)準(zhǔn)差(S),S2 稱為 樣本方差,.,式中n-1稱為自由度,用希臘字母 (ju:psilen)表示。自由度的概念: 是指隨機(jī)變量能自由取值的個(gè)數(shù)。 例:X+Y+Z=10 = 2 又例:,當(dāng)樣本均數(shù)一定時(shí),隨機(jī)變量可以自由取值的變量值個(gè)數(shù)只能是n - 1 個(gè)。,.,計(jì)算: 1)不分組資料:,例: 三組同性別、同年齡兒童的體重(Kg)如下,分析其集中趨勢與離散趨勢。 甲組:26 28 30 32 34 均數(shù):X=30 Kg 乙組:24 27 30 33 36 均數(shù):X=30 Kg 丙組:26 29 30 31 34 均數(shù):X=30 Kg,計(jì)算得:S甲=3.16,S乙=4.74,S丙=2.92,.,2)分組資料:,計(jì)算得:S = 0.38(×1012/ L),.,應(yīng)用: 對稱分布,尤其是正態(tài)分布,.,應(yīng)用:(1)比較單位不同的幾組資料的變異程度 (2)比較均數(shù)相差懸殊的幾組資料的變異程度,4. 變異系數(shù)(CV),.,例2.9 某地調(diào)查110名18歲男大學(xué)生,其身高均數(shù)為172.73cm,標(biāo)準(zhǔn)差為4.09cm;其體重均數(shù)為55.04kg,標(biāo)準(zhǔn)差為4.10kg,試比較兩者變異度。,某衛(wèi)生防疫站對30名麻疹易感兒童經(jīng)氣溶膠免疫一個(gè)月后,測得其血凝抑制抗體滴度資料如下,試計(jì)算其平均滴度 抗體滴度 1:8 1:16 1:32 1:64 1:128 1:256 1:512 例 數(shù) 2 6 5 10 4 2 1,.,某市1974年為了解該地居民發(fā)汞的基礎(chǔ)水平, 為汞污染的環(huán)境監(jiān)測積累資料, 調(diào)查了留住該市一年以上, 無明顯肝、腎疾病,無汞作業(yè)接觸史的居民238 人的發(fā)汞含量如下:,用何種指標(biāo)說明本資料的集中位置和變異程度較好?并計(jì)算之;,.,某檢驗(yàn)師測定了10名正常成年鋼鐵工人的血紅蛋白值(g/dl)和紅細(xì)胞數(shù)(萬/mm3)如下,試比較這兩個(gè)檢測項(xiàng)目的結(jié)果哪個(gè)變異性大?,血紅蛋白(g/dL) 13.0 13.6 14.0 14.5 14.6 14.7 15.2 15.5 15.8 16.0血細(xì)胞數(shù)(萬/mm3) 510 515 517 518 520 522 524 525 528 530,.,第二部分 數(shù)值變量的描述性統(tǒng)計(jì),統(tǒng)計(jì)圖表;統(tǒng)計(jì)指標(biāo)。,.,第一節(jié) 頻數(shù)分布一. 編制頻數(shù)表的步驟,求極差R=84-57cm=27(次/分)劃分組段確定組數(shù):較大樣本時(shí),一般取10組左右。確定組距:極差/組數(shù)=27/10=2.73(次/分)確定各組段的上下限:上限=下限+組距統(tǒng)計(jì)各組段內(nèi)的數(shù)據(jù)頻數(shù),編制頻數(shù)表,.,表2.1 130名健康成年男子脈搏(次/分)的頻數(shù)分布表,脈搏組段 (1),頻數(shù)(2),頻率(%) (3),累計(jì)頻數(shù) (4),累計(jì)頻率(%) (5),5659626568717477808385合計(jì),25121525261915101130,1.543.859.2311.5419.2320.0014.6211.547.690.77,2719345985104119129130,1.545.3814.6226.1545.3865.3880.0091.5499.23100.00,.,二. 頻數(shù)表的用途,可以揭示資料的分布類型和分布特征,以便于選用相應(yīng)的統(tǒng)計(jì)分析方法。便于進(jìn)一步計(jì)算指標(biāo)和統(tǒng)計(jì)處理。便于發(fā)現(xiàn)某些特大或特小的可疑值。,.,第二節(jié) 集中趨勢的描述,三種平均數(shù)算術(shù)均數(shù)幾何均數(shù)中位數(shù)。,.,(一)算術(shù)均數(shù)(x),簡稱均數(shù),適合于表達(dá)呈正態(tài)分布資料的平均水平。直接法: X=,X1+···+Xn,n,=,X,n,例2-2:X,=,81+70+66+···+69,13,=71.69(次/分),.,加權(quán)法X=,fX,f,例: X=,572+605+6312+···+84 1,130,=71.12(次/分),.,(二)幾何均數(shù)(G),適用于原始數(shù)據(jù)分布不對稱,但經(jīng)對數(shù)轉(zhuǎn)換后呈對稱分布的資料。G= n X1X2···XnG=lg-1( ),lgX,n,G=lg-1( ),f lgX,f,.,例:40名麻疹易感兒童接種麻疹疫苗后一個(gè)月,測其血凝抑制抗體滴度,結(jié)果如表所示,求幾何均數(shù)。,抗體滴度,人數(shù) f,滴度倒數(shù) X,lgX,1:41:81:161:321:641:1281:2561:512,145811641,48163264128256512,0.60210.90311.20411.50511.80612.10722.40822.7093,G´=lg-1(,f lgX,n,)=lg-1(1 0.6021+4 0.9031+ ··· +1 2.7093),40,.,=lg-1(,40,67.1282,),=48,G=1:48,.,(三)中位數(shù)(M),適合于表達(dá)偏態(tài)資料、或分布不明的資料的平均水平,尤其適合于表達(dá)只知數(shù)據(jù)的個(gè)數(shù)、但部分較大或較小數(shù)據(jù)的具體數(shù)值未準(zhǔn)確知道的資料的平均水平。,.,對于原始數(shù)據(jù)和頻數(shù)分布表資料,分別用下列兩式計(jì)算中位數(shù)。,M=,(X n/2+X(n/2+1) )/2,(n為偶數(shù)),X(n+1)/2,(n為奇數(shù)),M = LM +,iM,fM,(,n,2,fL ),其中, LM :中位數(shù)所在組下限; iM :中位數(shù)所在組的組距; fM :中位數(shù)所在組的頻數(shù); fL :中位數(shù)所在組前一組的累計(jì)頻數(shù)。,.,例2-4 表2.3 107正常人的尿鉛含量(g/L)的中位數(shù)計(jì)算表,含量( g/L ) (1),頻數(shù)f(2),累計(jì)頻數(shù) f (3),累計(jì)頻率 % (4),0481216202428合計(jì),1422291815612107,1436658398104105107,13.0833.6460.7577.5791.5997.2098.13100.00,M=8+ (107/2 - 36) = 10.41(g/L),4,29,.,第三節(jié) 離散程度的描述,例:設(shè)有三組同年齡、同性別兒童體重(kg)數(shù)據(jù)如下:甲組 26 28 30 32 34乙組 24 27 30 33 36丙組 26 29 30 31 34,.,描述離散程度的指標(biāo):極差、四分位數(shù)間距、方差、標(biāo)準(zhǔn)差、變異系數(shù)。,.,一. 極差(全距,R),為一組同質(zhì)觀察值中最大值與最小值之差。甲組 R=34-26=8乙組 R=36-24=12甲組數(shù)據(jù)分布較乙組集中。,.,優(yōu)點(diǎn):計(jì)算簡單缺點(diǎn):1.沒有充分利用樣本信息,只考慮最大值與最小值之差異,不能反映組內(nèi)其它觀察值的變異度。2.樣本含量越大,抽到較大或較小觀察值的可能性越大,則極差可能越大,因此,樣本含量懸殊時(shí)不宜用極差比較分布的離散度。所以,一般不用極差來反映離散程度。,.,二. 四分位數(shù)間距(Q)1.分位數(shù)的概念分位數(shù)是一種位置指標(biāo),一個(gè)特定的分位數(shù)將任何一個(gè)頻數(shù)曲線下的面積分為兩部分。第1四分位數(shù)記作Q1,第2、第3四分位數(shù),分別記作Q2、Q3;第1百分位數(shù),記作P1。同理,還有第2、第3、 ···、第99百分位數(shù),分別記作P2、P3、 ···、P99。顯然,Q1=P25、Q2=P50=M、Q3=P75,.,2.百分位數(shù)的計(jì)算公式對連續(xù)型變量頻數(shù)表資料,按下式計(jì)算第X百分位數(shù)PX:PX=LX+,iX,fX,(nX%,fL ),其中, LX :第X百分位數(shù)所在組下限; iX :第X百分位數(shù)所在組的組距; fX :第X百分位數(shù)所在組的頻數(shù); fL :第X百分位數(shù)所在組前一組的累計(jì)頻數(shù)。,.,例 某地200例正常成人血鉛含量的頻數(shù)分布如表所示,請計(jì)算出血鉛含量的95%正常值范圍。200例正常成人血鉛含量的頻數(shù)分布表,血鉛含量 頻數(shù) 累計(jì)頻數(shù) (mol/L) (1) (2),00.240.480.720.971.211.451.691.932.172.422.662.903.14,6484336281314441201,65497133161174188192196197199199200,解:即求P95。nX%=200×95%=190P95 =1.69+ (190-188),0.24,4,=1.81 (mol/L),故某地正常人血鉛含量95%的單側(cè)正常值范圍的上限為 1.81 (mol/L)。,.,3.四分位數(shù)間距(Q)Q=P75-P25Q=QU-QL優(yōu)缺點(diǎn):用四分位數(shù)間距作為描述數(shù)據(jù)分布離散程度的指標(biāo),比極差穩(wěn)定,但仍未考慮到每個(gè)數(shù)據(jù)的大小,常用于描述偏態(tài)頻數(shù)分布以及分布的一端或兩端無確切數(shù)值資料的離散程度。,.,2=,(X-)2,N,S2=,(X-X)2,n - 1,n - 1稱為自由度,三.方差,., =,(X-)2,N,S=,(X-X)2,n - 1,直接法; s=,X2-( X)2/n,由于(X-X)2 =X2-( X)2/n,所以,n - 1,加權(quán)法: s= fX2-( fX)2/f,f - 1,四.標(biāo)準(zhǔn)差,.,五. 變異系數(shù)(CV),CV=,S,X,100%,1.用于比較度量衡單位不同的多組資料的變異度。2.比較均數(shù)相差懸殊的多組資料的變異度。,.,一. 正態(tài)分布的概念和特征,正態(tài)分布的圖形:正態(tài)分布的密度函數(shù):f(X)=,1, 2,e,-(X-)2,2 2,-<X<+ ,通常用N( , 2)表示均數(shù)為、方差為2的正態(tài)分布。,第四節(jié) 正態(tài)分布,.,正態(tài)分布的特征,1.正態(tài)曲線在橫軸上方均數(shù)處最高;2.正態(tài)分布以均數(shù)為中心,左右對稱;3.正態(tài)分布有兩個(gè)參數(shù),即均數(shù)與標(biāo)準(zhǔn)差。 是位置參數(shù),當(dāng)固定不變時(shí), 越大,曲線沿橫軸越向右移動(dòng); 越小,曲線沿橫軸越向左移動(dòng)。 是變異度參數(shù),當(dāng)固定不變時(shí), 越大,曲線越矮平; 越小,曲線越尖峭。4.正態(tài)曲線下的面積分布有一定的規(guī)律。,.,常用的兩個(gè)區(qū)間: ±1.96 及±2.58 的區(qū)間面積分別占總面積(或總觀察例數(shù))的95%及99%,如下圖所示:,95%,2.5%,2.5%,-1.96 ,+1.96 ,99%,-2.58 ,+2.58 ,0.5%,0.5%,.,二. 標(biāo)準(zhǔn)正態(tài)分布,令 u=,X- ,(u)=,1,2,e,-,u2,2,- <u<+ ,用N(0,1)表示標(biāo)準(zhǔn)正態(tài)分布,.,三. 正態(tài)分布的應(yīng)用,制定醫(yī)學(xué)參考值范圍許多統(tǒng)計(jì)方法的理論基礎(chǔ),.,參考值范圍的制定,正態(tài)分布法 百分位數(shù)法,%909599,雙側(cè)X1.64SX1.96SX2.58S,單只有下限X-1.28SX-1.64SX-2.33S,側(cè)只有上限X+1.28SX+1.64SX+2.33S,雙側(cè)P5P95P2.5P97.5P0.5P99.5,單只有下限P10P5P1,側(cè)只有下限 P90 P95 P99,.,補(bǔ)充題 以下是101名30-49歲正常成年男子的血清總膽固醇(mmol/L)測定值的頻數(shù)表,請據(jù)此資料:(1)選擇適當(dāng)?shù)募汹厔葜笜?biāo)并計(jì)算之;(2)選擇適當(dāng)?shù)碾x散程度指標(biāo)并計(jì)算之;(3)求該地30-49歲健康男子血清總膽固醇的正常值范圍;(4)估計(jì)該地30-49歲健康男子血清總膽固醇值小于4.50 mmol/L的概率。,血清總膽固醇2.53.03.54.04.55.05.56.06.57.07.5合計(jì),頻數(shù)f1892325179621101,fx2.752633.7597.75118.7589.2551.7537.513.57.25478.25,fx27.5684.50126.56415.44564.06468.56297.56234.3891.1352.562342.31,.,3.抽樣誤差和 t 分布,Sampling error and t distribution,.,抽樣誤差的概念,由抽樣引起的樣本統(tǒng)計(jì)量與總體參數(shù)間的差異 兩種表現(xiàn)形式 樣本統(tǒng)計(jì)量與總體參數(shù)間的差異樣本統(tǒng)計(jì)量間的差異,.,抽樣研究 個(gè)體變異,抽樣誤差產(chǎn)生的條件,.,均數(shù)的抽樣誤差及標(biāo)準(zhǔn)誤,表現(xiàn)一:樣本均數(shù)與總體均數(shù)之差值表現(xiàn)二:多個(gè)樣本均數(shù)間的離散度,.,中心極限定理(central limit theorem),從均數(shù)為、標(biāo)準(zhǔn)差為 的總體中獨(dú)立隨機(jī)抽樣,當(dāng)樣本含量n增加時(shí),樣本均數(shù)的分布將趨于正態(tài)分布,此分布的均數(shù)為,標(biāo)準(zhǔn)差為,.,標(biāo)準(zhǔn)誤(standard error,SE),樣本統(tǒng)計(jì)量的標(biāo)準(zhǔn)差稱為標(biāo)準(zhǔn)誤,用來衡量抽樣誤差的大小。樣本均數(shù)的標(biāo)準(zhǔn)差稱為標(biāo)準(zhǔn)誤。此標(biāo)準(zhǔn)誤與個(gè)體變異 成正比,與樣本含量n的平方根成反比。,.,實(shí)際工作中, 往往是未知的,一般可用樣本標(biāo)準(zhǔn)差s代替 :因?yàn)闃?biāo)準(zhǔn)差s隨樣本含量的增加而趨于穩(wěn)定,故增加樣本含量可以降低抽樣誤差。,.,中心極限定理表明,即使從非正態(tài)總體中隨機(jī)抽樣,只要樣本含量足夠大,樣本均數(shù)的分布也趨于正態(tài)分布 ,見圖3.1 。,.,四個(gè)非正態(tài)分布的總體抽樣結(jié)果(A偏三角分布、B均勻分布、C指數(shù)分布、D雙峰分布),.,圖3.1描述了來自不同總體的樣本均數(shù)之抽樣誤差和抽樣分布規(guī)律。事實(shí)上,任何一個(gè)樣本統(tǒng)計(jì)量均有其分布。統(tǒng)計(jì)量的抽樣分布規(guī)律是進(jìn)行統(tǒng)計(jì)推斷的理論基礎(chǔ)。,.,標(biāo)準(zhǔn)差與標(biāo)準(zhǔn)誤的聯(lián)系和區(qū)別,聯(lián)系都是變異指標(biāo)。S反映個(gè)體觀察值的變異;反映統(tǒng)計(jì)量的變異。當(dāng)n不變時(shí),標(biāo)準(zhǔn)差,標(biāo)準(zhǔn)誤,.,.,t分布,設(shè)從正態(tài)分布N(, )中隨機(jī)抽取含量為n的樣本,樣本均數(shù)和標(biāo)準(zhǔn)差分別為 和s,設(shè): 則t值服從自由度為n-1的t分布(t-distribution)。Gosset于1908年在生物統(tǒng)計(jì)雜志上發(fā)表該論文時(shí)用的是筆名“Student”,故t分布又稱Student t分布。,.,圖3.2 自由度分別為1、5、時(shí)的t分布,.,t分布的特征,t分布為一簇單峰分布曲線t分布以0為中心,左右對稱t分布與自由度有關(guān),自由度越小,t分布的峰越低,而兩側(cè)尾部翹得越高,;自由度逐漸增大時(shí),t分布逐漸逼近標(biāo)準(zhǔn)正態(tài)分布;當(dāng)自由度為無窮大時(shí),t分布就是標(biāo)準(zhǔn)正態(tài)分布。,.,t分布的特征,每一自由度下的t分布曲線都有其自身分布規(guī)律t分布表明,從正態(tài)分布總體中隨機(jī)抽取的樣本,由樣本計(jì)算的t值接近0的可能性較大,遠(yuǎn)離0的可能性較小。t0.05,102.228,表明,從正態(tài)分布總體中抽取樣本含量為n=11的樣本,則由該樣本計(jì)算的t值大于等于2.228的概率為0.025,小于等于-2.228的概率亦為0.025。 P(t-2.228)+P(t2.228)0.05 或:P(-2.228<t<2.228)=1-0.05=0.95。,.,-2.228 2.228,.,第四部分 參數(shù)估計(jì),(parameter estimation),.,例:某地120名12歲男孩身高均數(shù)為142.67cm,標(biāo)準(zhǔn)誤為0.5477cm,問該地12歲男孩平均身高均數(shù)是多少?,前 言,.,實(shí)際工作:抽樣研究,從總體到樣本研究目的:由樣本推斷總體統(tǒng)計(jì)推斷(statistical inference)就是根據(jù)樣本所提供的信息,以一定的概率推斷總體的性質(zhì)。包括兩方面的內(nèi)容:參數(shù)估計(jì)和假設(shè)檢驗(yàn),.,參數(shù)估計(jì)(parameter estimation),由樣本信息估計(jì)總體參數(shù) 點(diǎn)估計(jì)(point estimation)區(qū)間估計(jì)(interval estimation),.,點(diǎn)估計(jì) (point estimation),直接用樣本統(tǒng)計(jì)量作為總體參數(shù)的估計(jì)值 方法簡單,但未考慮抽樣誤差的大小在實(shí)際問題中,總體參數(shù)往往是未知的,但它們是固定的值,并不是隨機(jī)變量值。而樣本統(tǒng)計(jì)量隨樣本的不同而不同,屬隨機(jī)的。,.,區(qū)間估計(jì)(interval estimation),按一定的概率或可信度(1- )用一個(gè)區(qū)間估計(jì)總體參數(shù)所在范圍,這個(gè)范圍稱作可信度為1- 的可信區(qū)間(confidence interval, CI),又稱置信區(qū)間 。這種估計(jì)方法稱為區(qū)間估計(jì)。,.,可信區(qū)間的確切涵義,可信度為95% 的可信區(qū)間的確切涵義是:每100個(gè)樣本所算得的100個(gè)可信區(qū)間,平均有95個(gè)包含了總體參數(shù) 。,.,可信區(qū)間的兩個(gè)要素,可靠性 反映為可信度1- 的大小 精確性 用區(qū)間長度CUCL衡量,.,均數(shù)的可信區(qū)間,總體均數(shù)的(1- )可信區(qū)間定義為:,.,大樣本資料近似正態(tài)法,當(dāng)樣本含量較大時(shí),例如n100,t分布近似標(biāo)準(zhǔn)正態(tài)分布,此時(shí)可用標(biāo)準(zhǔn)正態(tài)分布代替t分布,作為可信區(qū)間的近似計(jì)算。相應(yīng)的100(1-)可信區(qū)間為:,.,例4.1 隨機(jī)抽取12名口腔癌患者,檢測其發(fā)鋅含量,得均數(shù)為253.05g/g,標(biāo)準(zhǔn)誤為27.18g/g,求發(fā)鋅含量總體均數(shù)95的可信區(qū)間。,本例自由度=12-1=11,經(jīng)查表得t0.05,11=2.201,則即口腔癌患者發(fā)鋅含量總體均數(shù)的95可信區(qū)間為:193.23321.87(g/g)。用該區(qū)間估計(jì)口腔癌患者發(fā)鋅含量總體均數(shù)的可信度為95。,.,.,例4.2 某地120名12歲男孩身高均數(shù)為142.67cm,標(biāo)準(zhǔn)誤為0.5477cm,計(jì)算該地12歲男孩身高總體均數(shù)90的可信區(qū)間。,因n=120>100,故可以用標(biāo)準(zhǔn)正態(tài)分布代替t分布,u0.10=1.64 即該地12歲男孩平均身高的90可信區(qū)間為:141.77143.57(cm),可認(rèn)為該地12歲男孩平均身高在141.77143.57(cm)之間。,.,.,兩均數(shù)之差的區(qū)間估計(jì),設(shè)兩樣本之樣本含量、均數(shù)和方差分別為:n1,n2,,和s12, s22,根據(jù)數(shù)理統(tǒng)計(jì)結(jié)果:,服從自由度為=n1+n2-2的t分布。,.,例4.3 某醫(yī)生研究轉(zhuǎn)鐵蛋白對病毒性肝炎診斷的臨床意義,測得12名正常人和15名病毒性肝炎患者血清轉(zhuǎn)鐵蛋白含量,結(jié)果如下,試估計(jì)正常人和患者的轉(zhuǎn)鐵蛋白含量均數(shù)之差的95可信區(qū)間。,.,根據(jù)資料算得:,s12=10.382s22=14.392,自由度為=n1+n2-2=12+15-2=25、0.05的t界值為:t0.05,25=2.060,(271.8917235.2067 ) 2.060 4.95 = 26.48 46.88,兩組均數(shù)之差的95可信區(qū)間為:,可以認(rèn)為病毒性肝炎患者的血清轉(zhuǎn)鐵蛋白含量較正常人平均低36.68,其95CI為26.4846.88。,.,率的可信區(qū)間,與均數(shù)一樣,率也存在抽樣誤差 ,率的標(biāo)準(zhǔn)差又稱率的標(biāo)準(zhǔn)誤為:,率的抽樣誤差,.,率的分布,當(dāng)總體率0.5時(shí)為正偏態(tài),當(dāng)0.5時(shí)為負(fù)偏態(tài),當(dāng)=0.5時(shí)為對稱分布。只有當(dāng)n較大、率和(1-)都不太小時(shí),例如n和n(1-)均大于5時(shí),率的抽樣分布近似于正態(tài)分布。,.,總體率的區(qū)間估計(jì),正態(tài)近似法 查表法,.,正態(tài)近似法,條件: 樣本例數(shù)n足夠大,且樣本率p和(1-p)都不 太小時(shí),即np和n(1-p)均大于5時(shí),樣本率p 的抽樣分布近似正態(tài)分布,( , ),總體率的可信區(qū)間:,.,例 從某地人群中隨機(jī)抽取144人,檢查乙型肝炎表面抗原攜帶狀況,陽性率為9.20,求該地人群的乙型肝炎表面抗原陽性率的95可信區(qū)間。,n =144,p=9.20,95可信限為:9.20%±1.96×2.41%即該地人群的乙型肝炎表面抗原陽性率的95可信 區(qū)間為:4.48%13.92%。,.,查表法,例4.5 有人調(diào)查29名非吸毒婦女,出獄時(shí)有1名HIV(人免疫缺陷病毒)陽性,求陽性率95可信區(qū)間?,直接查附表6.2,在行n=29, 列x=1交叉處0.117.8即為陽性率95可信區(qū)間,.,正確理解可信區(qū)間的涵義(一),可信區(qū)間一旦形成,它要么包含總體參數(shù),要么不包含總體參數(shù),二者必居其一,無概率可言。所謂95的可信度是針對可信區(qū)間的構(gòu)建方法而言的。 以均數(shù)的可信區(qū)間為例,其涵義是:如果重復(fù)100次抽樣,每次樣本含量均為n,每個(gè)樣本均按 構(gòu)建可信區(qū)間,則在此100個(gè)可信區(qū)間內(nèi),理論上有95個(gè)包含總體均數(shù),而有5個(gè)不包含總體均數(shù)。,.,正確理解可信區(qū)間的涵義(二),在區(qū)間估計(jì)中,總體參數(shù)雖未知,但卻是固定的值(且只有一個(gè)),而不是隨機(jī)變量值 。,.,圖4.1 100個(gè)來自N(0,1)的樣本所估計(jì)的可信區(qū)間示意,.,可信區(qū)間與參考值范圍的區(qū)別,可信區(qū)間用于估計(jì)總體參數(shù),總體參數(shù)只有一個(gè) 。參考值范圍用于估計(jì)變量值的分布范圍,變量值可能很多甚至無限 。95%的可信區(qū)間中的95%是可信度,即所求可信區(qū)間包含總體參數(shù)的可信程度為95%95%的參考值范圍中的95%是一個(gè)比例,即所求參考值范圍包含了95%的正常人。,.,第五部分 假 設(shè) 檢 驗(yàn),第一節(jié) 假設(shè)檢驗(yàn)的意義第二節(jié) 假設(shè)檢驗(yàn)的思路第三節(jié) 假設(shè)檢驗(yàn)的步驟第四節(jié) 假設(shè)檢驗(yàn)的正確應(yīng)用第五節(jié) 假設(shè)檢驗(yàn)的幾個(gè)相關(guān)問題,.,總體是100例正常成年男子的血紅蛋白(單位:g/L),從中隨機(jī)抽取樣本a1 和樣本 a2 ;總體B是另外100例正常成年男子的紅細(xì)胞數(shù),從中隨機(jī)抽取樣本b ;三個(gè)樣本的含量均為10例,有關(guān)數(shù)值如下:,.,在知道A和B總體的參數(shù)時(shí),a1-a2,a1-b1,.,假如事先不知道A和B是不是同一個(gè)總體,a1-b1,?,.,例6.1 測得25例某病女性患者的血紅蛋白(Hb),其均數(shù)為150(g/L),標(biāo)準(zhǔn)差為16.5(g/L)。而該地正常成年女性的Hb均數(shù)為132(g/L)。問該病女性患者的Hb含量是否與正常女性Hb含量不同?,.,?,目的: 推斷病人的平均血紅蛋白(未知總體均數(shù))與正常女性的平均血紅蛋白(已知總體均數(shù)0)間有無差別 = 0,.,手頭樣本對應(yīng)的未知總體均數(shù)等于已知總體均數(shù)0除抽樣誤差外,,已知:,,差別僅僅是由于抽樣誤差所致;,病人與正常人存在本質(zhì)上的差異,.,一、假設(shè)檢驗(yàn)的意義,分辨一個(gè)樣本是否屬于某特定總體 分辨兩個(gè)(或兩個(gè)以上)樣本是否分別屬于兩個(gè)不同的總體,并對總體作出適當(dāng)?shù)慕Y(jié)論,.,二、假設(shè)檢驗(yàn)的基本思想,“反證法”的思想先根據(jù)研究目的建立假設(shè),從H0假設(shè)出發(fā),先假設(shè)它是正確的,再分析樣本提供的信息是否與H0有較大矛盾,即是否支持H0,若樣本信息不支持H0,便拒絕之并接受H1,否則不拒絕H0 。,.,檢驗(yàn)假設(shè)(null hypothesis),記為H0 H0:132,病人與正常人的平均血紅蛋白含量相等;備擇假設(shè)(alternative hypothesis),記為H1H1:132,病人與正常人的平均血紅蛋白含量不等。,(一)建立假設(shè),.,其中H0假設(shè)比較單純、明確,在H0 下若能弄清抽樣誤差的分布規(guī)律,便有規(guī)律可循。而H1假設(shè)包含的情況比較復(fù)雜。因此,我們著重考察樣本信息是否支持H0假設(shè)(因?yàn)閱螒{一份樣本資料不可能去證明哪個(gè)假設(shè)是正確的,哪一個(gè)不正確)。,.,設(shè)定檢驗(yàn)水準(zhǔn)的目的就是確定拒絕假設(shè)H0時(shí)的最大允許誤差。醫(yī)學(xué)研究中一般取=0.05 。檢驗(yàn)水準(zhǔn)實(shí)際上確定了小概率事件的判斷標(biāo)準(zhǔn)。,(二 )確定檢驗(yàn)水準(zhǔn),.,(三)選定檢驗(yàn)方法計(jì)算檢驗(yàn)統(tǒng)計(jì)量(計(jì)算樣本與總體的偏離),統(tǒng)計(jì)量t表示,在標(biāo)準(zhǔn)誤的尺度下,樣本均數(shù)與總體均數(shù)0的偏離。這種偏離稱為標(biāo)準(zhǔn)t離差。,.,根據(jù)抽樣誤差理論,在H0假設(shè)前提下,統(tǒng)計(jì)量t服從自由度為n-1的t分布,即t值在0的附近的可能性大,遠(yuǎn)離0的可能性小,離0越遠(yuǎn)可能性越小。 t值越小,越利于H0假設(shè) t值越大,越不利于H0假設(shè),.,(四)結(jié)論(根據(jù)小概率原理作出推斷),在H0成立的前提下出現(xiàn)現(xiàn)有差別或更大差別的可能性P(| t | 5.4545) 小于0.05,是小概率事件,即現(xiàn)有樣本信息不支持H0。抉擇的標(biāo)準(zhǔn)為: 當(dāng)P 時(shí),拒絕H0,接受H1 當(dāng)P 時(shí),不拒絕H0 本例P0.05,按 =0.05的水準(zhǔn),拒絕H0,接受H1,差別有統(tǒng)計(jì)學(xué)意義。認(rèn)為該病女性患者的Hb含量高于正常女性的Hb含量。,.,.,-2.064,2.064,0, =24,0.025,0.025,t0.05,24=2.064 P =P ( |t| 2.064 )=0.05,P=P(|t|5.4545)<0.05,.,假設(shè)檢驗(yàn)的意義,得到關(guān)于總體的結(jié)論如本例假設(shè)檢驗(yàn)的意義在于分辨手頭樣本所代表的未知總體和已知總體是否為同一總體,換句話說,即分辨手頭樣本是否為已知總體的一個(gè)隨機(jī)樣本。,.,三、假設(shè)檢驗(yàn)的基本步驟,建立假設(shè)確定檢驗(yàn)水準(zhǔn)計(jì)算檢驗(yàn)統(tǒng)計(jì)量計(jì)算概率P結(jié)論當(dāng)P 時(shí),拒絕H0,接受H1,差別有統(tǒng)計(jì)學(xué)意義。當(dāng)P 時(shí),不拒絕H0,差別尚無統(tǒng)計(jì)學(xué)意義。不論,拒絕拒絕H0,還是不拒絕H0都可能范錯(cuò)誤。,.,建立假設(shè) (在假設(shè)的前提下有規(guī)律可循),首先確定單、雙側(cè)零假設(shè)(null hypothesis),記為H0 H0:132,病人與正常人的平均血紅蛋白含量相等;備擇假設(shè)(alternative hypothesis),記為H1雙側(cè)檢驗(yàn)H1:132,病人與正常人的平均血紅蛋白含量不等。單側(cè)檢驗(yàn),.,確定檢驗(yàn)水準(zhǔn) (確定最大允許誤差),設(shè)定檢驗(yàn)水準(zhǔn)的目的就是確定拒絕假設(shè)H0時(shí)的最大允許誤差。醫(yī)學(xué)研究中一般取=0.05 。檢驗(yàn)水準(zhǔn)實(shí)際上確定了小概率事件的判斷標(biāo)準(zhǔn)。,.,選定檢驗(yàn)方法計(jì)算檢驗(yàn)統(tǒng)計(jì)量(計(jì)算樣本與總體的偏離),根據(jù)資料的類型、研究目的和設(shè)計(jì)情況選擇適合的統(tǒng)計(jì)方法,計(jì)算相應(yīng)的統(tǒng)計(jì)量,如t值、F值、 值等。,.,結(jié)論(根據(jù)小概率原理作出推斷),在H0成立的前提下出現(xiàn)現(xiàn)有差別或更大差別的可能性,判斷結(jié)果。抉擇的標(biāo)準(zhǔn)為: 當(dāng)P 時(shí),拒絕H0,接受H1 當(dāng)P 時(shí),不拒絕H0,.,第六部分定量資料的分析,第一節(jié)樣本均數(shù)與總體均數(shù)的比較第二節(jié)兩樣本均數(shù)比較的t檢驗(yàn)第三節(jié) t檢驗(yàn)的正確應(yīng)用 第四節(jié) 多個(gè)均數(shù)的比較 第五節(jié) 方差齊性檢驗(yàn) 第六節(jié) 方差分析的正確應(yīng)用,(the Analysis of Quantitative Data),.,t 檢驗(yàn)(t-test),英國統(tǒng)計(jì)學(xué)W.S.Gosset (1908)導(dǎo)出了樣本均數(shù)的確切分布,即 t分布。t分布的發(fā)現(xiàn)使小樣本的統(tǒng)計(jì)推斷成為可能,因而它被認(rèn)為是統(tǒng)計(jì)學(xué)發(fā)展史上的里程碑之一。以t分布為基礎(chǔ)的檢驗(yàn)稱為t檢驗(yàn)。,.,一、樣本均數(shù)與總體均數(shù)的比較(one sample t-test),目的: 推斷該樣本是否來自某已知總體; 樣本均數(shù)代表的總體均數(shù)與0是否相等??傮w均數(shù)0一般為理論值、標(biāo)準(zhǔn)值或經(jīng)大量觀察所得并為人們接受的公認(rèn)值、習(xí)慣值。 實(shí)例分析:以例6.1為例介紹,.,解決思路:區(qū)間估計(jì)判斷樣本信息估計(jì)的總體均數(shù)之可信區(qū)間是否覆蓋已知的總體均數(shù)0? 若不覆蓋,則可推斷該樣本并非來自已知均數(shù)的總體。 假設(shè)檢驗(yàn)先假設(shè) 等于0,再判斷樣本提供的信息是否支持這種假設(shè),若不支持,則可推斷該樣本并非來自已知均數(shù)的總體。,.,H0:132,病人與正常人的平均血紅蛋白含量相等;H1:132,病人與正常人的平均血紅蛋白含量不等。=0.05,按 =0.05的水準(zhǔn),拒絕H0,接受H1,差別有統(tǒng)計(jì)學(xué)意義。認(rèn)為該病女性患者的Hb含量高于正常女性的Hb含量。,t>t0.05,24=2.064 P <0.05,.,二、配對設(shè)計(jì) t 檢驗(yàn)(paired design t-test),配對設(shè)計(jì)使用條件: 當(dāng)個(gè)體間的差異不均勻時(shí),將差異較小的個(gè)體配成對子,分別給予不同的處理,以保證兩組間的均衡可比性。,.,(一)配對設(shè)計(jì)的形式,自身配對同一對象接受兩種處理,如同一標(biāo)本用兩種方法進(jìn)行檢驗(yàn),同一患者接受兩種處理方法;同一對象處理前后。異體配對將條件相近的實(shí)驗(yàn)對象配對,并分別給予兩種處理。,.,若兩處理因素的效應(yīng)無差別,差值d的總體均數(shù)d應(yīng)該為0,故可將該檢驗(yàn)理解為樣本均數(shù)與總體均數(shù)d =0的比較配對t檢驗(yàn)的實(shí)質(zhì)就是檢驗(yàn)樣本差值的總體均數(shù)是否為0。,(二)基本思想,.,例6.2 現(xiàn)用兩種測量肺活量的儀器對12名婦女測得最大呼氣率(PEER)(L/min),資料如表6.1,問兩種方法的檢測結(jié)果有無差別?,.,按 = n-1=12-1=11查t值表,得t0.20,11=1.363,t0.10,11=1.796,t0.10,11tt0.20,11,則0.20P0.10,差別無統(tǒng)計(jì)學(xué)意義,尚不能認(rèn)為兩種儀器檢查的結(jié)果不同。,H0:d0,兩儀器檢驗(yàn)結(jié)果相同;H1:d0,兩儀器檢驗(yàn)結(jié)果不同。,雙側(cè) =0.05。,已知n=12,差值標(biāo)準(zhǔn)差,.,例6.3 某醫(yī)生研究腦缺氧對腦組織中生化指標(biāo)的影響,將乳豬按出生體重配成7對,一組為對照組,一組為腦缺氧模型組。試比較兩組豬腦組織鈣泵的含量有無差別。,.,H0:d0,即兩組乳豬腦組織鈣泵含量相等;H1:d0,即對照組乳豬腦組織鈣泵含量高于實(shí)驗(yàn)組。單側(cè) =0.05。,按= n-1=7-1=6查t界值表,得單側(cè)t0.05,6=1.943,tt0.05,6,則P0.05,差別有統(tǒng)計(jì)學(xué)意義,可以認(rèn)為腦缺氧可造成鈣泵含量的降低。,.,(三)兩樣本均數(shù)比較的t檢驗(yàn) (independent samples t-test),有些研究的設(shè)計(jì)既不能自身配對,也不便異體配對,而只能把獨(dú)立的兩組相互比較。例如手術(shù)組與非手術(shù)組、新藥組與對照組。目的:在于推斷兩個(gè)樣本所代表的兩總體均數(shù)1和2是否相等。,.,.,例6.4 某醫(yī)生研究轉(zhuǎn)鐵蛋白對病毒性肝炎診斷的臨床意義,測得12名正常人和15名病毒性肝炎患者血清轉(zhuǎn)鐵蛋白含量(g/dl),結(jié)果見例4.3。問患者和正常人轉(zhuǎn)鐵蛋白含量是否有差異?,.,H0 :12,正常人與病毒性肝炎患者的轉(zhuǎn)鐵蛋白含量相等;H1 :12 ,正常人與病毒性肝炎患者的轉(zhuǎn)鐵蛋白含量不等。雙側(cè) =0.05,s12=10.382s22=14.392,=n1n22=12152=25,按自由度25查附表2,t界值表得t0.001,25=3.725,tt0.001,25,P0.001,差別有統(tǒng)計(jì)學(xué)意義,可以認(rèn)為病毒性肝炎患者的轉(zhuǎn)鐵蛋白含量較低。,.,在兩個(gè)樣本均數(shù)比較時(shí),若兩組樣本含量都很大,可用u檢驗(yàn),其計(jì)算公式為:,u為標(biāo)準(zhǔn)正態(tài)離差,按正態(tài)分布界定P值并作出結(jié)論 。,.,例6.5 某市于1973年和1993抽查部分12歲男童對其發(fā)育情況進(jìn)行評估,其中身高的有關(guān)資料如下,試比較這兩個(gè)年度12歲男童身高均數(shù)有無差別。1973 年:n1=120 =139.9cm s1=7.5cm;1993 年:n2=153 =143.7cm s2=6.3cm。,H0 :12,即該市兩個(gè)年度12歲男童平均身高相等;H1 :12,即該市兩個(gè)年度12歲男童平均身高不等。 雙側(cè) =0.05。,P0.01,差別有統(tǒng)計(jì)學(xué)意義,可認(rèn)為該市1993年12歲男童平均身高比1973年高。,.,(四)假設(shè)檢驗(yàn)中需注意的幾個(gè)問題,1.建立假設(shè) “假設(shè)”是對總體特征的表述 H0與H1并非并列,而是以H0為主 H0與H1的表述隨資料性質(zhì)、分析目的和檢驗(yàn)方法而定。,.,(四)假設(shè)檢驗(yàn)中需注意的幾個(gè)問題,2.驗(yàn)證假設(shè) 各種檢驗(yàn)方法都以統(tǒng)計(jì)量的分布為依據(jù) 檢驗(yàn)統(tǒng)計(jì)量與H0密切相關(guān):H0條件下產(chǎn)生了檢驗(yàn)統(tǒng)計(jì)量t的概率分布 反證法推理 :在H0條件下,抽得現(xiàn)有樣本統(tǒng)計(jì)量的概率(P)很小,就認(rèn)為樣本數(shù)據(jù)與H0假設(shè)有矛盾,且這種矛盾不能用抽樣誤差來解釋,所以可認(rèn)為該樣本來自H1假設(shè),則接收H1;反之。,.,3.判斷水準(zhǔn) 必須事先確定,一般取0.05。,(四)假設(shè)檢驗(yàn)中需注意的幾個(gè)問題,4. 正確理解P值P值是決策的依據(jù)P0.05 及其意義:首先P不指H0成立之可能,而是指從H0假設(shè)總體中隨機(jī)抽到差別至少等于現(xiàn)有差別的機(jī)會(huì)。,.,5. Significant 的本義及假設(shè)檢驗(yàn)結(jié)果的表述 Significant的本義是“有意義的”、“非偶然的”,(四)假設(shè)檢驗(yàn)中需注意的幾個(gè)問題,前輩學(xué)者曾將Significance譯作“顯著性”,或Significant譯作“顯著的”,因而假設(shè)檢驗(yàn)也習(xí)慣上被稱作“顯著性檢驗(yàn)”,已延用至今,.,(四)假設(shè)檢驗(yàn)中需注意的幾個(gè)問題,6.第一類錯(cuò)誤與第二類錯(cuò)誤 假設(shè)檢驗(yàn)結(jié)論 拒絕H0,接受H1 不拒絕H0 H0真實(shí) 第一類錯(cuò)誤( ) 正確推斷(1) H0不真實(shí) 正確推斷(1) 第二類錯(cuò)誤()統(tǒng)計(jì)學(xué)上規(guī)定:H0真實(shí)時(shí)被拒絕為第一類錯(cuò)誤(又稱型錯(cuò)誤,type error),H0不真實(shí)時(shí)不拒絕為第二類錯(cuò)誤(又稱型錯(cuò)誤,type error)。,.,第一類錯(cuò)誤和第一類錯(cuò)誤的關(guān)系,.,6.檢驗(yàn)的功效,實(shí)際應(yīng)用假設(shè)檢驗(yàn)時(shí),當(dāng)P 而拒絕H0接受H1,要注意第一類錯(cuò)誤出現(xiàn);當(dāng)P 而不拒絕H0,要注意第二類錯(cuò)誤的出現(xiàn)。尤其是,第二類錯(cuò)誤率 表示失去對真實(shí)的H1作出肯定結(jié)論之概率,故1 就是對真實(shí)的H1作出肯定結(jié)論之概率,常被用來表達(dá)某假設(shè)檢驗(yàn)方法的檢驗(yàn)的功效(power of a test),國內(nèi)學(xué)者稱它為把握度:假設(shè)檢驗(yàn)對真實(shí)的H1作肯定結(jié)論之把握程度。 ,.,7.雙側(cè)檢驗(yàn)與單側(cè)檢驗(yàn),檢驗(yàn)假設(shè)的寫法不同:,.,選用雙側(cè)檢驗(yàn)與單側(cè)檢驗(yàn):原則上依據(jù)資料的性質(zhì)來選擇。若比較甲、乙兩種方法孰優(yōu),這里含有甲優(yōu)于乙和乙優(yōu)于甲兩種可能的結(jié)果,而且研究者只要求分出優(yōu)劣,故應(yīng)選用雙側(cè)檢驗(yàn),若甲是從乙改進(jìn)而得,已知如此改進(jìn)可能有效,也可能無效,但不可能改進(jìn)后反不如前,故應(yīng)選用單側(cè)檢驗(yàn)。不要無把握時(shí)誤用單側(cè)檢驗(yàn),也不可在條件具備時(shí)錯(cuò)過正當(dāng)使用的機(jī)會(huì) 。,.,8. t檢驗(yàn)的正確應(yīng)用,(1)資料的代表性與可比性 所謂代表性是指該樣本從相應(yīng)總體中經(jīng)隨機(jī)抽樣獲得,能夠代表總體的特征;所謂可比性是指各對比組間除了要比較的主要因素外,其它影響結(jié)果的因素應(yīng)盡可能相同或相近 為了保證資料的可比性,必須要有嚴(yán)密的實(shí)驗(yàn)設(shè)計(jì),保證樣本隨機(jī)抽取于同質(zhì)總體,這是假設(shè)檢驗(yàn)得以正確應(yīng)用的前提 。,.,8. t檢驗(yàn)的正確應(yīng)用,(2)應(yīng)用t檢驗(yàn)對兩樣本均數(shù)進(jìn)行比較時(shí),要求原始數(shù)據(jù)滿足如下三個(gè)條件: 獨(dú)立性(independence) 正態(tài)性(normality): 方差齊性(homogeneity):,.,8. t檢驗(yàn)的正確應(yīng)用,(3) t檢驗(yàn)與u檢驗(yàn) 公式 查表 與n關(guān)系計(jì)算精度 t 較復(fù)雜 需 無關(guān) 精確 u 簡單 否 n較大 近似 *思考:同一資料,t 檢驗(yàn)有統(tǒng)計(jì)學(xué)意義,u檢驗(yàn)一定有統(tǒng)計(jì)學(xué)意義? t檢驗(yàn)有統(tǒng)計(jì)學(xué)意義,u檢驗(yàn)不一定有統(tǒng)計(jì)學(xué)意義?,