高中數(shù)學(xué) 第一章 統(tǒng)計案例 1 回歸分析(課時1)課件 新人教B版選修1-2.ppt
3.1 回歸分析的基本思想 及其初步應(yīng)用 (第一課時),1通過典型案例的探究,進(jìn)一步了解回歸分析的基本思想、方法及其初步應(yīng)用 2讓學(xué)生經(jīng)歷數(shù)據(jù)處理的過程,培養(yǎng)他們對數(shù)據(jù)的直觀感覺,體會統(tǒng)計方法的特點,認(rèn)識統(tǒng)計方法的應(yīng)用,通過使用轉(zhuǎn)化后的數(shù)據(jù),求相關(guān)指數(shù),運(yùn)用相關(guān)指數(shù)進(jìn)行數(shù)據(jù)分析、處理的方法 3從實際問題中發(fā)現(xiàn)已有知識的不足,激發(fā)好奇心,求知欲,通過尋求有效的數(shù)據(jù)處理方法,開拓學(xué)生的思路,培養(yǎng)學(xué)生的探索精神和轉(zhuǎn)化能力,通過案例的分析使學(xué)生了解回歸分析在實際生活中的應(yīng)用,增強(qiáng)數(shù)學(xué)取之生活,用于生活的意識,提高學(xué)習(xí)興趣,本節(jié)課通過必修3熟悉有例題回顧線性相關(guān)關(guān)系知識,通過實際問題中發(fā)現(xiàn)已有知識的不足,引出隨機(jī)誤差、殘差、殘差分析的概念,進(jìn)而運(yùn)用殘差來進(jìn)行數(shù)據(jù)分析,通過例題講解掌握用殘差分析判斷線性回歸模型的擬合效果。掌握建立回歸模型的步驟。 本節(jié)內(nèi)容學(xué)生內(nèi)容不易掌握,通過知識整理與比較引導(dǎo)學(xué)生進(jìn)行區(qū)分、理解。通過對典型案例的探究,練習(xí)進(jìn)行鞏固了解回歸分析的基本思想方法和初步應(yīng)用,從某大學(xué)中隨機(jī)選取8名女大學(xué)生,其身高和體重數(shù)據(jù)如下表所示: 怎樣根據(jù)一名女大學(xué)生的身高預(yù)報她的體重,并預(yù)報一名身高為172 cm的女大學(xué)生的體重?,根據(jù)必修3 2.3變量相關(guān)關(guān)系解決這個問題的方法: 1.先判斷是兩個變量是否具有線性相關(guān)關(guān)系 (1)作散點圖,如圖所示(見課本P82:圖3.1-1),2.根據(jù)線性回歸的系數(shù)公式,求回歸直線方程 0.849x-85.712,3.由線性回歸方程可以估計其位置值為 60.316(千克)左右。,具有較好的線性相關(guān)關(guān)系,性質(zhì):回歸直線一定過樣本中心點,(2)計算相關(guān)系數(shù),這些點并不都在同一條直線上,上述直線并不能精確地反映x與y之間的關(guān)系,y 的值不能完全由x 確定,它們之間是統(tǒng)計相關(guān)關(guān)系,y 的實際值與估計值之間存在著誤差,因此,在統(tǒng)計學(xué)中設(shè)它們的線性回歸模型為:,其中a,b為模型的未知參數(shù),e為y與bx+a之間的誤差,稱它為隨機(jī)誤差,它是隨機(jī)變量。且,線性回歸模型完整表達(dá)式為,x稱為_變量,y稱為_變量.,解釋,預(yù)報,線性回歸模型中隨機(jī)誤差的主要來源 線性回歸模型中的預(yù)報值 與真實情況y引起的誤差; 觀測與計算(用 代替b a)產(chǎn)生的誤差; 省略了一些因素的影響(如生活習(xí)慣等)產(chǎn)生的誤差.,稱相應(yīng)于點 的殘差,坐標(biāo)縱軸為殘差變量,橫軸可以有不同的選擇; 若模型選擇的正確,殘差圖中的點應(yīng)該分布在以橫軸為中心的帶形區(qū)域; 對于遠(yuǎn)離橫軸的點,要特別注意。,身高與體重殘差圖,殘差的作用,1.通過殘差表或殘差圖發(fā)現(xiàn)原始數(shù)據(jù)中的可疑數(shù)據(jù),通過殘差 來判斷模型擬合的效果這種分析工作稱為殘差分析,通過殘差表或殘差圖判斷模型擬合的效果是直觀判斷,如何精確判斷模型擬合的效果?,引入?yún)?shù)R2,來精確該畫模型擬合效果,對于己獲取的樣本數(shù)據(jù),在上式子中 是定值, 越小,即殘差平方和越小,R2越大,說明模型擬合效果越好。,引入例中參數(shù)R2計算得約為0.64說明女大學(xué)生體重差異有百分之六十四是由身高引起的.,知識點 線性回歸分析 1.對線性回歸模型的三點說明 (1)非確定性關(guān)系:線性回歸模型y=bx+a+e與確定性函數(shù)y=bx+a相比,它表示y與x之間是統(tǒng)計相關(guān)關(guān)系(非確定性關(guān)系),其中的隨機(jī)誤差e提供了選擇模型的準(zhǔn)則以及在模型合理的情況下探求最佳估計值a,b的工具.,(2)線性回歸方程 中 , 的意義是:以 為基數(shù),x每增加1個單位,y相應(yīng)地平均增加 個單位. (3)線性回歸模型中隨機(jī)誤差的主要來源 線性回歸模型與真實情況引起的誤差; 觀測與計算產(chǎn)生的誤差; 省略了一些因素的影響產(chǎn)生的誤差.,2.線性回歸模型的模擬效果 (1)殘差圖法:觀察殘差圖,如果殘差點比較均勻地落在水平的帶狀區(qū)域中,說明選用的模型比較合適,這樣的帶狀區(qū)域的寬度越窄,說明模型擬合精度越高,回歸方程的預(yù)報精度越高.,(2)殘差的平方和法:一般情況下,比較兩個模型的殘差比較困難(某些樣本點上一個模型的殘差的絕對值比另一個模型的小,而另一些樣本點的情況則相反),故通過比較兩個模型的殘差的平方和的大小來判斷模型的擬合效果.殘差平方和越小的模型,擬合的效果越好. (3)R2法:R2的值越大,說明殘差平方和越小,也就是說模型擬合的效果越好.,3.相關(guān)系數(shù)與R2 (1)R2是相關(guān)系數(shù)的平方,其變化范圍為0,1,而相關(guān)系數(shù)的變化范圍為-1,1. (2)相關(guān)系數(shù)可較好地反映變量的相關(guān)性及正相關(guān)或負(fù)相關(guān),而R2反映了回歸模型擬合數(shù)據(jù)的效果. (3)當(dāng)|r|接近于1時說明兩變量的相關(guān)性較強(qiáng),當(dāng)|r|接近于0時說明兩變量的相關(guān)性較弱,而當(dāng)R2接近于1時,說明線性回歸方程的擬合效果較好.,【微思考】 (1)殘差與我們平時說的誤差是一回事兒嗎? 提示:這兩個概念在某程度上具有很大的相似性,都是衡量不確定性的指標(biāo),二者的區(qū)別是:誤差與測量有關(guān),誤差可以衡量測量的準(zhǔn)確性,誤差越大表示測量越不準(zhǔn)確;殘差與預(yù)測有關(guān),殘差大小可以衡量預(yù)測的準(zhǔn)確性,殘差越大表示預(yù)測越不準(zhǔn)確.,(2)R2與原來學(xué)過的相關(guān)系數(shù)r有區(qū)別嗎? 提示:它們都是刻畫兩個變量之間的的相關(guān)關(guān)系的,區(qū)別是R2表示解釋變量對預(yù)報變量變化的貢獻(xiàn)率,其表達(dá)式為R2=1- ; 相關(guān)系數(shù)r是檢驗兩個變量相關(guān)性的強(qiáng)弱程度, 其表達(dá)式為,建立回歸模型的基本步驟 (1)確定研究對象,明確哪個變量是解釋變量,哪個變量是預(yù)報變量 (2)畫出確定好的解釋變量和預(yù)報變量的散點圖,觀察它們之間的關(guān)系(如是否存在線性關(guān)系等) (3)由經(jīng)驗確定回歸方程的類型(如我們觀察到數(shù)據(jù)呈線性關(guān)系,則選用線性回歸方程) (4)按一定規(guī)則(如最小二乘法)估計回歸方程中的參數(shù) (5)得出結(jié)果后分析殘差圖是否有異常(如個別數(shù)據(jù)對應(yīng)殘差過大,或殘差呈現(xiàn)不隨機(jī)的規(guī)律性等)若存在異常,則檢查數(shù)據(jù)是否有誤,或模型是否合適等,為研究重量x(單位:克)對彈簧長度y(單位:厘米)的影響,對不同重量的6個物體進(jìn)行測量,數(shù)據(jù)如下表所示:,(1)作出散點圖并求線性回歸方程; (2)求出R2; (3)進(jìn)行殘差分析,作殘差分析時,一般從以下幾個方面予以說明:(1)散點圖;(2)相關(guān)指數(shù);(3)殘差圖中的異常點和樣本點的帶狀分布區(qū)域的寬窄,解答 (1)散點圖如圖,(3)由殘差表中的數(shù)值可以看出第3個樣本點的殘差比較大,需要確認(rèn)在采集這個數(shù)據(jù)的時候是否有人為的錯誤,如果有的話,需要糾正數(shù)據(jù),重新建立回歸模型;由表中數(shù)據(jù)可以看出殘差點比較均勻地落在不超過0.15的狹窄的水平帶狀區(qū)域中,說明選用的線性回歸模型的精度較高,由以上分析可知,彈簧長度與拉力成線性關(guān)系 規(guī)律方法 當(dāng)資料點較少時,也可以利用殘差表進(jìn)行殘差分析,注意計算數(shù)據(jù)要認(rèn)真細(xì)心,殘差分析要全面,1.判一判(正確的打“”,錯誤的打“”) (1)殘差平方和越小,線性回歸方程擬合效果越好.( ) (2)在畫兩個變量的散點圖時,預(yù)報變量在x軸上,解釋變量在y軸上. ( ) (3)R2越接近于1,線性回歸方程的擬合效果越好.( ),2.做一做(請把正確的答案寫在橫線上) (1)從散點圖上看,點散布在從左下角到右上角的區(qū)域內(nèi),兩個變量的這種相關(guān)關(guān)系為 . (2)在殘差分析中,殘差圖的縱坐標(biāo)為 . (3)如果發(fā)現(xiàn)散點圖中所有的樣本點都在一條直線上,則殘差平方和等于 ,解釋變量和預(yù)報變量之間的相關(guān)系數(shù)R等于 .,正相關(guān),殘差,0,1或-1,3.已知某種商品的價格x(元)與需求量y(件)之間的關(guān)系有如下一組數(shù)據(jù):,求y對x的回歸直線方程,并說明回歸模型擬合效果的好壞,