統(tǒng)計數(shù)據(jù)的收集與預處理ppt課件
《統(tǒng)計數(shù)據(jù)的收集與預處理ppt課件》由會員分享,可在線閱讀,更多相關(guān)《統(tǒng)計數(shù)據(jù)的收集與預處理ppt課件(47頁珍藏版)》請在裝配圖網(wǎng)上搜索。
第二章,統(tǒng)計數(shù)據(jù)的收集與預處理,主要內(nèi)容,2.1 統(tǒng)計數(shù)據(jù)的收集 2.2 SPSS數(shù)據(jù)文件的建立 2.3 SPSS數(shù)據(jù)文件的編輯 2.4 SPSS數(shù)據(jù)加工,,2.1統(tǒng)計數(shù)據(jù)的收集,2.1.1 問卷設計 1.問卷的構(gòu)成 (1)標題 (2)導語(前言) (3)正文 (4)結(jié)束語,2.1統(tǒng)計數(shù)據(jù)的收集,2.1.1 問卷設計 2.問卷的問題類型 (1)封閉型問題(是否式、選擇式、評判式) (2)開放型問題,2.1統(tǒng)計數(shù)據(jù)的收集,2.1.1 問卷設計 3.問卷中量表的主要類型 (1)連續(xù)評分量表 (2)分項評分量表(Likert量表) (3)排序量表,2.1統(tǒng)計數(shù)據(jù)的收集,2.1.1 問卷設計 4.問卷設計的注意事項 (1)目的明確 (2)先易后難,先簡后繁 (3)提出的問題要具體,避免提一般性問題 (4)單選問題的備選答案應完整劃分答案空間 (5)多選題的備選答案必須分布在兩個以上的維度上,并且至少有一部分不是互相排斥的 (6)問題的陳述及備選答案不能有多重含義 (7)問題設計的用語要含義明確,不能讓應答者產(chǎn)生不同的理解 (8)在問題的陳述中,要對所詢問行為的時間、方式、目的做必要的限定,2.1統(tǒng)計數(shù)據(jù)的收集,2.1.1 問卷設計 4.問卷設計的注意事項 (9)對于得不到誠實回答而又必須了解的數(shù)據(jù),可以通過變換問題的提法來獲得相應的數(shù)據(jù),或者通過了解相對數(shù)據(jù)來判斷總體的情況 (10)問卷不能太長,以20~30分鐘為宜;商場攔截類的問卷,以3~5分鐘為宜,2.1.2 問卷分析 信度分析 效度分析,2.1統(tǒng)計數(shù)據(jù)的收集,主要內(nèi)容,2.1 統(tǒng)計數(shù)據(jù)的收集 2.2 SPSS數(shù)據(jù)文件的建立 2.3 SPSS數(shù)據(jù)文件的編輯 2.4 SPSS數(shù)據(jù)加工,,2.2 SPSS數(shù)據(jù)文件的建立,2.2.1 統(tǒng)計數(shù)據(jù)的度量尺度 名義尺度(Norminal) 即定類尺度,它僅僅是一種標志,用于區(qū)分變量的不同值,類別數(shù)據(jù)之間沒有次序關(guān)系。例如,人口的性別、商品的名稱、身份證、商店類型等。 定序尺度(Ordinal) 是對事物之間等級或順序差別的一種測度。例如,考試成績(優(yōu)、良、中、差)、人的身高等級(高、中、矮)、學歷等級(博士、碩士、學士)等。 間隔尺度(Scale),,定距尺度(Interval),是對事物類別或次序之間間距的測度。例如,100分制考試的成績、重量、溫度等。,定比尺度(Ratio),是指能夠測度值之間比值的一種計量尺度。例如,員工的月收入、企業(yè)產(chǎn)值等。,2.2 SPSS數(shù)據(jù)文件的建立,統(tǒng)計數(shù)據(jù)的度量尺度,說明: 不同的度量尺度的統(tǒng)計數(shù)據(jù)在SPSS的數(shù)據(jù)文件中,對應不同的變量數(shù)據(jù)類型。 名義尺度----數(shù)值型、字符型 定序尺度----數(shù)值型、字符型 間隔尺度----數(shù)值型,2.2 SPSS數(shù)據(jù)文件的建立,2.2.2、SPSS數(shù)據(jù)文件的特點,樣本,,,,變量,變量值,個案,2.2 SPSS數(shù)據(jù)文件的建立,2.2.3 輸入數(shù)據(jù)建立數(shù)據(jù)文件 SPSS數(shù)據(jù)文件的建立包括兩個方面,首先進行數(shù)據(jù)的結(jié)構(gòu)定義,其次錄入數(shù)據(jù)。 (1)數(shù)據(jù)的結(jié)構(gòu)定義 結(jié)構(gòu)定義包括:名稱、類型、寬度、小數(shù)、標簽、值、缺失值、列、對齊、度量標準、角色,2.2 SPSS數(shù)據(jù)文件的建立,(1)數(shù)據(jù)的結(jié)構(gòu)定義 名稱 命名規(guī)則: 高版本的SPSS的變量名長度可多達64位,但是由于老版本的SPSS變量名長度應在8位之內(nèi),為了避免與低版本及其他軟件出現(xiàn)兼容問題,高版本變量名一般仍控制在8位之內(nèi)且盡量避免中文,必要的中文說明可以放在Label欄中加以說明。 首字符應以英文字母開頭,后面可以跟除了!、?、*之外的字母或數(shù)字。下劃線、圓點不能為變量名的最后一個字符。 變量名必須唯一且不區(qū)分大小寫字母。允許漢字作為變量名,漢字總數(shù)一般不超過4個。 變量名不能與SPSS的保留字相同。SPSS的保留字包括:all、by、eq、ge、gt、leIt、ne、not、or、to、with。系統(tǒng)不區(qū)分變量名的大小寫。,2.2 SPSS數(shù)據(jù)文件的建立,(1)數(shù)據(jù)的結(jié)構(gòu)定義 變量類型,2.2 SPSS數(shù)據(jù)文件的建立,(1)數(shù)據(jù)的結(jié)構(gòu)定義 變量類型 具體說明如下表所示:,2.2 SPSS數(shù)據(jù)文件的建立,(1)數(shù)據(jù)的結(jié)構(gòu)定義 變量寬度 設置變量寬度。一般無需調(diào)整,直接采取默認值。它的大小可通過Width欄后邊的微調(diào)按鈕調(diào)整 小數(shù)位數(shù) 若變量類型為數(shù)值型,則可設置變量的小數(shù)位數(shù),其他類型的變量則不能設置。小數(shù)位數(shù)默認為兩位 變量名標簽 考慮到與低版本的兼容問題,變量名最好限制為8位以內(nèi),并且盡量避免中文,這就有可能不能完全描述清楚變量的信息,此時就可在標簽中對變量名做進一步的說明。 利用Label欄,不僅可以對變量詳細說明,而且還可以采用中文,大大方便了用戶對變量的理解。,2.2 SPSS數(shù)據(jù)文件的建立,(1)數(shù)據(jù)的結(jié)構(gòu)定義 變量值標簽(Values) 變量值標簽是對變量的可能取值附加的進一步說明,標簽內(nèi)容最多可以有120個字符,通常僅對類型或分類變量的取值指定值標簽 例如,將變量Departmt定義為數(shù)值型變量時,可以按照下表中規(guī)定的值和值標簽,具體定義方法見下圖。,2.2 SPSS數(shù)據(jù)文件的建立,(1)數(shù)據(jù)的結(jié)構(gòu)定義 缺失值 SPSS統(tǒng)計軟件的另一特點就是可以通過制定缺失值的方式來定義缺失數(shù)據(jù),這樣就可以更好地利用其他的有效數(shù)據(jù)。 列寬 定義變量在數(shù)據(jù)窗口中顯示的寬度。 對齊 定義變量值顯示的對齊方式,默認對齊方式為數(shù)值變量在右邊,字符串變量在左邊,此設置只影響數(shù)據(jù)編輯器中的顯示。 度量標準 根據(jù)統(tǒng)計數(shù)據(jù)的類型定義度量尺度,度量尺度在數(shù)據(jù)分析中的作用不是很明顯,但是如果用戶要進行交互式繪圖就必須定義好度量尺度。,2.2 SPSS數(shù)據(jù)文件的建立,(1)數(shù)據(jù)的結(jié)構(gòu)定義 缺失值 SPSS統(tǒng)計軟件的另一特點就是可以通過制定缺失值的方式來定義缺失數(shù)據(jù),這樣就可以更好地利用其他的有效數(shù)據(jù)。 角色 輸入:變量將用作輸入(例如預測變量、自變量)。 目標:變量將用作輸出或目標(例如因變量)。 兩者:變量將同時用作輸入和輸出。 無:變量沒有角色分配。 分區(qū):變量用于將數(shù)據(jù)劃分為單獨的訓練、檢驗和驗證樣本。 拆分:設定此角色是為與SPSS Modeler 相互兼容,具有此角色的變量不會在SPSS Statistics 中用作拆分文件變量。,2.2 SPSS數(shù)據(jù)文件的建立,(2)數(shù)據(jù)的錄入 錄入數(shù)據(jù)的一般方法 逐行錄入 從Word或Excel中直接復制粘貼到數(shù)據(jù)文件中 連續(xù)粘貼相同值 錄入帶有變量值標簽的數(shù)據(jù) 輸入定義了變量值標簽的數(shù)據(jù)時,可以直接輸入變量值,也可以通過下拉列框的形式輸入,如圖,從中選擇值標簽即可。,2.2 SPSS數(shù)據(jù)文件的建立,2.2.4 從其他數(shù)據(jù)文件導入數(shù)據(jù)建立數(shù)據(jù)文件 (1)直接打開 選擇菜單“文件→打開→數(shù)據(jù)”,彈出“打開文件”對話框左鍵單擊“文件類型”,即可看到SPSS所能打開的數(shù)據(jù)文件類型,如下表所示,2.2 SPSS數(shù)據(jù)文件的建立,2.2.4 從其他數(shù)據(jù)文件導入數(shù)據(jù)建立數(shù)據(jù)文件 (1)直接打開,說明: 其中用的最多的是直接打開Excel的數(shù)據(jù)文件。 在打開Excel格式的文件時,SPSS默認將Excel工作表中的全部數(shù)據(jù)讀到SPSS數(shù)據(jù)編輯窗口中,但也可指定僅讀取工作表某個區(qū)域內(nèi)的數(shù)據(jù)。 如果Excel工作表文件第一行或指定讀取區(qū)域內(nèi)的第一行上存儲了變量名信息,則應選擇打開對話框上的復選框“從第一行數(shù)據(jù)中讀取變量名”,即以工作表第一行或指定讀取區(qū)域內(nèi)的第一行上的文字信息作為SPSS的變量名;如果不選此項,SPSS的變量名將自動取名為V1、V2等。,2.2 SPSS數(shù)據(jù)文件的建立,2.2.4 從其他數(shù)據(jù)文件導入數(shù)據(jù)建立數(shù)據(jù)文件 (2)數(shù)據(jù)庫查詢方式 如果數(shù)據(jù)為數(shù)據(jù)庫格式的文件,可以同用數(shù)據(jù)庫查詢的方式導入數(shù)據(jù)到SPSS中。其操作步驟如下: 第1步 選擇菜單“文件→打開數(shù)據(jù)庫→新建查詢”,彈出數(shù)據(jù)庫向?qū)Т翱凇_@里顯示了所有可以打開的數(shù)據(jù)源類型。 第2步 用戶根據(jù)打開文件的向?qū)нx擇要打開的文件類型并逐步打開文件。,2.2 SPSS數(shù)據(jù)文件的建立,2.2.4 從其他數(shù)據(jù)文件導入數(shù)據(jù)建立數(shù)據(jù)文件 (3)從文本文件導入 文本格式的數(shù)據(jù)文件是一種最通用格式的數(shù)據(jù)文件,SPSS提供了專門讀取文本文件的功能。 選擇菜單“文件→打開文本數(shù)據(jù)…”,彈出“打開文件”對話框,選擇要導入的文本文件名后會出現(xiàn)文本數(shù)據(jù)的向?qū)?,該向?qū)且粋€分為6步的打開向?qū)В鶕?jù)文本文件的格式和導入數(shù)據(jù)的需求進行每一步的設置即可。,主要內(nèi)容,2.1 統(tǒng)計數(shù)據(jù)的收集 2.2 SPSS數(shù)據(jù)文件的建立 2.3 SPSS數(shù)據(jù)文件的編輯 2.4 SPSS數(shù)據(jù)加工,,2.3 SPSS數(shù)據(jù)文件的編輯,2.3.1 數(shù)據(jù)文件的合并 SPSS提供兩種形式的合并:一是橫向合并,從外部文件中增加變量到當前數(shù)據(jù)文件中;二是縱向合并,指從外部數(shù)據(jù)文件中增加觀測量到當前數(shù)據(jù)文件中。,橫向合并,+,,縱向合并,+,,2.3 SPSS數(shù)據(jù)文件的編輯,2.3.1 數(shù)據(jù)文件的合并 (1)橫向合并,單擊“瀏覽”按鈕選擇要合并的SPSS數(shù)據(jù)文件的文件名,從左邊文本框中選擇需合并的變量到此框中,2.3 SPSS數(shù)據(jù)文件的編輯,2.3.1 數(shù)據(jù)文件的合并 (1)橫向合并 縱向合并數(shù)據(jù)文件的操作方法同橫向合并的方法類似,操作不再贅述,但需注意以下幾點: 兩個待合并的SPSS數(shù)據(jù)文件的內(nèi)容合并起來應具有實際意義; 兩個數(shù)據(jù)文件的結(jié)構(gòu)最好一致; 不同數(shù)據(jù)文件中含義相同的變量最好用相同的變量名,數(shù)據(jù)類型要相同,2.3 SPSS數(shù)據(jù)文件的編輯,2.3.2 數(shù)據(jù)文件的拆分 SPSS 23版本在“數(shù)據(jù)”菜單中提供了兩種方法:一是“拆分文件…”,這種拆分并不是要把一個數(shù)據(jù)文件分成幾個數(shù)據(jù)文件,而是按照需求,根據(jù)變量對數(shù)據(jù)進行分組,為以后的分組統(tǒng)計分析提供便利;二是“拆分為文件”,這種拆分是將拆分后的數(shù)據(jù)寫入新的 SAV 文件,按拆分變量的值或值標簽生成多個SAV文件。,2.3 SPSS數(shù)據(jù)文件的編輯,2.3.2 數(shù)據(jù)文件的拆分 1.拆分文件 在進行數(shù)據(jù)分析的時候,有時需要對數(shù)據(jù)文件按某個變量進行拆分,這種拆分并不是要把數(shù)據(jù)文件分成幾個,而是根據(jù)實際情況,根據(jù)變量對數(shù)據(jù)進行分組,為以后的分組統(tǒng)計分析提供便利。 第一步 數(shù)據(jù)組織 第二步 打開主對話框 第三步 選擇拆分方式 第四步 按產(chǎn)品分組統(tǒng)計銷售總量和銷售總額,2.3 SPSS數(shù)據(jù)文件的編輯,2.3.2 數(shù)據(jù)文件的拆分 2.拆分為文件 拆分為文件是將數(shù)據(jù)文件按拆分變量的值或值標簽,拆分為多個數(shù)據(jù)文件。 第一步 數(shù)據(jù)組織 第二步 打開“將數(shù)據(jù)集拆分為單獨的文件”對話框 第三步 拆分文件生成設置,2.3 SPSS數(shù)據(jù)文件的編輯,2.3.3數(shù)據(jù)的選取 數(shù)據(jù)的選取即按條件選取觀測量進行分析 選擇觀測量的目的 有時為了進行特定的分析,需要從所有的數(shù)據(jù)資料中選擇一些數(shù)據(jù)進行統(tǒng)計分析。例如:有學生的成績數(shù)據(jù),如果只分析男同學的成績,則要進行選擇觀測量為男性的數(shù)據(jù)。,2.3 SPSS數(shù)據(jù)文件的編輯,2.3.3數(shù)據(jù)的選取 第一步 數(shù)據(jù)組織 第二步 打開“選擇觀測量”對話框 第三步 指定選擇個案的方式 第四步 設置選中個案的輸出形式 第五步 設置選擇個案的條件,2.3 SPSS數(shù)據(jù)文件的編輯,2.3.3數(shù)據(jù)的加權(quán) 所謂權(quán)重是指同一個觀測量值在所有的觀測量里出現(xiàn)的次數(shù)或頻率。SPSS的觀測量加權(quán)功能是在數(shù)據(jù)文件中選擇一個變量,這個變量里的值是相應的觀測量出現(xiàn)的次數(shù),這個變量叫做權(quán)變量。 SPSS中指定加權(quán)變量的本質(zhì)是數(shù)據(jù)復制,例如表2-5是工人每天生產(chǎn)產(chǎn)品的數(shù)量,第一行數(shù)據(jù)表示當天生產(chǎn)產(chǎn)品 數(shù)量為20的工人有3個,將“工人數(shù)”作為加權(quán)變量后,實際是將數(shù)據(jù)轉(zhuǎn)換成表2-6所示的數(shù)據(jù)進行分析。,表2-5,,表2-6,2.3 SPSS數(shù)據(jù)文件的編輯,2.3.3數(shù)據(jù)的加權(quán),說明: 一旦指定了加權(quán)變量,在以后的分析處理中加權(quán)是一直有效的,直到取消加權(quán)為止; 只有數(shù)值型的變量才能作為加權(quán)變量。,主要內(nèi)容,2.1 統(tǒng)計數(shù)據(jù)的收集 2.2 SPSS數(shù)據(jù)文件的建立 2.3 SPSS數(shù)據(jù)文件的編輯 2.4 SPSS數(shù)據(jù)加工,,2.4.1變量的計算,2.4 SPSS數(shù)據(jù)加工,輸入新生成的變量的變量名,輸入計算的式子,SPSS中提供的用于計算的函數(shù),利用這些函數(shù)可以生成指定分布的隨機數(shù)、生成給定參數(shù)的概率密度函數(shù)等。,2.4 SPSS數(shù)據(jù)加工,2.4.2 數(shù)據(jù)可視分箱 SPSS提供的數(shù)據(jù)可視分箱功能可將連續(xù)的數(shù)值型數(shù)據(jù)按由小至大的順序加以分組(測量值由最低分至最高分分組),從而可將等距或比率變量轉(zhuǎn)換為間斷變量,2.4 SPSS數(shù)據(jù)加工,2.4.2 數(shù)據(jù)可視分箱 見書Page 38例2-5,選擇“轉(zhuǎn)換→可視分箱”,彈出右圖所示的變量選擇對話框,將需要劃分組段的變量“評價結(jié)果”選擇到此框中。,2.4 SPSS數(shù)據(jù)加工,2.4.2 數(shù)據(jù)可視分箱 見書Page 38例2-5,,單擊此按鈕設置組段分割點,輸入存儲組段值的新變量的名稱,2.4 SPSS數(shù)據(jù)加工,2.4.2 數(shù)據(jù)可視分箱,圖中提供了三種自動劃分組段的方法,,(2)按相等比例的觀測值數(shù)目進行分組 : 在“分隔點數(shù)量”欄內(nèi)輸入斷點的數(shù)目,系統(tǒng)自動將每組觀測值數(shù)目的比例輸出到“寬度”內(nèi),,(1)按照變量值等間距劃分 : 在“第一個分割點的位置”輸入第一個斷點處的取值 在“寬度”欄內(nèi)輸入一個組段內(nèi)變量值的長度,“分割點數(shù)量”欄內(nèi)自動出現(xiàn)斷點的數(shù)目,,(3)基于變量的均值和標準差來產(chǎn)生組段劃分,2.4 SPSS數(shù)據(jù)加工,2.4.2 數(shù)據(jù)可視分箱 劃分組段后的結(jié)果,2.4 SPSS數(shù)據(jù)加工,2.4.3 數(shù)據(jù)重新編碼 數(shù)據(jù)的重新編碼是將變量重新賦值,即將數(shù)據(jù)文件中的原變量的值按照某種一一對應的關(guān)系生成新變量值,可以用這個新變量值替代原變量值,也可以生成一個新變量,分別對應菜單: ①轉(zhuǎn)換→重新編碼為相同變量 ②轉(zhuǎn)換→重新編碼為不同變量 通常在作統(tǒng)計分析前需要對收集到的數(shù)據(jù)作一些變換處理,SPSS提供的變量重新賦值的功能即可做這樣的處理。,2.4 SPSS數(shù)據(jù)加工,2.4.3 數(shù)據(jù)重新編碼,,,單擊該按鈕進行轉(zhuǎn)換規(guī)則的設置,設置新變量的變量名和標簽,重新編碼為不同數(shù)據(jù),根據(jù)原變量的值生成新變量的值,2.4 SPSS數(shù)據(jù)加工,2.4.3 數(shù)據(jù)重新編碼,單擊“添加”按鈕將設置好的新、舊變量值轉(zhuǎn)換規(guī)則添加到右面的文本框中。 有幾條規(guī)則就應設置幾次,并添加到文本框中。,根據(jù)轉(zhuǎn)換要求設置原來變量的值或值的范圍,再設置新的變量對應的值,,,,The End,- 1.請仔細閱讀文檔,確保文檔完整性,對于不預覽、不比對內(nèi)容而直接下載帶來的問題本站不予受理。
- 2.下載的文檔,不會出現(xiàn)我們的網(wǎng)址水印。
- 3、該文檔所得收入(下載+內(nèi)容+預覽)歸上傳者、原創(chuàng)作者;如果您是本文檔原作者,請點此認領(lǐng)!既往收益都歸您。
下載文檔到電腦,查找使用更方便
20 積分
下載 |
- 配套講稿:
如PPT文件的首頁顯示word圖標,表示該PPT已包含配套word講稿。雙擊word圖標可打開word文檔。
- 特殊限制:
部分文檔作品中含有的國旗、國徽等圖片,僅作為作品整體效果示例展示,禁止商用。設計者僅對作品中獨創(chuàng)性部分享有著作權(quán)。
- 關(guān) 鍵 詞:
- 統(tǒng)計數(shù)據(jù) 收集 預處理 ppt 課件
鏈接地址:http://italysoccerbets.com/p-1299807.html