2008年9月11日 星期四

統計方法與資料分析

常態分佈 (Normal Distribution) 的概念
常態分佈 (normal distribution)的定義

分佈 (distribution):變項中所有數值出現次數的分佈情形,以橫軸為變項數值,縱軸為出現頻率的座標圖呈現。
常態分佈:又稱高斯分佈 (Gaussian distribution) 標準常態分佈:以平均值 (mean) 為中心,標準差 (standard deviation) 為座標軸之基本單位所繪之常態分佈圖。 形狀為覆鐘形的對稱圖形。
m ± 1s含有整個樣本群之 68.26% 的個體。
m ± 2s含有整個樣本群之 95.44% 的個體。
m ± 3s含有整個樣本群之 99.74% 的個體。
95% 個體落在 m ± 1.96s 之間。 99% 的個體落在 m ± 2.58s 之間。
常態分佈的特性

直方圖 (histogram) 呈現單一主峰 (single peak) 的左右對稱圖形,即平均值 (mean, m) 在正中央。
越接近平均值的數值出現的頻率越高,越遠離平均值的數值出現的頻率越低。
平均值、中位數 (median)、眾數 (mode) 之數值均相同。
偏左分佈 (skew to left):尾部拖向左側的分佈,含有極小值 (minimum),主峰偏向右邊,眾數 > 中位數 > 平均值
偏右分佈 (skew to right):尾部拖向右側的分佈,含極大值 (maximum),主峰偏向左邊,眾數 < 中位數 < 平均值
 

檢測常態分佈的方法

中央趨勢 (central tendency): 因為常態分佈是一個非常對稱的分佈,所以理想的常態分佈資料的平均值 (mean)、中位數 (median)、眾數 (mode) 等在正中央,且其數值均相同。
變異量 (variability): 即差距 (range)、變異數 (variance)、標準差 (standard deviation)、 變異係數 (coefficient of variance) 越小越好。
四分位數間距 (interquartile range, IQR): IQR = Q3-Q1。通常用標準差與 IQR/1.35 做比較,
如果 SD > IQR/1.35,則為重尾 (heavier-than-normal tail)
如果 SD < IQR/1.35,則為輕尾 (lighter-than-normal tail)
如果 SD = IQR/1.35,則為常態分佈。
曲線的形狀:是否對稱?是否為覆鐘形 (bell-shaped)?
偏態 (skewness):表示資料分佈是否對稱。如果是常態分佈,會比較對稱,則偏態 = 0。
峰度 (kurtosis):表示其峰值的大小。如果是常態分佈,會比較高狹,則峰度 = 0。
常態分佈測試 (tests for normality):
一般而言,如果樣本數少於等於 50,則看 Shapiro-Wilk 的 W 值,來檢測是否為常態分佈; 如果樣本數大於 50,則看 Kolomogorov 的 D 值。
無論 W 值或 D 值,其檢測之虛無假設 (H0):本變項之樣本群為常態分佈。 因此如果 p < 0.05,則推翻虛無假設,表示為非常態分佈;如果是 p > 0.05,則接受虛無假設,表示為常態分佈。
盒狀圖 (box plot)
盒子的上緣為 Q3,下緣為 Q1,中間為 mean,檢測盒子的對稱性。如果十分對稱,則可能是常態分佈。
盒子外上下各有一線,上限為 Q3 + 1.5 (Q3-Q1),下限為 Q1 - 1.5 (Q3-Q1),檢測兩線之長度,表示偏度的大小。 如果下線比上線長,則表示偏左分佈;如果上線比下線長,則表示偏右分佈。
大於 1.5(Q3-Q1) 的極端值以 O 表示,大於 3(Q3-Q1) 則以 * 表示。
常態機率圖 (normal probability plot)

沒有留言: