TRƯỜNG ĐẠI HỌC SƯ PHẠM HÀ NỘI 2
KHOA TOÁN
NGUYỄN THỊ MINH NGUYỆT
MỘT SỐ KIỂM ĐỊNH PHI THAM SỐ VÀ
ỨNG DỤNG VỚI SPSS
KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC
Chuyên ngành: Toán ứng dụng
Hà Nội - 2017
TRƯỜNG ĐẠI HỌC SƯ PHẠM HÀ NỘI 2
KHOA TOÁN
NGUYỄN THỊ MINH NGUYỆT
MỘT SỐ KIỂM ĐỊNH PHI THAM SỐ
VÀ ỨNG DỤNG VỚI SPSS
KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC
Chuyên ngành: Toán ứng dụng
Người hướng dẫn
PGS. TS. TRẦN TRỌNG NGUYÊN
Hà Nội - 2017
LỜI CẢM ƠN
Trong quá trình nghiên cứu và hoàn thành khóa luận này, em đã nhận được
sự động viên, quan tâm, khích lệ của các thầy giáo, cô giáo trong tổ Toán ứng dụng
nói riêng và các thầy cô trong khoa Toán trường Đại học sư phạm Hà Nội 2 nói
chung, em xin bày tỏ lòng biết ơn sâu sắc đối với các thầy cô. Và đặc biệt, em xin
chân thành cảm ơn PGS.TS.Trần Trọng Nguyên – người đã tận tình hướng dẫn em
trong suốt thời gian qua để em hoàn thành khóa luận này.
Em xin kính chúc các thầy cô sức khỏe dồi dào, thành công trong công việc
và cuộc sống.
Xin chân thành cảm ơn!
Hà Nội, ngày
tháng
năm
Sinh viên thực hiện
Nguyễn Thị Minh Nguyệt
LỜI CAM ĐOAN
Em xin cam đoan đề tài này là do em thực hiện, đó là kết quả quá trình
nghiên cứu của em dưới sự hướng dẫn của PGS.TS.Trần Trọng Nguyên. Đề tài này
đã được kế thừa các kết quả của một số tài liệu khác.
Em xin chịu hoàn toàn trách nhiệm về lời cam đoan này!
Hà Nội, ngày
tháng
năm
Sinh viên thực hiện
Nguyễn Thị Minh Nguyệt
MỤC LỤC
LỜI MỞ ĐẦU ............................................................................................................. 1
1. Lí do chọn đề tài ...................................................................................................... 1
2. Mục đích nghiên cứu và nhiệm vụ nghiên cứu ..................................................... 1
3. Đối tượng và phạm vi nghiên cứu .......................................................................... 2
4. Phương pháp và công cụ nghiên cứu ..................................................................... 2
5. Cấu trúc khóa luận .................................................................................................. 2
Chương 1: KIẾN THỨC CHUẨN BỊ ......................................................................... 3
Biến ngẫu nhiên ................................................................................................... 3
Định nghĩa ..................................................................................................... 3
Các đặc trưng của biến ngẫu nhiên .............................................................. 4
Hàm phân phối ..................................................................................................... 5
Một số phân phối thường gặp ............................................................................. 6
Phân phối chuẩn ............................................................................................ 6
Phân phối Poison .......................................................................................... 6
Phân phối Khi bình phương (Chi-square) ................................................... 6
Phân phối Student ......................................................................................... 7
Mẫu ngẫu nhiên ................................................................................................... 7
Tổng thể nghiên cứu ..................................................................................... 7
Mẫu ngẫu nhiên............................................................................................. 7
Đặc trưng mẫu ............................................................................................... 8
Kiểm định giả thuyết ........................................................................................... 9
Khái niệm ...................................................................................................... 9
Bài toán kiểm định giả thuyết .................................................................... 10
Tiêu chuẩn kiểm định giả thuyết ................................................................ 10
Miền bác bỏ giả thuyết ............................................................................... 11
Các sai lầm mắc phải khi kiểm định .......................................................... 11
Kiểm định phi tham số ...................................................................................... 11
Chương 2: MỘT SỐ KIỂM ĐỊNH PHI THAM SỐ ................................................. 12
Kiểm định Khi bình phương .............................................................................. 12
Kiểm định sự phù hợp của quy luật thực nghiệm ...................................... 12
Kiểm định tính độc lập của hai dấu hiệu ................................................... 17
Kiểm định dấu (sign test) ........................................................................... 20
Kiểm định dạng phân phối xác suất ................................................................. 23
Tiêu chuẩn Kolmogorov ............................................................................. 23
Tiêu chuẩn Jacque- Bera ............................................................................ 25
Tiêu chuẩn Kolmogorov- Simirnov ........................................................... 26
Kiểm định tương quan hạng.............................................................................. 29
Kiểm định Wilcoxon .................................................................................. 29
Kiểm định tương quan hạng Spearman ..................................................... 34
Kiểm định Mann-Whitney ......................................................................... 37
Kiểm định Kruskal-Wallis ......................................................................... 39
Chương 3: SPSS VỚI KIỂM ĐỊNH PHI THAM SỐ ............................................... 42
Chi Square (Khi bình phương) ......................................................................... 42
Thủ tục Binomial ............................................................................................... 44
Thủ tục Runs Test .............................................................................................. 45
Thủ tục K-S Test................................................................................................ 48
KẾT LUẬN ............................................................................................................... 50
TÀI LIỆU THAM KHẢO......................................................................................... 51
LỜI MỞ ĐẦU
1. Lí do chọn đề tài
Ngày nay, thống kê đã và đang đóng góp rất nhiều trong các lĩnh vực văn
hóa, kinh tế, đời sống xã hội và nghiên cứu khoa học. Từ những số liệu thu được
trên thực tế qua các phiếu điều tra hoặc của các cơ quan, tổ chức thống kê đã đưa ra
những kết luận khách quan, trung thực, chính xác và đầy đủ về đối tượng nghiên
cứu. Từ đó giúp cho các cơ quan, tổ chức, cá nhân có chiến lược đánh giá hoạch
định kế hoạch và quản lí một cách hiệu quả.
Kiểm định giả thuyết là một bài toán quan trọng trong đời sống cũng như
trong thống kê, kiểm toán. Ta thường gặp một cặp giả thuyết đối nghịch nhau, bằng
khả năng của mình, ta phải xác định xem giả thuyết nào đúng. Trong chương trình
đại học, ở các trường sư phạm đối với chuyên ngành toán ứng dụng, do khuôn khổ
chương trình, chúng ta chỉ được tìm hiểu về một số bài toán kiểm định giả thuyết về
các tham số đặc trưng của biến ngẫu nhiên với giả thuyết, biến ngẫu nhiên gốc tuân
theo một quy luật phân phối nào đó, đây được gọi là bài toán kiểm định tham số.
Các bài toán kiểm định về dạng phân phối, hoặc về tính độc lập của các biến ngẫu
nhiên mà được gọi chung là bài toán kiểm định phi tham số thì chúng ta chưa được
tìm hiểu. Với lòng yêu thích và mong muốn tìm hiểu sâu về nội dung này trong
phạm vi của một khóa luận tốt nghiệp, dưới sự hướng dẫn của PGS.TS. Trần Trọng
Nguyên, em xin trình bày những hiểu biết của mình về đề tài “Một số kiểm định phi
tham số và ứng dụng với SPSS”.
2. Mục đích nghiên cứu và nhiệm vụ nghiên cứu
- Nghiên cứu một số bài toán kiểm định phi tham số. Cũng giống như bài toán
kiểm định tham số, mục đích của bài toán kiểm định phi tham số là đi kiểm định tính
đúng sai của giả thuyết dựa vào những mẫu số liệu quan sát. Tùy thuộc vào từng bài
toán cụ thể mà người ta sử dụng những tiêu chuẩn kiểm định khác nhau.
- Ứng dụng phần mềm thống kê SPSS để giải các bài toán kiểm định phi
tham số.
1
3. Đối tượng và phạm vi nghiên cứu
- Đối tượng nghiên cứu: Các kiến thức về kiểm định phi tham số và phần
mềm thống kê SPSS.
- Phạm vi nghiên cứu: Kiểm định phi tham số trong thống kê.
4. Phương pháp và công cụ nghiên cứu
- Nghiên cứu tổng hợp tài liệu, phân tích và so sánh.
- Nghiên cứu thực nghiệm với dữ liệu thực tế.
- Sử dụng phần mềm SPSS với một số bộ dữ liệu kinh tế có sẵn.
5. Cấu trúc khóa luận
Nội dung đề tài bao gồm các chương sau:
- Chương 1: Kiến thức chuẩn bị.
Giới thiệu cơ sở lý thuyết.
- Chương 2: Một số kiểm định phi tham số.
Trình bày về 3 loại kiểm định sau: Kiểm định Khi bình phương, một số kiểm
định dạng phân phối thông dụng, các kiểm định tương quan hạng.
- Chương 3: Ứng dụng kiểm định phi tham số với SPSS.
Từ những bộ số liệu có sẵn, tiến hành thực hiện các bước kiểm định trên
SPSS và nêu ra những nhận xét đánh giá.
2
Chương 1: KIẾN THỨC CHUẨN BỊ
Chương này chủ yếu trình bày về các khái niệm, tính chất và các kiến thức
liên quan để phục vụ cho nội dung chính ở chương 2.
Biến ngẫu nhiên
Định nghĩa
- Định nghĩa 1.1: Biến ngẫu nhiên (còn được gọi là đại lượng ngẫu nhiên) là
một ánh xạ đo được X đi từ không gian mẫu vào tập số thực
:
X:
X , X
- Phân loại: Căn cứ vào tập các giá trị người ta phân làm 2 loại: Biến ngẫu
nhiên rời rạc và biến ngẫu nhiên liên tục.
➢ Biến ngẫu nhiên rời rạc:
- Nếu tập các giá trị mà biến ngẫu nhiên nhận là một tập gồm một số hữu
hạn điểm hoặc vô hạn nhưng đếm được, khi đó biến ngẫu nhiên gọi là biến ngẫu
nhiên rời rạc.
Giả sử biến ngẫu nhiên X nhận các giá trị x1, x2, x3,…. xn,… và
PX xi pi , i 1, 2, Để mô tả (hoặc xác định) biến ngẫu nhiên rời
rạc X ta dùng bảng sau:
X
x1
x2
….
xn
….
PX xi
p1
p2
….
pn
….
- Trong đó
p
i
1 i 1, 2,...
i
➢ Biến ngẫu nhiên liên tục:
- Nếu tập các giá trị biến ngẫu nhiên nhận lấp đầy một khoảng nào đó, khi
đó biến ngẫu nhiên được gọi là biến ngẫu nhiên liên tục.
- Để mô tả (hoặc xác định) biến ngẫu nhiên liên tục ta dùng khái niệm hàm
mật độ.
3
- Hàm p(x) được gọi là hàm mật độ của biến ngẫu nhiên nào đấy nếu thỏa
mãn 2 điều kiện sau:
▪ p(x) 0x ,
▪
p x 1
- Trong trường hợp này xác suất để X thuộc vào khoảng (x0, x1) được tính như sau:
x1
P x0 X x1 p x dx
x0
Các đặc trưng của biến ngẫu nhiên
Kì vọng
- Kì vọng hay giá trị trung bình của biến ngẫu nhiên X là một số thực, kí
hiệu là E(X) được xác định bởi:
+ Nếu X là một biến ngẫu nhiên rời rạc có phân phối xác suất X X xi pi
thì E( X ) xi pi
i1
+ Nếu X là một biến ngẫu nhiên liên tục với hàm mật độ f(x) thì
E( X ) xf (x)dx
- Bản chất: Kì vọng là trung bình theo nghĩa xác suất của biến ngẫu nhiên.
- Ý nghĩa: Kì vọng phản ánh giá trị trung tâm của phân phối xác suất của
biến ngẫu nhiên.
Phương sai
- Phương sai của biến ngẫu nhiên X là một số thực không âm, kí hiệu là DX
hoặc VarX và được xác định bởi công thức:
VarX E X E X
2
- Bản chất: Phương sai là trung bình số học của bình phương các sai lệch giữa
các giá trị quan sát của biến ngẫu nhiên so với giá trị trung bình của các giá trị đó.
4
- Ý nghĩa: Phản ánh mức độ phân tán của các giá trị của biến ngẫu nhiên so
với giá trị trung tâm là kì vọng. Phương sai càng nhỏ thì các giá trị càng tập trung ở
gần giá trị trung tâm.
Phân vị, trung vị, giá trị tới hạn
- Phân vị mức
của biến ngẫu nhiên X, ký hiệu v , là giá trị phân chia
miền giá trị RX của X thỏa mãn: P X v PX v
Nghĩa là FX v F X v
- Phân vị mức
1
2
được gọi là median hay trung vị của X, ký hiệu Md ( X ) .
Như vậy trung vị là điểm phân chia phân bố xác suất thành hai phần bằng nhau.
- Giá trị tới hạn mức của biến ngẫu nhiên X, kí hiệu là x
và được xác
định như sau: P( X x ) .
Hàm phân phối
- Định nghĩa 1.2: Cho biến ngẫu nhiên X, ta xác định hàm phân phối của X
như sau: FX x P X x
Trong định nghĩa trên x là biến của hàm F, x nhận giá trị thực, x , .
Tại một điểm x bất kì hàm F x chính là xác suất để biến ngẫu nhiên nhận giá trị
nhỏ hơn x hoặc để biến ngẫu nhiên nhận giá trị bên trái x. Chỉ số của hàm
FX x
để chỉ hàm phân phối của biến ngẫu nhiên X.
- Tính chất:
Hàm phân phối của biến ngẫu nhiên có một số tính chất cơ bản sau:
▪ Hàm phân phối xác định x , .
▪ 0 F x 1, x ; lim F (x) 1 , lim F (x) 0
x
x
▪ Hàm phân phối là hàm không giảm: tức x1 x2 thì F x1 F x2
▪ Pa X b F b F a
5
Một số phân phối thường gặp
Phân phối chuẩn
- Biến ngẫu nhiên liên tục X có phân phối chuẩn, kí hiệu
1
nếu hàm mật độ của X có dạng p x
- Trường hợp đặc biệt với
N , 2
là X
x 2
2
1
e2
2
với x .
0, 2 1 ta có hàm phân phối N 0, 1 được
kí hiệu là x và:
x
1
x
t 2
e 2 dt
2
- Phân phối chuẩn chiếm vị trí quan trọng trong lý thuyết xác suất, là vị trí
trung tâm trong các kết luận thống kê sau này.
Phân phối Poison
- Biến ngẫu nhiên rời rạc X có phân phối Poison, kí
P , nếu X
hiệu X
nhận các giá trị 0, 1, 2, ..., n với xác suất tương ứng P( X k)
e .k
với k n và
k!
là hằng số dương.
Phân phối Khi bình phương (Chi-square)
- Cho X1, X 2 ,..., X n là n biến ngẫu nhiên độc lập có phân phối chuẩn tắc.
Xét biến ngẫu nhiên 2 X 2 X 2 ... X 2 x 0 , P( x)
1
2
n
x
1
n
n
22 ( ) 0
2
được gọi là phân phối Khi bình phương với n bậc tự do, kí hiệu là X
2 (n) và có
hàm mật độ tương ứng là:
x n2 1.e 2x
1
n
f (x) 2 2 ( n )
; x 0
2
0; x 0
t 1 t
trong đó t x e dt .
o
6
u n2 1eu2 du
Phân phối Student
- Biến ngẫu nhiên liên tục X có dạng phân phối Student với n bậc tự do, kí
hiệu là X
T n , nếu có hàm mật độ dạng:
n 1
( 2 )
t 2 (n1)
f (t)
(1 ) 2
n
n
n( )
2
trong đó t xt 1et dt .
o
Mẫu ngẫu nhiên
Tổng thể nghiên cứu
- Định nghĩa 1.3: Toàn bộ tập hợp các phần tử đồng nhất theo một dấu hiệu
nghiên cứu định tính hoặc định lượng nào đó được gọi là tổng thể nghiên cứu hay
tổng thể.
- Số lượng các phần tử của tổng thể được gọi là kích thước của tổng thể, kí
hiệu là N (kích thước N của tổng thể là hữu hạn).
- Với mỗi tổng thể ta không nghiên cứu trực tiếp tổng thể đó mà thông qua một
hay nhiều dấu hiệu đặc trưng. Chúng được gọi là dấu hiệu nghiên cứu, kí hiệu là .
Mẫu ngẫu nhiên
- Định nghĩa 1.4: Mẫu ngẫu nhiên kích thước n về biến ngẫu nhiên gốc X (hoặc
quy luật phân bố gốc mà X
tuân theo) là một biến ngẫu nhiên: W( X ) ( X1, X 2 ,..., X n )
trong đó Xi (i 1, n) là các biến ngẫu nhiên i.i.d (độc lập và có cùng quy luật phân
phối xác suất với X).
- Định nghĩa 1.5: Cho mẫu ngẫu nhiên có kích thước n: W( X ) ( X1, X 2,..., X n )
trong đó Xi (i 1, n) là các biến ngẫu nhiên i.i.d (độc lập và có cùng quy luật phân
phối xác suất với X).
Mỗi Xi được gọi là một thành phần mẫu.
Tập hợp x x1 , x2 ,..., xn trong đó xi là các giá trị có thể có của
Xi (i 1, n) được gọi là không gian mẫu.
7
Mỗi điểm x x1 , x2 ,..., xn của không gian mẫu được gọi là một giá trị có thể
có của mẫu ngẫu nhiên X.
Đặc trưng mẫu
Trung bình mẫu
- Từ tổng thể nghiên cứu của một biến ngẫu nhiên gốc X, ta rút ra một mẫu
ngẫu nhiên có kích thước n: W (x1, x2 ,..., xn ) . Trung bình mẫu là một thống kê, kí
hiệu là X : X
-
1
n
X
i
n i1
Khi mẫu ngẫu nhiên nhận một giá trị cụ thể w x1 , x2 ,..., xn thì trung
bình mẫu cũng nhận giá trị cụ thể: x
n
1
n
i1
xi
1
k
n
i1
ni xi
Tổng bình phương các sai lệch và độ lệch bình phương trung bình
- Cho mẫu ngẫu nhiên có kích thước n được xây dựng từ biến ngẫu nhiên
gốc X: W X1, X 2 ,..., X n . Khi đó SS X i X được gọi là tổng bình phương
n
i1
các sai lệch giữa các giá trị của mẫu và trung bình mẫu.
được: MS
Nếu ta đem chia SS cho kích thước mẫu (giả sử mẫu có kích thước n) ta
1
n
X X gọi là độ lệch bình phương trung bình.
n i1
i
- Trên thực tế với mẫu cụ thể ms thường được tính bằng công thức:
1 n
1 n 2
2
ms xi hoặc ms ni xi .
n i1
n i1
Phương sai mẫu S2 và phương sai S*2
- Phương sai tổng thể:
Var X E X E X
- Độ lệch tiêu chuẩn:
Se X Var( X )
8
2
- Phương sai mẫu kí hiệu là S2 và được xác định bởi công thức:
2
S
1
n
1
X
n 1
2
i
X
i1
n
n 1 X
i1
2
2
i
k
1
n
nX
n i xi X n 1 MS
n
1
i1
n
1 k n x
2
2
1
S*2 X i m i i m được gọi là phương sai.
n i1
n i1
- Giá trị của phương sai mẫu S2 và phương sai S*2 trên một giá trị cụ thể của
mẫu là những số xác định, kí hiệu là s2 và s*2.
- Nếu lấy căn bậc hai của phương sai mẫu S2 thì ta thu được thống kê gọi là
độ lệch chuẩn mẫu, kí hiệu là S : S
1 n
n 1 i1 Xi X
còn giá trị của nó trên một
2
mẫu cụ thể là một số xác định, kí hiệu là s.
Hạng của dãy quan sát (Rank)
Hạng của dãy quan sát là thứ tự tăng dần (hoặc giảm dần) của các quan sát.
Nếu hai dãy quan sát có khoảng biến thiên như nhau thì có thể dùng hạng của chúng
để so sánh độ phân tán.
Hạng của một quan sát là thứ tự theo một trật tự được lựa chọn cho mỗi dãy
quan sát.
Kiểm định giả thuyết
Khái niệm
Giả thuyết: là sự giải thích đề xuất cho một hiện tượng. Để một giả thuyết trở
thành một giả thuyết khoa học, phương pháp khoa học yêu cầu cần có một sự kiểm
định. Các giả thuyết khoa học thường được các nhà khoa học dựa vào những quan
sát trước đó mà không thể giải thích được với các lý thuyết khoa học hiện có.
Kiểm định giả thuyết: là các bài toán kiểm định về quy luật phân phối xác
suất của biến ngẫu nhiên, về các tham số đặc trưng của biến ngẫu nhiên hoặc về tính
độc lập của biến ngẫu nhiên.
Kiểm định giả thuyết thống kê chia làm 2 loại: kiểm dịnh tham số và kiểm
định phi tham số.
9
▪ Kiểm định tham số: là bài toán kiểm định giả thuyết về các tham số đặc
trưng của biến ngẫu nhiên.
▪ Kiểm định phi tham số: là các bài toán kiểm định về quy luật phân phối
xác suất của biến ngẫu nhiên và về tính độc lập của biến ngẫu nhiên.
Bảng 1.1: So sánh kiểm định phi tham số và kiểm định có tham số
Kiểm định
Kiểm định phi tham số
Kiểm định có tham số
Kiểm định tương quan
Spearman
Pearman
Mẫu bắt cặp
Hai mẫu độc lập
Kiểm định dấu (sign test)
Phép kiểm T với mẫu
hoặc kiểm định dấu và hạng
phối từng cặp ( Paired-
Wilcoxon (Wilcoxon test)
Samples T test)
Kiểm định Mann-Whitney
Phép kiểm T với 2 mẫu
độc lập ( IndependentSamples T test)
Lớn hơn 2 mẫu độc lập
Kiểm định Kruskal-Wallis
ANOVA 1 chiều
Bài toán kiểm định giả thuyết
Cho hai giả thuyết H0, H1 (thường là đối nghịch nhau). Dựa vào các số liệu
thu được, ta phải quyết định xem giả thuyết H0 đúng hay sai. Giả thuyết H1 đối
nghịch với giả thuyết H0 gọi là đối thuyết của H0 . Việc đưa ra quyết định chấp nhận
hay bác bỏ một giả thuyết thống kê gọi là làm kiểm định (hay kiểm định thống kê).
Tiêu chuẩn kiểm định giả thuyết
Từ tổng thể nghiên cứu rút ra một mẫu ngẫu nhiên có kích thước
n
W X1, X2 ,..., X n và chọn lập thống kê G f X1, X 2 ,..., X n , o trong đó 0 là
tham số liên quan đến giả thuyết cần kiểm định.
Điều kiện đặt ra đối với thống kê G là nếu giả thuyết H0 là đúng, thì quy luật
phân phối xác suất của G là hoàn toàn xác định. Thống kê G được gọi là tiêu chuẩn
kiểm định.
10
Miền bác bỏ giả thuyết
Sau khi đã chọn được tiêu chuẩn kiểm định G thì với một xác suất khá bé
bằng α cho trước, ta có thể tìm được miền W tương ứng sao cho với điều kiện giả
thuyết H0 là đúng, xác suất để G nhận giá trị thuộc miền W bằng α:
P(G W / H0 ) .
Trong đó: α được gọi là mức ý nghĩa;
W được gọi là miền bác bỏ của giả thuyết H0 với mức ý nghĩa α.
Miền giá trị còn lại của G, kí hiệu là W được gọi là miền không bác bỏ giả
thuyết (miền thừa nhận giả thuyết).
Các sai lầm mắc phải khi kiểm định
Khi làm kiểm định, ta có thể mắc phải các sai lầm sau đây:
•
Sai lầm loại 1: Bác bỏ 1 giả thuyết đúng ( Bác bỏ H0 khi H0 đúng).
•
Sai lầm loại 2: Chấp nhận 1 giả thuyết sai (Nhận H0 khi H0 sai).
Kiểm định phi tham số
Định nghĩa 1.6: Kiểm định phi tham số là các thủ tục thống kê để kiểm định
giả thuyết khi không có được các giả thuyết liên quan đến tham số của tổng thể hay
dạng phân phối xác suất của tổng thể.
Kiểm định phi tham số dùng trong trường hợp các nghiên cứu thử nghiệm,
vậy nên áp dụng trong trường hợp mẫu nhỏ thì dùng phương pháp kiểm định không
có hiệu quả.
Một cách tổng quát, kiểm định phi tham số là kiểm định thường dùng dữ liệu
ở dạng liệt kê, số đếm và không yêu cầu điều kiện giả định về phân phối của tồng
thể (đặc biệt là phân phối chuẩn).
11
Chương 2: MỘT SỐ KIỂM ĐỊNH PHI THAM SỐ
Chương này dành riêng cho các kiểm định phi tham số, đây là các kiểm định
cơ bản thường được tiến hành để xác định tính chất của các tổng thể thông qua các
bộ số liệu hay các mẫu ngẫu nhiên. Các kiểm định quan trọng hơn cả là kiểm định
về dạng phân phối thực nghiệm và sự phù hợp của chúng với phân phối lí thuyết.
Chương này cũng dành một phần quan trọng cho việc kiểm định các phân phối
thông dụng như phân phối Chuẩn, phân phối Poison,... Có thể chia nội dung kiểm
định phi tham số thành hai phần, đó là kiểm định Khi bình phương và các kiểm định
phi tham số khác mà chủ yếu là các kiểm định dựa trên cơ sở tương quan hạng.
•
Các tệp dữ liệu được lấy từ địa chỉ
http://www.mfe.edu.vn/thuvien/dulieu_phanmem
Kiểm định Khi bình phương
Kiểm định sự phù hợp của quy luật thực nghiệm
Kiểm định Khi bình phương được dùng phổ biến trong việc kiểm định giả
thuyết về dạng phân phối. Kiểm định này dựa trên cơ sở đánh giá tổng bình phương
khác biệt giữa giá trị lý thuyết theo giả thuyết và giá trị tương ứng. Để đưa ra các
giả thuyết về dạng phân phối, người ta thường mô tả và phân tích sơ bộ hiện tượng,
đặc điểm của biến ngẫu nhiên thông qua số hiểu quan sát. Tuy vậy, trong nhiều
trường hợp các phân tích này có thể bị bỏ qua, vì nhận thức chủ quan hay kinh
nghiệm của người phân tích.
Thống kê Khi bình phương thiết lập trên một mẫu kích thước n với k nhóm
(giá trị hay đặc trưng) có thể mô tả tổng quát nhờ công thức sau:
k
χ2 =
i1
O E 2
i
i
(2.1)
Ei
Trong đó: Ei là tần số lý thuyết theo giả thuyết, Oi là tần số thực nghiệm
tương ứng. Với n đủ lớn thống kê (2.1) phân phối Khi bình phương (k-1) bậc tự do.
Kiểm định giả thuyết về phân phối đều
Phân phối đều trên đoạn [a,b] là phân phối liên tục, mà biến ngẫu nhiên
tương ứng có khả năng nhận các giá trị khác nhau trong đoạn này bằng nhau. Đây
12
cũng là trường hợp minh họa dễ dàng nhất đối với các kiểm định về dạng phân phối
của các biến ngẫu nhiên liên tục. Đặc điểm chính là thực tế quan sát chúng ta nhận
được các giá trị rời rạc, kiểm định này thực hiện trên cơ sở phân khoảng và rời rạc
hóa phân phối đều như sau: Giả sử X nhận các giá trị xi trong k khoảng thời gian
có độ dài bằng nhau. Nếu X phân phối đều theo thời gian thì các giá trị của X trong
mỗi khoảng thời gian là trung bình của X (x* chẳng hạn). Thống kê Khi bình phương
k
xi x *2
được tính theo công thức
2
i1
x*
thống kê này tuân theo quy luật Khi
bình phương (k-1) bậc tự do nếu X phân phối đều. Với mức ý nghĩa α cho trước, giả
thuyết X phân phối đều bị bác bỏ nếu giá trị quan sát lớn hơn giá trị tới hạn
2 k 1 mức α.
Thí dụ 2.1: Quan sát số lượng lương thực/tháng cung cấp cho các hộ 4 người
ta nhận được kết quả như sau:
Số hộ
9
10
11
12
11
11
12
14
10
12
10
SL
17
18
19
20
21
22
23
24
25
26
27
Phải chăng số lượng lương thực/ tháng cung cấp cho các hộ 4 người phân
phối đều R(17,27)?
Để tính giá trị thống kê Khi bình phương ta lập bảng sau:
Bảng 2.1: Bảng tính giá trị thống kê Khi bình phương
Oi Ei
Số hộ Oi
SL
9
17
11,091
0,394188
10
18
11,091
0,107303
11
19
11,091
0,000745
12
20
11,091
0,074516
11
21
11,091
0,000745
11
22
11,091
0,000745
12
23
11,091
0,074516
Ei
13
2
/E
i
14
24
11,091
0,76304
10
25
11,091
0,107303
12
26
11,091
0,074516
10
27
11,091
0,107303
n 122
1,704918
Có 122 hộ với 11 mức chi tiêu dùng gạo nên nếu phân phối theo của mức
tiêu dùng gạo là phân phối đều thì trung bình số hộ của mỗi mức như nhau:
Ei 122 /11 11, 091. Tra bảng giá trị phân phối ta có: 2 ta có:
20,0510 18,3. So sánh với giá trị quan sát, ta thấy không có cơ sở bác bỏ giả
thuyết cho rằng lượng lương thực cung cấp cho hộ là đều đặn (phân phối đều
R(17,27)).
Kiểm định giả thuyết về cấu trúc tổng thể
Giả thiết về cấu trúc tổng thể theo các dấu hiệu của 1 biến định tính hay các
khoảng của 1 biến định lượng, có thể quy về một phân phối xác suất của một biến
ngẫu nhiên rời rạc. Có thể xem đây là trường hợp tổng quát kiểm định phân phối
xác suất của các biến ngẫu nhiên rời rạc với việc sử dụng tiêu chuẩn Khi bình
phương để kiểm định cấu trúc tổng thể. Không mất tính tổng quát, có thể mô tả
kiểm định này qua một thí dụ cụ thể sau đây.
Thí dụ 2.2: Giả sử mức sống của cư dân một vùng có thể phân chia 5 bậc
như sau: quá nghèo, nghèo, trung bình, khá và giàu. Có người cho rằng tỷ lệ dân cư
ở các mức sống tương ứng là:
Mức sống
Qúa nghèo
Nghèo
Trung bình
Khá
Giàu
Tỷ lệ (%)
12
25
40
20
3
Với mẫu ngẫu nhiên 1000 quan sát người ta thấy số cư dân có các mức sống
như sau:
Mức sống
Quá nghèo
Nghèo
Trung bình
Khá
Giàu
Số cư dân
135
280
440
100
45
14
- Xem thêm -