ĐẠI HỌC ĐÀ NẴNG
TRƯỜNG ĐẠI HỌC SƯ PHẠM
TRẦN THỊ THẢO TRANG
ỨNG DỤNG PHẦN MỀM GEOGEBRA
TRONG THỐNG KÊ
KHOÁ LUẬN TỐT NGHIỆP
Đà Nẵng - 2021
ĐẠI HỌC ĐÀ NẴNG
TRƯỜNG ĐẠI HỌC SƯ PHẠM
TRẦN THỊ THẢO TRANG
ỨNG DỤNG PHẦN MỀM GEOGEBRA
TRONG THỐNG KÊ
KHOÁ LUẬN TỐT NGHIỆP
Người hướng dẫn
TS. TÔN THẤT TÚ
Đà Nẵng - 2021
LỜI CẢM ƠN
Bài báo cáo này được hoàn thành tại trường Đại học Sư phạm - Đại học
Đà Nẵng, dưới sự hướng dẫn khoa học của TS.Tôn Thất Tú. Trước hết, tôi
xin được gửi lời cảm ơn sâu sắc đến người thầy của mình là TS.Tôn Thất
Tú, người đã đặt bài toán và định hướng nghiên cứu cho tôi. Thầy đã tận
tình chỉ bảo và tạo mọi điều kiện để tôi học tập và hoàn thành báo cáo. Cảm
ơn thầy đã luôn chia sẻ, động viên tôi trong quá trình học tập và nghiên
cứu. Tôi cũng xin chân thành cảm ơn khoa Toán học của trường Đại học Sư
phạm Đà Nẵng đã tạo điều kiện để tôi hoàn thành nhiệm vụ nghiên cứu.
Cuối cùng, tôi xin bày tỏ lòng biết ơn sâu sắc đến gia đình và những người
bạn thân thiết đã luôn chia sẻ, giúp đỡ, động viên tôi trong quá trình nghiên
cứu.
Trần Thị Thảo Trang-18ST
1
MỤC LỤC
MỞ ĐẦU
3
1 Kiến thức cơ sở
1.1 Thống kê mô tả . . . . . . . . . . . . . . . . . . . . .
1.1.1 Khái niệm mẫu và tổng thể . . . . . . . . . . .
1.1.2 Bảng tần số và tần suất . . . . . . . . . . . . .
1.1.3 Các chỉ số đặc trưng của mẫu . . . . . . . . .
1.1.4 Biểu đồ . . . . . . . . . . . . . . . . . . . . . .
1.2 Các bài toán kiểm định . . . . . . . . . . . . . . . . .
1.2.1 Kiểm định giả thuyết về giá trị trung bình . . .
1.2.2 Kiểm định giả thuyết về tỷ lệ . . . . . . . . . .
1.2.3 Kiểm định Mann-Whitney . . . . . . . . . . .
1.2.4 Phân tích phương sai một nhân tố . . . . . . .
1.3 Phần mềm Geogebra . . . . . . . . . . . . . . . . . .
1.3.1 Giới thiệu phần mềm Geogebra . . . . . . . . .
1.3.2 Một số lệnh, công cụ quan trọng được sử dụng
2 Ứng dụng phần mềm Geogebra trong thống kê
2.1 Xây dựng các biểu đồ thống kê . . . . . . . . . .
2.1.1 Biểu đồ cột . . . . . . . . . . . . . . . . .
2.1.2 Biểu đồ đường . . . . . . . . . . . . . . .
2.1.3 Biểu đồ tròn . . . . . . . . . . . . . . . .
2.2 Tính các số đặc trưng . . . . . . . . . . . . . . .
2.2.1 Cách thực hiện . . . . . . . . . . . . . . .
2.2.2 Minh hoạ . . . . . . . . . . . . . . . . . .
2.3 Các bài toán kiểm định . . . . . . . . . . . . . .
2.3.1 Kiểm định giả thuyết về giá trị trung bình
2.3.2 Kiểm định giả thuyết về tỷ lệ . . . . . . .
2.3.3 Kiểm định Mann-Whitney . . . . . . . .
2.3.4 Phân tích phương sai một nhân tố . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
5
5
5
5
6
7
10
10
12
13
14
16
16
17
.
.
.
.
.
.
.
.
.
.
.
.
19
19
19
24
26
28
28
29
30
30
31
32
34
KẾT LUẬN
37
TÀI LIỆU THAM KHẢO
38
2
MỞ ĐẦU
1. Lý do chọn đề tài
Ngày nay, công nghệ thông tin phát triển nhanh chóng, tác động đến mọi
mặt trong đời sống kinh tế xã hội loài người, trong đó có mảng ngành kinh
tế, đặc biệt là thống kê đã được đẩy mạnh nhờ những tính toán bằng máy
tính. Chính vì lý do đó, Bộ Giáo dục và Đào tạo đã và đang đẩy mạnh ứng
dụng công nghệ thông tin trong giảng dạy và học tập ở tất cả các cấp học,
bậc học và ngành học nhằm đáp ứng yêu cầu công nghiệp hóa, hiện đại hóa
đất nước.
Các phần mềm hỗ trợ dạy học ra đời nhằm đáp ứng nhu cầu phát triển
của ngành giáo dục. Việc sử dụng công nghệ thông tin để đổi mới phương
pháp dạy học ở các môn học là yêu cầu đặt ra cho người giáo viên trong giai
đoạn đổi mới giáo dục. Thống kê xác suất là một môn đòi hỏi tư duy trừu
tượng cao. Chính vì vậy, các phần mềm toán học sẽ là công cụ hỗ trợ đắc lực
cho người giáo viên minh họa một số tri thức trừu tượng, khám phá mô hình
thống kê, phân phối , tính chất của các thống kê,...Phần mềm GeoGebra có
nhiều tính năng vượt trội và hoàn toàn miễn phí nên rất phù hợp với hoạt
động giáo dục, đặc biệt đối với các nước đang phát triển với nguồn tài chính
đầu tư cho giáo dục hạn hẹp. Phần mềm này tích hợp các chức năng cơ bản
chẳng hạn như nhập trực tiếp của các phương trình và vẽ đồ thị, vẽ bảng,
vẽ hình động 2D và 3D, hỗ trợ ngôn ngữ Latex và lập trình cơ bản,....
Trong kinh tế ứng dụng, bộ môn thống kê là một bộ môn nền tảng và cơ
bản. Khi nói đến các kiểm định trong thống kê, người ta nghĩ ngay đến các
công thức, kỹ thuật tính mà ít để ý đến ý nghĩa đằng sau của nó (cũng như
mô hình thống kê thường gặp).
Vì những lý do kể trên, chúng tôi lựa chọn đề tài cho khóa luận tốt nghiệp
của mình là: "Ứng dụng phần mềm Geogebra trong thống kê".
2. Mục tiêu nghiên cứu
Ứng dụng phần mềm Geogebra để minh hoạ các biểu đồ, tính các mẫu số
đặc trưng, thực hiện các bài toán kiểm định trong thống kê.
3. Phương pháp nghiên cứu:
Nghiên cứu tài liệu và tổng hợp các kiến thức liên quan, trao đổi với những
người quan tâm và tham vấn giáo viên hướng dẫn.
4. Đối tượng nghiên cứu
- Các vấn đề về thống kê (các chỉ số đặc trưng, biểu đồ, các bào toán
kiểm định,...)
3
- Khả năng ứng dụng của Geogebra trong thống kê.
- Phân tích dữ liệu và xây dựng các biểu đồ.
5. Phạm vi nghiên cứu
Các chức năng của Geogebra hỗ trợ minh hoạ vẽ biểu đồ, tính toán và
phân tích thống kê.
6. Ý nghĩa khoa học của nghiên cứu
Công nghệ thông tin đặc biệt là các phần mềm dạy học đóng một vai trò
quan trọng trong việc xây dựng các tình huống sư phạm nhằm tạo ra một
môi trường học tập chủ động, sáng tạo. Người học có điều kiện phát huy khả
năng phân tích, suy đoán và xử lý thông tin một cách có hiệu quả.
Khoá luận có thể làm tài liệu tham khảo cho sinh viên, học viên có nhu
cầu bồi dưỡng, nâng cao kỹ năng ứng dụng công nghệ thông tin vào môi
trường dạy - học.
7. Tổng quan và cấu trúc báo cáo
- Chương 1 hệ thống lại các kiến thức về thống kê mô tả, các bài toán
kiểm định, giới thiệu phần mềm GeoGebra và các lệnh thường được sử
dụng trong khoá luận.
- Chương 2 trình bày việc ứng dụng phần mềm GeoGebra trong thống
kê, bao gồm: vẽ biểu đồ, tính toán các số đặc trưng và thực hiện các bài
toán kiểm định.
4
CHƯƠNG 1
KIẾN THỨC CƠ SỞ
1.1
1.1.1
Thống kê mô tả
Khái niệm mẫu và tổng thể
- Tổng thể là tập hợp tất cả các phần tử của Ω mà ta cần nghiên cứu tính
chất X nào đó. Tổng thể có thể hữu hạn hoặc vô hạn.
- Việc chọn một tập con của tổng thể được gọi là phép lấy mẫu. Tập con
đó được gọi là một mẫu. Số lượng phần tử của mẫu được gọi là kích thước
mẫu hay cỡ mẫu.
1.1.2
Bảng tần số và tần suất
1.1.2.1
Mẫu không ghép lớp
Giả sử ta thu được một mẫu dữ liệu rời rạc với số lượng các phần tử trong
mẫu khác nhau không quá nhiều. Lúc đó, để thuận lợi cho việc trình bày
mẫu cũng như các công việc tính toán và phân tích về sau, ta có thể sử dụng
bảng tần số và tần suất như sau:
- Bảng tần số:
Giá trị x1 x2 x3 ... xm
Tần số n1 n2 n3 ... nm
trong đó x1 , x2 , ..., xm là các giá trị khác nhau trong mẫu với số lần xuất hiện
tương ứng là n1 , n2 , ..., nm
- Bảng tần suất:
Giá trị x1 x2 x3 ... xm
Tần suất f1 f2 f3 ... fm
P
trong đó fi = nni với n = m
i=1 ni . Giá trị fi thường được gọi là tần suất xuất
hiện của xi trong mẫu.
Nhận xét: Từ bảng tần số ta dễ dàng chuyển về bảng tần suất. Ngoài ra,
P
dễ thấy rằng m
i=1 fi = 1 nên ta có thể quy đổi các giá trị fi về dạng phần
trăm trong thực hành.
1.1.2.2
Mẫu ghép lớp
Khi ta thu được mẫu dữ liệu với nhiều giá trị khác nhau thì việc sử dụng
ngay các bảng tuần số và tần suất đã nêu ở mục trước tỏ ra kém hiệu quả vì
5
bảng thu được quá dài và mục đích của chúng ta nhằm tóm tắt thông tin về
mẫu dữ liệu cũng không đạt được. Để khắc phục tình trạng này người ta tiến
hành chia nhiều miền giá trị thành nhiều khoảng [ai−1 , ai ) không giao nhau
(phân hoạch) và đếm số lượng ni các giá trị trong mẫu rơi vào các khoảng
này. Khi đó, ta cũng thu được bảng tần số và tần suất tương tự cho mẫu
ghép lớp.
- Bảng tần số:
Khoảng giá trị [a0 , a1 ) [a1 , a2 ) [a2 , a3 ) ... [am−1 , am )
Tần số
n1
n2
n3
...
nm
- Bảng tần suất:
Khoảng giá trị [a0 , a1 ) [a1 , a2 ) [a2 , a3 ) ... [am−1 , am )
Tần suất
f1
f2
f3
...
fm
Khi thực hiện phân hoạch miền giá trị, số khoảng cần chia thường được chọn
√
từ 5 đến 20 khoảng, có thể chọn xấp xỉ bằng n (hoặc 1 + log2 (n)). Nếu ta
chia thành m khoảng thì độ dài mỗi khoảng xấp xỉ (max{xk }−min{xk })/m
với max{xk }, min{xk } là giá trị lớn nhất và nhỏ nhất trong mẫu dữ liệu.
1.1.3
Các chỉ số đặc trưng của mẫu
1.1.3.1
Trung bình mẫu
Kí hiệu là x và được tính theo công thức:
n
x1 + x2 + ... + xn
1X
x=
=
xi
n
n i=1
1.1.3.2
Phương sai mẫu:
Kí hiệu là s2 và được tính theo công thức:
n
n
i
1 X
1 hX 2
2
2
s =
(xi − x) =
x − n(x)
n − 1 i=1
n − 1 i=1 i
2
1.1.3.3
Độ lệch chuẩn mẫu
v
u
√
u
s = s2 = t
n
i
1 hX 2
2
x − n(x)
n − 1 i=1 i
6
1.1.3.4
Trung vị mẫu
Sắp xếp mẫu số liệu theo thứ tự tăng dần, giả sử x1 ≤ x2 ≤ ... ≤ xn .
Trung vị mẫu, kí hiệu là xmed , xác định bởi:
(
x n+1 ,
nếu n lẻ
xmed = x n 2+x n +1
2
2
, nếu n chẵn
2
1.1.3.5
Số mốt
Số mốt là giá trị có tần số lớn nhất trong dãy giá trị.
Số mốt được kí hiệu là M0 .
1.1.4
Biểu đồ
1.1.4.1
Biểu đồ cột
Đây là loại biểu đồ được sử dụng thường xuyên nhất để mô tả dữ liệu thu
được từ biến ngẫu nhiên rời rạc. Giả sử ta có bảng tần số của số liệu đã cho
như sau:
Giá trị x1 x2 x3 ... xm
Tần số n1 n2 n3 ... nm
Sử dụng hệ trục tọa độ Descartes vuông góc để vẽ biểu đồ. Trên trục hoành
tại các giá trị x1 , x2 , ..., xm ta vẽ các cột có độ rộng bằng nhau và chiều cao
tương ứng với các giá trị tần số n1 , n2 , ..., nm hoặc tần số tương ứng (tần
suất). Trong thực hành, người ta thường vẽ các cột tại các điểm có hoành độ
1, 2,..., m. Lúc đó, ta xem x1 , x2 , ..., xm như là các nhãn.
Ví dụ 1.1. Trong một cuộc thi game online có 10 màn được tổ chức với 1022
game thủ tham gia, kết quả cho bởi bảng sau:
Vượt qua màn Số game thủ Tỉ lệ
0
20
0.017
1
72
0.061
2
209
0.176
3
356
0.3
4
171
0.144
5
97
0.082
6
53
0.045
7
19
0.016
8
13
0.011
9
8
0.007
10
4
0.003
7
Thực hiện vẽ biểu đồ trên phần mềm Geogebra với dữ liệu trên, kết quả thu
được thể hiện ở hình ảnh bên dưới.
350
300
250
200
150
100
50
0
1
2
3
4
5
6
7
8
9
10
11
Hình 1.1: Biểu đồ cột thể hiện tần số của cuộc thi game online
1.1.4.2
Biểu đồ đường gấp khúc
Đây là loại biểu đồ được sử dụng thường xuyên nhất để mô tả dữ liệu thu
được từ biến ngẫu nhiên rời rạc. Giả sử ta có bảng tần số của số liệu đã cho
như sau:
Giá trị x1 x2 x3 ... xm
Tần số n1 n2 n3 ... nm
Biểu đồ đường có thể được hiển thị với các điểm đánh dấu trong hình dạng
của hình tròn, hình vuông hoặc các định dạng khác.
Ví dụ 1.2. Với dữ liệu từ ví dụ 1.1, thực hiện vẽ biểu đồ trên phần mềm
Geogebra, kết quả thu được thể hiện ở hình ảnh bên dưới.
8
350
300
250
200
150
100
50
0
1
2
3
4
5
6
7
8
9
10
11
Hình 1.2: Biểu đồ đường gấp khúc thể hiện tần số của cuộc thi game online
1.1.4.3
Biểu đồ tròn
Đây cũng là loại biểu đồ thường được dùng để mô tả dữ liệu thu được từ
biến ngẫu nhiên rời rạc. Giả sử ta có bảng tần số hoặc tần suất của số liệu
đã cho như sau:
Giá trị x1 x2 x3 ... xm
Giá trị x1 x2 x3 ... xm
hoặc
Tần số n1 n2 n3 ... nm
Tần suất f1 f2 f3 ... fm
Để vẽ biểu đồ tròn, ta chia một hình tròn cho trước thành các hình quạt sao
cho hình quạt tương ứng với giá trị xi có góc ở tâm tỉ lệ ni (hoặc fi ). Cụ thể,
nếu kí hiệu αi (tính theo radian) là góc ở tâm tương ứng với giá trị xi thì
αi =
trong đó n =
2πni
hay αi = 2πfi ,
n
Pm
i=1 ni
Ví dụ 1.3. Để đảm bảo công tác phòng, chống dịch Covid-19 theo quy định,
xã A đã tiến hành tiêm Vaccine phòng Covid-19 cho người dân ở xã với 4
thôn: thôn 1, thôn 2, thôn 3, thôn 4. Kết quả thu được như sau:
Thôn
Thôn
Thôn
Thôn
1
2
3
4
Số lượng (người) Tỉ lệ (%)
322
29.43
258
23.58
347
31.72
167
15.27
9
Thực hiện vẽ biểu đồ trên phần mềm Geogebra với dữ liệu trên, kết quả thu
được thể hiện ở hình ảnh bên dưới.
Hình 1.3: Biểu đồ tròn thể hiện tỉ lệ số người đã tiêm Vaccine phòng Covid-19 ở xã A
1.2
Các bài toán kiểm định
1.2.1
Kiểm định giả thuyết về giá trị trung bình
1.2.1.1
Khi phương sai đã biết
Cho biến ngẫu nhiên X của một tổng thể có phân phối chuẩn N (µ; σ 2 )
với kì vọng µ chưa biết và phương sai σ 2 đã biết. Xét bài toán kiểm định giả
thuyết:
(
H0 : µ = µ0
H1 : µ 6= µ0 .
Trong đó µ0 là một số thức đã cho.
Giả sử rằng H0 đúng, tức là µ = µ0 . Gọi {X1 ; X2 ; ...; Xn } là mẫu ngẫu nhiên
của X . Khi đó:
X − µ0
√
Z=
σ/ n
có phân phối chuẩn tắc.
Vì vậy, với α ∈ (0; 1) cho trước, lấy zα/2 = Φ−1 (1 − α2 ) ta có:
P (Z ∈ (−zα/2 ; zα/2 )) = 1 − α
suy ra:
P (Z ∈
/ (−zα/2 ; zα/2 )) = α
Với α là một số khá bé (gần như bằng 0) thì biến cố chọn được một mẫu
kích thước n và Z ∈
/ (−zα/2 ; zα/2 ) hầu như sẽ không xảy ra.
10
Vì vậy, nếu có kết quả chọn ngẫu nhiên được một mẫu {x1 ; x2 ; ...; xn } thỏa
mãn:
x − µ0
√ ∈ (−∞; −zα/2 ] ∪ [zα/2 ; +∞)
z=
σ/ n
thì bác bỏ H0 .
Miền Wα = (−∞; −zα/2 ] ∪ [zα/2 ; +∞) được gọi là miền bác bỏ H0 .
p−giá trị= 2(1 − Φ(|z|))
Lý luận tương tự, ta có:
- Đối với bài toán kiểm định giả thuyết:
(
H0 : µ = µ0
H1 : µ > µ0 .
Miền bác bỏ H0 là Wα = [zα ; +∞)
p−giá trị= 1 − Φ(z)
- Đối với bài toán kiểm định giả thuyết:
(
H0 : µ = µ0
H1 : µ < µ0 .
Miền bác bỏ H0 là Wα = (−∞; −zα ]
p−giá trị= Φ(z)
1.2.1.2
Khi phương sai chưa biết
Cho biến ngẫu nhiên X của một tổng thể có phân phối chuẩn N (µ; σ 2 )
với kì vọng µ chưa biết và phương sai σ 2 chưa biết. Xét bài toán kiểm định
giả thuyết:
(
H0 : µ = µ0
H1 : µ 6= µ0 .
Trong đó µ0 là một số thức đã cho.
Giả sử rằng H0 đúng, tức là µ = µ0 . Gọi {X1 ; X2 ; ...; Xn } là mẫu ngẫu nhiên
của X . Khi đó:
X − µ0
√
T =
S/ n
có phân phối Student n-1 bậc tự do.
Vì vậy, với α ∈ (0; 1) cho trước, lấy tn−1;α/2 thỏa mãn:
P (Tn−1 > tn−1;α/2 ) =
11
α
2
Trong đó Tn−1 là phân phối Student n-1 bậc tự do. Khi đó ta có:
P (T ∈ (−∞; −tn−1;α/2 ] ∪ [tn−1;α/2 ; +∞)) = α
Với α là một số khá bé (gần như bằng 0) thì biến cố chọn được một mẫu
kích thước n và T ∈ (−∞; −tn−1;α/2 ] ∪ [tn−1;α/2 ; +∞) hầu như sẽ không xảy
ra.
Vì vậy, nếu có kết quả chọn ngẫu nhiên được một mẫu {x1 ; x2 ; ...; xn } thỏa
mãn:
x − µ0
√ ∈ (−∞; −tn−1;α/2 ] ∪ [tn−1;α/2 ; +∞)
t=
s/ n
thì bác bỏ H0 .
Miền Wα = (−∞; −tn−1;α/2 ] ∪ [tn−1;α/2 ; +∞) được gọi là miền bác bỏ H0 .
p−giá trị= 2P (Tn−1 > |t|) Lý luận tương tự, ta có:
- Đối với bài toán kiểm định giả thuyết:
(
H0 : µ = µ0
H1 : µ > µ0 .
Miền bác bỏ H0 là Wα = [tn−1;α ; +∞)
p−giá trị= P (Tn−1 > t)
- Đối với bài toán kiểm định giả thuyết:
(
H0 : µ = µ0
H1 : µ < µ0 .
Miền bác bỏ H0 là Wα = (−∞; −tn−1;α ]
p−giá trị= P (Tn−1 < t)
1.2.2
Kiểm định giả thuyết về tỷ lệ
Giả sử biến cố ngẫu nhiên X của một tổng thể có phân phối Bernoulli với
tham số p là tỷ lệ phần tử trong tổng thể có tính chất A nào đó.
Xét bài toán kiểm định giả thuyết
(
H0 : p = p0
H1 : p 6= p0 .
Giả sử H0 đúng, khi đó p = p0 .
Gọi X1 , X2 , ..., Xn là mẫu ngẫu nhiên của X . Đặt:
P̂ =
X1 + X2 + ... + Xn
n
12
Với n đủ lớn, theo Định lí giới hạn trung tâm ta có biến ngẫu nhiên
Z=p
P̂ − p0
p0 (1 − p0 )/n
có phân phối xấp xỉ phân phối chuẩn tắc N (0; 1).
Với một số α ∈ (0; 1) cho trước, lấy zα/2 = Φ−1 (1 − α2 ) ta có:
P (Z ∈ (−zα/2 ; zα/2 )) ≈ 1 − α
Suy ra P (Z ∈
/ (−zα/2 ; zα/2 )) ≈ α.
Với α là một số khá bé thì biến cố chọn được một mẫu kích thước n có
Z ∈
/ (−zα/2 ; zα/2 ) hầu như không xảy ra khi thực hiện một lần thử. Do đó
nếu chọn ngẫu nhiên được một mẫu dữ liệu {x1 ; x2 ; ...; xn } có:
pb =
x1 + x2 + ... + xn
k
=
n
n
thỏa mãn:
z=p
k/n − µ0
∈ (−∞; −zα/2 ] ∪ [zα/2 ; +∞)
p0 (1 − p0 )/n
thì ta bác bỏ H0 . Vì vậy, miền bác bỏ H0 là Wα = (−∞; −zα/2 ]∪[zα/2 ; +∞).
p−giá trị= 2(1 − Φ(|z|))
Lý luận tương tự như trên ta có:
- Đối với bài toán kiểm định giả thuyết: H0 : p = p0 và H1 : p > p0 miền
bác bỏ H0 là Wα = [zα ; +∞)
p−giá trị= 1 − Φ(z)
- Đối với bài toán kiểm định giả thuyết: H0 : p = p0 và H1 : p < p0 miền
bác bỏ H0 là Wα = (−∞; −zα ]
p−giá trị= Φ(z)
1.2.3
Kiểm định Mann-Whitney
Giả sử x1 , x2 , ..., xn1 và y1 , y2 , ..., yn2 lần lượt là các mẫu ngẫu nhiên độc
lập của hai biến ngẫu nhiên liên tục X và Y . Giả thiết H0 : Hai biến ngẫu
nhiên X và Y có cùng phân phối, với đối thiết H1 : Hai biến ngẫu nhiên
X và Y không có cùng phân phối. Lúc này, ta có thể sử dụng tiêu chuẩn
Mann-Whitney để tiến hành kiểm định.
Tiến hành góp hai mẫu đó lại thành một mẫu có kích thước mẫu n =
n1 + n2 , sau đó sắp xếp theo thứ tự tăng dần. Kí hiệu ri và sj là hạng của
xi và yj trong mẫu được gộp lại.
13
Tổng hạng của mẫu x1 , x2 , ..., xn1 là Rx = r1 + r2 + ... + rn1 .
Tổng hạng của mẫu y1 , y2 , ..., yn1 là Ry = s1 + s2 + ... + sn1 .
Ta có định lí sau:
Định lý 1.1. Nếu X và Y có cùng phân phối xác suất thì Rx là biến ngẫu
nhiên có vọng và phương sai lần lượt là:
µRx =
n1 n2 (n1 + n2 + 1)
n1 (n1 + n2 + 1) 2
, σRx = V (Rx ) =
2
12
Hơn nữa, khi n1 ≥ 10 và n2 ≥ 10 thì
Z=
Rx − µRx
σRx
có phân phối xấp xỉ phân phối chuẩn tắc N (0; 1).
Áp dụng định lý trên, miền bác bỏ với mức ý nghĩa α là: W = (−∞, −zα/2 ]∪
[zα/2 , +∞). Ta cũng có thể tính p−giá trị = 2(1 − Φ(|z|)).
1.2.4
Phân tích phương sai một nhân tố
Giả sử ta cần quan tâm tác động của nhân tố A lên biến số ngẫu nhiên
X ở k mức A1 , A2 , ..., Ak . Kí hiệu Xij là kết quả của tác động mức Aj lên
phần tử thứ i.
A1
A2
X11 X12
X21 X22
...
...
Xm1 Xm2
... Ak
... X1k
... X2k
... ...
... Xmk
Mô hình phân tích phương sai một nhân tố:
Xij = µ + αj + ij ; i = 1, 2, ..., m; j = 1, 2, ..., k
Trong đó ij là các biến ngẫu nhiên độc lập, có cùng phân phối chuẩn
N (0; σ 2 ); αj là tác dụng của mức nhân tố Aj ; µ là trung bình chung.
Bài toán kiểm định giả thuyết:
H0 : α1 = α2 = ... = αk = 0,
(*)
H1 : α12 + α22 + ... + αk2 6= 0.
Từ giả thiết của mô hình ta có Xij là các biến ngẫu nhiên có phân phối
chuẩn với:
µj = E(Xij ) = µ + αj
14
V (Xij ) = σ 2
Bài toán kiểm định giả thuyết (*) cũng có thể phát biểu dưới dạng sau:
(
H0 : µ1 = µ2 = ... = µk = 0,
H1 : có ít nhất 2 giá trị trung bình khác nhau.
Gọi Xij : 1 ≤ i ≤ m, 1 ≤ j ≤ k là mẫu ngẫu nhiên thu được từ thí nghiệm.
Đặt:
m
m X
k
m X
k
X
X
X
Tj =
Xij , T =
Xij , Q =
Xij2
i=1
i=1 j=1
i=1 j=1
Ta đưa ra một số kí hiệu sau:
- Trung bình mẫu thứ j(j = 1, 2, ..., k):
m
1 X
Xj =
Xij
m i=1
- Trung bình chung:
m
k
1 XX
X=
Xij
mk i=1 j=1
- Ước lượng giá trị Xij từ mô hình:
bij = X j
X
- Phần dư:
eij = Xij − X j , i = 1, ..., m; j = 1, ..., k
- Tổng bình phương chung:
SST =
m X
k
X
(Xij − X)2 = Q −
i=1 j=1
T2
mk
- Tổng bình phương do nhân tố:
m X
k
k
X
1 X 2 T2
2
SSF =
(X j − X) =
Tj −
m
mk
i=1 j=1
j=1
- Tổng bình phương do sai số:
SSE =
m X
k
X
i=1 j=1
15
(Xij − X j )2
- Trung bình bình phương của nhân tố:
M SF =
SSF
k−1
- Trung bình bình phương của sai số:
M SE =
SSE
mk − k
- Tỉ số F:
M SF
M SE
Các kết quả nói trên được trình bày trong bảng sau đây gọi là bảng
ANOVA:
F =
Nguồn
Nhân tố
Sai số
Tổng
Bậc tự do Tổng bình phương
k−1
mk − k
n−1
SSF
SSE
SST
Trung bình
Tỉ số F
bình phương
M SF
M SF
M SE
M SE
M SF
Người ta chứng minh được rằng nếu H0 đúng thì: F = M
SE có phân phối
F với hai tham số k − 1 và n − k . Vì vậy, miền bác bỏ H0 với mức ý nghĩa
α là: W = [fk−1,mk−k (α); +∞)
p−giá trị= P (Fk−1,mk−k ≥ F )
1.3
1.3.1
Phần mềm Geogebra
Giới thiệu phần mềm Geogebra
GeoGebra là phần mềm miễn phí, là phần mềm toán học động được
thiết kế cho việc dạy và học môn Toán. Nó cũng cung cấp các tính năng điển
hình của các phần mềm hệ thống đại số máy tính và hình học động.
Mặt khác, GeoGebra được sử dụng để xây dựng tình huống dạy học khám
phá và là phương pháp trực quan thay thế cho phương pháp dạy học toán
truyền thống. GeoGebra là công cụ để thúc đẩy học tập tích cực và bồi dưỡng
năng lực cho học sinh thông qua việc đặt câu hỏi, quan sát, giải thích, chứng
minh và đưa ra dự đoán để áp dụng trong thực tiễn. Tác giả phần mềm là
Markus Hohenwarter, giảng viên trường Đại học Salzburg, Cộng hòa Áo.
Phần mềm GeoGebra được khởi tạo năm 2001 và liên tục được phát triển.
Người dùng có thể thoải mái tải xuống phần mềm này từ trang web chính
thức GeoGebra tại http://www.geogebra.org.
16
1.3.2
Một số lệnh, công cụ quan trọng được sử dụng
- Dãy điểm:
Sequence(, , , )
- Lấy giá trị trong danh sách:
Element( , )
- Hợp các danh sách
Join()
- Vẽ biểu đồ cột:
BarChart(, , )
Histogram (, )
- Đoạn thẳng:
Segment (, )
- Vẽ biểu đồ tròn:
PieChart(,
, )
- Kích thước mẫu:
Sum()
- Tính giá trị trung bình mẫu:
Mean()
- Tính phương sai mẫu:
Variance()
- Tính trung vị mẫu:
Median()
- Tính mod của dấu hiệu:
Mode()
17
- Tính hạng:
TiedRank()
- Sắp xếp danh sách:
Sort()
- Bổ sung đối tượng vào danh sách:
Append(