Bài tập lớn môn phân tích và thống kê số liệu
BỘ CÔNG THƯƠNG
TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI
----------o0o----------
BÀI TẬP LỚN MÔN
Phân tích và thống kê số liệu
Lớp: CĐ Tin3
Khoá:10
Giáo viên hướng dẫn: Th.S. Nguyễn Phương Nga
Hà nội
1
Lời Nói Đầu
Trước kia việc nghiên cứu, tính toán..cho một tập dữ liệu là một công việc
tương đối khó khăn và mất thời gian. Nhưng ngày nay, với sự trợ giúp của
CNTT thì các công việc đó đơn giản hơn rất nhiều.
Đặc biệt SPSS for Windows cung cấp một hệ thống quản lý dữ liệu, và phân
tích thống kê trong một môi trường đồ họa, sử dụng các trình đơn mô tả
(menu) và các hộp thoại (dialogue box) đơn giản để thực hiện hầu hết các
công việc cho bạn. Phần lớn các nhiệm vụ có thể được hoàn thiện bằng cách
rê và nhắp chuột.
Trong phần trình bày này, nhóm chúng tôi xin đưa ra một số bài tập, phân
tích các tham số mô tả đặc trưng bằng phương pháp thích hợp, vẽ biểu đồ
histogram, tìm đường hồi qui, tìm khoảng tin cậy đối với độ dốc, tìm một
khoảng tin cậy đối với giá trị trung bình của biến phụ thuộc,thực hiện tìm
đường hồi qui và đánh giá năng lực dự báo của mô hình,…Bằng việc sử
dụng phần mềm SPSS.
Do thời gian nghiên cứu và sự hiểu biết còn nhiều hạn chế. Chính vì vậy bài
Trình bày không tránh được những sai sót, rất mong nhận được sự đóng góp
của cô giáo và các bạn.
Và chúng em xin cảm ơn cô giáo Nguyễn Phương Nga đã tận tình hướng
dẫn nhóm chúng em làm bào báo cáo này
Nhóm chúng em xin chân thành cảm ơn!
2
I.
Một số bài tập sử dụng phần mền SPSS
Bài1:
Cho một tập số liệu kết quả thực nghiệm:
33
33
32
33
30
25
31
34
22
26
29
29
32
35
24
33
34
34
X8
31
X17
34
X9
32
X18
35
A. Hãy tính các đại lượng đặc trưng của tập số liệu trên
B. Phân tích, đánh giá tập số liệu
Bài Làm:
Sắp xếp tập số liệu theo giá trị tăng dần
X1
22
X10
32
X2
24
X11
33
X3
25
X12
33
X4
26
X13
33
X5
29
X14
33
X6
29
X15
34
X7
30
X16
34
A. Tính các đại lượng đặc trưng của tập số liệu
Dùng kiểm định Alalyze→Descriptives→frequencies
1. Bảng phân bổ tần suất
3
Xi
Cumulative
Frequency
Valid
Percent
Valid Percent
Percent
22
1
5.6
5.6
5.6
24
1
5.6
5.6
11.1
25
1
5.6
5.6
16.7
26
1
5.6
5.6
22.2
29
2
11.1
11.1
33.3
30
1
5.6
5.6
38.9
31
1
5.6
5.6
44.4
32
2
11.1
11.1
55.6
33
4
22.2
22.2
77.8
34
3
16.7
16.7
94.4
35
1
5.6
5.6
100.0
18
100.0
100.0
Total
2. Các đại lượng đặc trưng của tập số liệu
4
Statistics
Xi
N
Valid
Missing
18
0
Mean ( Trung bình)
30.5000
Std. Error of Mean
.91555
Median (Trung vị)
32.0000
Mode (Số trội)
33.00
Std. Deviation (Độ lệch chuẩn)
3.88436
Variance (Phương sai)
15.088
Range (khoảng cách)
13.00
Minimum
22.00
Maximum
35.00
Sum
Percentiles
549.00
25
28.2500
50
32.0000
75
33.2500
- M0 = 33
- Med = ½ * [Xn/2 + X(n/2+1)] = 32
- X = 30,5
- S2 = 15,088. Đặc trưng cho sự sai biệt của tập kết quả và đặc trưng
cho độ phân tán của tập số liệu với giá trị trung bình
Phương sai càng lớn thì sai biệt và độ phân tán xung quanh càng lớn
- Sf =
S2 = 3,9. có ý nghĩa như phương sai
- Cv = 12,7%
B. Phân tích đánh giá tập số liệu mẫu
- Khoảng chính xác tin cậy của tập số liệu là: Δx (p,f) = X- μ= t(p,f)* S¯x
= 1,94
- Khoảng giới hạn tin cậy của tập số liệu là:
¯X - t(p,f) * Sf< Xi < ¯X + t(p,f) * Sf
5
28,57 < Xi < 32,43 (với độ tin cậy thống kê là 95%)
Bài2:
Sử dụng 4 phương pháp nghiên cứu A, B, C và D. Kết quả làm lặp lại theo
mỗi phương pháp 6 lần thu được bảng
N
1
2
3
4
5
6
Ph2A
18,00
18,05
17,95
18,15
17,95
18,20
Ph2B
18,55
17,60
18,00
18,30
18,25
17,90
Ph2C
17,65
17,70
17,90
17,65
17,85
17,75
Ph2D
19,10
18,40
18,10
18,70
18,80
18,50
A. Tính giá trị trung bình, phương sai của mỗi phương pháp và nhận xét
B. Biết giá trị thật là 18,1. Phân tích đánh giá sai số của mỗi phương pháp
Bài làm:
A.
Dùng phần mềm SPSS
6
Statistics
ph2A
N
ph2B
ph2C
ph2D
Valid
6
6
6
6
Missing
0
0
0
0
18.0500
18.1000
17.7500
18.6000
Std. Error of Mean
.04282
.13723
.04282
.14142
Std. Deviation
.10488
.33615
.10488
.34641
.011
.113
.011
.120
108.30
108.60
106.50
111.60
25
17.9500
17.8250
17.6500
18.3250
50
18.0250
18.1250
17.7250
18.6000
75
18.1625
18.3625
17.8625
18.8750
Mean
Variance
Sum
Percentiles
Ta được
X
S2
Ph2A
18,05
0.012
Ph2B
18,10
0.112
Ph2C
177,75
0.018
Ph2D
18,60
0.120
Theo kết quả phân tích ta thấy
Nếu nghiên cứu theo cả 4 phương pháp A, B , C và D thì sự sai biệt của các
số liệu trong kết quả thực nghiệm và độ phân tán xung quanh giá trị trung
bình là tương đối nhỏ. Tuy nhiên với phương pháp A thì nhỏ nhất
B. Phân tích đánh giá sai số của mỗi phương pháp
- Phương pháp A
ta = 0,354 << tbảng(95,5) >> = 2,57
→x ≡ μ → sai số ngẫu nhiên. Xi phân bố đều hai phái của giá trị thực trên
trục số. Sai số này bao giờ cũng gặp phải và ta chỉ có thể giảm sai số ngẫu
nhiên
- Phương pháp B
tB = 0 < tb = 2,57 → mắc sai số ngẫu nhiên
- Phương pháp C
tc = 6,48 >> tbảng(95,5) = 2,57
7
→x ≠ μ → sai số hệ thống. Xi Tập trung về một phía của giá trị thực trên trục
số. Ta có thể loiaj bỏ được sai số này nếu tìm ra được nguyên nhân
tD = 3,54 → mắc sai số hệ thống
Bài 3: Hai nghiên cứu A và B thu được kết quả như sau
A
B
A
B
A
B
4,40
4,42
4,75
4,29
4,60
-
4,56
4,47
4,72
4,52
4,36
-
4,42
4,70
4,53
4,57
4,75
-
4,59
4,72
4,66
4,56
4,22
-
4,55
4,53
4,90
4,66
4,45
4,55
4,50
-
4,55
4,60
4,45
-
4,39
4,64
4,66
-
A. Phân tích các đại lượng đặc trưng của tập kết quả thực nghiệm trên
B. So sánh giá trị trung bình và giá trị phương sai của 2 thực nghiệm A
và B
Bài làm:
A.Các đại lượng đặc trưng của tập số liệu
Theo phân tích SPSS ta có
B.
Ta thấy F = 2,12 < Fb(95,12,19) = 2,54
Vậy ta chấp nhận Ho bác bỏ Ha. Tức là chấp nhận S2A = S2B
Theo kết quả phân tích ta có
Kết quả A:
- Khoảng của tập số liệu:R= 0,68
- Giá trị trung bình: ¯X = 4,56
8
- Độ lệch chuẩn Sf = 0,17
- Phương sai S2 = 0,03
Kết quả B:
- Khoảng của tập số liệu:R= 0,43
- Giá trị trung bình: ¯X = 4,54
- Độ lệch chuẩn Sf = 0,12
- Phương sai S2 = 0,14
B. So sánh phương sai
Ta thấy F= S2A/S2B = 2,12 tt(0,95,9) = 2,26. Vậy hai kết quả nghiên cứu là khác nhau.
Bài 5: Xác định ảnh hưởng của nhân tố A lên thí nghiệm người ta thu được
kết quả sau. Hãy phân tích phương sai xem A có ảnh hưởng lên kêt quả thực
nghiệm không?
Mức
nghiên
cứu
a1
a2
a3
Lần lặp
1
1
4
9
2
4
9
16
3
9
16
23
Ta có: SS1 = 12 + 42 + 92 + 42 + 92 + 162 + 92 + 162 + 232 =1812
SS2 = 1/3 (142+ 292 + 482) = 1113,7
SS3 = 1/6 (14 + 29 + 48)2 = 1380,2
Có S2A = 133,25
S2TN = 71,97
→ F tính = 1,85
F bảng(95, 2,6) = 5,14
Ta thấy F tính < F bảng . Vậy nhân tố A không ảnh hưởng tới kết quả thực
nghiệm
10
Bài 6: Xác định ảnh hưởng của nhân tố A lên thí nghiệm người ta thu được
kết quả sau. Hãy phân tích phương sai xem A có ảnh hưởng lên kêt quả thực
nghiệm không?
Mức
nghiên
cứu
A
B
C
Lần lặp
1
3
5
2
2
6
7
3
3
1
4
2
4
2
6
2
Ta có: SS1 = 32 + 62 + 12 + 22 + 52 + 72 + 42 + 62 + 22 + 32 + 22 + 22 =197
SS2 = 1/4 (122+ 222 + 92) = 177,25
SS3 = 1/9 (12 + 22 + 9)2 = 200,67
Có S2A = 11,7
S2TN = 0,41
→ F tính = 28,54
F bảng(95, 2,6) = 5,14
Ta thấy F tính >> F bảng . Vậy nhân tố A ảnh hưởng mạnh tới kết quả thực
nghiệm
Bài 7: Trung tâm nghiên cứu lúa gạo quốc tế tại Philippines muốn xem xét
sự liên quan giữa năng xuất lúa mỳ Y, với mật độ gieo trồng X. Họ thực hiện
các thí nghiệm và đưa ra kết quả ở bảng. Tìm đường hồi quy tuyến tính giữa
X và Y (quan hệ hàm giữa chúng)
11
Năng suất lúa mỳ
4,862
5,244
5,128
5,052
5,298
5,410
5,234
5,608
Mật độ trồng
160
175
192
195
238
240
252
282
Bài làm:
Phân tích SPSS sử dụng công cụ Analyze→Regression→Curve Estimation
Ta có hệ số tương quan r = b = 0.728 = 0.853
Ta chọn X là biến phụ thuộc
Y là biến độc lập
Statistics
X
N
Mean
Y
Valid
8
8
Missing
0
0
216.75
5.22950
a = X - b Y = 216,75– 0,853 *5,23 = 212,29
Vậy phương trình đường hồi quy sẽ là X = 212,29 + 0,853*Y
12
Model Summary and Parameter Estimates
Dependent Variable:X
Model Summary
Equation
Linear
R Square
.728
F
16.036
df1
Parameter Estimates
df2
1
Sig.
6
.007
Constant
-618.657
b1
159.749
The independent variable is Y.
Nhìn đồ thị ta thấy các điểm không nằm trên đường hồi quy. Điều này có
nghĩa là kết quả nghiên cứu giữa năng xuất lúa mỳ y với mật độ gieo trồng x
là không liên quan tới nhau.
13
Bai 8 : Xét quan hệ thân nhiệt ( nhiệt độ x) và nhịp đập của tim(mạch
đập y) Họ thực hiện các thí nghiệm và đưa ra kết quả ở bảng. Tìm đường hồi
quy tuyến tính giữa X và Y (quan hệ hàm giữa chúng)
Trẻ em
1
2
3
4
5
6
7
8
9
10
Nhiệt độ (x)
68
65
70
62
60
55
58
65
69
63
Mach đập(y)
2
5
1
10
9
13
10
3
4
6
Bài làm:
Phân tích SPSS sử dụng công cụ Analyze→Regression→Curve Estimation
Ta có hệ số tương quan r = b = 0,886 = 0,94
Ta chọn x là biến độc lập
Y là biến phụ thuộc
14
Model Summary and Parameter Estimates
Dependent Variable:nhietdo
Model Summary
Equatio
n
Linear
R Square
.886
F
df1
62.265
Parameter Estimates
df2
Sig.
1
8
Constant
.000
70.736
b1
-1.149
The independent variable is machdap.
Statistics
nhietdo
N
Valid
Missing
Mean
machdap
10
10
0
0
63.50
6.30
Ta có
a = Y - b X = 63,5 – 0,886*6.3 = 57,9
Vậy phương trình đường hồi quy sẽ là
Y = 57,9 X + 0,886
Nhìn đồ thị ta thấy có một điểm nằm trên đường hồi quy. Điều này có nghĩa
là kết quả nghiên cứu giữa nhiệt độ và mạch đập gần như là không tương
quan tới nhau.
15
II. Chọn 2 tập dữ liệu (Thuộc 1 cột nào đó của file đã cho), 1
tập có n<30 và 1 tập có n>30. Với mỗi tập đó hãy phân tích các
tham số mô tả đặc trưng bằng phương pháp thích hợp và vẽ
biểu đồ histogram của nó.
Từ kết quả, có nhận xét gì về mỗi tập dữ liệu?
Bài làm: Ta tiến hành chọn tập A và B thuộc cột B của file đã cho
16
1
2
3
4
5
17
6
7
8
A
B
A
B
A
B
A
B
5
7
9
9
11
17
4
11
25
9
9
10
7
4
18
17
9
26
10
8
11
5
7
19
5
6
27
7
7
12
10
5
20
9
7
28
7
5
13
11
5
21
6
5
29
7
9
14
7
9
22
8
4
30
6
19
15
5
11
23
5
4
31
6
11
16
7
10
24
7
6
8
5
12
7
9
7
Ta có bảng phân bổ tần suất của tập dữ liệu A
A
Cumulative
Frequency
Valid
Total
Valid Percent
Percent
4
1
3.2
4.3
4.3
5
4
12.9
17.4
21.7
6
3
9.7
13.0
34.8
7
6
19.4
26.1
60.9
8
1
3.2
4.3
65.2
9
3
9.7
13.0
78.3
10
2
6.5
8.7
87.0
11
1
3.2
4.3
91.3
15
1
3.2
4.3
95.7
17
1
3.2
4.3
100.0
23
74.2
100.0
8
25.8
31
100.0
Total
Missing
Percent
System
Bảng phân bổ tần suất của tập dữ liệu B
18
5
32
B
Cumulative
Frequency
Valid
Percent
Valid Percent
Percent
4
3
9.7
9.7
9.7
5
6
19.4
19.4
29.0
6
2
6.5
6.5
35.5
7
6
19.4
19.4
54.8
8
2
6.5
6.5
61.3
9
5
16.1
16.1
77.4
10
1
3.2
3.2
80.6
11
4
12.9
12.9
93.5
12
1
3.2
3.2
96.8
19
1
3.2
3.2
100.0
31
100.0
100.0
Total
Ta có các tham số đặc trưng của 2 tập số liệu
19
A
N
Valid
B
23
31
8
0
Mean
7.91
7.81
Std. Error of Mean
.659
.565
Median
7.00
7.00
7
5a
Std. Deviation
3.161
3.146
Variance
9.992
9.895
13
15
182
242
25
6.00
5.00
50
7.00
7.00
75
9.00
9.00
Missing
Mode
Range
Sum
Percentiles
a. Multiple modes exist. The smallest value is shown
Từ kết quả phân tích ta thấy
Ftính= S2A/ S2B = 1 < F bảng . Vậy chấp nhận H0 bác bỏ Ha
S2A = S2B đáng tin cậy
20
- Xem thêm -