Đăng ký Đăng nhập
Trang chủ Công nghệ thông tin Cơ sở dữ liệu Bài tập lớn môn phân tích và thống kê số liệu...

Tài liệu Bài tập lớn môn phân tích và thống kê số liệu

.DOC
29
905
148

Mô tả:

Bài tập lớn môn phân tích và thống kê số liệu
BỘ CÔNG THƯƠNG TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI ----------o0o---------- BÀI TẬP LỚN MÔN Phân tích và thống kê số liệu Lớp: CĐ Tin3 Khoá:10 Giáo viên hướng dẫn: Th.S. Nguyễn Phương Nga Hà nội 1 Lời Nói Đầu Trước kia việc nghiên cứu, tính toán..cho một tập dữ liệu là một công việc tương đối khó khăn và mất thời gian. Nhưng ngày nay, với sự trợ giúp của CNTT thì các công việc đó đơn giản hơn rất nhiều. Đặc biệt SPSS for Windows cung cấp một hệ thống quản lý dữ liệu, và phân tích thống kê trong một môi trường đồ họa, sử dụng các trình đơn mô tả (menu) và các hộp thoại (dialogue box) đơn giản để thực hiện hầu hết các công việc cho bạn. Phần lớn các nhiệm vụ có thể được hoàn thiện bằng cách rê và nhắp chuột. Trong phần trình bày này, nhóm chúng tôi xin đưa ra một số bài tập, phân tích các tham số mô tả đặc trưng bằng phương pháp thích hợp, vẽ biểu đồ histogram, tìm đường hồi qui, tìm khoảng tin cậy đối với độ dốc, tìm một khoảng tin cậy đối với giá trị trung bình của biến phụ thuộc,thực hiện tìm đường hồi qui và đánh giá năng lực dự báo của mô hình,…Bằng việc sử dụng phần mềm SPSS. Do thời gian nghiên cứu và sự hiểu biết còn nhiều hạn chế. Chính vì vậy bài Trình bày không tránh được những sai sót, rất mong nhận được sự đóng góp của cô giáo và các bạn. Và chúng em xin cảm ơn cô giáo Nguyễn Phương Nga đã tận tình hướng dẫn nhóm chúng em làm bào báo cáo này Nhóm chúng em xin chân thành cảm ơn! 2 I. Một số bài tập sử dụng phần mền SPSS Bài1: Cho một tập số liệu kết quả thực nghiệm: 33 33 32 33 30 25 31 34 22 26 29 29 32 35 24 33 34 34 X8 31 X17 34 X9 32 X18 35 A. Hãy tính các đại lượng đặc trưng của tập số liệu trên B. Phân tích, đánh giá tập số liệu Bài Làm: Sắp xếp tập số liệu theo giá trị tăng dần X1 22 X10 32 X2 24 X11 33 X3 25 X12 33 X4 26 X13 33 X5 29 X14 33 X6 29 X15 34 X7 30 X16 34 A. Tính các đại lượng đặc trưng của tập số liệu  Dùng kiểm định Alalyze→Descriptives→frequencies 1. Bảng phân bổ tần suất 3 Xi Cumulative Frequency Valid Percent Valid Percent Percent 22 1 5.6 5.6 5.6 24 1 5.6 5.6 11.1 25 1 5.6 5.6 16.7 26 1 5.6 5.6 22.2 29 2 11.1 11.1 33.3 30 1 5.6 5.6 38.9 31 1 5.6 5.6 44.4 32 2 11.1 11.1 55.6 33 4 22.2 22.2 77.8 34 3 16.7 16.7 94.4 35 1 5.6 5.6 100.0 18 100.0 100.0 Total 2. Các đại lượng đặc trưng của tập số liệu 4 Statistics Xi N Valid Missing 18 0 Mean ( Trung bình) 30.5000 Std. Error of Mean .91555 Median (Trung vị) 32.0000 Mode (Số trội) 33.00 Std. Deviation (Độ lệch chuẩn) 3.88436 Variance (Phương sai) 15.088 Range (khoảng cách) 13.00 Minimum 22.00 Maximum 35.00 Sum Percentiles 549.00 25 28.2500 50 32.0000 75 33.2500 - M0 = 33 - Med = ½ * [Xn/2 + X(n/2+1)] = 32 - X = 30,5 - S2 = 15,088. Đặc trưng cho sự sai biệt của tập kết quả và đặc trưng cho độ phân tán của tập số liệu với giá trị trung bình Phương sai càng lớn thì sai biệt và độ phân tán xung quanh càng lớn - Sf = S2 = 3,9. có ý nghĩa như phương sai - Cv = 12,7% B. Phân tích đánh giá tập số liệu mẫu - Khoảng chính xác tin cậy của tập số liệu là: Δx (p,f) = X- μ= t(p,f)* S¯x = 1,94 - Khoảng giới hạn tin cậy của tập số liệu là: ¯X - t(p,f) * Sf< Xi < ¯X + t(p,f) * Sf 5 28,57 < Xi < 32,43 (với độ tin cậy thống kê là 95%) Bài2: Sử dụng 4 phương pháp nghiên cứu A, B, C và D. Kết quả làm lặp lại theo mỗi phương pháp 6 lần thu được bảng N 1 2 3 4 5 6 Ph2A 18,00 18,05 17,95 18,15 17,95 18,20 Ph2B 18,55 17,60 18,00 18,30 18,25 17,90 Ph2C 17,65 17,70 17,90 17,65 17,85 17,75 Ph2D 19,10 18,40 18,10 18,70 18,80 18,50 A. Tính giá trị trung bình, phương sai của mỗi phương pháp và nhận xét B. Biết giá trị thật là 18,1. Phân tích đánh giá sai số của mỗi phương pháp Bài làm: A.  Dùng phần mềm SPSS 6 Statistics ph2A N ph2B ph2C ph2D Valid 6 6 6 6 Missing 0 0 0 0 18.0500 18.1000 17.7500 18.6000 Std. Error of Mean .04282 .13723 .04282 .14142 Std. Deviation .10488 .33615 .10488 .34641 .011 .113 .011 .120 108.30 108.60 106.50 111.60 25 17.9500 17.8250 17.6500 18.3250 50 18.0250 18.1250 17.7250 18.6000 75 18.1625 18.3625 17.8625 18.8750 Mean Variance Sum Percentiles Ta được X S2 Ph2A 18,05 0.012 Ph2B 18,10 0.112 Ph2C 177,75 0.018 Ph2D 18,60 0.120 Theo kết quả phân tích ta thấy Nếu nghiên cứu theo cả 4 phương pháp A, B , C và D thì sự sai biệt của các số liệu trong kết quả thực nghiệm và độ phân tán xung quanh giá trị trung bình là tương đối nhỏ. Tuy nhiên với phương pháp A thì nhỏ nhất B. Phân tích đánh giá sai số của mỗi phương pháp - Phương pháp A ta = 0,354 << tbảng(95,5) >> = 2,57 →x ≡ μ → sai số ngẫu nhiên. Xi phân bố đều hai phái của giá trị thực trên trục số. Sai số này bao giờ cũng gặp phải và ta chỉ có thể giảm sai số ngẫu nhiên - Phương pháp B tB = 0 < tb = 2,57 → mắc sai số ngẫu nhiên - Phương pháp C tc = 6,48 >> tbảng(95,5) = 2,57 7 →x ≠ μ → sai số hệ thống. Xi Tập trung về một phía của giá trị thực trên trục số. Ta có thể loiaj bỏ được sai số này nếu tìm ra được nguyên nhân tD = 3,54 → mắc sai số hệ thống Bài 3: Hai nghiên cứu A và B thu được kết quả như sau A B A B A B 4,40 4,42 4,75 4,29 4,60 - 4,56 4,47 4,72 4,52 4,36 - 4,42 4,70 4,53 4,57 4,75 - 4,59 4,72 4,66 4,56 4,22 - 4,55 4,53 4,90 4,66 4,45 4,55 4,50 - 4,55 4,60 4,45 - 4,39 4,64 4,66 - A. Phân tích các đại lượng đặc trưng của tập kết quả thực nghiệm trên B. So sánh giá trị trung bình và giá trị phương sai của 2 thực nghiệm A và B Bài làm: A.Các đại lượng đặc trưng của tập số liệu Theo phân tích SPSS ta có B. Ta thấy F = 2,12 < Fb(95,12,19) = 2,54 Vậy ta chấp nhận Ho bác bỏ Ha. Tức là chấp nhận S2A = S2B Theo kết quả phân tích ta có Kết quả A: - Khoảng của tập số liệu:R= 0,68 - Giá trị trung bình: ¯X = 4,56 8 - Độ lệch chuẩn Sf = 0,17 - Phương sai S2 = 0,03 Kết quả B: - Khoảng của tập số liệu:R= 0,43 - Giá trị trung bình: ¯X = 4,54 - Độ lệch chuẩn Sf = 0,12 - Phương sai S2 = 0,14 B. So sánh phương sai Ta thấy F= S2A/S2B = 2,12 tt(0,95,9) = 2,26. Vậy hai kết quả nghiên cứu là khác nhau. Bài 5: Xác định ảnh hưởng của nhân tố A lên thí nghiệm người ta thu được kết quả sau. Hãy phân tích phương sai xem A có ảnh hưởng lên kêt quả thực nghiệm không? Mức nghiên cứu a1 a2 a3 Lần lặp 1 1 4 9 2 4 9 16 3 9 16 23 Ta có: SS1 = 12 + 42 + 92 + 42 + 92 + 162 + 92 + 162 + 232 =1812 SS2 = 1/3 (142+ 292 + 482) = 1113,7 SS3 = 1/6 (14 + 29 + 48)2 = 1380,2 Có S2A = 133,25 S2TN = 71,97 → F tính = 1,85 F bảng(95, 2,6) = 5,14 Ta thấy F tính < F bảng . Vậy nhân tố A không ảnh hưởng tới kết quả thực nghiệm 10 Bài 6: Xác định ảnh hưởng của nhân tố A lên thí nghiệm người ta thu được kết quả sau. Hãy phân tích phương sai xem A có ảnh hưởng lên kêt quả thực nghiệm không? Mức nghiên cứu A B C Lần lặp 1 3 5 2 2 6 7 3 3 1 4 2 4 2 6 2 Ta có: SS1 = 32 + 62 + 12 + 22 + 52 + 72 + 42 + 62 + 22 + 32 + 22 + 22 =197 SS2 = 1/4 (122+ 222 + 92) = 177,25 SS3 = 1/9 (12 + 22 + 9)2 = 200,67 Có S2A = 11,7 S2TN = 0,41 → F tính = 28,54 F bảng(95, 2,6) = 5,14 Ta thấy F tính >> F bảng . Vậy nhân tố A ảnh hưởng mạnh tới kết quả thực nghiệm Bài 7: Trung tâm nghiên cứu lúa gạo quốc tế tại Philippines muốn xem xét sự liên quan giữa năng xuất lúa mỳ Y, với mật độ gieo trồng X. Họ thực hiện các thí nghiệm và đưa ra kết quả ở bảng. Tìm đường hồi quy tuyến tính giữa X và Y (quan hệ hàm giữa chúng) 11 Năng suất lúa mỳ 4,862 5,244 5,128 5,052 5,298 5,410 5,234 5,608 Mật độ trồng 160 175 192 195 238 240 252 282 Bài làm: Phân tích SPSS sử dụng công cụ Analyze→Regression→Curve Estimation Ta có hệ số tương quan r = b = 0.728 = 0.853 Ta chọn X là biến phụ thuộc Y là biến độc lập Statistics X N Mean Y Valid 8 8 Missing 0 0 216.75 5.22950 a = X - b Y = 216,75– 0,853 *5,23 = 212,29 Vậy phương trình đường hồi quy sẽ là X = 212,29 + 0,853*Y 12 Model Summary and Parameter Estimates Dependent Variable:X Model Summary Equation Linear R Square .728 F 16.036 df1 Parameter Estimates df2 1 Sig. 6 .007 Constant -618.657 b1 159.749 The independent variable is Y. Nhìn đồ thị ta thấy các điểm không nằm trên đường hồi quy. Điều này có nghĩa là kết quả nghiên cứu giữa năng xuất lúa mỳ y với mật độ gieo trồng x là không liên quan tới nhau. 13 Bai 8 : Xét quan hệ thân nhiệt ( nhiệt độ x) và nhịp đập của tim(mạch đập y) Họ thực hiện các thí nghiệm và đưa ra kết quả ở bảng. Tìm đường hồi quy tuyến tính giữa X và Y (quan hệ hàm giữa chúng) Trẻ em 1 2 3 4 5 6 7 8 9 10 Nhiệt độ (x) 68 65 70 62 60 55 58 65 69 63 Mach đập(y) 2 5 1 10 9 13 10 3 4 6 Bài làm: Phân tích SPSS sử dụng công cụ Analyze→Regression→Curve Estimation Ta có hệ số tương quan r = b = 0,886 = 0,94 Ta chọn x là biến độc lập Y là biến phụ thuộc 14 Model Summary and Parameter Estimates Dependent Variable:nhietdo Model Summary Equatio n Linear R Square .886 F df1 62.265 Parameter Estimates df2 Sig. 1 8 Constant .000 70.736 b1 -1.149 The independent variable is machdap. Statistics nhietdo N Valid Missing Mean machdap 10 10 0 0 63.50 6.30 Ta có a = Y - b X = 63,5 – 0,886*6.3 = 57,9 Vậy phương trình đường hồi quy sẽ là Y = 57,9 X + 0,886 Nhìn đồ thị ta thấy có một điểm nằm trên đường hồi quy. Điều này có nghĩa là kết quả nghiên cứu giữa nhiệt độ và mạch đập gần như là không tương quan tới nhau. 15 II. Chọn 2 tập dữ liệu (Thuộc 1 cột nào đó của file đã cho), 1 tập có n<30 và 1 tập có n>30. Với mỗi tập đó hãy phân tích các tham số mô tả đặc trưng bằng phương pháp thích hợp và vẽ biểu đồ histogram của nó. Từ kết quả, có nhận xét gì về mỗi tập dữ liệu? Bài làm: Ta tiến hành chọn tập A và B thuộc cột B của file đã cho 16 1 2 3 4 5 17 6 7 8 A B A B A B A B 5 7 9 9 11 17 4 11 25 9 9 10 7 4 18 17 9 26 10 8 11 5 7 19 5 6 27 7 7 12 10 5 20 9 7 28 7 5 13 11 5 21 6 5 29 7 9 14 7 9 22 8 4 30 6 19 15 5 11 23 5 4 31 6 11 16 7 10 24 7 6 8 5 12 7 9 7 Ta có bảng phân bổ tần suất của tập dữ liệu A A Cumulative Frequency Valid Total Valid Percent Percent 4 1 3.2 4.3 4.3 5 4 12.9 17.4 21.7 6 3 9.7 13.0 34.8 7 6 19.4 26.1 60.9 8 1 3.2 4.3 65.2 9 3 9.7 13.0 78.3 10 2 6.5 8.7 87.0 11 1 3.2 4.3 91.3 15 1 3.2 4.3 95.7 17 1 3.2 4.3 100.0 23 74.2 100.0 8 25.8 31 100.0 Total Missing Percent System Bảng phân bổ tần suất của tập dữ liệu B 18 5 32 B Cumulative Frequency Valid Percent Valid Percent Percent 4 3 9.7 9.7 9.7 5 6 19.4 19.4 29.0 6 2 6.5 6.5 35.5 7 6 19.4 19.4 54.8 8 2 6.5 6.5 61.3 9 5 16.1 16.1 77.4 10 1 3.2 3.2 80.6 11 4 12.9 12.9 93.5 12 1 3.2 3.2 96.8 19 1 3.2 3.2 100.0 31 100.0 100.0 Total Ta có các tham số đặc trưng của 2 tập số liệu 19 A N Valid B 23 31 8 0 Mean 7.91 7.81 Std. Error of Mean .659 .565 Median 7.00 7.00 7 5a Std. Deviation 3.161 3.146 Variance 9.992 9.895 13 15 182 242 25 6.00 5.00 50 7.00 7.00 75 9.00 9.00 Missing Mode Range Sum Percentiles a. Multiple modes exist. The smallest value is shown Từ kết quả phân tích ta thấy Ftính= S2A/ S2B = 1 < F bảng . Vậy chấp nhận H0 bác bỏ Ha S2A = S2B đáng tin cậy 20
- Xem thêm -

Tài liệu liên quan