Đăng ký Đăng nhập
Trang chủ Dự báo sinh viên nhập học khoa công nghệ sinh học trường đại học mở hà nội dùn...

Tài liệu Dự báo sinh viên nhập học khoa công nghệ sinh học trường đại học mở hà nội dùng phương pháp học máy

.PDF
94
1
144

Mô tả:

TRƢỜNG ĐẠI HỌC MỞ HÀ NỘI KHOA CÔNG NGHỆ THÔNG TIN LUẬN VĂN THẠC SĨ ĐỀ TÀI: DỰ BÁO SINH VIÊN NHẬP HỌC KHOA CÔNG NGHỆ SINH HỌC – TRƢỜNG ĐẠI HỌC MỞ HÀ NỘI DÙNG PHƢƠNG PHÁP HỌC MÁY HỌC VIÊN: NGUYỄN THỊ HƢƠNG HÀ NỘI – 2022 TRƢỜNG ĐẠI HỌC MỞ HÀ NỘI KHOA CÔNG NGHỆ THÔNG TIN LUẬN VĂN THẠC SỸ ĐỀ TÀI: DỰ BÁO SINH VIÊN NHẬP HỌC KHOA CÔNG NGHỆ SINH HỌC – TRƢỜNG ĐẠI HỌC MỞ HÀ NỘI DÙNG PHƢƠNG PHÁP HỌC MÁY HỌC VIÊN: NGUYỄN THỊ HƢƠNG CHUYÊN NGÀNH : CÔNG NGHỆ THÔNG TIN MÃ NGÀNH: 8.48.02.1 NGƢỜI HƢỚNG DẪN KHOA HỌC PGS.TS NGUYỄN QUANG HOAN HÀ NỘI - 2022 ii LỜI CAM ĐOAN Tôi cam đoan đây là công trình nghiên cứu của riêng tôi. Các số liệu, kết quả nêu trong luận văn là trung thực và chƣa từng đƣợc ai công bố trong bất kỳ công trình nào khác. Hà Nội, ngày 01 tháng 08 năm 2022 HỌC VIÊN Nguyễn Thị Hƣơng iii LỜI CẢM ƠN Em xin chân thành cảm ơn Khoa Công nghệ thông tin - Trƣờng Đại học Mở Hà Nội đã tạo điều kiện thuận lợi giúp em hoàn thành luận văn này. Em xin chân thành cảm ơn sự hƣớng dẫn, chỉ bảo tận tình của PGS.TS. Nguyễn Quang Hoan trong suốt thời gian thực hiện đề tài, cảm ơn thầy đã luôn dành thời gian giúp đỡ em để có thể hoàn thành đƣợc luận văn này. Em xin cảm các thầy cô giáo khoa Công nghệ thông tin - Trƣờng Đại học Mở Hà Nội đã truyền thụ kiến thức, hỗ trợ em trong suốt quá trình học tập vừa qua. Cảm ơn bạn bè, đồng nghiệp, gia đình và những ngƣời thân yêu đã luôn đồng hành, tạo mọi điều kiện, động viên giúp đỡ em trong quá trình học tập, công tác để hoàn thành khóa học và luận văn này. Qua một thời gian em đã hoàn thành luận văn tốt nghiệp với đề tài: Dự báo sinh viên nhập học Khoa Công nghệ sinh học – Trƣờng Đại học Mở Hà Nội dùng phƣơng pháp học máy”. Tuy đã cố gắng nhƣng chắc chắn vẫn không tránh khỏi những thiếu sót. Kính mong nhận đƣợc sự thông cảm và đóng góp ý kiến của quý Thầy Cô và các bạn. Hà Nội, ngày 01 tháng 08 năm 2022 HỌC VIÊN Nguyễn Thị Hƣơng iv MỤC LỤC LỜI CAM ĐOAN .................................................................................................................iii LỜI CẢM ƠN ....................................................................................................................... iv DANH MỤC CÁC THUẬT NGỮ ...................................................................................... vii DANH MỤC CÁC BẢNG .................................................................................................viii LỜI MỞ ĐẦU ........................................................................................................................ 1 CHƢƠNG 1: .......................................................................................................................... 4 TỔNG QUAN VỀ CÁC PHƢƠNG PHÁP DỰ BÁO .......................................................... 4 1.1. Khái quát về dự báo ........................................................................................................ 4 1.2. Các phƣơng pháp dự báo ................................................................................................ 4 1.2.1. Phƣơng pháp định tính .............................................................................................. 5 1.2.2. Phƣơng pháp định lƣợng .......................................................................................... 5 1.3. Quy trình thực hiện dự báo ............................................................................................. 6 1.4. Các phƣơng pháp, mô hình dự báo trên thế giới............................................................. 9 1.4.1. Phƣơng pháp định tính ............................................................................................. 9 1.4.2. Phân tích chuỗi thời gian ......................................................................................... 9 1.4.3. Mô hình nguyên nhân – kết quả............................................................................. 10 1.5. Các phƣơng pháp, mô hình dự báo ở Việt Nam ........................................................... 10 1.5.1. Phƣơng pháp ngoại suy .......................................................................................... 10 1.5.2. Phƣơng pháp chuyên gia ........................................................................................ 11 1.5.3. Phƣơng pháp mô hình hóa ..................................................................................... 11 1.5.4. Hƣớng tiếp cận mới ............................................................................................... 12 1.6. Kết luận chƣơng 1 ......................................................................................................... 12 CHƢƠNG 2 : ....................................................................................................................... 13 THUẬT TOÁN C4.5 VÀ BAYES ...................................................................................... 13 2.1. Thuật toán C4.5............................................................................................................. 13 2.1.1. Giới thiệu chung .................................................................................................... 13 2.1.2. Thuật toán C4.5...................................................................................................... 13 2.1.3. C4.5 chọn thuộc tính phân loại tốt nhất ................................................................ 15 2.1.4. Xử lý trong trƣờng hợp dữ liệu thiếu .................................................................... 16 2.1.5. Chuyển đổi từ cây quyết định sang luật ................................................................. 17 2.1.6. C4.5 là một thuật toán hiệu quả cho những tập dữ liệu vừa và nhỏ ...................... 18 2.1.7. Ví dụ minh họa cho giải thuật C4.5 ....................................................................... 18 2.2. Thuật toán Bayes .......................................................................................................... 22 2.2.1. Ý tƣởng và mục đích của thuật toán ...................................................................... 22 2.2.2. Thuật toán Bayes ................................................................................................... 23 2.2.3. Ví dụ minh họa cho giải thuật Bayes ..................................................................... 24 2.3. Kết luận chƣơng 2 ......................................................................................................... 26 CHƢƠNG 3: ........................................................................................................................ 27 ỨNG DỤNG THUẬT TOÁN C4.5 VÀ BAYES ĐỂ DỰ BÁO ......................................... 27 SỐ SINH VIÊN NHẬP HỌC .............................................................................................. 27 3.1 Giới thiệu bài toán ........................................................................................................ 27 3.2 Thu thập và tiền xử lý dữ liệu ....................................................................................... 27 3.2.1 Thu thập dữ liệu ...................................................................................................... 27 3.2.2 Phân tích và xử lý dữ liệu .................................................................................. 29 3.3. Ứng dụng dự báo số sinh viên nhập học ................................................................... 32 3.3.1 Dự báo sinh viên nhập học dùng thuật toán C4.5 ................................................... 32 3.3.2 Dự báo sinh viên nhập học dùng thuật toán Bayes ................................................. 46 v 3.4 Giới thiệu phần mềm Weka .......................................................................................... 55 3.4.1 Giới thiệu chung ..................................................................................................... 55 3.4.2. Phần mềm Weka .................................................................................................... 55 3.4.3. Cài đặt và chạy Weka ............................................................................................ 56 3.5. Kết quả thử nghiệm ....................................................................................................... 57 3.5.1. Thử nghiệm bằng thuật toán C4.5 ........................................................................ 57 3.5.2. Thử nghiệm bằng thuật toán Bayes ...................................................................... 62 3.5.3. So sánh độ đo phân lớp của C4.5 và Bayes .......................................................... 65 3.6. Thử nghiệm khi thêm/bớt đặc trƣng đầu vào cho tập huấn luyện mẫu dữ liệu S ......... 65 trên phần mềm Weka ........................................................................................................... 65 3.6.1 Thêm một đặc trƣng đầu vào (THXT) .................................................................... 65 3.6.2 Bớt một đặc trƣng đầu vào (TD) ............................................................................. 72 3.7. Thực nghiệm dữ liệu (Percentage Split) với C4.5 và Bayes trên Weka ...................... 78 3.7.1. Thực nghiệm dữ liệu với C4.5 ( sử dụng J48 trên Weka)...................................... 78 3.7.2. Thực nghiệm dữ liệu với Bayes trên Weka ........................................................... 80 3.8. Kết luận chƣơng 3 ......................................................................................................... 81 KẾT LUẬN CHUNG .......................................................................................................... 83 TÀI LIỆU THAM KHẢO ................................................................................................... 85 vi DANH MỤC CÁC THUẬT NGỮ Viết tắt C4.5 C5.0 Tiếng Anh C4.5 Algorithm C5.0 Algorithm Tiếng Việt Giải thuật C4.5 Giải thuật C5.0 Công nghệ sinh học Công nghệ thực phẩm Cơ sở dữ liệu CNSH CNTP CSDL (Định dạng tệp csv): Các giá trị tách biệt bằng dấu phẩy Sự kiện đƣợc dự đoán là Không” thực tế có” xảy ra. Sai của giá trị âm : m sai Sự kiện đƣợc dự đoán là Có” thực tế không” xảy ra. Sai của giá trị dƣơng: Dƣơng sai CSV Comma Separated Values FN False Negative FP False Positive G GR GDP ID3 IG Info Gain Gain Ratio Gross Domestic Product Inductive Dichotomizer 3 Information Gain Information Độ lợi Tỉ số độ lợi Tổng sản phẩm quốc nội Giải thuật quy nạp cây ID3 Độ lợi thông tin Thông tin J48 Java-48 Giải thuật J48 SplitInfo TN Split Information Thông tin của phân phối dữ liệu True Negative TP True Positive Sự kiện đƣợc dự đoán là Không” thực tế có” xảy ra. Đúng của giá trị âm : m đúng Sự kiện đƣợc dự đoán là Có” thực tế không” xảy ra. Đúng của giá trị dƣơng: Dƣơng đúng Môi trƣờng Waikato để Phân tích Tri thức.Phần mềm học máy của trƣờng Đại học Waikato WEKA Waikato Environment for Knowledge Analysis vii DANH MỤC CÁC BẢNG Tên bảng Trang Bảng 1.1: Tổng hợp một số phƣơng pháp dự báo thƣờng dùng trên thế giới 4 Bảng 2.1: Bảng cơ sở dữ liệu dự đoán đỗ đại học 18 Bảng 2.2: Bảng cơ sở dữ liệu thời tiết 24 Bảng 3.1: Quy ƣớc biểu diễn dữ liệu 27 Bảng 3.2: Bảng các thuộc tính của tập dữ liệu 28 Bảng 3.3: Dữ liệu mẫu huấn luyện (S) 29 Bảng 3.4: Bảng so sánh kết quả GainRatio trong tập thuộc tính S 36 Bảng 3.5: Dữ liệu mẫu huấn luyện S1 (KV=KV1) 37 Bảng 3.6: Bảng so sánh kết quả GainRatio trong tập thuộc tính S1 39 Bảng 3.7: Dữ liệu mẫu huấn luyện S2 (TD = T-TBK) 40 Bảng 3.8 Bảng so sánh kết quả GainRatio trong tập thuộc tính S2 42 Bảng 3.9: Dữ liệu mẫu huấn luyện S3 (NH = CNTP) 43 Bảng 3.10: Bảng tập luật 45 Bảng 3.11: Bảng dữ liệu học sinh viên 46 Bảng 3.12: Bảng dữ liệu của các mẫu tin cần dự báo 48 Bảng 3.13: Bảng xác suất của tập dữ liệu sinh viên 49 Bảng 3.14: Bảng dữ liệu của các mẫu tin đã đƣợc gán nhãn 54 Bảng 3.15: Các độ đo của thuật toán C4.5 và Bayes 64 Bảng 3.16: Tập huấn luyện dữ liệu mẫu (S4) 64 Bảng 3.17: Bảng tập luật (thêm đặc trƣng) 68 Bảng 3.18: Tập huấn luyện dữ liệu mẫu (S5) 71 Bảng 3.19: Bảng tập luật (bớt đặc trƣng) 74 Bảng 3.20: Thống kê các lần chạy thực nghiệm với C4.5 trên Weka 78 Bảng 3.21: Thống kê các lần chạy thực nghiệm với Bayes trên Weka 79 viii DANH MỤC CÁC HÌNH Tên hình Trang Hình 1.1: Quy trình thực hiện dự báo 6 Hình 1.2: Quy trình lựa chọn mô hình dự báo 8 Hình 1.3: Mô hình dự báo trên công nghệ máy học 12 Hình 2.1: Mã giải thuật toán C4.5 14 Hình 2.2: Ví dụ về Cây quyết định hoàn chỉnh 21 Hình 3.1: Cây quyết định cấp 1 36 Hình 3.2: Cây quyết định cấp 2 40 Hình 3.3: Cây quyết định cấp 3 42 Hình 3.4: Cây quyết định cấp 4 44 Hình 3.5: Phần mềm Weka 56 Hình 3.6: File dữ liệu định dạng chuẩn csv 57 Hình 3.7: Giao diện Weka 57 Hình 3.8: Giao diện Preprocess 58 Hình 3.9: Giao diện Classify 58 Hình 3.10: Giao diện chọn thuật toán 59 Hình 3.11: Kết quả Classifer Output thuật toán C4.5 59 Hình 3.12: Ma trận nhầm lẫn dùng C4.5 60 Hình 3.13: Cây quyết định sử dụng thuật toán C4.5 trong Weka 61 Hình 3.14: Giao diện chọn thuật toán Bayes 62 Hình 3.15: Kết quả Classifer Output thuật toán Bayes 63 Hình 3.16: Ma trận nhầm lẫn dùng Bayes 63 Hình 3.17: Cây quyết định (thêm đặc trƣng) dùng thuật toán C4.5 68 Hình 3.18 : Kết quả Classifer Output (thêm đặc trƣng) thuật toán C4.5 69 Hình 3.19: Kết quả Classifer Output (thêm đặc trƣng) thuật toán Bayes 70 Hình 3.20: Cây quyết định (bớt đặc trƣng) dùng thuật toán C4.5 74 Hình 3.21: Kết quả Classifer Output (bớt đặc trƣng) thuật toán C4.5 75 Hình 3.22: Kết quả Classifer Output (bớt đặc trƣng) thuật toán Bayes 76 Hình 3.23: Cấu hình tham số thuật toán C4.5 78 Hình 3.24: Cấu hình tham số thuật toán Bayes 79 ix LỜI MỞ ĐẦU 1. Lý do chọn đề tài Trong những năm gần đây, số lƣợng tuyển sinh đầu vào Khoa CNSH – Trƣờng Đại học Mở Hà Nội đang trở thành mối quan tâm của Ban lãnh đạo Khoa cũng nhƣ Ban giám hiệu nhà trƣờng. Do đó, vấn đề dự báo số lƣợng sinh viên đầu vào có ảnh hƣởng không nhỏ đến công tác tuyển sinh tại Khoa, nhờ đó Ban lãnh đạo Khoa sẽ có những chiến lƣợc tuyển sinh đúng đắn, tập trung vào đúng đối tƣợng cần tuyển. Có nhiều phƣơng pháp dự báo khác nhau theo định tính và định lƣợng. Về định lƣợng thƣờng sử dụng phƣơng pháp dự báo hồi quy tuyến tính hoặc phi tuyến. Về phƣơng pháp định tính thông thƣờng sử dụng các phƣơng pháp học máy nhƣ cây quyết định, Bayes, K-láng giềng…Hiện nay phƣơng pháp học máy thuộc trí tuệ nhân tạo là một phƣơng pháp phổ biển đƣợc áp dụng rộng rãi và báo. Luận văn này sẽ nghiên cứu các phƣơng pháp học máy để dự báo số sinh viên nhập học Khoa CNSH – Trƣờng Đại học Mở Hà Nội, một vấn đề chƣa đƣợc nghiên cứu trƣớc đó. Khoa CNSH – Trƣờng Đại học Mở Hà Nội đã thành lập đƣợc 28 năm, đào tạo đƣợc hàng nghìn kỹ sƣ chính quy với chất lƣợng đội ngũ cán bộ,giảng viên uy tín, tận tâm với công việc. Khoa CNSH đã thực sự trƣởng thành trong sự nghiệp Giáo dục, đào tạo và nghiên cứu khoa học và có những đóng góp đáng kể cho sự nghiệp phát triển nghành Công nghệ sinh học Vệt Nam, đồng thời trở thành một trong những địa chỉ tin cậy về đào tạo nguồn nhân lực có trình độ đại học nghành CNSH của Việt Nam. Tuy nhiên, trong những năm trở lại đây số lƣợng sinh viên nhập học vào Khoa đang có xu thế giảm. Năm SL 2015 2016 104CNSH 86CNSH 2017 2018 2019 2020 88CNSH 56CNSH 45CNSH 29CNSH 47CNTP 36CNTP 30CNTP nhập học 1 Bảng trên từ năm 2015 đến 2017 là số sinh viên thuộc chuyên nghành CNSH, từ 2018 đến 2020 Khoa mở thêm nghành mới Công nghệ thực phẩm (CNTP) nên đƣợc thêm số sinh viên của 2 ngành tƣơng ứng Có nhiều nguyên nhân dẫn tới việc giảm số lƣợng khác nhau nhƣ: sinh viên thuộc Khu vƣc 1 (KV1) thƣờng có xu hƣớng học các nghành xã hội – kinh tế, hoặc học nghề hoặc các trƣờng Trung cấp – Cao đẳng để không mất nhiều thời gian, định hƣớng nghề nghiệp của phụ huynh đối với nghành còn hạn chế …. Với những lý do nhƣ vậy tôi đăng ký nghiên cứu đề tài Dự báo sinh viên nhập học Khoa Công nghệ sinh học – Trƣờng Đại học Mở Hà Nội dùng phƣơng pháp học máy” để đánh giá hiện trạng và dự báo mức tăng giảm số sinh viên nhập học vào Khoa CNSH. Đề tài sẽ tập trung nghiên cứu thuật toán Bayes, thuật toán C 4.5 để dự báo số học sinh nhập học vào Khoa CNSH từ đó có thể mở rộng triển khai dự báo cho các Khoa khác và thậm chí các trƣờng Đại học khác. Từ việc dự đoán bằng phƣơng pháp có căn cứ khoa học đƣa ra các đề xuất, kiến nghị, tham mƣu cho Ban giám hiệu trƣờng Đại học Mở Hà Nội, Ban lãnh đạo Khoa CNSH để chất lƣợng đầu vào của trƣờng ngày càng cao. 2. Mục tiêu, đối tƣợng và phạm vi nghiên cứu - Mục tiêu: Luận văn tập trung tìm hiểu thuật toán C4.5 và Bayes, áp dụng vào bài toán dự báo sinh viên nhập học Khoa CNSH – Trƣờng Đại học Mở Hà Nội. - Đối tƣợng,phạm vi nghiên cứu: + Đối tƣợng nghiên cứu của luận văn là dữ liệu về sinh viên nhập học Khoa CNSH – Trƣờng Đại học Mở Hà Nội năm 2020. + Giới hạn thử nghiệm dự báo theo 4 đặc trƣng và 90 bản ghi đầu vào đƣợc cho là cơ bản nhất +Trong quá trình triển khai 2 thuật toán, tôi tính một số phép tính tiêu biểu sau đó dùng phần mềm Weka để chạy 3. Ý nghĩa khoa học và thực tiễn của luận văn 2 Luận văn nghiên cứu tổng quan về phƣơng pháp dự báo nói chung và dự báo dựa trên thuật toán C4.5, Bayes nói riêng. Phân tích đánh giá thuật toán có giá trị khoa học và thực tiễn. Tìm hiểu các thuật toán giúp chúng ta tiếp thu và có thể phát triển về mặt tƣ tƣởng, cũng nhƣ kỹ thuật của một công nghệ tiên tiến. Từ đó có thể triển khai cài đặt và thử nghiệm các mô hình dự báo thực tế. Cụ thể luận văn sử dụng phần mềm tiên tiến Weka với thuật toán C4.5, Bayes để dự báo số sinh viên nhập học Khoa CNSH – Trƣờng Đại học Mở Hà Nội phục vụ cho công tác tuyển sinh. 4. Bố cục luận văn Luận văn gồm các phần sau: Phần mở đầu Chƣơng 1: Tổng quan về các phƣơng pháp dự báo Chƣơng 2: Thuật toán Bayes và thuật toán C4.5 Chƣơng 3: Ứng dụng thuật toán C4.5 và Bayes để dự báo sinh viên nhập học Phần kết luận: tổng kết kết quả đạt đƣợc của luận văn và hƣớng phát triển tiếp theo Tài liệu tham khảo 3 CHƢƠNG 1: TỔNG QUAN VỀ CÁC PHƢƠNG PHÁP DỰ BÁO 1.1. Khái quát về dự báo Dự báo là một khoa học và nghệ thuật tiên đoán những sự việc sẽ xảy ra trong tƣơng lai, trên cơ sở phân tích khoa học về dữ liệu đã thu thập đƣợc. Khi tiến hành dự báo cần căn cứ vào việc thu thập, xử lý số liệu trong quá khứ và hiện tại để xác định xu hƣớng vận động của các hiện tƣợng trong tƣơng lai nhờ vào một số mô hình toán học (định lƣợng). Tuy nhiên, dự báo cũng có thể là một dự đoán chủ quan hoặc trực giác về tƣơng lai (định tính) và để dự báo định tính đƣợc chính xác, ngƣời ta loại trừ tính chủ quan của ngƣời dự báo. Dù định nghĩa có sự khác biệt, nhƣng đều thống nhất về cơ bản là dự báo bàn về tƣơng lai, nói về tƣơng lai. Dự báo trƣớc hết là một thuộc tính không thể thiếu của tƣ duy con ngƣời, con ngƣời luôn luôn nghĩ đến ngày mai, hƣớng về tƣơng lai. Trong thời đại công nghệ thông tin và toàn cầu hóa, dự báo lại đóng vai trò quan trọng hơn khi nhu cầu về thông tin thị trƣờng, tình hình phát triển tại thời điểm nào đó trong tƣơng lai lại càng cao. Dự báo đƣợc sử dụng trong nhiều lĩnh vực khác nhau, mỗi lĩnh vực có một yêu cầu về dự báo riêng nên phƣơng pháp dự báo đƣợc sử dụng cũng khác nhau [10]. 1.2. Các phƣơng pháp dự báo Có nhiều học giả có cách phân loại phƣơng pháp dự báo khác nhau. Tuy nhiên theo học giả Gordon, trong 2 thập kỷ gần đây, có 8 phƣơng pháp dự báo đƣợc áp dụng rộng rãi trên thế giới [10]. Bảng 1.1.Tổng hợp một số phƣơng pháp dự báo thƣờng dùng trên thế giới STT Diễn giải các phƣơng pháp dự báo 1 Tiên đoán 2 Ngoại suy xu hƣớng 3 Phƣơng pháp chuyên gia 4 Phƣơng pháp mô phỏng 5 Phƣơng pháp ma trận tác động qua lại 6 Phƣơng pháp kịch bản 7 Phƣơng pháp cây quyết định 4 8 Phƣơng pháp dự báo tổng hợp Bảng 1.1 đề cập đến 8 phƣơng pháp thƣờng đƣợc sử dụng trên thế giới trong dự báo. Tuy nhiên, theo cách phân loại tại Việt Nam các phƣơng pháp dự báo đƣợc chia thành 2 nhóm chính là phƣơng pháp định tính và phƣơng pháp định lƣợng. 1.2.1. Phương pháp định tính Phƣơng pháp này dựa trên cơ sở nhận xét của những yếu tố liên quan, dựa trên những ý kiến về các khả năng có liên hệ của những yếu tố liên quan này trong tƣơng lai. Phƣơng pháp định tính có liên quan đến mức độ phức tạp khác nhau, từ việc khảo sát ý kiến đƣợc tiến hành một cách khoa học để nhận biết các sự kiện tƣơng lai hay từ ý kiến phản hồi của một nhóm đối tƣợng hƣởng lợi (chịu tác động) nào đó [10]. Ƣu điểm: dễ dàng thực hiện, không đòi hỏi kiến thức về các mô hình toán hoặc kinh tế lƣợng Nhƣợc điểm: Mang tính chủ quan rất cao, không chuẩn, mất nhiều năm để trở thành ngƣời có khả năng phán đoán đúng. Không có phƣơng pháp hệ thống để đánh giá và cải thiện mức độ chính xác 1.2.2. Phương pháp định lượng Mô hình dự báo định lƣợng dựa trên số liệu quá khứ, những số liệu này giả sử có liên quan đến tƣơng lai và có thể tìm thấy đƣợc. Tất cả các mô hình dự báo theo định lƣợng có thể sử dụng thông qua chuỗi thời gian và các giá trị này đƣợc quan sát đo lƣờng các giai đoạn theo từng chuỗi [10]. Ƣu điểm: - Kết quả dự báo hoàn toàn khách quan - Có phƣơng pháp đo lƣờng độ chính xác dự báo - Tốn ít thời gian để tìm ra kết quả dự báo Nhƣợc điểm: - Chỉ dự báo tốt trong thời gian ngắn và trung hạn - Không có phƣơng pháp nào có thể đƣa đầy đủ những yếu tố bên ngoài có tác động đến kết quả dự báo và mô hình 5 Hiện nay thông thƣờng khi dự báo ngƣời ta thƣờng hay kết hợp cả phƣơng pháp định tính và phƣơng pháp định lƣợng để nâng cao mức độ chính xác của dự báo. Bên cạnh đó, vấn đề cần dự báo đôi khi không thể thực hiện đƣợc thông qua một phƣơng pháp dự báo đơn lẻ mà đòi hỏi kết hợp nhiều hơn một phƣơng pháp nhằm mô tả đúng bản chất sự việc cần dự báo. 1.3. Quy trình thực hiện dự báo Dự báo là một quá trình phức tạp nhƣng về cơ bản quy trình có thể thực hiện theo các bƣớc sau [10]: Xác định mục tiêu Xác định nội dung dự báo Xác định khía cạnh thời gian Xem xét dữ liệu Lựa chọn mô hình Đánh giá mô hình Chuẩn bị dự báo Trình bày kết quả dự báo Theo dõi kết quả dự báo Hình 1.1.Quy trình thực hiện dự báo Bƣớc 1: Xác định mục tiêu 6 Bƣớc đầu tiên trong quy trình dự báo là xác định mục tiêu. Xác định mục tiêu là xác định xem kết quả dự báo sẽ đƣợc sử dụng nhƣ thế nào. Mục tiêu chung của dự báo là lập kế hoạch và có những quyết định hành động hợp lý. Mục tiêu của dự báo tuyển sinh nhằm giúp các nhà lãnh đạo có những chiến lƣợc phát triển một cách hợp lý nhất. Bƣớc 2: Xác định nội dung dự báo Khi các mục tiêu tổng quát đã đƣợc xác định rõ, ta phải xác định chính xác dự báo cái gì. Ví dụ, mục tiêu chung là dự báo tuyển sinh nhƣng một hệ thống dự báo gồm có: Số lƣợng học sinh, số lƣợng lớp…Luận văn xây dựng hệ thống thử nghiệm dự báo tuyển sinh với các thông số đầu vào là số liệu thu đƣợc trong 06 năm liên tiếp tại Khoa CNSH – Trƣờng Đại học Mở Hà Nội Bƣớc 3: Xác định khía cạnh thời gian Sau khi xác định đƣợc nội dung dự báo, thì cần xác định đƣợc độ dài của dự báo: Dự báo dài hạn hay dự báo ngắn hạn và tính cấp thiết của dự báo. Bƣớc 4: Xem xét dữ liệu Mặc dù dữ liệu là cần thiết cho hệ thống để dự báo, nhƣng cũng cần xem xét đến các yếu tố khác của dữ liệu nhƣ: Nguồn cung cấp, các bƣớc phân loại, đánh giá, xử lý dữ liệu trƣớc khi sử dụng. Trong luận văn này sử dụng nguồn dữ liệu thu thập đƣợc từ Phòng Quản lý đào tạo – Trƣờng Đại học Mở Hà Nội. Vì vậy, dữ liệu là chính xác và đáng tin cậy. Bƣớc 5: Lựa chọn mô hình Việc chọn mô hình thích hợp cho dự báo có liên quan đến nhiều yếu tố nhƣ: Dữ liệu vào, các yêu cầu về thời gian, yêu cầu về kết quả đầu ra, tài nguyên sẵn có… Quy trình lựa chọn mô hình dự báo có thể đƣợc lựa chọn dựa trên một số chiến lƣợc dự báo nhƣ sau: 1. Tiền định: Dựa trên mối quan hệ mật thiết giữa hiện tại và tƣơng lai/ Các mô hình Chuỗi thời gian thích hợp với chiến lƣợc này. 2. Triệu chứng: Dựa trên những dấu hiệu hiện tại để dự báo cho tƣơng lai. 3. Hệ thống: Dựa trên ý tƣởng cho rằng xu hƣớng phát triển trong tƣơng lai sẽ tuân thủ theo một quy tắc nào đó, chẳng hạn các lý thuyết về giáo dục. 7 Luận văn sử dụng chiến lƣợc dự báo tiền định để dự báo tuyển sinh. Bƣớc 6: Đánh giá mô hình Đối với các phƣơng pháp định tính thì bƣớc này ít quan trọng hơn nhƣng đối với các phƣơng pháp định lƣợng thì cần phải đánh giá mức độ phù hợp của mô hình (trong phạm vi mẫu dữ liệu) và đánh giá mức độ chính xác của dự báo (ngoài phạm vi mẫu dữ liệu). Nếu mô hình không phù hợp thì quay lại bƣớc 5. Bƣớc 7: Chuẩn bị dự báo Sau khi đã đánh giá và lựa chọn đƣợc mô hình dự báo phù hợp thì chuẩn bị các số liệu phục vụ cho việc dự báo. Bƣớc 8: Trình bày kết quả dự báo Nhận định và đánh giá chung Xác định vấn đề dự báo cụ thể Xác định yêu cầu về đầu ra Xác định chiến lƣợc dự báo Xác định đầu vào Xác định lập các mô hình sơ bộ Lựa chọn mô hình Hình 1.2 .Quy trình lựa chọn mô hình dự báo Có nhiều cách để trình bày kết quả dự báo, có thể thông qua bảng biểu, đồ thị hay hình ảnh minh họa, có thể trình bày ở dạng viết hoặc dạng nói, trình bày tại một vị trí hoặc trên phƣơng tiện thông tin đại chúng…Dù trình bày bằng cách nào thì những kết quả dự báo vẫn phải ngắn gọn, rõ ràng, thể hiện đƣợc sự tin cậy của dự báo và phải bằng ngôn ngữ mà ngƣời nghe hiểu đƣợc. Bƣớc 9: Theo dõi kết quả dự báo 8 Độ lệch giữa giá trị dự báo và giá trị thực phải đƣợc thảo luận một cách tích cực, khách quan và cởi mở. Mục tiêu của việc thảo luận là để hiểu tại sao có các sai số và xác định độ lớn của các sai số, qua đó bảo trì và nâng cấp hệ thống dự báo. Trao đổi và hợp tác giữa ngƣời sử dụng và ngƣời làm dự báo có vai trò rất quan trọng trong việc xây dựng và duy trì quy trình dự báo thành công. 1.4. Các phƣơng pháp, mô hình dự báo trên thế giới Việc lựa chọn phƣơng pháp dự báo phụ thuộc vào lĩnh vực hoạt động, các lĩnh vực dự báo liên quan đến hiện tƣợng tự nhiên thì phƣơng pháp định lƣợng hay đƣợc sử dụng nhƣ mô hình hóa, phƣơng pháp kịch bản,…Tuy nhiên tùy vào lĩnh vực, ngành mà các phƣơng pháp dự báo có thể khác nhau [10]. Hiện nay, các mô hình dự báo trên thế giới đƣợc chia làm 3 loại nhƣ: Phƣơng pháp định tính, phân tích chuỗi thời gian và mô hình nguyên nhân – kết quả. 1.4.1. Phương pháp định tính Phƣơng pháp định tính đƣợc sử dụng khi dữ liệu khan hiếm. Nó sử dụng các chƣơng trình đánh giá và sự đánh giá của con ngƣời để biến thông tin định tính thành các ƣớc tính định lƣợng. Mục tiêu của phƣơng pháp này là kết hợp một cách hợp lý, có hệ thống mọi thông tin và phán đoán có liên quan đến các yếu tố đƣợc ƣớc tính. Kỹ thuật này thƣờng đƣợc sử dụng trong các lĩnh vực công nghệ mới. 1.4.2. Phân tích chuỗi thời gian Phƣơng pháp này đƣợc sử dụng khi dữ liệu thu thập đƣợc trong nhiều năm và mối quan hệ, xu hƣớng của đối tƣợng dự báo là rõ ràng và tƣơng đối ổn định. Một trong những nguyên tắc cơ bản của dự báo thống kê thực của tất cả các dự báo khi dữ liệu lịch sử có sẵn – ngƣời dự báo nên sử dụng dữ liệu về hiệu suất trong quá khử để có đƣợc Speedometer Reading” về tỷ lệ hiện tại và tốc độ gia tăng nhanh nhƣ thế nào. Tỷ lệ hiện tại và sự thay đổi về tốc độ - tăng tốc” và giảm tốc”- tạo cơ sở cho dự báo. 9 Thông thƣờng khó có thể dự báo từ dữ liệu thô do tỷ lệ và xu hƣớng không rõ ràng. Vì vậy, dữ liệu thô phải đƣợc xử lý trƣớc khi có thể sử dụng đƣợc nên phƣơng pháp chuỗi thời gian sẽ đƣợc sử dụng để xử lý dữ liệu. Chuỗi thời gian là một tập các điểm đƣợc sắp xếp theo thứ tự thời gian của dữ liệu thô. Phân tích chuỗi thời gian giúp xác định và giải thích: - Bất kỳ sự khác biệt có tính hệ thống hoặc có hệ thống trong chuỗi dữ liệu từng thời kỳ. - Chu kỳ mô hình lặp lại trong hai, ba năm hoặc nhiều hơn. - Xu hƣớng trong dữ liệu. - Tốc độ tăng trƣởng của các xu hƣớng. 1.4.3. Mô hình nguyên nhân – kết quả Đƣợc sử dụng khi lịch sử dữ liệu đã có sẵn và đã đƣợc phân tích đầy đủ, chỉ rõ mối quan hệ giữa các yếu tố đƣợc dự báo và các yếu tố khác. Đây là mô hình dự báo tốt nhất. Nó diễn đạt các mối quan hệ nguyên nhân và kết quả. Nó cũng có thể kết hợp cả các kết quả của việc phân tích chuỗi thời gian. Mô hình này có tính đến cả sự thay đổi của dòng chảy hệ thống và sử dụng các dự đoán về các sự kiện có liên quan. Nếu đã có dữ liệu thì mô hình này sẽ chỉ ra các vị trí của các yếu tố trong biểu đồ lƣu lƣợng và kết nối chúng bằng các phƣơng trình để mô tả tổng thể dòng chảy của đối tƣợng. Mô hình này đƣợc sử dụng tốt để dự đoán những thay đổi và dự báo tầm xa. 1.5. Các phƣơng pháp, mô hình dự báo ở Việt Nam Việt Nam hiện chủ yếu sử dụng 3 phƣơng pháp (trong một phƣơng pháp có thể có nhiều mô hình khác nhau) dự báo sau đây [10]: 1.5.1. Phương pháp ngoại suy Bản chất của phƣơng pháp ngoại suy là kéo dài quy luật đã hình thành trong quá khử để làm dự báo cho tƣơng lai. Giả thiết cơ bản của phƣơng pháp này là sự bảo toàn nhịp điệu, quan hệ và những quy luật phát triển của đối tƣợng dự báo trong quá khứ cho tƣơng lai. Thông tin cung cấp cho phƣơng pháp ngoại suy là số liệu về động thái của đối tƣợng dự báo trong quá khứ qua một số năm nhất định, 10 thông thƣờng yêu cầu thời khoảng quá khứ có số liệu phải lớn hơn nhiều lần thời khoảng làm dự báo. Phƣơng pháp này thích hợp để dự báo những đối tƣợng phát triển theo kiểu tiệm tiến. Phƣơng pháp ngoại suy có ƣu điểm là đơn giản, tuy nhiên, nhƣợc điểm chính là không tính đƣợc ảnh hƣởng của các yếu tố khách quan đến kết quả dự báo. 1.5.2. Phương pháp chuyên gia Bản chất của phƣơng pháp chuyên gia là lấy ý kiến đánh giá của các chuyên gia để làm kết quả dự báo. Phƣơng pháp này đƣợc triển khai theo một quy trình chặt chẽ bao gồm nhiều khâu: Thành lập nhóm chuyên gia, đánh giá năng lực chuyên gia, lập biểu câu hỏi và xử lý toán học kết quả thu đƣợc từ ý kiến chuyên gia. Khó khăn của phƣơng pháp này là việc tuyển chọn và đánh giá năng lực của các chuyên gia. Phƣơng pháp này đƣợc áp dụng có hiệu quả cho những đối tƣợng thiếu (hoặc chƣa đủ) số liệu thống kê, phát triển có độ bất ổn lớn hoặc đối tƣợng của dự báo phức tạp không có số liệu nền. Kết quả của phƣơng pháp dự báo này chủ yếu phục vụ cho nhu cầu định hƣớng, quản lý vì thế cần kết hợp (trong trƣờng hợp có thể) với các phƣơng pháp định lƣợng khác. 1.5.3. Phương pháp mô hình hóa Phƣơng pháp này là sự kết hợp hai phƣơng pháp nói trên. Cách thức tiếp cận của phƣơng pháp này là dùng hệ thức toán học để mô tả mối liên hệ giữa đối tƣợng dự báo với các yếu tố có liên quan. Khó khăn của phƣơng pháp này là phải viết đƣợc chính xác hệ thức toán học nói trên. Phƣơng pháp mô hình hóa áp dụng cho nghiên cứu kinh tế, tài nguyên – môi trƣờng sẽ phải sử dụng nhiều phƣơng trình của mô hình kinh tế lƣợng vi đối tƣợng dự báo (mối liên hệ giữa hoạt động kinh tế và chất lƣợng môi trƣờng, sử dụng tài nguyên) có liên quan đến nhiều yếu tố kinh tế ví dụ: GDP, giá cả… Phƣơng pháp này yêu cầu số liệu của nhiều yếu tố hữu quan trong quá khứ, trong khi đó, phƣơng pháp ngoại suy chỉ yêu cầu một loại số liệu. Tuy nhiên, phƣơng pháp này cũng có ƣu điểm là có thể giải thích đƣợc kết quả dự báo và có thẻ phân tích ảnh hƣởng của các yếu tố liên quan đến kết quả dự báo. 11
- Xem thêm -

Tài liệu liên quan