TRƢỜNG ĐẠI HỌC MỞ HÀ NỘI
KHOA CÔNG NGHỆ THÔNG TIN
LUẬN VĂN THẠC SĨ
ĐỀ TÀI:
DỰ BÁO SINH VIÊN NHẬP HỌC KHOA CÔNG NGHỆ SINH
HỌC – TRƢỜNG ĐẠI HỌC MỞ HÀ NỘI DÙNG PHƢƠNG
PHÁP HỌC MÁY
HỌC VIÊN: NGUYỄN THỊ HƢƠNG
HÀ NỘI – 2022
TRƢỜNG ĐẠI HỌC MỞ HÀ NỘI
KHOA CÔNG NGHỆ THÔNG TIN
LUẬN VĂN THẠC SỸ
ĐỀ TÀI:
DỰ BÁO SINH VIÊN NHẬP HỌC KHOA CÔNG NGHỆ SINH
HỌC – TRƢỜNG ĐẠI HỌC MỞ HÀ NỘI DÙNG PHƢƠNG
PHÁP HỌC MÁY
HỌC VIÊN: NGUYỄN THỊ HƢƠNG
CHUYÊN NGÀNH : CÔNG NGHỆ THÔNG TIN
MÃ NGÀNH: 8.48.02.1
NGƢỜI HƢỚNG DẪN KHOA HỌC
PGS.TS NGUYỄN QUANG HOAN
HÀ NỘI - 2022
ii
LỜI CAM ĐOAN
Tôi cam đoan đây là công trình nghiên cứu của riêng tôi.
Các số liệu, kết quả nêu trong luận văn là trung thực và chƣa từng đƣợc ai
công bố trong bất kỳ công trình nào khác.
Hà Nội, ngày 01 tháng 08 năm 2022
HỌC VIÊN
Nguyễn Thị Hƣơng
iii
LỜI CẢM ƠN
Em xin chân thành cảm ơn Khoa Công nghệ thông tin - Trƣờng Đại học Mở
Hà Nội đã tạo điều kiện thuận lợi giúp em hoàn thành luận văn này.
Em xin chân thành cảm ơn sự hƣớng dẫn, chỉ bảo tận tình của PGS.TS.
Nguyễn Quang Hoan trong suốt thời gian thực hiện đề tài, cảm ơn thầy đã luôn
dành thời gian giúp đỡ em để có thể hoàn thành đƣợc luận văn này.
Em xin cảm các thầy cô giáo khoa Công nghệ thông tin - Trƣờng Đại học
Mở Hà Nội đã truyền thụ kiến thức, hỗ trợ em trong suốt quá trình học tập vừa qua.
Cảm ơn bạn bè, đồng nghiệp, gia đình và những ngƣời thân yêu đã luôn đồng hành,
tạo mọi điều kiện, động viên giúp đỡ em trong quá trình học tập, công tác để hoàn
thành khóa học và luận văn này.
Qua một thời gian em đã hoàn thành luận văn tốt nghiệp với đề tài: Dự báo
sinh viên nhập học Khoa Công nghệ sinh học – Trƣờng Đại học Mở Hà Nội
dùng phƣơng pháp học máy”. Tuy đã cố gắng nhƣng chắc chắn vẫn không tránh
khỏi những thiếu sót. Kính mong nhận đƣợc sự thông cảm và đóng góp ý kiến của
quý Thầy Cô và các bạn.
Hà Nội, ngày 01 tháng 08 năm 2022
HỌC VIÊN
Nguyễn Thị Hƣơng
iv
MỤC LỤC
LỜI CAM ĐOAN .................................................................................................................iii
LỜI CẢM ƠN ....................................................................................................................... iv
DANH MỤC CÁC THUẬT NGỮ ...................................................................................... vii
DANH MỤC CÁC BẢNG .................................................................................................viii
LỜI MỞ ĐẦU ........................................................................................................................ 1
CHƢƠNG 1: .......................................................................................................................... 4
TỔNG QUAN VỀ CÁC PHƢƠNG PHÁP DỰ BÁO .......................................................... 4
1.1. Khái quát về dự báo ........................................................................................................ 4
1.2. Các phƣơng pháp dự báo ................................................................................................ 4
1.2.1. Phƣơng pháp định tính .............................................................................................. 5
1.2.2. Phƣơng pháp định lƣợng .......................................................................................... 5
1.3. Quy trình thực hiện dự báo ............................................................................................. 6
1.4. Các phƣơng pháp, mô hình dự báo trên thế giới............................................................. 9
1.4.1. Phƣơng pháp định tính ............................................................................................. 9
1.4.2. Phân tích chuỗi thời gian ......................................................................................... 9
1.4.3. Mô hình nguyên nhân – kết quả............................................................................. 10
1.5. Các phƣơng pháp, mô hình dự báo ở Việt Nam ........................................................... 10
1.5.1. Phƣơng pháp ngoại suy .......................................................................................... 10
1.5.2. Phƣơng pháp chuyên gia ........................................................................................ 11
1.5.3. Phƣơng pháp mô hình hóa ..................................................................................... 11
1.5.4. Hƣớng tiếp cận mới ............................................................................................... 12
1.6. Kết luận chƣơng 1 ......................................................................................................... 12
CHƢƠNG 2 : ....................................................................................................................... 13
THUẬT TOÁN C4.5 VÀ BAYES ...................................................................................... 13
2.1. Thuật toán C4.5............................................................................................................. 13
2.1.1. Giới thiệu chung .................................................................................................... 13
2.1.2. Thuật toán C4.5...................................................................................................... 13
2.1.3. C4.5 chọn thuộc tính phân loại tốt nhất ................................................................ 15
2.1.4. Xử lý trong trƣờng hợp dữ liệu thiếu .................................................................... 16
2.1.5. Chuyển đổi từ cây quyết định sang luật ................................................................. 17
2.1.6. C4.5 là một thuật toán hiệu quả cho những tập dữ liệu vừa và nhỏ ...................... 18
2.1.7. Ví dụ minh họa cho giải thuật C4.5 ....................................................................... 18
2.2. Thuật toán Bayes .......................................................................................................... 22
2.2.1. Ý tƣởng và mục đích của thuật toán ...................................................................... 22
2.2.2. Thuật toán Bayes ................................................................................................... 23
2.2.3. Ví dụ minh họa cho giải thuật Bayes ..................................................................... 24
2.3. Kết luận chƣơng 2 ......................................................................................................... 26
CHƢƠNG 3: ........................................................................................................................ 27
ỨNG DỤNG THUẬT TOÁN C4.5 VÀ BAYES ĐỂ DỰ BÁO ......................................... 27
SỐ SINH VIÊN NHẬP HỌC .............................................................................................. 27
3.1 Giới thiệu bài toán ........................................................................................................ 27
3.2 Thu thập và tiền xử lý dữ liệu ....................................................................................... 27
3.2.1 Thu thập dữ liệu ...................................................................................................... 27
3.2.2
Phân tích và xử lý dữ liệu .................................................................................. 29
3.3. Ứng dụng dự báo số sinh viên nhập học ................................................................... 32
3.3.1 Dự báo sinh viên nhập học dùng thuật toán C4.5 ................................................... 32
3.3.2 Dự báo sinh viên nhập học dùng thuật toán Bayes ................................................. 46
v
3.4 Giới thiệu phần mềm Weka .......................................................................................... 55
3.4.1 Giới thiệu chung ..................................................................................................... 55
3.4.2. Phần mềm Weka .................................................................................................... 55
3.4.3. Cài đặt và chạy Weka ............................................................................................ 56
3.5. Kết quả thử nghiệm ....................................................................................................... 57
3.5.1. Thử nghiệm bằng thuật toán C4.5 ........................................................................ 57
3.5.2. Thử nghiệm bằng thuật toán Bayes ...................................................................... 62
3.5.3. So sánh độ đo phân lớp của C4.5 và Bayes .......................................................... 65
3.6. Thử nghiệm khi thêm/bớt đặc trƣng đầu vào cho tập huấn luyện mẫu dữ liệu S ......... 65
trên phần mềm Weka ........................................................................................................... 65
3.6.1 Thêm một đặc trƣng đầu vào (THXT) .................................................................... 65
3.6.2 Bớt một đặc trƣng đầu vào (TD) ............................................................................. 72
3.7. Thực nghiệm dữ liệu (Percentage Split) với C4.5 và Bayes trên Weka ...................... 78
3.7.1. Thực nghiệm dữ liệu với C4.5 ( sử dụng J48 trên Weka)...................................... 78
3.7.2. Thực nghiệm dữ liệu với Bayes trên Weka ........................................................... 80
3.8. Kết luận chƣơng 3 ......................................................................................................... 81
KẾT LUẬN CHUNG .......................................................................................................... 83
TÀI LIỆU THAM KHẢO ................................................................................................... 85
vi
DANH MỤC CÁC THUẬT NGỮ
Viết tắt
C4.5
C5.0
Tiếng Anh
C4.5 Algorithm
C5.0 Algorithm
Tiếng Việt
Giải thuật C4.5
Giải thuật C5.0
Công nghệ sinh học
Công nghệ thực phẩm
Cơ sở dữ liệu
CNSH
CNTP
CSDL
(Định dạng tệp csv): Các giá trị tách biệt
bằng dấu phẩy
Sự kiện đƣợc dự đoán là Không” thực tế
có” xảy ra. Sai của giá trị âm : m sai
Sự kiện đƣợc dự đoán là Có” thực tế
không” xảy ra. Sai của giá trị dƣơng:
Dƣơng sai
CSV
Comma Separated Values
FN
False Negative
FP
False Positive
G
GR
GDP
ID3
IG
Info
Gain
Gain Ratio
Gross Domestic Product
Inductive Dichotomizer 3
Information Gain
Information
Độ lợi
Tỉ số độ lợi
Tổng sản phẩm quốc nội
Giải thuật quy nạp cây ID3
Độ lợi thông tin
Thông tin
J48
Java-48
Giải thuật J48
SplitInfo
TN
Split Information
Thông tin của phân phối dữ liệu
True Negative
TP
True Positive
Sự kiện đƣợc dự đoán là Không” thực tế
có” xảy ra. Đúng của giá trị âm : m
đúng
Sự kiện đƣợc dự đoán là Có” thực tế
không” xảy ra. Đúng của giá trị dƣơng:
Dƣơng đúng
Môi trƣờng Waikato để Phân tích Tri
thức.Phần mềm học máy của trƣờng Đại
học Waikato
WEKA
Waikato Environment for
Knowledge Analysis
vii
DANH MỤC CÁC BẢNG
Tên bảng
Trang
Bảng 1.1: Tổng hợp một số phƣơng pháp dự báo thƣờng dùng trên thế giới
4
Bảng 2.1: Bảng cơ sở dữ liệu dự đoán đỗ đại học
18
Bảng 2.2: Bảng cơ sở dữ liệu thời tiết
24
Bảng 3.1: Quy ƣớc biểu diễn dữ liệu
27
Bảng 3.2: Bảng các thuộc tính của tập dữ liệu
28
Bảng 3.3: Dữ liệu mẫu huấn luyện (S)
29
Bảng 3.4: Bảng so sánh kết quả GainRatio trong tập thuộc tính S
36
Bảng 3.5: Dữ liệu mẫu huấn luyện S1 (KV=KV1)
37
Bảng 3.6: Bảng so sánh kết quả GainRatio trong tập thuộc tính S1
39
Bảng 3.7: Dữ liệu mẫu huấn luyện S2 (TD = T-TBK)
40
Bảng 3.8 Bảng so sánh kết quả GainRatio trong tập thuộc tính S2
42
Bảng 3.9: Dữ liệu mẫu huấn luyện S3 (NH = CNTP)
43
Bảng 3.10: Bảng tập luật
45
Bảng 3.11: Bảng dữ liệu học sinh viên
46
Bảng 3.12: Bảng dữ liệu của các mẫu tin cần dự báo
48
Bảng 3.13: Bảng xác suất của tập dữ liệu sinh viên
49
Bảng 3.14: Bảng dữ liệu của các mẫu tin đã đƣợc gán nhãn
54
Bảng 3.15: Các độ đo của thuật toán C4.5 và Bayes
64
Bảng 3.16: Tập huấn luyện dữ liệu mẫu (S4)
64
Bảng 3.17: Bảng tập luật (thêm đặc trƣng)
68
Bảng 3.18: Tập huấn luyện dữ liệu mẫu (S5)
71
Bảng 3.19: Bảng tập luật (bớt đặc trƣng)
74
Bảng 3.20: Thống kê các lần chạy thực nghiệm với C4.5 trên Weka
78
Bảng 3.21: Thống kê các lần chạy thực nghiệm với Bayes trên Weka
79
viii
DANH MỤC CÁC HÌNH
Tên hình
Trang
Hình 1.1: Quy trình thực hiện dự báo
6
Hình 1.2: Quy trình lựa chọn mô hình dự báo
8
Hình 1.3: Mô hình dự báo trên công nghệ máy học
12
Hình 2.1: Mã giải thuật toán C4.5
14
Hình 2.2: Ví dụ về Cây quyết định hoàn chỉnh
21
Hình 3.1: Cây quyết định cấp 1
36
Hình 3.2: Cây quyết định cấp 2
40
Hình 3.3: Cây quyết định cấp 3
42
Hình 3.4: Cây quyết định cấp 4
44
Hình 3.5: Phần mềm Weka
56
Hình 3.6: File dữ liệu định dạng chuẩn csv
57
Hình 3.7: Giao diện Weka
57
Hình 3.8: Giao diện Preprocess
58
Hình 3.9: Giao diện Classify
58
Hình 3.10: Giao diện chọn thuật toán
59
Hình 3.11: Kết quả Classifer Output thuật toán C4.5
59
Hình 3.12: Ma trận nhầm lẫn dùng C4.5
60
Hình 3.13: Cây quyết định sử dụng thuật toán C4.5 trong Weka
61
Hình 3.14: Giao diện chọn thuật toán Bayes
62
Hình 3.15: Kết quả Classifer Output thuật toán Bayes
63
Hình 3.16: Ma trận nhầm lẫn dùng Bayes
63
Hình 3.17: Cây quyết định (thêm đặc trƣng) dùng thuật toán C4.5
68
Hình 3.18 : Kết quả Classifer Output (thêm đặc trƣng) thuật toán C4.5
69
Hình 3.19: Kết quả Classifer Output (thêm đặc trƣng) thuật toán Bayes
70
Hình 3.20: Cây quyết định (bớt đặc trƣng) dùng thuật toán C4.5
74
Hình 3.21: Kết quả Classifer Output (bớt đặc trƣng) thuật toán C4.5
75
Hình 3.22: Kết quả Classifer Output (bớt đặc trƣng) thuật toán Bayes
76
Hình 3.23: Cấu hình tham số thuật toán C4.5
78
Hình 3.24: Cấu hình tham số thuật toán Bayes
79
ix
LỜI MỞ ĐẦU
1. Lý do chọn đề tài
Trong những năm gần đây, số lƣợng tuyển sinh đầu vào Khoa CNSH –
Trƣờng Đại học Mở Hà Nội đang trở thành mối quan tâm của Ban lãnh đạo Khoa
cũng nhƣ Ban giám hiệu nhà trƣờng. Do đó, vấn đề dự báo số lƣợng sinh viên đầu
vào có ảnh hƣởng không nhỏ đến công tác tuyển sinh tại Khoa, nhờ đó Ban lãnh
đạo Khoa sẽ có những chiến lƣợc tuyển sinh đúng đắn, tập trung vào đúng đối
tƣợng cần tuyển. Có nhiều phƣơng pháp dự báo khác nhau theo định tính và định
lƣợng. Về định lƣợng thƣờng sử dụng phƣơng pháp dự báo hồi quy tuyến tính
hoặc phi tuyến. Về phƣơng pháp định tính thông thƣờng sử dụng các phƣơng pháp
học máy nhƣ cây quyết định, Bayes, K-láng giềng…Hiện nay phƣơng pháp học
máy thuộc trí tuệ nhân tạo là một phƣơng pháp phổ biển đƣợc áp dụng rộng rãi và
báo. Luận văn này sẽ nghiên cứu các phƣơng pháp học máy để dự báo số sinh viên
nhập học Khoa CNSH – Trƣờng Đại học Mở Hà Nội, một vấn đề chƣa đƣợc
nghiên cứu trƣớc đó.
Khoa CNSH – Trƣờng Đại học Mở Hà Nội đã thành lập đƣợc 28 năm, đào
tạo đƣợc hàng nghìn kỹ sƣ chính quy với chất lƣợng đội ngũ cán bộ,giảng viên uy
tín, tận tâm với công việc. Khoa CNSH đã thực sự trƣởng thành trong sự nghiệp
Giáo dục, đào tạo và nghiên cứu khoa học và có những đóng góp đáng kể cho sự
nghiệp phát triển nghành Công nghệ sinh học Vệt Nam, đồng thời trở thành một
trong những địa chỉ tin cậy về đào tạo nguồn nhân lực có trình độ đại học nghành
CNSH của Việt Nam. Tuy nhiên, trong những năm trở lại đây số lƣợng sinh viên
nhập học vào Khoa đang có xu thế giảm.
Năm
SL
2015
2016
104CNSH 86CNSH
2017
2018
2019
2020
88CNSH
56CNSH
45CNSH
29CNSH
47CNTP
36CNTP
30CNTP
nhập
học
1
Bảng trên từ năm 2015 đến 2017 là số sinh viên thuộc chuyên nghành
CNSH, từ 2018 đến 2020 Khoa mở thêm nghành mới Công nghệ thực phẩm
(CNTP) nên đƣợc thêm số sinh viên của 2 ngành tƣơng ứng
Có nhiều nguyên nhân dẫn tới việc giảm số lƣợng khác nhau nhƣ: sinh viên
thuộc Khu vƣc 1 (KV1) thƣờng có xu hƣớng học các nghành xã hội – kinh tế, hoặc
học nghề hoặc các trƣờng Trung cấp – Cao đẳng để không mất nhiều thời gian,
định hƣớng nghề nghiệp của phụ huynh đối với nghành còn hạn chế ….
Với những lý do nhƣ vậy tôi đăng ký nghiên cứu đề tài Dự báo sinh viên
nhập học Khoa Công nghệ sinh học – Trƣờng Đại học Mở Hà Nội dùng
phƣơng pháp học máy” để đánh giá hiện trạng và dự báo mức tăng giảm số sinh
viên nhập học vào Khoa CNSH. Đề tài sẽ tập trung nghiên cứu thuật toán Bayes,
thuật toán C 4.5 để dự báo số học sinh nhập học vào Khoa CNSH từ đó có thể mở
rộng triển khai dự báo cho các Khoa khác và thậm chí các trƣờng Đại học khác.
Từ việc dự đoán bằng phƣơng pháp có căn cứ khoa học đƣa ra các đề xuất,
kiến nghị, tham mƣu cho Ban giám hiệu trƣờng Đại học Mở Hà Nội, Ban lãnh đạo
Khoa CNSH để chất lƣợng đầu vào của trƣờng ngày càng cao.
2. Mục tiêu, đối tƣợng và phạm vi nghiên cứu
- Mục tiêu: Luận văn tập trung tìm hiểu thuật toán C4.5 và Bayes, áp dụng
vào bài toán dự báo sinh viên nhập học Khoa CNSH – Trƣờng Đại học Mở Hà
Nội.
- Đối tƣợng,phạm vi nghiên cứu:
+ Đối tƣợng nghiên cứu của luận văn là dữ liệu về sinh viên nhập học Khoa
CNSH – Trƣờng Đại học Mở Hà Nội năm 2020.
+ Giới hạn thử nghiệm dự báo theo 4 đặc trƣng và 90 bản ghi đầu vào đƣợc
cho là cơ bản nhất
+Trong quá trình triển khai 2 thuật toán, tôi tính một số phép tính tiêu biểu
sau đó dùng phần mềm Weka để chạy
3.
Ý nghĩa khoa học và thực tiễn của luận văn
2
Luận văn nghiên cứu tổng quan về phƣơng pháp dự báo nói chung và dự
báo dựa trên thuật toán C4.5, Bayes nói riêng. Phân tích đánh giá thuật toán có giá
trị khoa học và thực tiễn. Tìm hiểu các thuật toán giúp chúng ta tiếp thu và có thể
phát triển về mặt tƣ tƣởng, cũng nhƣ kỹ thuật của một công nghệ tiên tiến. Từ đó
có thể triển khai cài đặt và thử nghiệm các mô hình dự báo thực tế.
Cụ thể luận văn sử dụng phần mềm tiên tiến Weka với thuật toán C4.5,
Bayes để dự báo số sinh viên nhập học Khoa CNSH – Trƣờng Đại học Mở Hà Nội
phục vụ cho công tác tuyển sinh.
4. Bố cục luận văn
Luận văn gồm các phần sau:
Phần mở đầu
Chƣơng 1: Tổng quan về các phƣơng pháp dự báo
Chƣơng 2: Thuật toán Bayes và thuật toán C4.5
Chƣơng 3: Ứng dụng thuật toán C4.5 và Bayes để dự báo sinh viên nhập
học
Phần kết luận: tổng kết kết quả đạt đƣợc của luận văn và hƣớng phát triển
tiếp theo
Tài liệu tham khảo
3
CHƢƠNG 1:
TỔNG QUAN VỀ CÁC PHƢƠNG PHÁP DỰ BÁO
1.1. Khái quát về dự báo
Dự báo là một khoa học và nghệ thuật tiên đoán những sự việc sẽ xảy ra
trong tƣơng lai, trên cơ sở phân tích khoa học về dữ liệu đã thu thập đƣợc. Khi tiến
hành dự báo cần căn cứ vào việc thu thập, xử lý số liệu trong quá khứ và hiện tại
để xác định xu hƣớng vận động của các hiện tƣợng trong tƣơng lai nhờ vào một số
mô hình toán học (định lƣợng). Tuy nhiên, dự báo cũng có thể là một dự đoán chủ
quan hoặc trực giác về tƣơng lai (định tính) và để dự báo định tính đƣợc chính xác,
ngƣời ta loại trừ tính chủ quan của ngƣời dự báo.
Dù định nghĩa có sự khác biệt, nhƣng đều thống nhất về cơ bản là dự báo
bàn về tƣơng lai, nói về tƣơng lai. Dự báo trƣớc hết là một thuộc tính không thể
thiếu của tƣ duy con ngƣời, con ngƣời luôn luôn nghĩ đến ngày mai, hƣớng về
tƣơng lai. Trong thời đại công nghệ thông tin và toàn cầu hóa, dự báo lại đóng vai
trò quan trọng hơn khi nhu cầu về thông tin thị trƣờng, tình hình phát triển tại thời
điểm nào đó trong tƣơng lai lại càng cao. Dự báo đƣợc sử dụng trong nhiều lĩnh
vực khác nhau, mỗi lĩnh vực có một yêu cầu về dự báo riêng nên phƣơng pháp dự
báo đƣợc sử dụng cũng khác nhau [10].
1.2. Các phƣơng pháp dự báo
Có nhiều học giả có cách phân loại phƣơng pháp dự báo khác nhau. Tuy
nhiên theo học giả Gordon, trong 2 thập kỷ gần đây, có 8 phƣơng pháp dự báo
đƣợc áp dụng rộng rãi trên thế giới [10].
Bảng 1.1.Tổng hợp một số phƣơng pháp dự báo thƣờng dùng trên thế giới
STT
Diễn giải các phƣơng pháp dự báo
1
Tiên đoán
2
Ngoại suy xu hƣớng
3
Phƣơng pháp chuyên gia
4
Phƣơng pháp mô phỏng
5
Phƣơng pháp ma trận tác động qua lại
6
Phƣơng pháp kịch bản
7
Phƣơng pháp cây quyết định
4
8
Phƣơng pháp dự báo tổng hợp
Bảng 1.1 đề cập đến 8 phƣơng pháp thƣờng đƣợc sử dụng trên thế giới trong
dự báo.
Tuy nhiên, theo cách phân loại tại Việt Nam các phƣơng pháp dự báo đƣợc
chia thành 2 nhóm chính là phƣơng pháp định tính và phƣơng pháp định lƣợng.
1.2.1. Phương pháp định tính
Phƣơng pháp này dựa trên cơ sở nhận xét của những yếu tố liên quan, dựa
trên những ý kiến về các khả năng có liên hệ của những yếu tố liên quan này trong
tƣơng lai. Phƣơng pháp định tính có liên quan đến mức độ phức tạp khác nhau, từ
việc khảo sát ý kiến đƣợc tiến hành một cách khoa học để nhận biết các sự kiện
tƣơng lai hay từ ý kiến phản hồi của một nhóm đối tƣợng hƣởng lợi (chịu tác động)
nào đó [10].
Ƣu điểm: dễ dàng thực hiện, không đòi hỏi kiến thức về các mô hình toán
hoặc kinh tế lƣợng
Nhƣợc điểm: Mang tính chủ quan rất cao, không chuẩn, mất nhiều năm để
trở thành ngƣời có khả năng phán đoán đúng. Không có phƣơng pháp hệ thống để
đánh giá và cải thiện mức độ chính xác
1.2.2. Phương pháp định lượng
Mô hình dự báo định lƣợng dựa trên số liệu quá khứ, những số liệu này giả
sử có liên quan đến tƣơng lai và có thể tìm thấy đƣợc. Tất cả các mô hình dự báo
theo định lƣợng có thể sử dụng thông qua chuỗi thời gian và các giá trị này đƣợc
quan sát đo lƣờng các giai đoạn theo từng chuỗi [10].
Ƣu điểm:
-
Kết quả dự báo hoàn toàn khách quan
-
Có phƣơng pháp đo lƣờng độ chính xác dự báo
-
Tốn ít thời gian để tìm ra kết quả dự báo
Nhƣợc điểm:
-
Chỉ dự báo tốt trong thời gian ngắn và trung hạn
-
Không có phƣơng pháp nào có thể đƣa đầy đủ những yếu tố bên ngoài
có tác động đến kết quả dự báo và mô hình
5
Hiện nay thông thƣờng khi dự báo ngƣời ta thƣờng hay kết hợp cả phƣơng
pháp định tính và phƣơng pháp định lƣợng để nâng cao mức độ chính xác của dự
báo. Bên cạnh đó, vấn đề cần dự báo đôi khi không thể thực hiện đƣợc thông qua
một phƣơng pháp dự báo đơn lẻ mà đòi hỏi kết hợp nhiều hơn một phƣơng pháp
nhằm mô tả đúng bản chất sự việc cần dự báo.
1.3. Quy trình thực hiện dự báo
Dự báo là một quá trình phức tạp nhƣng về cơ bản quy trình có thể thực
hiện theo các bƣớc sau [10]:
Xác định mục tiêu
Xác định nội dung dự báo
Xác định khía cạnh thời gian
Xem xét dữ liệu
Lựa chọn mô hình
Đánh giá mô hình
Chuẩn bị dự báo
Trình bày kết quả dự báo
Theo dõi kết quả dự báo
Hình 1.1.Quy trình thực hiện dự báo
Bƣớc 1: Xác định mục tiêu
6
Bƣớc đầu tiên trong quy trình dự báo là xác định mục tiêu. Xác định mục
tiêu là xác định xem kết quả dự báo sẽ đƣợc sử dụng nhƣ thế nào. Mục tiêu chung
của dự báo là lập kế hoạch và có những quyết định hành động hợp lý. Mục tiêu
của dự báo tuyển sinh nhằm giúp các nhà lãnh đạo có những chiến lƣợc phát triển
một cách hợp lý nhất.
Bƣớc 2: Xác định nội dung dự báo
Khi các mục tiêu tổng quát đã đƣợc xác định rõ, ta phải xác định chính xác
dự báo cái gì. Ví dụ, mục tiêu chung là dự báo tuyển sinh nhƣng một hệ thống dự
báo gồm có: Số lƣợng học sinh, số lƣợng lớp…Luận văn xây dựng hệ thống thử
nghiệm dự báo tuyển sinh với các thông số đầu vào là số liệu thu đƣợc trong 06
năm liên tiếp tại Khoa CNSH – Trƣờng Đại học Mở Hà Nội
Bƣớc 3: Xác định khía cạnh thời gian
Sau khi xác định đƣợc nội dung dự báo, thì cần xác định đƣợc độ dài của
dự báo: Dự báo dài hạn hay dự báo ngắn hạn và tính cấp thiết của dự báo.
Bƣớc 4: Xem xét dữ liệu
Mặc dù dữ liệu là cần thiết cho hệ thống để dự báo, nhƣng cũng cần xem
xét đến các yếu tố khác của dữ liệu nhƣ: Nguồn cung cấp, các bƣớc phân loại,
đánh giá, xử lý dữ liệu trƣớc khi sử dụng. Trong luận văn này sử dụng nguồn dữ
liệu thu thập đƣợc từ Phòng Quản lý đào tạo – Trƣờng Đại học Mở Hà Nội. Vì
vậy, dữ liệu là chính xác và đáng tin cậy.
Bƣớc 5: Lựa chọn mô hình
Việc chọn mô hình thích hợp cho dự báo có liên quan đến nhiều yếu tố nhƣ:
Dữ liệu vào, các yêu cầu về thời gian, yêu cầu về kết quả đầu ra, tài nguyên sẵn
có…
Quy trình lựa chọn mô hình dự báo có thể đƣợc lựa chọn dựa trên một số
chiến lƣợc dự báo nhƣ sau:
1. Tiền định: Dựa trên mối quan hệ mật thiết giữa hiện tại và tƣơng lai/ Các
mô hình Chuỗi thời gian thích hợp với chiến lƣợc này.
2. Triệu chứng: Dựa trên những dấu hiệu hiện tại để dự báo cho tƣơng lai.
3. Hệ thống: Dựa trên ý tƣởng cho rằng xu hƣớng phát triển trong tƣơng lai sẽ
tuân thủ theo một quy tắc nào đó, chẳng hạn các lý thuyết về giáo dục.
7
Luận văn sử dụng chiến lƣợc dự báo tiền định để dự báo tuyển sinh.
Bƣớc 6: Đánh giá mô hình
Đối với các phƣơng pháp định tính thì bƣớc này ít quan trọng hơn nhƣng
đối với các phƣơng pháp định lƣợng thì cần phải đánh giá mức độ phù hợp của mô
hình (trong phạm vi mẫu dữ liệu) và đánh giá mức độ chính xác của dự báo (ngoài
phạm vi mẫu dữ liệu). Nếu mô hình không phù hợp thì quay lại bƣớc 5.
Bƣớc 7: Chuẩn bị dự báo
Sau khi đã đánh giá và lựa chọn đƣợc mô hình dự báo phù hợp thì chuẩn bị
các số liệu phục vụ cho việc dự báo.
Bƣớc 8: Trình bày kết quả dự báo
Nhận định và đánh giá chung
Xác định vấn đề dự báo cụ thể
Xác định yêu cầu về đầu ra
Xác định chiến lƣợc dự báo
Xác định đầu vào
Xác định lập các mô hình sơ bộ
Lựa chọn mô hình
Hình 1.2 .Quy trình lựa chọn mô hình dự báo
Có nhiều cách để trình bày kết quả dự báo, có thể thông qua bảng biểu, đồ
thị hay hình ảnh minh họa, có thể trình bày ở dạng viết hoặc dạng nói, trình bày tại
một vị trí hoặc trên phƣơng tiện thông tin đại chúng…Dù trình bày bằng cách nào
thì những kết quả dự báo vẫn phải ngắn gọn, rõ ràng, thể hiện đƣợc sự tin cậy của
dự báo và phải bằng ngôn ngữ mà ngƣời nghe hiểu đƣợc.
Bƣớc 9: Theo dõi kết quả dự báo
8
Độ lệch giữa giá trị dự báo và giá trị thực phải đƣợc thảo luận một cách tích
cực, khách quan và cởi mở.
Mục tiêu của việc thảo luận là để hiểu tại sao có các sai số và xác định độ
lớn của các sai số, qua đó bảo trì và nâng cấp hệ thống dự báo.
Trao đổi và hợp tác giữa ngƣời sử dụng và ngƣời làm dự báo có vai trò rất
quan trọng trong việc xây dựng và duy trì quy trình dự báo thành công.
1.4. Các phƣơng pháp, mô hình dự báo trên thế giới
Việc lựa chọn phƣơng pháp dự báo phụ thuộc vào lĩnh vực hoạt động, các
lĩnh vực dự báo liên quan đến hiện tƣợng tự nhiên thì phƣơng pháp định lƣợng hay
đƣợc sử dụng nhƣ mô hình hóa, phƣơng pháp kịch bản,…Tuy nhiên tùy vào lĩnh
vực, ngành mà các phƣơng pháp dự báo có thể khác nhau [10].
Hiện nay, các mô hình dự báo trên thế giới đƣợc chia làm 3 loại nhƣ:
Phƣơng pháp định tính, phân tích chuỗi thời gian và mô hình nguyên nhân – kết
quả.
1.4.1. Phương pháp định tính
Phƣơng pháp định tính đƣợc sử dụng khi dữ liệu khan hiếm. Nó sử dụng các
chƣơng trình đánh giá và sự đánh giá của con ngƣời để biến thông tin định tính
thành các ƣớc tính định lƣợng.
Mục tiêu của phƣơng pháp này là kết hợp một cách hợp lý, có hệ thống mọi
thông tin và phán đoán có liên quan đến các yếu tố đƣợc ƣớc tính. Kỹ thuật này
thƣờng đƣợc sử dụng trong các lĩnh vực công nghệ mới.
1.4.2. Phân tích chuỗi thời gian
Phƣơng pháp này đƣợc sử dụng khi dữ liệu thu thập đƣợc trong nhiều năm
và mối quan hệ, xu hƣớng của đối tƣợng dự báo là rõ ràng và tƣơng đối ổn định.
Một trong những nguyên tắc cơ bản của dự báo thống kê thực của tất cả các
dự báo khi dữ liệu lịch sử có sẵn – ngƣời dự báo nên sử dụng dữ liệu về hiệu suất
trong quá khử để có đƣợc Speedometer Reading” về tỷ lệ hiện tại và tốc độ gia
tăng nhanh nhƣ thế nào. Tỷ lệ hiện tại và sự thay đổi về tốc độ - tăng tốc” và giảm
tốc”- tạo cơ sở cho dự báo.
9
Thông thƣờng khó có thể dự báo từ dữ liệu thô do tỷ lệ và xu hƣớng không
rõ ràng. Vì vậy, dữ liệu thô phải đƣợc xử lý trƣớc khi có thể sử dụng đƣợc nên
phƣơng pháp chuỗi thời gian sẽ đƣợc sử dụng để xử lý dữ liệu.
Chuỗi thời gian là một tập các điểm đƣợc sắp xếp theo thứ tự thời gian của
dữ liệu thô. Phân tích chuỗi thời gian giúp xác định và giải thích:
-
Bất kỳ sự khác biệt có tính hệ thống hoặc có hệ thống trong chuỗi dữ liệu
từng thời kỳ.
-
Chu kỳ mô hình lặp lại trong hai, ba năm hoặc nhiều hơn.
-
Xu hƣớng trong dữ liệu.
-
Tốc độ tăng trƣởng của các xu hƣớng.
1.4.3. Mô hình nguyên nhân – kết quả
Đƣợc sử dụng khi lịch sử dữ liệu đã có sẵn và đã đƣợc phân tích đầy đủ, chỉ
rõ mối quan hệ giữa các yếu tố đƣợc dự báo và các yếu tố khác.
Đây là mô hình dự báo tốt nhất. Nó diễn đạt các mối quan hệ nguyên nhân
và kết quả. Nó cũng có thể kết hợp cả các kết quả của việc phân tích chuỗi thời
gian.
Mô hình này có tính đến cả sự thay đổi của dòng chảy hệ thống và sử dụng
các dự đoán về các sự kiện có liên quan. Nếu đã có dữ liệu thì mô hình này sẽ chỉ
ra các vị trí của các yếu tố trong biểu đồ lƣu lƣợng và kết nối chúng bằng các
phƣơng trình để mô tả tổng thể dòng chảy của đối tƣợng.
Mô hình này đƣợc sử dụng tốt để dự đoán những thay đổi và dự báo tầm xa.
1.5. Các phƣơng pháp, mô hình dự báo ở Việt Nam
Việt Nam hiện chủ yếu sử dụng 3 phƣơng pháp (trong một phƣơng pháp có
thể có nhiều mô hình khác nhau) dự báo sau đây [10]:
1.5.1. Phương pháp ngoại suy
Bản chất của phƣơng pháp ngoại suy là kéo dài quy luật đã hình thành trong
quá khử để làm dự báo cho tƣơng lai. Giả thiết cơ bản của phƣơng pháp này là sự
bảo toàn nhịp điệu, quan hệ và những quy luật phát triển của đối tƣợng dự báo
trong quá khứ cho tƣơng lai. Thông tin cung cấp cho phƣơng pháp ngoại suy là số
liệu về động thái của đối tƣợng dự báo trong quá khứ qua một số năm nhất định,
10
thông thƣờng yêu cầu thời khoảng quá khứ có số liệu phải lớn hơn nhiều lần thời
khoảng làm dự báo. Phƣơng pháp này thích hợp để dự báo những đối tƣợng phát
triển theo kiểu tiệm tiến. Phƣơng pháp ngoại suy có ƣu điểm là đơn giản, tuy
nhiên, nhƣợc điểm chính là không tính đƣợc ảnh hƣởng của các yếu tố khách quan
đến kết quả dự báo.
1.5.2. Phương pháp chuyên gia
Bản chất của phƣơng pháp chuyên gia là lấy ý kiến đánh giá của các chuyên
gia để làm kết quả dự báo. Phƣơng pháp này đƣợc triển khai theo một quy trình chặt
chẽ bao gồm nhiều khâu: Thành lập nhóm chuyên gia, đánh giá năng lực chuyên
gia, lập biểu câu hỏi và xử lý toán học kết quả thu đƣợc từ ý kiến chuyên gia. Khó
khăn của phƣơng pháp này là việc tuyển chọn và đánh giá năng lực của các chuyên
gia. Phƣơng pháp này đƣợc áp dụng có hiệu quả cho những đối tƣợng thiếu (hoặc
chƣa đủ) số liệu thống kê, phát triển có độ bất ổn lớn hoặc đối tƣợng của dự báo
phức tạp không có số liệu nền. Kết quả của phƣơng pháp dự báo này chủ yếu phục
vụ cho nhu cầu định hƣớng, quản lý vì thế cần kết hợp (trong trƣờng hợp có thể) với
các phƣơng pháp định lƣợng khác.
1.5.3. Phương pháp mô hình hóa
Phƣơng pháp này là sự kết hợp hai phƣơng pháp nói trên. Cách thức tiếp
cận của phƣơng pháp này là dùng hệ thức toán học để mô tả mối liên hệ giữa đối
tƣợng dự báo với các yếu tố có liên quan. Khó khăn của phƣơng pháp này là phải
viết đƣợc chính xác hệ thức toán học nói trên. Phƣơng pháp mô hình hóa áp dụng
cho nghiên cứu kinh tế, tài nguyên – môi trƣờng sẽ phải sử dụng nhiều phƣơng
trình của mô hình kinh tế lƣợng vi đối tƣợng dự báo (mối liên hệ giữa hoạt động
kinh tế và chất lƣợng môi trƣờng, sử dụng tài nguyên) có liên quan đến nhiều yếu
tố kinh tế ví dụ: GDP, giá cả…
Phƣơng pháp này yêu cầu số liệu của nhiều yếu tố hữu quan trong quá khứ,
trong khi đó, phƣơng pháp ngoại suy chỉ yêu cầu một loại số liệu. Tuy nhiên,
phƣơng pháp này cũng có ƣu điểm là có thể giải thích đƣợc kết quả dự báo và có
thẻ phân tích ảnh hƣởng của các yếu tố liên quan đến kết quả dự báo.
11
- Xem thêm -