ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ
VŨ VĂN HẢI
DỰ BÁO NHIỆT ĐỘ THỦ ĐÔ HÀ NỘI
SỬ DỤNG MẠNG NƠRON NHÂN TẠO
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
Hà Nội – 2013
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ
VŨ VĂN HẢI
DỰ BÁO NHIỆT ĐỘ THỦ ĐÔ HÀ NỘI
SỬ DỤNG MẠNG NƠRON NHÂN TẠO
Ngành:
Công nghệ Thông tin
Chuyên nghành: Hệ thống Thông tin
Mã số:
60 48 05
LUẬN VĂN THẠC SỸ CÔNG NGHỆ THÔNG TIN
NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS.TS NGUYỄN QUANG HOAN
Hà Nội - 2013
LỜI CAM ĐOAN
Tôi xin cam đoan: Bản luận văn tốt nghiệp này là công trình nghiên cứu thực sự
của cá nhân , được thực hiện trên cơ sở nghiên cứu lý thuyết , thực nghiệm thông qua
các ứng du ̣ng mã nguồ n mở , các kiến thức học được ở cấp cao học và dưới sự hướng
dẫn khoa học của PGS.TS. Nguyễn Quang Hoan. Các số liệu và kết quả trong luận văn
là trung thực, chưa được sử dụng hay công bố ở bất cứ hình thức nào. Dữ liệu để thực
nghiệm có nguồn gốc rõ ràng và không mang tính chất thương mại.
Hà Nội, tháng 12 năm 2013
HỌC VIÊN
Vũ Văn Hải
LỜI CẢM ƠN
Trước tiên, tôi xin bày tỏ lòng biết ơn sâu sắc tới PGS.TS. Nguyễn Quang
Hoan, người thầy đã hướng dẫn, chỉ bảo tận tình để tôi có thể hoàn thành luận văn này.
Tôi cũng chân thành gửi lời cảm ơn tới các thầy, cô giáo Trường Đại học Công nghệ Đại học Quốc gia Hà Nội đã truyền thụ kiến thức, hỗ trợ tôi trong suốt quá trình học
tập vừa qua.
Tôi cũng xin cảm ơn cơ quan, bạn bè đồng nghiệp, gia đình và những người
thân đã cùng chia sẻ, giúp đỡ, động viên, tạo mọi điều kiện thuận lợi để tôi hoàn thành
nhiệm vụ học tập và cuốn luận văn này.
Hà Nội, tháng 12 năm 2013
HỌC VIÊN
Vũ Văn Hải
MỤC LỤC
LỜI CẢM ƠN ............................................................................................................................. 4
MỤC LỤC ................................................................................................................................... 5
DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT ........................................................... 7
DANH MỤC CÁC BẢNG BIỂU ............................................................................................... 8
DANH MỤC HÌNH VẼ, ĐỒ THỊ ............................................................................................. 9
MỞ ĐẦU .................................................................................................................................... 10
1.
LÝ DO CHỌN ĐỀ TÀI ............................................................................................................... 10
2.
MỤC TIÊU VÀ NHIỆM VỤ CỦA LUẬN VĂN .................................................................. 10
3.
ĐỐI TƢỢNG VÀ PHẠM VI NGHIÊN CỨU ....................................................................... 10
4.
PHƢƠNG PHÁP NGHIÊN CỨU ............................................................................................ 10
5.
Ý NGHĨA KHOA HỌC VÀ THỰC TIỄN CỦA ĐỀ TÀI.................................................. 10
6.
BỐ CỤC CỦA LUẬN VĂN ....................................................................................................... 11
Chƣơng 1. TỔNG QUAN VỀ BÀI TOÁN DỰ BÁO ............................................................. 12
1.1. MỞ ĐẦU ......................................................................................................................................... 12
1.2. QUY TRÌNH THỰC HIỆN DỰ BÁO..................................................................................... 13
1.3. PHƢƠNG PHÁP DỰ BÁO ........................................................................................................ 14
1.3.1.
1.3.2.
1.3.3.
1.3.4.
1.3.5.
Phƣơng pháp dự báo định tính ........................................................... 14
Phƣơng pháp dự báo định lƣợng ........................................................ 15
Một số mô hin
̀ h dự báo thời tiết.......................................................... 15
Phƣơng pháp dự báo sử dụng mạng nơron nhân tạo ....................... 17
Mô ̣t số phƣơng pháp dự báo khác ...................................................... 17
1.4. ĐÁNH GIÁ KẾT QUẢ DỰ BÁO ............................................................................................. 19
1.5. KẾT LUẬN CHƢƠNG 1............................................................................................................ 20
Chƣơng 2. NGHIÊN CỨU MẠNG NƠRON NHÂN TẠO ................................................... 21
2.1. GIỚI THIỆU MẠNG NƠRON NHÂN TẠO ........................................................................ 21
2.1.1.
2.1.2.
2.1.3.
Mạng nơron nhân tạo là gì? ................................................................ 21
Lịch sử phát triển mạng nơron ........................................................... 21
So sánh mạng nơron với máy tính truyền thống............................... 23
2.2. NƠRON SINH HỌC VÀ NƠRON NHÂN TẠO.................................................................. 24
2.2.1.
2.2.2.
Nơron sinh học ..................................................................................... 24
Nơron nhân tạo..................................................................................... 25
2.3. MẠNG NƠRON NHÂN TẠO................................................................................................... 28
2.3.1.
2.3.2.
2.3.3.
Mô hình mạng nơron nhân tạo ........................................................... 28
Phân loa ̣i ma ̣ng nơron nhân ta ̣o.......................................................... 29
Thuật học trong mạng nơron .............................................................. 30
2.4. MẠNG NƠRON NHÂN TẠO TRUYỀN THẲNG
.............................................................. 33
2.4.1.
2.4.2.
2.4.3.
2.4.4.
2.4.5.
Mạng Perceptron một lớp ................................................................... 33
Mạng Perceptron nhiều lớp................................................................. 35
Thuật toán học theo phƣơng pháp lan truyền ngƣợc sai số ............. 36
Một số yếu tố ảnh hƣởng đến quá trình học theoBPA ..................... 40
Một số vấn đề cần chú ý khi sử dụng mạng MLP ............................. 41
2.5. KẾT LUẬN CHƢƠNG 2............................................................................................................ 44
Chƣơng 3. DỰ BÁO NHIỆT ĐỘ THỦ ĐÔ HÀ NỘI SỬ DỤNG MẠNG NƠRON
NHÂN TẠO ................................................................................................................................. 45
3.1. BÀI TOÁN...................................................................................................................................... 45
3.2. ĐIỀU KIỆN NHIỆT ĐỘ Ở THỦ ĐÔ HÀ NỘI ..................................................................... 45
3.3. THỐNG KÊ VÀ LÀM SẠCH DỮ LIỆU ............................................................................... 46
3.1.1.
3.1.2.
Thống kê dữ liệu ................................................................................... 46
Làm sạch dữ liệu .................................................................................. 47
3.4. DỰ BÁO NHIỆT ĐỘ SỬ DỤNG MẠNG NƠRON NHÂN TẠO.................................... 48
3.4.1.
3.4.2.
3.4.3.
3.4.4.
3.4.5.
quy
Các bƣớc xây dựng bài toán................................................................ 48
Xác định cấu trúc mạng....................................................................... 49
Chƣơng trin
̀ h dự báo sử dụng mạng nơron nhân ta ̣o ...................... 52
Kế t quả dự báo bằng phƣơng pháp ANN .......................................... 54
Dự báo nhiệt độ kết hợp ma ̣ng nơron nhân ta ̣o và phƣơng pháp hồ i
55
3.5.1.
3.5.2.
Dự báo nhiệt độ sử dụng phƣơng pháp K-NN .................................. 58
Dự báo nhiệt độ sử dụng phƣơng pháp hồ i quy tuyế n tính ............. 61
3.5. DỰ BÁO NHIỆT ĐỘ SỬ DỤNG MỘT SỐ PHƢƠNG PHÁP KHÁC........................... 58
3.6. KẾT LUẬN CHƢƠNG 3............................................................................................................ 64
KẾT LUẬN ............................................................................................................................... 65
1.
KẾT QUẢ ĐA ̣T Đ
ƢỢC .............................................................................................................. 65
2.
HƢỚNG PHÁ T TRIỂN.............................................................................................................. 65
TÀI LIỆU THAM KHẢO ........................................................................................................ 66
PHỤ LỤC 1: MỘT SỐ KẾT QUẢ DỰ BÁO KHÁC ............................................................ 68
PHỤ LỤC 2: DỮ LIỆU THỜI TIẾT THỦ ĐÔ HÀ NỘI ...................................................... 70
DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT
TT
TÊN VIẾT
TẮT
TÊN ĐẦY ĐỦ
DIỄN GIẢI
1
ANN
Artificial Neural Network
Mạngnơron nhân tạo
2
BPA
Back Propagation Algorithm
Thuâ ̣t toán lan truyề n ngươ ̣c
3
DWD
Deutscher Wetter Dienst
Nha Khí tươ ̣ng Thủy văn Đức
4
HRM
High Resolution
Model
Mô hình đô ̣ phân giải cao
5
K-NN
K-Nearest Neighbors
K - láng giềng gần nhất
6
MAE
Mean Absolute Error
Sai số tuyệt đối
MeanAbsolutePercentage
Sai số trung bình phần trăm
Error
tuyệt đối
Regional
7
MAPE
8
MLP
Multilayer Layer Perceptron
Mạngnơron
lớp
9
MSE
Mean Square Error
Sai số quân phương
10
MM5
Fifth-Generation
Penn
State/NCAR Mesoscale Model
Mô hình
Penn State /NCAR
Mesoscale thế hê ̣ thứ 5
11
RAMS
Regional
Atmospheric
Modelling System
Mô hình hê ̣ thố ng khí quyể n khu
vực
12
RMSE
Root Mean Square Error
Sai số căn quân phương
13
WRS
The Weather Research And
Forcast
Nghiên cứu thời tiế t và dự báo
Perceptron
nhiều
DANH MỤC CÁC BẢNG BIỂU
Bảng 1.1 Tổng hợp một số phương pháp dự báo trên thế giới ................................................. 14
Bảng 2.1 Một số hàm kích hoạt được sử dụng trong các mô hình nơron nhân tạo .................. 27
Bảng 3.1 Dữ liệu nhiệt độ năm 2011 ở thủ đô Hà Nội ............................................................. 46
Bảng 3.2 Dữ liệu được tổng hợp làm đầu vào cho bài toán dự báo ......................................... 47
Bảng 3.3 Kế t quả dự báo nhiê ̣t đô ̣ Hà Nô ̣i năm 2010 ứng với một số nơron lớp ẩn ................ 49
Bảng 3.4 Kế t quả dự báo nhiệt độ Hà Nội năm 2011 ứng với một số nơron lớp ẩn ................ 50
Bảng 3.5 Kết quả dự báo nhiê ̣t đô ̣ thủ đô Hà Nô ̣i bằng phương pháp ANN ............................ 54
Bảng 3.6 Kế t quả dự báo nhiê ̣t đô ̣ năm 2010 của Hà Nội phương pháp lai ghép .................... 57
Bảng 3.7 Kết quả dự báo nhiê ̣t đô ̣ thủ đô Hà Nô ̣i bằng phương pháp K-NN........................... 60
Bảng 3.8 Kế t quả dự báo nhiê ̣t đô ̣ thủ đô Hà Nô ̣i bằ ng phương pháp hồ i quy ........................ 63
DANH MỤC HÌNH VẼ, ĐỒ THỊ
Hình 1.1 Phân lớp trong thuật toán K-NN................................................................................ 17
Hình 2.1 Cấu trúc của một nơron sinh học điển hình ............................................................... 25
Hình 2.2 Cấ u trúc nơron nhân tạo ............................................................................................ 26
Hình 2.3 Mô hình mạng nơron nhân tạo .................................................................................. 29
Hình 2.4 Phân loa ̣i ma ̣ng nơron ................................................................................................ 30
Hình 2.5 Các dạng học tham số ................................................................................................ 31
Hình 2.6 Mạng Perceptron một lớp .......................................................................................... 34
Hình 2.7 Mạng MLP tổng quát ................................................................................................. 35
Hình 2.8 Lan truyền tín hiệu theo phương pháp lan truyền ngược sai số ............................... 37
Hình 2.9 Minh họa về ý nghĩa của quán tính trong thực tế ...................................................... 41
Hình 3.1 Dữ liệu thiế u .............................................................................................................. 47
Hình 3.2 Sơ đồ huấ n luyê ̣n dữ liê ̣u dự báo ............................................................................... 52
Hình 3.3 Sơ đồ dự báo .............................................................................................................. 52
Hình 3.4 Giao diện chương trình dự báo .................................................................................. 53
Hình 3.5 Huấn luyện mạng ....................................................................................................... 53
Hình 3.6 Dự báo nhiệt độ sử dụng mạng nơron nhân tạo......................................................... 54
Hình 3.7 Biể u đồ dự báo nhiê ̣t đô ̣ thủ đô Hà Nô ̣i năm 2010 bằ ng phương pháp ANN ............ 55
Hình 3.8 Biể u đồ dự báo nhiê ̣t đô ̣ thủ đô Hà Nô ̣i năm 2011 bằ ng phương pháp ANN ............ 55
Hình 3.9 Khoảng cách giữa các Query Point với tất cả các mẫu học....................................... 59
Hình 3.10 Dữ liệu biến phụ thuộc ............................................................................................ 60
Hình 3.11 Kết quả dự báo bằng phương pháp K-NN ............................................................... 60
Hình 3.12 Hô ̣p thoa ̣i chứa các công cu ̣ phân tić h dữ liê ̣u ......................................................... 61
Hình 3.13 Hô ̣p thoa ̣i khai báo các thông số của mô hình hồi quy ............................................ 62
Hình 3.14 Kế t quả phân tích hồ i quy ........................................................................................ 63
MỞ ĐẦU
1. LÝ DO CHỌN ĐỀ TÀI
Công tác dự báo có nhiệm vụ đoán trước sự thay đổi của đối tượng dự báo t rên
cơ sở nghiên cứu các quy luật của chúng. Hiện nay có rất nhiều bài toán dự báo được
đặt ra như dự báo tuyển sinh, dự báo các chỉ số kinh tế vĩ mô v.v... Dự báo nhiệt độ có
ý nghĩa quan trọng đối với sản xuất và đời sống, nhằm phòng chống và hạn chế thiên
tai, thiết lập kế hoạch sản xuất, khai thác tiềm năng khí hậu. Luận văn sử dụng công cụ
tiến tiến là mạng nơron nhân tạo với mong muốn thử nghiê ̣m dự báo nhiệt độ của thủ
đô Hà Nội.
2. MỤC TIÊU VÀ NHIỆM VỤ CỦA LUẬN VĂN
Luận văn tập trung nghiên cứu , lựa chọn các mô hình mạng nơron , áp dụng
phương pháp học máy mạng nơron và ứng dụng vào bài toán dự báo nhiệt độ của thủ
đô Hà Nội. Luận văn phát triển công cụ thử nghiệm riêng và tiến hành thử nghiệm trên
bộ số liệu được thu thập.
3. ĐỐI TƢỢNG VÀ PHẠM VI NGHIÊN CỨU
Luận văn nghiên cứu lý thuyết mạng nơron nhân tạo
, mạng nơron lan truyền
thẳng và thuật toán lan truyền ngược , áp dụng vào bài toán dự báo nói chung và dự
báo nhiệt độ của thủ đô Hà Nội nói riêng . Luâ ̣n văn nghiên cứu thuâ ̣t toán K -NN trong
dự bá o và phương pháp hồ i quy để đố i sánh kế t quả dự báo với phương pháp ma ̣ng
nơron nhân ta ̣o . Đồng thời luận văn cũng lai ghép phương pháp mạng nơron và hồi
quy tuyế n tiń h để dự báo .
Do nguồ n dữ liê ̣u thu thâ ̣p đươ ̣c chưa đầ y đủ , luâ ̣n văn mới thử nghiê ̣m cho dữ
liê ̣u tháng, từ năm 2002 đến năm 2011.
4. PHƢƠNG PHÁP NGHIÊN CỨU
Nghiên cứu về lý thuyết để nắm rõ các mô hình mạng nơron, các phương pháp
dự báo, lý thuyết về mạng nơron nhân tạo, mạng nơron lan truyền thẳng và thuật toán
lan truyền ngược. Trên cở sở đó học viên lựa chọn mô hình phù hợp và thử nghiệm để
hiệu chỉnh tối ưu mô hình đã lựa chọn.
5. Ý NGHĨA KHOA HỌC VÀ THỰC TIỄN CỦA ĐỀ TÀI
Luâ ̣n văn thử nghiê ̣m phương pháp ho ̣c của ma ̣ng nơron cho dự báo thời tiế t . Các
đầ u vào dữ liê ̣u mẫu có thể sử du ̣ng phương pháp hồ i quy để dự báo từng tham số
.
Toàn bộ bài toán có thể sử dụng phương pháp lai giữa mạng nơron và phương pháp hồi
quy.
Kết quả dự báo của mạng nơron lan truyền ngược cho độ chính xác nhấ t đinh
̣ .
Tuy nhiên, luận văn chỉ dừng lại ở mức dự báo nhiệt độ theo tháng do ho ̣c viên không
xin đươ ̣c dữ liê ̣u từng ngày của Trung tâm Khí tươ ̣ng Thủy văn quố c gia . Về nguyên
tắ c: nế u có bô ̣ dữ liê ̣u vào đầ y đủ thì ma ̣ng hoàn t oàn xử lý bình thường (tố c đô ̣ có thể
châ ̣m hơn do nhiề u bản ghi) theo ngày. Nếu có bộ dữ liệu của từng ngày và dữ liệu với
nhiều yếu tố đầu vào hơn nữa như: hướng gió, áp suất thì mức độ dự báo sẽ càng chính
xác hơn.
6. BỐ CỤC CỦA LUẬN VĂN
Nội dung của luận văn được tổ chức thành ba chương có nội dung như sau:
-
-
Chương 1: Nghiên cứu về bài toán dự báo , các phương pháp dự báo nói chung và phương
pháp dự báo áp dụng cho bài toán dự báo nhiệt độ nói riêng.
Chương 2: Nghiên cứu về mạng nơron nhân tạo, tập trung vào mạng nơron truyền thẳng
nhiều lớp, chương này cung cấp chi tiết các vấn đề về quá trình huấn luyện và thuật toán học
của mạng, với trọng tâm là thuật toán lan truyền ngược sai số.
Chương 3: Xây dự ng ứ ng dụng mạng nơron nhân tạo vào giải quyết bài toán dự báo nhiệt
độ của thủ đô Hà Nội đồng thờ i sử dụ ng thuật toán K
-NN, phương pháp hồi quy để dự
báo nhiệt độ thủ đô Hà Nội trên bộ dự liệu đã thu thập được . Ngoài ra , chương 3 còn đối
sánh kết quả dự bá o của các phương pháp trên và thử nghiệm lai ghép giữ a mạng nơron
và phương pháp hồi quy để dự báo .
Kết luận: Tổng kết các kết quả đã đạt được của luận văn và hướng nghiên cứu
tiếp theo. Phần phụ lục giới thiệu về mã nguồ n và dữ liê ̣u sử dụng trong ứng dụng dự
báo nhiệt độ thủ đô Hà Nội sử dụng mạng nơron nhân tạo.
Chƣơng 1. TỔNG QUAN VỀ BÀI TOÁN DỰ BÁO
1.1.
MỞ ĐẦU
Dự báo là tiên đoán, ước lượng, đánh giá các sự kiện xảy ra trong tương lai, các
sự kiện này thường là bất định. Mục đích dự báo là sử dụng thông tin hiện có một cách
tốt nhất để định hướng các họat động tương lai nhằm đạt được mục đích tổ chức. Nếu
dự báo tốt thì hoạt động của tổ chức trong tương lai sẽ có hiệu quả.
Dự báo giúp các nhà lãnh đạo ra các quyết định về chính sách , sản phẩm , quy
trình công nghệ , quyết định về nguồn lực như máy móc thiết bị cũng như quyết định
về vận hành hệ thống . Dự báo giúp các nhà quản lý hoa ̣ch định các kế hoa ̣ch như kế
hoạch tài chính , kế hoa ̣ch tiếp thị , kế hoa ̣ch sản xuất . Có nhiều loại quyết định , nhiều
loại kế hoa ̣ch, nên có nhiều loa ̣i mô hình dự báo.
Trong một tổ chức sản xuất, dự báo thường dùng để dự đoán doanh thu, chi phí,
lợi nhuận, giá cả, thay đổi công nghệ, và đặc biệt là nhu cầu. Hầu hết các công ty
không bao giờ chờ cho đến khi nhận được đơn đặt hàng rồi mới bắt đầu hoa ̣ch định
sản xuất, thu mua nguyên vật liệu. Khách hàng thường ít khi chịu chờ các nhà sản xuất
đáp ứng yêu cầu, nên để tăng thế cạnh tranh, nhà sản xuất phải làm đáp ứng nhu cầu
của khách hàng nhanh chóng. Để thực hiện được điều này, nhà sản xuất phải dự báo
nhu cầu tốt.
Dự báo đã có nhiều manh nha từ trước, song nó chỉ thực sự phát triển vào cuối
thế kỷ 19 trong một số ngành như hàng hải, nông nghiệp. Nhiều kỹ thuật dự báo ngày
nay đã bắt đầu phát triển vào thế kỷ 19.
Dự báo thường gồm các vấn đề sau:
-
Đối tượng và đơn vị dự báo;
Chiều dự báo;
Phương pháp dự báo;
Thời gian và chu kz dự báo;
Độ chính xác dự báo;
Báo cáo đặc biệt;
Mô hình và điều chỉnh mô hình dự báo.
Đối tượng dự báo có thể là thời tiết, chỉ số chứng khoán, một vật tư, hay sức tiêu
thụ một sản phẩm v.v…
Chiều dự báo là trên xuống hay dưới lên. Dự báo từ trên xuống bắt đầu từ dự báo
các chỉ số kinh tế như tổng sản phẩm quốc gia, thu nhập đầu người, sau đó là dự báo
cho một ngành công nghiệp mà tổ chức đang tham gia, dự báo cho thị phần của tổ
chức, tiếp theo là dự báo cho một dòng sản phẩm và cuối cùng là dự báo cho từng sản
phẩm. Dự báo từ dưới lên là dự báo theo chiều ngược lại.
Phương pháp dự báo dựa vào dữ kiện chia thành phương pháp định tính và
phương pháp định lượng. Phương pháp định lượng bao gồm phương pháp phân tích
theo chuỗi thời gian và phương pháp nguyên nhân.
Thời gian dự báo bao gồm nhiều chu kỳ dự báo. Chu kỳ dự báo có thể là tuần,
tháng, hay quí. Thời gian dự báo có thể là ngắn hạn, trung hạn hay dài hạn . Dự báo
ngắn hạn có thời gian thường không quá 3 tháng, dùng cho nhà quản lý cấp thấp trong
hoạch định mua sắm , lên lịch sản xuất, điều độ công việc, phân công nhiệm vụ… Dự
báo ngắn hạn thường sử dụng phương pháp chuỗi thời gian, hoặc đôi khi dùng phương
pháp nguyên nhân. Dự báo trung hạn có thời gian thường từ 3 tháng đến 2 năm, dùng
cho nhà quản lý cấp trung trong hoạch định sản xuất và phân phối hoặc đánh giá mức
độ tồn kho cần thiết. Dự báo trung hạn có thể sử dụng phương pháp chuỗi thời gian ,
phương pháp nguyên nhân và cả phương pháp định tính . Dự báo dài hạn thường có
thời gian trên 2 năm, dùng cho nhà quản lý cấp cao trong hoa ̣ch định chiến lược cũng
như đánh giá các mục tiêu dài hạn, tham gia vào thị trường mới, phát triển kỹ thuật
mới hoặc các điều kiện mới, thiết kế mạng lưới sản xuất kinh doanh. Dự báo dài hạn
thường sử dụng phương pháp nguyên nhân và phương pháp định tính.
1.2.
QUY TRÌNH THỰC HIỆN DỰ BÁO
Dự báo là một quá trình phức tạp nhưng về cơ bản qui trình có thể thực hiện theo
các bước sau:
-
Thu thập số liệu;
Xử l{ số liệu;
Lựa chọn phương pháp và mô hình dự báo;
Dự báo;
Đánh giá dự báo.
Số liệu thu thập cần chính xác và đúng mục đích dự báo. Đây là phần việc khó
khăn tốn thời gian. Bước xử lý số liệu loại bỏ những số liệu không phù hợp , không
chính xác, không cần thiết hoă ̣c bổ sung các số liê ̣u thiế u , chuyển đổi dữ liệu cho phù
hợp mô hình. Phương pháp dự báo được lựa chọn sao cho phù hợp với dữ liệu và đối
tượng dự báo. Lập mô hình dự báo sao cho sai số dự báo là nhỏ nhất. Từ mô hình dự
báo, ta xác định giá trị dự báo và đánh giá dự báo qua so sánh giá trị dự báo và thực tế.
1.3.
PHƢƠNG PHÁP DỰ BÁO
Có nhiều học giả có cách phân loại phương pháp dự báo khác nhau. Tuy nhiên
theo học giả Gordon [16], trong 2 thập kỷ gần đây, có 8 phương pháp dự báo được áp
dụng rộng rãi trên thế giới bao gồm:
Bảng 1.1 Tổng hợp một số phƣơng pháp dự báo trên thế giới
TT Tên phƣơng pháp dự báo
1.
Tiên đoán/Genius Forecasting
2.
Ngoại suy xu hướng/Trend Extrapolation
3.
Phương pháp chuyên gia/Consensus Methods
4.
Phương pháp mô hình (mô hình hóa)/Stimulation
5.
Phương pháp ma trận tác động qua lại/Cross-Impact Matrix Method
6.
Phương pháp kịch bản/Scenario
7.
Phương pháp cây quyết định/Decision Trees
8.
Phương pháp dự báo tổng hợp/Combining Methods
Bảng 1.1 đề cập 8 phương pháp thường được sử dụng trên thế giới trong dự
báo. Tuy nhiên, theo cách phân loại tại Việt Nam, các phương pháp dự báo thường
chia thành 2 nhóm chính là phương pháp định tính và phương pháp định lượng.
1.3.1.
Phƣơng pháp dự báo định tính
Phương pháp dự báo định tính dựa trên các dữ kiện định tính như ý kiến , phán
đoán, kinh nghiệm, chuyên môn của các chuyên gia hay là những người liên quan để
dự báo sự thay đổ i của mô ̣t sự vâ ̣t, hiê ̣n tươ ̣ng.
Trong báo thời tiết , dự báo của dân gian là phương pháp tiêu biể u nhấ t của
phương pháp dự báo đinh
̣ tính . Phương pháp này có độ chính xác tương đối cao . Đây
là phương pháp được chắt lọc qua hàng ngàn năm và đến nay vẫn còn nguyên giá trị.
Ví dụ, trong văn ho ̣c dân gian Viê ̣t Nam có câu:
“Chuồn chuồn bay thấp thì mưa, bay cao thì nắng, bay vừa thì râm”.
Ông cha ta đã quan sát chuồn chuồn bay để dự báo trời có mưa hay không.
Nhưng sau này hiện tượng này lại được giải thích hết sức khoa học. Về mặt vật lý,
cánh chuồn chuồn được cấu tạo rất mỏng, còn khi trời sắp mưa độ ẩm trong không khí
là rất cao. Hơi nước ngưng tụ thành những hạt li ti, đậu trên cánh của chuồn chuồn
khiến chúng không thể bay cao được. Ngoài ra, tập tính sinh sản của chuồn chuồn
cũng có thể dùng để giải thích hiện tượng này. Chuồn chuồn thường đẻ trứng vào mùa
mưa và đẻ trên mặt nước. Chính vì vậy, ta thường thấy chúng lượn lờ trên mặt nước
mỗi khi mưa sắp đến.
1.3.2.
Phƣơng pháp dự báo định lƣợng
Trong khi phương pháp định tính dựa trên cơ sở nhận xét của những yếu tố liên
quan, những ý kiến về các khả năng có liên hệ của những yếu tố liên quan này trong
tương lai thì phương pháp định lượng ngược lại dựa trên các dữ kiện định lượng.
Mô hình dự báo định lượng dựa trên số liệu quá khứ, những số liệu này giả sử có
liên quan đến tương lai và có thể tìm thấy được. Tất cả các mô hình dự báo theo định
lượng có thể sử dụng thông qua chuỗi thời gian và các giá trị này được quan sát đo
lường các giai đoạn theo từng chuỗi.
Phương pháp định lượng chia làm 2 loại:
- Phương pháp phân tích theo chuỗi thời gian;
- Phương pháp nguyên nhân.
Phương pháp phân tích theo chuỗi thời gian dựa trên số liệu quá khứ theo thời
gian của đại lượng cần dự báo. Phương pháp nguyên nhân dựa trên quan hệ giữa đại
lượng cần dự báo và các đại lượng khác có thể đo lường được.
Hiện nay, khi dự báo người ta thường kết hợp cả phương pháp định tính và định
lượng để nâng cao độ chính xác. Bên cạnh đó, vấn đề cần dự báo đôi khi không thể
thực hiện được thông qua một phương pháp dự báo đơn lẻ mà đòi hỏi kết hợp nhiều
hơn một phương pháp nhằm mô tả đúng bản chất sự việc cần dự báo.
Trong luận văn này, học viên sử dụng phương pháp dự báo định lượng và cụ thể
là mạng nơron lan truyền ngược để dự báo nhiệt độ của thủ đô Hà Nội. Đây là phương
pháp kết hợp cả hai loại phương pháp phân tích theo chuỗi thời gian và phương pháp
nguyên nhân.
1.3.3.
Một số mô hin
̀ h dự báo thời tiết
Hiê ̣n nay , công tác dự báo thời tiết trên thế giới nói chung và ở Việt Nam nói
riêng rất hiện đại và phổ biến. Có rất nhiều mô hình dự báo khác nhau như:
Mô hình dự báo số trị[11]: Dự báo số trị là phương pháp dự báo thời tiết dựa
trên cơ sở tích phân số trị hệ phương trình thuỷ động lực học của khí quyển. Ngày nay,
ở nhiều nước, phương pháp này đã được sử dụng để dự báo thời tiết trong điều kiện
nghiệp vụ. Lý thuyết của dự báo số trị là một phần của khí tượng động lực, được tách
ra thành một giáo trình độc lập vì có ý nghĩa thực tiễn lớn và cần được nghiên cứu kỹ
hơn so với các phần khác.
Mô hình HRM (High Resolution Regional Model) [7]: Mô hin
̀ h HRM được tiếp
nhận từ Cơ quan Khí tượng Đức (DWD) từ năm 2000 thông qua đề tài Khoa học Công
nghệ cấp Nhà nước DBB-2000/02 do PGS. TSKH Kiều Thị Xin làm chủ nhiệm và
chạy ở chế độ nghiệp vụ tại Bộ môn Khí tượng từ đó đến nay.
Mô hình RAMS (Regional Atmospheric Modelling System) [7]: RAMS là một
mô hình khu vực hạn chế được xây dựng và phát triển tại trường Đại học tổng hợp
Colorado – Mỹ. Mô hình RAMS có khả năng ứng dụng rộng rãi cho các mục đích
khác nhau. Mô hình được thiết kế chạy được nhiều lưới lồng với nhiều miền tính khác
nhau mà độ phân giải có thể biến thiên từ vài chục km tới vài trăm mét. Vì vậy, nó có
thể mô phỏng chi tiết được các hệ thống khí quyển quy mô nhỏ như là dòng chuyển
động trên các địa hình phức tạp, các hoàn lưu nhiệt bề mặt... Lưới thô hơn bên ngoài
sử dụng để mô phỏng các quá trình quy mô lớn và cung cấp điều kiện biên phụ thuộc
thời gian cho các lưới tính bên trong.
Mô hình RAMS được tiếp thu về Việt Nam thông qua đề tài KHCN KC09-04 do
GS.TS Trần Tân Tiến làm chủ nhiệm, và đã từng chạy theo chế độ nghiệp vụ tại Khoa
Khí tượng Thủy văn và Hải dương học trong giai đoạn đề tài đang triển khai. Theo các
tác giả đề tài, RAMS đã chứng tỏ khả năng dự báo tốt trong nhiều trường hợp mưa
lớn, bão, và các hiện tượng thời tiết nguy hiểm như giông.
Mô hình WRF (The Weather Research And Forcast) [21]:WRF là mô hình khí
quyển quy mô vừa được thiết kế linh động, có độ tùy biến cao và có thể sử dụng trong
nghiên cứu và dự báo nghiệp vụ. WRF là kết quả của sự hợp tác, phát triển của nhiều
trường đại học , trung tâm nghiên cứu và dự báo khí tượng ở Hoa Kỳ . Mô hình WRF
có khả năng mô phỏng được các quá trình khí quyển trên nhiều quy mô khác nhau.
WRF sử dụng hệ tọa độ áp suất cho phương thẳng đứng và lưới ngang xen kẽ
Arakawa-C với sơ đồ tích phân thời gian Runge – Kutta bậc ba. Mô hình có thể sử
dụng số liệu thực hoặc mô phỏng lý tưởng với điều kiện biên xung quanh là biên tuần
hoàn, mở, đối xứng, biên cấu hình với điều kiện biên trên là lớp hấp thụ sóng dài của
trái đất (suy giảm hoặc tán xạ Rayleigh) và điều kiện biên dưới là biên cứng hoặc bề
mặt trượt tự do.
Ở Việt Nam mô hình WRF chưa được sử dụng vào nghiệp vụ dự báo thời tiết
song các nghiên cứu về mô hình này nhìn chung rất đa dạng và phong phú với nhiều
hướng tiếp cận khác nhau. Mô hình WRF đang được nghiên cứu và áp dụng thử
nghiệm dự báo ở Trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Hà Nội, Viện
Khoa học Khí tượng Thủy văn và Môi trường, Trung tâm Dự báo Khí tượng Thủy văn
Trung ương.
Mô hình MM5[7]: Mô hình MM5 đã được hình thành bởi Trung tâm Nghiên
cứu Khí tượng Hoa Kỳvà là mô hình khí tượng tối tân và chính xác nhất hiện nay.
Mô hình MM5 đang được nhiều cơ quan chính phủ cũng như nhiều đại học danh
tiếng ở Hoa Kỳ và các quốc gia khác trên thế giới như tại Âu Châu, Hồng Kông và
Đài Loan dùng để làm dự báo thời tiết. Mô hình MM5 thường đòi hỏi phải sử dụng
máy vi tính cao cấp và đắt tiền. Hiện nay, Viện Khí tượng Thuỷ văn cũng đã áp
dụng thành công MM5 để dự báo thời tiết ở Việt Nam. MM5 là mô hình có khả
năng dự báo thời tiết trong vòng 16 ngày, nhưng điều kiện kỹ thuật ở Việt Nam chỉ
cho kết quả 3 ngày và 7 ngày.
1.3.4.
Phƣơng pháp dự báo sử dụng mạng nơron nhân tạo
Phương pháp dự báo sử dụng mạng nơron nhân tạo là phương pháp dự báo sử
dụng mô hình có khả năng “học” từ các dữ liệu quá khứ, có thể cập nhật các tham số.
Nếu lựa chọn được các tham số tối ưu thì đó là mô hình xấp xỉ rất tốt đường cong dịch
chuyển của đối tượng cần dự báo. Kết quả dự báo cũng có độ chính xác cao. Đây là
mô hình được lựa chọn cho bài toán dự báo nhiệt độ của luận văn, cụ thể các vấn đề
liên quan đến mạng nơron sẽ được trình bày trong chương 2.
1.3.5.
Mô ̣t số phƣơng pháp dƣ ̣ báo khác
1.3.5.1. Phương pháp dự báo K-NN
Thuâ ̣t toán K-Nearest Neighbors (K-NN) là phương pháp truyền thống khá nổi
tiế ng được sử dụng rất phổ biến trong lĩnh vực khai phá dữ liê ̣u . Phương pháp K -NN
đươ ̣c ứng du ̣ng thành công trong hầ u hế t các liñ h vực tim
̀ kiế m thông tin , nhâ ̣n da ̣ng và
phân tić h dữ liê ̣u… K-NN ứng du ̣ng ma ̣nh trong phân lớp , viê ̣c phân lớp các đối tượng
dựa vào khoảng cách gần nhất giữa đối tượng cần xếp lớp (Query Point) và tất cả các
đối tượng trong bô ̣dữ liê ̣u huấ n luyê ̣n [24].
Một đối tượng được phân lớp dựa vào
láng giềng của nó.
là số nguyên
dương được xác định trước khi thực hiện thuật toán. Người ta thường dùng khoảng
cách Euclidean để tính khoảng cách giữa các đối tượng.
Trong hình 1.1, dữ liê ̣u huấ n luyê ̣n (láng giềng ) được mô tả bởi dấu + và dấu -,
đối tượng cần được xác định lớp cho nó (Query Point) là hình tròn. Nhiệm vụ của
chúng ta là ước lượng (hay dự đoán) lớp của Query Point dựa vào việc lựa chọn số
láng giềng gần nhất với nó. Nói cách khác, chúng ta muốn biết liệu Query Point sẽ
được phân vào lớp + hay lớp -.
Hình 1.1Phân lớp trong thuật toán K-NN
Ta thấy rằnghình chấ m trong hình 1.1 là Query Point khi xét số lượng các
giề ng gầ n nhấ t thì nế u :
-
-
láng
Xét 1 láng giềng gần nhất thì Query Point được xếp vào lớp dấu + do đối tượ ng gần vớ i Query
Point nhât́ là dấu +.
Xét 2 láng giềng gần nhất thì không xác định lớp cho Query Point vì số láng giềng gần nhất với
nó là hai trong đó mộ t là lớp + và mộ t là lớp, không có lớp nào có số đối tượng nhiều hơn lớp
kia.
Xét 5 láng giềng gần nhất thì Query Point được xếp vào lớp dấu – vì trong 5 láng giềng gần
nhất với nó thì có 3 đối tượng thuộc lớp, nhiều hơn lớp + chỉ có 2 đối tượng.
Trong bài toán dự báo , tư tưởng chính của thuật toán K-NN vẫn không đổi, chỉ
mở rộng thêm để dự đoán với các dữ liệu định lượng. Trong bài toán phân lớp, biến
phụ thuộc là biến phân loại còn trong phần dự đoán này, biến phụ thuộc có giá trị
định lượng.
1.3.5.2. Phương pháp dự báo bằ ng hồ i quy
Phương pháp phân tić h hồ i quy là phương pháp thường được sử dụng trong thống
kê để nghiên cứu mố i liên hê ̣ giữa các hiê ̣n tươ ̣ng , như mố i liên hê ̣ giữa các yế u tố đầ u
vào của quá trình sản xuất với kết quả sản xuất , mố i liên hê ̣ giữa thu nhâ ̣p và tiêu
dùng, mố i liên hê ̣ giữa kinh tế và xã hô ̣i… Phương pháp phân tích hồ i quy còn đươ ̣c
vâ ̣n du ̣ng trong mô ̣t số phương pháp nghiên cứu thố ng kê khác như phân tić h daỹ số
thời gian, dự đoán thố ng kê…
Phân tić h hồ i quy nghiên cứu mố i phu ̣ thuô ̣c của mô ̣t biế n (gọi là biến phụ thuộc
hay biế n đươ ̣c giải thích ) với mô ̣t hay nhiề u biế n khác (đươ ̣c go ̣i là các biế n đô ̣c lâ ̣p
hay biế n giải thích có giá tri ̣đã biế t ) nhằ m ước lươ ̣ng và dự báo giá tri ̣trung bình của
biế n phu ̣ thuô ̣c với các giá tri ̣đã biế t của các biế n đô ̣c lâ ̣p [9].
Mô hình hồi quy tuyến tính (mô hình hồi quy đƣờng thẳng): là mô hình hồi
quy nói lên mức phụ thuộc tuyến tính của một biến phụ thuộc với một hay nhiều biến
độc lập mà phương trình của mô hình hồi quy có dạng tuyến tính đối với các hệ số.
Mô hình hồi quy tổng thể gồm biến:
(1.1)
trong đó
là sai số ngẫu nhiên.
Trong mô hình này ta chấp nhận giả thuyết các biến độc lập, không tương tác và
có phương sai không thay đổi. Trên thực tế, khi nghiên cứu các trường hợp cụ thể
người ta tiến hành phân tích phương sai và tương quan trước để thăm dò dạng của mối
quan hệ phụ thuộc đồng thời kiểm tra xem có hiện tượng tự tương quan, đa cộng tuyến
hay phương saithay đổi không (thường dùng thủ tục kiểm định Dolbin Watsern).
Mô hình quan hệ tuyến tính trên được xây dựng trên cơ sở mối liên hệ giữa một
biến phụ thuộc và nhiều biến độc lập được gọi là mô hình hồi quy tuyến tính bội.
Khi mô hình quan hệ tuyến tính được xây dựng trên cơ sở mối liên hệ giữa hai biến
(biến phụ thuộc và biến độc lập ) thì được gọi là mô hình hồi quy tuyến tính đơn.
Trên cơ sở thông tin thu được trong mẫu thống kê ta sử dụng phương
pháp bình phương nhỏ nhất để ước lượng các hệ số của mô hình hồi quy. Tức là dựa
trên quan điểm ước lượng không chệch giá trị quan sát của biến giải thích càng gần với
giá trị thực của nó hay phần dư của chúng càng nhỏ càng tốt.
Mô hình hồi quy phi tuyến: là các dạng mô hình hồi quy phi tuyến nói lên mức
phụ thuộc của một biến phụ thuộc với một hay nhiều biến độc lập mà phương trình của
mô hình hồi quy có dạng phi tính đối với các hệ số, chẳng hạn, như hàm sản xuất Cobb
Douglas, hồi quy Parabol, hồi quy Hyperbol…
Như vậy, dựa vào các quan sát được thuthập theo thời gian trong các kỳ trước đó
ta sẽ xây dựng được mô hình hồi quy. Thay số liệu của các biến đã cho trong kỳ dự
báo vào mô hình hồi quy ta sẽ cho ta kết quả cần dựa báo.
1.4.
ĐÁNH GIÁ KẾT QUẢ DỰ BÁO
Trong bài toán dự báo , đánh giá kế t quả dự báo là vấ n đề quan tro ̣ng . Hầ u hế t các
nhà dự báo đánh giá các mô hình của họ theo năng lực dự báo của mô hình . Để đánh
giá chất lượng của một phương pháp dự báo người ta thường dựa vào sai số dự báo
của phương pháp đó . Sai số dự báo là sai lệch giữa giá trị thực và giá trị dự báo nhằm
đánh giá chất lượng hay sự phù hợp của mô hình dự báo . Sai số dự báo cũng nhằm
giúp điều chỉnh các thông số của mô hình dự báo . Để đánh giá sai số của phương pháp
dự báo có thể dùng mô ̣t trong số các sai số sau [18]:
-
Sai số quân phương MSE(Mean Square Error)
(1.2)
-
Sai số căn quân phương RMSE(Root Mean Square Error)
(1.3)
-
Sai số tuyệt đối MAE (Mean Absolute Error)
(1. 4)
trong đó:
: Giá trị tính toán tại thời điểm ;
:Giá trị thực đo tại thời điểm ;
: Số lượ ng thờ i điểm .
Tuy các chỉ số trong các công thức từ (1.2) đến (1.4) là trực quan và dễ dàng tính
toán song trong nhiều trường hợp khi dung lượng dữ liệu lớn hay dữ liệu có độ biến
động cao thì các chỉ số này trở nên quá thô sơ. D.R. Legates và G.J. McCabe Jr. trình
bày về chỉ số hiệu quả (Coefficient of Efficiency) và chỉ số xác định (Coefficient of Determination ) tuy có độ phức tạp tính toán cao hơn song khắc phục
được các hạn chế của các chỉ số . Giá trị của và
lầ n lươ ̣t đươ ̣c tin
́ h bởi công thứ
(1.5) và (1.6) [26]:
(1.5)
(1.6)
Các chỉ số và
có thể được dùng theo cách kết hợp hoặc riêng rẽ. Phương
pháp tốt là phương pháp nhận được giá trị của các chỉ số này lớn .Trong luâ ̣n văn này ,
học viên sử dụng ba công thức tính sai số gồm : sai số quân phương , sai số căn quân
phương và sai số tuyê ̣t đố i để đánh giá độ chính xác của dự báo .
1.5.
KẾT LUẬN CHƢƠNG 1
Bài toán dự báo là bài toán rất quan trọng trong việc xây dựng chiến lược phát
triển cho mỗi cấp, mỗi ngành, mỗi tổ chức, mỗi cá nhân … Có nhiều phương pháp dự
báo khác nhau, mỗi phương pháp đều có ưu điểm và nhược điểm về độ phức tạp tính
toán, về mức đô chính xác, về tính khách quan. Việc ứng dụng mạng nơron trong giải
bài toán dự báo tỏ ra có nhiều ưu điểm vì mạng nơron là một mô hình tính toán mềm
dẻo, chấp nhận sai sót, dễ thích nghi.
Sau khi xây dựng mô hình dự báo, cần đánh giá mô hình ngay mà không đợi
đến khi có thể so sánh kết quả dự báo với những gì đã xảy ra trong thực tế . Không có
phương pháp chung để đánh giá kết quả dự báo mà tuỳ theo mô hình dự báo , tùy theo
lĩnh vực ứng dụng của mô hình mà chọn chỉ số hoặc nhóm chỉ số để đánh giá.
- Xem thêm -