Mô tả:
TRƯỜNG ĐẠI HỌC TÀI NGUYÊN VÀ MÔI TRƯỜNG HÀ NỘI
KHOA MÔI TRƯỜNG
ĐỒ ÁN TỐT NGHIỆP
XÂY DỰNG MÔ HÌNH DỰ BÁO TẦN SUẤT CÁC LOÀI TẢO CÓ HẠI
TRONG NƯỚC
Sinh viên thực hiện: Nguyễn Thị Thanh Hương
Giáo viên hướng dẫn: Ths. Nguyễn Anh Thơ
Hà Nội, năm 2015
MỤC LỤC
MỞ ĐẦU ................................................................................................................ 1
CHƯƠNG 1: GIỚI THIỆU TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU .............. 3
1.1. Tại sao phải khai phá dữ liệu?........................................................................... 3
1.2. Khái niệm khai phá dữ liệu ............................................................................... 4
1.3. Mục tiêu của khai phá dữ liệu ........................................................................... 6
1.4. Các nhiệm vụ chính của khai phá dữ liệu .......................................................... 6
1.4.1.Phân lớp (Phân loại - Classification) ............................................................... 6
1.4.2. Hồi qui (Regression) ...................................................................................... 7
1.4.3.Phân nhóm (Clustering) .................................................................................. 7
1.4.4.Tổng hợp (Summarization) ............................................................................. 7
1.4.5.Mô hình hóa sự phụ thuộc (Dependency modeling) ........................................ 8
1.4.6.Phát hiện sự biến đổi và độ lệch (Change and deviation dectection)................ 8
1.5.Các phương pháp khai phá dữ liệu ..................................................................... 9
1.5.1. Các thành phần giải thuật khai phá dữ liệu .................................................... 9
1.5.2. Các phương pháp diễn giải quy nạp ............................................................. 11
1.5.3. Phương pháp K- láng giềng gần .................................................................. 11
1.5.4. Phương pháp sử dụng cây quyết định .......................................................... 12
1.5.5. Phương pháp phát hiện luật kết hợp............................................................. 13
1.6.Lợi thế của khai phá dữ liệu so với các phương pháp cơ bản ........................... 14
1.6.1. Học máy (Learning machine) ...................................................................... 14
1.6.2. Phương pháp hệ chuyên gia ......................................................................... 15
1.6.3. Phát kiến khoa học ...................................................................................... 16
1.6.4. Phương pháp thống kê ................................................................................. 16
1.7. Những thách thức trong ứng dụng và nghiên cứu kĩ thuật khai phá dữ liệu .............. 16
1.7.1. Các vấn đề về cơ sở dữ liệu ......................................................................... 16
1.7.2. Một số vấn đề khác ..................................................................................... 19
1.8.Ứng dụng của khai phá dữ liệu ........................................................................ 19
CHƯƠNG 2: THUẬT TOÁN HỒI QUY TUYẾN TÍNH VÀ CÂY HỒI QUY 21
2.1. Tổng quan về hồi quy tuyến tính đa biến (multiple linear regression) ............. 21
2.1.1. Khái niệm .................................................................................................... 21
72
2.1.2. Phương trình hồi quy ................................................................................... 21
2.1.3. Hệ số tương quan ......................................................................................... 24
2.1.4. Ước lượng hệ số hồi quy và tính chất của ước lượng.................................... 25
2.1.5. Ước lượng và dự đoán ................................................................................. 25
2.2. Cây hồi quy (Regression Trees) ...................................................................... 26
2.2.1. Khái niệm .................................................................................................... 27
2.2.2. Cách xây dựng cây hồi quy .......................................................................... 27
2.2.3. Phân chia cây hồi quy .................................................................................. 27
2.2.4. Ưu, nhược điểm của cây hồi quy .................................................................. 28
CHƯƠNG 3: XÂY DỰNG MÔ HÌNH DỰ BÁO TẦN SUẤT XUẤT HIỆN CỦA MỘT
SỐ LOÀI TẢO CÓ HẠI TRONG NƯỚC ................................................................ 29
3.1. Miêu tả vấn đề và mục đích ............................................................................ 29
3.2. Miêu tả dữ liệu ............................................................................................... 29
3.3. Tiền xử lý dữ liệu bài toán .............................................................................. 30
3.3.1. Xóa bỏ các quan sát chưa biết giá trị ............................................................ 31
3.3.2. Điền vào các ẩn số với các giá trị thường xuyên nhất ................................... 32
3.3.3. Điền các giá trị chưa rõ ................................................................................ 34
3.4. Thu thập dữ liệu dự báo .................................................................................. 34
3.4.1. Xây dựng mô hình hồi quy tuyến tính đa biến (Multiple Linear
Regression Model) ......................................................................................35
3.4.2. Xây dựng cây hồi quy .................................................................................. 39
3.5. Đánh giá và lựa chọn mô hình dự báo ............................................................. 44
KẾT LUẬN .......................................................................................................... 48
TÀI LIỆU THAM KHẢO ................................................................................... 49
PHỤ LỤC............................................................................................................. 50
73
LỜI CẢM ƠN
Trong thời gian làm đồ án tốt nghiệp, tôi đã nhận được nhiều sự giúp đỡ,
đóng góp ý kiến và chỉ bảo nhiệt tình của thầy cô, gia đình và bạn bè.
Tôi xin chân thành cảm ơn các thầy, cô giáo khoa Công nghệ Thông tin- Đại
học Tài nguyên và Môi trường Hà Nội đã tận tâm truyền dạy những kiến thức thiết
thực trong suốt quá trình học, đồng thời tôi xin cảm ơn nhà trường đã tạo điều kiện
tốt nhất cho tôi hoàn thành đồ án này.
Đặc biệt, tôi xin bày tỏ sự biết ơn sâu sắc tới thầy giáo ThS. Nguyễn Anh
Thơ, người đã định hướng và giúp đỡ tôi tận tình trong suốt quá trình làm đồ án.
Trong quá trình hoàn thành đồ án có thể còn nhiều thiếu sót, tôi rất mong nhận
được sự đóng góp ý kiến từ tất cả thầy cô, bạn bè để đồ án có thể phát triển và hoàn
thiện hơn.
Hà Nội, ngày 05 tháng 09
năm 2015
Sinh viên
Nguyễn Thị Thanh Hương
1
DANH MỤC CÁC KÝ HIỆU, TỪ VIẾT TẮT
Từ hoặc cụm từ
Từ viết tắt
Công nghệ thông tin
CNTT
Information Technology
Cơ sở dữ liệu
CSDL
DataBase
Khai phá dữ liệu
KPDL
Data Mining
Khai phá tri thức trong cơ sở
KDD
Knowledge Discovery in
dữ liệu
Từ Tiếng Anh
Databases
Khám phá tri thức
KPTT
Knowledge Discovery
Phân chia dữ liệu
PCDL
Divide Data
2
MỞ ĐẦU
Hiện nay, môi trường đóng vai trò rất quan trọng trong phát triển kinh tế - xã
hội của mỗi đất nước, đặc biết là môi trường sinh thái nước. Ô nhiễm các dòng sông
đang là vấn nạn lớn của mỗi quốc gia. Một trong những nguyên nhân lớn dẫn tới ô
nhiễm các dòng sông là sự phát triển của các loài tảo gây hại cho môi trường sinh
thái nước.
Khoảng hơn một thập kỷ trở lại đây, lượng thông tin được lưu trữ trên các
thiết bị điện tử (đĩa cứng, CD-ROM, băng từ,...) không ngừng tăng lên. Sự tích lũy
dữ liệu này xảy ra với một tốc độ bùng nổ. Theo đó kích cỡ cơ sở dữ liệu sẽ tăng lên
một cách nhanh chóng. Khai phá dữ liệu là một hướng đi mới, giải quyết được vấn
đề trên.
Trước đây, việc thống kê dữ liệu và dự đoán sự phát triển của loài tảo chủ
yếu phải làm bằng phương pháp thủ công, dữ liệu được thu thập chỉ được lưu trữ
bằng giấy tờ văn bản rất cồng kềnh, tốn diện tích lưu trữ, chi phí cho dữ liệu cũng
cao; ngoài ra, việc bảo quản rất khó khăn do môi trường. Việc dự đoán thống kê
tính toán thủ công tốn rất nhiều thời gian và công sức. Sử dụng các phương pháp
khai phá dữ liệu, việc tính toán sẽ chính xác hơn, giảm các sai số. Từ đó, hệ thống
sẽ mô phỏng chính xác hơn, giảm thiểu sự lãng phí thông tin, giúp ích cho việc
nghiên cứu khoa học.
Trong nỗ lực giảm thiểu sự lãng phí thông tin, trích lọc thông tin chính xác,
xây dựng mô hình dự báo áp dụng dự đoán tần số xuất hiện của các loài tảo gây hại
trong mẫu nước là một điều thiết yếu. Mô hình dự báo áp dụng dự đoán tần số xuất
hiện của các loài tảo gây hại trong mẫu nước là một ứng dụng của khai phá dữ liệu
trong lĩnh vực môi trường.
Ý thức được lợi ích của mô hình dự đoán tần số xuất hiện của các loài tảo
gây hại, tôi đã chọn hướng nghiên cứu cho đồ án là xây dựng mô hình dự báo áp
dụng dự đoán tần số xuất hiện của các loài tảo gây hại cho nước.
Cấu trúc của đồ án:
Trong đồ án, tôi trình bày những tìm hiểu của mình về khai phá dữ liệu trong
lĩnh vực môi trường và đưa ra các phương pháp xây dựng mô hình dự đoán tần số
xuất hiện của các loài tảo gây hại trong mẫu nước.
1
Chương 1. Giới thiệu tổng quan khai phá dữ liệu: Chương này trình
bày khái niệm khai phá dữ liệu, nhiệm vụ của khai phá dữ liệu, các phương pháp
khai phá dữ liệu, lợi thế của phương pháp khai phá dữ liệu và ứng dụng của khai
phá dữ liêu
Chương 2. Thuật toán hồi quy tuyến tính đa biến và cây hồi quy: Lý
thuyết thống kê, thuật toán hồi quy tuyến tính đa biến, thuật toán cây hồi quy và so
sánh đánh giá hai thuật toán.
Chương 3. Xây dựng mô hình tần số xuất hiện của một số loài tảo có hại
trong nước: biểu diễn dữ liệu, các bước tiền xử lý dữ liệu, xây dựng mô hình dự
báo, đánh giá mô hình.
2
- Xem thêm -