Đăng ký Đăng nhập
Trang chủ Xây dựng mô hình dự báo tần suất các loài tảo có hại trong nước...

Tài liệu Xây dựng mô hình dự báo tần suất các loài tảo có hại trong nước

.PDF
7
198
96

Mô tả:

TRƯỜNG ĐẠI HỌC TÀI NGUYÊN VÀ MÔI TRƯỜNG HÀ NỘI KHOA MÔI TRƯỜNG ĐỒ ÁN TỐT NGHIỆP XÂY DỰNG MÔ HÌNH DỰ BÁO TẦN SUẤT CÁC LOÀI TẢO CÓ HẠI TRONG NƯỚC Sinh viên thực hiện: Nguyễn Thị Thanh Hương Giáo viên hướng dẫn: Ths. Nguyễn Anh Thơ Hà Nội, năm 2015 MỤC LỤC MỞ ĐẦU ................................................................................................................ 1 CHƯƠNG 1: GIỚI THIỆU TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU .............. 3 1.1. Tại sao phải khai phá dữ liệu?........................................................................... 3 1.2. Khái niệm khai phá dữ liệu ............................................................................... 4 1.3. Mục tiêu của khai phá dữ liệu ........................................................................... 6 1.4. Các nhiệm vụ chính của khai phá dữ liệu .......................................................... 6 1.4.1.Phân lớp (Phân loại - Classification) ............................................................... 6 1.4.2. Hồi qui (Regression) ...................................................................................... 7 1.4.3.Phân nhóm (Clustering) .................................................................................. 7 1.4.4.Tổng hợp (Summarization) ............................................................................. 7 1.4.5.Mô hình hóa sự phụ thuộc (Dependency modeling) ........................................ 8 1.4.6.Phát hiện sự biến đổi và độ lệch (Change and deviation dectection)................ 8 1.5.Các phương pháp khai phá dữ liệu ..................................................................... 9 1.5.1. Các thành phần giải thuật khai phá dữ liệu .................................................... 9 1.5.2. Các phương pháp diễn giải quy nạp ............................................................. 11 1.5.3. Phương pháp K- láng giềng gần .................................................................. 11 1.5.4. Phương pháp sử dụng cây quyết định .......................................................... 12 1.5.5. Phương pháp phát hiện luật kết hợp............................................................. 13 1.6.Lợi thế của khai phá dữ liệu so với các phương pháp cơ bản ........................... 14 1.6.1. Học máy (Learning machine) ...................................................................... 14 1.6.2. Phương pháp hệ chuyên gia ......................................................................... 15 1.6.3. Phát kiến khoa học ...................................................................................... 16 1.6.4. Phương pháp thống kê ................................................................................. 16 1.7. Những thách thức trong ứng dụng và nghiên cứu kĩ thuật khai phá dữ liệu .............. 16 1.7.1. Các vấn đề về cơ sở dữ liệu ......................................................................... 16 1.7.2. Một số vấn đề khác ..................................................................................... 19 1.8.Ứng dụng của khai phá dữ liệu ........................................................................ 19 CHƯƠNG 2: THUẬT TOÁN HỒI QUY TUYẾN TÍNH VÀ CÂY HỒI QUY 21 2.1. Tổng quan về hồi quy tuyến tính đa biến (multiple linear regression) ............. 21 2.1.1. Khái niệm .................................................................................................... 21 72 2.1.2. Phương trình hồi quy ................................................................................... 21 2.1.3. Hệ số tương quan ......................................................................................... 24 2.1.4. Ước lượng hệ số hồi quy và tính chất của ước lượng.................................... 25 2.1.5. Ước lượng và dự đoán ................................................................................. 25 2.2. Cây hồi quy (Regression Trees) ...................................................................... 26 2.2.1. Khái niệm .................................................................................................... 27 2.2.2. Cách xây dựng cây hồi quy .......................................................................... 27 2.2.3. Phân chia cây hồi quy .................................................................................. 27 2.2.4. Ưu, nhược điểm của cây hồi quy .................................................................. 28 CHƯƠNG 3: XÂY DỰNG MÔ HÌNH DỰ BÁO TẦN SUẤT XUẤT HIỆN CỦA MỘT SỐ LOÀI TẢO CÓ HẠI TRONG NƯỚC ................................................................ 29 3.1. Miêu tả vấn đề và mục đích ............................................................................ 29 3.2. Miêu tả dữ liệu ............................................................................................... 29 3.3. Tiền xử lý dữ liệu bài toán .............................................................................. 30 3.3.1. Xóa bỏ các quan sát chưa biết giá trị ............................................................ 31 3.3.2. Điền vào các ẩn số với các giá trị thường xuyên nhất ................................... 32 3.3.3. Điền các giá trị chưa rõ ................................................................................ 34 3.4. Thu thập dữ liệu dự báo .................................................................................. 34 3.4.1. Xây dựng mô hình hồi quy tuyến tính đa biến (Multiple Linear Regression Model) ......................................................................................35 3.4.2. Xây dựng cây hồi quy .................................................................................. 39 3.5. Đánh giá và lựa chọn mô hình dự báo ............................................................. 44 KẾT LUẬN .......................................................................................................... 48 TÀI LIỆU THAM KHẢO ................................................................................... 49 PHỤ LỤC............................................................................................................. 50 73 LỜI CẢM ƠN Trong thời gian làm đồ án tốt nghiệp, tôi đã nhận được nhiều sự giúp đỡ, đóng góp ý kiến và chỉ bảo nhiệt tình của thầy cô, gia đình và bạn bè. Tôi xin chân thành cảm ơn các thầy, cô giáo khoa Công nghệ Thông tin- Đại học Tài nguyên và Môi trường Hà Nội đã tận tâm truyền dạy những kiến thức thiết thực trong suốt quá trình học, đồng thời tôi xin cảm ơn nhà trường đã tạo điều kiện tốt nhất cho tôi hoàn thành đồ án này. Đặc biệt, tôi xin bày tỏ sự biết ơn sâu sắc tới thầy giáo ThS. Nguyễn Anh Thơ, người đã định hướng và giúp đỡ tôi tận tình trong suốt quá trình làm đồ án. Trong quá trình hoàn thành đồ án có thể còn nhiều thiếu sót, tôi rất mong nhận được sự đóng góp ý kiến từ tất cả thầy cô, bạn bè để đồ án có thể phát triển và hoàn thiện hơn. Hà Nội, ngày 05 tháng 09 năm 2015 Sinh viên Nguyễn Thị Thanh Hương 1 DANH MỤC CÁC KÝ HIỆU, TỪ VIẾT TẮT Từ hoặc cụm từ Từ viết tắt Công nghệ thông tin CNTT Information Technology Cơ sở dữ liệu CSDL DataBase Khai phá dữ liệu KPDL Data Mining Khai phá tri thức trong cơ sở KDD Knowledge Discovery in dữ liệu Từ Tiếng Anh Databases Khám phá tri thức KPTT Knowledge Discovery Phân chia dữ liệu PCDL Divide Data 2 MỞ ĐẦU Hiện nay, môi trường đóng vai trò rất quan trọng trong phát triển kinh tế - xã hội của mỗi đất nước, đặc biết là môi trường sinh thái nước. Ô nhiễm các dòng sông đang là vấn nạn lớn của mỗi quốc gia. Một trong những nguyên nhân lớn dẫn tới ô nhiễm các dòng sông là sự phát triển của các loài tảo gây hại cho môi trường sinh thái nước. Khoảng hơn một thập kỷ trở lại đây, lượng thông tin được lưu trữ trên các thiết bị điện tử (đĩa cứng, CD-ROM, băng từ,...) không ngừng tăng lên. Sự tích lũy dữ liệu này xảy ra với một tốc độ bùng nổ. Theo đó kích cỡ cơ sở dữ liệu sẽ tăng lên một cách nhanh chóng. Khai phá dữ liệu là một hướng đi mới, giải quyết được vấn đề trên. Trước đây, việc thống kê dữ liệu và dự đoán sự phát triển của loài tảo chủ yếu phải làm bằng phương pháp thủ công, dữ liệu được thu thập chỉ được lưu trữ bằng giấy tờ văn bản rất cồng kềnh, tốn diện tích lưu trữ, chi phí cho dữ liệu cũng cao; ngoài ra, việc bảo quản rất khó khăn do môi trường. Việc dự đoán thống kê tính toán thủ công tốn rất nhiều thời gian và công sức. Sử dụng các phương pháp khai phá dữ liệu, việc tính toán sẽ chính xác hơn, giảm các sai số. Từ đó, hệ thống sẽ mô phỏng chính xác hơn, giảm thiểu sự lãng phí thông tin, giúp ích cho việc nghiên cứu khoa học. Trong nỗ lực giảm thiểu sự lãng phí thông tin, trích lọc thông tin chính xác, xây dựng mô hình dự báo áp dụng dự đoán tần số xuất hiện của các loài tảo gây hại trong mẫu nước là một điều thiết yếu. Mô hình dự báo áp dụng dự đoán tần số xuất hiện của các loài tảo gây hại trong mẫu nước là một ứng dụng của khai phá dữ liệu trong lĩnh vực môi trường. Ý thức được lợi ích của mô hình dự đoán tần số xuất hiện của các loài tảo gây hại, tôi đã chọn hướng nghiên cứu cho đồ án là xây dựng mô hình dự báo áp dụng dự đoán tần số xuất hiện của các loài tảo gây hại cho nước. Cấu trúc của đồ án: Trong đồ án, tôi trình bày những tìm hiểu của mình về khai phá dữ liệu trong lĩnh vực môi trường và đưa ra các phương pháp xây dựng mô hình dự đoán tần số xuất hiện của các loài tảo gây hại trong mẫu nước. 1 Chương 1. Giới thiệu tổng quan khai phá dữ liệu: Chương này trình bày khái niệm khai phá dữ liệu, nhiệm vụ của khai phá dữ liệu, các phương pháp khai phá dữ liệu, lợi thế của phương pháp khai phá dữ liệu và ứng dụng của khai phá dữ liêu Chương 2. Thuật toán hồi quy tuyến tính đa biến và cây hồi quy: Lý thuyết thống kê, thuật toán hồi quy tuyến tính đa biến, thuật toán cây hồi quy và so sánh đánh giá hai thuật toán. Chương 3. Xây dựng mô hình tần số xuất hiện của một số loài tảo có hại trong nước: biểu diễn dữ liệu, các bước tiền xử lý dữ liệu, xây dựng mô hình dự báo, đánh giá mô hình. 2
- Xem thêm -

Tài liệu liên quan

Tài liệu vừa đăng