Đăng ký Đăng nhập
Trang chủ Giáo dục - Đào tạo Cao đẳng - Đại học Kiến trúc xây dựng Luận văn thạc sĩ ứng dụng lý thuyết tập thô để xây dựng hệ thống đánh giá kết qu...

Tài liệu Luận văn thạc sĩ ứng dụng lý thuyết tập thô để xây dựng hệ thống đánh giá kết quả học tập của học sinh tại trường thpt nguyễn đáng

.PDF
93
9
50

Mô tả:

TRẦM HOÀNG BẢO NGỌC ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA TRẦM HOÀNG BẢO NGỌC * ỨNG DỤNG LÝ THUYẾT TẬP THÔ ĐỂ XÂY DỰNG HỆ THỐNG ĐÁNH GIÁ KẾT QUẢ HỌC TẬP CỦA HỌC SINH TẠI TRƯỜNG THPT NGUYỄN ĐÁNG KHOA HỌC MÁY TÍNH LUẬN VĂN THẠC SĨ KHOA HỌC CHUYÊN NGÀNH KHOA HỌC MÁY TÍNH * KHÓA K32 Đà Nẵng - Năm 2018 ĐẠI HỌC ĐÀ NẴNG TRƢỜNG ĐẠI HỌC BÁCH KHOA --------------------------TRẦM HOÀNG BẢO NGỌC ỨNG DỤNG LÝ THUYẾT TẬP THÔ ĐỂ XÂY DỰNG HỆ THỐNG ĐÁNH GIÁ KẾT QUẢ HỌC TẬP CỦA HỌC SINH TẠI TRƢỜNG THPT NGUYỄN ĐÁNG Chuyên ngành: Khoa học máy tính Mã số: 60.48.01 LUẬN VĂN THẠC SĨ KỸ THUẬT NGƢỜI HƢỚNG DẪN KHOA HỌC: TS. TRƢƠNG NGỌC CHÂU Đà Nẵng – Năm 2018 i LỜI CAM ĐOAN Tôi xin cam đoan số liệu và kết quả nghiên cứu trong luận văn này là trung thực và chƣa hề đƣợc sử dụng để bảo vệ một học vị nào. Mọi sự giúp đỡ cho việc thực hiện luận văn này đã đƣợc cảm ơn và thông tin trích dẫn trong luận văn đã đƣợc chỉ rõ nguồn gốc rõ ràng và đƣợc phép công bố. Học viên thực hiện Trầm Hoàng Bảo Ngọc ii ỨNG DỤNG LÝ THUYẾT TẬP THÔ ĐỂ XÂY DỰNG HỆ THỐNG ĐÁNH GIÁ KẾT QUẢ HỌC TẬP CỦA HỌC SINH TẠI TRƢỜNG THPT NGUYỄN ĐÁNG Học viên: Trầm Hoàng Bảo Ngọc. Chuyên ngành: Khoa học Máy tính Mã số: 60.48.01 Khóa K32 Trƣờng Đại học Bách khoa - ĐHĐN Tóm tắt - Hiện nay, có rất nhiều thuật toán khai phá tri thức bằng cách phân lớp và rời rạc dữ liệu nhƣ: Sử dụng cây quyết định, phƣơng pháp thống kê, các mạng nơ ron, thuật toán di truyền. Trong những năm gần đây, lý thuyết tâp thô đƣợc nhiều nhóm nghiên cứu hoạt động trong lĩnh vực tin học nói chung và khai phá tri thức nói riêng nguyên cứu và áp dụng trong thực tế. Lý thuyết tập thô đƣợc xây dựng trên nền tảng toán học vững chắc giúp cung cấp những công cụ hữu ích để giải quyết những bài toán phân lớp dữ liệu và khai phá luật. Từ những bảng dữ liệu lớn với dữ liệu dƣ thừa, không hoàn hảo, dữ liệu liên tục, hay dữ liệu dƣới dạng ký hiệu lý thuyết tập thô cho phép khai phá tri thức từ những khối dữ liệu này nhằm phát hiện những luật tiềm ẩn từ khối dữ liệu này. Vì vậy, đề tài “Ứng dụng lý thuyết tập thô để xây dựng hệ thống đánh giá kết quả học tập của học sinh tại trƣờng THPT Nguyễn Đáng” đi sâu vào việc khai phá dữ liệu áp dụng lý thuyết tập thô từ điểm các môn học và tổng kết trung bình của học sinh qua các năm học cấp 3, các điểm cộng (nghề, học sinh giỏi, thể dục thể thao) để dự đoán kết quả thi tốt nghiệp THPT của học sinh. Từ khóa - Khai phá tri thức, khai phá dữ liệu, lý thuyết tập thô, cây quyết định. DEVELOP ACHIEVEMENT EVALUATING SYSTEM FOR STUDENT BASE ON ROUGH SET THEORY AT NGUYEN DANG HIGH SCHOOL Abstract – Today, the exploring knowledge algorithm by classification and discrete data using common such as: Decision trees, neural networks, statistical methods, genetic algorithms. In recent years, rough set theory has been used by a number of research groups in the field of informatics in general and the exploration of knowledge in particular and applied in practice. The rough set theory is built on a solid mathematical foundation that provides useful tools for solving data-mining problems and exploring laws. The large data tables with redundant, incomplete data, continuous data, or data in the form of raw file theory symbols allow the exploration of knowledge from these data blocks to detect potential laws from this data block. So, my thesis using topic “Develop achievement evaluating system for student base on rough set theory at Nguyen Dang High School” reseach about data mining using rough set theory from subject marks and average score of students through high school years, plus marks (craft, good students, sports) to predictions of high school graduation exam results. Key words - Exploring knowledge, rough set theory, data mining, Decision trees . iii MỤC LỤC Trang Lời cam đoan .................................................................................................................... i Tóm tắt luận văn .............................................................................................................. ii Mục lục ........................................................................................................................... iii Danh mục các chữ viết tắt .............................................................................................. vi Danh mục các bảng........................................................................................................vii Danh mục các hình vẽ ................................................................................................. viii MỞ ĐẦU ......................................................................................................................... 1 CHƢƠNG I KHAI PHÁ DỮ LIỆU THEO TIẾP CẬN LÝ THUYẾT TẬP THÔ ....... .5 1.1. Giới thiệu .................................................................................................................. 5 1.2. Các khái niệm cơ bản ............................................................................................... 5 1.2.1. Hệ thống thông tin ................................................................................................. 5 1.2.2. Bảng quyết định ..................................................................................................... 7 1.2.3. Quan hệ không phân biệt đƣợc .............................................................................. 8 1.2.4. Xấp xỉ tập hợp trong tập thô .................................................................................. 9 1.2.5. Sự phụ thuộc của các thuộc tính .......................................................................... 12 1.2.6. Rút gọn các thuộc tính trong hệ thống thông tin ................................................. 13 1.2.7. Ma trận phân biệt ................................................................................................. 15 1.3. Rút gọn dữ liệu trong hệ thống thông tin ............................................................... 17 1.4. Thuật toán tìm tập rút gọn của một bảng quyết định .............................................. 17 1.5. Tập thô và các công cụ khai phá dữ liệu ................................................................ 21 1.5.1. Khám phá tri thức trong cơ sở dữ liệu ................................................................. 21 1.5.2. Tập thô trong khai phá dữ liệu ............................................................................ 23 1.5.3. Một số ứng dụng quan trong của lý thuyết tập thô .............................................. 23 1.6. Kết chƣơng 1 .......................................................................................................... 25 CHƢƠNG II CÁC PHƢƠNG PHÁP XÂY DỰNG CÂY QUYẾT ĐỊNH .................. 27 2.1. Khai phá dữ liệu với cây quyết định ....................................................................... 27 2.1.1 Khái niệm ............................................................................................................. 27 2.1.2 Thiết kế cây quyết định ........................................................................................ 27 2.2. Phƣơng pháp tổng quát xây dựng cây quyết định .................................................. 29 2.3. Phƣơng pháp xây dựng cây quyết định ID3 ........................................................... 31 2.3.1 Ý tƣởng của thuật toán ID3 .................................................................................. 31 2.3.2. Tiêu chí lựa chọn thuộc tính để phân lớp ............................................................ 32 2.3.2 Thuật toán ID3 ...................................................................................................... 33 2.3.3. Độ phức tạp tính toán .......................................................................................... 39 2.4. Phƣơng pháp xây dựng cây quyết định C4.5 .......................................................... 39 iv 2.4.1. Giới thiệu ............................................................................................................. 39 2.4.2. Xác định điểm chia tốt nhất ................................................................................. 39 2.4.3. Một số vấn đề với thuộc tính ............................................................................... 40 2.4.4. Thuật toán C4.5 .................................................................................................. 44 2.5. Phƣơng pháp xây dựng cây quyết định FID3 ......................................................... 46 2.5.1. Xác định điểm chia tốt nhất ................................................................................. 46 2.5.2. Thuật toán FID3 .................................................................................................. 47 2.6. Xây dựng cây quyết định bằng lý thuyết tập thô RDT ........................................... 52 2.7. Kết luận chƣơng 2 .................................................................................................. 56 CHƢƠNG III TRIỂN KHAI ỨNG DỤNG................................................................... 57 3.1. Bài toán dự đoán kết quả thi tốt nghiệp của học sinh THPT .................................. 57 3.1.1. Giới thiệu ............................................................................................................. 57 3.1.2. Mô hình bài toán .................................................................................................. 59 3.2. Xây dựng cơ sở dữ liệu cho hệ thống ..................................................................... 60 3.3. Xây dựng hệ thống dự đoán kết quả học tập .......................................................... 66 3.3.1. Xây dựng và đánh giá mô hình............................................................................ 66 3.4. Kết luận chƣơng 3 .................................................................................................. 71 KẾT LUẬN VÀ KIẾN NGHỊ ....................................................................................... 72 TÀI LIỆU THAM KHẢO ............................................................................................. 73 PHỤ LỤC ........................................................................................................................ 1 v BẢNG KÝ HIỆU VÀ CHỮ VIẾT TẮT Chữ viết tắt Ý nghĩa ANN Artificial Neural Network BBP Boosting – Based Perceptron BIDS Bussiness Intelligence Development Studio CSDL Cơ sở dữ liệu DT Decision Tree DMX Data Mining Extensions DMM Data Mining Model KPDL Khai phá dữ liệu MAP Maximum A Posterior NBC Naïve Bayes Classifier SOM Self-Organizing Map MS Microsoft SVM Support Vector Machine THPT Trung học Phổ thông ĐXL Điểm xếp loại ĐXTN Điểm xét tốt nghiệp vi DANH MỤC CÁC BẢNG Bảng 1: Hệ thống thông tin có 12 đối tƣợng .............................................................. 6 Bảng 2:Ví dụ về bảng quyết định ............................................................................... 8 Bảng 3: Sự phụ thuộc của thuộc tính........................................................................ 13 Bảng 4: Rút gọn các thuộc tính trong hệ thống thông tin......................................... 15 Bảng 5: Bảng quyết định minh họa ma trận phân biệt đƣợc .................................... 15 Bảng 6: Ma trận phân biệt của hệ thông tin trong Bảng 1.4..................................... 16 Bảng 7: bảng quyết định minh họa ví dụ 1.2.11....................................................... 20 Bảng 8: Bảng quyết định minh họa Ví dụ 2.1 .......................................................... 30 Bảng 9: Bảng quyết định minh họa thuật toán ID3. ................................................. 35 Bảng 10: Tập dữ liệu có giá trị liên tục.................................................................... 40 Bảng 11: Dữ liệu chứa thuộc tính có nhiều giá trị ................................................... 42 Bảng 12: Dữ liệu chứa thuộc tính thiếu giá trị ........................................................ 44 Bảng 13: Bảng quyết định ........................................................................................ 53 Bảng 14: Bảng T1 ..................................................................................................... 53 Bảng 15: Bảng T0 ..................................................................................................... 54 Bảng 16: Bảng T2 ..................................................................................................... 54 Bảng 17: Bảng T00 .................................................................................................... 55 Bảng 18: Bảng T01 .................................................................................................... 55 Bảng 19: Bảng T20 .................................................................................................... 55 Bảng 20: Bảng T21 .................................................................................................... 56 vii DANH MỤC CÁC HÌNH VẼ Hình 1: Mô tả về tập xấp xỉ và miền ........................................................................ 10 Hình 2: Xử lý khám phá tri thức trong cơ sở dữ liệu ............................................... 22 Hình 3: Ví dụ cây quyết định ứng với bảng quyết định 2.1 ..................................... 30 Hình 4: Cây quyết định bƣớc đầu ví dụ 2.2.............................................................. 37 Hình 5: Cây quyết định đƣợc xây dựng theo thuật toán ID3 ứng với Bảng quyết định 2.2 ............................................................................................................................. 38 Hình 6: Minh họa phân chia thuộc tính liên tục....................................................... 41 Hình 7: Minh họa phân chia thuộc tính nhiều giá trị ............................................... 43 Hình 8: Cây quyết định bước đầu được xây dựng theo thuật toán FID3 ................. 50 Hình 9: Cây quyết định được xây dựng theo thuật toán FID3 ứng với Bảng quyết định 2.2 ............................................................................................................................. 52 Hình 10: Mô hình dự đoán ....................................................................................... 60 Hình 11: Quy trình xử lý dữ liệu đầu vào ................................................................ 60 Hình 12: Một phần CSDL học sinh đã tiền xử lý ..................................................... 63 Hình 13: Một phần file .isf đƣợc chuyển đổi ........................................................... 64 Hình 14: File .isf đã import vào ROSE2 .................................................................. 64 Hình 15: Tìm tập rút gọn với Lattice Search ............................................................ 65 Hình 16: Tìm tập rút gọn với Heuristic Search ........................................................ 65 Hình 17: Import dữ liệu từ file excel (chọn sheet chứa dữ liệu) .............................. 68 Hình 18: Dữ liệu huấn luyện đã đƣợc import vào hệ thống ..................................... 68 Hình 19: Cây quyết định đƣợc xây dựng với thuật toán ID3 ................................... 69 Hình 20: Tập luật quyết định theo thuật toán ID3 .................................................... 69 Hình 21: Kết quả kiểm chứng mô hình .................................................................... 70 Hình 22: Kết quả dự đoán thi tốt nghiệp THPT ....................................................... 71 1 MỞ ĐẦU 1. Lý do chọn đề tài Trong gần hai thập kỷ qua, các hệ thống cơ sở dữ liệu (CSDL) đã đem lại những lợi ích vô cùng to lớn cho nhân loại. Cùng với sự phát triển của công nghệ thông tin (CNTT) và ứng dụng của nó trong đời sống - kinh tế - xã hội, lƣợng dữ liệu thu thập đƣợc ngày càng nhiều theo thời gian, làm xuất hiện ngày càng nhiều các hệ thống CSDL có kích thƣớc lớn. Trong tình hình hiện nay, khi thông tin đang trở thành yếu tố quyết định trong mọi lĩnh vực thì vấn đề tìm ra các thông tin hữu ích trong các CSDL lớn ngày càng trở thành mục tiêu quan trọng của các cơ quan, tổ chức, doanh nghiệp và khai phá dữ liệu dần trở thành thành phần chính để thực thi nhiệm vụ khai phá tri thức. Đƣợc đánh giá sẽ tạo ra cuộc cách mạng trong thế kỷ 21, khai phá dữ liệu sẽ ngày càng đƣợc ứng dụng phổ biến trong các lĩnh vực nhƣ: thƣơng mại, tài chính, thị trƣờng chứng khoán, y học, thiên văn học, sinh học, giáo dục, viễn thông... Hiện nay, có rất nhiều thuật toán khai phá tri thức bằng cách phân lớp và rời rạc dữ liệu nhƣ: Sử dụng cây quyết định, phƣơng pháp thống kê, các mạng nơ ron, thuật toán di truyền. Trong những năm gần đây, lý thuyết tâp thô đƣợc nhiều nhóm nghiên cứu hoạt động trong lĩnh vực tin học nói chung và khai phá tri thức nói riêng nguyên cứu và áp dụng trong thực tế. Lý thuyết tập thô đƣợc xây dựng trên nền tảng toán học vững chắc giúp cung cấp những công cụ hữu ích để giải quyết những bài toán phân lớp dữ liệu và khai phá luật,...Với đặc tính có thể xử lý đƣợc những dữ liệu mơ hồ, không chắc chắn tập thô tỏ ra rất hữu ích trong việc giải quyết những bài toán thực tế. Từ những bảng dữ liệu lớn với dữ liệu dƣ thừa, không hoàn hảo, dữ liệu liên tục, hay dữ liệu dƣới dạng ký hiệu lý thuyết tập thô cho phép khai phá tri thức từ những khối dữ liệu này nhằm phát hiện những luật tiềm ẩn từ khối dữ liệu này. Tại Việt Nam, việc nghiên cứu khai phá dữ liệu trong lĩnh vực giáo dục đào tạo còn chƣa đƣợc quan tâm đúng mức. Đã có một số công trình đƣợc công bố sử dụng hồ sơ cá nhân cũng nhƣ điểm đầu vào để dự báo kết quả học tập toàn khoá hoặc giai đoạn của sinh viên, tuy nhiên việc nghiên cứu trên các đối tƣợng học sinh Trung học phổ thông (THPT), các đối tƣợng sẽ là đầu vào tƣơng lai cho các trƣờng Đại học lại chƣa đƣợc tập trung đầu tƣ nghiên cứu. 2 Vì vậy, đề tài “Ứng dụng lý thuyết tập thô để xây dựng hệ thống đánh giá kết quả học tập của học sinh tại trƣờng THPT Nguyễn Đáng” đi sâu vào việc khai phá dữ liệu áp dụng lý thuyết tập thô từ điểm các môn học và tổng kết trung bình của học sinh qua các năm học cấp 3, các điểm cộng (nghề, học sinh giỏi, thể dục thể thao...) để dự đoán kết quả thi tốt nghiệp THPT của học sinh. 2. Mục tiêu của đề tài Đề tài tiến hành nghiên cứu lý thuyết tập thô nhằm rút gọn và tìm ra các thuộc tính cốt lõi ảnh hƣởng đến kết quả thi tốt nghiệp của học sinh, các thuật toán cây quyết định cho phép phân lớp, dự báo trong khai phá dữ liệu, ứng dụng các thuật toán đó để xây dựng chƣơng trình dự đoán kết quả thi tốt nghiệp của học sinh trƣờng THPT Nguyễn Đáng. Kết quả dự đoán đó có thể đƣợc dùng để tƣ vấn cho học sinh về định hƣớng học tập, cũng nhƣ tƣ vấn cho các giáo viên, Ban giám hiệu nhà trƣờng có hƣớng giảng dạy phù hợp dựa trên những yếu tố ảnh hƣởng nhiều đến kết quả thi tốt nghiệp của học sinh nhằm đạt đƣợc kết quả giáo dục tốt nhất. 3. Đối tƣợng và phạm vi nghiên cứu a. Đối tƣợng nghiên cứu - Nghiên cứu về lý thuyết tập thô - Tìm hiểu các vấn đề liên quan đến dữ liệu đào tạo, phƣơng pháp tiền xử lý dữ liệu, các hệ thống dự đoán kết quả học tập của học sinh, sinh viên, bộ dữ liệu đào tạo (gồm kết quả học tập, thông tin cá nhân của học sinh đã thi tốt nghiệp THPT…). - Nghiên cứu các công trình, bài báo liên quan đến các mô hình dự đoán kết quả học tập của học sinh, sinh viên trong và ngoài nƣớc. - Sử dụng phần mềm ROSES2 để tìm tập rút gọn và tập lõi của các thuộc tính theo lý thuyết tập thô. - Nghiên cứu các thuật toán xây dựng Cây quyết định: ID3, C4.5 và FID3 b. Phạm vi nghiên cứu - Tập trung nghiên cứu về lý thuyết tập thô trong khai phá dữ liệu. - Dữ liệu về thông tin cá nhân, kết quả học tập và thi tốt nghiệp THPT của học sinh trƣờng THPT Nguyễn Đáng. 3 4. Ý nghĩa khoa học và thực tiễn của đề tài - Đề tài vận dụng các kiến thức về khai phá dữ liệu dựa trên lý thuyết tập thô và các kỹ thuật dự báo dựa trên Cây quyết định nhằm xây dựng hệ thống dự đoán kết quả thi tốt nghiệp của học sinh THPT. - Việc sử dụng hệ thống sẽ giúp cho các học sinh THPT có thể dự đoán đƣợc kết quả thi tốt nghiệp của mình, đồng thời giúp cho các nhà quản lý giáo dục, các giáo viên có định hƣớng đào tạo, giảng dạy phù hợp nhằm đạt đƣợc chất lƣợng giáo dục tốt nhất. 5. Phƣơng pháp nghiên cứu - Phƣơng pháp nghiên cứu lý luận: Thu thập, đọc hiểu, phân tích thông tin dữ liệu từ các tài liệu, giáo trình, sách và các bài báo liên quan đến khai phá dữ liệu dựa trên lý thuyết tập thô và ứng dụng trong dự đoán kết quảhọc tập của học sinh, sinh viên. - Phƣơng pháp nghiên cứu thực tiễn: Tiến hành nghiên cứu các kỹ thuật xây dựng cây quyết định cho phép phân lớp trong khai phá dữ liệu, ứng dụng các kỹ thuật đó để xây dựng mô hình dự đoán kết quả thi tốt nghiệp của học sinh THPT dựa vào các thông tin đầu vào. Đề tài tiến hành so sánh kết quả của các kỹ thuật để lựa chọn mô hình cho kết quả chính xác nhất. Dữ liệu để kiểm định mô hình đƣợc thu thập từ bộ dữ liệu đào tạo thực tế nên mang tính khách quan và chính xác cao. 6. Bố cục của luận văn Luận văn gồm có phần mở đầu, kết luận và 03 chƣơng, cụ thể nhƣ sau: Chƣơng I: Khai phá dữ liệu theo tiếp cận tập thô Trình bày chi tiết các vấn đề liên quan đến lý thuyết tập thô, các khái niệm cơ bản, vấn đề rút gọn dữ liệu, thuật toán tìm tập rút gọn của một bảng quyết định, ứng dụng của tập thô trong khai phá dữ liệu. Tất cả các vấn đề nghiên cứu đều có ví dụ minh họa cụ thể. Chƣơng II. Các phƣơng pháp xây dựng cây quyết định Trình bày chi tiết các phƣơng pháp xây dựng cây quyết định nhƣ: thuật toán ID3, thuật toán C4.5 và FID3, làm cơ sở xây dựng hệ thống dự đoán kết quả thi tốt nghiệp ở chƣơng 3 của luận văn. 4 Chƣơng III. Mô phỏng chƣơng trình dự đoán kết quả thi tốt nghiệp của học sinh trƣờng THPT Nguyễn Đáng Mô tả bài toán dự đoán kết quả thi tốt nghiệp của học sinh trƣờng THPT Nguyễn Đáng dựa trên bộ dữ liệu đầu vào (gồm dữ liệu về quá trình học tập, rèn luyện và các thông tin cá nhân). Sử dụng công cụ Rose2 để tìm tập rút gọn của bảng dữ liệu thông tin đầu vào để thu đƣợc các thuộc tính thiết yếu nhất ảnh hƣởng đến dự đoán kết quả thi tốt nghiệp của học sinh. Tiến hành cài đặt, thực nghiệm, đánh giá trên các phƣơng pháp xây dựng cây quyết định khác nhau, lựa chọn phƣơng pháp cho kết quả dự đoán tốt nhất để xây dựng hệ thống dự đoán kết quả thi tốt nghiệp của học sinh THPT. 5 CHƢƠNG 1 - KHAI PHÁ DỮ LIỆU THEO TIẾP CẬN LÝ THUYẾT TẬP THÔ 1.1. Giới thiệu Lý thuyết tập thô đƣợc đề xuất vào năm 1982 bởi Z.Pawlak. Lý thuyết này xây dựng phƣơng pháp luận liên quan đến sự phân loại và phân tích không chắc chắn, thông tin và tri thức không đầy đủ và đƣợc coi là một trong những phƣơng pháp tiếp cận đầu tiên không dựa trên thống kê trong phân tích dữ liệu [8], [7]. Khái niệm cơ bản của lý thuyết tập thô là xấp xỉ dƣới và trên của một tập, sự xấp xỉ của không gian là hình thức phân loại tri thức liên quan đến miền quan tâm. Tập con đƣợc tạo ra bởi xấp xỉ dƣới mô tả bởi các đối tƣợng là những thành phần chắc chắn của một tập, trong khi xấp xỉ trên đƣợc đặc trƣng bởi các đối tƣợng có khả năng thuộc tập quan tâm. Mỗi tập con xác định thông qua xấp xỉ dƣới và xấp xỉ trên đƣợc gọi là tập thô. Gần đây, lý thuyết tập thô trở thành một công cụ đánh giá trong xử lý các vấn đề khác nhau nhƣ trình bày tri thức không chắc chắn hoặc không chính xác, phân tích tri thức, đánh giá chất lƣợng và tính khả dụng của thông tin đối với tính nhất quán và sự có mặt các mẫu không theo thời gian, nhận dạng và đánh giá sự phụ thuộc thời gian, suy luận dựa trên sự không chắc chắn và thiếu thông tin dữ liệu. Thêm vào đó, việc sử dụng rút gọn thay vì toàn bộ tập thuộc tính điều kiện trong quá trình khai phá dữ liệu đã loại bỏ đƣợc những thông tin dƣ thừa, thiếu chính xác. Rút gọn chính là tập các thuộc tính quan trọng và cần thiết nhất trong CSDL, do đó việc tìm các rút gọn là hoàn toàn tự nhiên và cần thiết. 1.2. Các khái niệm cơ bản 1.2.1. Hệ thống thông tin Trong hầu hết các hệ quản trị cơ sở dữ liệu thông thƣờng thì thông tin thƣờng đƣợc biểu diễn dƣới dạng các bảng, trong đó mỗi hàng biểu diễn thông tin về một đối tƣợng, mỗi cột biểu diễn thông tin về một thuộc tính của đối tƣợng. Từ đầu những năm 80, Z.Pawlak đã định nghĩa một khái niệm mới là hệ thông tin dựa trên khái niệm bảng truyền thống nhƣ sau: Định nghĩa 1.2.1 [1], [7]: Hệ thống thông tin là một cặp S = (U, A) Trong đó: 6 U: Là một tập hữu hạn khác rỗng các đối tƣợng gọi là tập vũ trụ hay là tập phổ dụng. A: Là một tập hữu hạn khác rỗng các thuộc tính. Với mỗi phần tử u tƣợng u. kí hiệu U và a A ta kí hiệu u(a) là giá trị của thuộc tính a tại đối là tập giá trị của thuộc tính a A. Nếu B A là một tập các thuộc tính ta kí hiệu u(B) là một bộ gồm các giá trị u(a) với a B. Vậy nếu u và v là hai đối tƣợng thuộc U, ta sẽ nói u(B) = v(B) nếu u(a) = v(a) với mọi thuộc tính a B. Ví dụ 1.1: Bảng 1 dƣới đây biểu diễn về một hệ thống thông tin của 12 đối tƣợng với 8 thuộc tính. Bảng 1: Hệ thống thông tin có 12 đối tƣợng Đói tƣợng Thuộc tính Toan12 Ly12 Hoa12 Sinh12 Van12 Anh12 Su12 Dia12 u1 TB Y TB K K K TB TB u2 TB K TB TB K K TB K u3 TB G K K K K TB K u4 G K K K K K K K u5 G K K K TB K K K u6 K K G TB TB K K K u7 K TB K TB Y K K K u8 K TB K Y Y K K TB u9 XS G K XS K G G K u10 XS G XS G K G K K u11 Y TB K TB TB Y TB Y u12 Y TB K TB TB Y Y TB Ta có một hệ thông tin S = (U,A). U ={u1, u2, ..., u12} A ={Toan12, Ly12, Hoa12, Sinh12, Van12, Anh12, Su12, Dia12} VToan12={SX, G, K, TB, Y}; VLy12={G, K, TB, Y}; VHoa12={XS, G, K, TB}; 7 VSinh12={G, K, K, TB, Y}; VAnh12={G, K, Y}; VVan12={K, TB, Y}; VSu12={G, K, TB, Y}; VDia12={K, TB, Y}; 1.2.2. Bảng quyết định Để có thể biểu diễn một dữ liệu thực tế, trong đó có những thuộc tính quyết định, chúng ta xét một trƣờng hợp đặc biệt của hệ thông tin đƣợc gọi là bảng quyết định đƣợc định nghĩa nhƣ sau: Định nghĩa 1.2.2. [1], [2]: Bảng quyết định là một hệ thông tin có dạng DT = (U, A {d}) Trong đó: d A là thuộc tính phân biệt, đƣợc gọi là thuộc tính quyết định. Các thành phần của A đƣợc gọi là các thuộc tính điều kiện. Chúng ta giả sử rằng tập các giá trị của giá trị quyết định d tƣơng đƣơng với tập {1, . . ., r(d)} là các số nguyên dƣơng từ 1 đến r(d), tập này đƣợc gọi là phạm vi của thuộc tính quyết định d. Lớp quyết định thứ k (ký hiệu là Ck) là một tâp các đối tƣợng thoả mãn: Ck={u U: d(u)=k}. Trong đó 1≤ k ≤r(d). Khi đó giá trị quyết định d sẽ chia tập các đối tƣợng thành r(d) lớp quyết định:{C1,..., Cr(d)}. Trong trƣờng hợp tổng quát thì có thể có nhiều thuộc tính quyết định, khi dó bảng quyết định có dạng DT=(U,C D), trong đó: A =C D C: Gọi là tập thuộc tính điều kiện. D: Đƣợc gọi là tập thuộc tính quyết định. Bảng quyết định đƣợc gọi là nhất quán nếu với mọi u,v U, u(C)=v(C) kéo theo u(D)=v(D). Ngƣợc lại, gọi là bảng không nhất quán. Ví dụ 1.2: Mô tả một bảng quyết định, với các thuộc tính điều kiện lấy ở Bảng 1 và thêm và thuộc tính quyết định “KetquaTN”. 8 Bảng 2:Ví dụ về bảng quyết định Thuộc tính quyết định Thuộc tính điều kiện Toan12 Ly12 Hoa12 Sinh12 Van12 Anh12 Su12 Dia12 KetquaTN u1 TB Y TB K K K TB TB T u2 TB K TB TB K K TB K Đ u3 TB G K K K K TB K Đ u4 G K K K K K K K Đ u5 G K K K TB K K K Đ u6 K K G TB TB K K K Đ u7 K TB K TB Y K K K Đ u8 K TB K Y Y K K TB Đ u9 XS G K XS K G G K Đ u10 XS G XS G K G K K Đ u11 Y TB K TB TB Y TB Y T u12 Y TB K TB TB Y Y TB T 1.2.3. Quan hệ không phân biệt được Một trong những đặc điểm cơ bản của lý thuyết tập thô là dùng để lƣu giữ và xử lý các dữ liệu không phân biệt đƣợc. Trong một hệ thông tin theo định nghĩa trên cũng có thể có những đối tƣợng không phân biệt đƣợc. Trƣớc tiên ta nhắc lại định nghĩa quan hệ tƣơng đƣơng nhƣ sau: Định nghĩa 1.2.3: [8] Một quan hệ hai ngôi (quan hệ nhị phân) R U x U trên U là một quan hệ tƣơng đƣơng khi nó có cả 3 tính chất: - Phản xạ: Mọi đối tƣợng đều quan hệ với chính nó. - Đối xứng: Nếu xRy thì yRx. - Bắc cầu: Nếu xRy và yRz thì xRz. Quan hệ tƣơng đƣơng R sẽ chia tập các đối tƣợng U thành các lớp tƣơng đƣơng. Lớp tƣơng đƣơng của phần tử x U, ký hiệu là [x]R, chứa tất cả các đối tƣợng y mà xRy. Bây giờ bắt đầu định nghĩa một quan hệ tƣơng đƣơng trên hệ thông tin. Quan hệ này sau này đƣợc sử dụng để biểu diễn những thông tin không phân biệt đƣợc. 9 Định nghĩa 1.2.4 [1], [7] cho tập con các thuộc tính B A trong hệ thống thông tin (U, A). Quan hệ B-không phân biệt đƣợc (ký hiệu là INDA(B)), đƣợc định nghĩa nhƣ sau: INDA(B) = {(x,x‟) U2| a B,a(x)=a(x‟)} Khi đó INDA(B) là một quan hệ tƣơng đƣơng trên U. Lớp tƣơng đƣơng chứa x của quan hệ không phân biệt đƣợc trên B đƣợc ký hiệu là [x]B. Hai đối tƣợng x, x‟, mà (x, x‟) INDA(B) đƣợc gọi là không phân biệt đƣợc bởi các thuộc tính trong B. Khi xét trên một hệ thông tin xác định ta sẽ viết IND(B) thay cho INDA(B). Ví dụ 1.3: Xét hệ thông tin cho ở Bảng 1.1, phân hoạch của tập U sinh bởi quan hệ tƣơng đƣơng IND(B): - Với B={Toan12} ta có IND(B) = {{u1, u2, u3}, {u4, u5}, {u6, u7, u8}, {u9, u10}, {u11, u12}. Lúc này ta nói u1 và u2 là không phân biệt đƣợc... - Với B={Toan12, Ly12, Hoa12} ta có IND(B) = {{u1}, {u2},{u3},{u4, u5},{u6}, {u7, u8}, {u9}, {u10}, {u11, u12}}. 1.2.4. Xấp xỉ tập hợp trong tập thô a) Xấp xỉ dƣới, xấp xỉ trên Định nghĩa 1.2.5: [1],[7] Cho bảng quyết định DT = (U, C D) và tập thuộc tính B C, X U. Xấp xỉ trên và xấp xỉ dƣới của tập X tƣơng ứng với B, ký hiệu theo thứ tự là X và X đƣợc định nghĩa nhƣ sau: X = {x U:[x]B X}, X = {x U:[x]B ∩ X ≠ Ø}. Tập hợp X là tập các đối tƣợng trong U mà sử dụng các thuộc tính trong B ta có thể biết chắc chắn chúng là phần tử của X. Tập hợp X là tập các đối tƣợng trong U mà sử dụng các thuộc tính trong B ta chỉ có thể nói rằng chúng có thể là các phần tử của X. b) Miền biên, Miền ngoài [7]  B-biên của tập X, ký hiệu BNB(X), đƣợc định nghĩa BNB(X)= X \ X 10 BNB(X) chứa những đối tƣợng mà sử dụng các thuộc tính trong B ta không thể xác định đƣợc chúng có thuộc X hay không.  B-ngoài của tập X, ký hiệu NEGB(X) đƣợc định nghĩa NEGB(X) = U \ X NEGB(X) chứa những đối tƣợng mà sử dụng các thuộc tính trong B ta biết chắc chắn chúng không thuộc X . Hình sau trình bày sự mô tả về tập xấp xỉ và miền Hình 1: Mô tả về tập xấp xỉ và miền Ví dụ 1.2.4: Trong Bảng 1.2 với U = {u1, u2, u3, u4, u5, u6, u7, u8, u9, u10, u11, u12}. Chọn thuộc tính điều kiện B = {Anh12, Su12, Dia12} và thuộc tính quyết định D = {KetquaTN} ta có: Các lớp tƣơng đƣơng ứng với quan hệ IND(B) là: IND(B) ={E1, E2, E3, E4, E5, E6, E7, E8}, Trong đó: E1 = {u1}; E2 = {u2, u3}; E3 = {u4, u5, u6, u7}; E4 = {u8}; E5 = {u9} E6 = {u10}. E7 = {u11}. E8 = {u12}. Xấp xỉ trên và dƣới của DĐ = {x| KetquaTN(x) = Đ} DĐ = {E2, E3} = {u2, u3, u4, u5, u6, u7} DĐ = { E1, E2, E3, E4, E5} = { u1, u2, u3, u4, u5, u6, u7, u8, u9} 11 Miền biên, miền ngoài của DĐ = { x| KetquaTN(x) = Đ} BRB(DĐ) = DĐ \ DĐ = {u1, u8, u9} NEGB(DĐ) =U \ (DĐ) = {u10, u11, u12} Xấp xỉ trên và dƣới của DT = { x| KetquaTN(x) = T } DT = {E1, E7} = {u1, u11} DT = {E1, E6, E7} = {u1, u10, u11} Miền biên, miền ngoài của DT = { x| KetquaTN(x) = T } BRB(DT) = DT \ DT = {u10} NEGB(DT) =U \ DT = {u2, u3, u4, u5, u6, u7, u8, u9, u12} c) Đặc trƣng xấp xỉ [3] Hệ số đƣợc dùng để đo lƣờng đặc trƣng đƣợc biểu diễn bởi Trong đó | | | | | | và | | là lực lƣợng của xấp xỉ dƣới và trên và các xấp xỉ là tập khác rỗng do đó 0 ≤ αB(X) ≤ 1. Nếu αB(X)=1, X là một tập định nghĩa đƣợc theo thuộc tính B do đó X là tập cổ điển. Nếu αB(X) < 1, X là tập thô theo thuộc tính B. Ví dụ 1.2.5: Áp dụng công thức trên cho Bảng 1.2 ta đƣợc: | | | | ; d) Một số tính chất của các tập hợp xấp xỉ [3] 1. (X) X 2. ( )= (X) ( )= , (U) = (U) = U 3. (X Y) = (X) (Y) 4. Y) = (X) (Y) (X 5. Nếu X Y thì (X) (Y), 6. (X Y) (X) (Y) 7. (X Y) (X) (Y) 8. (U \ X ) =U \ (X) (X) (Y) | | | |
- Xem thêm -

Tài liệu liên quan