Tài liệu Xây dựng hệ thống tư vấn hỗ trợ học sinh chọn ban tại trường trung học phổ thông võ văn kiệt

  • Số trang: 63 |
  • Loại file: PDF |
  • Lượt xem: 11 |
  • Lượt tải: 0
tailieuonline

Tham gia: 31/07/2015

Mô tả:

ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA LÝ THỊ KIỀU OANH XÂY DỰNG HỆ THỐNG TƯ VẤN HỖ TRỢ HỌC SINH CHỌN BAN TẠI TRƯỜNG TRUNG HỌC PHỔ THÔNG VÕ VĂN KIỆT LUẬN VĂN THẠC SĨ KỸ THUẬT Đà Nẵng - Năm 2017 ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA LÝ THỊ KIỀU OANH XÂY DỰNG HỆ THỐNG TƯ VẤN HỖ TRỢ HỌC SINH CHỌN BAN TẠI TRƯỜNG TRUNG HỌC PHỔ THÔNG VÕ VĂN KIỆT Chuyên ngành : Khoa học máy tính Mã số : 60.48.01.01 LUẬN VĂN THẠC SĨ KỸ THUẬT Người hướng dẫn khoa học: TS. TRẦN THẾ VŨ Đà Nẵng - Năm 2017 i LỜI CAM ĐOAN Tôi xin cam đoan: Những nội dung trong luận văn này là do tôi thực hiện dưới sự hướng dẫn trực tiếp của PGS. TS. Nguyễn Thanh Bình; và chưa từng được ai công bố trong bất kỳ công trình nào khác. Mọi tham khảo dùng trong luận văn đều được trích dẫn rõ ràng và trung thực tên tác giả, tên công trình, thời gian, địa điểm công bố; Mọi sao chép không hợp lệ, vi phạm quy chế đào tạo, hay gian trá, tôi xin chịu hoàn toàn trách nhiệm. Tác giả Lý Thị Kiều Oanh ii TÓM TẮT LUẬN VĂN XÂY DỰNG HỆ THỐNG TƯ VẤN HỖ TRỢ CHỌN BAN CHO HỌC SINH TẠI TRƯỜNG THPT VÕ VĂN KIỆT Lý Thị Kiều Oanh, học viên cao học khoá 31, chuyên ngành Khoa học máy tính Tóm tắt - Luận văn xây dựng hệ thống tư vấn chọn ban đầu tiên của trường trung học phổ thông Võ Văn Kiệt – huyện Vũng Liêm – tỉnh Vĩnh Long. Hệ thống này đã không chỉ góp phần giải đáp thắc mắc cho đa số học sinh trước khi chọn ban, giúp các em chọn đúng ban, hạn chế việc chạy ban, học nhầm ban… mà còn hỗ trợ cho giáo viên làm công tác quản lý danh sách học sinh chọn ban, xếp lớp được thuận tiện và hiệu quả hơn trước thềm năm học mới. Nghiên cứu tiến hành bốn bước chính: (1) Tìm hiểu cơ sở lý thuyết và công tác quản lý học sinh chọn ban tại trường trung học phổ thông; (2) Thu thập và tiền xử lý dữ liệu; (3) Tìm hiểu bài toán để phân tích và thiết kế cơ sở dữ liệu, lựa chọn phương pháp phù hợp với yêu cầu bài toán đặt ra và dữ liệu thu thập được; (4) Cài đặt và thử ghiệm hệ thống. Luận văn đã xây dựng được hệ thống hỗ trợ tư vấn chọn ban dựa trên lý thuyết Bayes phù hợp với thực tế chọn ban tại trường trung học phổ thông. Từ khóa - hệ thống hỗ trợ tư vấn; chọn ban; học sinh; trung học phổ thông; lý thuyết Bayes. BUILDING A CONSULTANCY SYSTEM SUPPORTING STUDENTS TO SELECT FIELDS AT VO VAN KIET HIGH SCHOOL Abstract - The thesis presents the first counseling system of high school Vo Van Kiet - Vung Liem district - Vinh Long province. This system has contributed to answering questions for the majority of the students before choosing the field, helping them choose the right field, limiting the field, learning the wrong field... and support teachers to manage the list of students selecting fields, class placement is more convenient and effective before the new school year. Research was conducted in 4 main steps: (1) Understanding the theoretical basis and the management of students for selecting fields at high school; (2) Data collection and pre-processing; (3) Exploring the problem for analysis and design; Selecting the method to solve the problem requirements and the collected data; (4) Installing and testing the system. The result of the thesis is to build the counseling system based on the Bayesian theory in order to meet the requirements at high school. Key words - counseling support system; choose school board; student; high school; Bayesian theory. iii MỤC LỤC LỜI CAM ĐOAN ........................................................................................................ i TÓM TẮT LUẬN VĂN ............................................................................................. ii MỤC LỤC ................................................................................................................. iii DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT ............................................... vi DANH MỤC CÁC BẢNG ....................................................................................... vii DANH MỤC CÁC HÌNH ....................................................................................... viii MỞ ĐẦU .................................................................................................................... 1 1. Lý do chọn đề tài ................................................................................................ 1 2. Mục đích và ý nghĩa đề tài ................................................................................. 2 3. Mục tiêu và nhiệm vụ nghiên cứu ...................................................................... 2 4. Đối tượng và phạm vi nghiên cứu ...................................................................... 2 5. Phương pháp nghiên cứu .................................................................................... 3 6. Phương tiện, công cụ triển khai .......................................................................... 3 7. Bố cục của luận văn ............................................................................................ 3 CHƯƠNG 1. CƠ SỞ LÝ THUYẾT ........................................................................... 4 1.1. Kho dữ liệu ...................................................................................................... 4 1.1.1. Tổng quan về kho dữ liệu ......................................................................... 4 1.1.2. Mục đích của kho dữ liệu ......................................................................... 4 1.1.3. Đặc tính của kho dữ liệu .......................................................................... 5 1.1.4. Quy trình xây dựng kho dữ liệu và các vấn đề liên quan ......................... 5 1.1.4.1. Kho dữ liệu và cơ sở dữ liệu ............................................................. 5 1.1.4.2. Kiến trúc kho dữ liệu ......................................................................... 5 1.2. Khám phá tri thức và khai phá dữ liệu ............................................................ 8 1.2.1. Tổng quan về khai phá tri thức và khai phá dữ liệu................................. 8 1.2.2. Quá trình khám phá tri thức ................................................................... 11 1.2.3. Quá trình khai phá dữ liệu ..................................................................... 12 1.2.4. Các kỹ thuật khai phá dữ liệu ................................................................. 12 1.2.5. Khai phá dữ liệu bằng cây quyết định .................................................... 13 1.2.5.1. Định nghĩa cây quyết định ............................................................... 13 1.2.5.2. Vấn đề xây dựng cây quyết định ..................................................... 13 1.2.5.3. Rút ra các luật từ cây quyết định ..................................................... 13 1.2.5.4. Các thuật toán khai phá dữ liệu bằng cây quyết định ...................... 14 1.3. Giới thiệu công cụ xây dựng mô hình khai phá dữ liệu Business Intelligence Development Studio (BIDS) của Microsoft ......................................................... 16 iv 1.4. Giới thiệu phương pháp phân lớp Naïve Bayes ............................................ 16 1.4.1. Vận dụng các phương pháp toán học để phân lớp dữ liệu .................... 16 1.4.2. Phương pháp phân lớp Naïve Bayes ...................................................... 17 1.4.3. Thuật toán Naïve Bayes .......................................................................... 18 1.4.3.1. Mô hình phân lớp Naïve Bayes ...................................................... 18 1.4.3.2. Thuật toán Naïve Bayes................................................................... 18 1.4.3.3. Các bước thực hiện thuật toán phân lớp Naïve Bayes .................... 18 1.4.3.4. Mở rộng định lý Naïve Bayes ......................................................... 19 1.5. Kết luận.......................................................................................................... 20 CHƯƠNG 2. GIẢI PHÁP HỆ TƯ VẤN HỖ TRỢ CHỌN BAN ............................ 21 2.1. Giới thiệu về công tác tư vấn và chọn ban tại trường THPT Võ Văn Kiệt ... 21 2.2. Phát biểu bài toán tư vấn chọn ban ................................................................ 22 2.3. Phân tích bài toán .......................................................................................... 22 2.3.1. Yêu cầu chức năng.................................................................................. 22 2.3.2. Yêu cầu phi chức năng ........................................................................... 23 2.3.2.1. Đối với tư vấn chọn ban .................................................................. 23 2.3.2.2. Đối với việc chọn ban của học sinh................................................. 23 2.4. Giải pháp tổng thể ......................................................................................... 23 2.4.1. Ý tưởng ................................................................................................... 23 2.4.2. Hoạt động của hệ thống ......................................................................... 24 2.4.2.1. Mô hình giải pháp ............................................................................ 24 2.4.2.2. Mô tả chi tiết hoạt động của hệ thống ............................................. 24 2.5. Thiết kế chi tiết .............................................................................................. 25 2.5.1. Thiết kế cơ sở dữ liệu.............................................................................. 25 2.5.2. Thiết kế thuật toán .................................................................................. 27 2.5.2.1. Sơ đồ thuật toán chi tiết tư vấn dựa trên điểm trung bình môn ....... 27 2.5.2.2. Sơ đồ thuật toán chi tiết tư vấn dựa trên môn học yêu thích ........... 28 2.5.2.3. Sơ đồ thuật toán chi tiết tư vấn dựa trên ngành nghề ...................... 29 2.5.2.4. Học sinh chọn ban học .................................................................... 30 2.6. Kết luận.......................................................................................................... 31 CHƯƠNG 3. CÀI ĐẶT VÀ THỬ NGHIỆM .......................................................... 32 3.1. Môi trường cài đặt ......................................................................................... 32 3.2. Dữ liệu đầu vào.............................................................................................. 32 3.3. Cài đặt hệ thống ............................................................................................. 32 3.3.1. Các chức năng của hệ thống .................................................................. 32 3.3.2. Các thành phần của hệ thống ................................................................. 33 v 3.3.2.1. Màn hình chính của hệ thống .......................................................... 33 3.3.2.2. Màn hình đăng nhập của hệ thống................................................... 33 3.3.2.3. Màn hình tư vấn theo điểm môn học ............................................... 34 3.3.2.4. Màn hình tư vấn theo môn học yêu thích ........................................ 35 3.3.2.5. Màn hình tư vấn theo ngành nghề ................................................... 35 3.3.2.6. Màn hình chọn ban học ................................................................... 36 3.3.2.7. Màn hình thống kê ........................................................................... 37 3.4. Kết quả thử nghiệm ....................................................................................... 37 3.4.1. Các bước chuẩn bị .................................................................................. 37 3.4.2. Dữ liệu thử nghiệm ................................................................................. 38 3.4.2.1. Một số bảng dữ liệu thử nghiệm...................................................... 38 3.4.2.2. Thử nghiệm sử dụng định lý Bayes ................................................. 39 3.4.3. Một số kết quả thử nghiệm ..................................................................... 40 3.5. Đánh giá kết quả ............................................................................................ 43 3.6. Kết luận.......................................................................................................... 43 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ............................................................... 44 TÀI LIỆU THAM KHẢO ........................................................................................ 46 QUYẾT ĐỊNH GIAO ĐỀ TÀI. BẢN SAO KẾT LUẬN CỦA HỘI ĐỒNG, BẢN SAO NHẬN XÉT CỦA CÁC PHẢN BIỆN vi DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT THPT Trung học phổ thông DW Data Warehouse CSDL Cơ sở dữ liệu KPDL Khai phá dữ liệu BIDS Business Intelligence Development Studio vii DANH MỤC CÁC BẢNG Số hiệu bảng Tên bảng Trang 1.1. Số lượng trái cây theo đặc điểm 19 2.1. Bảng TB_DSHOCSINH ở chế độ thiết kế 25 2.2. Bảng TB_LUATĐTB ở chế độ thiết kế 26 2.3. Bảng TB_NHOM ở chế độ thiết kế 26 2.4. Bảng TB_NGANH ở chế độ thiết kế 27 3.1. Bảng dữ liệu danh sách học sinh 38 3.2. Bảng dữ liệu danh sách các ngành học 38 3.3. Bảng dữ liệu danh sách các nhóm ngành 38 3.4. Thống kê kết quả thử nghiệm 43 viii DANH MỤC CÁC HÌNH Số hiệu hình 1.1. 1.2. 1.3. 1.4. 2.1. 2.2. 2.3. 2.4. 2.5. 3.1. 3.2. 3.3. 3.4. 3.5. 3.6. 3.7. 3.8. 3.9. 3.10. 3.11. 3.12. Tên hình Kiến trúc kho dữ liệu Quá trình khám phá tri thức Quá trình khai phá dữ liệu Cây quyết định phân lớp mức lương Mô hình của hệ thống Sơ đồ thuật toán chi tiết tư vấn dựa trên điểm trung bình môn Sơ đồ thuật toán chi tiết tư vấn dựa trên môn học yêu thích Sơ đồ thuật toán chi tiết tư vấn dựa trên ngành nghề Sơ đồ thuật toán chi tiết chọn ban của học sinh Màn hình chính của hệ thống tư vấn chọn ban Màn hình đăng nhập của hệ thống Màn hình tư vấn theo điểm trung bình Màn hình tư vấn theo môn học yêu thích Màn hình tư vấn theo ngành nghề Màn hình chọn ban của học sinh Màn hình thống kê kết quả chọn ban của học sinh Màn hình kết quả tư vấn theo điểm môn học Màn hình kết quả tư vấn theo điểm môn học trong trường hợp chưa xác định được Màn hình kết quả tư vấn theo môn học yêu thích Màn hình kết quả tư vấn theo ngành nghề Màn hình kết quả chọn ban theo khối Trang 6 11 12 13 24 27 28 29 30 33 34 34 35 36 36 37 40 41 41 42 42 1 MỞ ĐẦU 1. Lý do chọn đề tài Với sự phát triển của công nghệ thông tin, nó đã góp phần rất lớn trong đời sống con người. Nhờ có sự phát triển của công nghệ mà con người đã dần dần giảm đi sức lao động, bên cạnh đó nó cũng giúp cho công tác quản lý thuận tiện và hiệu quả hơn. Có rất nhiều bài toán quản lý đã được dùng rất hiệu quả như: quản lý công nhân trong xí nghiệp, quản lý nhân viên trong công ty, quản lý bệnh nhân trong bệnh viện, quản lý hệ thống bán vé máy bay, … Trong trường học phổ thông hiện nay cũng sử dụng một số bài toán quản lý như: quản lý học sinh, quản lý thư viện, quản lý điểm cho học sinh, quản lý nhân viên và giáo viên trong trường học, … Bên cạnh đó, hiện nay, nhu cầu tìm kiếm các thông tin hữu ích trong các nguồn dữ liệu lớn đang là xu hướng phát triển mạnh mẽ. Các ứng dụng công nghệ thông tin với cơ sở dữ liệu khổng lồ góp phần không nhỏ trong tất cả các lĩnh vực đời sống xã hội mang lại nguồn lợi lớn cho người dùng. Việc khai thác nguồn thông tin từ các cơ sở dữ liệu lớn không chỉ dựa vào những phương pháp truyền thống, mà còn vận dụng từ những kỹ thuật, phương pháp phân tích tổng hợp thông tin. Lượng thông tin quyết định tuy nhỏ nhưng là phần cốt lõi, có giá trị cao trong các tiến trình ra quyết định. Khai phá dữ liệu là quá trình trích lọc những tri thức hoặc những mẫu tin tiềm ẩn và hữu ích từ những sự kiện rời rạc. Trong mấy năm gần đây, ở trường trung học phổ thông có tổ chức phân ban cho học sinh để học sinh có thể học theo các khối thi đại học. Theo đó, học sinh có thể chọn theo ban mà mình yêu thích hay theo nguyện vọng để thi đại học. Công việc gặp nhiều khó khăn khi học sinh thay đổi ban mình đã lựa chọn, nguyên nhân chính là do các em không biết chọn ban nào là phù hợp. Các em có nhiều vấn đề thắc mắc và đặt ra nhiều câu hỏi để bổ sung kiến thức vào việc chọn ban phù hợp với ngành nghề mà các em yêu thích hay theo xu hướng phát triển xã hội. Mặc dù xã hội rất phát triển, Internet không xa lạ gì với các em, nhưng các em không biết xem trang nào là đúng (vì quá nhiều trang, mỗi trang thông tin khác nhau). Vì vậy, các em cần được tư vấn trước khi chọn ban. Việc mở các buổi tư vấn rất khó khăn và mất nhiều thời gian, không có giáo viên làm công tác này, cũng rất khó để trả lời hết các câu hỏi của các em học sinh. Vì thế, tôi có một giải pháp để giảm bớt sự lo lắng và bỡ ngỡ cho học sinh, đồng thời giảm khó khăn cho người quản lý việc chọn ban của học sinh, đó là có thể tư vấn cho học sinh chọn ban bằng một hệ thống tự động. Cho nên tôi chọn đề tài: “Xây dựng hệ thống tư vấn hỗ trợ học sinh chọn ban tại trường trung học phổ thông Võ Văn Kiệt” để phục vụ học sinh và cán bộ quản lý về việc chọn ban ở đầu mỗi năm học. 2 2. Mục đích và ý nghĩa đề tài a. Mục đích Bước đầu nghiên cứu một số cơ sở lý thuyết khai phá dữ liệu để hỗ trợ phần nào giúp các học sinh có thể chọn đúng ban phù hợp khi đăng kí vào lớp mới, giúp các bạn học sinh hiểu rõ hơn về việc chọn ban, từ đó chọn được ban học phù hợp với khả năng và ngành nghề sau này, chủ động trong xây dựng kế hoạch học... Đề tài cũng đưa ra chương trình demo nhỏ minh họa việc xây dựng hệ thống hỗ trợ tư vấn. b. Ý nghĩa khoa học Đề tài sẽ đưa ra một hệ thống tư vấn hỗ trợ công tác tư vấn chọn ban và đăng ký ban học cho học sinh tại trường trung học phổ thông. c. Ý nghĩa thực tiễn Đề tài tạo ra được kho dữ liệu hỗ trợ tư vấn, tra cứu nhằm nắm được những thông tin về tư vấn chọn ban. Bên cạnh đề tài còn đưa ra hệ thống chọn ban hỗ trợ trong việc quản lý và xếp lớp học tại trường THPT Võ Văn Kiệt. 3. Mục tiêu và nhiệm vụ nghiên cứu Những kết quả nghiên cứu nhằm ứng dụng có hiệu quả cho công tác tư vấn quản lý chọn ban tại trường Trung học phổ thông Võ Văn Kiệt. Để hoàn thành mục đích, ý tưởng đặt ra, cần nghiên cứu các nội dung như sau: - Nghiên cứu thực trạng công tác tư vấn và quản lý chọn ban tại trường Trung học phổ thông Võ Văn Kiệt - Nghiên cứu khai phá dữ liệu - Nghiên cứu thuật toán Bayes trong phân lớp: nghiên cứu cách biểu diễn tri thức để xây dựng kho tri thức cho phù hợp với thuật toán Bayes trong phân lớp (Naive Bayes classifiers). - Phát biểu, phân tích và cài đặt cho bài toán đặt ra - Đánh giá kết quả theo yêu cầu của đề tài. 4. Đối tượng và phạm vi nghiên cứu - Đối tượng nghiên cứu: Kho dữ liệu, phương thức quản lý và vận hành kho dữ liệu. Nghiên cứu kỹ thuật khám phá tri thức và khai phá dữ liệu. - Phạm vi nghiên cứu: Nghiên cứu xây dựng, quản lý kho dữ liệu, khai phá dữ liệu trong công tác tư vấn chọn ban học của học sinh. Nghiên cứu xây dựng hệ thống hỗ trợ hệ thống chọn ban cho học sinh trường trung học phổ thông Võ Văn Kiệt. 3 5. Phương pháp nghiên cứu a. Phương pháp lý thuyết Dựa vào tri thức về khai phá dữ liệu và thuật toán suy diễn Bayes để xây dựng hệ thống tư vấn chọn ban trực tuyến trên mô hình khai phá dữ liệu Business Intelligence Development Studio. Sử dụng các công cụ của hệ quản trị SQL Server trong Data Warehouse. b. Phương pháp thực nghiệm Dựa trên các nghiên cứu về lý thuyết để xây dựng ứng dụng “Xây dựng hệ thống tư vấn hỗ trợ học sinh chọn ban tại trường trung học phổ thông Võ Văn Kiệt”. Chạy ứng dụng thử nghiệm trên máy đơn. 6. Phương tiện, công cụ triển khai - Microsoft SQL Server 2008 - Microsoft Visual Studio 2008 7. Bố cục của luận văn Báo cáo luận văn được thể hiện trong 3 chương: Chương 1. Cơ sở lý thuyết: Chương này giới thiệu tổng quan về kho dữ liệu, khám phá tri thức, khai phá dữ liệu và giới thiệu sơ về phương pháp phân loại Naïve Bayes. Chương 2. Giải pháp hệ tư vấn hỗ trợ chọn ban: gồm các phần như: giới thiệu về công tác tư vấn và chọn ban tại trường THPT Võ Văn Kiệt, phát biểu bài toán, giải pháp tổng thể, thiết kế chi tiết hệ thống tư vấn. Chương 3. Cài đặt và thử nghiệm: gồm môi trường cài đặt, dữ liệu đầu vào, cài đặt hệ thống, kết quả thử nghiệm, đánh giá kết quả. 4 CHƯƠNG 1. CƠ SỞ LÝ THUYẾT Từ khi ứng dụng công nghệ thông tin được sử dụng rộng rãi trên hệ thống máy tính, có một khối lượng lớn dữ liệu được lưu trữ và xử lý trên máy tính. Vấn đề ứng dụng công nghệ thông tin hiện nay không chỉ là lưu trữ vận hành dữ liệu, mà còn là việc tổ chức các nguồn dữ liệu đó để rút trích thông tin và hỗ trợ ra quyết định. Đây chính là một sự tiến hoá cần thiết cho các hệ thống thông tin. 1.1. Kho dữ liệu 1.1.1. Tổng quan về kho dữ liệu Kho dữ liệu là tuyển tập các cơ sở dữ liệu tích hợp, hướng chủ đề, được thiết kế để hỗ trợ cho chức năng trợ giúp quyết định. Theo John Ladley, Công nghệ kho dữ liệu (Data Warehouse Technology) là tập các phương pháp, kỹ thuật và các công cụ có thể kết hợp, hỗ trợ nhau để cung cấp thông tin cho người sử dụng trên cơ sở tích hợp từ nhiều nguồn dữ liệu, nhiều môi trường khác nhau. Định nghĩa W.H. Inman đề xướng: DW được hiểu là một tập hợp các dữ liệu tương đối ổn định (không hay thay đổi), cập nhật theo thời gian, được tích hợp theo hướng chủ đề nhằm hỗ trợ quá trình tạo quyết định về mặt quản lý [8;9]. Kho dữ liệu thường rất lớn tới hàng trăm Gigabyte hay thậm chí hàng Terabyte. Kho dữ liệu được xây dựng để tiện lợi cho việc truy cập theo nhiều nguồn, nhiều kiểu dữ liệu khác nhau sao cho có thể kết hợp được cả những ứng dụng của các công nghệ hiện đại và kế thừa được từ những hệ thống đã có sẵn từ trước. 1.1.2. Mục đích của kho dữ liệu - Mục tiêu chính của kho dữ liệu là nhằm đáp ứng các tiêu chuẩn cơ bản sau: + Phải có khả năng đáp ứng mọi yêu cầu về thông tin của người sử dụng. + Hỗ trợ để các nhân viên của tổ chức thực hiện tốt, hiệu quả công việc của mình, như có những quyết định hợp lý, nhanh và bán được nhiều hàng hơn, năng suất cao hơn, thu được lợi nhuận cao hơn, v.v. + Giúp cho tổ chức, xác định, quản lý và điều hành các dự án, các nghiệp vụ một cách hiệu quả và chính xác. + Tích hợp dữ liệu và các siêu dữ liệu từ nhiều nguồn khác nhau. - Muốn đạt được những yêu cầu trên thì DW phải: + Nâng cao chất lượng dữ liệu bằng các phương pháp làm sạch và tinh lọc dữ liệu theo những hướng chủ đề nhất định + Tổng hợp và kết nối dữ liệu + Đồng bộ hoá các nguồn dữ liệu với DW + Phân định và đồng nhất các hệ quản trị cơ sở dữ liệu tác nghiệp như là các công cụ chuẩn để phục vụ cho DW. 5 + Quản lí siêu dữ liệu + Cung cấp thông tin được tích hợp, tóm tắt hoặc được liên kết, tổ chức theo các chủ đề + Dùng trong các hệ thống hỗ trợ quyết định (Decision suport system - DSS), các hệ thống thông tin tác nghiệp hoặc hỗ trợ cho các truy vấn đặc biệt [11]. 1.1.3. Đặc tính của kho dữ liệu Những đặc điểm cơ bản của Kho dữ liệu (DW) là một tập hợp dữ liệu có tính chất sau: - Tính tích hợp (Integration) - Dữ liệu gắn thời gian và có tính lịch sử - Dữ liệu có tính ổn định (nonvolatility) - Dữ liệu không biến động - Dữ liệu tổng hợp 1.1.4. Quy trình xây dựng kho dữ liệu và các vấn đề liên quan 1.1.4.1. Kho dữ liệu và cơ sở dữ liệu - Trước tiên DW là database rất lớn - Database hướng về xử lý thời gian thực, DW hướng về tính ổn định. - Phục vụ xử lý transaction, cập nhật. Datawarehouse thường chỉ đọc, phục vụ cho những nhu cầu báo cáo. - DW sẽ lấy thông tin có thể từ nhiều nguồn khác nhau: DB2, Oracle, SQLserver thậm chí cả File thông thường rồi làm sạch chúng và đưa vào cấu trúc của nó-đó là VLDB (very large database). - Một điểm quan trọng là Database thường được chuẩn hóa (Dạng chuẩn 1, 2, 3, BCK) để khai thác [1]. 1.1.4.2. Kiến trúc kho dữ liệu Mô hình kiến trúc của kho dữ liệu cơ bản gồm có ba thành phần: Dữ liệu nguồn, khu vực xử lý và kho dữ liệu [4]. 6 Dữ liệu nguồn Khu vực xử lý Kho dữ liệu Người dùng đầu cuối Hệ thống hoạt động Các tập tin phẳng Hình 1.1. Kiến trúc kho dữ liệu a. Nguồn dữ liệu Nguồn dữ liệu của kho dữ liệu bao gồm từ rất nhiều nguồn khác nhau và có cấu trúc dữ liệu khác nhau: - Dữ liệu từ hệ thống tác nghiệp: Đây là nguồn dữ liệu chính để xây dựng kho dữ liệu, chứa các dữ liệu chi tiết hiện tại của hệ thống tác nghiệp. - Dữ liệu từ hệ thống phân tích: Đây là dữ liệu được tổng hợp từ dữ liệu nguồn đã cũ và tổ chức lại theo nhiều phương pháp khác nhau. - Dữ liệu từ bên ngoài: đây là các dữ liệu từ các nguồn ngoài hệ thống của công ty, có thể do các tổ chức khác thu thập và tạo ra, nó được sử dụng cho các yêu cầu phân tích dữ liệu. Dữ liệu từ các hệ thống nguồn thường hỗn tạp và chứa nhiều cấu trúc khác nhau ví dụ: các cơ sở dữ liệu, từ các file excel, các file thô, hay dạng XML... Vì thế trước khi đưa vào kho dữ liệu cần phải chuyển đổi và tích hợp dữ liệu. b. Khu vực xử lý Ở khu vực này dữ liệu được sử dụng các kỹ thuật làm sạch và chuyển đổi để đảm bảo tính nhất quán dữ liệu trước khi đưa vào kho dữ liệu đích. Thông thường người ta sử dụng các công cụ trích xuất, chuyển đổi và nạp dữ liệu (ETL: Extracts dữ liệu-Transforms dữ liệu-Load dữ liệu). Công cụ này thực hiện các thao tác trích xuất dữ liệu, chuyển đổi dữ liệu, tải dữ liệu vào kho dữ liệu. Nhiệm vụ: - Làm sạch dữ liệu vào: Đây là quá trình kiểm tra dữ liệu đầu vào và loại bỏ các dữ liệu sai định dạng hoặc lỗi. Nhiệm vụ của bước này bao gồm:  Sử dụng các luật về dữ liệu (Data Quality rules) để kiểm tra dữ liệu đầu vào. 7  Chỉnh sửa lỗi dữ liệu.  Cảnh báo về lỗi dữ liệu đầu vào. - Chuyển đổi dữ liệu: Đây là quá trình chuyển đổi dữ liệu nhằm đảm bảo tính nhất quán trước khi chuyển vào kho dữ liệu. Quá trình này bao gồm các bước:  Sử dụng các luật về chuyển đổi dữ liệu để chuyển đổi.  Chuyển đổi kiểu dữ liệu cho phù hợp với cơ sở dữ liệu đích  Chuyển đổi dữ liệu vào một lược đồ nhất quán. Các bước: Tiến trình ETL gồm có 3 bước: - Trích xuất: Dữ liệu nguồn từ rất nhiều nguồn khác nhau và có thể có rất nhiều cấu trúc dữ liệu khác nhau như nhiều loại cơ sở dữ liệu, từ file excel hay từ file thô. Vì thế nhiệm vụ chính của bước này là trích xuất dữ liệu từ hệ thống nguồn để xử lý. - Chuyển đổi: Đây là quá trình rất phức tạp dùng để chuyển đổi dữ liệu nguồn một mô hình khác phù hợp và chuyển vào cơ sở dữ liệu đích. Ở bước này sẽ phải sử dụng các phép chuyển đổi như:  Chọn các cột dữ liệu phù hợp (chỉ chọn các cột cần thiết)  Chuyển đổi dữ liệu. Ví dụ: chuyển 1 thành Nam hay ngược lại.  Tạo ra các cột tính toán mới. Ví dụ: Điểm trung bình = Tổng điểm /số trình  Lọc dữ liệu.  Sắp xếp dữ liệu  Thực hiện các phép tổng hợp (tính tổng các cột, đếm số dòng, tính trung bình).  Tạo ra các giá trị mới (tạo khóa tự tăng).  Tìm kiếm hay so sánh dữ liệu. Có thể nói đây là bước quan trọng nhất trong tiến trình ETL, nó thực hiện hầu hết các nhiệm vụ của tiến trình ETL. - Nạp dữ liệu vào kho dữ liệu: Đây là quá trình đẩy dữ liệu sau khi đã được chuyển đổi vào kho dữ liệu. Dữ liệu sau khi đã được chuyển đổi sẽ được nạp vào kho dữ liệu. c. Kho dữ liệu 8 Kho dữ liệu là cơ sở dữ liệu được tổ chức lại theo mô hình hình sao hay mô hình bông tuyết. Mô hình được phi chuẩn hóa, chấp nhận sự dư thừa dữ liệu trong lưu trữ dữ liệu chính vì thế mô hình dữ liệu đơn giản hơn nên việc truy vấn dễ dàng hơn và tốc độ xử lý cũng nhanh hơn mô hình dữ liệu được chuẩn hóa. Ngoài ra kho dữ liệu còn chứa các dữ liệu khác như: - Siêu dữ liệu: Đây là dữ liệu chứa định nghĩa của dữ liệu được lưu trữ trong kho dữ liệu. Siêu dữ liệu định nghĩa nên các thành phần của kho dữ liệu, cách thức dữ liệu được tải vào kho dữ liệu, lưu lại quá trình hoạt động của kho dữ liệu. Siêu dữ liệu gồm có các dạng sau: + Dữ liệu định nghĩa và cách thức ánh xạ dữ liệu vào các bảng trong kho dữ liệu. + Dữ liệu định nghĩa và giải thích cấu trúc của các bảng bên trong kho dữ liệu. + Dữ liệu định nghĩa cấu trúc dữ liệu ở hệ thống nguồn. + Dữ liệu định nghĩa và chú thích về tiến trình ETL. + Dữ liệu định nghĩa các luật về chất lượng dữ liệu, các mức độ sai lệch của dữ liệu và cách thức xử lý. + Dữ liệu theo dõi tiến trình xử lý các bản ghi trong kho dữ liệu. + Dữ liệu chứa các sự kiện hoạt động của các ứng dụng. - Bảng sự kiện tổng hợp: Các bảng tổng hợp này lưu dữ các dữ liệu tính toán được nhằm trả lời một cách nhanh nhất các câu hỏi của người dùng đưa ra. Đây là dữ liệu có thể tính toán được từ các bảng khác tuy nhiên để tăng tốc độ xử lý dữ liệu này được lưu trữ để không phải tính toán lại mỗi khi có truy vấn. 1.2. Khám phá tri thức và khai phá dữ liệu 1.2.1. Tổng quan về khai phá tri thức và khai phá dữ liệu “Khám phá tri thức là quá trình tìm ra những tri thức, đó là những mẫu tìm ẩn, trước đó chưa biết và là thông tin hữu ích đáng tin cậy”. Còn khai phá dữ liệu (KPDL) là một bước quan trọng trong quá trình khám phá tri thức, sử dụng các thuật toán KPDL chuyên dùng với một số qui định về hiệu quả tính toán chấp nhận được để chiết xuất ra các mẫu hoặc các mô hình có ích trong dữ liệu. Nói một cách khác, mục đích của khám phá tri thức và KPDL chính là tìm ra các mẫu hoặc mô hình đang tồn tại trong các cơ sở dữ liệu (CSDL) nhưng vẫn còn bị che khuất bởi hàng núi dữ liệu [12]. Khám phá tri thức từ CSDL là một quá trình sử dụng các phương pháp và công cụ tin học, trong đó con người là trung tâm của quá trình. Do đó, con người cần phải có kiến thức cơ bản về lĩnh vực cần khám phá để có thể chọn được tập con dữ liệu 9 tốt, từ đó phát hiện các mẫu phù hợp với mục tiêu đề ra. Đó chính là tri thức, được rút ra từ CSDL, thường để phục vụ cho việc giải quyết một loạt nhiệm vụ nhất định trong một lĩnh vực nhất định. Tuy vậy, quá trình khám phá tri thức mang tính chất hướng nhiệm vụ vì không phải là mọi tri thức tìm được đều áp dụng vào thực tế được. Để có được những thông tin quý báu chúng ta phải tìm ra các mẫu có trong tập CSDL trước. Việc đánh giá các mẫu được tìm thấy cũng là một điều thú vị và tất nếu có tính chất quyết định đến sự sử dụng hay không sử dụng chúng. Đầu ra của một chương trình là khám phá những mẫu có ích được gọi là tri thức. Tri thức được khám phá có các đặc điểm chính: - Kiến thức cao cấp: Ngày càng có nhiều câu hỏi mang tính chất định tính cần phải trả lời dựa trên một khối lượng dữ liệu khổng lồ đã có. Quá trình để tìm ra kiến thức như vậy không phải từ những phương pháp thống kê cổ điển mà nó được đúc kết từ các kinh nghiệm đã có, được thể hiện trong dữ liệu, những kết quả đó có thể lĩnh hội được. - Độ chính xác: Dù cho những mẫu khai phá thật sự có trong CSDL hay không thì việc đo lường trị giá của chúng là bắt buộc phải có. Chúng ta sẽ chỉ sử dụng những mẫu nào có độ chính xác càng cao thì hiệu quả công việc đạt được càng lớn, những mẫu có độ chính xác chưa được xác định rõ ràng hoặc không cao thì không nên sử dụng chúng. - Tính hấp dẫn: Khám phá tri thức được coi là lý thú vì nó có thể vạch ra các xu hướng một cách hoàn thiện. Đó là những điều mới lạ hay những quy trình tìm năng, hữu ích ẩn chứa từ trong dữ liệu trước đó. - Tính hiệu quả: thời gian chạy của thuật toán khám phá tri thức trên CSDL lớn có thể dự tính và chấp nhận được. Dữ liệu là tập hợp những bộ thông tin chính xác và quá trình khám phá tri thức được xem là sự lọc bỏ các dư thừa, được rút gọn tới mức tối thiểu chỉ để lại các đặc trưng cơ bản cho dữ liệu. Tri thức được tìm thấy là các thông tin tích hợp, bao gồm các sự kiện và các mối quan hệ trong chúng. Các mối quan hệ này có thể được hiểu ra, có thể được phát hiện, hoặc có thể được học. Nếu khám phá tri thức là toàn bộ quá trình chiết xuất tri thức từ các CSDL thì KPDL là giai đoạn chủ yếu của quá trình đó. KPDL là một quá trình phát hiện các mẫu mới, thường bao gồm việc thử tìm mô hình phù hợp với tập dữ liệu và tìm kiếm các mẫu từ tập dữ liệu theo mô hình đó. Sử dụng các kỹ thuật và các khái niệm của các lĩnh vực đã được nghiên cứu từ trước như: học máy, nhận dạng, thống kê, hồi quy, xếp loại, phân nhóm, các mô hình đồ thị, các mạng Bayes, … Hầu hết các CSDL đều chứa rất nhiều các mẫu mới và có ích, tuy nhiên mẫu có giá trị với mục tiêu đặt ra phải là những mẫu không tầm thường. Để các mẫu trở nên không tầm thường, hệ thống phải làm nhiều hơn là chỉ mò mẫm thống kê vì kết quả của việc 10 tính toán trực tiếp qua công tác thống kê là đã có đối với người dùng. Một hệ thống tìm kiếm cần phải có khả năng quyết định cần thực hiện tính toán nào và kết quả là có đáng quan tâm để tạo nên tri thức trong ngữ cảnh hiện tại hay không. KPDL được sử dụng để tạo ra giả thuyết. Ví dụ như để xác định các yếu tố rủi ro khi cho vay tín dụng, kỹ thuật KPDL phải phát hiện được những người có thu nhập thấp và nợ nhiều là những người sẽ có mức rủi ro cao. Ngoài ra kỹ thuật cũng có thể phát hiện ra những quy luật mà nhà phân tích có thể chưa tìm ra ví dụ như tỷ lệ giữa thu nhập trên nợ và tuổi cũng là các yếu tố xác định mức rủi ro. Để làm được điều này, KPDL sử dụng các thông tin trong quá khứ để học. Nó sẽ tìm kiếm các thông tin này trong các CSDL và sử dụng chúng để tìm ra các mẫu đáng quan tâm. Nếu xét về mặt ý tưởng và mục đích ứng dụng, KPDL là một nhu cầu tất yếu, một sự nhạy cảm đáp lại sự mong mỏi của giới kinh doanh thì về mặt kỹ thuật, đó thực sự là một khó khăn và là cả sự thách thức đối với những nhà khoa học. KPDL được xây dựng dựa trên việc sử dụng các giải thuật mới, được định hướng theo như cầu kinh doanh để có thể giải quyết tự động các bài toán kinh doanh bằng các kỹ thuật dễ dùng và có thể hiểu được. Các kỹ thuật đang được nghiên cứu và sử dụng hiện nay bao gồm cây quyết định (CART, CHAID, AID), mạng neuron, phương pháp láng giềng gần nhất, các luật suy diễn, … KPDL không thuộc một ngành công nghiệp nào. Nó sử dụng các kỹ thuật thông minh để khai phá các tri thức tiềm ẩn trong dữ liệu. Có thể coi KPDL ngày nay đang ở trạng thái giống như việc quản trị dữ liệu vào những năm 60, khi mà các ứng dụng quản trị dữ liệu đều không tuân theo một nguyên tắc chung nào cho đến khi mô hình dữ liệu quan hệ ra đời cùng với sức mạnh của ngôn ngữ vấn đáp đã thúc đẩy việc phát triển các ứng dụng quản trị dữ liệu lên nhanh chóng. Tuy vậy, hiện nay trên thế giới đã có rất nhiều ngành công nghiệp sử dụng kỹ thuật KPDL để phục vụ cho hoạt động kinh doanh của mình và đã bước đầu thành công như ngành tài chính, y học, hóa học, bảo hiểm, sản xuất, giao thông, hàng không, … Các kết quả đạt được cho thấy mặc dù kỹ thuật KPDL hiện nay vẫn còn nhiều vấn đề nổi cộm, nhưng với những tri thức mà chuyên gia con người cũng chưa cung cấp được thì KPDL có một tiềm năng to lớn trong việc tạo ra những lợi nhuận đáng kể trong nền kinh tế [1;12].
- Xem thêm -