Đăng ký Đăng nhập
Trang chủ Giáo dục - Đào tạo Cao đẳng - Đại học Luận văn tìm hiểu phương pháp xây dựng và khai thác kho dữ liệu điểm dựa trên kỹ...

Tài liệu Luận văn tìm hiểu phương pháp xây dựng và khai thác kho dữ liệu điểm dựa trên kỹ thuật olap

.PDF
76
132
74

Mô tả:

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THÙY LINH TÌM HIỂU PHƢƠNG PHÁP XÂY DỰNG VÀ KHAI THÁC KHO DỮ LIỆU ĐIỂM DỰA TRÊN KỸ THUẬT OLAP LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Hà Nội - 2014 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THÙY LINH TÌM HIỂU PHƢƠNG PHÁP XÂY DỰNG VÀ KHAI THÁC KHO DỮ LIỆU ĐIỂM DỰA TRÊN KỸ THUẬT OLAP Ngành: Công nghệ Thông tin Chuyên ngành: Hệ thống Thông tin Mã số: 60480104 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS.TS. NGUYỄN HÀ NAM Hà Nội - 2014 LỜI CẢM ƠN Tôi xin gửi lời cảm ơn sâu sắc tới PGS.TS.Nguyễn Hà Nam, Trường Đại học Công nghệ - Đại học Quốc gia Hà Nội, người thầy đã dành nhiều thời gian tận tình chỉ bảo, hướng dẫn, giúp đỡ tôi trong suốt quá trình tìm hiểu, nghiên cứu. Thầy là người định hướng và đưa ra nhiều góp ý quý báu trong quá trình tôi th c luận v n Tôi xin chân thành cảm các thầy, cô ở khoa Công nghệ thông tin – Trường Đại học Công nghệ - ĐHQGHN đã cung cấp cho tôi kiến thức và tạo cho tôi những điều kiện thuận lợi trong suốt quá trình tôi học tập tại trường. Tôi xin gửi lời cảm ơn đến TS.Nguyễn Trí Thành, TS.Nguyễn Thị Hậu đã đưa ra những góp ý giúp tôi hoàn thiện luận v n Tôi cũng bày tỏ lòng biết ơn về s giúp đỡ của lãnh đạo cơ quan, đồng nghiệp đã cung cấp tài liệu và cho tôi những lời khuyên quý báu. Tôi xin cảm ơn gia đình, người thân, bạn bè và các thành viên trong nhóm nghiên cứu luôn động viên và tạo mọi điều kiện tốt nhất cho tôi. Tôi xin chân thành cảm ơn! Hà Nội, tháng 10 năm 2014 Học viên Nguyễn Thùy Linh 1 LỜI CAM ĐOAN Tôi xin cam đoan đây là đề tài nghiên cứu của riêng tôi, th c hiện dưới s hướng dẫn của PGS.TS. Nguyễn Hà Nam. Các kết quả nêu trong luận v n là trung th c và chưa được ai công bố trong bất cứ công trình nào khác. Hà Nội, tháng 10 năm 2014 Học viên Nguyễn Thùy Linh 2 MỤC LỤC LỜI CẢM ƠN ...................................................................................................................... 1 LỜI CAM ĐOAN ................................................................................................................ 2 MỤC LỤC ........................................................................................................................... 3 DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT ......................................................... 5 DANH MỤC CÁC BẢNG .................................................................................................. 6 DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ ............................................................................. 7 LỜI MỞ ĐẦU ..................................................................................................................... 9 Chương 1 Giới thiệu tổng quan ........................................................................................ 10 1.1. Bài toán xây d ng và khai thác kho dữ liệu điểm tại trường CĐSP Yên Bái ......... 10 1.2. Một số hướng nghiên cứu về kho dữ liệu và khai phá dữ liệu hiện nay ................. 11 1 3 Hướng tiếp cận của luận v n ................................................................................... 11 1.4. Cấu trúc của luận v n .............................................................................................. 11 1.5. Kết luận ................................................................................................................... 12 Chương 2 Các kiến thức cơ sở liên quan.......................................................................... 13 2.1. Kho dữ liệu .............................................................................................................. 13 2.1.1. Khái niệm kho dữ liệu ...................................................................................... 13 2 1 2 Các đặc trưng của kho dữ liệu .......................................................................... 13 2.1.3. Kiến trúc của kho dữ liệu.................................................................................. 15 2 1 4 Lược đồ kho dữ liệu .......................................................................................... 16 2.1.5 Xây d ng kho dữ liệu ........................................................................................ 18 2.2. Kỹ thuật OLAP ....................................................................................................... 19 2.2.1. OLAP là gì? ...................................................................................................... 19 2.2.2. Mô hình dữ liệu đa chiều .................................................................................. 21 2.2.3. Các thao thác của OLAP................................................................................... 23 2.2.4. Phân loại OLAP ................................................................................................ 23 2.3. Khai phá dữ liệu ...................................................................................................... 26 2.3.1. Khái niệm.......................................................................................................... 26 2.3.2. Một số phương pháp phổ biến trong khai phá dữ liệu ..................................... 27 2.4. Giới thiệu công cụ Business Intelligence của hệ quản trị cơ sở dữ liệu SQL Server 2012 ................................................................................................................................ 28 2.4.1. Tạo báo cáo bằng Reporting Services: ............................................................. 28 3 2.4.2. Khai thác dữ liệu bằng dịch vụ Analysic Services: .......................................... 29 2.5. Kết luận ................................................................................................................... 35 Chương 3 Phương pháp giải quyết bài toán ..................................................................... 36 3.1. Tìm hiểu và thu thập dữ liệu điểm .......................................................................... 36 3.2. Thiết kế kho dữ liệu ................................................................................................ 38 3.3. Thiết kế mô hình phân tích dữ liệu ......................................................................... 41 3.4. Kết luận ................................................................................................................... 43 Chương 4 Phân tích kết quả khai thác kho dữ liệu ........................................................... 44 4.1. Các báo cáo khai thác từ kho dữ liệu điểm ............................................................. 44 4.2. Mô hình d báo ....................................................................................................... 55 4.2.1. L a chọn các thông số cho mô hình: ................................................................ 56 4.2.2. Kết quả khi chạy các mô hình: ......................................................................... 59 4.2.3. L a chọn mô hình cho bài toán d đoán kết quả học tập cuối khóa của sinh viên: ................................................................................................................... 66 4.2.4. Sử dụng mô hình khai phá để d đoán học l c cuối khóa của sinh viên: ........ 67 4.3. So sánh kết quả th c nghiệm với phương pháp khai phá dữ liệu truyền thống ...... 68 4.4. Kết luận ................................................................................................................... 72 KẾT LUẬN ....................................................................................................................... 73 TÀI LIỆU THAM KHẢO ................................................................................................. 74 4 DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT Viết tắt BI CĐSP CSDL CNTT DTBK1 DTBK2 DTBK3 HLKH HOLAP KPDL MOLAP OLAP ROLAP SQL TBMCB TBMCN TBMCS TBKH TNCN TNCS TDDV Ý nghĩa Business Intelligence Cao đẳng Sư phạm Cơ sở dữ liệu Công nghệ thông tin Điểm trung bình học kỳ 1 Điểm trung bình học kỳ 2 Điểm trung bình học kỳ 3 Học l c khóa học Hybrid Online Analytical Processing Khai phá dữ liệu Multidimensional Online Analytical Processing Online Analytical Processing Relational - Online Analytical Processing Structured Query Language Trung bình môn cơ bản Trung bình môn chuyên ngành Trung bình môn cơ sở Trung bình khóa học Tốt nghiệp chuyên ngành Tốt nghiệp cơ sở Tổng điểm đầu vào 5 DANH MỤC CÁC BẢNG Bảng 3-1 Mô tả thuộc tính của các bảng chiều ................................................................. 39 Bảng 3-2 Mô tả thuộc tính của các bảng s kiện .............................................................. 40 Bảng 4-1 Hệ số tương quan giữa điểm TBMCB với điểm TBKH.................................... 47 Bảng 4-2 Bảng hệ số tương quan giữa điểm TBMCS với điểm TNCS và điểm TBMCN với điểm TNCN ................................................................................................................. 49 Bảng 4-3 Mô tả các thuộc tính của mô hình d báo.......................................................... 55 Bảng 4-4 Các thông số và kết quả trong mô hình khai phá sử dụng thuật toán Microsoft Decision Tree ..................................................................................................................... 57 Bảng 4-5 Các thông số và kết quả trong mô hình khai phá sử dụng thuật toán Microsoft Naïve Bayes ....................................................................................................................... 57 Bảng 4-6 Các thông số và kết quả trong mô hình khai phá sử dụng thuật toán Microsoft Neural Network ................................................................................................................. 58 6 DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Hình 2.1 Kiến trúc 3 tầng của kho dữ liệu ........................................................................ 15 Hình 2.2 Ví dụ về lược đồ hình sao ................................................................................... 17 Hình 2.3 Ví dụ về lược đồ bông tuyết ............................................................................... 18 Hình 2.4 Ví dụ về mô hình dữ liệu 3 chiều ....................................................................... 22 Hình 2.5 Mô hình MOLAP ............................................................................................... 24 Hình 2.6 Mô hình ROLAP ................................................................................................ 25 Hình 2 7 Các bước trong quá trình khám phá tri thức ....................................................... 27 Hình 2.8 Hộp thoại New Project ....................................................................................... 29 Hình 2.9 Hộp thoại New Project hiển thị các mô hình trong dịch vụ Analysis Services.. 29 Hình 2.10 Mô hình mạng nơron nhiều lớp ........................................................................ 32 Hình 2.11 Tiến trình học ................................................................................................... 33 Hình 2.12 Biểu đồ Lift Chart cho thuộc tính d đoán với giá trị bằng 1 ......................... 34 Hình 3.1 Bảng điểm tổng hợp kết quả học tập của sinh viên lớp CĐ Tin01 khóa 2005-2008 ......................................................................................................................... 37 Hình 3 2 Lược đồ quan hệ trong CSDL điểm ................................................................... 38 Hình 3.3 Mô hình kho dữ liệu điểm .................................................................................. 41 Hình 3.4 Khối dữ liệu kết quả môn học ............................................................................ 42 Hình 3.5 Khối dữ liệu kết quả học tập............................................................................... 42 Hình 3.6 Quá trình triển khai khối KQHTCube ................................................................ 43 Hình 4.1 Biểu đồ thống kê tỷ lệ giới tính của sinh viên theo khóa học ............................ 44 Hình 4.2 Báo cáo thống kê học l c của sinh viên theo khóa học ...................................... 45 Hình 4.3 Biểu đồ so sánh điểm TBMCB với điểm TBKH của sinh viên khóa KH05-08 46 Hình 4.4 Biểu đồ so sánh s tương quan giữa điểm TBMCS với điểm thi TNCS của sinh viên khóa KH07-10 ........................................................................................................... 48 Hình 4.5 Biểu đồ so sánh s tương quan giữa điểm TBMCN với điểm thi TNCN của khóa học KH07-10............................................................................................................. 49 Hình 4 6 Báo cáo động thống kê học l c môn Anh v n 1 của sinh viên trong các khóa học ........................................................................................................................................... 50 Hình 4.7 Báo cáo thống kê tỷ lệ sinh viên khóa KH07-10 có học l c khá giỏi theo khu v c .............................................................................................................................. 51 Hình 4.8 Báo cáo thống kê tỷ lệ sinh viên có học l c khá giỏi theo khu v c ở các khóa học từ KH05-08 đến KH10-13 .......................................................................................... 52 Hình 4.9 Biểu đồ xu hướng học tập của sinh viên có mã số 1151004 – Khóa học 2011-2014 ......................................................................................................................... 53 Hình 4.10 Thống kê điểm trung bình các học kỳ của khóa KH07-10 ở mức chi tiết ....... 54 Hình 4.11 Thể hiện điểm trung bình các học kỳ ở mức tổng hợp ..................................... 54 Hình 4 12 Báo cáo động thống kê điểm trung bình học kỳ 3 và điểm trung bình cuối khóa của sinh viên khóa KH07-10 ............................................................................................. 54 Hình 4.13 Các mô hình khai phá dữ liệu đánh giá n ng l c học tập của sinh viên .......... 56 7 Hình 4.14 Kết quả mô hình Model1-Decisiontree ............................................................ 59 Hình 4.15 Kết quả mô hình Model2-Decisiontree ............................................................ 59 Hình 4.16 Kết quả mô hình Model3-Decisiontree ............................................................ 60 Hình 4.17 Cây quyết định của mô hình Model3-Decisiontree với trường hợp học l c trung bình khá .................................................................................................................... 60 Hình 4 18 Sơ đồ mạng phụ thuộc của mô hình Model3-Decisiontree .............................. 61 Hình 4 19 Sơ đồ mạng phụ thuộc của mô hình Model1-Naivebayes ................................ 62 Hình 4 20 Sơ đồ mạng phụ thuộc của mô hình Model2-Naivebayes ................................ 62 Hình 4 21 Sơ đồ mạng phụ thuộc của mô hình Model3-Naivebayes ................................ 62 Hình 4.22 Xác suất d báo cho trường hợp học l c trung bình khá của mô hình Model3Naivebayes......................................................................................................................... 63 Hình 4.23 Kết quả của mô hình Model2-nơron với giá trị đầu ra là học l c khá và trung bình khá ............................................................................................................................. 64 Hình 4.24 Kết quả của mô hình Model2-nơron khi chọn thuộc tính TDDV .................... 65 Hình 4.25 Biểu đồ đánh giá hiệu quả của các mô hình khai phá dữ liệu .......................... 66 Hình 4.26 Mô hình d đoán học l c cuối khóa của sinh viên lớp cao đẳng Tin06........... 67 Hình 4.27 Kết quả d đoán học l c cuối khóa .................................................................. 68 Hình 4.28 Kết quả phân lớp dùng thuật toán Naïve Bayes trong Weka ........................... 69 Hình 4.29 Kết quả phân lớp của mô hình Model3-Naivebayes trong BI dưới dạng ma trận nhầm lẫn ............................................................................................................................ 69 Hình 4.30 Cửa số Preprocess của Weka ............................................................................ 70 Hình 4.31 Kết quả khi dùng thuật toán Naïve Bayes trong Microsoft Analysis service .. 71 Hình 4 32 Sơ đồ mạng phụ thuộc của thuật toán Naïve Bayes trong Microsoft Analysis service ................................................................................................................................ 71 8 LỜI MỞ ĐẦU Công tác quản lý vào đào tạo trong giáo dục luôn là mối quan tâm hàng đầu và đặt ra rất nhiều thách thức, đặc biệt là đối với các trường chuyên nghiệp. Việc mở rộng quy mô đào tạo, nâng cao chất lượng về cơ sở vật chất phải đi kèm với việc nâng cao chất lượng dạy và học trong nhà trường. Tuy nhiên, để th c hiện những yêu cầu cấp thiết đặt ra trong giáo dục, ngoài việc nhà trường phải xây d ng đội ngũ giáo viên vững về chuyên môn thì ở mỗi đơn vị giáo dục cần phải đưa ra được những mục tiêu, chiến lược phát triển phù hợp với đặc điểm của đơn vị mình. Th c tế hiện nay, tại các trường cao đẳng, đại học đã ứng dụng công nghệ thông tin vào trong công tác quản lý, nhưng đại đa số các ứng dụng ở nhiều trường mới chỉ dừng lại ở mức quản lý cơ sở dữ liệu tác nghiệp và đưa ra các báo cáo thông thường Do đó, việc thu thập thông tin từ cơ sở dữ liệu để hỗ trợ ra các quyết định chiến lược cho nhà quản lý còn gặp nhiều hạn chế. Vì vậy, với xu hướng phát triển hiện nay, việc khai thác các thông tin từ cơ sở dữ liệu không chỉ dừng lại ở mức đưa ra các báo cáo đơn giản mà nó phải đáp ứng được nhu cầu khai thác các tri thức tiềm ẩn từ cơ sở dữ liệu. Trường Cao đẳng Sư phạm Yên Bái là một trường nằm trong hệ thống các trường chuyên nghiệp tr c thuộc Sở Giáo dục và đào tạo Yên Bái – Là một trường miền núi còn gặp rất nhiều kho kh n. Một vấn đề cấp thiết đặt ra trong công tác quản lý và đào tạo của nhà trường là xây d ng các mục tiêu, chiến lược nhằm mở rộng quy mô đào tạo, thu hút được nhiều sinh viên, bên canh đó là việc nâng cao chất lượng giảng dạy, đảm bảo đào tạo những sinh viên ra trường đáp ứng được yêu cầu công việc. Công nghệ thông tin đã được ứng dụng trong công tác quản lý của nhà trường, song việc khai thác vẫn còn nhiều hạn chế. Xuất phát từ yêu cầu đặt ra đối với đơn vị mình, tôi đã th c hiện đề tài luận v n “Tìm hiểu phương pháp xây dựng và khai thác kho dữ liệu điểm dựa trên kỹ thuật OLAP” với mong muốn góp phần trợ giúp ra quyết định cho công tác quản lý, đào tạo của trường Cao đẳng Sư phạm Yên Bái nói riêng và các đơn vị đào tạo nói chung. 9 Chƣơng 1. Giới thiệu tổng quan 1.1. Bài toán xây dựng và khai thác kho dữ liệu điểm tại trƣờng CĐSP Yên Bái Trường Cao đẳng Sư phạm Yên Bái được thành lập với mục đích chủ yếu là đào tạo nguồn giáo viên tiểu học và trung học cơ sở, phục vụ cho nhiệm vụ giáo dục trong tỉnh. Theo báo cáo thống kê n m 2013 của trường Cao đẳng Sư phạm Yên Bái, tổng số lượng sinh viên chính quy là 1200 sinh viên. Một th c tế đặt ra đối với trường Cao đẳng Sư phạm Yên Bái là làm sao thu hút được nhiều sinh viên d a trên “thương hiệu” của nhà trường, để đáp ứng chỉ tiêu đào tạo. Tuy nhiên, yêu cầu đặt ra về số lượng cũng phải kèm theo yêu cầu về chất lượng đào tạo. Vấn đề nâng cao chất lượng đào tạo là một vấn đề luôn được quan tâm trong hệ thống giáo dục hiện nay và vấn đề đó càng đặc biệt quan trọng đối với những trường chuyên nghiệp trong khối các trường sư phạm Để nâng cao chất lượng dạy và học trong nhà trường, ban Giám hiệu cần có những c n cứ để đánh giá chất lượng đào tạo, tìm ra nguyên nhân của những hạn chế để kịp thời khắc phục, đồng thời nhận biết được xu hướng, những đặc điểm trong công tác đào tạo của nhà trường, từ đó có thể đưa ra được các chiến lược phát triển phù hợp. Trước yêu cầu cần thiết phải có những thông tin hữu ích, hỗ trợ cho công tác quản lý trong nhà trường, việc phân tích dữ liệu về kết quả học tập của sinh viên qua quá trình đào tạo trong nhiều n m của nhà trường, bằng việc xây d ng một kho lưu trữ dữ liệu về điểm và trích xuất ra thông tin từ kho dữ liệu là rất cần thiết. Với yêu cầu th c tế đặt ra, kho dữ liệu xây d ng được phải thỏa mãn yêu cầu trong việc lưu trữ dữ liệu điểm và có khả n ng hỗ trợ mạnh mẽ cho nhu cầu khai thác các thông tin liên quan đến công tác quản lý và đào tạo của nhà trường. Các báo cáo thống kê, đặc biệt là việc trích rút được các thông tin quan trọng từ kho dữ liệu điểm xây d ng được, chính là nguồn cung cấp và hỗ trợ quan trọng cho việc ra quyết định. Việc xây d ng các báo cáo và xác định các thông tin cần khai thác đều xuất phát từ những yêu cầu đặt ra trong th c tế, bằng việc tham khảo ý kiến của những người đóng vai trò quan trọng trong công tác quản lý và đào tạo của nhà trường Các thông tin rút ra được từ việc khai thác kho dữ liệu điểm cần trả lời được các câu hỏi như: − Những câu hỏi mang tính chất thống kê: Thống kê học l c của sinh viên theo từng khóa học, từng môn học; Thống kê số lượng sinh viên theo dân tộc… − Những câu hỏi nhằm xác định xu hướng như: Xu hướng về giới tính của sinh viên trong nhà trường như thế nào? Trong một vài n m gần đây, kết quả học tập của sinh viên có xu hướng t ng cao hay sụt giảm hơn so với các n m trước? Kết quả học tập của sinh viên trong nhà trường chịu ảnh hưởng bởi những yếu tố nào? − Những câu hỏi mang tính chất d đoán như: Liệu rằng trong n m học 2014 - 2015 những sinh viên có kết quả thi đầu vào cao và điểm trung bình các môn cơ bản cao thì khả n ng sinh viên đó sẽ đạt học l c cuối khóa từ mức khá trở lên? 10 1.2. Một số hƣớng nghiên cứu về kho dữ liệu và khai phá dữ liệu hiện nay Hiện nay, trên thế giới công nghệ kho dữ liệu và khai phá dữ liệu đã được ứng dụng rộng rãi trong rất nhiều lĩnh v c, nhằm xây d ng ứng dụng, phục vụ mạnh mẽ cho hoạt động của các công ty, các tổ chức. Một số vấn đề đang được quan tâm hiện nay như OLAP mining, kho dữ liệu thời gian th c, mobile OLAP. Bên cạnh đó là việc phát triển của nhiều công cụ hỗ trợ hiệu quả cho khai thác dữ liệu. Ở Việt Nam, công nghệ kho dữ liệu và khai phá dữ liệu cũng đã được nghiên cứu và ứng dụng trong nhiều tổ chức, doanh nghiệp và đem lại hiệu quả cao trong các lĩnh v c như y tế, thương mại, tài chính. Đã có nhiều ứng dụng được xây d ng có ý nghĩa quan trọng đối với hoạt động của các doanh nghiệp, hỗ trợ đắc l c cho việc ra các quyết định kinh doanh, d báo tài chính…Bằng việc áp dụng nhiều thuật toán và các công cụ khai phá dữ liệu đã giúp ích mạnh mẽ để phát hiện ra các tri thức tiềm ẩn, hữu ích. Nhiều công trình khoa học đã và đang được nghiên cứu để áp dụng vào th c tế. Song bên cạnh đó, việc khai thác các thông tin có giá trị từ kho dữ liệu ở một số đơn vị chưa th c s hiệu quả, việc áp dụng trong th c tế còn hạn chế. 1.3. Hƣớng tiếp cận của luận văn Luận v n tập trung xây d ng và khai thác kho dữ liệu điểm của trường Cao đẳng Sư phạm Yên Bái, bằng việc áp dụng kỹ thuật xử lý phân tích tr c tuyến Đây là một kỹ thuật được sử dụng rộng rãi trong nhiều ứng dụng, đặc biệt là trong kinh doanh. Kỹ thuật này cho phép th c hiện những phân tích phức tạp trên dữ liệu được lưu trữ trong kho dữ liệu. Bên cạnh đó, luận v n sử dụng một số thuật toán điển hình trong khai phá dữ liệu nhằm giải quyết bài toán d báo, d đoán 1.4. Cấu trúc của luận văn Nội dung của luận v n gồm 4 chương: Chương 1 Giới thiệu tổng quan Giới thiệu bài toán xây d ng và khai thác kho dữ liệu điểm tại trường Cao đẳng Sư phạm Yên Bái, trình bày một số hướng nghiên cứu về kho dữ liệu và khai phá dữ liệu hiện nay và hướng tiếp cận của luận v n Chương 2 Các kiến thức cơ sở liên quan Trình bày một số khái niệm và các kiến thức liên quan về kho dữ liệu, khai phá dữ liệu, kỹ thuật OLAP và giới thiệu công cụ sử dụng trong luận v n Chương 3 Phương pháp giải quyết bài toán Chương này trình bày về quá trình thiết kế và ứng dụng kỹ thuật OLAP để xây d ng mô hình kho dữ liệu điểm và mô hình khai phá dữ liệu. Chương 4 Phân tích kết quả khai thác kho dữ liệu Tác giả tập trung phân tích kết quả khai thác các thông tin từ kho dữ liệu điểm, nhằm trả lời cho những câu hỏi đặt ra trong công tác quản lý của nhà trường, bằng việc 11 đưa ra các báo cáo và áp dụng một số thuật toán khai phá dữ liệu để xây d ng mô hình d báo kết quả học tập của sinh viên. 1.5. Kết luận Chương này giới thiệu về bài toán, những yêu cầu đặt ra cần giải quyết đối với bài toán xây d ng và khai thác kho dữ liệu điểm của trường Cao đẳng Sư phạm Yên Bái, đồng thời trình bày một số hướng nghiên cứu về kho dữ liệu và khai phá dữ liệu hiện nay, hướng tiếp cận và cấu trúc của luận v n 12 Chƣơng 2. Các kiến thức cơ sở liên quan 2.1. Kho dữ liệu 2.1.1. Khái niệm kho dữ liệu Thuật ngữ về kho dữ liệu xuất hiện từ cuối những n m 80 của thế kỷ XX. Kho dữ liệu ra đời nảy sinh từ hai vấn đề: − Do nhu cầu nghiệp vụ cần có cách nhìn thông tin trên quy mô toàn xí nghiệp. − S cần thiết có hệ thống thông tin để quản lý hiệu quả dữ liệu của tổ chức. Trong những n m gần đây, công nghệ kho dữ liệu phát triển mạnh và được triển khai thành công trong nhiều lĩnh v c như: kinh tế, tài chính, y tế, giáo dục… Kho dữ liệu có rất nhiều định nghĩa khác nhau Theo Usama M.Fayyad, Gregory Piatesky-Shaporo, Padhraic Smyth and Ramasamy Uthurusamy 1996 [11] đưa ra: “Kho dữ liệu lưu trữ một lượng lớn dữ liệu, nó ngày càng trở nên quan trọng để phát triển sức mạnh của công nghệ kho dữ liệu và các công cụ khai phá dữ liệu, giúp cho việc phân tích trên một tập lớn dữ liệu và phát hiện ra các tri thức thú vị.” Sau đó, William H Inmon [6] – Một kỹ sư hàng đầu trong việc xây d ng hệ thống kho dữ liệu, đã đưa ra khái niệm tường minh hơn về kho dữ liệu: “Kho dữ liệu là một tập hợp dữ liệu có tính tích hợp, hướng chủ đề, tương đối ổn định, dữ liệu gắn với thời gian và được xây dựng để hỗ trợ cho quá trình ra quyết định.” Như vậy, ta có thể hiểu kho dữ liệu là kho chứa các dữ liệu nhất quán về ngữ nghĩa, là dạng th c thi của mô hình dữ liệu hỗ trợ quyết định. Kho dữ liệu chứa các thông tin cần thiết để hỗ trợ doanh nghiệp đưa ra các quyết định chiến lược. Kho dữ liệu được xem như là một kiến trúc và được xây d ng bằng cách tích hợp dữ liệu từ nhiều nguồn không đồng nhất để hỗ trợ cho các truy vấn, báo cáo phân tích và đưa ra quyết định. 2.1.2. Các đặc trƣng của kho dữ liệu Để phân biệt giữa kho dữ liệu với các hệ thống lưu trữ dữ liệu khác, ví dụ như hệ thống cơ sở dữ liệu quan hệ, hệ thống xử lý giao dịch, hệ thống file, kho dữ liệu dữ liệu có một số đặc trưng cơ bản sau [6]: a. Hướng chủ đề: Kho dữ liệu được tập trung xung quanh các chủ đề chính như khách hàng, nhà cung cấp, sản phẩm, bán hàng…Kho dữ liệu tập trung vào việc mô hình hóa và phân tích dữ liệu trợ giúp cho việc ra quyết định thay vì tập trung vào các xử lý thông thường. Do đó, kho dữ liệu thường cung cấp một khung nhìn đơn giản xung quanh vấn đề cụ thể bằng cách loại bỏ những dữ liệu không hữu ích cho quá trình hỗ trợ ra quyết định. 13 b. Tính tích hợp: Dữ liệu tập hợp trong kho dữ liệu có thể được thu thập từ nhiều nguồn khác nhau. Vì vậy, trước khi đưa dữ liệu vào kho, dữ liệu phải được làm sạch, chuẩn hóa để đảm bảo tính nhất quán trong quy ước đặt tên, mã hóa theo một cấu trúc nhất định. c. Tính ổn định: Dữ liệu trong kho dữ liệu được lưu trữ lâu dài, ít biến động, chủ yếu dùng cho việc truy xuất thông tin nên có độ ổn định cao, mặc dù có thêm dữ liệu mới nhập vào nhưng dữ liệu cũ trong kho dữ liệu vẫn không bị xóa hay thay đổi Hai thao tác cơ bản được th c hiện trong việc xử lý dữ liệu trong kho là nhập dữ liệu vào và truy xuất tới các vùng trong kho dữ liệu. d. Dữ liệu gắn với thời gian: Kho dữ liệu thường lưu trữ dữ liệu của hệ thống trong một khoảng thời gian dài. Nếu như dữ liệu tác nghiệp chỉ có giá trị hiện thời thì kho dữ liệu cung cấp thông tin lịch sử lâu dài. Trong kho dữ liệu, yếu tố thời gian được lưu trữ như một thành phần của khóa chính, cung cấp đặc trưng về thời gian cho dữ liệu. Bản chất của dữ liệu biến đổi theo thời gian trong một kho dữ liệu, cho phép phân tích dữ liệu trong quá khứ, thông tin liên quan đến hiện tại và có thể d báo trước được tương lai Với các đặc trưng trên, kho dữ liệu đảm bảo một số yêu cầu [10]: Kho dữ liệu giúp cho việc truy cập dữ liệu được dễ dàng, dữ liệu phải tr c quan và rõ ràng không chỉ với người phát triển hệ thống mà còn đối với người sử dụng. Hệ thống kho dữ liệu được xây d ng một cách đơn giản và có có khả n ng hỗ trợ việc trả về kết quả cho các câu truy vấn một cách nhanh chóng. Kho dữ liệu thể hiện thông tin một cách nhất quán, dữ liệu trong kho dữ liệu phải là các dữ liệu th c, đáng tin cậy. Dữ liệu phải được tích hợp một cách cẩn thận từ nhiều nguồn dữ liệu khác nhau, phải được làm sạch trước khi đưa dữ liệu vào kho. Kho dữ liệu có khả n ng thích ứng với những thay đổi của nhu cầu sử dụng, điều kiện kinh doanh, dữ liệu và công nghệ. Hệ thống kho dữ liệu phải được thiết kế để xử lý những thay đổi này mà không làm thay đổi những ứng dụng và các dữ liệu đã tồn tại. Nếu như dữ liệu trong hệ thống kho dữ liệu phải sửa đổi thì phải làm cho s thay đổi đó trong suốt với người dùng Đồng thời kho dữ liệu phải có khả n ng thể hiện thông tin một cách nhanh chóng và kịp thời. 14 2.1.3. Kiến trúc của kho dữ liệu Kiến trúc của kho dữ liệu được mô tả trong hình 2.1 Hình 2.1 Kiến trúc 3 tầng của kho dữ liệu [6] Kiến trúc này gồm ba tầng: Tầng đáy: Là nơi cung cấp các dịch vụ lấy dữ liệu từ nhiều nguồn khác nhau, sau đó chuẩn hóa, làm sạch và lưu trữ dữ liệu tập trung. Tầng giữa: Cung cấp các dịch vụ để th c hiện các thao tác với kho dữ liệu gọi là máy chủ OLAP. Có thể cài đặt bằng ROLAP, MOLAP hay kết hợp cả hai mô hình trên gọi là HOLAP. Ngoài ra, hệ thống còn có thể có thêm một số kho dữ liệu chủ đề (Data mart) đây là một tập con được chuyên biệt hóa của kho dữ liệu diện rộng, có giá trị đối với một nhóm người dùng đặc trưng, phạm vi được giới hạn bởi các chủ đề đặc biệt nào đó Dữ liệu trong kho dữ liệu và trong kho dữ liệu chủ đề được lưu trữ và quản lý bởi một hoặc nhiều máy chủ. Tầng trên cùng: tầng này cho phép th c hiện các truy vấn, tạo các báo cáo, phân tích dữ liệu. 15 2.1.4. Lƣợc đồ kho dữ liệu Đối với xử lý giao dịch tr c tuyến sử dụng mô hình th c thể kết hợp, trong lược đồ cơ sở dữ liệu quan hệ bao gồm một tập các th c thể và các quan hệ giữa các th c thể đó Tuy nhiên, lược đồ quan hệ lại không phù hợp cho việc xây d ng kho dữ liệu do không thỏa mãn những đặc điểm của kho dữ liệu như tính hướng chủ đề và có thể trợ giúp cho quá trình phân tích dữ liệu được nhanh chóng và dễ dàng. Mô hình dữ liệu phổ biến cho kho dữ liệu là mô hình đa chiều. Mô hình đa chiều có thể tồn tại dưới dạng lược đồ hình sao (star schema), lược đồ bông tuyết (snowflake schema), hay lược đồ chòm sao (fact constellation schema). Lƣợc đồ dữ liệu hình sao [6]: Lược đồ hình sao được đưa ra lần đầu tiên bởi Dr Ralph Kimball Lược đồ hình sao được hình thành từ quan điểm đa chiều về dữ liệu được thể hiện bằng cách sử dụng cơ sở quan hệ ngữ nghĩa Trung tâm của lược đồ là các s kiện và được bao quanh bởi các đối tượng liên quan. Như vậy, lược đồ hình sao bao gồm bảng s kiện và các bảng chiều. Bảng s kiện biểu diễn các s kiện và các thông tin chi tiết về các s kiện đó Bảng s kiện được xây d ng d a trên yêu cầu cần phân tích và được kết hợp với nhiều chiều nên dữ liệu trong bảng s kiện rất lớn có thể chứa rất nhiều cột và hàng triệu hoặc hàng tỷ hàng và t ng trưởng một cách nhanh chóng. Bảng s kiện gồm các khóa ngoại đó là các khóa chính của cả bảng chiều. Bảng chiều thường nhỏ hơn bảng s kiện, mỗi chiều chỉ được biểu diễn bởi một bảng chiều, và mỗi bảng chứa một tập các thuộc tính. Một sơ đồ hình sao phức tạp có thể bao gồm hàng tr m bảng s kiện và bảng chiều. Ví dụ: Lược đồ hình sao về tình hình bán hàng công ty AdventureWorks, đây là ví dụ được xây d ng từ cơ sở dữ liệu mẫu AdventureWorks Lược đồ gồm ba bảng chiều là DimDate, DimCustomer, DimProduct và bảng s kiện FactSales. Bảng s kiện này chứa khóa của các bảng chiều, cùng với hai độ đo là TotalProductCost và SaleAmount. 16 Hình 2.2 Ví dụ về lược đồ hình sao Ƣu điểm của lƣợc đồ hình sao: - Tr c quan, đơn giản, phù hợp với cách mà người sử dụng nhìn nhận và sử dụng dữ liệu. Dễ dàng truy vấn dữ liệu và hỗ trợ tối đa các loại truy vấn. Khi sử dụng lược đồ hình sao có thể dẫn đến việc dư thừa dữ liệu, chính việc phi chuẩn hóa này đã tránh được việc phải nối nhiều bảng trong quá trình xử lý, điều này giúp làm giảm thời gian th c hiện truy vấn. Lƣợc đồ bông tuyết [6]: Lược đồ bông tuyết là một s mở rộng của lược đồ hình sao. S khác biệt chính giữa lược đồ hình bông tuyết và lược đồ hình sao là các bảng chiều trong mô hình bông tuyết có thể được chuẩn hoá nhằm giảm s dư thừa dữ liệu. Bảng đã được chuẩn hóa thì sẽ dễ quản lý và tiết kiệm không gian lưu trữ. Tuy nhiên, cấu trúc bông tuyết có thể giảm hiệu quả khi truy vấn dữ liệu, vì có thể sẽ phải sử dụng nhiều phép kết nối hơn khi th c thi một truy vấn. Do vậy, khả n ng hoạt động của hệ thống có thể bị giảm sút. 17 Ví dụ Hình 2.3 thể hiện lược đồ hình bông tuyết. S khác biệt chính giữa hai lược đồ là ở định nghĩa các bảng chiều. Bảng chiều DimCustomer trong lược đồ sao được chuẩn hoá thành hai bảng DimCustomer và DimGeographyKey. Hình 2.3 Ví dụ về lược đồ bông tuyết Lƣợc đồ chòm sao: Đối với các ứng dụng phức tạp có thể cần nhiều bảng s kiện, các bảng s kiện này dùng chung các bảng chiều. Loại lược đồ này có thể được xem xét như là một tập các ngôi sao và được gọi là lược đồ chòm sao s kiện hay lược đồ ngân hà (galaxy schema). Trong các kho dữ liệu, lược đồ chòm sao được sử dụng phổ biến vì lược đồ này có thể mô hình hóa các chủ đề liên quan với nhau Trong khi đó, kho dữ liệu theo chủ đề là một bộ phận con của kho dữ liệu, chỉ tập trung vào các chủ đề đã chọn Do đó, khi thiết kế kho dữ liệu theo chủ đề, lược đồ sao và lược đồ bông tuyết được sử dụng phổ biến. Tuy nhiên, lược đồ sao phổ biến và hiệu quả hơn 2.1.5 Xây dựng kho dữ liệu Việc xây d ng kho dữ liệu có thể được th c hiện qua các bước sau [3]: Bƣớc 1: Lập kế hoạch tổng thể Lập kế hoạch tổng thể là bước đầu tiên trong xây d ng kho dữ liệu. Việc lập kế hoạch tổng thể bao gồm việc xác định mục tiêu của kho, cơ cấu tổ chức trong kho, l a chọn phương pháp và mô hình phát triển kho dữ liệu, đồng thời xác định được phạm vi 18
- Xem thêm -

Tài liệu liên quan