Ứng dụng kỹ thuật OLAP trong khai phá dữ liệu sinh viên tại Học viện Ngân hàng

  • Số trang: 75 |
  • Loại file: PDF |
  • Lượt xem: 89 |
  • Lượt tải: 2
nhattuvisu

Đã đăng 26946 tài liệu

Mô tả:

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN TUẤN MINH ỨNG DỤNG KỸ THUẬT OLAP TRONG KHAI PHÁ DỮ LIỆU SINH VIÊN TẠI HỌC VIỆN NGÂN HÀNG LUẬN VĂN THẠC SĨ Hà Nội - 2014 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN TUẤN MINH ỨNG DỤNG KỸ THUẬT OLAP TRONG KHAI PHÁ DỮ LIỆU SINH VIÊN TẠI HỌC VIỆN NGÂN HÀNG Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống Thông tin Mã số: 60 48 01 04 LUẬN VĂN THẠC SĨ NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS. TS. Đỗ Trung Tuấn Hà Nội – 2014 MỤC LỤC MỤC LỤC................................................................................................................................... 1 BẢNG DANH SÁCH CÁC TỪ VIẾT TẮT ............................................................................ 4 DANH MỤC HÌNH VẼ VÀ BẢNG BIỂU............................................................................... 5 LỜI CAM ĐOAN ....................................................................................................................... 7 LỜI CẢM ƠN............................................................................................................................. 8 LỜI MỞ ĐẦU ............................................................................................................................. 9 CHƯƠNG 1............................................................................................................................... 11 TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU ............................................................................. 11 VÀ PHÁT HIỆN TRI THỨC ................................................................................................. 11 1.1. Khái niệm về khai phá dữ liệu ........................................................................... 12 1.2. Quá trình khai phá tri thức trong cơ sở dữ liệu ................................................ 12 1.3. Các kiểu dữ liệu có thể được khai thác trong Khai phá dữ liệu ...................... 14 1.3.1. Dữ liệu từ Cơ sở dữ liệu ........................................................................................ 14 1.3.2. Kho dữ liệu ............................................................................................................. 15 1.3.3. Dữ liệu giao dịch .................................................................................................... 17 1.3.4. Các loại dữ liệu khác ............................................................................................. 17 1.4. Các kỹ thuật khai phá dữ liệu ............................................................................ 19 1.4.1. Khai phá dữ liệu dự đoán ...................................................................................... 19 1.4.2. Khai phá dữ liệu mô tả ........................................................................................... 21 1.5. Lợi thế của khai phá dữ liệu so với các phương pháp khác ............................. 22 1.5.1. Học máy.................................................................................................................. 22 1.5.2. Hệ chuyên gia ......................................................................................................... 23 1.5.3. Thống kê ................................................................................................................. 23 1.6. Các ứng dụng của Khai phá dữ liệu.................................................................. 24 1.6.1 Trí tuệ doanh nghiệp ............................................................................................... 24 1.6.2. Công cụ tìm kiếm .................................................................................................... 24 1.7. Những thách thức đối với phát hiện tri thức .................................................... 26 1.8. Kết luận ............................................................................................................... 28 1 CHƯƠNG 2............................................................................................................................... 30 OLAP VÀ OLAP TRONG MS SQL SERVER 2008 ............................................................ 30 2.1. Khái niệm về OLAP ............................................................................................ 30 2.2. Mô hình dữ liệu đa chiều ................................................................................... 30 2.3. So sánh OLAP với OLTP ................................................................................... 32 2.4. Các mô hình lưu trữ hỗ trợ OLAP .................................................................... 33 2.4.1. Mô hình MOLAP .................................................................................................... 33 2.4.2. Mô hình ROLAP..................................................................................................... 34 2.4.3. Mô hình HOLAP .................................................................................................... 35 2.4.4. So sách các mô hình............................................................................................... 36 2.5. Kiến trúc khối của OLAP ................................................................................... 36 2.6. Mô hình kiến trúc dịch vụ OLAP của Microsoft .............................................. 37 2.6.1. Tầng dữ liệu nguồn ................................................................................................ 38 2.6.2. Kiến trúc tầng nền tảng.......................................................................................... 38 2.6.3. Kiến trúc tầng khai thác ......................................................................................... 39 2.7. Giới thiệu dịch vụ OLAP của Microsoft SQL Server ....................................... 41 2.7.1. Dịch vụ tích hợp dữ liệu......................................................................................... 41 2.7.2. Dịch vụ Báo cáo ..................................................................................................... 45 2.7.3. Dịch vụ phân tích dữ liệu....................................................................................... 48 2.7.4. Bộ công cụ phát triển trí tuệ doanh nghiệp ........................................................... 49 2.7.5. Công cụ quản lý SQL Server .................................................................................. 50 2.8. Triển khai OLAP đối với dữ liệu sinh viên ....................................................... 51 2.9. Kết luận ............................................................................................................... 59 CHƯƠNG 3............................................................................................................................... 60 ÚNG DỤNG KỸ THUẬT OLAP TRONG KHAI PHÁ DỮ LIỆU SINH VIÊN TẠI HỌC VIỆN NGÂN HÀNG................................................................................................................ 60 3.1. Giới thiệu về Học viện Ngân hàng .................................................................... 60 3.2. Yêu cầu về Phân tích dữ liệu sinh viên ............................................................. 61 3.2. Mô hình dữ liệu và các lược đồ ......................................................................... 62 3.2.1. Mô hình dữ liệu ...................................................................................................... 62 2 3.2.2. Bảng thông tin dữ liệu ............................................................................................ 63 3.3. Khai phá dữ liệu sinh viên tại Học viện Ngân hàng......................................... 66 3.3.1. Phân tích dữ liệu điểm môn Kinh tế vi mô của sinh viên khóa 11 và khóa 12. .... 66 3.3.2. Phân tích kết quả học tập môn Tiếng anh 1 của sinh viên khóa 12 theo Dân tộc 67 3.3.3. Phân tích dữ liệu sinh viên theo khóa, tỉnh và môn học. ....................................... 67 3.3.4. Phân tích dữ liệu sinh viên theo giới tính, môn học. ............................................. 69 3.4. Kết luận ............................................................................................................... 69 KẾT LUẬN ............................................................................................................................... 71 1. Kết quả đạt được của luận văn .................................................................................... 71 2. Phương hướng tiếp tục nghiên cứu.............................................................................. 72 Tài liệu Tham khảo .................................................................................................................. 73 3 BẢNG DANH SÁCH CÁC TỪ VIẾT TẮT Từ Tiếng Anh Tiếng Việt Cơ sở dữ liệu CSDL BI Business Intelligent Trí tuệ doanh nghiệp BIDS Business Intelligent Development Studio Trình phát triển trí tuệ doanh nghiệp DM Kho dữ liệu chuyên đề Kho dữ liệu chuyên biệt DW Data Warehouse Kho dữ liệu DSV Data Source View Dữ liệu nguồn XML Extensible Markup Language Ngôn ngữ đánh dấu mở rộng ETL Extract - Transform - Load Trích rút – Biến đổi – Nạp HOLAP Hybrid OLAP OLAP ghép MOLAP Multidimensional OLAP OLAP đa chiều OLAP Online Analytical Processsing Xử lý phân tích trực tuyến OLTP Online Transaction Processing Xử lý giao dịch trực tuyến ODS Operational Database Store Kho dữ liệu tác ng hiệp RDBMS Relational DataBase Management Hệ quản trị CSDL quan hệ System ROLAP Relational OLAP OLAP quan hệ SSAS SQL Server Analysis Services Dịch vụ phân tích của SQL Server SSIS SQL Server Integration Service Dịch vụ tích hợp của SQL Server SSMS SQL Server Management Studio Trình quản lý của SQL Server SSRS SQL Server Reporting Services Dịch vụ báo cáo của SQL Server UDM Unified Dimensional Model Mô hình chiều thống nhất Học viện Ngân hàng HVNH 4 DANH MỤC HÌNH VẼ VÀ BẢNG BIỂU Hình 1.1. Quá trình phát hiện tri thức ............................................................. 13 Hình 1.2. Kiến trúc kho dữ liệu điển hình cho công ty AllElectronics............. 16 Hình 1.3. Tập dữ liệu với 2 lớp: có và không có khả năng trả nợ ................... 19 Hình 1.4. Phân loại được học bằng mạng nơron cho tập dữ liệu cho vay ...... 20 Hình 1.5. Phân cụm tập dữ liệu kết quả học tập vào trong 3 cụm................... 21 Hình 2.1. Mô phỏng các chiều trong kinh doanh............................................. 31 Hình 2.2. Mô hình dữ liệu MOLAP .................................................................. 33 Hình 2.3. Mô hình dữ liệu ROLAP ................................................................... 34 Hình 2.4. Mô hình dữ liệu HOLAP .................................................................. 35 Bảng 2.1. Bảng so sánh các mô hình OLAP .................................................... 36 Hình 2.5. Kiến trúc dịch vụ OLAP của Microsoft ............................................ 38 Hình 2.6. Kiến trúc tầng nền tảng của OLAP dựa trên công cụ phân tích PivotTable ................................................................................................................. 39 Hình 2.7. Kiến trúc tầng khai thác của OLAP dựa trên công cụ phân tích PivotTable ................................................................................................................. 40 Hình 2.8. Kiến trúc dịch vụ tích hợp SSIS........................................................ 41 Hình 2.9. Ví dụ về một luồng dữ liệu................................................................ 43 Hình 2.10. Kiến trúc dịch vụ báo cáo SSRS ..................................................... 46 Hình 2.11. Kiến trúc dịch vụ phân tích SSAS................................................... 48 Hình 2.12. Màn hình khởi tạo mẫu dự án DW/BI trong BIDS......................... 50 Hình 2.13. Màn hình quản lý của SQL Server ................................................. 51 Hình 2.14. Màn hình khởi động SQL Server Business Intelligence Development Studio......................................................................................................................... 52 Hình 2.15. Màn hình khởi tạo Analysis Services Project................................. 52 Hình 2.16. Màn hình tạo kết nối đến Data Source........................................... 53 5 Hình 2.17.. Màn hình thiết lập tham số kết nối đến Data Source .................... 53 Hình 2.18. Màn hình tạo kết nối đến Data Source View.................................. 54 Hình 2.19. Màn hình thiết lập tham số kết nối đến Data Source View ............ 54 Hình 2.20. Màn hình lựa chọn các bảng cần phân tích trong Data Source View ................................................................................................................................... 54 Hình 2.21. Bảng Fact và Dimensions sau khi hoàn thành việc kết nối đến Data Source View............................................................................................................... 55 Hình 2.22. Màn hình tạo khối để phân tích...................................................... 55 Hình 2.23. Màn hình lựa chọn các bảng có chứa độ đo .................................. 56 Hình 2.24. Màn hình lựa chọn các độ đo ......................................................... 56 Hình 2.25. Màn hình lựa chọn các chiều ......................................................... 57 Hình 2.26. Khối dữ liệu với các chiều được sinh ra ........................................ 57 Hình 2.27. Màn hình Deploy để sinh ra các chiều........................................... 58 Hình 2.28. Khối dữ liệu và các chiều được Deploy thành công ...................... 58 Hình 2.29. Bấm Browse để vào Phân tích khối dữ liệu ................................... 58 Hình 2.30. Phân tích khối dữ liệu .................................................................... 59 Bảng 3.1. Yêu cầu xử lý dữ liệu của Học viện Ngân hàng............................... 62 Hình 3.1. Sơ đồ quan hệ của các bảng dữ liệu nguồn ..................................... 63 Hình 3.2. Phân tích khối dữ liệu ...................................................................... 66 Hình 3.3. So sánh kết quả học tập môn Kinh tế vi mô của sinh viên Khóa 11 và Khóa 12 ..................................................................................................................... 66 Hình 3.4. Kết quả học tập môn tiếng anh 1 theo dân tộc của sinh viên khóa 12 ................................................................................................................................... 67 Hình 3.5. Phân tích kết quả học tập môn Kinh tế vĩ mô c ủa sinh viên K11 tại tỉnh Bắc ninh và Bắc giang ....................................................................................... 68 Hình 3.6. Phân tích kết quả học tập môn Kinh tế vĩ mô của sinh viên K12 tại tỉnh Bắc ninh và Bắc giang ....................................................................................... 68 Hình 3.7. Phân tích kết quả học tập môn theo giới tính................................... 69 6 LỜI CAM ĐOAN Tôi xin cam đoan đề tài “Ứng dụng kỹ thuật OLAP trong khai phá dữ liệu sinh viên tại Học viện Ngân hàng” này là công trình nghiên cứu của bản thân tôi. Các số liệu và kết quả nghiên cứu nêu trong luận văn này là trung thực, được các tác giả cho phép sử dụng và các tài liệu tham khảo như đã trình bày trong luận văn. Tôi xin chịu trách nhiệm về luận văn của mình. Học viên Nguyễn Tuấn Minh 7 LỜI CẢM ƠN Trước tiên tác giả xin bày tỏ lòng biết ơn tới các thầy cô giáo trong ngành Hệ thống thông tin khoa Công nghệ thông tin của trường Đại học công nghệ-Đại học quốc gia Hà Nội đã truyền đạt, hướng dẫn và cung cấp những kiến thức quý báu cho tác giả trong suốt quá trình học tập và nghiên cứu tại trường. Để hoàn thành phần nào cho đề tài luận văn của mình, tác giả đã nh ận được rất nhiều sự giúp đỡ, cũng như nh ững chia sẻ động viên từ các đồng nghiệp trong Trung tâm Thực hành, Học viện Ngân hàng. Đặc biệt, được sự hướng dẫn, chỉ bảo góp ý những ý kiến quý báu của Thầy PGS.TS. Đỗ Trung Tuấn, tác giả mới có thể hoàn thành tốt luận văn này. Tác giả xin cảm ơn đồng nghiệp tại Học viện Ngân hàng đã giúp đỡ tác giả về mặt tinh thần, thời gian và đặc biệt quan trọng là dữ liệu về sinh viên của Học viện Ngân hàng để tác giả có dữ liệu thử nghiệm. Tác giả cũng xin gửi lời cảm ơn tới gia đình, người thân đã tạo điều kiện để hoàn thành khóa học sau đại học. Nhân đây, có lời cám ơn đến bạn bè, những người luôn cổ vũ, quan tâm và giúp đỡ tác giả trong suốt thời gian học tập cũng như làm luận văn. Mặc dù tác giả đã có nhi ều cố gắng hoàn thiện luận văn bằng tất cả sự nhiệt tình và năng lực của mình. Tuy nhiên do thời gian và kiến thức có hạn nên luận văn chắc không tránh khỏi những thiếu sót nhất định. Tác giả rất mong nhận được những sự góp ý quý báu của thầy cô và các bạn. Hà Nội, tháng 11 năm 2014 8 LỜI MỞ ĐẦU Việc xây dựng kỹ thuật OLAP phục vụ cho phân tích và báo cáo của các doanh nghiệp sẽ là xu thế tất yếu trong những năm tới ở Việt nam. Thực ra, Kỹ thuật OLAP đã đư ợc áp dụng khá phổ biến tại các nước phát triển như Mỹ, Úc, Đức, Nhật... Tại Việt nam thì cho đ ến nay Kỹ thuật OLAP cũng đã đư ợc bắt đầu áp dụng cho một số ngành đi tiên phong trong lĩnh vực CNTT như Ngân hàng, Tài chính và Bưu chính Viễn thông. Nhưng nhìn chung s ố lượng doanh nghiệp triển khai thành công và hiệu quả là chưa nhiều, vì các doanh nghiệp vẫn đang phải ưu tiên phần mềm phục vụ tác nghiệp như kế toán, nhân sự, tiền lương, bán hàng, đặt hàng, hoạch định doanh nghiệp, phần mềm lõi, phần mềm quản lý quan hệ khách hàng... Nhưng trong vài năm tới, khi các phần mềm tác nghiệp đã đư ợc áp dụng phổ biến và chạy ổn định thì việc làm thế nào để khai thác được khối dữ liệu tác nghiệp đã có m ột cách hiệu quả nhất là điều mà các doanh nghiệp sẽ rất quan tâm. Nhận thấy được xu thế này, nên tên đề tài đã đư ợc đăng ký là “Ứng dụng kỹ thuật OLAP trong khai phá dữ liệu sinh viên tại Học viện Ngân hàng” cho luận văn tốt nghiệp. Hy vọng đây là cơ hội tốt để nghiên cứu và tìm hiểu tổng quan về kỹ thuật OLAP và qui trình xây dựng nó, để nghiên cứu các giải pháp công nghệ cho kỹ thuật OLAP của Microsoft nói chung và của SQL Server 2008 nói riêng, và cuối cùng là việc áp dụng những gì nghiên cứu được để xây dựng thử nghiệm cho bài toán thực tế về khai phá dữ liệu sinh viên tại Học viện Ngân hàng. Ngoài phần mở đầu, phần kết luận, nội dung luận văn được chia thành 3 chương như sau: 1. Chương 1. Phần này giới thiệu một cách tổng quát về quá trình phát hiện tri thức nói chung và khai phá dữ liệu nói riêng. 2. Chương 2. Giới thiệu về kỹ thuật OLAP, chương này trình bày một cách tổng thể về các khái niệm OLAP, kiến trúc OLAP, qui trình triển khai kỹ thuật OLAP, và cách thức khai thác dữ liệu. Liên quan đến tìm hiểu kỹ thuật OLAP trong SQL Server, chương này trình bày gi ải pháp công nghệ kho dữ liệu và kỹ thuật OLAP của Microsoft, mà đặc biệt là của SQL Server 2008. Ngoài ra cũng trình bày một số công cụ được sử dụng 9 trong việc xây dựng kho dữ liệu như: SSIS dùng cho tích hợp, SSRS dùng cho báo cáo, SSAS dùng cho phân tích dữ liệu và SSMS dùng cho việc theo dõi và quản lý. 3. Chương 3. Chương này trình bày một số kết quả đã đạt được khi tiến hành áp dụng kỹ thuật OLAP vào khai phá dữ liệu sinh viên của Học viện Ngân hàng. Chương này tóm tắt các phần đã đư ợc cài đặt và chạy thử nghiệm như: dữ liệu nguồn và đích, các mẫu phân tích và báo cáo. Phần kết luận trình bày tổng hợp các kết quả thực hiện luận văn cũng như các phần cần mở rộng khi áp dụng cho thực tế. 10 CHƯƠNG 1 TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ PHÁT HIỆN TRI THỨC "Chúng ta đang sống trong thời đại thông tin" là một câu nói phổ biến; Tuy nhiên, thực tế chúng ta đang thực sự sống trong thời đại thông tin. Terabytes hoặc petabytes dữ liệu đổ vào mạng máy tính của chúng ta, World Wide Web, và các thiết bị lưu trữ dữ liệu khác nhau mỗi ngày từ doanh nghiệp, xã hội, khoa học và kỹ thuật, y học, và gần như mọi khía cạnh khác của cuộc sống hàng ngày. Tăng trưởng bùng nổ của khối lượng dữ liệu có sẵn là kết quả của việc tin học hoá xã hội chúng ta và sự phát triển nhanh chóng của công cụ thu thập và lưu trữ dữ liệu mạnh mẽ. Các doanh nghiệp trên toàn thế giới tạo ra bộ dữ liệu khổng lồ, bao gồm cả giao dịch bán hàng, hồ sơ giao dịch chứng khoán, giới thiệu sản phẩm, chương trình khuyến mãi bán hàng, hồ sơ công ty và hiệu suất, và thông tin phản hồi của khách hàng. Ví dụ, các cửa hàng lớn như Wal-Mart, xử lý hàng trăm triệu giao dịch mỗi tuần tại hàng ngàn chi nhánh trên khắp thế giới. Hoạt động khoa học và kỹ thuật tạo ra một lượng lớn dữ liệu một cách liên tục, từ viễn thám, quá trình đo lường, thí nghiệm khoa học, hiệu năng hệ thống, quan sát kỹ thuật và giám sát môi trường. Hệ thống đường trục viễn thông toàn cầu thực hiện hàng chục petabyte dữ liệu lưu lượng truy cập mỗi ngày. Các ngành công nghiệp y tế và sức khỏe tạo ra một lượng lớn dữ liệu từ hồ sơ y tế, theo dõi bệnh nhân, và hình ảnh y tế. Tỷ tìm kiếm Web được hỗ trợ bởi công cụ tìm kiếm xử lý hàng chục petabyte dữ liệu hàng ngày. Cộng đồng và các phương tiện truyền thông xã hội đã trở thành nguồn dữ liệu ngày càng quan trọng, sản xuất hình ảnh kỹ thuật số và video, blog, trang web cộng đồng, và các loại mạng xã hội. Danh sách các nguồn tạo ra một lượng lớn dữ liệu là vô tận. Hiện nay, lượng dữ liệu khổng lồ này thực sự là một nguồn tài nguyên có nhiều giá trị bởi thông tin là yếu tố then chốt trong mọi hoạt động quản lý kinh doanh, phát triển sản xuất và dịch vụ… Nó giúp những người điều hành và người quản lý có hiểu biết về môi trường và tiến trình hoạt động của tổ chức mình trước khi ra quyết định để tác động đến quá trình hoạt động nhằm đạt đến mục tiêu hiệu quả và bền vững. Khai phá dữ liệu là một lĩnh vực mới xuất hiện, nhằm tự động khai thác những 11 thông tin, những trí thức có tính tiềm ẩn hữu ích từ các CSDL cho các đơn vị tổ chức doanh nghiệp… Từ đó làm thúc đẩy khả năng sản xuất, kinh doanh, cạnh tranh cho các đơn vị, tổ chức này. Các kết quả của khoa học cùng những ứng dụng thành công trong khai phá tri thức cho thấy khai phá dữ liệu là một lĩnh vực phát triển bền vững mang lại lợi ích và có nhiều triển vọng, đồng thời có ưu thế hơn hẳn so với các công cụ phân tích dữ liệu truyền thống. Hiện nay khai phá dữ liệu đã ứng dụng ngày càng rộng rãi trong các lĩnh vực như: Thương mại, tài chính, điều trị y học, viễn thông, tin sinh học, giáo dục… 1.1. Khái niệm về khai phá dữ liệu Khai phá dữ liệu là một hướng nghiên cứu ra đời hơn hai mươi năm trở lại đây, các kỹ thuật chính được áp dụng trong kỹ thuật này phần lớn được thừa kế từ CSDL, học máy, trí tuệ nhân tạo, lý thuyết thông tin, lý thuyết thống kê và tính toán hiệu năng cao. Do sự phát triển nhanh của khai phá dữ liệu về phạm vi ứng dụng và phương pháp tìm ki ếm tri thức đã có nhi ều quan điểm khác nhau về khai phá dữ liệu. Tác giả xin trích dẫn một số định nghĩa về khai phá dữ liệu của những nhà nghiên cứu về khai phá dữ liệu. Tác giả Tom Mitchell [3] đã đưa ra đ ịnh nghĩa khai phá dữ liệu như sau: "Khai phá dữ liệu là việc sử dụng dữ liệu lịch sử để khám phá những quy tắc và cải thiện những quyết định trong tương lai". Chúng ta có thể tham khảo một cách tiếp cận khác, ứng dụng hơn, tác giả U. M. Fayyad [4] đã phát biểu: "Khai phá dữ liệu, thường được xem là việc khám phá tri thức trong các cơ sở dữ liệu, là một quá trình trích xuất những thông tin ẩn, trước đây chưa biết và có khả năng hữu ích, dưới dạng các quy luật, ràng buộc, quy tắc trong cơ sở dữ liệu". Tuy nhiên, chúng ta có thể hiểu khai phá dữ liệu như sau: Khai phá dữ liệu là một quá trình khám phá, phát hiện những tri thức mới, tiềm ẩn hữu dụng từ những dữ liệu đã có. Khai phá dữ liệu là bước phân tích của quá trình khai phá tri thức trong CSDL hay còn gọi là KDD - Knowledge Discovery in Databases. Khai phá dữ liệu biến một lượng lớn các bộ sưu tập dữ liệu thành tri thức. Khai phá tri thức trong CSDL là mục tiêu chính của khai phá dữ liệu, do vậy hai khái niệm khai phá dữ liệu và phát hiện tri thức được các nhà khoa học trên hai lĩnh v ực xem là tương đương nhau. 1.2. Quá trình khai phá tri thức trong cơ sở dữ liệu Quá trình khai phá tri thức được tiến hành theo các bước. Bắt đầu của quá trình 12 là kho dữ liệu thô và kết thúc với tri thức được chiết xuất ra [4] . Về lý thuyết thì có vẻ rất đơn giản nhưng thực sự đây là một quá trình rất khó khăn gặp phải rất nhiều vướng mắc như: quản lý các tập dữ liệu, phải lặp đi lặp lại toàn bộ quá trình... 1. Tập hợp dữ liệu: Tập hợp dữ liệu là bước đầu tiên trong quá trình khai phá dữ liệu. Đây là bước được khai thác trong một cơ sở dữ liệu, một kho dữ liệu và thậm chí các dữ liệu từ các nguồn ứng dụng Web. 2. Trích lọc dữ liệu: Ở giai đoạn này dữ liệu được lựa chọn hoặc phân chia theo một số tiêu chuẩn nào đó phục vụ mục đích khai thác, ví dụ chọn tất cả những mặt hàng được bán trong ngày 25/10/2013 tại kho số 2. 3. Làm sạch, tiền xử lý và chuẩn bị trước dữ liệu: Giai đoạn thứ ba này là giai đoạn hay bị sao lãng, nhưng th ực tế nó là một bước rất quan trọng trong quá trình khai phá dữ liệu. Một số lỗi thường mắc phải trong khi gom dữ liệu là tính không đủ chặt chẽ, logic. Vì vậy, dữ liệu thường chứa các giá trị vô nghĩa và không có khả năng kết nối dữ liệu. Ví dụ: tuổi = 233 hoặc năm sinh = 2048. Giai đoạn này sẽ tiến hành xử lý những dạng dữ liệu không chặt chẽ nói trên. Những dữ liệu dạng này được xem như thông tin dư thừa, không có giá trị. Bởi vậy, đây là một quá trình rất quan trọng vì dữ liệu này nếu không được “làm sạch - tiền xử lý - chuẩn bị trước” thì sẽ gây nên những kết quả sai lệch nghiêm trọng. 4. Chuyển đổi dữ liệu: Tiếp theo là giai đoạn chuyển đổi dữ liệu, dữ liệu đưa ra có thể sử dụng và điều khiển được bởi việc tổ chức lại nó, tức là dữ liệu sẽ được chuyển đổi về dạng phù hợp cho việc khai phá bằng cách thực hiện các thao tác nhóm hoặc tập hợp… Hình 1.1. Quá trình phát hiện tri thức 5. Khai phá dữ liệu: Đây là bước mang tính tư duy trong khai phá dữ liệu. Ở 13 giai đoạn này nhiều thuật toán khác nhau đã đư ợc sử dụng để trích ra các mẫu từ dữ liệu. Thuật toán thường dùng là nguyên tắc phân loại, nguyên tắc kết hợp... 6. Đánh giá các luật và biểu diễn tri thức: Ở giai đoạn này, các mẫu dữ liệu được chiết xuất ra bởi phần mềm khai phá dữ liệu. Không phải bất cứ mẫu dữ liệu nào cũng đ ều hữu ích, đôi khi nó còn b ị sai lệch. Vì vậy, cần phải ưu tiên những tiêu chuẩn đánh giá để chiết xuất ra các tri thức cần chiết xuất ra. Đánh giá sự hữu ích của các mẫu biểu diễn tri thức dựa trên một số phép đo. Sau đó sử dụng các kỹ thuật trình diễn và trực quan hoá dữ liệu để biểu diễn tri thức khai phá được cho người sử dụng. Trên đây là 6 giai đoạn của quá trình phát hiện tri thức, trong đó giai đoạn "khai phá dữ liệu" là giai đoạn được quan tâm nhiều nhất. 1.3. Các kiểu dữ liệu có thể được khai thác trong Khai phá dữ liệu Là một công nghệ nói chung, khai phá dữ liệu có thể được áp dụng cho bất kỳ loại dữ liệu miễn là các dữ liệu có ý nghĩa cho một ứng dụng mục tiêu. Các hình thức cơ bản nhất của dữ liệu cho các ứng dụng khai phá dữ liệu là cơ sở dữ liệu, dữ liệu kho dữ liệu, và dữ liệu giao dịch. Khai phá dữ liệu cũng có thể được áp dụng cho các hình thức khác của dữ liệu (ví dụ: luồng dữ liệu, dữ liệu yêu cầu hoặc dữ liệu trình tự, biểu đồ hoặc mạng dữ liệu, dữ liệu không gian, dữ liệu văn bản, dữ liệu đa phương tiện, và dữ liệu từ WWW). 1.3.1. Dữ liệu từ Cơ sở dữ liệu Một hệ thống cơ sở dữ liệu, cũng được gọi là một hệ thống quản lý cơ sở dữ liệu (DBMS), bao gồm một tập hợp các dữ liệu liên quan đến nhau, được biết đến như là một cơ sở dữ liệu, và một tập hợp các chương trình phần mềm để quản lý và truy cập dữ liệu. Các chương trình ph ần mềm cung cấp cơ chế để xác định cấu trúc cơ sở dữ liệu và lưu trữ dữ liệu; để xác định và quản lý đồng thời, chia sẻ, truy cập dữ liệu hoặc phân phối; và đảm bảo tính thống nhất và bảo mật của các thông tin được lưu trữ mặc dù sự cố hệ thống hoặc nỗ lực truy cập trái phép. Một cơ sở dữ liệu quan hệ là một tập hợp các bảng, mỗi trong số đó được gán một tên duy nhất. Mỗi bảng bao gồm một tập hợp các thuộc tính (cột hoặc các lĩnh 14 vực) và thường lưu trữ một lượng lớn các bộ dữ liệu (hồ sơ hoặc các hàng). Mỗi tuple trong một bảng quan hệ đại diện cho một đối tượng xác định bởi một khóa duy nhất và được mô tả bởi một tập hợp các giá trị thuộc tính. Một mô hình dữ liệu ngữ nghĩa, chẳng hạn như là một mô hình dữ liệu thực thể mối quan hệ (ER), thường được xây dựng cho cơ sở dữ liệu quan hệ. Một mô hình ER dữ liệu đại diện cho cơ sở dữ liệu là một tập hợp của các đơn vị và mối quan hệ của họ. Dữ liệu quan hệ có thể được truy cập bằng cách truy vấn cơ sở dữ liệu được viết bằng một ngôn ngữ truy vấn quan hệ (ví dụ, SQL) hoặc với sự hỗ trợ của giao diện người dùng đồ họa. Một câu hỏi được đưa ra là chuyển đổi thành một tập hợp các hoạt động quan hệ, chẳng hạn như tham gia, lựa chọn, và chiếu, và sau đó được tối ưu hóa cho xử lý hiệu quả. Một câu truy vấn cho phép thu hồi bộ phụ quy định của dữ liệu. Giả sử rằng công việc của bạn là để phân tích tất cả các dữ liệu của công ty AllElectronics. Thông qua việc sử dụng các truy vấn quan hệ, bạn có thể hỏi những câu như, "Cho tôi một danh sách của tất cả các vật phẩm đã đư ợc bán ra trong quý cuối cùng." Ngôn ngữ quan hệ cũng sử dụng chức năng tổng hợp như sum, avg (Trung bình), count, max (Lớn nhất), and min (Nhỏ nhất). Sử dụng cốt liệu cho phép bạn đặt câu hỏi: "Hãy cho tôi tổng doanh thu của các tháng trước, nhóm theo ngành", hay "Có bao nhiêu giao dịch bán hàng xảy ra trong tháng mười hai?" Hoặc "Những nhân viên bán hàng có doanh thu cao nhất?" Khi khai thác cơ sở dữ liệu quan hệ, chúng ta có thể đi xa hơn bằng cách tìm kiếm các xu hướng hoặc mô hình dữ liệu. Ví dụ, hệ thống khai phá dữ liệu có thể phân tích dữ liệu khách hàng để dự đoán rủi ro tín dụng của khách hàng mới dựa trên tuổi tác, và các thông tin tín dụng trước đây thu nhập của họ. Hệ thống khai phá dữ liệu cũng có th ể phát hiện sai lệch có nghĩa là, các mặt hàng có doanh số bán hàng cách xa những mong đợi so với năm trước. Sai lệch như vậy sau đó có thể được điều tra thêm. Ví dụ, khai phá dữ liệu có thể phát hiện ra rằng đã có một sự thay đổi trong bao bì của một sản phẩm hoặc một sự gia tăng đáng kể trong giá cả. Cơ sở dữ liệu quan hệ là một trong những kho thông tin phổ biến nhất hiện có và giàu có nhất, và do đó họ là một dạng dữ liệu quan trọng trong việc nghiên cứu khai phá dữ liệu. 1.3.2. Kho dữ liệu Giả sử rằng AllElectronics là một công ty quốc tế thành công với các chi 15 nhánh trên toàn thế giới. Mỗi chi nhánh đã thiết lập riêng của cơ sở dữ liệu. Chủ tịch AllElectronics đã yêu cầu bạn cung cấp một phân tích về doanh số bán hàng của công ty theo từng loại sản phẩm cho mỗi chi nhánh trong quý thứ ba. Đây là một nhiệm vụ khó khăn, đặc biệt là kể từ khi các dữ liệu liên quan được trải rộng trên nhiều cơ sở dữ liệu vật lý nằm ở nhiều trang web. Nếu AllElectronics đã có m ột kho dữ liệu, nhiệm vụ này sẽ được dễ dàng. Một kho dữ liệu là một kho lưu trữ các thông tin thu thập từ nhiều nguồn khác nhau, được lưu trữ trong một sơ đồ thống nhất, và thường cư trú tại một địa điểm duy nhất. Kho dữ liệu được xây dựng thông qua một quá trình làm sạch dữ liệu, tích hợp dữ liệu, chuyển đổi dữ liệu, tải dữ liệu, và dữ liệu làm mới. Hình 1.2 minh họa khuôn khổ điển hình đ ể xây dựng và sử dụng một kho dữ liệu cho AllElectronics. Để tạo thuận lợi cho việc ra quyết định, dữ liệu trong một kho dữ liệu được tổ chức xung quanh đối tượng chính (ví dụ, khách hàng, sản phẩm, nhà cung cấp, và hoạt động). Các dữ liệu được lưu trữ thông tin để xem xét từ góc độ lịch sử, chẳng hạn như trong 6-12 tháng qua, và thường được tóm tắt. Ví dụ, thay vì lưu trữ các chi tiết của mỗi giao dịch bán ra, những kho dữ liệu có thể lưu trữ một bản tóm tắt của các giao dịch cho mỗi loại sản phẩm cho mỗi cửa hàng, hoặc tóm tắt đến một cấp độ cao hơn, cho từng khu vực bán hàng. Hình 1.2. Kiến trúc kho dữ liệu điển hình cho công ty AllElectronics Một kho dữ liệu thường được mô hình hóa bởi một cấu trúc dữ liệu đa chiều, được gọi là một khối dữ liệu, trong đó mỗi chiều tương ứng với một thuộc tính hoặc một tập hợp các thuộc tính trong lược đồ, và mỗi tế bào lưu trữ các giá trị của một số biện pháp tổng hợp như số lượng hoặc tổng hợp (số tiền bán hàng). Một khối dữ liệu cung cấp một cái nhìn đa chiều của dữ liệu và cho phép tính toán trước và truy cập nhanh đến số liệu tóm tắt 16 Bằng cách cung cấp quan điểm dữ liệu đa chiều và tính toán trước các dữ liệu tóm tắt, hệ thống kho dữ liệu có thể cung cấp hỗ trợ cho OLAP. OLAP sử dụng các kiến thức cơ bản về lĩnh v ực dữ liệu đang được nghiên cứu để cho phép trình bày các dữ liệu ở mức độ trừu tượng khác nhau. Các hoạt động này phù hợp quan điểm người dùng khác nhau. Ví dụ về các hoạt động OLAP bao gồm khoan xuống và cuộn lên, trong đó cho phép người dùng xem các dữ liệu ở mức độ tổng hợp khác nhau. Ví dụ, chúng ta có thể đi sâu vào dữ liệu bán hàng tóm tắt quý để xem dữ liệu tổng hợp theo tháng. Đơn giản, chúng ta có thể cuộn lên trên dữ liệu bán hàng tóm tắt của thành phố để xem dữ liệu tổng hợp theo quốc gia. Mặc dù các công cụ kho dữ liệu giúp phân tích dữ liệu hỗ trợ, bổ sung cho các công cụ khai phá dữ liệu thường cần thiết cho phân tích sâu. Khai phá dữ liệu đa chiều (còn gọi là thăm dò khai phá dữ liệu đa chiều) thực hiện khai phá dữ liệu trong không gian đa chiều theo kiểu OLAP. Nghĩa là, nó cho phép thăm dò c ủa nhiều sự kết hợp của kích thước ở mức độ chi tiết khác nhau trong khai phá dữ liệu, và do đó có tiềm năng lớn để phát hiện các mô hình thú vị đại diện cho tri thức. 1.3.3. Dữ liệu giao dịch Nói chung, mỗi bản ghi trong cơ sở dữ liệu giao dịch nắm bắt một giao dịch, chẳng hạn như mua hàng của khách hàng, một đặt vé máy bay, hoặc nhấp chuột của người dùng trên một trang web. Một giao dịch thường bao gồm một số duy nhất nhận dạng giao dịch (ID trans) và một danh sách các mục tạo thành giao dịch, chẳng hạn như mua các sản phẩm trong giao dịch. Là một nhà phân tích của AllElectronics, bạn có thể hỏi: "Những mặt hàng được bán tốt với nhau?" Kiểu này phân tích dữ liệu giỏ thị trường sẽ cho phép bạn gom các nhóm mặt hàng với nhau như một chiến lược để thúc đẩy bán hàng. Một hệ thống cơ sở dữ liệu truyền thống là không thể thực hiện phân tích dữ liệu giỏ thị trường. May mắn thay, khai phá dữ liệu về dữ liệu giao dịch có thể làm như vậy bằng cách khai thác tập phổ biến, đó là, bộ mặt hàng thường xuyên được bán với nhau. 1.3.4. Các loại dữ liệu khác Bên cạnh dữ liệu cơ sở dữ liệu quan hệ, dữ liệu kho dữ liệu, và dữ liệu giao dịch, có rất nhiều các loại dữ liệu mà có các thể hiện linh hoạt , các cấu trúc và ý nghĩa ngữ nghĩa khá khác nhau. Các loại như dữ liệu có thể được nhìn thấy trong nhiều ứng dụng: dữ liệu thời gian có liên quan hoặc liên tục (ví dụ, tài liệu lịch sử, 17 chứng khoán trao đổi dữ liệu, và chuỗi thời gian và dữ liệu trình tự sinh học), luồng dữ liệu (ví dụ như dữ liệu, giám sát video và cảm biến, đó là liên tục truyền), dữ liệu không gian (ví dụ, bản đồ), dữ liệu thiết kế kỹ thuật (ví dụ, thiết kế của các tòa nhà, các thành phần hệ thống, hoặc các mạch tích hợp), siêu văn bản và đa phương tiện dữ liệu (bao gồm cả văn bản, hình ảnh, video và dữ liệu âm thanh), đồ thị và dữ liệu mạng (ví dụ, các mạng thông tin xã hội), và trên Web (một kho lưu trữ khổng lồ phân bố rộng rãi thông tin được cung cấp bởi Internet). Các ứng dụng này mang lại những thách thức mới, như làm thế nào để xử lý các dữ liệu mang cấu trúc đặc biệt (ví dụ, trình tự, cây, đồ thị, và các mạng lưới) và ngữ nghĩa cụ thể (chẳng hạn như nội dung đặt hàng, hình ảnh, âm thanh và video, và kết nối), và làm thế nào để khai thác mô hình mang cấu trúc phong phú và ngữ nghĩa. Các loại tri thức có thể được khai thác từ các loại dữ liệu. Ở đây, luận văn chỉ liệt kê một vài dạng dữ liệu. Về dữ liệu tạm thời, ví dụ, chúng ta có thể khai phá dữ liệu ngân hàng cho xu hướng thay đổi, có thể hỗ trợ trong việc lập lịch trình của giao dịch viên ngân hàng theo khối lượng lưu lượng truy cập của khách hàng. Chứng khoán dữ liệu có thể được khai thác để phát hiện ra các xu hướng có thể giúp bạn lập kế hoạch chiến lược đầu tư (ví dụ, thời gian tốt nhất để mua cổ phiếu AllElectronics). Chúng ta có thể khai thác mạng máy tính luồng dữ liệu để phát hiện xâm nhập dựa trên sự bất thường của dòng tin nhắn, có thể được phát hiện bằng cách phân nhóm, xây dựng năng động của các mô hình dòng hoặc bằng cách so sánh các mô hình thư ờng xuyên hiện tại với những người có một thời gian trước đó. Với dữ liệu không gian, chúng ta có thể tìm kiếm các mẫu mô tả những thay đổi trong tỷ lệ nghèo đô thị dựa trên khoảng cách thành phố từ đường cao tốc chính. Các mối quan hệ giữa một tập hợp các đối tượng không gian có thể được kiểm tra để phát hiện mà các tập con của các đối tượng được tự động theo không gian tương quan hoặc liên quan.. Bằng cách khai phá dữ liệu văn bản, chẳng hạn như tài liệu về khai phá dữ liệu từ mười năm qua, chúng ta có thể xác định sự phát triển của chủ đề nóng trong lĩnh vực này. Bằng cách khai thác ý kiến người sử dụng trên sản phẩm (thường được gửi dưới dạng tin nhắn văn bản ngắn), chúng ta có thể đánh giá tình cảm của khách hàng và hiểu như thế nào là một sản phẩm được chấp nhận bởi thị trường. Từ dữ liệu đa phương tiện, chúng ta có thể khai thác hình ảnh để xác định các đối tượng và phân loại chúng bằng cách gán nhãn ngữ nghĩa hoặc các đuôi. Khai thác web có thể giúp chúng ta tìm hiểu về việc phân phối các thông tin về các cá nhân nói chung, mô tả và phân loại các trang web, và phát hiện ra động lực web và hiệp hội và các 18
- Xem thêm -