Đăng ký Đăng nhập
Trang chủ Phân tích thành phần chính phục vụ xử lý dữ liệu đào tạo...

Tài liệu Phân tích thành phần chính phục vụ xử lý dữ liệu đào tạo

.PDF
65
156
110

Mô tả:

http://www.ictu.edu.vn 1 MỤC LỤC MỤC LỤC .........................................................................................................................1 LỜI CAM ĐOAN .............................................................. Error! Bookmark not defined. LỜI CẢM ƠN .................................................................... Error! Bookmark not defined. DANH MỤC TỪ VIẾT TẮT .............................................................................................3 DANH MỤC HÌNH BẢNG ...............................................................................................4 MỞ ĐẦU ...........................................................................................................................5 CHƯƠNG 1. TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU.....................................................7 1.1 Khai phá dữ liệu ...................................................................................................... 7 1.1.1 Hình thành và định nghĩa bài toán..................................................................... 8 1.1.2 Thu thập và tiền xử lý dữ liệu............................................................................ 8 1.1.3 Khai phá dữ liệu và rút ra các tri thức................................................................ 9 1.1.4 Phân tích và kiểm định kết quả........................................................................ 10 1.1.5. Sử dụng các tri thức phát hiện được ............................................................... 10 1. 2 Quá trình khai phá dữ liệu..................................................................................... 11 1.3 Các phương pháp khai phá dữ liệu ......................................................................... 14 1.3.1. Phân lớp dữ liệu ............................................................................................. 14 1.3.2. Phân cụm dữ liệu ........................................................................................... 14 1.3.3 Khai phá luật kết hợp ...................................................................................... 15 1.3.4 Hồi quy........................................................................................................... 15 1.3.5 Giải thuật di truyền ......................................................................................... 15 1.3.6 Mạng nơron .................................................................................................... 15 1.3.7 Cây quyết định................................................................................................ 16 1.4 Nhu cầu khai phá dữ liệu ....................................................................................... 17 1.5. Kết luận................................................................................................................ 17 CHƯƠNG 2. MỘT SỐ PHƯƠNG PHÁP XỬ LÝ DỮ LIỆU NHỜ THỐNG KÊ..............18 2.1 Phương pháp thống kê toán học ............................................................................. 18 2.1.1 Biến ngẫu nhiên .............................................................................................. 18 2.1.2 Các ví dụ......................................................................................................... 19 2.1.3 Các số đặc trưng ............................................................................................. 20 2.2. Khai phá dữ liệu với phương pháp thống kê .......................................................... 21 2.3. Tri thức nền tảng................................................................................................... 22 2.3.1. Các phương pháp quan tâm ............................................................................ 23 2.3.2. Trình diễn và trực quan của các mẫu được khai phá ....................................... 23 http://www.ictu.edu.vn 2 2.4. Dữ liệu liên quan tới nhiệm vụ.............................................................................. 23 2.4.1. Dữ liệu thích hợp với nhiệm vụ ...................................................................... 23 2.4.2. Kiểu tri thức được khai phá ............................................................................ 24 2.4.3. Kiến thức nền tảng ......................................................................................... 24 2.4.4. Các phép đo sự hấp dẫn của mẫu.................................................................... 24 2.4.5. Hình ảnh hóa của các mẫu được khai phá ....................................................... 24 2.5. Các loại tri thức được khai phá ............................................................................. 26 2.5.1. Phân cấp khái niệm ........................................................................................ 27 2.5.2. Phân cấp lược đồ............................................................................................ 30 2.5.3. Phân cấp theo nhóm ....................................................................................... 30 2.5.4. Phân cấp theo thao tác.................................................................................... 31 2.5.5. Phân cấp theo luật .......................................................................................... 32 2.5.6. Độ đo về tiêu chí quan tâm............................................................................. 32 2.6. Thể hiện và trực quan của các mẫu được phát hiện................................................ 36 2.7. Phân tích thành phần chính ................................................................................... 38 2.8. Kết luận................................................................................................................ 43 CHƯƠNG 3. KHAI PHÁ DỮ LIỆU TẠI TRUNG TÂM ................................................. 44 3.1. Về cơ sở đào tạo ................................................................................................... 44 3.2. Công cụ OLAP ..................................................................................................... 47 3.2.1 Về OLAP ........................................................................................................ 47 3.2.2. Mô hình dữ liệu đa chiều................................................................................ 47 3.2.3 Giới thiệu dịch vụ OLAP của Microsoft SQL Server....................................... 50 3.2.4 So sánh OLAP với OLTP................................................................................ 51 3.2.5 Các mô hình lưu trữ hỗ trợ OLAP ................................................................... 52 3.2.6.Kiến trúc khối của OLAP................................................................................ 56 3.2.7. Mô hình kiến trúc dịch vụ OLAP ................................................................... 57 3.3. Dữ liệu về đào tạo................................................................................................. 60 3.3.1. Dữ liệu........................................................................................................... 60 3.3.2. Khai phá dữ liệu............................................................................................. 61 3.4. Kết luận................................................................................................................ 62 KẾT LUẬN...................................................................................................................... 63 Một số vấn đề đã giải quyết ..................................................................................... 63 Phương hướng tiếp tục nghiên cứu........................................................................... 64 TÀI LIỆU THAM KHẢO ................................................................................................ 65 http://www.ictu.edu.vn 3 DANH MỤC TỪ VIẾT TẮT ADO Microsoft ActiveX Data Objects API Giao diện cổng chung City Thành phố CNTT Công nghệ Thông tin Country Vùng CSDL Cơ sở dữ liệu IT Công nghệ Thông tin ITEM Mặt hàng KDD Khai phá tri thức MOLAP OLAP nhiều chiều OLAP Xử lí phân tích dữ liệu trực tuyến OLTP Phân tích trực tuyến PCA Phân tích thành phần chính Province Tỉnh ROLAP OLAP quan hệ SERVER Máy chủ State Bang SV Sinh viên TV Vô tuyến truyền hình URL Vị trí tài nguyên Internet VCR Đầu đọc băng video Web Trang tin WWW World Wide Web http://www.ictu.edu.vn 4 DANH MỤC HÌNH BẢNG Hình 1.1 . Khai phá dữ liệu...................................................................................... 7 Hình 1.2. Xử lí dữ liệu............................................................................................. 9 Hình 1.3. Tri thức.................................................................................................. 10 Hình 1.4. Quá trình khai phá dữ liệu...................................................................... 12 Hình 1.5. Kiến trúc hệ thống khai phá dữ liệu........................................................ 13 Hình 1.6. Phân lớp dữ liệu ..................................................................................... 14 Hình 1.7. Phân cụm dữ liệu ................................................................................... 14 Hình 1.8. Mạng Nơron........................................................................................... 16 Hình 1.9. Cây quyết định....................................................................................... 16 Hình 2.1 . Dữ liệu liên quan đến nhiệm vụ............................................................. 22 Hình 2.2 . Thí dụ về phân phối hàng...................................................................... 28 Hình 2.3. Các mẫu thể hiện.................................................................................... 37 Hình 2.4. Dữ liệu thí dụ cho PCA.......................................................................... 40 Hình 2.5. Đường dữ liệu chuẩn hoá (đã trừ trung bình).......................................... 42 Hình 3.1. Trang tin của Trung tâm......................................................................... 45 Hình 3.2. Kế hoạch dạy và học của Trung tâm....................................................... 46 Hình 3.3. Địa bàn tổ chức đào tạo của Trung tâm .................................................. 46 Hình 3.4. Mô phỏng các chiều trong kinh doanh.................................................... 48 Hình 3.5. Kiến trúc OLAP..................................................................................... 50 Hình 3.6. Mô hình dữ liệu MOLAP ....................................................................... 52 Hinh 3.7 Mô hình dữ liệu ROLAP......................................................................... 54 Hình 3.8. Mô hình dữ liệu HOLAP........................................................................ 55 Hình 3.9. Kiến trúc dịch vụ OLAP ........................................................................ 58 Hình 3.10. Kiến trúc thành phần Server ................................................................. 58 Hình 3.11. Kiến trúc thành phần Khách ................................................................. 59 Hình 3.12. Dữ liệu gốc .......................................................................................... 61 Hình 3.13. Thí dụ sử dụng OLAP với bảng xoay ................................................... 61 Hình 3.14. Thí dụ sử dụng nhiều tham số cột xoay ................................................ 62 http://www.ictu.edu.vn 5 MỞ ĐẦU Ngày nay, xã hội con người thực hiện cuộc cách mạng về thông tin. Tri thức được đánh giá như là quyền lực và tiền bạc. Xã hội cũng dần chuyển sang xã hội tri thức, tức các sản phẩm quốc dân có hàm lượng tri thức cao. Công nghệ thông tin đáp ứng nhu cầu xử lý dữ liệu và tri thức. Bên cạnh công nghệ phần mềm là công nghệ tri thức. Công nghệ tri thức được nghiên cứu nhằm tích lũy tri thức của chuyên gia, làm máy tính thực hiện những chức năng thông minh như người, đồng thời làm con người cũng tự nâng cao bản thân. Cuộc cách mạng thông tin kỹ thuật số đã đem lại những thay đổi sâu sắc trong xã hội và trong cuộc sống của chúng ta. Những thuận lợi mà thông tin kỹ thuật số mang lại cũng sinh ra những thách thức và cơ hội mới cho quá trình đổi mới. Mạng Internet toàn cầu đã biến thành một xã hội ảo nơi diễn ra quá trình trao đổi thông tin trong mọi lĩnh vực chính trị, quân sự, quốc phòng, kinh tế, thương mại…Trong hệ thống đào tạo Đại học và sau Đại học về Công nghệ thông tin, các chủ đề về Trí tuệ nhân tạo, hệ chuyên gia, dịch tự động…đều liên quan đến tri thức. Nhiều ứng dụng về Công nghệ thông tin đã và đang sử dụng tri thức như dữ liệu Meta, điều khiển quá trình xử lý dữ liệu. Hiện nay trong nhiều cơ sở đào tạo có nhiều phần mềm cho phép xử lý dữ liệu. Những dữ liệu liên quan đến công tác đào tạo gồm: Các kết quả dạy và học, những học liệu điện tử, các giáo trình số hóa…ngày càng nhiều, cần được xử lý một cách khoa học. Vấn đề khai phá các dữ liệu có áp dụng công nghệ ngày càng được sử dụng nhiều hơn trên nhiều lĩnh vực và ngay cả trong lĩnh vực giáo dục. Chính vì vậy, tôi chọn đề tài: “Phân tích thành phần chính phục vụ xử lý dữ liệu đào tạo”. Vấn đề nghiên cứu và ứng dụng thuộc phạm vi mã ngành Khoa học máy tính, mã số 60.48.01 về khai phá dữ liệu. Trong phạm vi nghiên cứu này tôi xin trình bày các nội dung sau: http://www.ictu.edu.vn 6  Chương 1: Tổng quan về kĩ thuật khai phá dữ liệu Chương này đề cập đến kĩ thuật khai phá dữ liệu, các phương pháp khai phá dữ liệu và nhu cầu của khai phá dữ liệu.  Chương 2: Một số phương pháp xử lí dữ liệu nhờ thống kê Chương này trình bày các phương pháp thống kê, các thành phần đặc trưng của dữ liệu và cách chọn, phân tích và đánh giá thành phần dữ liệu chính.  Chương 3: Phân tích dữ liệu phục vụ công tác đào tạo Chương này xây dựng, phân tích thiết kế và mô phỏng chương trình thử nghiệm. Kết luận sẽ là đánh giá kết quả đạt được và các vấn đề tồn tại cần khắc phục tiếp. Phần cuối luận văn là danh sách các tài liệu tham khảo, sử dụng trong quá trình chuẩn bị luận văn. http://www.ictu.edu.vn 7 CHƯƠNG 1. TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1 Khai phá dữ liệu Việc dùng các phương tiện tin học để tổ chức và khai thác các CSDL đã được phát triển từ những năm 60, nhiều CSDL đã được tổ chức, phát triển và khai thác ở mọi qui mô và khắp các lĩnh vực hoạt động của xã hội. Với sự phát triển mạnh mẽ của máy tính và các mạng viễn thông, người ta đã xây dựng được nhiều hệ CSDL lớn tập trung hoặc phân tán, nhiều hệ quản trị CSDL mạnh với các công cụ phong phú và thuận tiện giúp con người khai thác có hiệu quả các nguồn tài nguyên dữ liệu trong các hoạt động kinh tế xã hội. Sự phát triển nhanh chóng của một lượng lớn dữ liệu được thu thập và lưu trữ trong các CSDL lớn đã vượt ra ngoài khả năng của con người có thể hiểu được chúng nếu không có những công cụ hỗ trợ tốt. Kết quả là, dữ liệu thu thập được trong một lượng lớn CSDL đã trở thành những đống dữ liệu mà ít khi được xem xét đến. Do vậy, việc đưa ra những quyết định thường không dựa vào những thông tin hoặc dữ liệu thu thập được mà chỉ dựa vào nhận thức, suy đoán của người đưa ra quyết định. Đơn giản là vì họ không có những công cụ giúp cho việc lấy ra những tri thức từ lượng lớn dữ liệu. Tình huống này đã đặt chúng ta trong hoàn cảnh nhiều dữ liệu nhưng thiếu thông tin, thiếu tri thức. Với một khối lượng lớn dữ liệu như vậy rõ ràng là các phương pháp thủ công truyền thống áp dụng để phân tích dữ liệu như chia bảng không còn là phù hợp nữa Chính vì vậy, có một kỹ thuật mới ra đời đó là “Khai phá dữ liệu”. Hình 1.1 . Khai phá dữ liệu http://www.ictu.edu.vn 8 Khai phá dữ liệu là một ngữ tương đối mới, nó ra đời vào khoảng những năm cuối của của thập kỷ 1980. Có rất nhiều định nghĩa khác nhau về khai phá dữ liệu. Giáo sư Tom Mitchell đã đưa ra định nghĩa của khai phá dữ liệu như sau: “Khai phá dữ liệu là việc sử dụng dữ liệu lịch sử để khám phá những qui tắc và cải thiện những quyết định trong tương lai.”. Với một cách tiếp cận ứng dụng hơn, tiến sĩ Fayyad đã phát biểu: ”Khai phá dữ liệu thường được xem là việc khám phá tri thức trong các cơ sở dữ liệu, là một quá trình trích xuất những thông tin ẩn, trước đây chưa biết và có khả năng hữu ích, dưới dạng các quy luật, ràng buộc, qui tắc trong cơ sở dữ liệu.”. Còn các nhà thống kê thì xem " khai phá dữ liệu như là một quá trình phân tích được thiết kế thăm dò một lượng cực lớn các dữ liệu nhằm phát hiện ra các mẫu thích hợp và / hoặc các mối quan hệ mang tính hệ thống giữa các biến và sau đó sẽ hợp thức hoá các kết quả tìm được bằng cách áp dụng các mẫu đã phát hiện được cho tập con mới của dữ liệu". Nói tóm lại: khai phá dữ liệu là một bước trong quy trình phát hiện tri thức gồm có các thụât toán khai thác dữ liệu chuyên dùng dưới một số quy định về hiệu quả tính toán chấp nhận được để tìm ra các mẫu hoặc các mô hình trong dữ liệu. Phát hiện tri thức trong các cơ sở dữ liệu là một qui trình nhận biết các mẫu hoặc các mô hình trong dữ liệu với các tính năng: hợp thức, mới, khả ích, và có thể hiểu được. 1.1.1 Hình thành và định nghĩa bài toán Đây là bước tìm hiểu lĩnh vực ứng dụng và hình thành bài toán, bước này sẽ quyết định cho việc rút ra những tri thức hữu ích, đồng thời lựa chọn các phương pháp khai phá dữ liệu thích hợp với mục đích của ứng dụng và bản chất của dữ liệu. 1.1.2 Thu thập và tiền xử lý dữ liệu Trong bước này dữ liệu được thu thập ở dạng thô (nguồn dữ liệu thu thập có thể là từ các kho dữ liệu hay nguồn thông tin Internet). Trong giai đoạn này dữ liệu cũng được tiền xử lý để biến đổi và cải thiện chất lượng dữ liệu cho phù hợp với phương pháp khai phá dữ liệu được chọn lựa trong bước trên. http://www.ictu.edu.vn 9 Hình 1.2. Xử lí dữ liệu Bước này thường chiếm nhiều thời gian nhất trong quá trình khám phá tri thức. Các giải thuật tiền xử lý dữ liệu bao gồm :  Xử lý dữ liệu bị mất/ thiếu: Các dạng dữ liệu bị thiếu sẽ được thay thế bởi các giá trị thích hợp.  Khử sự trùng lắp: các đối tượng dữ liệu trùng lắp sẽ bị loại bỏ đi. Kỹ thuật này không được sử dụng cho các tác vụ có quan tâm đến phân bố dữ liệu.  Giảm nhiễu: nhiễu và các đối tượng tách rời khỏi phân bố chung sẽ bị loại đi khỏi dữ liệu.  Chuẩn hoá: miền giá trị của dữ liệu sẽ được chuẩn hoá.  Rời rạc hoá: các dạng dữ liệu số sẽ được biến đổi ra các giá trị rời rạc.  Rút trích và xây dựng đặc trưng mới từ các thuộc tính đã có.  Giảm chiều: các thuộc tính chứa ít thông tin sẽ được loại bỏ bớt. 1.1.3 Khai phá dữ liệu và rút ra các tri thức Đây là bước quan trọng nhất trong tiến trình khám phá tri thức. Kết quả của bước này là trích ra được các mẫu và/hoặc các mô hình ẩn dưới các dữ liệu. Một mô hình có thể là một biểu diễn cấu trúc tổng thể một thành phần của hệ thống hay cả http://www.ictu.edu.vn 10 hệ thống trong cơ sở dữ liệu, hay miêu tả cách dữ liệu được nảy sinh. Còn một mẫu là một cấu trúc cục bộ có liên quan đến vài biến và vài trường hợp trong cơ sở dữ liệu. 1.1.4 Phân tích và kiểm định kết quả Bước thứ tư là hiểu các tri thức đã tìm được, đặc biệt là làm sáng tỏ các mô tả và dự đoán. Trong bước này, kết quả tìm được sẽ được biến đổi sang dạng phù hợp với lĩnh vực ứng dụng và dễ hiểu hơn cho người dùng. Hình 1.3. Tri thức 1.1.5. Sử dụng các tri thức phát hiện được Trong bước này, các tri thức khám phá được sẽ được củng cố, kết hợp lại thành một hệ thống, đồng thời giải quyết các xung đột tiềm năng trong các tri thức đó. Các mô hình rút ra được đưa vào những hệ thống thông tin thực tế dưới dạng các modul hỗ trợ việc đưa ra quyết định. Các giai đoạn của quá trình khám phá tri thức có mối quan hệ chặt chẽ với nhau trong bối cảnh chung của hệ thống. Các kỹ thuật được sử dụng trong giai đoạn trước có thể ảnh hưởng đến hiệu quả của các giải thuật được sử dụng trong các giai đoạn tiếp theo. Các bước của quá trình khám http://www.ictu.edu.vn 11 phá tri thức có thể được lặp đi lặp lại một số lần, kết quả thu được có thể được lấy trung bình trên tất cả các lần thực hiện. 1. 2 Quá trình khai phá dữ liệu Khai phá dữ liệu là hoạt động trọng tâm của quá trình khám phá tri thức. Thuật ngữ khai phá dữ liệu còn được một số nhà khoa học gọi là phát hiện tri thức trong cơ sở dữ liệu. Quá trình khai phá dữ liệu bắt đầu với kho dữ liệu thô và kết thúc với tri thức được chiết xuất ra. Nội dung của quá trình như sau: 1. Gom dữ liệu : Tập hợp dữ liệu là bước đầu tiên trong khai phá dữ liệu. Bước này lấy dữ liệu từ trong một cơ sở dữ liệu, một kho dữ liệu, thậm chí dữ liệu từ những nguồn cung ứng web. 2. Trích lọc dữ liệu : Ở giai đoạn này dữ liệu được lựa chọn và phân chia theo một số tiêu chuẩn nào đó. 3. Làm sạch và tiền xử lý dữ liệu : Giai đoạn thứ ba này là giai đoạn hay bị sao nhãng, nhưng thực tế nó là một bước rất quan trọng trong quá trình khai phá dữ liệu. Một số lỗi thường mắc phải trong khi gom dữ liệu là dữ liệu không đầy đủ hoặc không thống nhất, thiếu chặt chẽ. Vì vậy dữ liệu thường chứa các giá trị vô nghĩa và không có khả năng kết nối dữ liệu. Ví dụ Sinh viên có tuổi = 200. Giai đoạn thứ ba này nhằm xử lý các dữ liệu như trên (dữ liệu vô nghĩa, dữ liệu không có khả năng kết nối). Những dữ liệu dạng này thường được xem là thông tin dư thừa, không có giá trị. Bởi vậy đây là một quá trình rất quan trọng. Nếu dữ liệu không được làm sạch- tiền xử lý - chuẩn bị trước thì sẽ gây nên những kết quả sai lệch nghiêm trọng về sau. http://www.ictu.edu.vn 12 Hình 1.4. Quá trình khai phá dữ liệu 4. Chuyển đổi dữ liệu : Trong giai đoạn này, dữ liệu có thể được tổ chức và sử dụng lại. Mục đích của việc chuyển đổi dữ liệu là làm cho dữ liệu phù hợp hơn với mục đích khai phá dữ liệu. 5. Phát hiện và trích mẫu dữ liệu : Đây là bước tư duy trong khai phá dữ liệu. Ở trong giai đoạn này nhiều thuật toán khác nhau đã được sử dụng để trích ra các mẫu từ dữ liệu. Thuật toán thường dùng để trích mẫu dữ liệu là thuật toán phân loại dữ liệu, kết hợp dữ liệu, thuật toán mô hình hoá dữ liệu tuần tự. 6. Đánh giá kết quả mẫu : đây là giai đoạn cuối cùng trong quá trình khai phá dữ liệu, ở giai đoạn này các mẫu dữ liệu được chiết xuất ra bởi phần mềm khai phá dữ liệu. Không phải mẫu dữ liệu nào cũng hữu ích, đôi khi nó còn bị sai lệch. Vì vậy cần phải đưa ra những tiêu chuẩn đánh giá độ ưu tiên cho các mẫu dữ liệu để rút ra được những tri thức cần thiêt. http://www.ictu.edu.vn 13 Hình 1.5. Kiến trúc hệ thống khai phá dữ liệu Kiến trúc của hệ thống khai phá dữ liệu có thể chia thành các thành phần chính như trong hình.  Kho dữ liệu: là một tập các cơ sở dữ liệu, các công cụ làm sạch dữ liệu và tích hợp dữ liệu có thể thực hiện trên chúng.  Cơ sở tri thức: là yếu tố tri thức được dùng để đánh giá các mẫu kết quả khai phá được.  Kỹ thuật khai phá: là các công cụ để thực hiện các nhiệm vụ: mô tả, kết hợp, phân lớp, phân nhóm dữ liệu.  Công cụ đánh giá mẫu: gồm một số modul sử dụng các độ đo và tương tác với các modul khai phá dữ liệu để tập trung vào các thuộc tính cần quan tâm.  Biểu diễn dạng đồ hoạ: modul này giao tiếp giữa người dùng và hệ thống khai phá dữ liệu. http://www.ictu.edu.vn 14 1.3 Các phương pháp khai phá dữ liệu 1.3.1. Phân lớp dữ liệu Mục tiêu của phân lớp dữ liệu đó là dự đoán nhãn lớp cho các mẫu dữ liệu. Quá trình gồm hai bước: xây dựng mô hình, sử dụng mô hình để phân lớp dữ liệu (mỗi mẫu một lớp). Mô hình được sử dụng để dự đoán nhãn lớp khi mà độ chính xác của mô hình chấp nhận được. Hình 1.6. Phân lớp dữ liệu 1.3.2. Phân cụm dữ liệu Mục tiêu của phân cụm dữ liệu là nhóm các đối tượng tương tự nhau trong tập dữ liệu vào các cum, sao cho các đối tượng thuộc cùng một lớp là tương đồng. Hình 1.7. Phân cụm dữ liệu http://www.ictu.edu.vn 15 1.3.3 Khai phá luật kết hợp Mục tiêu của phương pháp này là phát hiện và đưa ra các mối liên hệ giữa các giá trị dữ liệu trong cơ sở dữ liệu. Đầu ra của giải thuật luật kết hợp là tập luật kết hợp tìm được. Phương pháp khai phá luật kết hợp gồm có hai bước: 1. Bước 1: Tìm ra tất cả các tập mục phổ biến. Một tập mục phổ biến được xác định thông qua tính độ hỗ trợ và thoả mãn độ hỗ trợ cực tiểu. 2. Bước 2: Sinh ra các luật kết hợp mạnh từ tập mục phổ biến, các luật phải thoả mãn độ hỗ trợ và độ tin cậy cực tiểu. 1.3.4 Hồi quy Phương pháp hồi quy tương tự như là phân lớp dữ liệu. Nhưng khác ở chỗ nó dùng để dự đoán các giá trị liên tục còn phân lớp dữ liệu dùng để dự đoán các giá trị rời rạc. 1.3.5 Giải thuật di truyền Là quá trình mô phỏng theo tiến hoá của tự nhiên. Ý tưởng chính của giải thuật là dựa vào quy luật di truyền trong biến đổi, chọn lọc tự nhiên và tiến hoá trong sinh học. 1.3.6 Mạng nơron Đây là một trong những kỹ thuật khai phá dữ liệu được ứng dụng phổ biến hiện nay. Kỹ thuật này phát triển dựa trên một nền tảng toán học vững vàng, khả năng huấn luyện trong kỹ thuật này dựa trên mô hình thần kinh trung ương của con người. Kết quả mà mạng nơron học được có khả năng tạo ra các mô hình dự báo, dự đoán với độ chính xác và độ tin cậy cao. Nó có khả năng phát hiện ra được các xu hướng phức tạp mà kỹ thuật thông thường khác khó có thể phát hiện ra được. Tuy nhiên phương pháp mạng nơ ron rất phức tạp và quá trình tiến hành nó gặp rất nhiều khó khăn: đòi hỏi mất nhiều thời gian, nhiều dữ liệu, nhiều lần kiểm tra thử nghiệm. http://www.ictu.edu.vn 16 Hình 1.8. Mạng Nơron 1.3.7 Cây quyết định Kỹ thuật cây quyết định là một công cụ mạnh và hiệu quả trong việc phân lớp và dự báo. Các đối tượng dữ liệu được phân thành các lớp. Các giá trị của đối tượng dữ liệu chưa biết sẽ được dự đoán, dự báo. Tri thức được rút ra trong kỹ thuật này thường được mô tả dưới dạng tường minh, đơn giản, trực quan, dễ hiểu đối với người sử dụng. Hình 1.9. Cây quyết định http://www.ictu.edu.vn 17 1.4 Nhu cầu khai phá dữ liệu Hiện nay nhu cầu khai phá thông tin từ các cơ sở dữ liệu lớn ngày càng nhiều. Phát hiện tri thức và khai phá dữ liệu được ứng dụng trong nhiều ngành và lĩnh vực khác nhau như: tài chính ngân hàng, thương mại, y tế, giáo dục, thống kê, máy học, trí tuệ nhân tạo, cơ sở dữ liệu, thuật toán toán học, tính toán song song với tốc độ cao, thu thập cơ sở tri thức cho hệ chuyên gia,… Chính từ nhu cầu khai phá dữ liệu mạnh mẽ trong nhiều lĩnh vực đời sống xã hội đã tạo ra các phương pháp khai phá dữ liệu linh động, uyển chuyển để xử lý số lượng dữ liệu lớn một cách hiệu quả. Tạo ra tương tác người sử dụng tốt, giúp người sử dụng tham gia điều khiển quá trình khai phá dữ liệu, định hướng hệ thống khai phá dữ liệu trong việc phát hiện các mẫu đáng quan tâm. Tích hợp khai phá dữ liệu vào trong các hệ cơ sở dữ liệu. Ứng dụng khai phá dữ liệu để khai phá dữ liệu web trực tuyến. Một vấn đề quan trọng trong việc phát triển khám phá tri thức và khai phá dữ liệu đó là vấn đề an toàn và bảo mật thông tin trong khai phá dữ liệu. 1.5. Kết luận Chương đầu đã trình bày một số phương pháp khai phá dữ liệu, một số kĩ thuật đã sử dụng trong nhiều ngành để chỉ ra tri thức hay dữ liệu mới. Khai phá dữ liệu có nhu cầu trong công tác xử lí dữ liệu, cũng như trong công tác quản lý nói chung. Việc sử dụng các phương pháp khai phá dữ liệu có ý nghĩa trong quản lý đào tạo, đặc biệt cho Trung tâm đào tạo tại tỉnh miền núi của đất nước. http://www.ictu.edu.vn 18 CHƯƠNG 2. MỘT SỐ PHƯƠNG PHÁP XỬ LÝ DỮ LIỆU NHỜ THỐNG KÊ 2.1 Phương pháp thống kê toán học Trong thống kê toán học chủ yếu tìm hiểu về một số phương pháp thống kê cơ bản như: Biến (mẫu) ngẫu nhiên và các số đặc trưng, ước lượng tham số, kiểm định giả thiết, phân tích phương sai và phân tích hồi quy... 2.1.1 Biến ngẫu nhiên Biến ngẫu nhiên (thực) là biến nhận giá trị là các số thực phụ thuộc vào kết quả của các phép thử ngẫu nhiên. Ta thường dùng các chữ cái in hoa X, Y, Z … để chỉ các biến ngẫu nhiên và các chữ cái thường x,y,z…hoặc xi, yj…để chỉ các giá trị ngẫu nhiên mà các biến đó nhận.  Ví dụ 1: Tung đồng thời hai con xúc xắc. Gọi X là tổng số chấm ở hai mặt trên, X là biến ngẫu nhiên có thể nhận giá trị từ 2 đến 12.  Ví dụ 2: Một người nhắm bắn vào bia cho tới khi nào trúng bia thì ngừng, Gọi Y là số đạn cần dùng. Y là một biến ngẫu nhiên nhận các giá trị từ 1,2,..,n…  Ví dụ 3: Thắp sáng liên tục một bóng đèn điện cho tới khi dây tóc của bóng đèn bị cháy, gọi Z là thời gian bóng đèn sáng, Z là một biến ngẫu nhiên. Qua ví dụ trên ta nhận thấy có hai loại biến ngẫu nhiên: 1. Loại thứ nhất là biến ngẫu nhiên chỉ nhận một số hữu hạn hay vô hạn đếm được các giá trị. (Một tập được gọi là hữu hạn nếu tồn tại một phép tương ứng một – một tới tập các số tự nhiên N). 2. Loại thứ hai là biến ngẫu nhiên mà nó có thể nhận giá trị trong một khoảng hoặc một số khoảng thực nào đó. Loại biến ngẫu nhiên thứ nhất gọi là biến ngẫu nhiên rời rạc. Loại biến ngẫu nhiên thứ hai gọi là biến ngẫu nhiên liên tục. http://www.ictu.edu.vn 19 Bảng phân phối xác suất của biến ngẫu nhiên rời rạc: Bảng phân phối xác suất của một biến ngẫu nhiên X là một bảng gồm 2 dòng: Dòng trên ghi các giá trị có thể có của biến ngẫu nhiên X, dòng dưới ghi các xác suất tương ứng. Nếu X nhận một số hữu hạn các giá trị thì bảng phân phối xác suất của X là: Nếu X nhận một số vô hạn đếm các giá trị thì bảng phân phối xác suất của X là: Pi=P (X = xi) là xác suất để X nhận giá trị là xi Do X nhận và chỉ nhận một trong các giá trị xi nên ta có ∑ pi =1 đối vói bảng thứ nhất và ∑ pi = 1 đối với bảng thứ 2. 2.1.2 Các ví dụ Ví dụ 1: Một người chơi trò chơi ăn tiền bằng cách tung đồng thời 2 đồng tiền cân đối và đồng chất. Nếu cả hai xuất hiện mặt sấp anh ta được 100 đồng, nếu cả hai xuất hiện mặt ngửa anh ta mất 40 đồng còn xuất hiện một sấp một ngửa anh ta mất 30 đồng. Gọi X là số tiền anh ta nhận được sau một ván chơi. Lập bảng phân phối xác suất của X Nhận thấy X có thể nhận các giá trị - 40, -30, 100 tương ứng với việc mất 40 đồng, mất 30 đồng và nhận được 100 đồng. Vậy bảng phân phối xác suất của X là: http://www.ictu.edu.vn 20 Ví dụ 2: Một người nhắm bắn vào một mục tiêu cho tới khi trúng đích thì dừng. Các lần bắn độc lập, xác suất trúng đích của mỗi lần bắn là p (0 < p< 1). Gọi Z là số đạn phải dùng. Lập bảng phân phối xác suất của Z. Nhận thấy Z có thể nhận các giá trị 1,2 …,n,… P (Z=n)= qn-1p (q=1-p). Vậy bảng phân phối xác suất của Z là 2.1.3 Các số đặc trưng Kì vọng : Nếu biến ngẫu nhiên X có bảng phân phối xác suất Thì kì vọng toán (hoặc vọng số) của X là số kí hiệu là M (X) hya E (X) cho bởi Nếu biến ngẫu nhiên X nhận vô hạn đếm được các giá trị có bảng phân phối xác suất:
- Xem thêm -

Tài liệu liên quan