Đăng ký Đăng nhập
Trang chủ ứng dụng mạng nơron nhân tạo để tư vấn giáo dục hướng nghiệp cho học ...

Tài liệu ứng dụng mạng nơron nhân tạo để tư vấn giáo dục hướng nghiệp cho học sinh trung học cơ sở huyện bố trạch

.PDF
75
4
131

Mô tả:

MỤC LỤC MỞ ĐẦU .................................................................................................................................................. 1 1. Lý do chọn đề tài. ................................................................................................................................ 1 2. Mục đích và ý nghĩa của đề tài ............................................................................................................. 3 2.1. Mục đích ...................................................................................................................................... 3 2.2. Ý nghĩa khoa học ......................................................................................................................... 3 2.3. Ý nghĩa thực tiễn .......................................................................................................................... 3 3. Mục tiêu và nhiệm vụ đề tài ................................................................................................................. 3 3.1. Mục tiêu ....................................................................................................................................... 3 3.2. Nhiệm vụ ...................................................................................................................................... 3 4. Đối tượng, phạm vi nghiên cứu............................................................................................................ 4 4.1. Đối tượng nghiên cứu .................................................................................................................. 4 4.2. Phạm vi nghiên cứu...................................................................................................................... 4 5. Phương pháp nghiên cứu ...................................................................................................................... 4 5.1. Phương pháp lý thuyết ................................................................................................................. 4 5.2. Phương pháp thực nghiệm ........................................................................................................... 4 6. Cấu trúc luận văn ................................................................................................................................. 5 Chương 1 - KHAI PHÁ DỮ LIỆU VÀ NHỮNG VẤN ĐỀ LIÊN QUAN.............................................. 6 1.1. Tổng quan về khai phá dữ liệu .......................................................................................................... 6 1.1.1. Khai phá dữ liệu là gì? .............................................................................................................. 6 1.1.2. Phát hiện tri thức trong cơ sở dữ liệu ........................................................................................ 6 1.1.3. Quá trình khai phá tri thức trong cơ sở dữ liệu ......................................................................... 8 1.2. Một số phương pháp và kỹ thuật khai phá dữ liệu .......................................................................... 10 1.2.1. Các kỹ thuật khai phá dữ liệu .................................................................................................. 10 1.2.2. Các phương pháp khai phá dữ liệu .......................................................................................... 11 1.3. Ứng dụng của khai phá dữ liệu ....................................................................................................... 13 1.3.1. Ứng dụng trong bài toán phân tích, dự báo, tư vấn: ................................................................ 13 1.3.2 Ứng dụng trong các bài toán khác............................................................................................ 13 Chương 2 - NGHIÊN CỨU VỀ GIÁO DỤC HƯỚNG NGHIỆP TRONG TRƯỜNG THCS VÀ MẠNG NƠRON NHÂN TẠO ............................................................................................................................ 15 2.1. Giáo dục hướng nghiệp trong trường thcs....................................................................................... 15 2.1.1. Tổng quan về hướng nghiệp và giáo dục hướng nghiệp ......................................................... 15 2.1.2. Hoạt động giáo dục hướng nghiệp cho học sinh THCS .......................................................... 16 2.1.3. Các con đường giáo dục hướng nghiệp cho học sinh THCS .................................................. 18 2.2. Thực trạng công tác giáo dục hướng nghiệp cho học sinh THCS huyện Bố Trạch ........................ 20 2.2.1. Đặc điểm kinh tế xã hội của địa phương ................................................................................. 20 2.2.2. Thực trạng giáo dục hướng nghiệp trên địa bàn Huyện Bố trạch ........................................... 22 2.2.3. Nghiên cứu thực trạng ............................................................................................................. 23 2.2.4. Kết quả khảo sát ...................................................................................................................... 24 2.3. Mạng nơron nhân tạo ...................................................................................................................... 24 2.3.1. Giới thiệu về mạng nơron nhân tạo ......................................................................................... 24 2.3.2. Một số tính chất và đặc trưng cơ bản của mạng nơron nhân tạo ............................................. 25 2.3.3. Tổ chức của mạng nơron nhân tạo .......................................................................................... 25 2.3.4. Cấu trúc của mạng nơron nhân tạo.......................................................................................... 26 2.3.5. Phương thức hoạt động của mạng nơron và quá trình huấn luyện mạng ................................ 29 2.3.6. Mạng truyền thẳng và một số vấn đề liên quan....................................................................... 31 Chương 3 - XÂY DỰNG ỨNG DỤNG TƯ VẤN GIÁO DỤC HƯỚNG NGHIỆP CHO HỌC SINH THCS HUYỆN BỐ TRẠCH.................................................................................................................. 35 3.1. Bài toán và mô hình cho bài toán .................................................................................................... 35 3.1.1. Mô tả bài toán ......................................................................................................................... 35 3.1.2. Mô hình tổng quát của bài toán ............................................................................................... 37 3.2. Kỹ thuật xử lý bài toán .................................................................................................................... 38 3.2.1. Lựa chọn kỹ thuật.................................................................................................................... 38 3.2.2. Luyện học sử dụng mạng nơron nhân tạo ............................................................................... 40 3.2.3. Áp dụng kỹ thuật ANN để xử lý bài toán ............................................................................... 41 3.2.4. Thuật toán tư vấn hướng nghiệp cho bài toán ......................................................................... 42 3.3. Mô tả dữ liệu ................................................................................................................................... 43 3.3.1. Dữ liệu huấn luyện .................................................................................................................. 43 3.3.1. Dữ liệu kiểm thử ..................................................................................................................... 45 3.4. Phân tích thiết kế hệ thống .............................................................................................................. 45 3.4.1. Tác nhân .................................................................................................................................. 45 3.4.2. Danh sách ca sử dụng .............................................................................................................. 45 3.4.3. Biểu đồ ca sử dụng .................................................................................................................. 46 3.4.4. Lớp và quan hệ giữa các lớp ................................................................................................... 47 3.4.5. Biểu đồ trạng thái .................................................................................................................... 49 3.5. Kết quả thực nghiệm ....................................................................................................................... 50 3.5.1. Công cụ và môi trường thực nghiệm....................................................................................... 50 3.5.2. Một số kết quả ......................................................................................................................... 51 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN .............................................................................................. 56 1. Kết luận .............................................................................................................................................. 56 2. Hướng phát triển ................................................................................................................................ 57 TÀI LIỆU THAM KHẢO ...................................................................................................................... 58 TÓM TẮT ỨNG DỤNG MẠNG NƠRON NHÂN TẠO ĐỂ TƯ VẤN GIÁO DỤC HƯỚNG NGHIỆP CHO HỌC SINH THCS HUYỆN BỐ TRẠCH Học viên: Nguyễn Cao Đức Chuyên ngành: Khoa học máy tính Mã số: 8480101. Khóa 35. Trường Đại học Bách khoa - ĐHĐN Tóm tắt - Quyết định lựa chọn một hướng đi cho tương lai sau khi kết thúc khóa học Trung học cơ sở là một việc làm rất khó khăn mà đòi hỏi học sinh phải nắm bắt được nhiều vấn đề và có sự quan tâm của gia đình cũng như nhà trường, nếu chọn sai sẽ dẫn đến những tổn thất lớn về vật chất và tinh thần cho học sinh và gia đình ảnh hưởng đến cân đối lao đông của đất nước. Các con đường giáo dục hướng nghiệp phổ biến hiện nay vẫn mang tính lý thuyết, chưa giúp được các em lựa chọn nghề nghiệp và hướng đi của mình trong tương lai. Trong nghiên cứu này chúng tôi xây dựng hệ tư vấn giáo dục hướng nghiệp bằng kỹ thuật mạng nơron nhân tạo để tư vấn giáo dục hướng nghiệp cho học sinh trên địa bàn và coi đó như là một con đường giáo dục hướng nghiệp mới. Việc nghiên cứu để tạo ra hệ tư vấn sẽ trợ giúp cho các em học sinh, giải quyết những khó khăn và thắc mắc của các em trong việc lựa chọn nghề nghiệp trong tương lai. Từ khóa - Mạng nơron nhân tạo, giáo dục hướng nghiệp, hệ tư vấn, khai phá dữ liệu, học máy. APPLICATION OF NEURAL NETWORK TO CONSULT PROFESSIONAL EDUCATION FOR SECONDARY SCHOOL STUDENTS OF BO TRACH DISTRICT Abstract - To choose a direction for the future after the end of the secondary school is a very difficult decision that requires students to grasp many issues and their families and schools get involved. If students choose a wrong direction for their future, this will lead to significant physical and mental losses for them and their families and affect the country's labor balance. The popular vocational education ways are still theoretical, which have not helped them to choose their right career and future direction. In this article, we build a vocational education system by using artificial neural network techniques to consult vocational education for students in the area and consider it as a new vocational education way. The research to create a consulting system will help students to solve their difficulties and questions in their future career choices. Keywords - Artificial neural network, vocational education, consulting system, data mining, Machine Learning. DANH MỤC CÁC CỤM TỪ VIẾT TẮT Từ viết tắt THCS THPT KDD ANN MLP GDHN HS THCN Ý nghĩa Trung học cơ sở Trung học phổ thông Knowledge Discovery in Database Artificial Neural Network Multilayer Perceptrons Networks Giáo dục hướng nghiệp Học sinh Trung học chuyên nghiệp Ghi chú DANH MỤC BẢNG BIỂU, HÌNH VẼ Số hiệu Hình 1.1 Hình 2.1 Hình 2.2 Hình 2.3 Hình 3.1. Hình 3.2. Hình 3.3 Hình 3.4 Hình 3.5. Hình 3.6. Hình 3.7 Hình 3.8. Hình 3.9 Hình 3.10 Hình 3.11 Hình 3.12 Hình 3.13 Hình 3.14 Hình 3.15 Hình 3.16 Bảng 3.1 Bảng 3.2. Bảng 3.3 Bảng 3.4 Tên hình vẻ Khai phá dữ liệu là một bước trong quá trình khai phá tri thức Mô hình mạng nơron nhân tạo đơn giản. Mạng nơron truyền thẳng nhiều lớp Mạng nơron hồi quy Mô hình bài toán tư vấn hướng nghiệp cho học sinh Nơron của mạng nơron nhân tạo Sơ đồ thuật toán quá trình luyện học của ANN Cấu trúc mạng nơron Sơ đồ thuật toán phân lớp cho bài toán tư vấn hướng nghiệp Biểu đồ ca sử dụng Quan hệ 2 lớp Training và WTraining Các lớp Weighting và Account Biểu đồ học sinh nhận tư vấn Biểu đồ trạng thái Quản trị viên Training hệ thống Màn hình chính Màn hình đăng nhập Màn hình dữ liệu huấn luyện Các tiêu chí giá trị tương ứng tại Bảng 3.1 Màn hình huấn luyện hệ thống Màn hình tư vấn hướng nghiệp cho học sinh Những yếu tố ảnh hưởng đến việc lựa chọn nghề nghiệp của học sinh Trọng số của tiêu chí sử dụng trong phần mềm Mô tả trường dữ liệu các lớp Training, Wtraining Kết quả huấn luyện của bài toán Trang 8 26 28 29 37 39 40 42 43 46 48 48 49 50 51 51 52 52 53 54 36 44 47 54 1 MỞ ĐẦU 1. Lý do chọn đề tài. Khai phá dữ liệu là lĩnh vực rất phát triển trong những năm gần đây, thu hút sự quan tâm của nhiều tổ chức trong nước và thế giới và được ứng dụng trong nhiều lĩnh vực khác nhau. Ngày nay với sự bùng nổ của nền công nghiệp 4.0 và công nghệ thông tin thì những tác động của nó đã ảnh hưởng đến mọi mặt trong đời sống xã hội từ văn hóa, giáo dục cho đến công nghệ và các lĩnh vực khác. Công nghệ thông tin ngày càng phát triển kéo theo các hệ thống thông tin ngày càng mở rộng để lưu trữ một lượng lớn các dữ liệu liên quan, cùng với việc lưu trữ dữ liệu trực tuyến với dung lượng rất lớn đã tạo ra những kho dữ liệu khổng lồ mà qua đó con người có thể khai phá các thông tin và tri thức phục vụ cho công việc, đời sống hàng ngày. Mục đích của khai phá dữ liệu là tìm ra mô hình phân loại hữu ích trong các dữ liệu phục vụ cho mục đích dự đoán, mô tả, phân loại, phân nhóm, rút trích và khai thác thông tin trong các lĩnh vực khác nhau trong đời sống xã hội. Sự ra đời và phát triển của nó đã đáp ứng và giải quyết được nhiều vấn đề ứng dụng trong đời sống xã hội và mang lại hiệu quả cao. Kỹ thuật khai phá dữ liệu có nhiều ưu việt, quá trình lấy ra được những dữ liệu hữu ích được gọi quá trình khai phá tri thức, những dữ liệu đó là các tri thức học được. Ứng dụng khai phá dữ liệu vào hoạt động giáo dục là một trong những xu thế phổ biến để nâng cao hiệu quả và chất lượng giáo dục và đào tạo. Lựa chọn nghề nghiệp là vấn đề vô cùng quan trọng và quyết định tương lai trong đời sống của mỗi con người. Có nghề nghiệp phù hợp với cá nhân, điều kiện môi trường xã hội thì con người mới có cuộc sống ổn định, mới làm ra của cải vật chất cho bản thân và xã hội. Ngày nay việc lựa chọn nghề nghiệp là một vấn đề trăn trở của các em học sinh và của các bậc phụ huynh khi con em đến tuổi trưởng thành. Vì vậy, Bộ giáo dục và Đào tạo đã đưa hoạt động giáo dục hướng nghiệp vào nhà trường từ rất sớm với mục đích giúp cho các em học sinh nhận thức đúng đắn về nghề nghiệp, có định hướng lựa chọn được cho mình một nghề phù hợp với bản thân đồng thời đáp ứng được nhu cầu của xã hội. Việc giáo dục nghề nghiệp tốt trong nhà trường còn góp phần vào việc phân luồng nguồn lao động và sử dụng hợp lí nguồn lao động trẻ một cách hiệu quả để thúc đẩy kinh tế, xã hội đất nước phát triển bền vững. Xác định được vai trò to lớn đó của giáo dục hướng nghiệp đối với học sinh, ngày 19 tháng 3 năm 1981, Hội đồng Chính phủ đã ban hành quyết định 126/CP về công tác hướng nghiệp trong trường phổ thông và việc sử dụng học sinh các cấp phổ thông cơ sở và phổ thông trung học tốt nghiệp ra trường. Trong đó đã nêu rõ: “Coi trọng công tác hướng nghiệp và phân luồng học sinh trung học, chuẩn bị cho thanh niên, thiếu niên đi vào lao động nghề nghiệp phù hợp với sự chuyển dịch cơ cấu kinh tế trong cả nước và từng địa phương” [24]. 2 Nước ta đang bước vào giai đoạn đẩy mạnh công nghiệp hóa, hiện đại hóa trong bối cảnh khoa học – công nghệ phát triển như vũ bão. Sự phát triển kinh tế - xã hội đặt ra yêu cầu nền giáo dục Việt Nam phải tạo ra lớp người lao động mới có khả năng làm chủ được khoa học – công nghệ hiện đại. Nghị quyết TW8 về đổi mới căn bản toàn diện giáo dục – đào tạo chỉ rõ: “Đẩy mạnh phân luồng sau trung học cơ sở; định hướng nghề nghiệp ở trung học phổ thông”, “ đảm bảo cho học sinh có trình độ trung học cơ sở (hết lớp 9) có tri thức phổ thông nền tảng, đáp ứng phân luồng mạnh sau trung học cơ sở, trung học phổ thông phải tiếp cận nghề nghiệp và chuẩn bị cho giai đoạn học sau phổ thông có chất lượng”. Hướng nghiệp trong giáo dục, với bản chất là hệ thống các biện pháp tiến hành trong và ngoài nhà trường để giúp học sinh phổ thông có kiến thức về nghề nghiệp và có khả năng lựa chọn về nghề nghiệp trên cơ sở kết hợp nguyện vọng, sở trường của cá nhân với nhu cầu sử dụng lao động của xã hội, đóng vai trò quan trọng trong quá trình đạt được mục tiêu đó. Trong những năm qua hiệu quả của giáo dục hướng nghiệp đã chuyển biến rõ rệt, số lượng học sinh theo hướng chọn nghề ngày càng nhiều. Tuy nhiên hiện nay do nhiều nguyên nhân chủ quan và khách quan khác nhau hoạt động giáo dục hướng nghiệp và công tác phân luồng học sinh vẫn còn hạn chế và kết quả chưa cao. Theo thống kê của Bộ giáo dục và Đào tạo hàng năm số học sinh sau khi học xong Trung học cơ sở (THCS) không học nghề mà vẫn học lên Trung học phổ thông (THPT), và học xong THPT lại đăng ký thi vào cao đẳng hay đại học còn rất lớn. Kết quả thực tế này là do rất nhiều yếu tố khách quan, chủ quan khác nhau từ phụ huynh đến học sinh và cả hiệu quả của giáo dục hướng nghiệp. Trong thực tế chỉ một bộ phận học sinh không đủ khả năng vào THPT thì mới học nghề hay không thi vào được cao đẳng, đại học thì mới chọn vào trường dạy nghề để học. Quyết định lựa chọn một hướng đi là một việc làm khó khăn, đòi hỏi học sinh phải hiểu và có sự quan tâm của gia đình cũng như nhà trường, nếu chọn sai sẽ dẫn đến những tổn thất lớn về vật chất và tinh thần cho học sinh và gia đình. Do đó việc định hướng chọn đúng ngành nghề sẽ giúp các em tránh khỏi những vấn đề nói trên. Từ thực tiễn giáo dục hiện nay cũng như thực tế hoạt động hướng nghiệp trong trường mà tôi đang công tác, tôi nhận thấy việc tư vấn lựa chọn hướng nghiệp cho phụ huynh và học sinh đối với đề án giáo dục hướng nghiệp hiện nay của Bộ Giáo dục và Đào tạo là quan trọng, thông qua dữ liệu từ phụ huynh và học sinh để từ đó có thể sử dụng các thông tin đó để phục vụ cho công việc tư vấn định hướng cho học sinh và các hoạt động trong giáo dục là hết sức cần thiết và cấp bách. Vì vậy đề tài “ỨNG DỤNG MẠNG NƠRON NHÂN TẠO ĐỂ TƯ VẤN GIÁO DỤC HƯỚNG NGHIỆP CHO HỌC SINH THCS HUYỆN BỐ TRẠCH” là cần thiết và có ý nghĩa về mặt lý thuyết và thực tiễn. 3 2. Mục đích và ý nghĩa của đề tài 2.1. Mục đích + Nghiên cứu các phương pháp, các kỹ thuật khai phá dữ liệu. + Sử dụng kỹ thuật học máy để xử lý bài toán tư vấn trong giáo dục hướng nghiệp cho học sinh. + Nghiên cứu giáo dục hướng nghiệp đối với học sinh trung học cơ sở từ đó xây dựng ứng dụng Demo tư vấn phân luồng cho học sinh trên địa bàn huyện Bố trạch. 2.2. Ý nghĩa khoa học + Qua quá trình nghiên cứu sẽ nắm bắt được các kỹ thuật khai phá dữ liệu, qua đó vận dụng để khai thác dữ liệu từ các nguồn thông tin thu thập được, thông qua dữ liệu để tư vấn cho phụ huynh và học sinh đối với việc lựa chọn giáo dục hướng nghiệp tốt hơn. + Rút ra được các kết luận có ý nghĩa trong quá trình nghiên cứu bài toán . 2.3. Ý nghĩa thực tiễn + Thu thập được dữ liệu của học sinh đối với việc lựa chọn nghề nghiệp trong giáo dục hướng nghiệp hiện nay của học sinh THCS huyện Bố trạch, tỉnh Quảng Bình. Từ đó xây dựng ứng dụng tư vấn phân luồng cho học sinh THCS trên địa bàn huyện Bố Trạch. 3. Mục tiêu và nhiệm vụ đề tài 3.1. Mục tiêu + Nghiên cứu và vận dụng tốt kỹ thuật khai phá dữ liệu. + Sử dụng kỹ thuật học máy vào giải quyết bài toán tư vấn. + Xây dựng Demo ứng dụng tư vấn phân luồng nghề nghiệp trong giáo dục hướng nghiệp hiện nay của huyện Bố Trạch. . 3.2. Nhiệm vụ + Nghiên cứu lý thuyết về kỹ thuật khai phá dữ liệu + Nghiên cứu thực tiễn về đề án giáo dục hướng nghiệp hiện nay của Bộ Giáo dục và Đào tạo. + Thu thập dữ liệu về giáo dục hướng nghiệp của học sinh THCS trên địa bàn huyện Bố Trạch, xử lý dữ liệu sau khi thu thập được. + Xây dựng bài toán, xử lý và xây dựng ứng dụng Demo. 4 4. Đối tượng, phạm vi nghiên cứu 4.1. Đối tượng nghiên cứu + Các kỹ thuật, phương pháp khai phá dữ liệu. + Dữ liệu thu thập được về quan điểm của học sinh THCS đối với giáo dục hướng nghiệp hiện nay trên địa bàn huyện Bố Trạch. + Các công cụ và phần mềm mã nguồn mở hỗ trợ nghiên cứu, thiết kế quy trình thực hiện + Quy trình tham vấn nghề trong giáo dục hướng nghiệp. 4.2. Phạm vi nghiên cứu Trong nghiên cứu này tôi chỉ giới hạn nghiên cứu các vấn đề sau: + Đối tượng nghiên cứu là học sinh THCS trên địa bàn huyện Bố Trạch, tỉnh Quảng Bình. + Xây dựng công việc tư vấn phân luồng hướng nghiệp cho học sinh lựa chọn học lên THPT hay lựa chọn học nghề cho tương lai. + Xây dựng ứng dụng Demo. 5. Phương pháp nghiên cứu Tiến hành thu thập và nghiên cứu các tài liệu có liên quan đến đề tài. Tổng hợp các thông tin dữ liệu đã nghiên cứu. Nghiên cứu các kỹ thuật có liên quan đến bài toán. Nghiên cứu công cụ xử lý và việc ứng dụng công cụ cho bài toán. 5.1. Phương pháp lý thuyết + Phương pháp nghiên cứu tài liệu về các vấn đề có liên quan đến đề tài, nghiên cứu các công trình đã được công bố liên quan đến đề tài, phân tích và tổng hợp. Nghiên cứu các kỹ thuật có liên quan đến bài toán, nghiên cứu công cụ xử lý và hỗ trợ giải quyết bài toán. + Phương pháp thống kê: Thống kê dữ liệu thu thập được trong quá trình xử lý. + Phương pháp phân tích và thiết kế: Phân tích các đối tượng cần nghiên cứu để giải quyết các vấn đề liên quan và thiết kế dữ liệu, thiết kế quy trình xử lý dữ liệu. + Phương pháp mô hình hóa: Mô hình hóa dữ liệu, mô hình hóa quy trình xử lý để thực hiện tư vấn trong bài toán. 5.2. Phương pháp thực nghiệm Nghiên cứu và khai thác các công cụ, các phần mềm hỗ trợ quá trình biên tập dữ liệu, khảo sát dữ liệu và đánh giá. 5 Xây dựng chương trình Demo tư vấn cho phụ huynh và học sinh lựa chọn định hướng giáo dục hướng nghiệp hiện nay của Bộ Giáo dục và Đào tạo. Kiểm tra, thử nghiệm, nhận xét và đánh giá kết quả. 6. Cấu trúc luận văn Ngoài phần mở đầu và kết luận, luận văn gồm ba chương: Chương 1: Chương này chủ yếu nghiên cứu tổng quan về khai phá dữ liệu và các vấn đề liên quan đến phương pháp, kỹ thuật và ứng dụng trong khai phá dữ liệu. Chương 2: Nghiên cứu về Giáo dục hướng nghiệp trong trường THCS và mạng nơron nhân tạo Chương 3: Xây dựng ứng dụng tư vấn giáo dục hướng nghiệp cho học sinh THCS huyện Bố Trạch. 6 Chương 1 - KHAI PHÁ DỮ LIỆU VÀ NHỮNG VẤN ĐỀ LIÊN QUAN 1.1. Tổng quan về khai phá dữ liệu 1.1.1. Khai phá dữ liệu là gì? Khai phá dữ liệu là một lĩnh vực nghiên cứu có nhiều ứng dụng vào đời sống xã hội hiện nay, nó ra đời từ những năm của thập kỷ 80. Khai phá dữ liệu bao hàm nhiều kỹ thuật khác nhau nhằm phát hiện ra các thông tin có giá trị tiềm ẩn trong các kho dữ liệu lớn. Về bản chất khai phá dữ liệu liên quan đến quá trình phân tích dữ liệu và sử dụng các kỹ thuật để tìm ra các thông tin hữu ích trong cơ sở dữ liệu. Các giải thuật khai phá dữ liệu và các kỹ thuật ngày càng được phát triển và ứng dụng rộng rãi, kết quả của quá trình khai phá dữ liệu có thể tìm ra các mô hình dữ liệu hữu ích phục vụ cho các bài toán dự đoán, mô tả, phân loại, phân nhóm, rút trích và khai thác thông tin của các lĩnh vực khác nhau trong đời sống xã hội. Chính vì những tiềm năng khoa học của nó nên các nội dung nghiên cứu về khai phá dữ liệu càng ngày càng thu hút sự quan tâm của nhiều tổ chức trong nước và thế giới. Các kỹ thuật chính được áp dụng trong lĩnh vực khai phá dữ liệu được phát triển từ các lĩnh vực cơ sở dữ liệu, học máy, xác suất thống kê, trí tuệ nhân tạo và các ngành khác, vv, chúng đều hướng đến việc phân tích một lượng lớn các dữ liệu qua tiến trình khai phá dữ liệu sẻ sử dụng các công cụ để phân tích dữ liệu và trích xuất ra các thông tin quan trọng của các đối tượng bên trong cơ sở dữ liệu, kết quả của việc khai phá là xác định các mẫu hay các mô hình đang tồn tại bên trong, nhưng chúng nằm ẩn khuất ở các cơ sở dữ liệu. Để từ đó rút trích ra được các mẫu, các mô hình hay các thông tin và tri thức từ các cơ sở dữ liệu. Khai phá dữ liệu là bước chính của quy trình khai phá tri thức trong cơ sở dữ liệu (Knowledge Discovery in Database - KDD), nó được ứng dụng trong các loại hình cung cấp dịch vụ lưu trữ thông tin như kho dữ liệu, cơ sở dữ liệu quan hệ, cơ sở dữ liệu giao dịch, cơ sở dữ liệu hướng đối tượng, cơ sở dữ liệu quan hệ hướng đối tượng, cơ sở dữ liệu không gian, cơ sở dữ liệu thời gian, cơ sở dữ liệu văn bản, cơ sở dữ liệu đa phương tiện, cơ sở dữ liệu Web, cơ sở dữ liệu tri thức, vv [3]. 1.1.2. Phát hiện tri thức trong cơ sở dữ liệu Phát hiện tri thức từ cơ sở dữ liệu là một quá trình có sử dụng nhiều phương pháp và công cụ khác nhau mà con người có vai trò trung tâm. Hoạt động của hệ thống bao gồm nhiều hoạt động tương tác thường xuyên giữa con người và cơ sở dữ liệu mà có sự trợ giúp của các công cụ khác nhau. “Tri thức” mà chúng ta đề cập đến ở đây là các tri thức rút ra từ cơ sở dữ liệu và được sử dụng cho việc giải quyết một loạt nhiệm vụ nhất định trong một lĩnh vực nào đó. Do đó, quá trình phát hiện tri thức cũng mang tính chất hướng nhiệm vụ, không phải là phát hiện mọi tri thức bất kỳ mà là phát hiện tri thức 7 nhằm giải quyết tốt công việc đề ra. Trên cơ sở đó quá trình phát hiện tri thức là một qúa trình tương tác giữa con người với các công cụ để thực hiện các bước cơ bản sau: Toàn bộ tiến trình tìm kiếm và xử lý mẫu từ dữ liệu bao gồm các bước sau đây: - Bước 1: Tìm một cách hiểu để thực hiện phạm vi ứng dụng và nhiệm vụ đặt ra, xác định “Tri thức” được ưu tiên thích đáng, tìm ra mục đích của người sử dụng đầu cuối. - Bước 2: Tạo một tập dữ liệu đích thông qua chọn một tập dữ liệu hoặc điểm chính trên một tập con của các biến đổi, hoặc các dữ liệu mẫu sao cho nó có ý nghĩa khi thực hiện khai phá. - Bước 3: Chuẩn bị trước dữ liệu, tiền xử lý dữ liệu: Loại bỏ dữ liệu nhiễu hoặc những dữ liệu không quan trọng, tập hợp lại các thông tin cần thiết để phù hợp với mô hình, tính toán và kiểm soát các dữ liệu sai lệch, tính toán thời gian thông tin tuần tự và những thay đổi biết trước. - Bước 4: Thu nhỏ dữ liệu: Tìm những đặc trưng thường sử dụng để miêu tả dữ liệu độc lập theo mục đích của công việc. Sử dụng việc giảm bớt chiều hoặc các phương pháp chuyển đổi để giảm bớt số lượng biến nếu được. - Bước 5: Chọn nhiệm vụ khai phá dữ liệu: Quyết định có hay không đích của tiến trình KDD là phân loại, hồi quy, phân nhóm, vv. - Bước 6: Chọn phương pháp khai phá dữ liệu thích hợp: Chọn một hoặc một số phương pháp để sử dụng cho việc tìm kiếm trên các mẫu của dữ liệu. Quyết định mô hình và các tham số thích hợp. Biến đổi dữ liệu theo đặc trưng riêng của phương pháp khai phá với toàn bộ tiến trình KDD. - Bước 7: Khai phá dữ liệu: Tìm kiếm các mẫu quan trọng theo dạng trình bày riêng biệt hoặc tập các mô tả như các luật hoặc cây phân loại, hồi quy, phân nhóm...vv.. - Bước 8: Đánh giá, giải thích, thử lại các mẫu đã khai phá được. - Bước 9: Cũng cố, tinh chế tri thức đã khai phá. Kết hợp các tri thức thành hệ thống. Giải quyết các xung đột tiềm tàng trong tri thức khai thác được, sau đó, tri thức được chuẩn bị sẳn sàng cho ứng dụng. Nếu phát hiện tri thức là toàn bộ quá trình chiết xuất tri thức từ cơ sở dữ liệu thì khai phá dữ liệu là giai đoạn chủ yếu của quá trình đó. Theo trình bày ở trên, trong quá trình phát hiện tri thức, bước khai phá dữ liệu được thực hiện sau các bước tinh lọc và tiền xử lý dữ liệu, tức là việc khai phá để tìm ra các mẫu hình có ý nghĩa được tíên hành trên tập dữ liệu có cơ sở là sẽ thích hợp với nhiệm vụ khai phá đó chứ không phải là khai phá hết dữ liệu với một thời gian đủ dài để lấy được một mẫu mà không có ích thực sự như khái niệm trong thống kê trước đây. Do đó, khai phá dữ liệu thường bao gồm việc tìm một mô hình phù hợp với tập dữ liệu và tìm kiếm các mẫu từ tập dữ liệu theo mô hình đó. Trong số các mẫu được lấy ra từ cơ sở dữ 8 liệu thì những mẫu được xem là đáng quan tâm xét theo một phương diện nào đó mới được coi là tri thức. Các mẫu là đáng quan tâm nếu chúng là mới, có lợi, đáng được xem xét. Một mẫu được xem là mới phụ thuộc vào khung tham chiếu cho trước, có thể đó là phạm vi tri thức của hệ thống hoặc là phạm vi tri thức của người dùng. Mục tiêu của KDD là tìm kiếm tri thức từ dữ liệu, và điểm cần nhấn mạnh là các ứng dụng “bậc cao” của các phương pháp khai phá. Nó là điều quan tâm của những người nghiên cứu về học máy, nhận dạng, cơ sở dữ liệu, thống kê, trí tuệ nhân tạo, tri thức thu nhận cho hệ chuyên gia, và hình dung về dữ liệu. Khai phá dữ liệu là một nhu cầu tất yếu, một sự nhạy cảm đáp lại nhu cầu bức thiết của giới kinh doanh và cũng là những thách thức mới của các nhà khoa học. Khai phá dữ liệu được xây dựng trên các kỹ thuật mới, nó sử dụng các kỹ thụât thông minh để khai phá các tri thức tiềm ẩn trong dữ liệu. Khai phá dữ liệu được định hướng theo nhu cầu kinh doanh để có thể giải quyết tự động các bài toán kinh doanh bằng các kỹ thuật dễ sử dụng và hiệu quả. Các kết quả đạt được cho thấy mặc dù kỹ thuật khai phá dữ liệu còn nhiều vấn đề cần giải quyết, nhưng với những gì nó đã và đang mang lại cho con người thì khai phá dữ liệu còn có một tiềm năng to lớn trong việc tạo ra những lợi nhuận đáng kể trong nền kinh tế [2]. 1.1.3. Quá trình khai phá tri thức trong cơ sở dữ liệu Quá trình khai phá dữ liệu có thể được chia thành các giai đoạn chính như sau [1, 13]: Đánh giá luật Khai phá dữ liệu Chuyển đổi dữ liệu Tiền xử lý và chuẩn bị dữ liệu Tri thức Trích lọc dữ liệu Mô hình Dữ liệu Dữ liệu đích Dữ liệu đã xử lý Dữ liệu đã chuyển đổi Hình 1.1: Khai phá dữ liệu là một bước trong quá trình khai phá tri thức [1, 13] 9 Một cách tổng quát quá trình khám phá tri thức có thể phân thành các công đoạn: Tập hợp dữ liệu, trích lọc dữ liệu, chuẩn bị dữ liệu và tiền xử lý dữ liệu, biến đổi dữ liệu, khai phá dữ liệu, đánh giá và biểu diễn tri thức. Trong đó quá trình khai phá tri thức được thực hiện lặp đi lặp lại nhiều lần cùng với sự tham gia của người sử dụng. Kết quả của quá trình khai phá dữ liệu sẽ làm cho quá trình khai phá các dữ liệu lớn trong cơ sở dữ liệu lớn trở nên dễ dàng hơn. Trong thực tế, khai phá dữ liệu là một bước cụ thể trong quá trình khai phá tri thức. Để giải quyết các nhiệm vụ đề ra khai phá dữ liệu sử dụng các thuật toán đặc biệt để trích xuất các mô hình từ cơ sở dữ liệu, thông qua các mô hình và kết quả khai phá được sẽ tiến hành giải thích và xử lý kết quả của hệ thống, chuyển đổi thông tin vào hệ thống tri thức mà người sử dụng có thể hiểu được. a. Tập hợp dữ liệu (Data): Đây là giai đoạn đầu tiên trong quá trình khai phá dữ liệu. Giai đoạn này lấy dữ liệu trong một cơ sở dữ liệu, một kho dữ liệu hay dữ liệu từ các nguồn khác. b. Trích lọc dữ liệu (Selection): Trong giai đoạn này dữ liệu được lựa chọn hoặc phân chia theo một số tiêu chuẩn nào đó. c. Tiền xử lý và chuẩn bị dữ liệu (Preprocessing): Giai đoạn này rất quan trọng trong quá trình khai phá dữ liệu. Trong thực tế quá trình thu thập dữ liệu sẽ chứa một số lỗi thường mắc phải như thiếu thông tin, không logic... điều này dẫn đến dữ liệu chứa các giá trị vô nghĩa, thông tin mang lại không hiệu quả và không có khả năng kết nối dữ liệu. Mục đích của giai đoạn này là tiến hành xử lý những dạng dữ liệu nói trên để dữ liệu được “sạch và có ý nghĩa” vì nếu dữ liệu không được tiền xử lý, làm sạch và chuẩn bị trước thì kết quả của quá trình khai phá dữ liệu sẽ không cao và thậm chí là sai lệch. d. Chuyển đổi dữ liệu (Transformation): Trong giai đoạn chuyển đổi dữ liệu nay dữ liệu đưa ra có thể sử dụng và điều khiển được bởi việc tổ chức lại nó. Dữ liệu đã được chuyển đổi phù hợp với mục đích khai thác. e. Khai phá dữ liệu (Data Mining): Đây là giai đoạn quan trọng của quá trình và mang tính tư duy trong quá trình khai phá, giai đoạn này sử dụng nhiều thuật toán khác nhau để xuất ra các mẫu từ dữ liệu. f. Đánh giá kết quả mẫu (Interpretation/ Evaluation): Là giai đoạn cuối trong quá trình khai phá dữ liệu. Trong giai đoạn này, các mẫu dữ liệu được chiết xuất ra bởi phần mềm khai phá dữ liệu, các mẫu thu được không phải mẫu dữ liệu nào cũng đều có nghĩa cho vấn đề cần giải quyết. Vì vậy trong thực tế phải thực hiện đánh giá qua các tiêu chuẩn để lựa chọn được mẫu phù hợp, đưa ra được các tri thức cần thiết và sử dụng cho bài toán cụ thể. 10 1.2. Một số phương pháp và kỹ thuật khai phá dữ liệu 1.2.1. Các kỹ thuật khai phá dữ liệu Nếu đứng trên quan điểm của học máy thì các kỹ thuật trong khai phá dữ liệu bao gồm: Học có giám sát, học không có giám sát, học nửa giám sát. Phương pháp dựa vào học máy sử dụng các giải thuật học máy nổi tiếng bằng việc sử dụng cú pháp và các đặc trưng trong ngôn ngữ. Các giải thuật học máy đã được chứng minh là những giải thuật khai phá dữ liệu rất hiệu quả. Học máy là một lĩnh vực có liên quan đến việc nghiên cứu các thuật toán và kỹ thuật cho phép các máy tính để "học hỏi" tự động từ kinh nghiệm. + Học có giám sát: Các phương pháp học có giám sát phụ thuộc vào sự tồn tại của các nhãn huấn luyện văn bản. Có rất nhiều loại học có giám sát trong phân loại văn bản, quá trình phân loại qua phương pháp học có giám sát được thực hiện qua nhiều bước khác nhau: Đầu tiên cần xác định loại của tập dữ liệu cần huấn luyện, sau đó tiến hành thu thập dữ liệu huấn luyện. Việc thu thập dữ liệu huấn luyện có thể thực hiện bằng nhiều cách khác nhau. Bước tiếp theo là lựa chọn và biểu diễn các đặc trưng, bước này có vai trò quyết định hiệu quả của quá trình phân loại. Hầu hết các phương pháp máy học áp dụng cho bài toán phân loại đều sử dụng cách biểu diễn văn bản dưới dạng vectơ đặc trưng. Điểm khác biệt duy nhất chính là không gian đặc trưng được chọn lựa. Số lượng các đặc trưng không được quá lớn, do sự bùng nổ dữ liệu, không được quá nhỏ sẽ không đảm bảo thông tin, chúng phải đủ lớn để dự đoán chính xác đầu ra. Để giải quyết vấn đề này thông thường chúng ta sẽ chọn lựa những đặc trưng được đánh giá là hữu ích, bỏ đi những đặc trưng không quan trọng. Trong giai đoạn này chúng ta sử dụng các phương pháp chọn lựa đặc trưng hiệu quả để giảm chiều của vectơ đặc trưng, chiều của vectơ sau khi được giảm mà không mất đi độ chính xác phân loại. Bước cuối cùng là xác định cấu trúc của hàm chức năng cần tìm và chọn giải thuật học tương ứng, chạy giải thuật học từ tập huấn luyện thu thập được để cho ra kết quả. Một số phương pháp học có giám sát phổ biến trong phân loại quan điểm như [5, 14]: - Phân loại theo xác suất: Phân loại theo xác suất sử dụng mô hình phân loại hỗn hợp. Các mô hình này giả định rằng mỗi lớp là một thành phần của hỗn hợp. Mỗi thành phần hỗn hợp là một mô hình cung cấp xác suất lấy mẫu của một thuật ngữ cụ thể cho các thành phần đó. Một số kỹ thuật phân loại xác suất nổi tiếng như phân loại Naıve Bayes, Bayesian Network, Maximum Entropy. - Kỹ thuật phân loại tuyến tính. Kỹ thuật này nổi bật với phương pháp phân loại máy vector hỗ trợ (support vector machines), mạng nơron (neural network), cây quyết định (decision tree), phân loại dựa vào các luật cơ bản (rule-based) 11 + Học không có giám sát: Học không giám sát là phương pháp nhằm tìm ra mô hình phù hợp với các tập dữ liệu quan sát. Nó khác biệt với học có giám sát ở chỗ là đầu ra đúng tương ứng cho mỗi đầu vào là không biết trước. Trong học không có giám sát, đầu vào là một tập dữ liệu được thu thập. Học không có giám sát thường xem các đối tượng đầu vào như là một tập các biến ngẫu nhiên. Sau đó, một mô hình mật độ kết hợp sẽ được xây dựng cho tập dữ liệu đó. Học không có giám sát có thể được dùng kết hợp với suy diễn Bayes để cho ra xác suất có điều kiện cho bất kì biến ngẫu nhiên nào khi biết trước các biến khác [4, 14]. Có nhiều thuật toán học không có giám sát được ra đời và phát triển nhằm giải quyết bài toán phân cụm phục vụ khai thác hiệu quả nguồn dữ liệu chưa gán nhãn nhiều và rất đa dạng. Việc lựa chọn sử dụng thuật toán nào tuỳ thuộc vào dữ liệu và mục đích của từng bài toán. Một số thuật toán học không có giám sát thường hay sử dụng như thuật toán k-means, thuật toán Hierarchical Agglomerative Clustering- HAC, thuật toán SelfOrganizing Map-SOM,...vv. + Học bán giám sát Khi cả dữ liệu huấn luyện và dữ liệu đã dán nhãn không có sẵn, chúng ta có thể học nửa giám sát (học bán giám sát). Một phân loại thống kê được huấn luyện, việc huấn luyện có thể sử dụng cả dữ liệu có nhãn và không có nhãn. Kết hợp các mẫu có gắn nhãn và không gắn nhãn để sinh một hàm hoặc một bộ phân loại thích hợp. 1.2.2. Các phương pháp khai phá dữ liệu Nếu dựa trên quan điểm dựa vào lớp các bài toán cần giải quyết, thì có các phương pháp khai phá dữ liệu sau [6]: Phân lớp và dự đoán, Luật kết hợp, Phân cụm, Hồi qui, Tổng hợp, Mô hình ràng buộc, Dò tìm biến đổi và độ lệch. + Phân lớp (classification) và dự đoán (prediction): Phân lớp dữ liệu là tiến trình khám phá các quy luật phân loại hay tìm kiếm đặc trưng cho các tập dữ liệu đã được xếp lớp. Với một tập dữ liệu huấn luyện có trước các giải thuật và công cụ sẽ xếp các đối tượng và một trong các lớp đã biết trước. Tập dữ liệu học bao gồm tập đối tượng đã được xác định lớp sẽ được dùng để tạo mô hình phân lớp dựa trên đặc trưng của đối tượng trong tập dữ liệu học. Các đặc trưng về dữ liệu được sử dụng để xây dựng các bộ phân lớp dữ liệu. Phân lớp dữ liệu có vai trò quan trọng trong tiến trình dự báo các khuynh hướng quy luật phát triển. Bài toán dự đoán tương đương với bài toán phân lớp, khi có đối tượng mới bộ dự đoán dựa trên thông tin đang có để đưa ra giá trị số học cho hàm cần dự đoán. + Luật kết hợp (Association): Kỹ thuật của phương pháp này là phát hiện và tìm ra trong tập dữ liệu cần khai phá những mối liên hệ giữa các giá trị với nhau qua đó tìm giá trị đầu ra thông qua các luật kết hợp tìm được từ tập dữ liệu ban đầu, quá trình khám phá các tập giá trị thuộc tính xuất hiện phổ biến trong các đối tượng dữ liệu. Từ tập phổ biến có thể tạo ra các luật kết 12 hợp giữa các giá trị thuộc tính nhằm phản ánh khả năng xuất hiện đồng thời các giá trị thuộc tính trong tập các đối tượng. Một luật kết hợp X → Y phản ánh sự xuất hiện của tập X dẫn đến sự xuất hiện đồng thời của tập Y. + Phân cụm (clutering): Kỹ thuật phân cụm với mục đích tìm ra các cụm dữ liệu có đặc điểm tương tự nhau trong tập dữ liệu cần khai phá. Các thành viên của một cụm sẽ có các đặc điểm giống nhau và có các đặc điểm khác nhau so với các thành viên của các cụm khác. Các đối tượng được gom cụm sao cho mức độ tương tự giữa các đối tượng trong cùng một cụm là cực đại và mức độ tương tự giữa các đối tượng nằm trong các cụm khác nhau là cực tiểu. Kỹ thuật phân cụm sẽ nhận diện các cụm tiềm ẩn trong tập các đối tượng chưa được xếp lớp dựa trên mức độ tương tự giữa các đối tượng. Các cụm được đặc trưng bằng các tính chất chung của tất cả các đối tượng trong cụm. Do vậy, khảo sát các cụm sẽ giúp khái quát, tổng kết nhanh chóng nội dung của khối dữ liệu lớn. + Hồi qui (regression): Là bài toán học một hàm ánh xạ từ một mẫu dữ liệu thành một biến dự đoán có giá trị thực. Mục đích của hồi quy tương tự như bài toán phân lớp, điểm khác biệt ở đây là các thuộc tính dự báo trong bài toán này là liên tục chứ không rời rạc. + Tổng hợp (summarization): Công việc liên quan đến các phương pháp tìm kiếm mô tả chung để xác định được các tập con dữ liệu hay các nhóm dữ liệu, trong đó các nhóm có thể chồng nhau hoặc tách rời, điều này có nghĩa là dữ liệu có thể thuộc nhóm này và cũng có thể thuộc nhóm khác. + Mô hình ràng buộc (dependency modeling): Là phương pháp tìm kiếm một mô hình mô tả sự phụ thuộc giữa các biến, thuộc tính theo hai mức, đó là mức cấu trúc của mô hình mô tả biểu diễn dưới dạng đồ thị. Trong đó sự phụ thuộc bộ phận của các biến phụ vào các biến khác. Trường hợp thứ hai đó là mức định lượng mô hình mô tả mức độ phụ thuộc, thường được biểu diễn dưới dạng luật “nếu - thì”. Trường hợp này phụ thuộc vào tiền đề để xác định kết luận, tiền đề thường là nhóm các giá trị thuộc tính và kết luận chỉ là một thuộc tính. + Dò tìm biến đổi và độ lệch (change and deviation dectection): Phương pháp này xác định giá trị chuẩn, phát hiện độ lệch đáng kể giữa nội dung của tập con dữ liệu thực và nội dung mong đợi. Hai mô hình thường hay sử dụng đó là đo độ lệch theo thời gian và đo độ lệch theo nhóm. Đối với đo độ lệch theo thời gian thì sự thay đổi có ý nghĩa của dữ liệu theo thời gian, còn đo độ lệch theo nhóm sẽ xác định sự khác nhau giữa hai tập con dữ liệu, nghĩa là xác định dữ liệu trong một nhóm con của đối tượng có khác so với toàn bộ đối tượng không, qua đó phát hiện những sai sót dữ liệu và sai lệch so với giá trị thông thường. Thông thường những nhiệm vụ này yêu cầu 13 số lượng và các dạng thông tin khác nhau nên sẽ ảnh hưởng đến việc thiết kế và chọn phương pháp khai phá dữ liệu khác nhau. 1.3. Ứng dụng của khai phá dữ liệu Có thể nói sau khi ra đời, các kỹ thuật khai phá dữ liệu đã thu hút được rất nhiều sự quan tâm của các nhà nghiên cứu nhờ vào tính ứng dụng trong thực tiễn của nó, và chính ưu điểm này lại thúc đẩy khai phá dữ liệu ngày càng được nghiên cứu nhiều hơn và trở thành nội dung nghiên cứu liên quan đến đa ngành, đa lĩnh vực trong đời sống xã hội. Hiện nay, khai phá dữ liệu đã và đang được ứng dụng rộng rãi trong rất nhiều lĩnh vực và đã có rất nhiều công cụ được xây dựng và phát triển dưới dạng thương mại và phi thương mại, các công cụ hỗ trợ cho ứng dụng trong thực tế. Khi dữ liệu số và dữ liệu trên môi trường web ngày càng nhiều thì khai phá dữ liệu ngày càng được phát triển sâu rộng nhằm khai thác nguồn dữ liệu phong phú trong các hệ thống thông tin đó. Một số hướng ứng dụng phổ biến hiện nay của khai phá dữ liệu như: 1.3.1. Ứng dụng trong bài toán phân tích, dự báo, tư vấn: Đối với bài toán này có rất nhiều lĩnh vực được ứng dụng, một số ngành điển hình như: + Trong y tế: từ những thông tin của bệnh nhân hệ thống phân tích và dự đoán bệnh và đưa ra phác đồ điều trị, đưa ra các bài toán dự báo về nguy cơ lây nhiểm hay các bài toán khác; + Trong thương mại bài toán dùng để phân tích thông tin sản phẩm, khách hàng, phân tích quan điểm người sử dụng, phân tích các sở thích để từ đó dự báo các chiến lược kinh doanh, các nhu cầu của khách hàng; + Đối với lĩnh vực chính trị, xã hội: phân tích ý kiến, thái độ dư luận để dự báo xu hướng phát triển, xu hướng quan điểm của dân về các chế độ chính sách; + Ứng dụng phân tích dự báo trong các ngành khoa học như thiên văn học, khí tượng, sinh học…vv. Đặc biệt đối với khai phá dữ liệu sinh học là một phần rất quan trọng của lĩnh vực Tin - Sinh học (Bioinformatics), nó được biết đến với một số ứng dụng điển hình như lập chỉ mục, tìm kiếm tương tự, bất thường trong cơ sở dữ liệu Gen; xây dựng mô hình khai phá các mạng di truyền và cấu trúc của Gen, protein; xây dựng các công cụ trực quan trong phân tích dữ liệu di truyền. + Trong hoạt động giáo dục thường phát triển theo các dạng chuyên gia hỗ trợ học tập hoặc tư vấn trong các hoạt động giáo dục, đào tạo. 1.3.2 Ứng dụng trong các bài toán khác + Bài toán tìm kiếm thông tin là bài toán khá phát triển và phổ biến, các dạng mở rộng trong khai phá dữ liệu được ứng dụng nhiều trên các bộ dữ liệu khác nhau, đặc biệt 14 là trên các bộ dữ liệu phân tán lớn. Một hướng ứng dụng khá phổ biến đó là khai phá dữ liệu trên kho dữ liệu khách hàng của các bài toán ngân hàng, kinh doanh, maketing, vv. Việc khai thác và sử dụng dữ liệu để phân tích đa chiều trên kho dữ liệu khách hàng về doanh số bán hàng, khách hàng, sản phẩm, thời gian và khu vực cũng như các thông số khác. + Bài toán ứng dụng trong công nghiệp viễn thông là một trong những hướng mới mới nổi, với mục tiêu cung cấp các dịch vụ liên quan đến môi trường trên điện thoại di động, môi trường Internet, môi trường trên các mạng xã hội.... Hướng khai phá dữ liệu trong ngành công nghiệp viễn thông giúp các nhà quản lý xác định các mô hình viễn thông, quản lý và phát hiện các hoạt động gian lận trong viễn thông, khai thác có hiệu quả nguồn tài nguyên viễn thông và nâng cao chất lượng dịch vụ viễn thông cho người dùng. Một số ứng dụng của khai phá dữ liệu trong ngành công nghiệp viễn thông như: - Phân tích nguồn dữ liệu đa chiều trong viễn thông. - Xây dựng mô hình để quản lý và phát hiện gian lận trong viễn thông. - Quản lý và phát hiện trong giao dịch viễn thông. - Phân tích hành vi sử dụng dịch vụ viễn thông của khách hàng để tư vấn cũng như có những chiến lược phát triển khác. - Phân tích dữ liệu viễn thông thông qua các công cụ trực quan. + Bài toán phát hiện xâm nhập bất hợp pháp và an ninh mạng là một trong những hướng ứng dụng quan trọng ngày nay bởi vì việc ngặn chặn và phát hiện xâm nhập bất hợp pháp sẽ ngăn chặn được các đe dọa đến an toàn và bảo mật của tài nguyên. Trong thế giới phẳng bảo mật đã trở thành vấn đề lớn đối với sự tồn tại của hệ thống. Với sự phát triển của công nghệ và sự sẵn có của các công cụ trên web, việc kiểm soát truy cập bất hợp pháp là vấn đề rất quan trọng cho các hệ thống hiện nay. Bài toán này được ứng dụng qua khai phá dữ liệu để có thể phát hiện xâm nhập theo các hướng như kỹ thuật phát hiện xâm nhập; phân tích, kết hợp, tương quan và khác biệt giữa các yếu tố để phát hiện xâm nhập; phân tích dòng dữ liệu để phát hiện bất thường, vv.
- Xem thêm -

Tài liệu liên quan