Đăng ký Đăng nhập
Trang chủ Giáo dục - Đào tạo Cao đẳng - Đại học Khoa học xã hội Phân tích yếu tố ảnh hưởng quan trọng đến nâng cao chất lượng giảng dạy bằng dat...

Tài liệu Phân tích yếu tố ảnh hưởng quan trọng đến nâng cao chất lượng giảng dạy bằng data mining áp dụng với dữ liệu tại khoa kỹ thuật công nghệ trường đại học thủ dầu một

.PDF
39
1
79

Mô tả:

UBND TỈNH BÌNH DƢƠNG TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT NGUYỄN THẾ BẢO PHÂN TÍCH YẾU TỐ ẢNH HƯỞNG QUAN TRỌNG ĐẾN NÂNG CAO CHẤT LƯỢNG GIẢNG DẠY BẰNG DATA MINING – ÁP DỤNG VỚI DỮ LIỆU TẠI KHOA KỸ THUẬT – CÔNG NGHỆ TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN MÃ SỐ: 8480104 LUẬN VĂN THẠC SỸ BÌNH DƯƠNG, năm 2019 UBND TỈNH BÌNH DƢƠNG TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT NGUYỄN THẾ BẢO PHÂN TÍCH YẾU TỐ ẢNH HƯỞNG QUAN TRỌNG ĐẾN NÂNG CAO CHẤT LƯỢNG GIẢNG DẠY BẰNG DATA MINING – ÁP DỤNG VỚI DỮ LIỆU TẠI KHOA KỸ THUẬT – CÔNG NGHỆ TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN MÃ SỐ: 8480104 LUẬN VĂN THẠC SỸ NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS. LÊ TUẤN ANH BÌNH DƯƠNG, năm 2019 LỜI CAM ĐOAN Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi. Các số liệu, kết quả nêu trong Luận văn là trung thực và chƣa từng đƣợc ai công bố trong bất kỳ công trình nào khác. Tôi xin cam đoan rằng mọi sự giúp đỡ cho việc thực hiện Luận văn này đã đƣợc cảm ơn và các thông tin trích dẫn trong Luận văn đã đƣợc chỉ rõ nguồn gốc. Học viên thực hiện đề tài Nguyễn Thế Bảo i LỜI CẢM ƠN Để có thể hoàn thành Luận văn này, tôi xin gửi lời cảm ơn chân thành tới PGS.TS. Lê Tuấn Anh. Thầy đã tận tình giảng dạy, hƣớng dẫn giúp tôi tiếp cận việc nghiên cứu của mình. Thầy đã luôn tận tâm động viên, khuyến khích và chỉ dẫn giúp tôi hoàn thành đƣợc luận văn này. Bên cạnh đó, tôi xin gửi lời cảm ơn tới quý Thầy/Cô, các bạn sinh viên ở Khoa Kỹ thuật – Công nghệ, Trƣờng Đại học Thủ Dầu Một đã hỗ trợ trong quá trình khảo sát dữ liệu. Đặc biệt xin gửi lời cảm ơn tới Thạc sĩ Hồ Đắc Hƣng đã nhiệt tình giúp đỡ trong quá trình thực hiện luận văn này. Học viên thực hiện đề tài Nguyễn Thế Bảo ii MỤC LỤC LỜI CAM ĐOAN ............................................................................................................... i LỜI CẢM ƠN .................................................................................................................... ii MỤC LỤC ......................................................................................................................... iii DANH MỤC BẢNG .......................................................................................................... v DANH MỤC HÌNH, ĐỒ THỊ .......................................................................................... vi DANH MỤC CHỮ VIẾT TẮT....................................................................................... vii MỞ ĐẦU ............................................................................................................................. 1 CHƢƠNG 1. TỔNG QUAN ................................................................................................ 2 1.1. Giới thiệu............................................................................................................ 2 1.2. Khai phá dữ liệu ................................................................................................. 2 1.3. Mục tiêu của luận văn ........................................................................................ 5 1.4. Đối tƣợng nghiên cứu và phạm vi nghiên cứu ................................................... 5 CHƢƠNG 2. CÁC NGHIÊN CỨU LIÊN QUAN ............................................................. 6 2.1. Khai phá dữ liệu giáo dục .................................................................................. 6 2.2. Một số phƣơng pháp khai phá dữ liệu đƣợc sử dụng trong luận văn ................ 8 2.2.1 Cây quyết định ............................................................................................. 8 2.2.2 Naive Bayes ................................................................................................. 8 2.2.3 Support Vector Machine (SVM) ................................................................. 9 2.2.4 k-NN ............................................................................................................ 9 2.2.5 Multilayer Perceptron ................................................................................ 10 2.2.6 Bảng quyết định (Decision Table) ............................................................. 11 2.3. Tiêu chí đánh giá đặc trƣng.............................................................................. 11 2.3.1 Xếp hạng đặc trƣng dựa vào độ tƣơng quan (Correlation-based) (CB) .. 11 2.3.2 Xếp hạng đặc trƣng dựa vào Info Gain (IG) .............................................. 11 2.3.3 Xếp hạng đặc trƣng dựa vào Gain Ratio (GR) [7] [9] ............................... 12 2.3.4 Xếp hạng đặc trƣng OneR (OneR) ............................................................ 13 CHƢƠNG 3. XÂY DỰNG MÔ HÌNH ............................................................................. 14 3.1. Mô hình ............................................................................................................ 14 3.2. Thiết kế câu hỏi khảo sát.................................................................................. 14 3.3. Lựa chọn đặc trƣng .......................................................................................... 17 3.4. Áp dụng các phƣơng pháp khai phá dữ liệu .................................................... 18 iii CHƢƠNG 4. ĐÁNH GIÁ KẾT QUẢ ............................................................................... 19 4.1. Thực nghiệm .................................................................................................... 19 4.2. Đánh giá kết quả thực nghiệm ......................................................................... 22 4.2.1 Khai phá dữ liệu với tập dữ liệu chƣa rút trích đặc trƣng (B1) ................. 22 4.2.2 Khai phá dữ liệu với tập dữ liệu đã rút trích đặc trƣng (B2) ..................... 22 4.2.3 So sánh các kết quả xây dựng mô hình từ tập dữ liệu ban đầu và tập dữ liệu đã đƣợc trích chọn đặc trƣng (B3) ............................................................ 24 4.2.4 Thử nghiệm trên dữ liệu của từng giảng viên. ........................................... 25 KẾT LUẬN VÀ KIẾN NGHỊ ......................................................................................... 28 TÀI LIỆU THAM KHẢO............................................................................................... 29 iv DANH MỤC BẢNG Bảng 3.1: Câu hỏi khảo sát ............................................................................................... 15 Bảng 4.1: Chi tiết tập dữ liệu............................................................................................ 21 Bảng 4.2: Kết quả khai phá dữ liệu với tập dữ liệu chƣa rút trích đặc trƣng ................... 22 Bảng 4.3: Sáu đặc trƣng có ảnh hƣởng nhất theo từng thuật toán xếp hạng .................... 23 Bảng 4.4: Bốn đặc trƣng có ít ảnh hƣởng nhất theo từng thuật toán xếp hạng ................ 23 Bảng 4.5: Độ chính xác của các mô hình khi khai phá dữ liệu với tập dữ liệu đã rút gọn đặc trƣng ............................................................................................................................ 24 Bảng 4.6: Thời gian khi mô hình khi khai phá dữ liệu với tập dữ liệu đã rút gọn đặc trƣng................................................................................................................................... 24 Bảng 4.7: So sánh độ chính xác, thời gian thực thi khi áp dụng các thuật toán khai phá dữ liệu với tập dữ liệu ban đầu và tập dữ liệu đã rút gọn đặc trƣng bằng OneR ............... 25 Bảng 4.8. Độ chính xác (%) khi khai phá dữ liệu với tập dữ liệu GV1 ........................... 26 Bảng 4.9: Thời gian thực thi khi khai phá dữ liệu với tập dữ liệu GV1........................... 26 Bảng 4.10: Độ chính xác (%) khi khai phá dữ liệu với tập dữ liệu GV2 ......................... 27 Bảng 4.11: Thời gian thực thi khi khai phá dữ liệu với tập dữ liệu GV2......................... 27 v DANH MỤC HÌNH, ĐỒ THỊ Hình 1.1: Quá trình khám phá tri thức [7] ........................................................................... 3 Hình 2.1: Mạng nơ-ron truyền thẳng nhiều lớp [17] ......................................................... 10 Hình 3.1: Quá trình thực hiện ............................................................................................ 14 Hình 4.1: Lƣu đồ thực nghiệm .......................................................................................... 20 vi DANH MỤC CHỮ VIẾT TẮT TỪ VIẾT TẮT TIẾNG ANH TIẾNG VIỆT AUN ASEAN University Network PDCA Plan-Do-Check-Act AUN-QA ASEAN University Network – Hệ thống đại học ASEAN Quality Assurance EDM Education Data Mining Khai phá dữ liệu trong giáo dục SVM Support Vector Machine Máy vec-tơ hỗ trợ k-NN k-Nearest Neighbor k- láng giềng MLP MultiLayer Perceptron Mạng nơ-ron nhiều lớp SMO Sequential Minimal Optimization NB Naïve Bayes DT Decision Table Bảng quyết định KQHTMĐ Kết quả học tập mong đợi CB Correlation-based IG Info Gain GR Gain Ratio vii MỞ ĐẦU Việc đảm bảo, cải thiện chất lƣợng là một yếu tố sống còn đối với bất kỳ tổ chức nào, các cơ sở giáo dục đại học cũng không phải là ngoại lệ. Nâng cao chất lƣợng đào tạo là nhiệm vụ quan trọng hàng đầu, là hƣớng đi mà các trƣờng hƣớng tới để có thể nâng tầm của mình, sánh vai với các trƣờng trên thế giới. Trƣờng Đại học Thủ Dầu Một đang tập trung hoàn thiện lộ trình xây dựng chƣơng trình đào tạo, đổi mới phƣơng pháp giảng dạy theo sáng kiến CDIO, đáp ứng chuẩn kiểm định trong và ngoài nƣớc, nên đảm bảo chất lƣợng là một nhiệm vụ quan trọng mà các Khoa, Chƣơng trình đào tạo phải thực hiện. Data mining (Khai phá dữ liệu) là công cụ mạnh mẽ trong việc tìm kiếm thông tin hữu ích từ dữ liệu. Khai phá dữ liệu đƣợc sử dụng để khám phá tri thức trong hầu hết các lĩnh vực của đời sống xã hội. Áp dụng khai phá dữ liệu vào lĩnh vực giáo dục cũng rất đƣợc quan tâm ở những năm gần đây. Cùng với sự gia tăng của các tài nguyên học tập điện tử, các phần mềm hỗ trợ học tập và sự kết nối internet trong giáo dục đã tạo ra một lƣợng lớn dữ liệu giáo dục. Tùy vào nhu cầu của mình mà các cơ sở giáo dục có phân tích đánh giá dữ liệu của riêng mình, từ đó hỗ trợ cho việc ra quyết định. Ở các cơ sở giáo dục đại học, việc áp dụng khai phá dữ liệu để phân tích tìm ra các yếu tố ảnh hƣởng đến chất lƣợng giáo dục từ đó có biện pháp cải thiện, nâng cao chất lƣợng giáo dục là một việc làm cần thiết. Trong đề tài này, chúng tôi sử dụng các phƣơng pháp khai phá dữ liệu kết hợp với các phƣơng pháp xếp hạng đặc trƣng áp dụng vào dữ liệu khảo sát đƣợc, so sánh kết quả xây dựng mô hình trƣớc và sau khi rút trích đặc trƣng để xác định yếu tố nào ảnh hƣởng quan trọng tới kết quả học tập của sinh viên tại Khoa Kỹ thuật Công nghệ, Trƣờng Đại học Thủ Dầu Một. Luận văn này đƣợc chia làm 4 Chƣơng: Chƣơng 1 – Giới thiệu tổng quan về Đảm bảo chất lƣợng, cải thiện chất lƣợng tại cơ sở giáo dục đại học và quá trình Khám phá tri thức; mục tiêu và đối tƣợng nghiện cứu của đề tài. Chƣơng 2 – Giới thiệu về khai phá dữ liệu trong giáo dục và các nghiên cứu liên quan. Chƣơng 3 – Đề xuất mô hình và quá trình thực hiện. Chƣơng 4 – Các thực nghiệm trong luận văn. 1 CHƯƠNG 1. TỔNG QUAN 1.1. Giới thiệu Việc đảm bảo, cải thiện chất lƣợng là một yếu tố sống còn đối với bất kỳ tổ chức nào, các cơ sở giáo dục đại học cũng không phải là ngoại lệ. Để có thể tồn tại và phát triển thì các cơ sở giáo dục đại học cần phải khẳng định đƣợc chất lƣợng đào tạo. Đảm bảo chất lƣợng là mối quan tâm hàng đầu của các cơ sở giáo dục đại học hiện nay. Theo Hệ thống các trƣờng Đại học Đông Nam Á (ASEAN Network University – AUN), “Chất lƣợng” là sự phù hợp với mục tiêu và là sự điều chỉnh hợp lý giữa yêu cầu của các thành phần liên quan, chuyển tải thành công các yêu cầu đó vào mục tiêu đào tạo và đạt đƣợc mục tiêu đó [5] vì vậy việc đảm bảo chất lƣợng tại các cơ sở giáo dục đại học phải gắn liền với hoạt động khảo sát các bên liên quan. Các bên liên quan bao gồm: Nhà nƣớc, Doanh nghiệp, Nhà tuyển dụng, Ban giám hiệu, Giảng viên, Nhân viên hỗ trợ, Sinh viên, Cựu sinh viên,…. Trƣờng Đại học Thủ Dầu Một đang tập trung hoàn thiện lộ trình xây dựng chƣơng trình đào tạo, đổi mới phƣơng pháp giảng dạy theo sáng kiến CDIO, đáp ứng chuẩn AUN-QA, nên đảm bảo chất lƣợng là một nhiệm vụ quan trọng mà các Khoa, Chƣơng trình đào tạo phải thực hiện.Việc xác định đƣợc các yếu tố ảnh hƣởng quan trọng tới việc kết quả học tập của sinh viên góp phần vào quá trình cải tiến chất lƣợng. Từ đó, đƣa ra giải pháp thực hiện phù hợp là việc làm cần thiết để nâng cao chất lƣợng đào tạo. Do đó việc khảo sát ý kiến các bên liên quan từ đó sử dụng các kỹ thuật khai phá dữ liệu để phân tích, đánh giá tìm ra các thông tin hữu ích sẽ giúp cho việc hỗ trợ ra các quyết định. 1.2. Khai phá dữ liệu Khai phá dữ liệu [7] là công cụ mạnh mẽ trong cuộc cách mạng trí tuệ nhân tạo. Trong khi lƣợng dữ liệu không ngừng gia tăng, ngày càng áp đảo chúng ta với lƣợng lớn dữ liệu đƣợc tạo ra, thì khả năng hiểu biết của con ngƣời về nó lại giảm đi. Nằm ẩn bên trong dữ liệu là các thông tin hữu ích mà hiếm khi đƣợc làm sáng tỏ hay sử dụng đúng cách. Khai phá dữ liệu để làm sáng tỏ các mô hình, phân tích dữ liệu thông minh là một nguồn tài nguyên vô cùng quý giá. Nó có thể dẫn đến những hiểu biết mới, các thông tin có giá trị. Khai phá dữ liệu là giải quyết các vấn đề bằng cách phân tích dữ liệu đã có. Ví dụ các siêu thị có thể thu thập thông tin mua hàng của 2 khách hàng về thói quan mua hàng, thói quen khi kết hợp các loại hàng hóa; từ đó phân tích để có thể sắp xếp, bố trí các loại mặt hàng có liên quan ở gần nhau để tạo ra sự thuận lợi, thu hút sự quan tâm của khách hàng đối với các mặt hàng từ đó nâng cao khả năng bán hàng. Trong thời đại ngày nay, nền kinh tế có tính cạnh tranh cao, tập trung vào khách hàng, hƣớng đến dịch vụ thì việc phân tích dữ liệu khách hàng đúng cách sẽ thúc đẩy tăng trƣởng kinh doanh. Khai phá dữ liệu đƣợc định nghĩa là quá trình khám phá các mẫu dữ liệu một cách tự động. Các mẫu đƣợc khai phá phải mang thông tin hữu ích để có thể tạo ra lợi thế, thông thƣờng là lợi thế trong kinh doanh. Dựa vào các mẫu hữu ích để có thể đƣa ra các dự đoán cho dữ liệu mới. Quá trình khám phá tri thức đƣợc thể hiện nhƣ Hình 1.1 Tri thức Đánh giá các mẫu Khai phá dữ liệu Dữ liệu đã đƣợc chuyển đổi Chuyển đổi dữ liệu Dữ liệu đã đƣợc tiền xử lý Tiền xử lý dữ liệu Kho dữ liệu Lựa chọn dữ liệu Tích hợp dữ liệu Nguồn Dữ liệu Hình 1.1: Quá trình khám phá tri thức [7] 3 Các mẫu Quá trình khám phá tri thức là một quá trình lặp đi lặp lại gồm các bƣớc :  Lựa chọn dữ liệu: phụ thuộc vào bài toán cần phân tích  Tiền xử lý: làm sạch dữ liệu, tích hợp dữ liệu.  Chuyển đổi dữ liệu về dạng phù hợp, thuận lợi cho việc khai phá  Khai phá dữ liệu  Đánh giá các mẫu (xây dựng mô hình)  Biểu diễn tri thức Trong quá trình phát hiện tri thức, khai phá dữ liệu là một bƣớc chủ yếu trong quá trình đó có nhiệm vụ tạo ra các mẫu mới trong từ dữ liệu đã đƣợc xử lý và chuyển dạng. Tùy vào miền ứng dụng, mục đích và nhiệm vụ khác nhau để sử dụng các phƣơng pháp khai phá khác nhau. Các nhóm bài toán chính của Khai phá dữ liệu: Bài toán phân loại (phân lớp - Classification): đây là bài phổ biến trong khai phá dữ liệu. Phân loại là việc xây dựng mô hình nhằm mô tả hay phát hiện lớp cho các dự báo tiếp theo. Ví dụ phân lớp một văn bản vào một lớp văn bản đã biết, hoặc phân loại một email có phải là email spam hay không,… Các thuật toán sử dụng trong bài toán phân loại: Cây quyết định (Decision tree), Mạng nơ-ron, Luật kết hợp,… Bài toán phân cụm (Clustering): Bài toán phân cụm hay còn gọi là phân đoạn. Điểm khác với bài toán phân loại là ở đây các nhãn lớp chƣa biết và không có huấn luyện. Các đối tƣợng đƣợc phân loại dựa trên các thuộc tính tƣơng đồng giữa chúng. Bài toán phân lớp hay còn gọi là học không có giám sát. Hồi quy (Regression): đây là bài toán điển hình trong thống kê và dự báo, trong đó tiến hành dự đoán giá trị của một hoặc một số biến phụ thuộc vào giá trị của một tập hợp các biến độc lập. Việc dự báo các giá trị số thƣờng đƣợc làm bởi các phƣơng pháp thống kê cổ điển, chẳng hạn nhƣ hồi quy tuyến tính. Tuy nhiên, phƣơng pháp mô hình hoá cũng đƣợc sử dụng, ví dụ: cây quyết định. Mô hình phụ thuộc (Dependency modeling): hƣớng tới việc tìm kiếm mô hình mô tả sự phụ thuộc có ý nghĩa giữa các biến. Phát hiện biến đổi và độ lệch (Change and Deviation Dectection): tập trung vào việc phát hiện sự thay đổi có ý nghĩa dƣới dạng độ đo đã biết trƣớc hoặc giá trị chuẩn, cung cấp những tri thức về sự biến đổi và độ lệch cho ngƣời dùng. 4 1.3. Mục tiêu của luận văn Mục tiêu của luận văn là xác định yếu tố ảnh hƣởng quan trọng đến kết quả học tập của sinh viên nhóm ngành Công nghệ thông tin (Kỹ thuật Phần mềm và Hệ thống Thông tin) tại Khoa Kỹ thuật Công nghệ, Trƣờng Đại học Thủ Dầu Một. 1.4. Đối tƣợng nghiên cứu và phạm vi nghiên cứu Đối tƣợng nghiên cứu các yếu tố ảnh hƣởng đến kết quả học tập của sinh viên nhóm ngành Công nghệ thông tin và các thuật toán của khai phá dữ liệu (Decision Table (bảng quyết định), J48 (cây quyết định), Multilayer Perceptron, Naive Bayes, SMO và kNN) và các thuật toán rút trích đặc trƣng. Phạm vi nghiên cứu: sinh viên nhóm ngành Công nghệ thông tin (Kỹ thuật Phần mềm và Hệ thống Thông tin) tại Khoa Kỹ thuật – Công nghệ, Trƣờng Đại học Thủ Dầu Một. Trong chƣơng này, luận văn đã giới thiệu tổng quan về cải thiện, đảm bảo chất lƣợng, cũng nhƣ công tác đảm bảo chất lƣợng tại Trƣờng đại học Thủ Dầu Một nói chung và Khoa Kỹ thuật công nghệ nói riêng. Bên cạnh đó, chƣơng này còn giới thiệu tổng quan về quá trình khám phá tri thức, các vấn đề liên quan đến khai phá dữ liệu, các ứng dụng của khai phá dữ liệu. Đồng thời trong chƣơng này đã trình bày mục tiêu, đối tƣợng nghiên cứu của đề tài. Trong chƣơng tiếp theo sẽ trình bày các nghiên cứu liên quan, các kỹ thuật của khai phá dữ liệu, các thuật toán xếp hạng đặc trƣng đƣợc áp dụng vào luận văn này. 5 CHƯƠNG 2. CÁC NGHIÊN CỨU LIÊN QUAN Tổng quát về khai phá dữ liệu vào giáo dục, các nghiên cứu liên quan trong và ngoài nƣớc, các phƣơng pháp khai phá dữ liệu và các phƣơng pháp xếp hạng đặc trƣng dùng trong luận văn đƣợc trình bày trong chƣơng này. 2.1. Khai phá dữ liệu giáo dục Khai phá dữ liệu đƣợc áp dụng trong nhiều lĩnh vực khác nhau. Trong những năm gần đây, cùng với sự gia tăng của các tài nguyên học tập điện tử, các phần mềm hỗ trợ học tập và sự kết nối internet trong giáo dục đã tạo ra một lƣợng lớn dữ liệu giáo dục. Các dữ liệu này là tài nguyên vô cùng giá trị để khai phá dữ liệu có thể khai thác. Với lƣợng dữ liệu lớn đó, nó đã tạo ra một thách thức đối với các cơ sở giáo dục đó là làm sao có thể khai thác đƣợc nguồn dữ liệu này, từ đó có áp dụng vào cơ sở của mình để cải thiện chất lƣợng. Khai phá dữ liệu trong giáo dục (EDM) [4] liên quan tới việc nghiên cứu, phát triển và áp dụng các phƣơng pháp bằng máy tính để khám phá ra các mẫu quan trọng từ khối dữ liệu giáo dục khổng lồ. EDM đã nổi lên nhƣ một lĩnh vực nghiên cứu độc lập, bắt đầu với nghiên cứu về hệ thống gia sƣ thông minh, trí tuệ nhân tạo trong giáo dục. Hội thảo đầu tiên, đƣợc giới thiệu biết đến là “Khai thác dữ liệu giáo dục”, đã diễn ra vào năm 2005 và đến năm 2008 đã đƣợc nâng lên thành Hội nghị quốc tế thƣờng niên về giáo dục. Từ đó đến nay các Hội nghị đƣợc diễn ra hàng năm. Hội nghị EDM lần thứ 11 năm 2018, diễn ra tại Đại học Buffalo NewYork từ ngày 15-18 tháng 07 năm 2018. Khai thác dữ liệu giáo dục là khai thác các bộ dữ liệu để trả lời các câu hỏi nghiên cứu giáo dục làm sáng tỏ quá trình học tập. Các bộ dữ liệu này có thể bắt nguồn từ nhiều bối cảnh học tập, bao gồm hệ thống quản lý học tập, môi trƣờng học tập tƣơng tác, hệ thống trợ giảng thông minh. Mục tiêu bao trùm của Khai thác dữ liệu giáo dục là hỗ trợ ngƣời học tốt hơn bằng cách phát triển sự hiểu biết dựa trên dữ liệu về quá trình học tập trong nhiều loại bối cảnh và nhiều ngƣời học khác nhau. Khai phá dữ liệu đƣợc áp dụng thành công trong nhiều lĩnh vực khác nhau nhƣ y tế, kinh doanh, di truyền học,…mặc dù phƣơng pháp có thể giống nhau nhƣng mục đích là khác nhau. Ví dụ khi so sánh mục đích giữa kinh doanh và giáo dục, trong khi kinh doanh hƣớng đến lợi nhuận, lợi nhuận là thứ có thể đo đếm đƣợc thông qua thứ 6 hữu hình nhƣ là tổng doanh thu hoặc là thông qua trung gian nhƣ là sự hài lòng của khách hàng. Trong khi mục đích của giáo dục là cải thiện chất lƣợng giảng dạy – rất khó để đo đếm đƣợc. Một cách tổng quát, khai phá dữ liệu trong giáo dục phải tạo ra đƣợc thông tin có tính định hƣớng hỗ trợ cho quá trình ra quyết định để cải thiện quá trình giảng dạy và học tập hiện nay. Tuy nhiên, việc áp dụng khai phá dữ liệu vào giáo dục còn phụ thuộc rất nhiều vào tình hình thực tế tại các sơ sở giáo dục. Ở nghiên cứu [1], [2] Nguyễn Thái Nghe và cộng sự đã sử dụng Kỹ thuật phân rã ma trận để dự đoán kết quả học tập của sinh viên tại Trƣờng đại học Cần Thơ. Các tác giả kết hợp xây dựng ứng dụng từ đó giúp sinh viên lập kế hoạch học tập phù hợp. Việc xác định đƣợc kế hoạch học tập phù hợp sẽ giúp sinh viên và nhà trƣờng tránh đƣợc sự lãng phí về nhiều mặt. Ở nghiên cứu [3] đã sử dụng nhiều phƣơng pháp khai phá dữ liệu nhƣ Cây quyết định (J48), Mạng nơ-ron nhiều lớp (Multilayer Perceptron), phƣơng pháp Naïve Bayes và phƣơng pháp SMO (Sequential Minimal Optimization) để dự đoán kết quả học tập của sinh viên dựa vào tập dữ liệu thu thập đƣợc tại Đại học Gazi ở Ankara, Thổ Nhĩ Kỳ. Các tác giả đã so sánh độ chính xác giữa các thuật toán khi áp dụng vào tập dữ liệu thu thập đƣợc. Sử dụng các phƣơng pháp học máy [12] để dự đoán kết học tập của học viên cao học ở Đại học Ionia (Hoa Kỳ) dựa vào kiến thức nền và mức độ đáp ứng ở giữa kỳ của học viên. Từ đó, phân loại đƣợc các nhóm học viên để giúp giảng viên có kế hoạch giảng dạy phù hợp. Lựa chọn đặc trƣng là việc làm quan trọng đối với khai phá dữ liệu, dữ liệu ban đầu có thể chứa rất nhiều thuộc tính nhƣng không phải tất cả đều có liên quan tới việc khai phá. Nghiên cứu [11] đã so sánh kết quả phân tích dữ liệu trƣớc và sau khi sử dụng các phƣơng pháp lựa chọn đặc trƣng bằng công cụ WEKA [12]. Kết quả chỉ ra rằng phƣơng pháp phân loại khi kết hợp với lựa chọn đặc trƣng sẽ cho kết quả khả quan hơn. Trong luận văn này, chúng tôi kết hợp phƣơng pháp lựa chọn đặc trƣng và các phƣơng pháp khai phá dữ liệu nhƣ Bảng quyết định, Cây quyết định, Mạng nơ-ron nhiều lớp, phƣơng pháp Naïve Bayes, phƣơng pháp k-NN và phƣơng pháp SMO để tiến hành phân tích dữ liệu. 7 2.2. Một số phƣơng pháp khai phá dữ liệu đƣợc sử dụng trong luận văn 2.2.1 Cây quyết định Cây quyết định (Decision tree) là một mô hình phân lớp điển hình. Việc xây dựng các cây quyết định chính là quá trình phát hiện ra các luật phân chia tập dữ liệu đã cho thành các lớp đã đƣợc định nghĩa trƣớc. Một cây quyết định là một cấu trúc hình cây, bao gồm: Mỗi nút trong (nút có thể khai triển đƣợc) biểu thị cho một phép thử đối với một thuộc tính; Mỗi nhánh biểu thị cho một kết quả của một phép thử; Các nút lá (các nút không khai triển đƣợc) biểu thị các lớp hoặc các phân bố lớp; Nút trên cùng trong một cây đƣợc gọi là gốc. Trên mỗi tập mẫu huấn luyện, về cơ bản các thuật toán phân lớp dữ liệu bằng cây quyết định phải thực hiện 2 bƣớc sau: Bước 1: Chọn thuộc tính Ai có các giá trị 𝑎𝑖1,𝑎𝑖2,…,𝑎𝑖𝑛 Bước 2: Với thuộc tính Ai đƣợc chọn, tạo một nút của cây và sau đó chia tập mẫu này thành v tập mẫu D1, D2, …, Dv tƣơng ứng với v nút đƣợc tạo và sau đó lại tiếp tục. Trong đó, Bƣớc 2 là bƣớc phân chia với kết quả nhận đƣợc từ Bước 1, điều này có nghĩa là chất lƣợng của cây kết quả phụ thuộc phần lớn vào cách chọn thuộc tính và cách phân chia tập mẫu tại mỗi nút. Chính vì điều này, các thuật toán đều phải tính lợi ích thông tin nhận đƣợc trên các thuộc tính và chọn thuộc tính tƣơng ứng có lợi ích thông tin tốt nhất để làm nút phân tách trên cây, nhằm để đạt đƣợc cây có ít nút nhƣng có khả năng dự đoán cao. 2.2.2 Naive Bayes Navie Bayes là giải thuật phân loại dựa vào xác suất đƣợc sử dụng rộng rãi trong lĩnh vực học máy. Với giả sử rằng các thuộc tính hoàn toàn độc lập với nhau. Thuật toán phân lớp bằng Navie Bayes dựa trên định lý Bayes đƣợc phát biểu nhƣ sau: ( ⁄ ) ( ) ( ⁄ ) ( ) 8 , (1) trong đó: Y đại diện một giả thuyết, giả thuyết này đƣợc suy luận khi có đƣợc chứng cứ mới X; P(X): xác suất X xảy ra; P(Y): xác suất Y xảy ra; P(X|Y): xác suất X xảy ra khi Y xảy ra (xác suất có điều kiện, khả năng X khi Y đúng); P(Y|X): xác suất của Y nếu biết X. Áp dụng trong bài toán phân loại, các dữ kiện cần có: - D: tập dữ liệu huấn luyện, trong đó các phần tử đã đƣợc vector hoá dƣới dạng =( x1, x2, … , xn ). - Ci: tập các lớp của D, với i= {1, 2, 3, …m} - Các thuộc tính x1, x2, …xn độc lập xác suất đôi một với nhau. theo định lý Bayes: ( ( ) ) ( ) (2) ( ) Khi áp dụng với tập dữ liệu lớn, việc tính toán P(X|Ci) sẽ mất chi phí rất lớn. bằng giả định các thuộc tính x1, x2, …xn độc lập xác suất với nhau, nên có thể tính: ( ⁄ ) ∏ ( ⁄ ) ( ⁄ ) ( ⁄ ) ( ) (3) khi đó với một phần tử chƣa biết Xmới có n thuộc tính, Xmới = {x1, x2, … xn}. Bộ phân lớp sẽ dự đoán rằng Xmới sẽ thuộc về lớp với xác suất có điều kiện cao nhất: Xmới Ci khi và chỉ khi ( )> ( ) với 1 ≤ i ≤ m, i≠j (4) 2.2.3 Support Vector Machine (SVM) SVM (Support Vector Machine) [7] là một thuật toán học máy có giám sát đƣợc sử dụng rất phổ biến ngày nay trong các bài toán phân lớp (classification) hay hồi qui (Regression). Ý tƣởng của SVM là tìm một siêu phẳng (hyper plane) để phân tách các điểm dữ liệu. Siêu phẳng này chia không gian thành các miền khác nhau và mỗi miền chứa một loại dữ liệu. Mỗi siêu phẳng đều có thể đƣợc viết dƣới dạng một tập hợp các điểm X thỏa mãn: W.X + b = 0 (5) trong đó: dấu “.” là tích vô hƣớng; W là một vector pháp tuyến của siêu phẳng. 2.2.4 k-NN k-NN (k-Nearest Neighbor) [9] là thuật toán đi tìm đầu ra của một điểm dữ liệu mới bằng cách chỉ dựa trên thông tin của k điểm dữ liệu trong tập dữ liệu huấn luyện gần nó nhất (k-lân cận). 9 Thuật toán k-NN làm việc nhƣ thế nào ?  Bƣớc 1: Xác định tham số k = số láng giềng gần nhất.  Bƣớc 2: Tính toán khoảng cách giữa mẫu thử và những mẫu huấn luyện.  Bƣớc 3: Sắp xếp khoảng cách và xác định k khoảng cách nhỏ nhất.  Bƣớc 4: Thu thập giá trị thuộc tính của k láng giềng gần nhất  Bƣớc 5: Sử dụng giá trị trung bình của k láng giềng gần nhất để phán đoán giá trị của đối tƣợng đang đƣợc phán đoán. Một nhƣợc điểm của k-NN là rất chậm khi kích thƣớc của tập dữ liệu tăng lên. Độ phức tạp của nó là O(n). 2.2.5 Multilayer Perceptron Mạng truyền thẳng nhiều lớp (MultiLayer Perceptron - MLP) [17] là mạng truyền thẳng điển hình thƣờng đƣợc sử dụng trong các hệ thống nhận dạng. Một mạng truyền thẳng nhiều lớp bao gồm một lớp vào, một lớp ra và một hoặc nhiều lớp ẩn. Các nơ-ron đầu vào thực chất không phải các nơ-ron theo đúng nghĩa, bởi lẽ chúng không thực hiện bất kỳ một tính toán nào trên dữ liệu vào, đơn giản nó chỉ tiếp nhận các dữ liệu vào và chuyển cho các lớp kế tiếp. Các nơ-ron ở lớp ẩn và lớp ra mới thực sự thực hiện các tính toán, kết quả đƣợc định dạng bởi hàm đầu ra (hàm chuyển). Cụm từ “truyền thẳng” (feed forward) liên quan đến một thực tế là tất cả các nơ-ron chỉ có thể đƣợc kết nối với nhau theo một hƣớng: tới một hay nhiều các nơron khác trong lớp kế tiếp (loại trừ các nơ-ron ở lớp ra). Hình 2.1: Mạng nơ-ron truyền thẳng nhiều lớp [17] trong đó: P: Vector đầu vào (vector cột); Wi : Ma trận trọng số của các nơ-ron lớp thứ i; (Si x Ri : S hàng (nơ-ron) - R cột (số đầu vào)); bi : Vector độ lệch (bias) của lớp 10 thứ i (Si x1: cho S nơ-ron); ni : net input (Si x1); fi : Hàm chuyển (hàm kích hoạt); ai : net output (Si x1); ⊕: Hàm tổng thông thƣờng. Mỗi liên kết gắn với một trọng số, trọng số này đƣợc thêm vào trong quá trình tín hiệu đi qua liên kết đó. Các trọng số có thể dƣơng, thể hiện trạng thái kích thích, hay âm, thể hiện trạng thái kiềm chế. Mỗi nơ-ron tính toán mức kích hoạt của chúng bằng cách cộng tổng các đầu vào và đƣa ra hàm chuyển. Một khi đầu ra của tất cả các nơron trong một lớp mạng cụ thể đã thực hiện xong tính toán thì lớp kế tiếp có thể bắt đầu thực hiện tính toán của mình bởi vì đầu ra của lớp hiện tại tạo ra đầu vào của lớp kế tiếp. Khi tất cả các nơ-ron đã thực hiện tính toán thì kết quả đƣợc trả lại bởi các nơ-ron đầu ra. Tuy nhiên, có thể là chƣa đúng yêu cầu, khi đó một thuật toán huấn luyện cần đƣợc áp dụng để điều chỉnh các tham số của mạng. Xét trƣờng hợp mạng có hai lớp nhƣ hình 5, công thức tính toán cho đầu ra nhƣ sau: 𝑎 ( ( ( )) (6) Mạng có nhiều lớp có khả năng tốt hơn là các mạng chỉ có một lớp, chẳng hạn nhƣ mạng hai lớp với lớp thứ nhất sử dụng hàm sigmoid và lớp thứ hai dùng hàm đồng nhất có thể áp dụng để xấp xỉ các hàm toán học khá tốt, trong khi các mạng chỉ có một lớp thì không có khả năng này. 2.2.6 Bảng quyết định (Decision Table) Bảng quyết định là tập hợp các luật If-Then đƣợc sắp xếp một cách thuận tiện và dễ hiểu hơn Cây quyết định. Bảng quyết định đƣợc sử dụng vì nó đơn giản, tính toán ít hơn so với Cây quyết định. 2.3. Tiêu chí đánh giá đặc trƣng 2.3.1 Xếp hạng đặc trƣng dựa vào độ tƣơng quan (Correlation-based) (CB) Đây là phƣơng pháp xếp hạng các đặc trƣng bằng cách đánh giá mức độ liên quan giữa các đặc trƣng với lớp mục tiêu. Phƣơng pháp này sử dụng hệ số tƣơng quan Pearson [8] để đánh giá mức độ liên quan của từng đặc trƣng với lớp mục tiêu. 2.3.2 Xếp hạng đặc trƣng dựa vào Info Gain (IG) Đây là phƣơng pháp xếp hạng mức độ quan trọng của đặc trƣng dựa vào độ lợi thông tin. 11
- Xem thêm -

Tài liệu liên quan