Đăng ký Đăng nhập
Trang chủ Phân tích dữ liệu sinh viên để dự báo tiến độ học tập sinh viên ngành cntt tại t...

Tài liệu Phân tích dữ liệu sinh viên để dự báo tiến độ học tập sinh viên ngành cntt tại trường đại học tài chính marketing

.PDF
111
1
88

Mô tả:

ĐẠI HỌC QUỐC GIA TP. HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA ----------------------- BÙI MẠNH TRƯỜNG PHÂN TÍCH DỮ LIỆU SINH VIÊN ĐỂ DỰ BÁO TIẾN ĐỘ HỌC TẬP SINH VIÊN NGÀNH CNTT TẠI TRƯỜNG ĐẠI HỌC TÀI CHÍNH – MARKETING Chuyên ngành : Hệ thống thông tin quản lý Mã số : 8.34.04.05 LUẬN VĂN THẠC SĨ TP. HỒ CHÍ MINH, tháng 08 năm 2021 CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI: TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐHQG.- HCM Cán bộ hướng dẫn khoa học : PGS. TS Nguyễn Thanh Bình Cán bộ chấm nhận xét 1 : PGS. TS Nguyễn Tuấn Đăng Cán bộ chấm nhận xét 2 : PGS. TS Vũ Thanh Nguyên Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách khoa, ĐHQG, Tp HCM ngày 06 tháng 08 năm 2021 (trực tuyến). Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm : 1. Chủ tịch : PGS. TS Đặng Trần Khánh 2. Thư ký : TS. Phan Trọng Nhân 3. Phản biện 1 : PGS. TS Nguyễn Tuấn Đăng 4. Phản biện 2 : PGS. TS Vũ Thanh Nguyên 5. Ủy viên : TS. Lê Lam Sơn Xác nhận của Chủ tịch Hội đồng đánh giá Luận văn và Trưởng khoa quản lý chuyên ngành sau khi luận văn đã được sửa chữa (nếu có). CHỦ TỊCH HỘI ĐỒNG TRƯỞNG KHOA KHOA HỌC VÀ KỸ THUẬT MÁY TÍNH i ĐẠI HỌC QUỐC GIA TP.HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự do - Hạnh phúc NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên : BÙI MẠNH TRƯỜNG Ngày, tháng, năm sinh : 07/04/1979 Chuyên ngành : Hệ thống thông tin quản lý MSHV : 1870693 Nơi sinh : Hải Phòng Mã số : 8.34.04.05 I. TÊN ĐỀ TÀI PHÂN TÍCH DỮ LIỆU SINH VIÊN ĐỂ DỰ BÁO TIẾN ĐỘ HỌC TẬP SINH VIÊN NGÀNH CNTT TẠI TRƯỜNG ĐẠI HỌC TÀI CHÍNH – MARKETING II. NHIỆM VỤ VÀ NỘI DUNG - Tìm hiểu hiện trạng trong quá trình học tập của sinh viên khoa Công nghệ thông tin bao gồm tất cả các khóa. - Tìm hiểu các kỹ thuật trong lĩnh vực Khai phá dữ liệu và Khám phá tri thức để thực hiện mục tiêu nghiên cứu. - Thu thập, xử lý và phân tích dữ liệu. - Xây dựng phương pháp để phân tích và đánh giá tiến độ học tập của sinh viên khoa Công nghệ thông tin, trường đại học Tài chính – Marketing. - Đánh giá kết quả của phương pháp đề xuất làm cơ sở tham khảo cho lãnh đạo khoa Công nghệ thông tin, cố vấn học tập và sinh viên của khoa. III. NGÀY GIAO NHIỆM VỤ : 22/02/2021 IV. NGÀY HOÀN THÀNH NHIỆM VỤ: 16/07/2021 V. CÁN BỘ HƯỚNG DẪN : PGS.TS NGUYỄN THANH BÌNH Tp. HCM, ngày … tháng … năm 2021 CHỦ NHIỆM BỘ MÔN ĐÀO TẠO (Họ tên và chữ ký) CÁN BỘ HƯỚNG DẪN (Họ tên và chữ ký) TRƯỞNG KHOA KHOA HỌC VÀ KỸ THUẬT MÁY TÍNH (Họ tên và chữ ký) iii LỜI CẢM ƠN Tôi xin gửi lời cảm ơn sâu sắc tới PGS.TS Nguyễn Thanh Bình, giảng viên khoa Khoa học và Kỹ thuật máy tính, trường đại học Bách khoa – Đại học Quốc gia thành phố Hồ Chí Minh, người thầy đã dành nhiều thời gian tận tình chỉ bảo, hướng dẫn và giúp đỡ tôi trong suốt quá trình tìm hiểu, nghiên cứu. Thầy là người định hướng và đưa ra nhiều góp ý quý báu trong quá trình tôi thực hiện luận văn tốt nghiệp này. Tôi xin chân thành cảm ơn các thầy, cô của khoa Khoa học và Kỹ thuật máy tính, khoa Quản lý công nghiệp và các khoa khác của trường đại học Bách khoa, Đại học Quốc gia thành phố Hồ Chí Minh đã cung cấp cho tôi những kiến thức và tạo điều kiện thuận lợi tốt nhất trong suốt quá trình tôi học tập tại trường. Tôi cũng bày tỏ lòng biết ơn vể sự giúp đỡ của lãnh đạo trường đại học Tài chính – Marketing, lãnh đạo khoa Công nghệ thông tin và phòng Khảo thí và Kiểm định chất lượng đã cung cấp dữ liệu, tài liệu và tạo điều kiện cho tôi thực hiện nghiên cứu trong luận văn này. Tôi xin chân thành cảm ơn ! Thành phố Hồ Chí Minh, tháng 07 năm 2021 BÙI MẠNH TRƯỜNG iv TÓM TẮT LUẬN VĂN THẠC SĨ Hoạt động học tập, tiến bộ trong học tập và tiềm năng phát triển tri thức trong công việc là 03 yếu tố quan trọng để đo lường kết quả học tập, lựa chọn tài liệu học tập và các hoạt động học tập của sinh viên tại mỗi trường đại học. Cùng với hình thức đào tạo đại học theo tín chỉ là hình thức lấy người học làm trung tâm trong quá trình dạy và học đã giúp phát huy được tính chủ động, sáng tạo của sinh viên và hiện đã và đang được áp dụng trong hầu hết các trường đại học ở Việt Nam nhiều năm qua. Với phương pháp đào tạo theo tín chỉ, việc tự học, tự nghiên cứu được coi trọng hơn, giảm sự truyền đạt kiến thức một chiều từ giảng viên đến sinh viên như phương pháp truyền thống trước đây. Sinh viên là người tiếp nhận kiến thức nhưng đồng thời cũng là người chủ động tạo kiến thức cho bản thân mình với mục tiêu đáp ứng những nhu cầu của thị trường lao động ngoài xã hội sau khi tốt nghiệp ra trường. Mỗi khối kiến thức đều có những môn học bắt buộc hay tự chọn với số lượng tín chỉ theo quy định để tốt nghiệp và sinh viên có thể tham khảo giảng viên hoặc cố vấn học tập để chọn những môn học phù hợp với năng lực bản thân. Tuy nhiên, các công trình nghiên cứu hiện nay không cung cấp đủ công cụ phân tích để hiểu và nắm bắt được quá trình học tập của sinh viên như thế nào, các yếu tố nào sẽ ảnh hưởng đến kết quả học tập của sinh viên để từ đó sinh viên có thể cải thiện kết quả học tập của mình và những sinh viên có tiềm năng có thể học tập tốt hơn hay không. Việc đánh giá quá trình học tập của sinh viên thực sự quan trọng để duy trì kết quả học tập và hiệu quả của quá trình học tập. Thông qua việc phân tích kết quả học tập của sinh viên để từ đó các nhà giáo dục lập kế hoach các chương trình chiến lược trong suốt quá trình giảng dạy – học tập của giảng viên và sinh viên trong mỗi trường đại học. Khai phá dữ liệu giáo dục là quá trình được sử dụng để trích xuất thông tin và các mẫu hữu ích từ cơ sở dữ liệu giáo dục khổng lồ. Thông tin và các mẫu hữu ích này được sử dụng để dự đoán kết quả học tập của sinh viên, kết quả này sẽ giúp giám sát quá trình học tập của sinh viên nhằm giúp sinh viên cải thiện kết quả học tập và giúp các nhà quản lý giáo dục cải thiện kết quả hoạt động trong toàn hệ thống của mỗi trường đại học. Việc ứng dụng các kỹ thuật Khai phá dữ liệu và Khám phá tri thức có thể tập trung vào những nhu cầu cụ thể trong những trường hợp, tình huống, điều kiện thực hiện và thực thể khác nhau. Giám sát và đánh giá quá trình học tập của sinh viên khoa Công nghệ thông tin, trường đại học Tài chính – Marketing kết hợp với việc sử dụng các kỹ thuật trong lĩnh vực Khai phá dữ liệu và Khám phá tri thức chính là đáp ứng nhu cầu thực tiễn của khoa CNTT và trường nhằm nâng cao chất lượng nguồn nhân lực CNTT theo yêu cầu của xã hội và doanh nghiệp hiện nay. v Abstract Learning activities, progress in learning and knowledge development potential in work are critical factors to assess student’s learning outcome, learning materials choice, and learning activities in university. Along with academic credit system that applied for years in almost universities in Vietnam, students becomes the point of teaching and learning activities, this helps to improve the proactive and creativity approach of students. This system focuses much more on the activities of selflearning, self-studying, the one-way contact between lecturers and students in teaching-learning activities will be lessen in comparison with the traditional one. The role of student in learning activity is not only receiving knowledge but also creating knowledge actively for himself/herself to meet and qualify needs from labor market after graduation. Students’ learning workload includes compulsory and optional subjects for choice to accumulate enough credits as regulated for graduation, students can be consulted or referenced by learning consultants or lecturers to have the most suitable route for himself/herself with best result. Currently research work with analysing tools is not sufficiently to get the insight from students’ learning route, what factor(s) would affect or influence the expected learning outcome that to be considered how to improve the assessment and raise the potential for better result. The assessment of students’ learning outcome plays the important role for enhance the student’s learning outcome and from that, the education managers set the plan for strategic programs in teaching-learning activities of lecturers and students in universities. Education data mining is the process to extract useful information and patterns from vast education data. The useful information and patterns should be used to get insight in students’ learning outcome for supervising learning route and improve the learning outcome in universities. The application of data mining and knowledge discovery methods can be adjusted depend on cases, applied conditions, and entities. Supervising and assessing the students’ learning outcome in the faculty of Information Technology of the university of Finance – Marketing in combination with data mining and knowledge discovery are really in meet demands of the organization to improve the students’ quality, the Information Technology labor source for society and entrepreneurs in the present. vi LỜI CAM ĐOAN Tôi xin cam đoan đây là đề tài nghiên cứu của riêng tôi và được thực hiện dưới sự hướng dẫn của PGS. TS Nguyễn Thanh Bình. Các số liệu, dữ liệu và tài liệu phục vụ quá trình thực hiện luận văn là trung thực. Tất cả những tài liệu tham khảo và kết thừa đều được trích dẫn và tham chiếu đầy đủ. Các kết quả nêu trong luận văn là trung thực và chưa được ai công bố trong bất kỳ công trình nào khác. Thành phố Hồ Chí Minh, tháng 07 năm 2021 BÙI MẠNH TRƯỜNG vii MỤC LỤC Lời cảm ơn ................................................................................................................ iv Tóm tắt luận văn Thạc sĩ ............................................................................................ v Lời cam đoan ............................................................................................................vii Mục lục ................................................................................................................... viii Danh mục bảng ........................................................................................................xii Danh mục các hình ................................................................................................. xiii Danh mục các ký hiệu và chữ viết tắt ...................................................................... xv Chương 1 : TỔNG QUAN ĐỀ TÀI NGHIÊN CỨU .............................................. 1 1.1 Hình thành đề tài .............................................................................. 1 1.2 Mục tiêu và Nội dung đề tài .............................................................. 3 1.3 Phạm vi và đối tượng nghiên cứu ..................................................... 3 1.3.1 Phạm vi nghiên cứu ....................................................................... 3 1.3.2 Đối tượng nghiên cứu .................................................................... 3 1.4 Ý nghĩa của đề tài nghiên cứu .......................................................... 4 1.4.1 Ý nghĩa khoa học ........................................................................... 4 1.4.2 Ý nghĩa thực tiễn ........................................................................... 4 Chương 2 : CƠ SỞ HÌNH THÀNH NGHIÊN CỨU VÀ NGHIÊN CỨU LIÊN QUAN ................................................................................................... 5 2.1 Các nghiên cứu liên quan ................................................................. 6 2.1.1 Nghiên cứu trong nước .................................................................. 6 2.1.2 Nghiên cứu trên thế giới ................................................................ 7 2.2 Bài toán phân loại ........................................................................... 12 2.2.1 Mục đích của phân tích phân loại ................................................ 12 2.2.2 Mô hình dự đoán của bài toán phân loại ..................................... 13 2.3 Dữ liệu bất đối xứng ....................................................................... 15 2.4 Tóm tắt chương 2 ............................................................................ 17 Chương 3 : CÂY QUYẾT ĐỊNH .......................................................................... 18 3.1 Cây quyết định ................................................................................ 18 3.1.1 Khái niệm .................................................................................... 18 3.1.2 Cơ chế hoạt động của Cây quyết định ......................................... 19 3.1.3 Các loại Cây quyết định .............................................................. 20 3.1.3.1 Cây phân loại ............................................................................ 20 viii 3.1.3.2 Cây hồi quy ............................................................................... 21 3.1.4 Ưu điểm và Nhược điểm ............................................................. 21 3.1.4.1 Ưu điểm .................................................................................... 21 3.1.4.2 Nhược điểm .............................................................................. 21 3.2 Các thuật toán cây quyết định ........................................................ 22 3.2.1 Thuật toán ID3 ............................................................................. 22 3.2.2 Thuật toán C4.5 ........................................................................... 22 3.2.3 Thuật toán C5.0 ........................................................................... 23 3.2.4 Thuật toán CART ........................................................................ 23 3.2.5 Thuật toán Random Forest .......................................................... 26 3.3 Overfitting và Underfitting ............................................................. 27 3.3.1 Underfitting ................................................................................. 27 3.3.2 Overfitting ................................................................................... 28 3.4 Cắt tỉa cây ....................................................................................... 30 3.4.1 Chiến lược Pre-prune ................................................................... 30 3.4.1.1 Số lượng mẫu tối thiểu mỗi nút/Số lượng mẫu tối thiểu mỗi điểm chia ............................................................................................... 30 3.4.1.2 Độ cao của cây .......................................................................... 31 3.4.2 Chiến lược Post-prune ................................................................. 31 3.5 Tóm tắt chương 3 ........................................................................... 31 Chương 4 : XÂY DỰNG PHƯƠNG PHÁP NGHIÊN CỨU VÀ HIỆN TRẠNG TẠI KHOA CNTT .............................................................................. 32 4.1 Quy trình nghiên cứu ...................................................................... 32 4.2 Tổng quan khoa Công nghệ thông tin ............................................ 33 4.3 Tiền xử lý dữ liệu ........................................................................... 35 4.3.1 Thu thập dữ liệu ........................................................................... 35 4.3.2 Yêu cầu của bài toán về dữ liệu ................................................... 38 4.3.3 Tập dữ liệu Tín chỉ tích lũy ......................................................... 40 4.3.4 Khám phá dữ liệu với tập dữ liệu Tín chỉ đầy đủ ........................ 42 4.3.4.1 Hàm thống kê ........................................................................... 42 4.3.4.2 Missing values .......................................................................... 44 4.3.4.3 Outliers ..................................................................................... 45 4.3.4.4 Duplicates ................................................................................. 47 4.3.5 Khám phá dữ liệu với tập dữ liệu Tín chỉ làm dữ liệu đầu vào của mô hình ...................................................................................... 47 4.3.5.1 Duplicates ................................................................................. 47 ix 4.3.5.2 Trực quan hóa các đặc trưng của mô hình ............................... 49 4.3.5.3 Trực quan hóa biến mục tiêu của mô hình ............................... 53 4.3.5.4 Trực quan hóa tương quan giữa các đặc trưng và biến mục tiêu .................................................................................................. 53 4.4 Phân chia tập dữ liệu ..................................................................... 56 4.5 Cây quyết định sơ bộ ...................................................................... 57 4.5.1 Xây dựng Cây quyết định sơ bộ .................................................. 57 4.5.2 Tầm quan trọng của các đặc trưng .............................................. 59 4.6 Đánh giá mô hình ........................................................................... 60 4.7 Tối ưu Cây quyết định sơ bộ .......................................................... 62 4.7.1 Chiến lược Pre-prune ................................................................... 62 4.7.1.1 Tham số max_depth ................................................................. 62 4.7.1.1.1 Sử dụng độ chính xác của test dataset ................................... 62 4.7.1.1.2 Sử dụng độc chính xác của test dataset với thư viên tqdm ... 63 4.7.1.1.3 Sử dụng độ chính xác của train dataset và test dataset .......... 66 4.7.1.1.4 Siêu tham số với hàm RandomizedSearchCV ...................... 66 4.7.1.1.5 Siêu tham số với hàm GridSearchCV ................................... 69 4.7.2 Chiến lược Post-prune ................................................................. 70 4.7.2.1 Tầm quan trọng của các đặc trưng ........................................... 74 4.7.2.2 Các phép đo lường Cây tối ưu .................................................. 75 4.7.2.3 Tập luật ..................................................................................... 76 4.7 Tóm tắt chương 4 ............................................................................ 77 Chương 5 : ĐÁNH GIÁ KẾT QUẢ NGHIÊN CỨU ......................................... 78 5.1 So sánh 02 phương pháp ................................................................ 78 5.1.1 Sử dụng các phép đo .................................................................... 78 5.1.1.1 Đánh giá .................................................................................... 78 5.1.2 Sử dụng tập luật ........................................................................... 79 5.1.2.1 Phương pháp RandomizedCV .................................................. 79 5.1.2.2 Phương pháp Cost-Complexity-Pruning .................................. 79 5.1.2.3 Đánh giá .................................................................................... 79 5.2 Lựa chọn phương pháp ................................................................... 80 5.3 Tóm tắt chương 5 ............................................................................ 81 Chương 6 : KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ........................................ 82 6.1 Kết luận ........................................................................................... 82 6.2 Hướng phát triển ............................................................................. 83 x TÀI LIỆU THAM KHẢO ..................................................................................... 85 PHỤ LỤC 1 : PHỤ LỤC 2 : PHỤ LỤC 3 : PHỤ LỤC 4 : PHỤ LỤC 5 : Chương trình đào tạo khóa 2011 ...................................................... 87 Chương trình đào tạo khóa 2012 ...................................................... 89 Chương trình đào tạo khóa 2013 ...................................................... 90 Chương trình đào tạo khóa 2014 ...................................................... 91 Chương trình đào tạo khóa 2015 ...................................................... 93 LÝ LỊCH TRÍCH NGANG .................................................................................. 96 xi DANH MỤC BẢNG Bảng 1 : Độ chính xác của kết quả sử dụng phương pháp Decision Tree Bảng 2 : Độ chính xác của kết quả sử dụng phương pháp Neural Network Bảng 3 : Độ chính xác của kết quả sử dụng phương pháp Naive Bayes Bảng 4 : Độ chính xác của kết quả sử dụng phương pháp K-Nearest Neighbor Bảng 5 : Độ chính xác của kết quả sử dụng phương pháp Support Vector Machine Bảng 6 : Số liệu đào tạo 05 khóa gần nhất của sinh viên khoa CNTT Bảng 7 : So sánh 02 phương pháp tối ưu cây quyết định sơ bộ. xii DANH MỤC CÁC HÌNH Hình 2.1 : Danh sách các dữ liệu thuộc tính và phương pháp để đánh giá kết quả học tập của sinh viên. Hình 2.2 : Độ chính xác trong dự đoán được nhóm theo thuật toán từ 2002-2015. Hình 2.3 : Dữ liệu bất đối xứng. Hình 3.1 : Minh họa mô hình Cây quyết định. Hình 3.2 : Cơ chế hoạt động của Cây quyết định. Hình 3.3 : Ví dụ minh họa của Cây quyết định Phân loại. Hình 3.4 : Ví dụ minh họa của Cây quyết định Hồi quy. Hình 3.5 : Hệ số Gini Impurity cao khiến cho kết quả chia kém. Hình 3.6 : Hệ số Gini Impurity thấp khiến cho kết quả chia gần như hoàn hảo. Hình 3.7 : Minh họa hiện tượng overfitting và underfitting. Hình 3.8 : Minh họa hiện tượng overfitting. Hình 3.9 : Mô tả phương pháp cross-validation. Hình 3.10 : Mô tả tác vụ cắt tỉa Cây quyết định. Hình 4.1 : Quy trình nghiên cứu. Hình 4.2 : Dữ liệu điểm của sinh viên trong sheet1 Hình 4.3 : Dữ liệu điểm của sinh viên trong sheet1 Hình 4.4 : Sơ đồ thu thập dữ liệu sinh viên ngành CNTT khóa 2011 – 2015. Hình 4.5 : Tập dữ liệu về số tín chỉ tích lũy theo từng học kỳ. Hình 4.6 : Kết quả các hàm thống kê của tập dữ liệu tín chỉ. Hình 4.7 : Kết quả của phương pháp bản đồ nhiệt kiểm tra missing values. Hình 4.8 : Kết quả của biểu đồ Histogram kiểm tra missing values. Hình 4.9 : Kết quả của biểu đồ Histogram kiểm tra outliers của cột HK01. Hình 4.10 : Kết quả của biểu đồ Histogram kiểm tra outliers của cột HK02. Hình 4.11 : Kết quả của biểu đồ Histogram kiểm tra outliers của cột HK03. Hình 4.12 : Kết quả của biểu đồ Histogram kiểm tra outliers của cột HK04. Hình 4.13 : Kết quả của biểu đồ Histogram kiểm tra outliers của cột first4semesters. Hình 4.14 : Kết quả của biểu đồ Boxplot kiểm tra outliers tập dữ liệu. Hình 4.15 : Tập dữ liệu sử dụng làm dữ liệu đầu vào của mô hình. Hình 4.16 : Tập dữ liệu có cột Graduation với số dòng dữ liệu bị trùng lặp. Hình 4.17 : Tập dữ liệu không có cột Graduation với số dòng dữ liệu bị trùng lặp. Hình 4.18 : So sánh giữa hai tình huống của tập dữ liệu Tín chỉ. Hình 4.19 : Các dòng dữ liệu khác nhau giữa 02 tình huống. Hình 4.20 : Biểu đồ Line mô tả sự phân bổ dữ liệu của các đặc trưng. Hình 4.21 : Biểu đồ Histogram mô tả sự phân bổ dữ liệu của các đặc trưng. xiii Hình 4.22 : Biểu đồ Boxplot mô tả sự phân bổ dữ liệu của các đặc trưng. Hình 4.23 : Biểu đồ kde mô tả sự phân bổ dữ liệu của các đặc trưng. Hình 4.24 : Biểu đồ ma trận phân tán mô tả sự phân bổ dữ liệu của các đặc trưng. Hình 4.25 : Biểu đồ cột mô tả sự phân bổ dữ liệu của biến mục tiêu. Hình 4.26 : Biểu đồ thanh mô tả sự tương quan giữa các đặc trưng và biến mục tiêu. Hình 4.27 : Biểu đồ phân tán mô tả tương quan giữa các đặc trưng và biến mục tiêu. Hình 4.28 : Biểu đồ so sánh theo cặp mô tả sự tương quan giữa các đặc trưng và biến mục tiêu. Hình 4.29 : Minh họa tác vụ phân chia dữ liệu xây dựng cây sơ bộ. Hình 4.30 : Cây quyết định sơ bộ. Hình 4.31 : Biểu đồ minh họa tầm quan trọng của các đặc trưng. Hình 4.32 : Biểu đồ minh họa kết quả của confusion matrix Hình 4.33 : Độ chính xác của tập dữ liệu kiểm tra và chiều cao của cây. Hình 4.34 : Độ chính xác của tập dữ liệu kiểm tra và chiều cao của cây cùng việc sử dụng thư viện tqdm. Hình 4.35 : Cây quyết định có chiều cao = 4. Hình 4.36 : Tầm quan trọng của đặc trưng với cây quyết định có chiều cao = 4. Hình 4.37 : Độ chính xác của 02 tập dữ liệu và chiều cao của cây. Hình 4.38 : Cây tối ưu với hàm RandomizedSearchCV. Hình 4.39 : Tầm quan trọng của các đặc trưng của Cây tối ưu với hàm RandomizedSearchCV. Hình 4.40 : Confusion matrix của Cây tối ưu với hàm RandomizedSearchCV. Hình 4.41 : Cây tối ưu với hàm GridSearchCV. Hình 4.42 : Ảnh hưởng của tham số alpha với tổng tạp chất tại các nút lá. Hình 4.43 : Ảnh hưởng của tham số alpha với tổng số nút và chiều cao của cây. Hình 4.44 : Ảnh hưởng của tham số alpha với độ chính xác của 02 tập dữ liệu. Hình 4.45 : Ảnh hưởng của tham số alpha với độ chính xác của mỗi cặp tập dữ liệu. Hình 4.46 : Tương quan giữa alpha với độ chính xác trung bình và độ lệch chuẩn. Hình 4.47 : Cây tối ưu với phương pháp Cost_Complexity_Pruning. Hình 4.48 : Tầm quan trọng các đặc trưng của Cây tối ưu với phương pháp Cost_Complexity_Pruning. Hình 4.49 : Confusion matrix của Cây tối ưu với phương pháp Cost_Complexity_Pruning. xiv DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT GD-ĐT TT-TT CNTT Classification Class Label Training (Train) dataset Testing (Test) dataset bias variance cross-validation Loss function : Giáo dục – Đào tạo : Thông tin – Truyền thông : Công nghệ thông tin : Phân loại, phân lớp : Lớp : Nhãn : Tập dữ liệu học tập : Tập dữ liệu kiểm tra : độ thiên vị : phương sai : xác thực chéo : Hàm mất mát xv CHƯƠNG 1 : TỔNG QUAN ĐỀ TÀI NGHIÊN CỨU 1.1 HÌNH THÀNH ĐỀ TÀI Ngày 30/03/2019, tại Hà Nội, Bộ Giáo dục - Đào tạo kết hợp với Bộ Thông tin - Truyền thông tổ chức buổi tọa đàm phát triển nhân lực Công nghệ thông tin – Truyền thông trình độ cao gắn kết cơ sở giáo dục Đại học cùng Doanh nghiệp. Tại hội thảo, Bộ trưởng Bộ TT-TT Nguyễn Mạnh Hùng và Bộ trưởng Bộ GD-ĐT Phùng Xuân Nhạ cùng thống nhất đánh giá chất lượng của nhân lực ngành CNTT tại Việt Nam hiện nay chưa đáp ứng được yêu cầu của xã hội trong bối cảnh khi toàn thế giới nói chung và Việt Nam nói riêng đang bước vào thời đại công nghiệp 4.0. Thời đại mà xã hội loài người thay đổi nhanh chóng cùng khoa học công nghệ gắn liền với việc ứng dụng các thành tựu như : IoT (Internet of Things), Thực tế ảo, Dữ liệu lớn (Big data), Trí tuệ nhân tạo (Artificial Intelligence) ... Đặc biệt là theo chỉ đạo của Thủ tướng Chính phủ là đến năm 2020, Việt Nam cần có 1 triệu doanh nghiệp khởi nghiệp, trong đó ưu tiên ngành CNTT. Cũng tại hội thảo về Định hướng chính sách chương trình phát triển công nghiệp CNTT giai đoạn 2021-2030 được tổ chức vào cuối năm 2019 tại thành phố Hồ Chí Minh, ông Nguyễn Thanh Tuyên – Phó Vụ trưởng Vụ Công nghệ - Thông tin (Bộ Thông tin - Truyền thông) – cho biết, mỗi năm cả nước có thêm khoảng 50.000 sinh viên tốt nghiệp ngành CNTT với trình độ từ cao đẳng trở lên. Dù con số thống kê mang chiều hướng tích cực dần theo từng năm, nhưng đó không phải là giải pháp cho vấn đề “thiếu hụt nhân lực ngành Công nghệ thông tin” hiện nay. Về cơ bản, con số này đáp ứng được nhu cầu về số lượng, nhưng chỉ 30% trong số đó đáp ứng được nhu cầu của các doanh nghiệp đặt ra. Vì chất lượng và sự phù hợp giữa lực lượng kỹ sư CNTT mới tốt nghiệp và doanh nghiệp mới là “khoảng cách” cần được hỗ trợ xóa bỏ. Nền tảng của các trường cho sinh viên là có nhưng thật sự không thể đáp ứng 100% yêu cầu của các doanh nghiệp. Sinh viên ngành CNTT không đáp ứng được nhu cầu của doanh nghiệp thể hiện rõ ràng nhất thông qua việc đào tạo lại của doanh nghiệp, thời gian đào tạo lại thường từ 6 tháng tới 2 năm. Cộng đồng kinh tế ASEAN (AEC) ra đời (từ cuối năm 2015), Việt Nam là một thành viên và sẽ hưởng lợi nhiều hơn từ việc hội nhập kinh tế khu vực. Tận dụng thị trường ASEAN to lớn để phát triển bằng công nghệ chính là mục tiêu của tất cả doanh nghiệp trong nước hiện nay. Vingroup vừa chính thức “rút chân” khỏi mảng bán lẻ để tập trung dồn nguồn lực cho 02 mảng chủ lực mới là sản xuất công nghiệp và CNTT, điều này đặt ra yêu cầu hàng chục nghìn nhân lực CNTT. Trước đó, Vingroup đã “đặt hàng “ 50 trường đại học đào tạo khoảng 100.000 nhân lực CNTT và cấp 1.100 học bổng toàn phần đi nước ngoài đào tạo nguồn nhân lực khoa học. Vietel 1 phát đi thông báo rộng rãi trên truyền thông bày tỏ nhu cầu tuyển dụng tới 500 nhân sự CNTT hàng năm. Tập đoàn VNPT hiện đang cần tuyển tới 5.000 kỹ sư CNTT nhằm phục vụ cho nhu cầu phát triển và cạnh tranh với các đối thủ trong và ngoài nước. Ngoài việc các công ty Việt Nam như Vingroup, VNPT, FPT, Viettel, VinaGame, CMC... đang nỗ lực đẩy mạnh, đẩy nhanh chuyển đổi số, sản xuất công nghiệp là việc làn sóng nước ngoài tiếp tục đầu tư, mở rộng sản xuất tại Việt Nam. Hãng LG (Hàn Quốc) sẽ dừng sản xuất điện thoại thông minh tại Hàn Quốc vào năm 2020 và chuyển dây chuyền sản xuất sang Việt Nam với công suất 11 triệu sản phẩm hàng năm. Hãng Samsung (Hàn Quốc) không ngừng mở rộng các nhà máy sản xuất và năm 2020 đầu tư 220 triệu USD để xây dựng trung tâm R&D tại Việt Nam. Ngoài ra cũng phải kể đến các hãng điện tử nước ngoài khác như tập đoàn đa quốc gia Intel, Nissan... cũng đang mở rộng đầu tư vào Việt Nam. Từ đây, cuộc cạnh tranh nhân lực giữa các doanh nghiệp nôi địa và nước ngoài là rất cao, nhu cầu tuyển dụng tăng liên tục qua từng năm. Hiện nay, trong hơn 250 trường đại học trên cả nước, có khoảng 150 trường đào tạo ngành CNTT. Dù là con số rất lớn nhưng chỉ có 20 trường có chỉ tiêu tuyển sinh trên 400 sinh viên ngành này trở lên, còn lại chỉ nhỏ lẻ. Số lượng trường đại học đào tạo nhân lực ngành CNTT có chất lượng cao lại càng ít ỏi hơn. Đầu ra của nhà trường là doanh nghiệp, vì thế nhà trường phải hiểu doanh nghiệp, bám theo doanh nghiệp để tạo ra nhân lực tốt. Trường đại học Tài chính – Marketing ra đời tháng 9/1976, trực thuộc Bộ Tài chính với tổng số lượng sinh viên, học viên các hệ đào tạo lên tới 30.000 người học. Là một trường thuộc khối ngành kinh tế ứng dụng nên việc cung cấp kiến thức về CNTT ứng dụng trong lĩnh vực kinh tế cho sinh viên là một trong những yêu cầu quan trọng và cấp thiết, trong đó việc đào tạo sinh viên ngành CNTT có chất lượng cao cung cấp cho thị trường là một nhiệm vụ luôn đặt ra hàng đầu trong các kế họach, chiến lược phát triển chung của nhà trường, vì chất lượng của sinh viên là một trong những tiêu chí quan trọng nhất để đánh giá chất lượng của bất cứ trường đại học nào. Trong nhiều năm qua trường đại học Tài chính – Marketing đã có chủ trương ứng dụng CNTT vào công tác quản lý việc dạy và học toàn diện. Là giáo viên của khoa CNTT tại trường đại học Tài chính – Marketing, đồng thời cũng là cố vấn học tập nên luôn phải đối mặt với những vấn đề học tập của sinh viên khoa CNTT. Trước thực trạng đang tồn tại và lĩnh vực tôi đang theo học, được sự đồng ý của PGS. TS Nguyễn Thanh Bình, tôi chọn đề tài luận văn “Phân tích dữ liệu sinh viên để dự báo tiến độ học tập của sinh viên ngành CNTT tại trường đại học Tài chính – Marketing”. Luận văn sẽ góp phần vào việc giải quyết các vấn đề hết sức cấp bách và cần thiết trong thực tế hiện nay của sinh viên ngành CNTT, góp phần nâng cao chất lượng đào tạo của nhà trường nói chung, của khoa CNTT nói riêng. 2 1.2 MỤC TIÊU VÀ NỘI DUNG ĐỀ TÀI Khả năng đánh giá và dự đoán kết quả học tập của sinh viên đóng vai trò rất quan trọng trong môi trường giáo dục vì việc nâng cao thành công của sinh viên trong học tập là mục tiêu dài hạn của các trường đại học. Tuy nhiên, việc dự đoán và đánh giá kết quả học tập của sinh viên ngày càng trở thành thách thức to lớn trong bối cảnh khối lượng dữ liệu khổng lồ của các trường đại học và ngày càng tăng lên. Việc thiếu hệ thống sẵn sàng để phân tích và giám sát tiến độ học tập của sinh viên không được quan tâm vì 02 lý do sau : a. Việc nghiên cứu các phương pháp dự đoán không đủ nhiều để xác định các phương pháp phù hợp nhất trong việc dự đoán kết quả học tập của sinh viên tại các trường đại học tại Việt Nam. b. Thiếu các cuộc điều tra về những yếu tố ảnh hưởng để thành tích học tập của sinh viên trong những khóa học cụ thể thuộc ngữ cảnh Việt Nam. Đề giải quyết nhu cầu thực tiễn về hỗ trợ sinh viên nâng cao chất lượng học tập, hỗ trợ Khoa, Ban Giám hiệu có các quyết định về chiến lược của nhà trường, đề tài nghiên cứu đề ra các mục tiêu chính sau : a. Phân tích, thống kê để đưa ra các thông tin cơ bản về tình hình học tập của sinh viên. b. Ứng dụng các kỹ thuật Khai phá dữ liệu vào việc phân tích mô hình dự đoán, tích hợp và triển khai công cụ dự đoán kết quả học tập của sinh viên. c. Trực quan hóa các kết quả phân tích giúp sinh viên và nhà trường có đánh giá đầy đủ và dự báo sớm về tình hình học tập của sinh viên khoa CNTT. 1.3 PHẠM VI VÀ ĐỐI TƯỢNG NGHIÊN CỨU 1.3.1 Phạm vi nghiên cứu Tìm hiểu và ứng dụng các kỹ thuật Khai phá dữ liệu và Khám phá tri thức với dữ liệu giáo dục của sinh viên khoa CNTT, trường đại học Tài chính – Markting và tiến hành đánh giá các kỹ thuật được lựa chọn để thực hiện nghiên cứu để đề xuất kỹ thuật phù hợp nhất với hoàn cảnh, ngữ cảnh và tính chất đặc thù của đơn vị được chọn để nghiên cứu, từ đó trình bày kết quả được thực hiện và định hướng ứng dụng, phát triển trong tương lai. 1.3.2 Đối tượng nghiên cứu Nghiên cứu được thực hiện với dữ liệu là kết quả học tập của sinh viên khoa CNTT tại trường đại học Tài chính – Marketing của 05 khóa đã tốt nghiệp (2011 2015). Tập dữ liệu này do phòng Khảo thí và Kiểm định chất lượng cung cấp và hỗ trợ tác giả thực hiện nghiên cứu làm cơ sở cho các nghiên cứu sau này tại trường. 3 1.4 Ý NGHĨA CỦA ĐỀ TÀI NGHIÊN CỨU 1.4.1 Ý nghĩa khoa học Áp dụng các kỹ thuật Khai phá dữ liệu trong phân tích bộ dữ liệu kết quả học tập của sinh viên. So sánh, đánh giá các phương pháp dự đoán kết quả học tập của sinh viên để từ đó lựa chọn phương pháp phù hợp áp dụng tại khoa CNTT, trường đại học Tài chính – Marketing. 1.4.2 Ý nghĩa thực tiễn Dự đoán kết quả học tập của sinh viên nhằm giúp sinh viên có sự lựa chọn môn học phù hợp với năng lực bản thân và có kế hoạch học tập tối ưu nhằm đạt kết quả học tập tốt nhất. Áp dụng mô hình dự đoán kết quả học tập sinh viên tại khoa CNTT, trường đại học Tài chính – Marketing nhằm giúp công tác tổ chức giảng dạy, học tập phù hợp với thực tiễn. Hỗ trợ Ban giám hiệu, lãnh đạo khoa CNTT có góc nhìn đa chiều về kết quả học tập của sinh viên để từ đó có kế hoạch thích hợp cho sinh viên về đăng ký môn học, lựa chọn môn học phù hợp... để đạt kết quả tốt nhất hoặc kết hợp với các yếu tố khác để xây dựng chiến lược tuyển sinh, xây dựng chương trình đào tạo. 4 CHƯƠNG 2 : CƠ SỞ HÌNH THÀNH NGHIÊN CỨU VÀ NGHIÊN CỨU LIÊN QUAN Hiện nay, các trường đại học đang hoạt động trong môi trường rất phức tạp và có tính cạnh tranh cao. Một trong những tiêu chí đánh giá trường đại học có chất lượng cao là dựa vào thành tích của sinh viên từ kết quả học tập. Vì vậy trong các trường đại học, kết quả học tập là một phần quan trọng mà các nhà quản lý giáo dục tập trung quan tâm. Nhiều năm trở lại đây, nhiều nhà nghiên cứu đã chuyển sự quan tâm của mình vào việc giải thích và dự đoán kết quả học tập của sinh viên, từ đó đưa ra những giải pháp mới và thông minh hơn nhằm giúp cải thiện kết quả học tập của sinh viên, giúp nhà trường thu được tri thức xuyên suốt và sâu sắc để từ đó cải tiến kế hoạch giảng dạy, học tập, đánh giá, lập kế hoạch ước tính và ra quyết định dựa trên kết quả thu được. Việc đánh giá kết quả học tập của sinh viên có thể được xem là tách biệt với quá trình học tập và là một phần không thể thiếu của quá trình học tập liên tục. Bằng việc khám phá những gì sinh viên đã học và những gì sinh viên cần để học tập tốt sẽ giúp giảng viên xây dựng và cung cấp khung đào tạo phù hợp trên nền tri thức sẵn có. Nếu thông tin như vậy kịp thời và cụ thể thì nó sẽ đóng vai trò phản hồi có giá trị cho giảng viên và sinh viên nhằm cải thiện kết quả học tập của sinh viên. Có nhiều định nghĩa về kết quả học tập của sinh viên trong các nghiên cứu, trong đó nghiên cứu của Usamah et al. [7] (2013) cho rằng kết quả học tập của sinh viên có thể đạt được bằng cách đo lường đánh giá việc học và chương trình học ứng dụng đồng giảng dạy (co-curriculum). Tuy nhiên, cũng có nhiều nhà nghiên cứu sử dụng dữ liệu khác để đánh giá kết quả học tập của sinh viên như giới tính, nền tảng học tập cấp học phổ thông, khu vực sinh sống, nền tảng gia đình, các hoạt động ngoại khóa, phản hồi của sinh viên, bình luận (comment) của sinh viên trên mạng xã hội về môn học... Nói chung, phần lớn các trường đại học trên thế giới nói chung và Việt Nam nói riêng vẫn sử dụng điểm số cuối cùng để đánh giá kết quả học tập của sinh viên. Điểm số cuối cùng dựa trên cấu trúc khóa học, điểm quá trình, điểm kết thúc học phần (môn học), điểm từ các hoạt động ngoại khóa khác... Hiện tại có nhiều kỹ thuật được đề xuất đánh giá kết quả học tập của sinh viên, trong đó Khai phá dữ liệu (Data Mining) và Khám phá tri thức (Knowledge Discovery) là kỹ thuật được áp dụng rộng rãi, đôi khi còn được gọi là lĩnh vực khai phá dữ liệu giáo dục. Cách tiếp cận với lĩnh vực Khai phá dữ liệu và Khám phá tri thức được các nhà nghiên cứu áp dụng nhằm tới việc định hướng và trích xuất tri thức có giá trị tiềm tàng trong dữ liệu. Các mô hình dự đoán được phát triển dựa trên các kỹ thuật Khai phá dữ liệu rất đa dạng như K-Nearst Neighbor, Naive Bayes, Decision Tree, Logistic Regression, Random Forest... 5
- Xem thêm -

Tài liệu liên quan