ĐẠI HỌC QUỐC GIA TP. HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA
-----------------------
BÙI MẠNH TRƯỜNG
PHÂN TÍCH DỮ LIỆU SINH VIÊN ĐỂ DỰ BÁO
TIẾN ĐỘ HỌC TẬP SINH VIÊN NGÀNH CNTT TẠI
TRƯỜNG ĐẠI HỌC TÀI CHÍNH – MARKETING
Chuyên ngành : Hệ thống thông tin quản lý
Mã số : 8.34.04.05
LUẬN VĂN THẠC SĨ
TP. HỒ CHÍ MINH, tháng 08 năm 2021
CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI:
TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐHQG.- HCM
Cán bộ hướng dẫn khoa học : PGS. TS Nguyễn Thanh Bình
Cán bộ chấm nhận xét 1 : PGS. TS Nguyễn Tuấn Đăng
Cán bộ chấm nhận xét 2 : PGS. TS Vũ Thanh Nguyên
Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách khoa, ĐHQG, Tp HCM
ngày 06 tháng 08 năm 2021 (trực tuyến).
Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm :
1. Chủ tịch
: PGS. TS Đặng Trần Khánh
2. Thư ký
: TS. Phan Trọng Nhân
3. Phản biện 1 : PGS. TS Nguyễn Tuấn Đăng
4. Phản biện 2 : PGS. TS Vũ Thanh Nguyên
5. Ủy viên
: TS. Lê Lam Sơn
Xác nhận của Chủ tịch Hội đồng đánh giá Luận văn và Trưởng khoa quản lý
chuyên ngành sau khi luận văn đã được sửa chữa (nếu có).
CHỦ TỊCH HỘI ĐỒNG
TRƯỞNG KHOA
KHOA HỌC VÀ KỸ THUẬT MÁY TÍNH
i
ĐẠI HỌC QUỐC GIA TP.HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA
CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập - Tự do - Hạnh phúc
NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ tên học viên : BÙI MẠNH TRƯỜNG
Ngày, tháng, năm sinh : 07/04/1979
Chuyên ngành : Hệ thống thông tin quản lý
MSHV : 1870693
Nơi sinh : Hải Phòng
Mã số : 8.34.04.05
I. TÊN ĐỀ TÀI
PHÂN TÍCH DỮ LIỆU SINH VIÊN ĐỂ DỰ BÁO TIẾN ĐỘ HỌC TẬP SINH
VIÊN NGÀNH CNTT TẠI TRƯỜNG ĐẠI HỌC TÀI CHÍNH – MARKETING
II. NHIỆM VỤ VÀ NỘI DUNG
- Tìm hiểu hiện trạng trong quá trình học tập của sinh viên khoa Công nghệ thông
tin bao gồm tất cả các khóa.
- Tìm hiểu các kỹ thuật trong lĩnh vực Khai phá dữ liệu và Khám phá tri thức để
thực hiện mục tiêu nghiên cứu.
- Thu thập, xử lý và phân tích dữ liệu.
- Xây dựng phương pháp để phân tích và đánh giá tiến độ học tập của sinh viên
khoa Công nghệ thông tin, trường đại học Tài chính – Marketing.
- Đánh giá kết quả của phương pháp đề xuất làm cơ sở tham khảo cho lãnh đạo
khoa Công nghệ thông tin, cố vấn học tập và sinh viên của khoa.
III. NGÀY GIAO NHIỆM VỤ : 22/02/2021
IV. NGÀY HOÀN THÀNH NHIỆM VỤ: 16/07/2021
V. CÁN BỘ HƯỚNG DẪN : PGS.TS NGUYỄN THANH BÌNH
Tp. HCM, ngày … tháng … năm 2021
CHỦ NHIỆM BỘ MÔN ĐÀO TẠO
(Họ tên và chữ ký)
CÁN BỘ HƯỚNG DẪN
(Họ tên và chữ ký)
TRƯỞNG KHOA KHOA HỌC VÀ KỸ THUẬT MÁY TÍNH
(Họ tên và chữ ký)
iii
LỜI CẢM ƠN
Tôi xin gửi lời cảm ơn sâu sắc tới PGS.TS Nguyễn Thanh Bình, giảng viên khoa
Khoa học và Kỹ thuật máy tính, trường đại học Bách khoa – Đại học Quốc gia thành
phố Hồ Chí Minh, người thầy đã dành nhiều thời gian tận tình chỉ bảo, hướng dẫn và
giúp đỡ tôi trong suốt quá trình tìm hiểu, nghiên cứu. Thầy là người định hướng và
đưa ra nhiều góp ý quý báu trong quá trình tôi thực hiện luận văn tốt nghiệp này.
Tôi xin chân thành cảm ơn các thầy, cô của khoa Khoa học và Kỹ thuật máy
tính, khoa Quản lý công nghiệp và các khoa khác của trường đại học Bách khoa, Đại
học Quốc gia thành phố Hồ Chí Minh đã cung cấp cho tôi những kiến thức và tạo
điều kiện thuận lợi tốt nhất trong suốt quá trình tôi học tập tại trường.
Tôi cũng bày tỏ lòng biết ơn vể sự giúp đỡ của lãnh đạo trường đại học Tài
chính – Marketing, lãnh đạo khoa Công nghệ thông tin và phòng Khảo thí và Kiểm
định chất lượng đã cung cấp dữ liệu, tài liệu và tạo điều kiện cho tôi thực hiện nghiên
cứu trong luận văn này.
Tôi xin chân thành cảm ơn !
Thành phố Hồ Chí Minh, tháng 07 năm 2021
BÙI MẠNH TRƯỜNG
iv
TÓM TẮT LUẬN VĂN THẠC SĨ
Hoạt động học tập, tiến bộ trong học tập và tiềm năng phát triển tri thức trong
công việc là 03 yếu tố quan trọng để đo lường kết quả học tập, lựa chọn tài liệu học
tập và các hoạt động học tập của sinh viên tại mỗi trường đại học. Cùng với hình thức
đào tạo đại học theo tín chỉ là hình thức lấy người học làm trung tâm trong quá trình
dạy và học đã giúp phát huy được tính chủ động, sáng tạo của sinh viên và hiện đã và
đang được áp dụng trong hầu hết các trường đại học ở Việt Nam nhiều năm qua. Với
phương pháp đào tạo theo tín chỉ, việc tự học, tự nghiên cứu được coi trọng hơn, giảm
sự truyền đạt kiến thức một chiều từ giảng viên đến sinh viên như phương pháp truyền
thống trước đây. Sinh viên là người tiếp nhận kiến thức nhưng đồng thời cũng là
người chủ động tạo kiến thức cho bản thân mình với mục tiêu đáp ứng những nhu cầu
của thị trường lao động ngoài xã hội sau khi tốt nghiệp ra trường. Mỗi khối kiến thức
đều có những môn học bắt buộc hay tự chọn với số lượng tín chỉ theo quy định để tốt
nghiệp và sinh viên có thể tham khảo giảng viên hoặc cố vấn học tập để chọn những
môn học phù hợp với năng lực bản thân. Tuy nhiên, các công trình nghiên cứu hiện
nay không cung cấp đủ công cụ phân tích để hiểu và nắm bắt được quá trình học tập
của sinh viên như thế nào, các yếu tố nào sẽ ảnh hưởng đến kết quả học tập của sinh
viên để từ đó sinh viên có thể cải thiện kết quả học tập của mình và những sinh viên
có tiềm năng có thể học tập tốt hơn hay không. Việc đánh giá quá trình học tập của
sinh viên thực sự quan trọng để duy trì kết quả học tập và hiệu quả của quá trình học
tập. Thông qua việc phân tích kết quả học tập của sinh viên để từ đó các nhà giáo dục
lập kế hoach các chương trình chiến lược trong suốt quá trình giảng dạy – học tập của
giảng viên và sinh viên trong mỗi trường đại học.
Khai phá dữ liệu giáo dục là quá trình được sử dụng để trích xuất thông tin và
các mẫu hữu ích từ cơ sở dữ liệu giáo dục khổng lồ. Thông tin và các mẫu hữu ích
này được sử dụng để dự đoán kết quả học tập của sinh viên, kết quả này sẽ giúp giám
sát quá trình học tập của sinh viên nhằm giúp sinh viên cải thiện kết quả học tập và
giúp các nhà quản lý giáo dục cải thiện kết quả hoạt động trong toàn hệ thống của
mỗi trường đại học. Việc ứng dụng các kỹ thuật Khai phá dữ liệu và Khám phá tri
thức có thể tập trung vào những nhu cầu cụ thể trong những trường hợp, tình huống,
điều kiện thực hiện và thực thể khác nhau.
Giám sát và đánh giá quá trình học tập của sinh viên khoa Công nghệ thông tin,
trường đại học Tài chính – Marketing kết hợp với việc sử dụng các kỹ thuật trong
lĩnh vực Khai phá dữ liệu và Khám phá tri thức chính là đáp ứng nhu cầu thực tiễn
của khoa CNTT và trường nhằm nâng cao chất lượng nguồn nhân lực CNTT theo yêu
cầu của xã hội và doanh nghiệp hiện nay.
v
Abstract
Learning activities, progress in learning and knowledge development potential
in work are critical factors to assess student’s learning outcome, learning materials
choice, and learning activities in university. Along with academic credit system that
applied for years in almost universities in Vietnam, students becomes the point of
teaching and learning activities, this helps to improve the proactive and creativity
approach of students. This system focuses much more on the activities of selflearning, self-studying, the one-way contact between lecturers and students in
teaching-learning activities will be lessen in comparison with the traditional one. The
role of student in learning activity is not only receiving knowledge but also creating
knowledge actively for himself/herself to meet and qualify needs from labor market
after graduation. Students’ learning workload includes compulsory and optional
subjects for choice to accumulate enough credits as regulated for graduation, students
can be consulted or referenced by learning consultants or lecturers to have the most
suitable route for himself/herself with best result. Currently research work with
analysing tools is not sufficiently to get the insight from students’ learning route, what
factor(s) would affect or influence the expected learning outcome that to be
considered how to improve the assessment and raise the potential for better result.
The assessment of students’ learning outcome plays the important role for enhance
the student’s learning outcome and from that, the education managers set the plan for
strategic programs in teaching-learning activities of lecturers and students in
universities.
Education data mining is the process to extract useful information and patterns
from vast education data. The useful information and patterns should be used to get
insight in students’ learning outcome for supervising learning route and improve the
learning outcome in universities. The application of data mining and knowledge
discovery methods can be adjusted depend on cases, applied conditions, and entities.
Supervising and assessing the students’ learning outcome in the faculty of
Information Technology of the university of Finance – Marketing in combination
with data mining and knowledge discovery are really in meet demands of the
organization to improve the students’ quality, the Information Technology labor
source for society and entrepreneurs in the present.
vi
LỜI CAM ĐOAN
Tôi xin cam đoan đây là đề tài nghiên cứu của riêng tôi và được thực hiện dưới
sự hướng dẫn của PGS. TS Nguyễn Thanh Bình. Các số liệu, dữ liệu và tài liệu phục
vụ quá trình thực hiện luận văn là trung thực. Tất cả những tài liệu tham khảo và kết
thừa đều được trích dẫn và tham chiếu đầy đủ.
Các kết quả nêu trong luận văn là trung thực và chưa được ai công bố trong bất
kỳ công trình nào khác.
Thành phố Hồ Chí Minh, tháng 07 năm 2021
BÙI MẠNH TRƯỜNG
vii
MỤC LỤC
Lời cảm ơn ................................................................................................................ iv
Tóm tắt luận văn Thạc sĩ ............................................................................................ v
Lời cam đoan ............................................................................................................vii
Mục lục ................................................................................................................... viii
Danh mục bảng ........................................................................................................xii
Danh mục các hình ................................................................................................. xiii
Danh mục các ký hiệu và chữ viết tắt ...................................................................... xv
Chương 1 : TỔNG QUAN ĐỀ TÀI NGHIÊN CỨU .............................................. 1
1.1 Hình thành đề tài .............................................................................. 1
1.2 Mục tiêu và Nội dung đề tài .............................................................. 3
1.3 Phạm vi và đối tượng nghiên cứu ..................................................... 3
1.3.1 Phạm vi nghiên cứu ....................................................................... 3
1.3.2 Đối tượng nghiên cứu .................................................................... 3
1.4 Ý nghĩa của đề tài nghiên cứu .......................................................... 4
1.4.1 Ý nghĩa khoa học ........................................................................... 4
1.4.2 Ý nghĩa thực tiễn ........................................................................... 4
Chương 2 : CƠ SỞ HÌNH THÀNH NGHIÊN CỨU VÀ NGHIÊN CỨU LIÊN
QUAN ................................................................................................... 5
2.1 Các nghiên cứu liên quan ................................................................. 6
2.1.1 Nghiên cứu trong nước .................................................................. 6
2.1.2 Nghiên cứu trên thế giới ................................................................ 7
2.2 Bài toán phân loại ........................................................................... 12
2.2.1 Mục đích của phân tích phân loại ................................................ 12
2.2.2 Mô hình dự đoán của bài toán phân loại ..................................... 13
2.3 Dữ liệu bất đối xứng ....................................................................... 15
2.4 Tóm tắt chương 2 ............................................................................ 17
Chương 3 : CÂY QUYẾT ĐỊNH .......................................................................... 18
3.1 Cây quyết định ................................................................................ 18
3.1.1 Khái niệm .................................................................................... 18
3.1.2 Cơ chế hoạt động của Cây quyết định ......................................... 19
3.1.3 Các loại Cây quyết định .............................................................. 20
3.1.3.1 Cây phân loại ............................................................................ 20
viii
3.1.3.2 Cây hồi quy ............................................................................... 21
3.1.4 Ưu điểm và Nhược điểm ............................................................. 21
3.1.4.1 Ưu điểm .................................................................................... 21
3.1.4.2 Nhược điểm .............................................................................. 21
3.2 Các thuật toán cây quyết định ........................................................ 22
3.2.1 Thuật toán ID3 ............................................................................. 22
3.2.2 Thuật toán C4.5 ........................................................................... 22
3.2.3 Thuật toán C5.0 ........................................................................... 23
3.2.4 Thuật toán CART ........................................................................ 23
3.2.5 Thuật toán Random Forest .......................................................... 26
3.3 Overfitting và Underfitting ............................................................. 27
3.3.1 Underfitting ................................................................................. 27
3.3.2 Overfitting ................................................................................... 28
3.4 Cắt tỉa cây ....................................................................................... 30
3.4.1 Chiến lược Pre-prune ................................................................... 30
3.4.1.1 Số lượng mẫu tối thiểu mỗi nút/Số lượng mẫu tối thiểu mỗi điểm
chia ............................................................................................... 30
3.4.1.2 Độ cao của cây .......................................................................... 31
3.4.2 Chiến lược Post-prune ................................................................. 31
3.5 Tóm tắt chương 3 ........................................................................... 31
Chương 4 : XÂY DỰNG PHƯƠNG PHÁP NGHIÊN CỨU VÀ HIỆN TRẠNG
TẠI KHOA CNTT .............................................................................. 32
4.1 Quy trình nghiên cứu ...................................................................... 32
4.2 Tổng quan khoa Công nghệ thông tin ............................................ 33
4.3 Tiền xử lý dữ liệu ........................................................................... 35
4.3.1 Thu thập dữ liệu ........................................................................... 35
4.3.2 Yêu cầu của bài toán về dữ liệu ................................................... 38
4.3.3 Tập dữ liệu Tín chỉ tích lũy ......................................................... 40
4.3.4 Khám phá dữ liệu với tập dữ liệu Tín chỉ đầy đủ ........................ 42
4.3.4.1 Hàm thống kê ........................................................................... 42
4.3.4.2 Missing values .......................................................................... 44
4.3.4.3 Outliers ..................................................................................... 45
4.3.4.4 Duplicates ................................................................................. 47
4.3.5 Khám phá dữ liệu với tập dữ liệu Tín chỉ làm dữ liệu đầu vào của
mô hình ...................................................................................... 47
4.3.5.1 Duplicates ................................................................................. 47
ix
4.3.5.2 Trực quan hóa các đặc trưng của mô hình ............................... 49
4.3.5.3 Trực quan hóa biến mục tiêu của mô hình ............................... 53
4.3.5.4 Trực quan hóa tương quan giữa các đặc trưng và biến mục tiêu
.................................................................................................. 53
4.4 Phân chia tập dữ liệu ..................................................................... 56
4.5 Cây quyết định sơ bộ ...................................................................... 57
4.5.1 Xây dựng Cây quyết định sơ bộ .................................................. 57
4.5.2 Tầm quan trọng của các đặc trưng .............................................. 59
4.6 Đánh giá mô hình ........................................................................... 60
4.7 Tối ưu Cây quyết định sơ bộ .......................................................... 62
4.7.1 Chiến lược Pre-prune ................................................................... 62
4.7.1.1 Tham số max_depth ................................................................. 62
4.7.1.1.1 Sử dụng độ chính xác của test dataset ................................... 62
4.7.1.1.2 Sử dụng độc chính xác của test dataset với thư viên tqdm ... 63
4.7.1.1.3 Sử dụng độ chính xác của train dataset và test dataset .......... 66
4.7.1.1.4 Siêu tham số với hàm RandomizedSearchCV ...................... 66
4.7.1.1.5 Siêu tham số với hàm GridSearchCV ................................... 69
4.7.2 Chiến lược Post-prune ................................................................. 70
4.7.2.1 Tầm quan trọng của các đặc trưng ........................................... 74
4.7.2.2 Các phép đo lường Cây tối ưu .................................................. 75
4.7.2.3 Tập luật ..................................................................................... 76
4.7 Tóm tắt chương 4 ............................................................................ 77
Chương 5 : ĐÁNH GIÁ KẾT QUẢ NGHIÊN CỨU ......................................... 78
5.1 So sánh 02 phương pháp ................................................................ 78
5.1.1 Sử dụng các phép đo .................................................................... 78
5.1.1.1 Đánh giá .................................................................................... 78
5.1.2 Sử dụng tập luật ........................................................................... 79
5.1.2.1 Phương pháp RandomizedCV .................................................. 79
5.1.2.2 Phương pháp Cost-Complexity-Pruning .................................. 79
5.1.2.3 Đánh giá .................................................................................... 79
5.2 Lựa chọn phương pháp ................................................................... 80
5.3 Tóm tắt chương 5 ............................................................................ 81
Chương 6 : KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ........................................ 82
6.1 Kết luận ........................................................................................... 82
6.2 Hướng phát triển ............................................................................. 83
x
TÀI LIỆU THAM KHẢO ..................................................................................... 85
PHỤ LỤC 1 :
PHỤ LỤC 2 :
PHỤ LỤC 3 :
PHỤ LỤC 4 :
PHỤ LỤC 5 :
Chương trình đào tạo khóa 2011 ...................................................... 87
Chương trình đào tạo khóa 2012 ...................................................... 89
Chương trình đào tạo khóa 2013 ...................................................... 90
Chương trình đào tạo khóa 2014 ...................................................... 91
Chương trình đào tạo khóa 2015 ...................................................... 93
LÝ LỊCH TRÍCH NGANG .................................................................................. 96
xi
DANH MỤC BẢNG
Bảng 1 : Độ chính xác của kết quả sử dụng phương pháp Decision Tree
Bảng 2 : Độ chính xác của kết quả sử dụng phương pháp Neural Network
Bảng 3 : Độ chính xác của kết quả sử dụng phương pháp Naive Bayes
Bảng 4 : Độ chính xác của kết quả sử dụng phương pháp K-Nearest Neighbor
Bảng 5 : Độ chính xác của kết quả sử dụng phương pháp Support Vector Machine
Bảng 6 : Số liệu đào tạo 05 khóa gần nhất của sinh viên khoa CNTT
Bảng 7 : So sánh 02 phương pháp tối ưu cây quyết định sơ bộ.
xii
DANH MỤC CÁC HÌNH
Hình 2.1 : Danh sách các dữ liệu thuộc tính và phương pháp để đánh giá kết quả học
tập của sinh viên.
Hình 2.2 : Độ chính xác trong dự đoán được nhóm theo thuật toán từ 2002-2015.
Hình 2.3 : Dữ liệu bất đối xứng.
Hình 3.1 : Minh họa mô hình Cây quyết định.
Hình 3.2 : Cơ chế hoạt động của Cây quyết định.
Hình 3.3 : Ví dụ minh họa của Cây quyết định Phân loại.
Hình 3.4 : Ví dụ minh họa của Cây quyết định Hồi quy.
Hình 3.5 : Hệ số Gini Impurity cao khiến cho kết quả chia kém.
Hình 3.6 : Hệ số Gini Impurity thấp khiến cho kết quả chia gần như hoàn hảo.
Hình 3.7 : Minh họa hiện tượng overfitting và underfitting.
Hình 3.8 : Minh họa hiện tượng overfitting.
Hình 3.9 : Mô tả phương pháp cross-validation.
Hình 3.10 : Mô tả tác vụ cắt tỉa Cây quyết định.
Hình 4.1 : Quy trình nghiên cứu.
Hình 4.2 : Dữ liệu điểm của sinh viên trong sheet1
Hình 4.3 : Dữ liệu điểm của sinh viên trong sheet1
Hình 4.4 : Sơ đồ thu thập dữ liệu sinh viên ngành CNTT khóa 2011 – 2015.
Hình 4.5 : Tập dữ liệu về số tín chỉ tích lũy theo từng học kỳ.
Hình 4.6 : Kết quả các hàm thống kê của tập dữ liệu tín chỉ.
Hình 4.7 : Kết quả của phương pháp bản đồ nhiệt kiểm tra missing values.
Hình 4.8 : Kết quả của biểu đồ Histogram kiểm tra missing values.
Hình 4.9 : Kết quả của biểu đồ Histogram kiểm tra outliers của cột HK01.
Hình 4.10 : Kết quả của biểu đồ Histogram kiểm tra outliers của cột HK02.
Hình 4.11 : Kết quả của biểu đồ Histogram kiểm tra outliers của cột HK03.
Hình 4.12 : Kết quả của biểu đồ Histogram kiểm tra outliers của cột HK04.
Hình 4.13 : Kết quả của biểu đồ Histogram kiểm tra outliers của cột first4semesters.
Hình 4.14 : Kết quả của biểu đồ Boxplot kiểm tra outliers tập dữ liệu.
Hình 4.15 : Tập dữ liệu sử dụng làm dữ liệu đầu vào của mô hình.
Hình 4.16 : Tập dữ liệu có cột Graduation với số dòng dữ liệu bị trùng lặp.
Hình 4.17 : Tập dữ liệu không có cột Graduation với số dòng dữ liệu bị trùng lặp.
Hình 4.18 : So sánh giữa hai tình huống của tập dữ liệu Tín chỉ.
Hình 4.19 : Các dòng dữ liệu khác nhau giữa 02 tình huống.
Hình 4.20 : Biểu đồ Line mô tả sự phân bổ dữ liệu của các đặc trưng.
Hình 4.21 : Biểu đồ Histogram mô tả sự phân bổ dữ liệu của các đặc trưng.
xiii
Hình 4.22 : Biểu đồ Boxplot mô tả sự phân bổ dữ liệu của các đặc trưng.
Hình 4.23 : Biểu đồ kde mô tả sự phân bổ dữ liệu của các đặc trưng.
Hình 4.24 : Biểu đồ ma trận phân tán mô tả sự phân bổ dữ liệu của các đặc trưng.
Hình 4.25 : Biểu đồ cột mô tả sự phân bổ dữ liệu của biến mục tiêu.
Hình 4.26 : Biểu đồ thanh mô tả sự tương quan giữa các đặc trưng và biến mục tiêu.
Hình 4.27 : Biểu đồ phân tán mô tả tương quan giữa các đặc trưng và biến mục tiêu.
Hình 4.28 : Biểu đồ so sánh theo cặp mô tả sự tương quan giữa các đặc trưng và biến
mục tiêu.
Hình 4.29 : Minh họa tác vụ phân chia dữ liệu xây dựng cây sơ bộ.
Hình 4.30 : Cây quyết định sơ bộ.
Hình 4.31 : Biểu đồ minh họa tầm quan trọng của các đặc trưng.
Hình 4.32 : Biểu đồ minh họa kết quả của confusion matrix
Hình 4.33 : Độ chính xác của tập dữ liệu kiểm tra và chiều cao của cây.
Hình 4.34 : Độ chính xác của tập dữ liệu kiểm tra và chiều cao của cây cùng việc sử
dụng thư viện tqdm.
Hình 4.35 : Cây quyết định có chiều cao = 4.
Hình 4.36 : Tầm quan trọng của đặc trưng với cây quyết định có chiều cao = 4.
Hình 4.37 : Độ chính xác của 02 tập dữ liệu và chiều cao của cây.
Hình 4.38 : Cây tối ưu với hàm RandomizedSearchCV.
Hình 4.39 : Tầm quan trọng của các đặc trưng của Cây tối ưu với hàm
RandomizedSearchCV.
Hình 4.40 : Confusion matrix của Cây tối ưu với hàm RandomizedSearchCV.
Hình 4.41 : Cây tối ưu với hàm GridSearchCV.
Hình 4.42 : Ảnh hưởng của tham số alpha với tổng tạp chất tại các nút lá.
Hình 4.43 : Ảnh hưởng của tham số alpha với tổng số nút và chiều cao của cây.
Hình 4.44 : Ảnh hưởng của tham số alpha với độ chính xác của 02 tập dữ liệu.
Hình 4.45 : Ảnh hưởng của tham số alpha với độ chính xác của mỗi cặp tập dữ liệu.
Hình 4.46 : Tương quan giữa alpha với độ chính xác trung bình và độ lệch chuẩn.
Hình 4.47 : Cây tối ưu với phương pháp Cost_Complexity_Pruning.
Hình 4.48 : Tầm quan trọng các đặc trưng của Cây tối ưu với phương pháp
Cost_Complexity_Pruning.
Hình 4.49 : Confusion matrix của Cây tối ưu với phương pháp
Cost_Complexity_Pruning.
xiv
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT
GD-ĐT
TT-TT
CNTT
Classification
Class
Label
Training (Train) dataset
Testing (Test) dataset
bias
variance
cross-validation
Loss function
: Giáo dục – Đào tạo
: Thông tin – Truyền thông
: Công nghệ thông tin
: Phân loại, phân lớp
: Lớp
: Nhãn
: Tập dữ liệu học tập
: Tập dữ liệu kiểm tra
: độ thiên vị
: phương sai
: xác thực chéo
: Hàm mất mát
xv
CHƯƠNG 1 : TỔNG QUAN ĐỀ TÀI NGHIÊN CỨU
1.1 HÌNH THÀNH ĐỀ TÀI
Ngày 30/03/2019, tại Hà Nội, Bộ Giáo dục - Đào tạo kết hợp với Bộ Thông tin
- Truyền thông tổ chức buổi tọa đàm phát triển nhân lực Công nghệ thông tin – Truyền
thông trình độ cao gắn kết cơ sở giáo dục Đại học cùng Doanh nghiệp. Tại hội thảo,
Bộ trưởng Bộ TT-TT Nguyễn Mạnh Hùng và Bộ trưởng Bộ GD-ĐT Phùng Xuân
Nhạ cùng thống nhất đánh giá chất lượng của nhân lực ngành CNTT tại Việt Nam
hiện nay chưa đáp ứng được yêu cầu của xã hội trong bối cảnh khi toàn thế giới nói
chung và Việt Nam nói riêng đang bước vào thời đại công nghiệp 4.0. Thời đại mà
xã hội loài người thay đổi nhanh chóng cùng khoa học công nghệ gắn liền với việc
ứng dụng các thành tựu như : IoT (Internet of Things), Thực tế ảo, Dữ liệu lớn (Big
data), Trí tuệ nhân tạo (Artificial Intelligence) ... Đặc biệt là theo chỉ đạo của Thủ
tướng Chính phủ là đến năm 2020, Việt Nam cần có 1 triệu doanh nghiệp khởi nghiệp,
trong đó ưu tiên ngành CNTT.
Cũng tại hội thảo về Định hướng chính sách chương trình phát triển công nghiệp
CNTT giai đoạn 2021-2030 được tổ chức vào cuối năm 2019 tại thành phố Hồ Chí
Minh, ông Nguyễn Thanh Tuyên – Phó Vụ trưởng Vụ Công nghệ - Thông tin (Bộ
Thông tin - Truyền thông) – cho biết, mỗi năm cả nước có thêm khoảng 50.000 sinh
viên tốt nghiệp ngành CNTT với trình độ từ cao đẳng trở lên. Dù con số thống kê
mang chiều hướng tích cực dần theo từng năm, nhưng đó không phải là giải pháp cho
vấn đề “thiếu hụt nhân lực ngành Công nghệ thông tin” hiện nay. Về cơ bản, con số
này đáp ứng được nhu cầu về số lượng, nhưng chỉ 30% trong số đó đáp ứng được nhu
cầu của các doanh nghiệp đặt ra. Vì chất lượng và sự phù hợp giữa lực lượng kỹ sư
CNTT mới tốt nghiệp và doanh nghiệp mới là “khoảng cách” cần được hỗ trợ xóa bỏ.
Nền tảng của các trường cho sinh viên là có nhưng thật sự không thể đáp ứng 100%
yêu cầu của các doanh nghiệp. Sinh viên ngành CNTT không đáp ứng được nhu cầu
của doanh nghiệp thể hiện rõ ràng nhất thông qua việc đào tạo lại của doanh nghiệp,
thời gian đào tạo lại thường từ 6 tháng tới 2 năm.
Cộng đồng kinh tế ASEAN (AEC) ra đời (từ cuối năm 2015), Việt Nam là một
thành viên và sẽ hưởng lợi nhiều hơn từ việc hội nhập kinh tế khu vực. Tận dụng thị
trường ASEAN to lớn để phát triển bằng công nghệ chính là mục tiêu của tất cả doanh
nghiệp trong nước hiện nay. Vingroup vừa chính thức “rút chân” khỏi mảng bán lẻ
để tập trung dồn nguồn lực cho 02 mảng chủ lực mới là sản xuất công nghiệp và
CNTT, điều này đặt ra yêu cầu hàng chục nghìn nhân lực CNTT. Trước đó, Vingroup
đã “đặt hàng “ 50 trường đại học đào tạo khoảng 100.000 nhân lực CNTT và cấp
1.100 học bổng toàn phần đi nước ngoài đào tạo nguồn nhân lực khoa học. Vietel
1
phát đi thông báo rộng rãi trên truyền thông bày tỏ nhu cầu tuyển dụng tới 500 nhân
sự CNTT hàng năm. Tập đoàn VNPT hiện đang cần tuyển tới 5.000 kỹ sư CNTT
nhằm phục vụ cho nhu cầu phát triển và cạnh tranh với các đối thủ trong và ngoài
nước. Ngoài việc các công ty Việt Nam như Vingroup, VNPT, FPT, Viettel,
VinaGame, CMC... đang nỗ lực đẩy mạnh, đẩy nhanh chuyển đổi số, sản xuất công
nghiệp là việc làn sóng nước ngoài tiếp tục đầu tư, mở rộng sản xuất tại Việt Nam.
Hãng LG (Hàn Quốc) sẽ dừng sản xuất điện thoại thông minh tại Hàn Quốc vào năm
2020 và chuyển dây chuyền sản xuất sang Việt Nam với công suất 11 triệu sản phẩm
hàng năm. Hãng Samsung (Hàn Quốc) không ngừng mở rộng các nhà máy sản xuất
và năm 2020 đầu tư 220 triệu USD để xây dựng trung tâm R&D tại Việt Nam. Ngoài
ra cũng phải kể đến các hãng điện tử nước ngoài khác như tập đoàn đa quốc gia Intel,
Nissan... cũng đang mở rộng đầu tư vào Việt Nam. Từ đây, cuộc cạnh tranh nhân lực
giữa các doanh nghiệp nôi địa và nước ngoài là rất cao, nhu cầu tuyển dụng tăng liên
tục qua từng năm.
Hiện nay, trong hơn 250 trường đại học trên cả nước, có khoảng 150 trường đào
tạo ngành CNTT. Dù là con số rất lớn nhưng chỉ có 20 trường có chỉ tiêu tuyển sinh
trên 400 sinh viên ngành này trở lên, còn lại chỉ nhỏ lẻ. Số lượng trường đại học đào
tạo nhân lực ngành CNTT có chất lượng cao lại càng ít ỏi hơn. Đầu ra của nhà trường
là doanh nghiệp, vì thế nhà trường phải hiểu doanh nghiệp, bám theo doanh nghiệp
để tạo ra nhân lực tốt. Trường đại học Tài chính – Marketing ra đời tháng 9/1976,
trực thuộc Bộ Tài chính với tổng số lượng sinh viên, học viên các hệ đào tạo lên tới
30.000 người học. Là một trường thuộc khối ngành kinh tế ứng dụng nên việc cung
cấp kiến thức về CNTT ứng dụng trong lĩnh vực kinh tế cho sinh viên là một trong
những yêu cầu quan trọng và cấp thiết, trong đó việc đào tạo sinh viên ngành CNTT
có chất lượng cao cung cấp cho thị trường là một nhiệm vụ luôn đặt ra hàng đầu trong
các kế họach, chiến lược phát triển chung của nhà trường, vì chất lượng của sinh viên
là một trong những tiêu chí quan trọng nhất để đánh giá chất lượng của bất cứ trường
đại học nào. Trong nhiều năm qua trường đại học Tài chính – Marketing đã có chủ
trương ứng dụng CNTT vào công tác quản lý việc dạy và học toàn diện.
Là giáo viên của khoa CNTT tại trường đại học Tài chính – Marketing, đồng
thời cũng là cố vấn học tập nên luôn phải đối mặt với những vấn đề học tập của sinh
viên khoa CNTT. Trước thực trạng đang tồn tại và lĩnh vực tôi đang theo học, được
sự đồng ý của PGS. TS Nguyễn Thanh Bình, tôi chọn đề tài luận văn “Phân tích dữ
liệu sinh viên để dự báo tiến độ học tập của sinh viên ngành CNTT tại trường đại học
Tài chính – Marketing”. Luận văn sẽ góp phần vào việc giải quyết các vấn đề hết sức
cấp bách và cần thiết trong thực tế hiện nay của sinh viên ngành CNTT, góp phần
nâng cao chất lượng đào tạo của nhà trường nói chung, của khoa CNTT nói riêng.
2
1.2 MỤC TIÊU VÀ NỘI DUNG ĐỀ TÀI
Khả năng đánh giá và dự đoán kết quả học tập của sinh viên đóng vai trò rất
quan trọng trong môi trường giáo dục vì việc nâng cao thành công của sinh viên trong
học tập là mục tiêu dài hạn của các trường đại học. Tuy nhiên, việc dự đoán và đánh
giá kết quả học tập của sinh viên ngày càng trở thành thách thức to lớn trong bối cảnh
khối lượng dữ liệu khổng lồ của các trường đại học và ngày càng tăng lên. Việc thiếu
hệ thống sẵn sàng để phân tích và giám sát tiến độ học tập của sinh viên không được
quan tâm vì 02 lý do sau :
a. Việc nghiên cứu các phương pháp dự đoán không đủ nhiều để xác định các
phương pháp phù hợp nhất trong việc dự đoán kết quả học tập của sinh viên
tại các trường đại học tại Việt Nam.
b. Thiếu các cuộc điều tra về những yếu tố ảnh hưởng để thành tích học tập của
sinh viên trong những khóa học cụ thể thuộc ngữ cảnh Việt Nam.
Đề giải quyết nhu cầu thực tiễn về hỗ trợ sinh viên nâng cao chất lượng học tập,
hỗ trợ Khoa, Ban Giám hiệu có các quyết định về chiến lược của nhà trường, đề tài
nghiên cứu đề ra các mục tiêu chính sau :
a. Phân tích, thống kê để đưa ra các thông tin cơ bản về tình hình học tập của
sinh viên.
b. Ứng dụng các kỹ thuật Khai phá dữ liệu vào việc phân tích mô hình dự đoán,
tích hợp và triển khai công cụ dự đoán kết quả học tập của sinh viên.
c. Trực quan hóa các kết quả phân tích giúp sinh viên và nhà trường có đánh giá
đầy đủ và dự báo sớm về tình hình học tập của sinh viên khoa CNTT.
1.3 PHẠM VI VÀ ĐỐI TƯỢNG NGHIÊN CỨU
1.3.1 Phạm vi nghiên cứu
Tìm hiểu và ứng dụng các kỹ thuật Khai phá dữ liệu và Khám phá tri thức với
dữ liệu giáo dục của sinh viên khoa CNTT, trường đại học Tài chính – Markting và
tiến hành đánh giá các kỹ thuật được lựa chọn để thực hiện nghiên cứu để đề xuất kỹ
thuật phù hợp nhất với hoàn cảnh, ngữ cảnh và tính chất đặc thù của đơn vị được chọn
để nghiên cứu, từ đó trình bày kết quả được thực hiện và định hướng ứng dụng, phát
triển trong tương lai.
1.3.2 Đối tượng nghiên cứu
Nghiên cứu được thực hiện với dữ liệu là kết quả học tập của sinh viên khoa
CNTT tại trường đại học Tài chính – Marketing của 05 khóa đã tốt nghiệp (2011 2015). Tập dữ liệu này do phòng Khảo thí và Kiểm định chất lượng cung cấp và hỗ
trợ tác giả thực hiện nghiên cứu làm cơ sở cho các nghiên cứu sau này tại trường.
3
1.4 Ý NGHĨA CỦA ĐỀ TÀI NGHIÊN CỨU
1.4.1 Ý nghĩa khoa học
Áp dụng các kỹ thuật Khai phá dữ liệu trong phân tích bộ dữ liệu kết quả học
tập của sinh viên.
So sánh, đánh giá các phương pháp dự đoán kết quả học tập của sinh viên để từ
đó lựa chọn phương pháp phù hợp áp dụng tại khoa CNTT, trường đại học Tài chính
– Marketing.
1.4.2 Ý nghĩa thực tiễn
Dự đoán kết quả học tập của sinh viên nhằm giúp sinh viên có sự lựa chọn môn
học phù hợp với năng lực bản thân và có kế hoạch học tập tối ưu nhằm đạt kết quả
học tập tốt nhất.
Áp dụng mô hình dự đoán kết quả học tập sinh viên tại khoa CNTT, trường đại
học Tài chính – Marketing nhằm giúp công tác tổ chức giảng dạy, học tập phù hợp
với thực tiễn.
Hỗ trợ Ban giám hiệu, lãnh đạo khoa CNTT có góc nhìn đa chiều về kết quả
học tập của sinh viên để từ đó có kế hoạch thích hợp cho sinh viên về đăng ký môn
học, lựa chọn môn học phù hợp... để đạt kết quả tốt nhất hoặc kết hợp với các yếu tố
khác để xây dựng chiến lược tuyển sinh, xây dựng chương trình đào tạo.
4
CHƯƠNG 2 : CƠ SỞ HÌNH THÀNH NGHIÊN CỨU VÀ
NGHIÊN CỨU LIÊN QUAN
Hiện nay, các trường đại học đang hoạt động trong môi trường rất phức tạp và
có tính cạnh tranh cao. Một trong những tiêu chí đánh giá trường đại học có chất
lượng cao là dựa vào thành tích của sinh viên từ kết quả học tập. Vì vậy trong các
trường đại học, kết quả học tập là một phần quan trọng mà các nhà quản lý giáo dục
tập trung quan tâm. Nhiều năm trở lại đây, nhiều nhà nghiên cứu đã chuyển sự quan
tâm của mình vào việc giải thích và dự đoán kết quả học tập của sinh viên, từ đó đưa
ra những giải pháp mới và thông minh hơn nhằm giúp cải thiện kết quả học tập của
sinh viên, giúp nhà trường thu được tri thức xuyên suốt và sâu sắc để từ đó cải tiến
kế hoạch giảng dạy, học tập, đánh giá, lập kế hoạch ước tính và ra quyết định dựa
trên kết quả thu được. Việc đánh giá kết quả học tập của sinh viên có thể được xem
là tách biệt với quá trình học tập và là một phần không thể thiếu của quá trình học tập
liên tục. Bằng việc khám phá những gì sinh viên đã học và những gì sinh viên cần để
học tập tốt sẽ giúp giảng viên xây dựng và cung cấp khung đào tạo phù hợp trên nền
tri thức sẵn có. Nếu thông tin như vậy kịp thời và cụ thể thì nó sẽ đóng vai trò phản
hồi có giá trị cho giảng viên và sinh viên nhằm cải thiện kết quả học tập của sinh viên.
Có nhiều định nghĩa về kết quả học tập của sinh viên trong các nghiên cứu,
trong đó nghiên cứu của Usamah et al. [7] (2013) cho rằng kết quả học tập của sinh
viên có thể đạt được bằng cách đo lường đánh giá việc học và chương trình học ứng
dụng đồng giảng dạy (co-curriculum). Tuy nhiên, cũng có nhiều nhà nghiên cứu sử
dụng dữ liệu khác để đánh giá kết quả học tập của sinh viên như giới tính, nền tảng
học tập cấp học phổ thông, khu vực sinh sống, nền tảng gia đình, các hoạt động ngoại
khóa, phản hồi của sinh viên, bình luận (comment) của sinh viên trên mạng xã hội về
môn học... Nói chung, phần lớn các trường đại học trên thế giới nói chung và Việt
Nam nói riêng vẫn sử dụng điểm số cuối cùng để đánh giá kết quả học tập của sinh
viên. Điểm số cuối cùng dựa trên cấu trúc khóa học, điểm quá trình, điểm kết thúc
học phần (môn học), điểm từ các hoạt động ngoại khóa khác...
Hiện tại có nhiều kỹ thuật được đề xuất đánh giá kết quả học tập của sinh viên,
trong đó Khai phá dữ liệu (Data Mining) và Khám phá tri thức (Knowledge
Discovery) là kỹ thuật được áp dụng rộng rãi, đôi khi còn được gọi là lĩnh vực khai
phá dữ liệu giáo dục. Cách tiếp cận với lĩnh vực Khai phá dữ liệu và Khám phá tri
thức được các nhà nghiên cứu áp dụng nhằm tới việc định hướng và trích xuất tri thức
có giá trị tiềm tàng trong dữ liệu. Các mô hình dự đoán được phát triển dựa trên các
kỹ thuật Khai phá dữ liệu rất đa dạng như K-Nearst Neighbor, Naive Bayes, Decision
Tree, Logistic Regression, Random Forest...
5
- Xem thêm -