UBND TỈNH BÌNH DƢƠNG
TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT
NGUYỄN THẾ BẢO
PHÂN TÍCH YẾU TỐ ẢNH HƯỞNG QUAN TRỌNG ĐẾN NÂNG CAO
CHẤT LƯỢNG GIẢNG DẠY BẰNG DATA MINING – ÁP DỤNG VỚI DỮ
LIỆU TẠI KHOA KỸ THUẬT – CÔNG NGHỆ TRƯỜNG ĐẠI HỌC THỦ
DẦU MỘT
CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN
MÃ SỐ: 8480104
LUẬN VĂN THẠC SỸ
BÌNH DƯƠNG, năm 2019
UBND TỈNH BÌNH DƢƠNG
TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT
NGUYỄN THẾ BẢO
PHÂN TÍCH YẾU TỐ ẢNH HƯỞNG QUAN TRỌNG ĐẾN NÂNG CAO
CHẤT LƯỢNG GIẢNG DẠY BẰNG DATA MINING –
ÁP DỤNG VỚI DỮ LIỆU TẠI KHOA KỸ THUẬT – CÔNG NGHỆ
TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT
CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN
MÃ SỐ: 8480104
LUẬN VĂN THẠC SỸ
NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS. LÊ TUẤN ANH
BÌNH DƯƠNG, năm 2019
LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi. Các số liệu, kết quả nêu
trong Luận văn là trung thực và chƣa từng đƣợc ai công bố trong bất kỳ công trình nào
khác.
Tôi xin cam đoan rằng mọi sự giúp đỡ cho việc thực hiện Luận văn này đã đƣợc cảm
ơn và các thông tin trích dẫn trong Luận văn đã đƣợc chỉ rõ nguồn gốc.
Học viên thực hiện đề tài
Nguyễn Thế Bảo
i
LỜI CẢM ƠN
Để có thể hoàn thành Luận văn này, tôi xin gửi lời cảm ơn chân thành tới PGS.TS. Lê
Tuấn Anh. Thầy đã tận tình giảng dạy, hƣớng dẫn giúp tôi tiếp cận việc nghiên cứu của
mình. Thầy đã luôn tận tâm động viên, khuyến khích và chỉ dẫn giúp tôi hoàn thành đƣợc
luận văn này.
Bên cạnh đó, tôi xin gửi lời cảm ơn tới quý Thầy/Cô, các bạn sinh viên ở Khoa Kỹ
thuật – Công nghệ, Trƣờng Đại học Thủ Dầu Một đã hỗ trợ trong quá trình khảo sát dữ
liệu. Đặc biệt xin gửi lời cảm ơn tới Thạc sĩ Hồ Đắc Hƣng đã nhiệt tình giúp đỡ trong quá
trình thực hiện luận văn này.
Học viên thực hiện đề tài
Nguyễn Thế Bảo
ii
MỤC LỤC
LỜI CAM ĐOAN ............................................................................................................... i
LỜI CẢM ƠN .................................................................................................................... ii
MỤC LỤC ......................................................................................................................... iii
DANH MỤC BẢNG .......................................................................................................... v
DANH MỤC HÌNH, ĐỒ THỊ .......................................................................................... vi
DANH MỤC CHỮ VIẾT TẮT....................................................................................... vii
MỞ ĐẦU ............................................................................................................................. 1
CHƢƠNG 1. TỔNG QUAN ................................................................................................ 2
1.1.
Giới thiệu............................................................................................................ 2
1.2.
Khai phá dữ liệu ................................................................................................. 2
1.3.
Mục tiêu của luận văn ........................................................................................ 5
1.4.
Đối tƣợng nghiên cứu và phạm vi nghiên cứu ................................................... 5
CHƢƠNG 2. CÁC NGHIÊN CỨU LIÊN QUAN ............................................................. 6
2.1.
Khai phá dữ liệu giáo dục .................................................................................. 6
2.2.
Một số phƣơng pháp khai phá dữ liệu đƣợc sử dụng trong luận văn ................ 8
2.2.1
Cây quyết định ............................................................................................. 8
2.2.2
Naive Bayes ................................................................................................. 8
2.2.3
Support Vector Machine (SVM) ................................................................. 9
2.2.4
k-NN ............................................................................................................ 9
2.2.5
Multilayer Perceptron ................................................................................ 10
2.2.6
Bảng quyết định (Decision Table) ............................................................. 11
2.3.
Tiêu chí đánh giá đặc trƣng.............................................................................. 11
2.3.1
Xếp hạng đặc trƣng dựa vào độ tƣơng quan (Correlation-based) (CB) .. 11
2.3.2
Xếp hạng đặc trƣng dựa vào Info Gain (IG) .............................................. 11
2.3.3
Xếp hạng đặc trƣng dựa vào Gain Ratio (GR) [7] [9] ............................... 12
2.3.4
Xếp hạng đặc trƣng OneR (OneR) ............................................................ 13
CHƢƠNG 3. XÂY DỰNG MÔ HÌNH ............................................................................. 14
3.1.
Mô hình ............................................................................................................ 14
3.2.
Thiết kế câu hỏi khảo sát.................................................................................. 14
3.3.
Lựa chọn đặc trƣng .......................................................................................... 17
3.4.
Áp dụng các phƣơng pháp khai phá dữ liệu .................................................... 18
iii
CHƢƠNG 4. ĐÁNH GIÁ KẾT QUẢ ............................................................................... 19
4.1.
Thực nghiệm .................................................................................................... 19
4.2.
Đánh giá kết quả thực nghiệm ......................................................................... 22
4.2.1
Khai phá dữ liệu với tập dữ liệu chƣa rút trích đặc trƣng (B1) ................. 22
4.2.2
Khai phá dữ liệu với tập dữ liệu đã rút trích đặc trƣng (B2) ..................... 22
4.2.3
So sánh các kết quả xây dựng mô hình từ tập dữ liệu ban đầu và tập dữ
liệu đã đƣợc trích chọn đặc trƣng (B3) ............................................................ 24
4.2.4
Thử nghiệm trên dữ liệu của từng giảng viên. ........................................... 25
KẾT LUẬN VÀ KIẾN NGHỊ ......................................................................................... 28
TÀI LIỆU THAM KHẢO............................................................................................... 29
iv
DANH MỤC BẢNG
Bảng 3.1: Câu hỏi khảo sát ............................................................................................... 15
Bảng 4.1: Chi tiết tập dữ liệu............................................................................................ 21
Bảng 4.2: Kết quả khai phá dữ liệu với tập dữ liệu chƣa rút trích đặc trƣng ................... 22
Bảng 4.3: Sáu đặc trƣng có ảnh hƣởng nhất theo từng thuật toán xếp hạng .................... 23
Bảng 4.4: Bốn đặc trƣng có ít ảnh hƣởng nhất theo từng thuật toán xếp hạng ................ 23
Bảng 4.5: Độ chính xác của các mô hình khi khai phá dữ liệu với tập dữ liệu đã rút gọn
đặc trƣng ............................................................................................................................ 24
Bảng 4.6: Thời gian khi mô hình khi khai phá dữ liệu với tập dữ liệu đã rút gọn đặc
trƣng................................................................................................................................... 24
Bảng 4.7: So sánh độ chính xác, thời gian thực thi khi áp dụng các thuật toán khai phá
dữ liệu với tập dữ liệu ban đầu và tập dữ liệu đã rút gọn đặc trƣng bằng OneR ............... 25
Bảng 4.8. Độ chính xác (%) khi khai phá dữ liệu với tập dữ liệu GV1 ........................... 26
Bảng 4.9: Thời gian thực thi khi khai phá dữ liệu với tập dữ liệu GV1........................... 26
Bảng 4.10: Độ chính xác (%) khi khai phá dữ liệu với tập dữ liệu GV2 ......................... 27
Bảng 4.11: Thời gian thực thi khi khai phá dữ liệu với tập dữ liệu GV2......................... 27
v
DANH MỤC HÌNH, ĐỒ THỊ
Hình 1.1: Quá trình khám phá tri thức [7] ........................................................................... 3
Hình 2.1: Mạng nơ-ron truyền thẳng nhiều lớp [17] ......................................................... 10
Hình 3.1: Quá trình thực hiện ............................................................................................ 14
Hình 4.1: Lƣu đồ thực nghiệm .......................................................................................... 20
vi
DANH MỤC CHỮ VIẾT TẮT
TỪ VIẾT TẮT
TIẾNG ANH
TIẾNG VIỆT
AUN
ASEAN University Network
PDCA
Plan-Do-Check-Act
AUN-QA
ASEAN University Network –
Hệ thống đại học ASEAN
Quality Assurance
EDM
Education Data Mining
Khai phá dữ liệu trong giáo
dục
SVM
Support Vector Machine
Máy vec-tơ hỗ trợ
k-NN
k-Nearest Neighbor
k- láng giềng
MLP
MultiLayer Perceptron
Mạng nơ-ron nhiều lớp
SMO
Sequential
Minimal
Optimization
NB
Naïve Bayes
DT
Decision Table
Bảng quyết định
KQHTMĐ
Kết quả học tập mong đợi
CB
Correlation-based
IG
Info Gain
GR
Gain Ratio
vii
MỞ ĐẦU
Việc đảm bảo, cải thiện chất lƣợng là một yếu tố sống còn đối với bất kỳ tổ
chức nào, các cơ sở giáo dục đại học cũng không phải là ngoại lệ. Nâng cao chất
lƣợng đào tạo là nhiệm vụ quan trọng hàng đầu, là hƣớng đi mà các trƣờng hƣớng tới
để có thể nâng tầm của mình, sánh vai với các trƣờng trên thế giới. Trƣờng Đại học
Thủ Dầu Một đang tập trung hoàn thiện lộ trình xây dựng chƣơng trình đào tạo, đổi
mới phƣơng pháp giảng dạy theo sáng kiến CDIO, đáp ứng chuẩn kiểm định trong và
ngoài nƣớc, nên đảm bảo chất lƣợng là một nhiệm vụ quan trọng mà các Khoa,
Chƣơng trình đào tạo phải thực hiện.
Data mining (Khai phá dữ liệu) là công cụ mạnh mẽ trong việc tìm kiếm thông
tin hữu ích từ dữ liệu. Khai phá dữ liệu đƣợc sử dụng để khám phá tri thức trong hầu
hết các lĩnh vực của đời sống xã hội. Áp dụng khai phá dữ liệu vào lĩnh vực giáo dục
cũng rất đƣợc quan tâm ở những năm gần đây. Cùng với sự gia tăng của các tài
nguyên học tập điện tử, các phần mềm hỗ trợ học tập và sự kết nối internet trong giáo
dục đã tạo ra một lƣợng lớn dữ liệu giáo dục. Tùy vào nhu cầu của mình mà các cơ
sở giáo dục có phân tích đánh giá dữ liệu của riêng mình, từ đó hỗ trợ cho việc ra
quyết định. Ở các cơ sở giáo dục đại học, việc áp dụng khai phá dữ liệu để phân tích
tìm ra các yếu tố ảnh hƣởng đến chất lƣợng giáo dục từ đó có biện pháp cải thiện,
nâng cao chất lƣợng giáo dục là một việc làm cần thiết.
Trong đề tài này, chúng tôi sử dụng các phƣơng pháp khai phá dữ liệu kết hợp
với các phƣơng pháp xếp hạng đặc trƣng áp dụng vào dữ liệu khảo sát đƣợc, so sánh
kết quả xây dựng mô hình trƣớc và sau khi rút trích đặc trƣng để xác định yếu tố nào
ảnh hƣởng quan trọng tới kết quả học tập của sinh viên tại Khoa Kỹ thuật Công nghệ,
Trƣờng Đại học Thủ Dầu Một.
Luận văn này đƣợc chia làm 4 Chƣơng: Chƣơng 1 – Giới thiệu tổng quan về
Đảm bảo chất lƣợng, cải thiện chất lƣợng tại cơ sở giáo dục đại học và quá trình
Khám phá tri thức; mục tiêu và đối tƣợng nghiện cứu của đề tài. Chƣơng 2 – Giới
thiệu về khai phá dữ liệu trong giáo dục và các nghiên cứu liên quan. Chƣơng 3 – Đề
xuất mô hình và quá trình thực hiện. Chƣơng 4 – Các thực nghiệm trong luận văn.
1
CHƯƠNG 1.
TỔNG QUAN
1.1. Giới thiệu
Việc đảm bảo, cải thiện chất lƣợng là một yếu tố sống còn đối với bất kỳ tổ chức
nào, các cơ sở giáo dục đại học cũng không phải là ngoại lệ. Để có thể tồn tại và phát
triển thì các cơ sở giáo dục đại học cần phải khẳng định đƣợc chất lƣợng đào tạo.
Đảm bảo chất lƣợng là mối quan tâm hàng đầu của các cơ sở giáo dục đại học hiện
nay. Theo Hệ thống các trƣờng Đại học Đông Nam Á (ASEAN Network University
– AUN), “Chất lƣợng” là sự phù hợp với mục tiêu và là sự điều chỉnh hợp lý giữa
yêu cầu của các thành phần liên quan, chuyển tải thành công các yêu cầu đó vào mục
tiêu đào tạo và đạt đƣợc mục tiêu đó [5] vì vậy việc đảm bảo chất lƣợng tại các cơ sở
giáo dục đại học phải gắn liền với hoạt động khảo sát các bên liên quan. Các bên liên
quan bao gồm: Nhà nƣớc, Doanh nghiệp, Nhà tuyển dụng, Ban giám hiệu, Giảng
viên, Nhân viên hỗ trợ, Sinh viên, Cựu sinh viên,….
Trƣờng Đại học Thủ Dầu Một đang tập trung hoàn thiện lộ trình xây dựng
chƣơng trình đào tạo, đổi mới phƣơng pháp giảng dạy theo sáng kiến CDIO, đáp ứng
chuẩn AUN-QA, nên đảm bảo chất lƣợng là một nhiệm vụ quan trọng mà các Khoa,
Chƣơng trình đào tạo phải thực hiện.Việc xác định đƣợc các yếu tố ảnh hƣởng quan
trọng tới việc kết quả học tập của sinh viên góp phần vào quá trình cải tiến chất
lƣợng. Từ đó, đƣa ra giải pháp thực hiện phù hợp là việc làm cần thiết để nâng cao
chất lƣợng đào tạo. Do đó việc khảo sát ý kiến các bên liên quan từ đó sử dụng các
kỹ thuật khai phá dữ liệu để phân tích, đánh giá tìm ra các thông tin hữu ích sẽ giúp
cho việc hỗ trợ ra các quyết định.
1.2. Khai phá dữ liệu
Khai phá dữ liệu [7] là công cụ mạnh mẽ trong cuộc cách mạng trí tuệ nhân tạo.
Trong khi lƣợng dữ liệu không ngừng gia tăng, ngày càng áp đảo chúng ta với lƣợng
lớn dữ liệu đƣợc tạo ra, thì khả năng hiểu biết của con ngƣời về nó lại giảm đi. Nằm
ẩn bên trong dữ liệu là các thông tin hữu ích mà hiếm khi đƣợc làm sáng tỏ hay sử
dụng đúng cách. Khai phá dữ liệu để làm sáng tỏ các mô hình, phân tích dữ liệu
thông minh là một nguồn tài nguyên vô cùng quý giá. Nó có thể dẫn đến những hiểu
biết mới, các thông tin có giá trị. Khai phá dữ liệu là giải quyết các vấn đề bằng cách
phân tích dữ liệu đã có. Ví dụ các siêu thị có thể thu thập thông tin mua hàng của
2
khách hàng về thói quan mua hàng, thói quen khi kết hợp các loại hàng hóa; từ đó
phân tích để có thể sắp xếp, bố trí các loại mặt hàng có liên quan ở gần nhau để tạo ra
sự thuận lợi, thu hút sự quan tâm của khách hàng đối với các mặt hàng từ đó nâng
cao khả năng bán hàng. Trong thời đại ngày nay, nền kinh tế có tính cạnh tranh cao,
tập trung vào khách hàng, hƣớng đến dịch vụ thì việc phân tích dữ liệu khách hàng
đúng cách sẽ thúc đẩy tăng trƣởng kinh doanh.
Khai phá dữ liệu đƣợc định nghĩa là quá trình khám phá các mẫu dữ liệu một
cách tự động. Các mẫu đƣợc khai phá phải mang thông tin hữu ích để có thể tạo ra lợi
thế, thông thƣờng là lợi thế trong kinh doanh. Dựa vào các mẫu hữu ích để có thể đƣa
ra các dự đoán cho dữ liệu mới.
Quá trình khám phá tri thức đƣợc thể hiện nhƣ Hình 1.1
Tri thức
Đánh giá
các mẫu
Khai phá dữ
liệu
Dữ liệu đã
đƣợc chuyển
đổi
Chuyển đổi dữ liệu
Dữ liệu đã đƣợc
tiền xử lý
Tiền xử lý
dữ liệu
Kho dữ liệu
Lựa chọn dữ liệu
Tích hợp dữ liệu
Nguồn Dữ liệu
Hình 1.1: Quá trình khám phá tri thức [7]
3
Các mẫu
Quá trình khám phá tri thức là một quá trình lặp đi lặp lại gồm các bƣớc :
Lựa chọn dữ liệu: phụ thuộc vào bài toán cần phân tích
Tiền xử lý: làm sạch dữ liệu, tích hợp dữ liệu.
Chuyển đổi dữ liệu về dạng phù hợp, thuận lợi cho việc khai phá
Khai phá dữ liệu
Đánh giá các mẫu (xây dựng mô hình)
Biểu diễn tri thức
Trong quá trình phát hiện tri thức, khai phá dữ liệu là một bƣớc chủ yếu trong
quá trình đó có nhiệm vụ tạo ra các mẫu mới trong từ dữ liệu đã đƣợc xử lý và
chuyển dạng. Tùy vào miền ứng dụng, mục đích và nhiệm vụ khác nhau để sử dụng
các phƣơng pháp khai phá khác nhau. Các nhóm bài toán chính của Khai phá dữ liệu:
Bài toán phân loại (phân lớp - Classification): đây là bài phổ biến
trong khai phá dữ liệu. Phân loại là việc xây dựng mô hình nhằm mô tả hay phát hiện
lớp cho các dự báo tiếp theo. Ví dụ phân lớp một văn bản vào một lớp văn bản đã
biết, hoặc phân loại một email có phải là email spam hay không,… Các thuật toán sử
dụng trong bài toán phân loại: Cây quyết định (Decision tree), Mạng nơ-ron, Luật kết
hợp,…
Bài toán phân cụm (Clustering): Bài toán phân cụm hay còn gọi là
phân đoạn. Điểm khác với bài toán phân loại là ở đây các nhãn lớp chƣa biết và
không có huấn luyện. Các đối tƣợng đƣợc phân loại dựa trên các thuộc tính tƣơng
đồng giữa chúng. Bài toán phân lớp hay còn gọi là học không có giám sát.
Hồi quy (Regression): đây là bài toán điển hình trong thống kê và dự
báo, trong đó tiến hành dự đoán giá trị của một hoặc một số biến phụ thuộc vào giá
trị của một tập hợp các biến độc lập. Việc dự báo các giá trị số thƣờng đƣợc làm bởi
các phƣơng pháp thống kê cổ điển, chẳng hạn nhƣ hồi quy tuyến tính. Tuy nhiên,
phƣơng pháp mô hình hoá cũng đƣợc sử dụng, ví dụ: cây quyết định.
Mô hình phụ thuộc (Dependency modeling): hƣớng tới việc tìm kiếm
mô hình mô tả sự phụ thuộc có ý nghĩa giữa các biến.
Phát hiện biến đổi và độ lệch (Change and Deviation Dectection):
tập trung vào việc phát hiện sự thay đổi có ý nghĩa dƣới dạng độ đo đã biết trƣớc
hoặc giá trị chuẩn, cung cấp những tri thức về sự biến đổi và độ lệch cho ngƣời dùng.
4
1.3. Mục tiêu của luận văn
Mục tiêu của luận văn là xác định yếu tố ảnh hƣởng quan trọng đến kết quả học
tập của sinh viên nhóm ngành Công nghệ thông tin (Kỹ thuật Phần mềm và Hệ thống
Thông tin) tại Khoa Kỹ thuật Công nghệ, Trƣờng Đại học Thủ Dầu Một.
1.4. Đối tƣợng nghiên cứu và phạm vi nghiên cứu
Đối tƣợng nghiên cứu các yếu tố ảnh hƣởng đến kết quả học tập của sinh viên
nhóm ngành Công nghệ thông tin và các thuật toán của khai phá dữ liệu (Decision
Table (bảng quyết định), J48 (cây quyết định), Multilayer Perceptron, Naive Bayes,
SMO và kNN) và các thuật toán rút trích đặc trƣng.
Phạm vi nghiên cứu: sinh viên nhóm ngành Công nghệ thông tin (Kỹ thuật Phần
mềm và Hệ thống Thông tin) tại Khoa Kỹ thuật – Công nghệ, Trƣờng Đại học Thủ
Dầu Một.
Trong chƣơng này, luận văn đã giới thiệu tổng quan về cải thiện, đảm bảo chất
lƣợng, cũng nhƣ công tác đảm bảo chất lƣợng tại Trƣờng đại học Thủ Dầu Một nói
chung và Khoa Kỹ thuật công nghệ nói riêng. Bên cạnh đó, chƣơng này còn giới
thiệu tổng quan về quá trình khám phá tri thức, các vấn đề liên quan đến khai phá dữ
liệu, các ứng dụng của khai phá dữ liệu. Đồng thời trong chƣơng này đã trình bày
mục tiêu, đối tƣợng nghiên cứu của đề tài.
Trong chƣơng tiếp theo sẽ trình bày các nghiên cứu liên quan, các kỹ thuật của
khai phá dữ liệu, các thuật toán xếp hạng đặc trƣng đƣợc áp dụng vào luận văn này.
5
CHƯƠNG 2.
CÁC NGHIÊN CỨU LIÊN QUAN
Tổng quát về khai phá dữ liệu vào giáo dục, các nghiên cứu liên quan trong và
ngoài nƣớc, các phƣơng pháp khai phá dữ liệu và các phƣơng pháp xếp hạng đặc
trƣng dùng trong luận văn đƣợc trình bày trong chƣơng này.
2.1. Khai phá dữ liệu giáo dục
Khai phá dữ liệu đƣợc áp dụng trong nhiều lĩnh vực khác nhau. Trong những
năm gần đây, cùng với sự gia tăng của các tài nguyên học tập điện tử, các phần mềm
hỗ trợ học tập và sự kết nối internet trong giáo dục đã tạo ra một lƣợng lớn dữ liệu
giáo dục. Các dữ liệu này là tài nguyên vô cùng giá trị để khai phá dữ liệu có thể khai
thác. Với lƣợng dữ liệu lớn đó, nó đã tạo ra một thách thức đối với các cơ sở giáo dục
đó là làm sao có thể khai thác đƣợc nguồn dữ liệu này, từ đó có áp dụng vào cơ sở
của mình để cải thiện chất lƣợng.
Khai phá dữ liệu trong giáo dục (EDM) [4] liên quan tới việc nghiên cứu, phát
triển và áp dụng các phƣơng pháp bằng máy tính để khám phá ra các mẫu quan trọng
từ khối dữ liệu giáo dục khổng lồ. EDM đã nổi lên nhƣ một lĩnh vực nghiên cứu độc
lập, bắt đầu với nghiên cứu về hệ thống gia sƣ thông minh, trí tuệ nhân tạo trong giáo
dục. Hội thảo đầu tiên, đƣợc giới thiệu biết đến là “Khai thác dữ liệu giáo dục”, đã
diễn ra vào năm 2005 và đến năm 2008 đã đƣợc nâng lên thành Hội nghị quốc tế
thƣờng niên về giáo dục. Từ đó đến nay các Hội nghị đƣợc diễn ra hàng năm. Hội
nghị EDM lần thứ 11 năm 2018, diễn ra tại Đại học Buffalo NewYork từ ngày 15-18
tháng 07 năm 2018.
Khai thác dữ liệu giáo dục là khai thác các bộ dữ liệu để trả lời các câu hỏi
nghiên cứu giáo dục làm sáng tỏ quá trình học tập. Các bộ dữ liệu này có thể bắt
nguồn từ nhiều bối cảnh học tập, bao gồm hệ thống quản lý học tập, môi trƣờng học
tập tƣơng tác, hệ thống trợ giảng thông minh. Mục tiêu bao trùm của Khai thác dữ
liệu giáo dục là hỗ trợ ngƣời học tốt hơn bằng cách phát triển sự hiểu biết dựa trên dữ
liệu về quá trình học tập trong nhiều loại bối cảnh và nhiều ngƣời học khác nhau.
Khai phá dữ liệu đƣợc áp dụng thành công trong nhiều lĩnh vực khác nhau nhƣ y
tế, kinh doanh, di truyền học,…mặc dù phƣơng pháp có thể giống nhau nhƣng mục
đích là khác nhau. Ví dụ khi so sánh mục đích giữa kinh doanh và giáo dục, trong khi
kinh doanh hƣớng đến lợi nhuận, lợi nhuận là thứ có thể đo đếm đƣợc thông qua thứ
6
hữu hình nhƣ là tổng doanh thu hoặc là thông qua trung gian nhƣ là sự hài lòng của
khách hàng. Trong khi mục đích của giáo dục là cải thiện chất lƣợng giảng dạy – rất
khó để đo đếm đƣợc. Một cách tổng quát, khai phá dữ liệu trong giáo dục phải tạo ra
đƣợc thông tin có tính định hƣớng hỗ trợ cho quá trình ra quyết định để cải thiện quá
trình giảng dạy và học tập hiện nay. Tuy nhiên, việc áp dụng khai phá dữ liệu vào
giáo dục còn phụ thuộc rất nhiều vào tình hình thực tế tại các sơ sở giáo dục.
Ở nghiên cứu [1], [2] Nguyễn Thái Nghe và cộng sự đã sử dụng Kỹ thuật phân rã
ma trận để dự đoán kết quả học tập của sinh viên tại Trƣờng đại học Cần Thơ. Các
tác giả kết hợp xây dựng ứng dụng từ đó giúp sinh viên lập kế hoạch học tập phù
hợp. Việc xác định đƣợc kế hoạch học tập phù hợp sẽ giúp sinh viên và nhà trƣờng
tránh đƣợc sự lãng phí về nhiều mặt.
Ở nghiên cứu [3] đã sử dụng nhiều phƣơng pháp khai phá dữ liệu nhƣ Cây quyết
định (J48), Mạng nơ-ron nhiều lớp (Multilayer Perceptron), phƣơng pháp Naïve
Bayes và phƣơng pháp SMO (Sequential Minimal Optimization) để dự đoán kết quả
học tập của sinh viên dựa vào tập dữ liệu thu thập đƣợc tại Đại học Gazi ở Ankara,
Thổ Nhĩ Kỳ. Các tác giả đã so sánh độ chính xác giữa các thuật toán khi áp dụng vào
tập dữ liệu thu thập đƣợc.
Sử dụng các phƣơng pháp học máy [12] để dự đoán kết học tập của học viên cao
học ở Đại học Ionia (Hoa Kỳ) dựa vào kiến thức nền và mức độ đáp ứng ở giữa kỳ
của học viên. Từ đó, phân loại đƣợc các nhóm học viên để giúp giảng viên có kế
hoạch giảng dạy phù hợp.
Lựa chọn đặc trƣng là việc làm quan trọng đối với khai phá dữ liệu, dữ liệu ban
đầu có thể chứa rất nhiều thuộc tính nhƣng không phải tất cả đều có liên quan tới việc
khai phá. Nghiên cứu [11] đã so sánh kết quả phân tích dữ liệu trƣớc và sau khi sử
dụng các phƣơng pháp lựa chọn đặc trƣng bằng công cụ WEKA [12]. Kết quả chỉ ra
rằng phƣơng pháp phân loại khi kết hợp với lựa chọn đặc trƣng sẽ cho kết quả khả
quan hơn.
Trong luận văn này, chúng tôi kết hợp phƣơng pháp lựa chọn đặc trƣng và các
phƣơng pháp khai phá dữ liệu nhƣ Bảng quyết định, Cây quyết định, Mạng nơ-ron
nhiều lớp, phƣơng pháp Naïve Bayes, phƣơng pháp k-NN và phƣơng pháp SMO để
tiến hành phân tích dữ liệu.
7
2.2. Một số phƣơng pháp khai phá dữ liệu đƣợc sử dụng trong luận văn
2.2.1 Cây quyết định
Cây quyết định (Decision tree) là một mô hình phân lớp điển hình. Việc xây
dựng các cây quyết định chính là quá trình phát hiện ra các luật phân chia tập dữ liệu
đã cho thành các lớp đã đƣợc định nghĩa trƣớc.
Một cây quyết định là một cấu trúc hình cây, bao gồm:
Mỗi nút trong (nút có thể khai triển đƣợc) biểu thị cho một phép thử đối với
một thuộc tính;
Mỗi nhánh biểu thị cho một kết quả của một phép thử;
Các nút lá (các nút không khai triển đƣợc) biểu thị các lớp hoặc các phân bố
lớp;
Nút trên cùng trong một cây đƣợc gọi là gốc.
Trên mỗi tập mẫu huấn luyện, về cơ bản các thuật toán phân lớp dữ liệu bằng cây
quyết định phải thực hiện 2 bƣớc sau:
Bước 1: Chọn thuộc tính Ai có các giá trị 𝑎𝑖1,𝑎𝑖2,…,𝑎𝑖𝑛
Bước 2: Với thuộc tính Ai đƣợc chọn, tạo một nút của cây và sau đó chia tập
mẫu này thành v tập mẫu D1, D2, …, Dv tƣơng ứng với v nút đƣợc tạo và sau đó lại
tiếp tục.
Trong đó, Bƣớc 2 là bƣớc phân chia với kết quả nhận đƣợc từ Bước 1, điều
này có nghĩa là chất lƣợng của cây kết quả phụ thuộc phần lớn vào cách chọn thuộc
tính và cách phân chia tập mẫu tại mỗi nút. Chính vì điều này, các thuật toán đều phải
tính lợi ích thông tin nhận đƣợc trên các thuộc tính và chọn thuộc tính tƣơng ứng có
lợi ích thông tin tốt nhất để làm nút phân tách trên cây, nhằm để đạt đƣợc cây có ít
nút nhƣng có khả năng dự đoán cao.
2.2.2 Naive Bayes
Navie Bayes là giải thuật phân loại dựa vào xác suất đƣợc sử dụng rộng rãi
trong lĩnh vực học máy. Với giả sử rằng các thuộc tính hoàn toàn độc lập với nhau.
Thuật toán phân lớp bằng Navie Bayes dựa trên định lý Bayes đƣợc phát biểu nhƣ
sau:
( ⁄ ) ( )
( ⁄ )
( )
8
,
(1)
trong đó: Y đại diện một giả thuyết, giả thuyết này đƣợc suy luận khi có đƣợc chứng
cứ mới X; P(X): xác suất X xảy ra; P(Y): xác suất Y xảy ra; P(X|Y): xác suất X xảy
ra khi Y xảy ra (xác suất có điều kiện, khả năng X khi Y đúng); P(Y|X): xác suất của
Y nếu biết X.
Áp dụng trong bài toán phân loại, các dữ kiện cần có:
- D: tập dữ liệu huấn luyện, trong đó các phần tử đã đƣợc vector hoá dƣới
dạng
=( x1, x2, … , xn ).
- Ci: tập các lớp của D, với i= {1, 2, 3, …m}
- Các thuộc tính x1, x2, …xn độc lập xác suất đôi một với nhau.
theo định lý Bayes:
(
(
)
) ( )
(2)
( )
Khi áp dụng với tập dữ liệu lớn, việc tính toán P(X|Ci) sẽ mất chi phí rất lớn.
bằng giả định các thuộc tính x1, x2, …xn độc lập xác suất với nhau, nên có thể tính:
( ⁄
)
∏
(
⁄ )
( ⁄ )
( ⁄ )
(
)
(3)
khi đó với một phần tử chƣa biết Xmới có n thuộc tính, Xmới = {x1, x2, … xn}. Bộ
phân lớp sẽ dự đoán rằng Xmới sẽ thuộc về lớp với xác suất có điều kiện cao nhất:
Xmới
Ci khi và chỉ khi (
)> (
) với 1 ≤ i ≤ m, i≠j
(4)
2.2.3 Support Vector Machine (SVM)
SVM (Support Vector Machine) [7] là một thuật toán học máy có giám sát
đƣợc sử dụng rất phổ biến ngày nay trong các bài toán phân lớp (classification) hay
hồi qui (Regression). Ý tƣởng của SVM là tìm một siêu phẳng (hyper plane) để phân
tách các điểm dữ liệu. Siêu phẳng này chia không gian thành các miền khác nhau và
mỗi miền chứa một loại dữ liệu. Mỗi siêu phẳng đều có thể đƣợc viết dƣới dạng một
tập hợp các điểm X thỏa mãn:
W.X + b = 0
(5)
trong đó: dấu “.” là tích vô hƣớng; W là một vector pháp tuyến của siêu phẳng.
2.2.4 k-NN
k-NN (k-Nearest Neighbor) [9] là thuật toán đi tìm đầu ra của một điểm dữ liệu
mới bằng cách chỉ dựa trên thông tin của k điểm dữ liệu trong tập dữ liệu huấn luyện
gần nó nhất (k-lân cận).
9
Thuật toán k-NN làm việc nhƣ thế nào ?
Bƣớc 1: Xác định tham số k = số láng giềng gần nhất.
Bƣớc 2: Tính toán khoảng cách giữa mẫu thử và những mẫu huấn luyện.
Bƣớc 3: Sắp xếp khoảng cách và xác định k khoảng cách nhỏ nhất.
Bƣớc 4: Thu thập giá trị thuộc tính của k láng giềng gần nhất
Bƣớc 5: Sử dụng giá trị trung bình của k láng giềng gần nhất để phán đoán
giá trị của đối tƣợng đang đƣợc phán đoán.
Một nhƣợc điểm của k-NN là rất chậm khi kích thƣớc của tập dữ liệu tăng lên.
Độ phức tạp của nó là O(n).
2.2.5 Multilayer Perceptron
Mạng truyền thẳng nhiều lớp (MultiLayer Perceptron - MLP) [17] là mạng
truyền thẳng điển hình thƣờng đƣợc sử dụng trong các hệ thống nhận dạng. Một
mạng truyền thẳng nhiều lớp bao gồm một lớp vào, một lớp ra và một hoặc nhiều lớp
ẩn. Các nơ-ron đầu vào thực chất không phải các nơ-ron theo đúng nghĩa, bởi lẽ
chúng không thực hiện bất kỳ một tính toán nào trên dữ liệu vào, đơn giản nó chỉ tiếp
nhận các dữ liệu vào và chuyển cho các lớp kế tiếp. Các nơ-ron ở lớp ẩn và lớp ra
mới thực sự thực hiện các tính toán, kết quả đƣợc định dạng bởi hàm đầu ra (hàm
chuyển). Cụm từ “truyền thẳng” (feed forward) liên quan đến một thực tế là tất cả các
nơ-ron chỉ có thể đƣợc kết nối với nhau theo một hƣớng: tới một hay nhiều các nơron khác trong lớp kế tiếp (loại trừ các nơ-ron ở lớp ra).
Hình 2.1: Mạng nơ-ron truyền thẳng nhiều lớp [17]
trong đó: P: Vector đầu vào (vector cột); Wi : Ma trận trọng số của các nơ-ron lớp thứ
i; (Si x Ri : S hàng (nơ-ron) - R cột (số đầu vào)); bi : Vector độ lệch (bias) của lớp
10
thứ i (Si x1: cho S nơ-ron); ni : net input (Si x1); fi : Hàm chuyển (hàm kích hoạt); ai :
net output (Si x1); ⊕: Hàm tổng thông thƣờng.
Mỗi liên kết gắn với một trọng số, trọng số này đƣợc thêm vào trong quá trình tín
hiệu đi qua liên kết đó. Các trọng số có thể dƣơng, thể hiện trạng thái kích thích, hay
âm, thể hiện trạng thái kiềm chế. Mỗi nơ-ron tính toán mức kích hoạt của chúng bằng
cách cộng tổng các đầu vào và đƣa ra hàm chuyển. Một khi đầu ra của tất cả các nơron trong một lớp mạng cụ thể đã thực hiện xong tính toán thì lớp kế tiếp có thể bắt
đầu thực hiện tính toán của mình bởi vì đầu ra của lớp hiện tại tạo ra đầu vào của lớp
kế tiếp. Khi tất cả các nơ-ron đã thực hiện tính toán thì kết quả đƣợc trả lại bởi các
nơ-ron đầu ra. Tuy nhiên, có thể là chƣa đúng yêu cầu, khi đó một thuật toán huấn
luyện cần đƣợc áp dụng để điều chỉnh các tham số của mạng.
Xét trƣờng hợp mạng có hai lớp nhƣ hình 5, công thức tính toán cho đầu ra nhƣ
sau:
𝑎
(
(
(
))
(6)
Mạng có nhiều lớp có khả năng tốt hơn là các mạng chỉ có một lớp, chẳng hạn nhƣ
mạng hai lớp với lớp thứ nhất sử dụng hàm sigmoid và lớp thứ hai dùng hàm đồng
nhất có thể áp dụng để xấp xỉ các hàm toán học khá tốt, trong khi các mạng chỉ có
một lớp thì không có khả năng này.
2.2.6 Bảng quyết định (Decision Table)
Bảng quyết định là tập hợp các luật If-Then đƣợc sắp xếp một cách thuận tiện và
dễ hiểu hơn Cây quyết định. Bảng quyết định đƣợc sử dụng vì nó đơn giản, tính toán
ít hơn so với Cây quyết định.
2.3. Tiêu chí đánh giá đặc trƣng
2.3.1 Xếp hạng đặc trƣng dựa vào độ tƣơng quan (Correlation-based) (CB)
Đây là phƣơng pháp xếp hạng các đặc trƣng bằng cách đánh giá mức độ liên
quan giữa các đặc trƣng với lớp mục tiêu. Phƣơng pháp này sử dụng hệ số tƣơng
quan Pearson [8] để đánh giá mức độ liên quan của từng đặc trƣng với lớp mục tiêu.
2.3.2 Xếp hạng đặc trƣng dựa vào Info Gain (IG)
Đây là phƣơng pháp xếp hạng mức độ quan trọng của đặc trƣng dựa vào độ lợi
thông tin.
11
- Xem thêm -