UBND TỈNH BÌNH DƯƠNG
TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT
TRẦN ĐỨC HOÀN
ỨNG DỤNG MÔ HÌNH HỒI QUY TUYẾN TÍNH ĐA MỨC
ĐÁNH GIÁ ĐIỂM RÈN LUYỆN
SINH VIÊN TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT
CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN
Mã ngành: 8480104
LUẬN VĂN THẠC SỸ
BÌNH DƯƠNG - 2019
UBND TỈNH BÌNH DƯƠNG
TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT
TRẦN ĐỨC HOÀN
ỨNG DỤNG MÔ HÌNH HỒI QUY TUYẾN TÍNH ĐA MỨC
ĐÁNH GIÁ ĐIỂM RÈN LUYỆN
SINH VIÊN TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT
LUẬN VĂN THẠC SỸ
CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN
MÃ SỐ: 8480104
NGƯỜI HƯỚNG DẪN KHOA HỌC:
TS. HOÀNG MẠNH HÀ
BÌNH DƯƠNG - 2019
LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi, các trích
dẫn đều được sự đồng ý của tác giả trước khi đưa vào luận văn. Các kết quả
trong luận văn là trung thực và chưa từng công bố trong một công trình
khoa học nào khác.
LỜI CẢM ƠN
Để hoàn thành luận văn này, trước hết em xin bày tỏ lòng biết ơn sâu
sắc tới Thầy TS Hoàng Mạnh Hà đã tận tình chỉ dạy và có những góp ý quý
báu cho em trong thời gian thực hiện luận văn.
Em xin chân thành cảm ơn ban Lãnh đạo Khoa Kỹ Thuật Công Nghệ
Trường Đại học Thủ Dầu Một, Phòng Đào tạo Sau đại học và Quý thầy Cô
Trường Đại học Thủ Dầu Một, thành phố Thủ Dầu Một, Tỉnh Bình Dương,
đã tạo điều kiện thuận lợi cho em trong quá trình học tập, nghiên cứu tại
trường. Cảm ơn các bạn Tập thể lớp Cao học CH16HT đã sát cánh cùng nhau
chia sẽ kinh nghiệm học tập quý báu, giúp đỡ nhau vượt qua khó khăn.
Cảm ơn Các Thầy, cô Phòng Công tác Sinh viên trường Đại học Thủ
Dầu Một, khoa Kỹ thuật Công Nghệ đã tận tình chia sẽ và trao đổi các thông
tin trong lĩnh vực quản lí sinh viên.
Do thời gian có hạn và khả năng còn hạn chế nên không tránh khỏi
những thiếu sót, rất mong được sự đóng góp ý kiến từ Thầy Cô và bạn bè để
em luận văn hoàn chỉnh hơn nữa.
MỤC LỤC
LỜI CAM ĐOAN ........................................................................................
LỜI CẢM ƠN ..............................................................................................
MỞ ĐẦU ..................................................................................................... i
CHƯƠNG 1: DỮ LIỆU ĐIỂM RÈN LUYỆN .......................................... 1
1.1 Quy định về điểm rèn luyện ............................................................................. 1
1.2 Đánh giá điểm rèn luyện .................................................................................. 1
1.2.1 Đánh giá về ý thức học tập ...................................................................... 1
1.2.2 Đánh giá về ý thức chấp hành nội quy, quy chế trong nhà trường .......... 2
1.2.3 Đánh giá về ý thức và kết quả tham gia các hoạt động chính trị - xã hội,
văn hóa, văn nghệ, thể thao .............................................................................. 3
1.2.4 Đánh giá về ý thức công dân trong quan hệ với cộng đồng ................... 3
1.2.5 Đánh giá về ý thức và kết quả tham gia công tác các bộ lớp, cán bộ đoàn,
các đoàn thể, tổ chức trong Nhà trường hoặc người học có thành tích đặc biệt
trong học tập – rèn luyện .................................................................................. 4
1.3 Phân loại kết quả rèn luyện .............................................................................. 4
CHƯƠNG 2: BÀI TOÁN HỒI QUY TUYẾN TÍNH ĐA MỨC ............. 6
2.1 Phát biểu bài toán ............................................................................................. 6
2.2 Một số thuật toán áp dụng ................................................................................ 9
2.2.1 Phân cụm dữ liệu ........................................................................................... 9
2.2.2 Mô hình hồi quy tuyến tính đa biến ............................................................ 12
CHƯƠNG 3: THỰC NGHIỆM VÀ ĐÁNH GIÁ ................................... 14
3.1 Dữ liệu bài toán .............................................................................................. 14
3.1.1 Thu thập dữ liệu ..................................................................................... 14
3.1.2 Mô tả dữ liệu .......................................................................................... 18
3.2 Thực nghiệm trên bộ dữ liệu điểm rèn luyện ngành Kỹ thuật Phần mềm ..... 21
3.3 Đánh giá kết quả............................................................................................. 36
KẾT LUẬN VÀ KIẾN NGHỊ ................................................................. 39
1. Kết luận ............................................................................................................ 39
2. Kiến nghị .......................................................................................................... 39
TÀI LIỆU THAM KHẢO ................................................................................. 40
DANH MỤC CÁC BẢNG
Bảng 1.3: Bảng phân loại rèn luyện sinh viên trường Đại học Thủ Dầu Một... 5
Bảng 3.1.1.1: Phiếu đánh giá kết quả rèn luyện của sinh viên ...................... 17
Bảng 3.1.1.3: Mô tả các biến trên dữ liệu điểm rèn luyện ............................ 20
Bảng 3.2.2: Giá trị trung bình của các biến điểm rèn luyện .......................... 24
Bảng 3.2.3: Độ lệch chuẩn của các biến điểm rèn luyện ............................... 25
DANH MỤC CÁC HÌNH
Hình 2.1.1: Sơ đồ Tương quan giữa điểm rèn luyện với kết quả học tập ....... 6
Hình 2.1.2: Sơ đồ ứng dụng hồi quy tuyến tính đa mức ................................ 8
Hình 3.1.1.2: Dữ liệu điểm rèn luyện ngành Kỹ thuật phần mềm ................ 18
Hình 3.2.1:Biểu đồ phân bố dữ liệu ngành Kỹ thuật Phần mềm .................. 23
Hình 3.2.4: Biểu đồ chọn k tối ưu ............................................................... 26
Hình 3.2.5: Biểu đồ phân cụm PAM ........................................................... 28
Hình 3.2.6: Biểu đồ phân cụm CLARA ...................................................... 28
Hình 3.3.1: Đồ thị biểu diễn mối tương quan giữa điểm trung bình học kỳ với
cụm điểm rèn luyện có ảnh hưởng mạnh ................................. 38
Hình 3.3.2: Đồ thị biểu diễn mối tương quan giữa điểm trung bình học kỳ với
cụm điểm rèn luyện có ảnh hưởng yếu .................................... 38
MỞ ĐẦU
1. Tính cấp thiết của đề tài
Trong quá suốt quá trình học tập của sinh viên tại trường Đại học Thủ Một
tỉnh Bình Dương nói riêng các cơ sở giáo dục đại học, cao đẳng nói chung có hai
vấn đề tiên quyết đó chính là kết quả học tập và rèn luyện. Trong đó điểm rèn luyện
của sinh viên có vai trò rất quan trọng trong đánh giá sinh viên bên cạnh điểm học
tập, điểm này còn thể hiện quá trình rèn luyện, phấn đấu của sinh viên trong quá
trình học tập và tham gia sinh hoạt cộng đồng. Đánh giá rèn luyện là một yêu cầu
bắt buộc đối với sinh viên. Điểm rèn luyện là điểm đạt được khi đánh giá về phẩm
chất chính trị, đạo đức, lối sống của sinh viên trên 05 tiêu chí đánh giá như sau:
Đánh giá về ý thức tham gia học tập; Đánh giá về ý thức chấp hành nội quy, quy
chế, quy định trong nhà trường; Đánh giá về ý thức tham gia các hoạt động chính
trị, xã hội, văn hóa, văn nghệ, thể thao, phòng chống tội phạm và các tệ nạn xã
hội; Đánh giá về ý thức công dân trong quan hệ cộng đồng; Đánh giá về ý thức và
kết quả tham gia công tác cán bộ lớp, các đoàn thể, tổ chức khác trong nhà trường
hoặc sinh viên đạt được thành tích đặc biệt trong học tập, rèn luyện.
Trên cơ sở việc đánh giá điểm rèn luyện, tác giả đề ra mục tiêu nghiên cứu
về mối tương quan giữa điểm rèn luyện ảnh hưởng đến kết quả học tập của sinh
viên trường Đại học Thủ Dầu Một.
Dựa trên cơ sở về lý thuyết hồi quy tuyến tính và để giải quyết vấn đề này
tác giả đề xuất phương án đó là “Ứng dụng mô hình hồi quy tuyến tính đa mức
đánh giá điểm rèn luyện sinh viên trường Đại học Thủ Dầu Một” cho luận văn của
mình. Nhằm tìm ra sự ảnh hưởng của điểm rèn luyện với kết quả học tập của sinh
viên.
2. Mục tiêu nghiên cứu của luận văn
Trên cơ sở lý thuyết hồi quy tuyến tính, đưa ra một mô hình nhằm đánh giá
các yếu tố điểm rèn luyện ảnh hưởng đến kết quả học tập của sinh viên trường Đại
học Thủ Dầu Một dựa trên điểm rèn luyện.
3. Đối tượng và phạm vi nghiên cứu
- Đối tượng nghiên cứu: Lý thuyết Hồi quy tuyến tính, thuật toán phân cụm,
i
bảng điểm rèn luyện và kết quả học tập của khóa D14PM - Đại học Kỹ thuật Phần
mềm trường Đại học Thủ Dầu Một.
- Phạm vi nghiên cứu: Nghiên cứu về cách xây dựng mô hình hồi quy tuyến
tính đa mức. Phương pháp lựa chọn phân tích điểm rèn luyện tìm ra mối tương
quan với điểm học tập của sinh viên.
4. Phương pháp nghiên cứu
- Kết hợp nghiên cứu lý thuyết và xây dựng mô hình.
- Nghiên cứu tài liệu, sách báo về lý thuyết hồi quy: hồi quy tuyến tính đa
biến, hồi quy tuyến tính đa mức, các thuật toán phân cụm.
- Áp dụng các kết quả nghiên cứu để xây dựng mô hình.
5. Kết cấu của luận văn
Ngoài phần mở đầu và kết luận, tài liệu tham khảo, nội dung luận văn được
trình bày trong 3 chương:
- Chương 1: Trình bày về về dữ liệu điểm rèn luyện
- Chương 2: Trình bày bài toán hồi quy tuyến tính đa mức
- Chương 3: Kết quả nghiên cứu của tác giả về đánh giá sự ảnh hưởng của
điểm rèn luyện lên kết quả học tập trên dữ liệu tại trường Đại học Thủ Dầu Một.
ii
CHƯƠNG 1: DỮ LIỆU ĐIỂM RÈN LUYỆN
1.1 Quy định về điểm rèn luyện
Căn cứ Quy chế đánh giá rèn luyện của người học được đào tạo trình độ đại
học hệ chính quy ban hành kèm theo Thông tư số 16/2015/TT-BGDĐT ngày 12
tháng 8 năm 2015 của Bộ trưởng Bộ Giáo dục và Đào tạo [1].
Điểm rèn luyện là điểm xem xét, đánh giá kết quả rèn luyện của người học
là đánh giá ý thức, thái độ của người học dựa trên các yếu tố về ý thức tham gia
học tập; ý thức chấp hành nội quy, quy chế, quy định trong nhà trường; ý thức
tham gia các hoạt động chính trị, xã hội, văn hoá, văn nghệ, thể thao, phòng chống
tội phạm và các tệ nạn xã hội; ý thức công dân trong quan hệ cộng đồng; ý thức và
kết quả tham gia công tác cán bộ lớp, các đoàn thể, tổ chức khác trong cơ sở giáo
dục đại học hoặc người học đạt được thành tích đặc biệt trong học tập, rèn luyện.
Nguyên tắc đánh giá kết quả rèn luyện của người học phải được thực hiện
nghiêm túc, đảm bảo khách quan, công khai, công bằng, chính xác. Có sự phối hợp
đồng bộ, chặt chẽ các bộ phận, các đơn vị có liên quan trong nhà trường tham gia
công tác đánh giá kết quả rèn luyện của người học.
1.2 Đánh giá điểm rèn luyện
Dữ liệu được thu thập từ phiếu chấm điểm của sinh viên trường Đại học
Thủ Dầu Một của ngành Công nghệ Phần mềm (khóa D14). Việc chấm điểm rèn
luyện theo từng học kỳ được đánh giá cụ thể theo hướng dẫn đánh giá kết quả rèn
luyện của sinh viên trình độ đại học, hệ chính quy [5] trên các tiêu chí sau:
1.2.1 Đánh giá về ý thức học tập
- Đánh giá về ý thức học tập:
+ Chuyên cần: Đi học đầy đủ, đúng giờ, nghiêm túc trong giờ học,
không vi phạm quy chế về thi, kiểm tra: số điểm từ 0 đến 10 điểm. Sinh viên vi
phạm quy chế học vụ (nghỉ học không phép, bỏ tiết ...): trừ 01điểm/ lần, nếu vi
phạm quy chế thi, kiểm tra bất cứ hình thức gì thì mục này = 0 điểm.
+ Kết quả học tập trong học kỳ: Được tính cụ thể sau: Điểm trung
1
bình chung học tập trong học kỳ đạt: 9 đến 10 = 08 điểm; 8 đến cận 9 = 06 điểm;
7 đến cận 8 = 04 điểm; 5 đến cận 7 = 02 điểm; dưới 5 = 0 điểm.
+ Có cố gắng, vượt khó trong học tập: Sinh viên có điểm trung bình
chung học tập học kỳ sau lớn hơn học kỳ trước đó; đối với sinh viên năm thứ nhất,
học kỳ I không có điểm dưới 5). Nếu đạt chấm 2 điểm, không đạt 0 điểm.
- Tham gia nghiên cứu khoa học, nâng cao trình độ ngoại ngữ, tin học:
+ Nghiên cứu khoa học: Có tham gia đề tài nghiên cứu khoa học của
sinh viên hoặc của Khoa và cấp tương đương, có xác nhận của Chủ nhiệm đề tài
(không tính bài tập, tiểu luận, đồ án môn học, luận văn…) chấm 5 điểm, không
thực hiện chấm 0 điểm.
+ Hoàn thành chuẩn đầu ra Tin học, Ngoại ngữ: Tin học chấm 5
điểm. Ngoại ngữ chấm 10 điểm. Điểm này chỉ được chấm 1 lần trong suốt thời
gian học tập của sinh viên.
Điểm cộng tối đa của mục 1.2.1 là 20 điểm
1.2.2 Đánh giá về ý thức chấp hành nội quy, quy chế trong nhà trường
- Không vi phạm và có ý thức tham gia thực hiện nghiêm túc các quy định
của Lớp, nội quy, quy chế của Trường, Khoa và các tổ chức trong nhà trường: Nếu
không vi phạm được 15 điểm. Mỗi lần vi phạm, tùy mức độ bị trừ điểm cho đến =
0.
- Sinh viên có tích cực tham gia các hoạt động tuyên truyền, vận động mọi
người xung quanh thực hiện nghiêm túc nội quy, quy chế, các quy định của nhà
trường về:
+ Giữ gìn an ninh, trật tự nơi công cộng: có tham gia tổ chức đội,
nhóm và hoạt động có kết quả cụ thể, được cấp Khoa và tương đương xác nhận.
Tuỳ mức độ chấm điểm từ 0 đến 10 điểm.
+ Giữ gìn vệ sinh, bảo vệ cảnh quan môi trường, nếp sống văn minh
(có xác nhận của đoàn thể, Khoa…). tùy theo mức độ chấm điểm từ 0 đến 10
điểm.
Điểm cộng tối đa của mục 2.1.2 là 25 điểm
2
1.2.3 Đánh giá về ý thức và kết quả tham gia các hoạt động chính trị xã hội, văn hóa, văn nghệ, thể thao
- Tham gia đầy đủ các hoạt động chính trị, xã hội, văn hóa, văn nghệ, thể
thao các cấp từ Lớp, Chi hội, Chi đoàn trở lên tổ chức: Tuỳ mức độ tích cực, tự
giác của từng sinh viên có thể cho điểm từ 0 đến 12 điểm.
- Là lực lượng nòng cốt trong các phong trào văn hóa, văn nghệ, thể thao:
+ Lực lượng nòng cốt được các cấp xác nhận: Cấp Bộ môn, Chi đoàn,
Chi hội, Đội, Nhóm chấm 3 điểm; Cấp Khoa (và tương đương), Trường chấm 5
điểm; Không tham gia 0 điểm.
- Được khen thưởng trong các hoạt động phong trào: Xét 1 lần. Nếu đạt
nhiều mức thành tích cùng nội dung thì tính 1 mức cao nhất.
+ Quyết định khen thưởng của Đoàn Khoa (và tương đương) chấm 6
điểm.
+ Giấy khen cấp Trường chấm 8 điểm.
+ Giấy khen cấp cao hơn (cấp tỉnh): 10 điểm.
Điểm cộng tối đa của mục 1.2.3 là 20 điểm.
1.2.4 Đánh giá về ý thức công dân trong quan hệ với cộng đồng
- Không vi phạm pháp luật của Nhà nước: Sinh viên không vi phạm chấm
10 điểm. Nếu vi phạm 1 lần (như thủ tục cư trú, Luật giao thông…) thì mục này =
0.
- Có tinh thần giúp đỡ bạn bè trong học tập, trong cuộc sống: Có vụ việc,
nội dung cụ thể được tập thể lớp công nhận chấm 5 điểm.
- Tham gia đội, nhóm sinh hoạt hướng đến lợi ích cộng đồng (tham gia công
tác xã hội ở Trường, nơi cư trú, địa phương): Các phong trào như chiến dịch tình
nguyện hè, làm sạch môi trường, tham gia công tác tại nơi cư trú, địa phương…Tuỳ
mức độ mà chấm điểm từ 0 đến 10 điểm
Điểm cộng tối đa của mục 1.2.4 là 25 điểm
3
1.2.5 Đánh giá về ý thức và kết quả tham gia công tác các bộ lớp, cán
bộ đoàn, các đoàn thể, tổ chức trong Nhà trường hoặc người học có thành tích
đặc biệt trong học tập – rèn luyện
- Là Lớp trưởng, Bí thư Chi đoàn, Ủy viên BCH đoàn thể cấp cao hơn Chi
đoàn, BCH Hội sinh viên Trường, Liên Chi hội trưởng, Chi hội trưởng Hội Sinh
viên, Đội trưởng các câu lạc bộ, Đội, Nhóm thuộc Hội Sinh viên, đoàn thanh niên
Trường đã hoàn thành nhiệm vụ được giao. Tùy mức độ hoàn thành nhiệm vụ có
thể cho điểm từ 0 đến 10 điểm.
- Là thành viên của Ban Cán sự lớp, Ban Chấp hành chi đoàn, Ban chấp
hành Liên Chi hội Sinh viên, Chi hội Sinh viên Trường (trừ các thành viên nêu
mục trên), là thành viên các câu lạc bộ, Đội, Nhóm thuộc Hội Sinh viên trường
(phải có tổ chức thừa nhận tư cách thành viên hoặc có xác nhận bằng văn bản),
Đoàn Thanh niên đã hoàn thành nhiệm vụ được giao. Tùy mức độ hoàn thành
nhiệm vụ có thể cho điểm từ 0 đến 8 điểm.
- Thành tích đặc biệt : tối đa 10 điểm (nếu sinh viên có nhiều thành tích lấy
thành tích cao nhất để chấm điểm). Không có thành tích chấm 0 điểm.
+ Được kết nạp Đảng, đạt sinh viên 5 tốt, đạt giải thưởng sao tháng
giêng chấm 10 điểm.
+ Tham gia các kỳ thi olympic, đạt các giải thưởng trong nghiên cứu
khoa học, có các báo cáo khoa học trong hội nghị, hội thảo, các bài báo khoa học
chấm 10 điểm.
+ Được khen thưởng trong các lĩnh vực học tập rèn luyện (từ cấp
trường trở lên, trừ các trường hợp đã tính điểm phần trên) chấm 10 điểm
Điểm cộng tối đa của mục 1.2.5 là 10 điểm
1.3 Phân loại kết quả rèn luyện
- Điểm rèn luyện học kỳ là tổng điểm của 05 nội dung (1+2+3+4+5) = 100
điểm, nếu vượt quá 100 điểm thì quy về thành 100 điểm để phân loại kết quả rèn
luyện.
4
Phân loại
Điểm rèn luyện
Xuất sắc
Từ 90 đến 100 điểm
Tốt
Từ 80 đến dưới 90 điểm
Khá
Từ 65 đến dưới 80 điểm
Trung bình
Từ 50 đến dưới 65 điểm
Yếu
Từ 35 đến dưới 50 điểm
Kém
Dưới 35 điểm
Bảng 1.3: Bảng phân loại rèn luyện sinh viên trường Đại học Thủ Dầu
Một
- Các trường hợp đặc biệt:
+ Trong thời gian sinh viên bị kỷ luật mức khiển trách, khi đánh giá
kết quả rèn luyện không được vượt quá loại khá.
+ Trong thời gian sinh viên bị kỷ luật mức cảnh cáo, khi đánh giá kết
quả rèn luyện không được vượt quá loại trung bình.
+ Trong quá trình đánh giá nếu phát hiện sinh viên không trung thực
trong đánh giá sẽ hạ 1 bậc trong phân loại kết quả rèn luyện.
+ sinh viên bị kỷ luật mức đình chỉ học tập không được đánh giá rèn
luyện trong thời gian bị đình chỉ.
+ Sinh viên bị kỷ luật mức buộc thôi học không được đánh giá kết
quả rèn luyện.
+ Sinh viên nghỉ học tạm thời được bảo lưu kết quả rèn luyện sẽ được
đánh giá kết quả rèn luyện khi tiếp tục trở lại học tập theo quy định.
+ Sinh viên chuyển trường được bảo lưu kết quả rèn luyện của trường
cũ và tiếp tục được đánh giá kết quả rèn luyện ở các học kỳ tiếp theo.
5
CHƯƠNG 2: BÀI TOÁN HỒI QUY TUYẾN TÍNH ĐA MỨC
2.1 Phát biểu bài toán
Trong quá trình tham gia việc đánh giá điểm rèn luyện tại trường Đại học
Thủ Dầu Một tác giả nhận thấy giữa điểm rèn luyện có một mối tương quan nào
nào đó với kết quả chung bình trung học tập từng sinh viên.
CN
HTHT
DTBHK
NCKH
CGVK
Hình 2.1.1: Sơ đồ Tương quan giữa điểm rèn luyện với kết quả học
tập
Để biểu diễn mối tương quan giữa các giá trị biến điểm rèn luyện với kết
quả học tập, tác giả sử dụng mô hình hồi quy tuyến tính đa biến. Bài toán phát biểu
như sau:
Có hàm chưa biết 𝑓: 𝑅𝑛 → 𝑅
𝑁
Biết tập 𝐷{(𝑥 𝑗 , 𝑦 𝑗 )}𝑁
𝑗=1 trong 𝑅 × 𝑅 có 𝑁 đối tượng quan sát được 𝑦𝑗 =
𝑗
𝑗
𝑓(𝑥1 , … , 𝑥𝑛 ), với 𝑗 = 1, 2, … 𝑁
Trong đó
𝑗
𝑗
𝑥 𝑗 = (𝑥1 , … , 𝑥𝑛 ) ∈ 𝑅𝑛
𝑗
𝑗
Hãy tìm hàm xấp xỉ 𝑦 𝑗 = 𝑔(𝑥1 , … , 𝑥𝑛 ) + 𝜀(𝑥)
Trong đó:
𝜀(𝑥): Sai số có phân phối chuẩn hóa
6
Giải
Việc xây dựng hàm 𝑔 được mô tả như sau:
- Chọn trước một hàm dạng tổng quát phụ thuộc 𝑁 tham số dạng
𝑔(𝑥) = 𝜑(𝑥, 𝛽1 , … , 𝛽𝑁 )
Trong đó, hàm xấp xỉ 𝑔 cũng được mô tả qua hệ phương trình tuyến tính
𝑗
sau ∑𝑁
𝑘=1 𝛽𝑘 𝜑𝑘 = 𝑦
với 𝑗 = 1, … , 𝑁
- Xác định các hệ số 𝛽1 , … , 𝛽𝑁 thông qua phương pháp cực tiểu hóa bình
𝑗
𝑗 2
phương sai số ∑𝑁
𝑗=1[𝜑(𝑥 ) − 𝑦 ]
Ý nghĩa phân tích của phương pháp hồi quy tuyến tính:
Cho hàm xấp xỉ được xác định sau quá trình hồi quy:
𝑗
𝑗
𝑦 𝑗 = 𝑔(𝑥1 , … , 𝑥𝑛 ) + 𝜀(𝑥)
Trong đó
𝑔(𝑥) = 𝜑(𝑥, 𝛽1 , … , 𝛽𝑁 )
Hàm số trên cũng được mô tả bằng hình vẽ sau
𝑥1
𝛽1
∑
𝑥𝑛
𝑔(𝑥)
𝛽𝑛
Trong đó ( 𝛽1 , … , 𝛽𝑁 ) là các trọng số biểu diễn mức độ ảnh hưởng của các
𝑗
𝑗
yếu tố (𝑥1 , … , 𝑥𝑛 ) lên 𝑔(𝑥).
7
𝑗
𝑗
Vì 𝑦 𝑗 ≈ 𝑔(𝑥1 , … , 𝑥𝑛 ), do vậy có thể hiểu ( 𝛽1 , … , 𝛽𝑁 ) phản ánh ảnh hưởng
𝑗
𝑗
của các yếu tố (𝑥1 , … , 𝑥𝑛 ) lên 𝑦 𝑗
Do vậy, mô hình hồi quy tuyến tính được sử dụng công cụ phân tích các
yếu tố ảnh hưởng. Đồng thời, để thực hiện mô hình hồi quy tuyến tính đa biến đối
với điểm rèn luyện phải thỏa các điều kiện sau:
-
Biến độc lập có tương quan với biến phụ thuộc.
-
Các cột dữ liệu phải độc lập với nhau.
-
Các sai số tương ứng với các quan sát khác nhau là độc lập.
-
Sai số 𝜖 phải có phân phối chuẩn.
Trên thực tế, bộ dữ liệu được thu thập của các sinh viên tại trường Đại học
Thủ Dầu Một, cùng ngành Công nghệ Phần mềm, trong đó có những sinh viên
trong cùng một lớp. Trên cơ sở đó, có khả năng là các biến không độc lập với nhau.
Do đó, việc sử dụng mô hình hồi quy tuyến tính đa biến là không phù hợp.
Các cột dữ liệu không
độc lập với nhau
Các sinh viên trong
cùng lớp, cùng trường
Đề xuất áp dụng mô hình
Hồi quy tuyến tính đa
mức
Nhận xét: Có phân cụm trong
Điểm rèn luyện -> Đề xuất phân
cụm áp dụng PAM và Slara
Hình 2.1.2: Sơ đồ ứng dụng hồi quy tuyến tính đa mức
Vì vậy, để giải quyết bài toán điểm rèn luyện có ảnh hưởng đến kết quả
học tập của sinh viên. Tác giả đề xuất sử dụng mô hình hồi quy tuyến tính đa
mức.
Các bước thực hiện mô hình:
8
+ Bước 1: chuẩn hóa dữ liệu sao cho có trung bình 0 và phương sai
1.
+ Bước 2: tiến hành phân cụm dữ liệu để chọn các sinh viên có cùng
mức điểm rèn luyện về mỗi cụm khác nhau.
+ Bước 3: Ứng dụng mô hình hồi quy tuyến tính đa biến cho từng
cụm, tìm ra mối tương quan giữa các biến điểm rèn luyện trên từng cụm.
2.2 Một số thuật toán áp dụng
2.2.1 Phân cụm dữ liệu
Nguyên tắc chính của phân cụm vẫn là làm sao cho độ giống nhau trong
cùng một cụm là cao và độ giống nhau giữa các cụm là thấp [9]. Do vậy trong luận
văn này chọn phương pháp phân hoạch để phân cụm với mục đích chọn ra các
nhóm sinh viên có cùng mức điểm rèn luyện vào một nhóm.
Độ đo khoảng cách
d(i, j) là khoảng cách giữa sinh viên i và sinh viên j; khoảng cách này được
tính theo công thức: Độ đo khoảng cách Euclidean [2]:
𝟐
𝟐
𝟐
𝒅(𝒊, 𝒋) = √(|𝒓𝒊𝟏 − 𝒓𝒋𝟏 | + |𝒓𝒊𝟐 − 𝒓𝒋𝟐 | + ⋯ + |𝒓𝒊𝒑 − 𝒓𝒋𝒑 | )
Chỉ số Silhouette Giả sử điểm rèn luyện được chia thành k cụm. Với mỗi
cụm sinh viên(i) I , đặt:
-
a(i) là khoảng cách trung bình từ i tới tất cả các sinh viên trong cùng
cụm với i.
-
b(j) là khoảng cách trung bình ngắn nhất từ i tới bất kỳ cụm nào
không chứa i.
Cụm tương ứng với b(j) này được gọi là cụm hàng xóm của i. Khi đó
chỉ số Silhouette s(i) được định nghĩ như sau:
𝑠 (𝑖 ) =
𝑏(𝑗) − 𝑎(𝑖)
max(𝑎(𝑖), 𝑏(𝑗))
Với chỉ số s(i) nằm trong đoạn [-1,1] cho thấy s(i) càng gần 1 thì sinh viên(i)
càng phù hợp với cụm mà nó được phân vào, s(i) = 0 thì không thể xác định được
9
sinh viên(i) nên thuộc về cụm nào giữa cụm hiện tại và cụm hàng xóm của nó, s(i)
càng gần -1 thì chứng tỏ i bị phân sai cụm, nó nên thuộc về cụm hàng xóm chứ
không phải cụm hiện tại.
Các phương pháp phân chia nổi tiếng và thường được dùng nhất là KMeans (MacQueen 1967), k-medoids (Kaufman và Rousseew 1987) và các dạng
biến đổi của chúng [9]. Đối với phương pháp k-means thường được áp dụng khi
trung bình của một cụm được xác định. K- Means nhạy cảm với các điểm dữ liệu
nhiễu vào outlier, một số lượng nhỏ dữ liệu như vậy về căn bản có ảnh hưởng tới
giá trị trung bình [2]. Nên chọn lựa PAM hay CLARA vào bài toán phân cụm có
những thuận lợi nhất định.
Thuật toán PAM
PAM (partition around medoids) - phân chia xung quanh các medoid –
trung tâm: Đây là một giải thuật phân cụm kiểu k-medoids.Tìm k cụm trong n sinh
viên bằng cách: trước tiên tìm một sinh viên đại diện làm tâm cụm (sc) hay medoid
cho mỗi cụm. Tập các medoid ban đầu được lựa chọn tuỳ ý. Sau đó lặp lại các thay
thế một trong số các medoid bằng một trong số những đối tượng không phải
medoid miễn là tổng khoảng cách của kết quả phân cụm được cải thiện [9].
Gọi là sc hay gọi là mediod.
Gọi gi: sinh viên khác với sc(i=1..n)
Có thể phát biểu thuật toán PAM như sau [9]
Đầu vào:
Tập hợp các sinh viên N = {n1,n2,…,nn},
Số cụm k
Đầu ra: Tập hợp sinh viên đã được phân vào k cụm.
10
- Xem thêm -