Đăng ký Đăng nhập
Trang chủ Giáo dục - Đào tạo Cao đẳng - Đại học Chuyên ngành kinh tế Ứng dụng mô hình hồi quy tuyến tính đa mức đánh giá điểm rèn luyện sinh viên trư...

Tài liệu Ứng dụng mô hình hồi quy tuyến tính đa mức đánh giá điểm rèn luyện sinh viên trường đại học thủ dầu một

.PDF
50
1
52

Mô tả:

UBND TỈNH BÌNH DƯƠNG TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT  TRẦN ĐỨC HOÀN ỨNG DỤNG MÔ HÌNH HỒI QUY TUYẾN TÍNH ĐA MỨC ĐÁNH GIÁ ĐIỂM RÈN LUYỆN SINH VIÊN TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN Mã ngành: 8480104 LUẬN VĂN THẠC SỸ BÌNH DƯƠNG - 2019 UBND TỈNH BÌNH DƯƠNG TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT  TRẦN ĐỨC HOÀN ỨNG DỤNG MÔ HÌNH HỒI QUY TUYẾN TÍNH ĐA MỨC ĐÁNH GIÁ ĐIỂM RÈN LUYỆN SINH VIÊN TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT LUẬN VĂN THẠC SỸ CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN MÃ SỐ: 8480104 NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. HOÀNG MẠNH HÀ BÌNH DƯƠNG - 2019 LỜI CAM ĐOAN Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi, các trích dẫn đều được sự đồng ý của tác giả trước khi đưa vào luận văn. Các kết quả trong luận văn là trung thực và chưa từng công bố trong một công trình khoa học nào khác. LỜI CẢM ƠN Để hoàn thành luận văn này, trước hết em xin bày tỏ lòng biết ơn sâu sắc tới Thầy TS Hoàng Mạnh Hà đã tận tình chỉ dạy và có những góp ý quý báu cho em trong thời gian thực hiện luận văn. Em xin chân thành cảm ơn ban Lãnh đạo Khoa Kỹ Thuật Công Nghệ Trường Đại học Thủ Dầu Một, Phòng Đào tạo Sau đại học và Quý thầy Cô Trường Đại học Thủ Dầu Một, thành phố Thủ Dầu Một, Tỉnh Bình Dương, đã tạo điều kiện thuận lợi cho em trong quá trình học tập, nghiên cứu tại trường. Cảm ơn các bạn Tập thể lớp Cao học CH16HT đã sát cánh cùng nhau chia sẽ kinh nghiệm học tập quý báu, giúp đỡ nhau vượt qua khó khăn. Cảm ơn Các Thầy, cô Phòng Công tác Sinh viên trường Đại học Thủ Dầu Một, khoa Kỹ thuật Công Nghệ đã tận tình chia sẽ và trao đổi các thông tin trong lĩnh vực quản lí sinh viên. Do thời gian có hạn và khả năng còn hạn chế nên không tránh khỏi những thiếu sót, rất mong được sự đóng góp ý kiến từ Thầy Cô và bạn bè để em luận văn hoàn chỉnh hơn nữa. MỤC LỤC LỜI CAM ĐOAN ........................................................................................ LỜI CẢM ƠN .............................................................................................. MỞ ĐẦU ..................................................................................................... i CHƯƠNG 1: DỮ LIỆU ĐIỂM RÈN LUYỆN .......................................... 1 1.1 Quy định về điểm rèn luyện ............................................................................. 1 1.2 Đánh giá điểm rèn luyện .................................................................................. 1 1.2.1 Đánh giá về ý thức học tập ...................................................................... 1 1.2.2 Đánh giá về ý thức chấp hành nội quy, quy chế trong nhà trường .......... 2 1.2.3 Đánh giá về ý thức và kết quả tham gia các hoạt động chính trị - xã hội, văn hóa, văn nghệ, thể thao .............................................................................. 3 1.2.4 Đánh giá về ý thức công dân trong quan hệ với cộng đồng ................... 3 1.2.5 Đánh giá về ý thức và kết quả tham gia công tác các bộ lớp, cán bộ đoàn, các đoàn thể, tổ chức trong Nhà trường hoặc người học có thành tích đặc biệt trong học tập – rèn luyện .................................................................................. 4 1.3 Phân loại kết quả rèn luyện .............................................................................. 4 CHƯƠNG 2: BÀI TOÁN HỒI QUY TUYẾN TÍNH ĐA MỨC ............. 6 2.1 Phát biểu bài toán ............................................................................................. 6 2.2 Một số thuật toán áp dụng ................................................................................ 9 2.2.1 Phân cụm dữ liệu ........................................................................................... 9 2.2.2 Mô hình hồi quy tuyến tính đa biến ............................................................ 12 CHƯƠNG 3: THỰC NGHIỆM VÀ ĐÁNH GIÁ ................................... 14 3.1 Dữ liệu bài toán .............................................................................................. 14 3.1.1 Thu thập dữ liệu ..................................................................................... 14 3.1.2 Mô tả dữ liệu .......................................................................................... 18 3.2 Thực nghiệm trên bộ dữ liệu điểm rèn luyện ngành Kỹ thuật Phần mềm ..... 21 3.3 Đánh giá kết quả............................................................................................. 36 KẾT LUẬN VÀ KIẾN NGHỊ ................................................................. 39 1. Kết luận ............................................................................................................ 39 2. Kiến nghị .......................................................................................................... 39 TÀI LIỆU THAM KHẢO ................................................................................. 40 DANH MỤC CÁC BẢNG Bảng 1.3: Bảng phân loại rèn luyện sinh viên trường Đại học Thủ Dầu Một... 5 Bảng 3.1.1.1: Phiếu đánh giá kết quả rèn luyện của sinh viên ...................... 17 Bảng 3.1.1.3: Mô tả các biến trên dữ liệu điểm rèn luyện ............................ 20 Bảng 3.2.2: Giá trị trung bình của các biến điểm rèn luyện .......................... 24 Bảng 3.2.3: Độ lệch chuẩn của các biến điểm rèn luyện ............................... 25 DANH MỤC CÁC HÌNH Hình 2.1.1: Sơ đồ Tương quan giữa điểm rèn luyện với kết quả học tập ....... 6 Hình 2.1.2: Sơ đồ ứng dụng hồi quy tuyến tính đa mức ................................ 8 Hình 3.1.1.2: Dữ liệu điểm rèn luyện ngành Kỹ thuật phần mềm ................ 18 Hình 3.2.1:Biểu đồ phân bố dữ liệu ngành Kỹ thuật Phần mềm .................. 23 Hình 3.2.4: Biểu đồ chọn k tối ưu ............................................................... 26 Hình 3.2.5: Biểu đồ phân cụm PAM ........................................................... 28 Hình 3.2.6: Biểu đồ phân cụm CLARA ...................................................... 28 Hình 3.3.1: Đồ thị biểu diễn mối tương quan giữa điểm trung bình học kỳ với cụm điểm rèn luyện có ảnh hưởng mạnh ................................. 38 Hình 3.3.2: Đồ thị biểu diễn mối tương quan giữa điểm trung bình học kỳ với cụm điểm rèn luyện có ảnh hưởng yếu .................................... 38 MỞ ĐẦU 1. Tính cấp thiết của đề tài Trong quá suốt quá trình học tập của sinh viên tại trường Đại học Thủ Một tỉnh Bình Dương nói riêng các cơ sở giáo dục đại học, cao đẳng nói chung có hai vấn đề tiên quyết đó chính là kết quả học tập và rèn luyện. Trong đó điểm rèn luyện của sinh viên có vai trò rất quan trọng trong đánh giá sinh viên bên cạnh điểm học tập, điểm này còn thể hiện quá trình rèn luyện, phấn đấu của sinh viên trong quá trình học tập và tham gia sinh hoạt cộng đồng. Đánh giá rèn luyện là một yêu cầu bắt buộc đối với sinh viên. Điểm rèn luyện là điểm đạt được khi đánh giá về phẩm chất chính trị, đạo đức, lối sống của sinh viên trên 05 tiêu chí đánh giá như sau: Đánh giá về ý thức tham gia học tập; Đánh giá về ý thức chấp hành nội quy, quy chế, quy định trong nhà trường; Đánh giá về ý thức tham gia các hoạt động chính trị, xã hội, văn hóa, văn nghệ, thể thao, phòng chống tội phạm và các tệ nạn xã hội; Đánh giá về ý thức công dân trong quan hệ cộng đồng; Đánh giá về ý thức và kết quả tham gia công tác cán bộ lớp, các đoàn thể, tổ chức khác trong nhà trường hoặc sinh viên đạt được thành tích đặc biệt trong học tập, rèn luyện. Trên cơ sở việc đánh giá điểm rèn luyện, tác giả đề ra mục tiêu nghiên cứu về mối tương quan giữa điểm rèn luyện ảnh hưởng đến kết quả học tập của sinh viên trường Đại học Thủ Dầu Một. Dựa trên cơ sở về lý thuyết hồi quy tuyến tính và để giải quyết vấn đề này tác giả đề xuất phương án đó là “Ứng dụng mô hình hồi quy tuyến tính đa mức đánh giá điểm rèn luyện sinh viên trường Đại học Thủ Dầu Một” cho luận văn của mình. Nhằm tìm ra sự ảnh hưởng của điểm rèn luyện với kết quả học tập của sinh viên. 2. Mục tiêu nghiên cứu của luận văn Trên cơ sở lý thuyết hồi quy tuyến tính, đưa ra một mô hình nhằm đánh giá các yếu tố điểm rèn luyện ảnh hưởng đến kết quả học tập của sinh viên trường Đại học Thủ Dầu Một dựa trên điểm rèn luyện. 3. Đối tượng và phạm vi nghiên cứu - Đối tượng nghiên cứu: Lý thuyết Hồi quy tuyến tính, thuật toán phân cụm, i bảng điểm rèn luyện và kết quả học tập của khóa D14PM - Đại học Kỹ thuật Phần mềm trường Đại học Thủ Dầu Một. - Phạm vi nghiên cứu: Nghiên cứu về cách xây dựng mô hình hồi quy tuyến tính đa mức. Phương pháp lựa chọn phân tích điểm rèn luyện tìm ra mối tương quan với điểm học tập của sinh viên. 4. Phương pháp nghiên cứu - Kết hợp nghiên cứu lý thuyết và xây dựng mô hình. - Nghiên cứu tài liệu, sách báo về lý thuyết hồi quy: hồi quy tuyến tính đa biến, hồi quy tuyến tính đa mức, các thuật toán phân cụm. - Áp dụng các kết quả nghiên cứu để xây dựng mô hình. 5. Kết cấu của luận văn Ngoài phần mở đầu và kết luận, tài liệu tham khảo, nội dung luận văn được trình bày trong 3 chương: - Chương 1: Trình bày về về dữ liệu điểm rèn luyện - Chương 2: Trình bày bài toán hồi quy tuyến tính đa mức - Chương 3: Kết quả nghiên cứu của tác giả về đánh giá sự ảnh hưởng của điểm rèn luyện lên kết quả học tập trên dữ liệu tại trường Đại học Thủ Dầu Một. ii CHƯƠNG 1: DỮ LIỆU ĐIỂM RÈN LUYỆN 1.1 Quy định về điểm rèn luyện Căn cứ Quy chế đánh giá rèn luyện của người học được đào tạo trình độ đại học hệ chính quy ban hành kèm theo Thông tư số 16/2015/TT-BGDĐT ngày 12 tháng 8 năm 2015 của Bộ trưởng Bộ Giáo dục và Đào tạo [1]. Điểm rèn luyện là điểm xem xét, đánh giá kết quả rèn luyện của người học là đánh giá ý thức, thái độ của người học dựa trên các yếu tố về ý thức tham gia học tập; ý thức chấp hành nội quy, quy chế, quy định trong nhà trường; ý thức tham gia các hoạt động chính trị, xã hội, văn hoá, văn nghệ, thể thao, phòng chống tội phạm và các tệ nạn xã hội; ý thức công dân trong quan hệ cộng đồng; ý thức và kết quả tham gia công tác cán bộ lớp, các đoàn thể, tổ chức khác trong cơ sở giáo dục đại học hoặc người học đạt được thành tích đặc biệt trong học tập, rèn luyện. Nguyên tắc đánh giá kết quả rèn luyện của người học phải được thực hiện nghiêm túc, đảm bảo khách quan, công khai, công bằng, chính xác. Có sự phối hợp đồng bộ, chặt chẽ các bộ phận, các đơn vị có liên quan trong nhà trường tham gia công tác đánh giá kết quả rèn luyện của người học. 1.2 Đánh giá điểm rèn luyện Dữ liệu được thu thập từ phiếu chấm điểm của sinh viên trường Đại học Thủ Dầu Một của ngành Công nghệ Phần mềm (khóa D14). Việc chấm điểm rèn luyện theo từng học kỳ được đánh giá cụ thể theo hướng dẫn đánh giá kết quả rèn luyện của sinh viên trình độ đại học, hệ chính quy [5] trên các tiêu chí sau: 1.2.1 Đánh giá về ý thức học tập - Đánh giá về ý thức học tập: + Chuyên cần: Đi học đầy đủ, đúng giờ, nghiêm túc trong giờ học, không vi phạm quy chế về thi, kiểm tra: số điểm từ 0 đến 10 điểm. Sinh viên vi phạm quy chế học vụ (nghỉ học không phép, bỏ tiết ...): trừ 01điểm/ lần, nếu vi phạm quy chế thi, kiểm tra bất cứ hình thức gì thì mục này = 0 điểm. + Kết quả học tập trong học kỳ: Được tính cụ thể sau: Điểm trung 1 bình chung học tập trong học kỳ đạt: 9 đến 10 = 08 điểm; 8 đến cận 9 = 06 điểm; 7 đến cận 8 = 04 điểm; 5 đến cận 7 = 02 điểm; dưới 5 = 0 điểm. + Có cố gắng, vượt khó trong học tập: Sinh viên có điểm trung bình chung học tập học kỳ sau lớn hơn học kỳ trước đó; đối với sinh viên năm thứ nhất, học kỳ I không có điểm dưới 5). Nếu đạt chấm 2 điểm, không đạt 0 điểm. - Tham gia nghiên cứu khoa học, nâng cao trình độ ngoại ngữ, tin học: + Nghiên cứu khoa học: Có tham gia đề tài nghiên cứu khoa học của sinh viên hoặc của Khoa và cấp tương đương, có xác nhận của Chủ nhiệm đề tài (không tính bài tập, tiểu luận, đồ án môn học, luận văn…) chấm 5 điểm, không thực hiện chấm 0 điểm. + Hoàn thành chuẩn đầu ra Tin học, Ngoại ngữ: Tin học chấm 5 điểm. Ngoại ngữ chấm 10 điểm. Điểm này chỉ được chấm 1 lần trong suốt thời gian học tập của sinh viên. Điểm cộng tối đa của mục 1.2.1 là 20 điểm 1.2.2 Đánh giá về ý thức chấp hành nội quy, quy chế trong nhà trường - Không vi phạm và có ý thức tham gia thực hiện nghiêm túc các quy định của Lớp, nội quy, quy chế của Trường, Khoa và các tổ chức trong nhà trường: Nếu không vi phạm được 15 điểm. Mỗi lần vi phạm, tùy mức độ bị trừ điểm cho đến = 0. - Sinh viên có tích cực tham gia các hoạt động tuyên truyền, vận động mọi người xung quanh thực hiện nghiêm túc nội quy, quy chế, các quy định của nhà trường về: + Giữ gìn an ninh, trật tự nơi công cộng: có tham gia tổ chức đội, nhóm và hoạt động có kết quả cụ thể, được cấp Khoa và tương đương xác nhận. Tuỳ mức độ chấm điểm từ 0 đến 10 điểm. + Giữ gìn vệ sinh, bảo vệ cảnh quan môi trường, nếp sống văn minh (có xác nhận của đoàn thể, Khoa…). tùy theo mức độ chấm điểm từ 0 đến 10 điểm. Điểm cộng tối đa của mục 2.1.2 là 25 điểm 2 1.2.3 Đánh giá về ý thức và kết quả tham gia các hoạt động chính trị xã hội, văn hóa, văn nghệ, thể thao - Tham gia đầy đủ các hoạt động chính trị, xã hội, văn hóa, văn nghệ, thể thao các cấp từ Lớp, Chi hội, Chi đoàn trở lên tổ chức: Tuỳ mức độ tích cực, tự giác của từng sinh viên có thể cho điểm từ 0 đến 12 điểm. - Là lực lượng nòng cốt trong các phong trào văn hóa, văn nghệ, thể thao: + Lực lượng nòng cốt được các cấp xác nhận: Cấp Bộ môn, Chi đoàn, Chi hội, Đội, Nhóm chấm 3 điểm; Cấp Khoa (và tương đương), Trường chấm 5 điểm; Không tham gia 0 điểm. - Được khen thưởng trong các hoạt động phong trào: Xét 1 lần. Nếu đạt nhiều mức thành tích cùng nội dung thì tính 1 mức cao nhất. + Quyết định khen thưởng của Đoàn Khoa (và tương đương) chấm 6 điểm. + Giấy khen cấp Trường chấm 8 điểm. + Giấy khen cấp cao hơn (cấp tỉnh): 10 điểm. Điểm cộng tối đa của mục 1.2.3 là 20 điểm. 1.2.4 Đánh giá về ý thức công dân trong quan hệ với cộng đồng - Không vi phạm pháp luật của Nhà nước: Sinh viên không vi phạm chấm 10 điểm. Nếu vi phạm 1 lần (như thủ tục cư trú, Luật giao thông…) thì mục này = 0. - Có tinh thần giúp đỡ bạn bè trong học tập, trong cuộc sống: Có vụ việc, nội dung cụ thể được tập thể lớp công nhận chấm 5 điểm. - Tham gia đội, nhóm sinh hoạt hướng đến lợi ích cộng đồng (tham gia công tác xã hội ở Trường, nơi cư trú, địa phương): Các phong trào như chiến dịch tình nguyện hè, làm sạch môi trường, tham gia công tác tại nơi cư trú, địa phương…Tuỳ mức độ mà chấm điểm từ 0 đến 10 điểm Điểm cộng tối đa của mục 1.2.4 là 25 điểm 3 1.2.5 Đánh giá về ý thức và kết quả tham gia công tác các bộ lớp, cán bộ đoàn, các đoàn thể, tổ chức trong Nhà trường hoặc người học có thành tích đặc biệt trong học tập – rèn luyện - Là Lớp trưởng, Bí thư Chi đoàn, Ủy viên BCH đoàn thể cấp cao hơn Chi đoàn, BCH Hội sinh viên Trường, Liên Chi hội trưởng, Chi hội trưởng Hội Sinh viên, Đội trưởng các câu lạc bộ, Đội, Nhóm thuộc Hội Sinh viên, đoàn thanh niên Trường đã hoàn thành nhiệm vụ được giao. Tùy mức độ hoàn thành nhiệm vụ có thể cho điểm từ 0 đến 10 điểm. - Là thành viên của Ban Cán sự lớp, Ban Chấp hành chi đoàn, Ban chấp hành Liên Chi hội Sinh viên, Chi hội Sinh viên Trường (trừ các thành viên nêu mục trên), là thành viên các câu lạc bộ, Đội, Nhóm thuộc Hội Sinh viên trường (phải có tổ chức thừa nhận tư cách thành viên hoặc có xác nhận bằng văn bản), Đoàn Thanh niên đã hoàn thành nhiệm vụ được giao. Tùy mức độ hoàn thành nhiệm vụ có thể cho điểm từ 0 đến 8 điểm. - Thành tích đặc biệt : tối đa 10 điểm (nếu sinh viên có nhiều thành tích lấy thành tích cao nhất để chấm điểm). Không có thành tích chấm 0 điểm. + Được kết nạp Đảng, đạt sinh viên 5 tốt, đạt giải thưởng sao tháng giêng chấm 10 điểm. + Tham gia các kỳ thi olympic, đạt các giải thưởng trong nghiên cứu khoa học, có các báo cáo khoa học trong hội nghị, hội thảo, các bài báo khoa học chấm 10 điểm. + Được khen thưởng trong các lĩnh vực học tập rèn luyện (từ cấp trường trở lên, trừ các trường hợp đã tính điểm phần trên) chấm 10 điểm Điểm cộng tối đa của mục 1.2.5 là 10 điểm 1.3 Phân loại kết quả rèn luyện - Điểm rèn luyện học kỳ là tổng điểm của 05 nội dung (1+2+3+4+5) = 100 điểm, nếu vượt quá 100 điểm thì quy về thành 100 điểm để phân loại kết quả rèn luyện. 4 Phân loại Điểm rèn luyện Xuất sắc Từ 90 đến 100 điểm Tốt Từ 80 đến dưới 90 điểm Khá Từ 65 đến dưới 80 điểm Trung bình Từ 50 đến dưới 65 điểm Yếu Từ 35 đến dưới 50 điểm Kém Dưới 35 điểm Bảng 1.3: Bảng phân loại rèn luyện sinh viên trường Đại học Thủ Dầu Một - Các trường hợp đặc biệt: + Trong thời gian sinh viên bị kỷ luật mức khiển trách, khi đánh giá kết quả rèn luyện không được vượt quá loại khá. + Trong thời gian sinh viên bị kỷ luật mức cảnh cáo, khi đánh giá kết quả rèn luyện không được vượt quá loại trung bình. + Trong quá trình đánh giá nếu phát hiện sinh viên không trung thực trong đánh giá sẽ hạ 1 bậc trong phân loại kết quả rèn luyện. + sinh viên bị kỷ luật mức đình chỉ học tập không được đánh giá rèn luyện trong thời gian bị đình chỉ. + Sinh viên bị kỷ luật mức buộc thôi học không được đánh giá kết quả rèn luyện. + Sinh viên nghỉ học tạm thời được bảo lưu kết quả rèn luyện sẽ được đánh giá kết quả rèn luyện khi tiếp tục trở lại học tập theo quy định. + Sinh viên chuyển trường được bảo lưu kết quả rèn luyện của trường cũ và tiếp tục được đánh giá kết quả rèn luyện ở các học kỳ tiếp theo. 5 CHƯƠNG 2: BÀI TOÁN HỒI QUY TUYẾN TÍNH ĐA MỨC 2.1 Phát biểu bài toán Trong quá trình tham gia việc đánh giá điểm rèn luyện tại trường Đại học Thủ Dầu Một tác giả nhận thấy giữa điểm rèn luyện có một mối tương quan nào nào đó với kết quả chung bình trung học tập từng sinh viên. CN HTHT DTBHK NCKH CGVK Hình 2.1.1: Sơ đồ Tương quan giữa điểm rèn luyện với kết quả học tập Để biểu diễn mối tương quan giữa các giá trị biến điểm rèn luyện với kết quả học tập, tác giả sử dụng mô hình hồi quy tuyến tính đa biến. Bài toán phát biểu như sau: Có hàm chưa biết 𝑓: 𝑅𝑛 → 𝑅 𝑁 Biết tập 𝐷{(𝑥 𝑗 , 𝑦 𝑗 )}𝑁 𝑗=1 trong 𝑅 × 𝑅 có 𝑁 đối tượng quan sát được 𝑦𝑗 = 𝑗 𝑗 𝑓(𝑥1 , … , 𝑥𝑛 ), với 𝑗 = 1, 2, … 𝑁 Trong đó 𝑗 𝑗 𝑥 𝑗 = (𝑥1 , … , 𝑥𝑛 ) ∈ 𝑅𝑛 𝑗 𝑗 Hãy tìm hàm xấp xỉ 𝑦 𝑗 = 𝑔(𝑥1 , … , 𝑥𝑛 ) + 𝜀(𝑥) Trong đó: 𝜀(𝑥): Sai số có phân phối chuẩn hóa 6 Giải Việc xây dựng hàm 𝑔 được mô tả như sau: - Chọn trước một hàm dạng tổng quát phụ thuộc 𝑁 tham số dạng 𝑔(𝑥) = 𝜑(𝑥, 𝛽1 , … , 𝛽𝑁 ) Trong đó, hàm xấp xỉ 𝑔 cũng được mô tả qua hệ phương trình tuyến tính 𝑗 sau ∑𝑁 𝑘=1 𝛽𝑘 𝜑𝑘 = 𝑦 với 𝑗 = 1, … , 𝑁 - Xác định các hệ số 𝛽1 , … , 𝛽𝑁 thông qua phương pháp cực tiểu hóa bình 𝑗 𝑗 2 phương sai số ∑𝑁 𝑗=1[𝜑(𝑥 ) − 𝑦 ] Ý nghĩa phân tích của phương pháp hồi quy tuyến tính: Cho hàm xấp xỉ được xác định sau quá trình hồi quy: 𝑗 𝑗 𝑦 𝑗 = 𝑔(𝑥1 , … , 𝑥𝑛 ) + 𝜀(𝑥) Trong đó 𝑔(𝑥) = 𝜑(𝑥, 𝛽1 , … , 𝛽𝑁 ) Hàm số trên cũng được mô tả bằng hình vẽ sau 𝑥1 𝛽1 ∑ 𝑥𝑛 𝑔(𝑥) 𝛽𝑛 Trong đó ( 𝛽1 , … , 𝛽𝑁 ) là các trọng số biểu diễn mức độ ảnh hưởng của các 𝑗 𝑗 yếu tố (𝑥1 , … , 𝑥𝑛 ) lên 𝑔(𝑥). 7 𝑗 𝑗 Vì 𝑦 𝑗 ≈ 𝑔(𝑥1 , … , 𝑥𝑛 ), do vậy có thể hiểu ( 𝛽1 , … , 𝛽𝑁 ) phản ánh ảnh hưởng 𝑗 𝑗 của các yếu tố (𝑥1 , … , 𝑥𝑛 ) lên 𝑦 𝑗 Do vậy, mô hình hồi quy tuyến tính được sử dụng công cụ phân tích các yếu tố ảnh hưởng. Đồng thời, để thực hiện mô hình hồi quy tuyến tính đa biến đối với điểm rèn luyện phải thỏa các điều kiện sau: - Biến độc lập có tương quan với biến phụ thuộc. - Các cột dữ liệu phải độc lập với nhau. - Các sai số tương ứng với các quan sát khác nhau là độc lập. - Sai số 𝜖 phải có phân phối chuẩn. Trên thực tế, bộ dữ liệu được thu thập của các sinh viên tại trường Đại học Thủ Dầu Một, cùng ngành Công nghệ Phần mềm, trong đó có những sinh viên trong cùng một lớp. Trên cơ sở đó, có khả năng là các biến không độc lập với nhau. Do đó, việc sử dụng mô hình hồi quy tuyến tính đa biến là không phù hợp. Các cột dữ liệu không độc lập với nhau Các sinh viên trong cùng lớp, cùng trường Đề xuất áp dụng mô hình Hồi quy tuyến tính đa mức Nhận xét: Có phân cụm trong Điểm rèn luyện -> Đề xuất phân cụm áp dụng PAM và Slara Hình 2.1.2: Sơ đồ ứng dụng hồi quy tuyến tính đa mức Vì vậy, để giải quyết bài toán điểm rèn luyện có ảnh hưởng đến kết quả học tập của sinh viên. Tác giả đề xuất sử dụng mô hình hồi quy tuyến tính đa mức. Các bước thực hiện mô hình: 8 + Bước 1: chuẩn hóa dữ liệu sao cho có trung bình 0 và phương sai 1. + Bước 2: tiến hành phân cụm dữ liệu để chọn các sinh viên có cùng mức điểm rèn luyện về mỗi cụm khác nhau. + Bước 3: Ứng dụng mô hình hồi quy tuyến tính đa biến cho từng cụm, tìm ra mối tương quan giữa các biến điểm rèn luyện trên từng cụm. 2.2 Một số thuật toán áp dụng 2.2.1 Phân cụm dữ liệu Nguyên tắc chính của phân cụm vẫn là làm sao cho độ giống nhau trong cùng một cụm là cao và độ giống nhau giữa các cụm là thấp [9]. Do vậy trong luận văn này chọn phương pháp phân hoạch để phân cụm với mục đích chọn ra các nhóm sinh viên có cùng mức điểm rèn luyện vào một nhóm. Độ đo khoảng cách d(i, j) là khoảng cách giữa sinh viên i và sinh viên j; khoảng cách này được tính theo công thức: Độ đo khoảng cách Euclidean [2]: 𝟐 𝟐 𝟐 𝒅(𝒊, 𝒋) = √(|𝒓𝒊𝟏 − 𝒓𝒋𝟏 | + |𝒓𝒊𝟐 − 𝒓𝒋𝟐 | + ⋯ + |𝒓𝒊𝒑 − 𝒓𝒋𝒑 | ) Chỉ số Silhouette Giả sử điểm rèn luyện được chia thành k cụm. Với mỗi cụm sinh viên(i) I , đặt: - a(i) là khoảng cách trung bình từ i tới tất cả các sinh viên trong cùng cụm với i. - b(j) là khoảng cách trung bình ngắn nhất từ i tới bất kỳ cụm nào không chứa i. Cụm tương ứng với b(j) này được gọi là cụm hàng xóm của i. Khi đó chỉ số Silhouette s(i) được định nghĩ như sau: 𝑠 (𝑖 ) = 𝑏(𝑗) − 𝑎(𝑖) max(𝑎(𝑖), 𝑏(𝑗)) Với chỉ số s(i) nằm trong đoạn [-1,1] cho thấy s(i) càng gần 1 thì sinh viên(i) càng phù hợp với cụm mà nó được phân vào, s(i) = 0 thì không thể xác định được 9 sinh viên(i) nên thuộc về cụm nào giữa cụm hiện tại và cụm hàng xóm của nó, s(i) càng gần -1 thì chứng tỏ i bị phân sai cụm, nó nên thuộc về cụm hàng xóm chứ không phải cụm hiện tại. Các phương pháp phân chia nổi tiếng và thường được dùng nhất là KMeans (MacQueen 1967), k-medoids (Kaufman và Rousseew 1987) và các dạng biến đổi của chúng [9]. Đối với phương pháp k-means thường được áp dụng khi trung bình của một cụm được xác định. K- Means nhạy cảm với các điểm dữ liệu nhiễu vào outlier, một số lượng nhỏ dữ liệu như vậy về căn bản có ảnh hưởng tới giá trị trung bình [2]. Nên chọn lựa PAM hay CLARA vào bài toán phân cụm có những thuận lợi nhất định. Thuật toán PAM PAM (partition around medoids) - phân chia xung quanh các medoid – trung tâm: Đây là một giải thuật phân cụm kiểu k-medoids.Tìm k cụm trong n sinh viên bằng cách: trước tiên tìm một sinh viên đại diện làm tâm cụm (sc) hay medoid cho mỗi cụm. Tập các medoid ban đầu được lựa chọn tuỳ ý. Sau đó lặp lại các thay thế một trong số các medoid bằng một trong số những đối tượng không phải medoid miễn là tổng khoảng cách của kết quả phân cụm được cải thiện [9]. Gọi là sc hay gọi là mediod. Gọi gi: sinh viên khác với sc(i=1..n) Có thể phát biểu thuật toán PAM như sau [9] Đầu vào: Tập hợp các sinh viên N = {n1,n2,…,nn}, Số cụm k Đầu ra: Tập hợp sinh viên đã được phân vào k cụm. 10
- Xem thêm -

Tài liệu liên quan