Đăng ký Đăng nhập
Trang chủ Nghiên cứu mạng nơron và ứng dụng trong khảo sát, đánh giá, thống kê kết quả học...

Tài liệu Nghiên cứu mạng nơron và ứng dụng trong khảo sát, đánh giá, thống kê kết quả học tập tại trường đại học công nghệ quảng ninh

.DOC
70
77
64

Mô tả:

ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG MAI XUÂN ĐẠT NGHIÊN CỨU MẠNG NƠRON VÀ ỨNG DỤNG TRONG KHẢO SÁT, ĐÁNH GIÁ, THỐNG KÊ KẾT QUẢ HỌC TẬP TẠI TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP QUẢNG NINH LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Thái Nguyên - 2013 ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG MAI XUÂN ĐẠT NGHIÊN CỨU MẠNG NƠRON VÀ ỨNG DỤNG TRONG KHẢO SÁT, ĐÁNH GIÁ, THỐNG KÊ KẾT QUẢ HỌC TẬP TẠI TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP QUẢNG NINH Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 60 48 01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Người hướng dẫn khoa học: PGS.TS NGÔ QUỐC TẠO II Thái Nguyên – 2013 i LỜI CAM ĐOAN Tôi xin cam đoan luận văn là công trình nghiên cứu của riêng cá nhân tôi, không sao chép của ai do tôi tự nghiên cứu, đọc, dịch tài liệu, tổng hợp và thực hiện. Nội dung lý thuyết trong trong luận văn tôi có sử dụng một số tài liệu tham khảo như đã trình bày trong phần tài liệu tham khảo. Các số liệu, chương trình phần mềm và những kết quả trong luận văn là trung thực và chưa được công bố trong bất kỳ một công trình nào khác. Thái Nguyên, ngày 09 tháng 10 năm 2013 Học viên thực hiện Mai Xuân Đạt LỜI CẢM ƠN ii Lời đầu tiên, em xin gửi lời biết ơn sâu sắc đến PGS.TS Ngô Quốc Tạo người đã tận tình hướng dẫn, chỉ bảo, giúp đỡ em trong suốt quá trình làm luận văn. Em cũng xin gửi lời cảm ơn đến các thầy cô giáo trường Đại học Công nghệ thông tin và Truyền thông - Đại học Thái Nguyên, các thầy cô Viện Công nghệ thông tin đã truyền đạt những kiến thức và giúp đỡ em trong suốt quá trình học của mình. Tôi cũng xin gửi lời cảm ơn tới các đồng nghiệp, gia đình và bạn bè những người đã ủng hộ, động viên tạo mọi điều kiện giúp đỡ để tôi có thể hoàn thành tốt luận văn. Tôi cũng xin gửi lời cảm ơn tới Ban giám hiệu Trường Đại học Công nghiệp Quảng Ninh đã tạo kiện thuận lợi cho tôi tham gia khóa học và trong suốt quá trình hoàn thành luận văn. Một lần nữa, xin chân thành cảm ơn. Thái Nguyên, ngày 09 tháng 10 năm 2013 Học viên Mai Xuân Đạt iii MỤC LỤC LỜI CAM ĐOAN..............................................................................................................i LỜI CẢM ƠN...................................................................................................................ii MỤC LỤC.......................................................................................................................iii DANH MỤC CÁC KÍ HIỆU, CHỮ CÁI VIẾT TẮT..........................................................v DANH MỤC CÁC BẢNG...............................................................................................vi DANH MỤC CÁC HÌNH.................................................................................................vi MỞ ĐẦU........................................................................................................................1 Chương 1: GIỚI THIỆU VỀ MẠNG NƠRON.........................................................3 1.1. Giới thiệu về mạng nơron nhân tạo.....................................................................3 1.1.1. Cấu trúc và mô hình mạng nơron..................................................................3 1.1.2. Cấu tạo và phương thức làm việc của mạng nơron......................................6 1.1.3. Các luật học...................................................................................................8 1.2. Kết luận chương 1..............................................................................................11 Chương 2: MẠNG SOM VÀ MỘT SỐ PHƯƠNG PHÁP PHÂN CỤM..............12 2.1. Thuật toán phân cụm dữ liệu.............................................................................12 2.2. Một số thuật toán cơ bản trong phân cụm dữ liệu.............................................13 2.2.1. Thuật toán phân cụm phân cấp...................................................................13 2.2.2. Thuật toán phân cụm phân hoạch (Thuật toán K-means)..........................14 2.2.3. Thuật toán phân cụm dựa trên mật độ (Thuật toán DBSCAN)..................16 2.2.4. Thuật toán phân cụm dựa trên lưới (Thuật toán STING)...........................17 2.2.5. Các thuật toán phân cụm dựa trên mô hình (Thuật toán EM)....................19 2.3. Thuật toán phân cụm bằng mạng Kohonen.......................................................20 2.3.1. Mạng Kohonen là gì?..................................................................................20 2.3.2. Cấu trúc mô hình mạng Kohonen...............................................................20 2.3.3. Thuật toán phân cụm bằng mạng Kohonen................................................21 2.4. Một số vấn đề phân cụm bằng mạng Kohonen.................................................23 2.4.1. Khởi tạo mạng Kohonen (SOM).................................................................23 2.4.2. Huấn luyện mạng Kohonen.........................................................................24 2.4.3. Tỉ lệ học.......................................................................................................24 2.4.4. Cập nhật lại trọng số...................................................................................26 iv 2.4.5. Xác định nơron chiến thắng........................................................................26 2.5. Kohonen (SOM) sử dụng trong phân cụm dữ liệu............................................27 2.5.1. SOM phân cụm với bản đồ một chiều........................................................27 2.5.2. SOM phân cụm với bản đồ hai chiều.........................................................27 2.5.3. Xác định ranh giới các cụm........................................................................29 2.5.4. Trực quan mạng..........................................................................................29 2.5.5. Số lượng nhóm khi phân cụm.....................................................................31 2.6. Kết luận chương 2..............................................................................................31 Chương 3: ỨNG DỤNG MÔ HÌNH SOM TRONG BÀI TOÁN KHẢO SÁT, ĐÁNH GIÁ, THỐNG KÊ KẾT QUẢ HỌC TẬP CỦA SINH VIÊN TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP QUẢNG NINH........................................32 3.1. Phát biểu bài toán...............................................................................................32 3.2. Khảo sát, đánh giá, thống kê quá trình học tập của sinh viên trường đại học Công nghiệp Quảng Ninh...........................................................................32 3.2.1. Thu thập dữ liệu..........................................................................................32 3.3. Thực nghiệm sử dụng mô hình SOM để khảo sát, đánh giá, thống kê kết quả học tập của sinh viên trường đại học Công nghiệp Quảng Ninh.............40 3.3.1. Các chức năng của chương trình.................................................................40 3.3.2. Phân tích dữ liệu..........................................................................................41 3.3.3. Giao diện chương trình...............................................................................46 3.3.4. Kết quả và phân tích kết quả sau khi huấn luyện mô hình mạng kohonen..........47 3.4. Kết luận chương 3.............................................................................................56 KẾT LUẬN..................................................................................................................57 TÀI LIỆU THAM KHẢO..........................................................................................57 v DANH MỤC CÁC KÍ HIỆU, CHỮ CÁI VIẾT TẮT HSSV: Học sinh, sinh viên CSDL: Cơ sở dữ liệu KPDL: Khai phá dữ liệu PCDL : Phân cụm dữ liệu SOM(Self Organizing Maps): Mạng nơron tự tổ chức PE (Processing element): Phần tử xử lý BMU(Best - Matching unit): Đơn vị phù hợp nhất U-matrix (unified distance matrix): Ma trận thống nhất khoảng cách EM (Expectation maximization): Thuật toán tối đa hóa STING (STatistical INformation Grid ): Thuật toán thống kê thông tin lưới DBSCAN (Density Based Spatial) : Phân cụm dữ liệu dựa trên không Clustering (of Applications with Noise): Gian mật độ ứng với nhiễu DANH MỤC CÁC BẢNG vi Bảng 3.1 Bảng xếp loại điểm.......................................................................................38 Bảng 3.2. Dữ liệu thống kê phân cụm, môn học..........................................................42 Bảng 3.3. Dữ liệu thống kê phân cụm, môn học..........................................................43 Bảng 3.4 Dữ liệu thống kê phân cụm của sinh viên theo điểm thi..............................44 Bảng 3.5 Dữ liệu thống kê phân cụm của sinh viên theo điểm thi..............................45 Bảng 3.6. Kết quả các cụm môn sau khi huấn luyện mạng Kohonen.........................48 Bảng 3.7. Kết quả các cụm Sinh viên sau khi huấn luyện mạng Kohonen.................55 vii DANH MỤC CÁC HÌNH Hình 1.1: Một nơron sinh học.........................................................................................3 Hình 1.2: Sự liên kết các nơron......................................................................................4 Hình 1.3: Mô hình một nơron nhân tạo..........................................................................4 Hình 1.4: Đồ thị các dạng hàm truyền............................................................................6 Hình 1.5: Mạng nơron ba lớp.........................................................................................7 Hình 1.6: Một số dạng mạng nơron................................................................................8 Hình 1.7: Cấu trúc huấn luyện mạng nơron...................................................................8 Hình 1.8: Học có giám sát.............................................................................................9 Hình 1.9: Học không có giám sát.................................................................................10 Hình 1.10: Sơ đồ cấu trúc chung của quá trình học.....................................................10 Hình 2.1. Các thiết lập để xác định ranh giới các cụm ban đầu...................................14 Hình 2.2. Tính toán trọng tâm của các cụm mới..........................................................15 Hình 2.4. Một dạng mạng nơron Kohonen..................................................................20 Hình 2.5. Phần tử nơron chiến thắng BMU.................................................................21 Hình 2.6. Các vùng lân cận...........................................................................................21 Hình 2.7: Hàm tỉ lệ học theo thời gian.........................................................................25 Hình 3.1 Kết quả chạy chương trình huấn luyện SOM................................................46 Hình 3.2. Kết quả phân cụm môn học, mô đun sử dụng phương pháp trực quan U-Matrix......................................................................................................47 Hình 3.3 Kết quả phân cụm điểm sử dung phương pháp trực quan các biểu đồ thành phần...................................................................................................50 Hình 3.4 Kết quả phân cụm sinh viên theo môn học, mô đun sử dụng phương pháp trực quan U-Matrix.............................................................................54 1 MỞ ĐẦU Trong cuộc sống hàng ngày con người chúng ta tiếp nhận rất nhiều thông tin. Với khối lượng thông tin khổng lồ đòi hỏi con người phải phân tích chúng và phân chia chúng thành các dạng thông tin khác nhau. Cùng với sự phát triển của công nghệ thông tin các phương pháp, thuật toán phân cụm dữ liệu ra đời giúp cho con người có khả năng phân chia các loại thông tin khác nhau để phục vụ cho công việc và trong cuộc sống hàng ngày. Mạng nơron SOM được giáo sư Teuvo Kohonen của trường đại học Helsinki Phần Lan phát triển vào những năm 80 của thế kỷ 20[7]. Đây là mạng truyền thẳng sử dụng thuật học cạnh tranh, không giám sát có khả năng phân cụm dữ liệu với một lượng lớn dữ liệu đầu vào. Thông tin giáo dục đào tạo của các trường hiện nay hầu hết được lưu trữ trong máy tính và chúng ta cần phải tìm ra những thông tin hữu ích từ cơ sở dữ liệu đó để có các biện pháp phù hợp, cần thiết cho việc cải cách, nâng cao chất lượng giáo dục đào tạo thông qua việc khảo, đánh giá, thống kê, báo cáo. Chính vì lý do đó tôi chọn đề tài: "Nghiên cứu mạng Nơron và Ứng dụng trong Khảo sát, đánh giá, thống kê kết quả học tập tại Trường Đại học Công nghiệp Quảng Ninh". Luận văn tập trung vào tìm hiểu mạng SOM và sử dụng SOM trong phân cụm dữ liệu. Phương pháp nghiên cứu chính là tìm hiểu các tài liệu bài báo viết về mạng SOM và huấn luyện mạng SOM phân cụm điểm các môn học và phân cụm sinh viên của Trường Đại học Công nghiệp Quảng Ninh từ đó đưa ra những nhận xét, đánh giá, tư vấn cho phòng đào tạo và học sinh đăng kí học theo từng môn, từng kỳ học phù hợp với mình . Nội dung luận văn gồm có 3 chương: Chương I: Giới thiệu về mạng nơron sinh học bao gồm cấu trúc của mạng nơron sinh học và nguyên lý hoạt động của nơron sinh học. Về nơron nhân tạo giới thiệu cấu trúc của một nơron nhân tạo, mô hình của mạng nơron nhân tạo. 2 Chương II: Giới thiệu về một số phương pháp phân cụm và một số thuật toán phân cụm phổ biến, ưu nhược điểm của từng thuật toán phân cụm. Trong chương này trình bày về mạng SOM: giới thiệu về mạng SOM, cấu trúc của SOM, các phương pháp khởi tạo, huấn luyện SOM, tỉ lệ học, các hàm lân cận, phương pháp xác định nơron chiến thắng và sử dụng SOM trong phân cụm dữ liệu. Chương III: Trình bày về sử dụng công cụm SOM phân cụm điểm từng môn học và từng sinh viên để đưa ra những nhận xét, đánh giá về các môn học từ cơ sở dữ liệu đó để có các biện pháp phù hợp, nâng cao chất lượng giáo dục đào tạo. 3 Chương 1 GIỚI THIỆU VỀ MẠNG NƠRON 1.1. Giới thiệu về mạng nơron nhân tạo 1.1.1. Cấu trúc và mô hình mạng nơron 1.1.1.1. Mô hình một nơron sinh học Phần tử xử lý cơ bản của một mạng nơron sinh học là một nơron, phần tử này có thể chia làm bốn thành phần cơ bản như sau: Dendrites: Là phần nhận tín hiệu đầu vào. Soma: Là hạt nhân. Axon: Là phần dẫn ra tín hiệu xử lý. Synapses: Là đường tín hiệu điện hóa giao tiếp giữa các nơron. Một cách tổng quát, một nơron sinh học nhận đầu vào từ các nguồn khác nhau, kết hợp chúng tại với nhau, thực thi tổ hợp phi tuyến chúng để cho ra kết quả cuối cùng ở đầu ra. Hình 1.1 chỉ ra mối quan hệ giữa bốn thành phần của một nơron sinh học. 4 Hình 1.1: Một nơron sinh học Một nơron sinh học chỉ có một số chức năng cơ bản như vậy nên khả năng xử lý thông tin của nó là rất yếu. Để có được khả năng xử lý thông tin hoàn hảo như bộ não con người thì các nơron phải kết hợp và trao đổi thông tin với nhau. Sơ đồ liên kết và trao đổi thông tin giữa hai nơron như hình sau: Hình 1.2: Sự liên kết các nơron 1.1.1.2. Cấu trúc và mô hình của một nơron nhân tạo Mô hình toán học của mạng nơron nhân tạo được đề xuất bởi McCulloch và Pitts gọi là nơron M-P (ngoài ra nó còn được gọi là phần tử xử lý và được ký hiệu là PE - Processing Element). Mô hình nơron có m đầu vào x1, x2, ..., xm và một đầu ra yi như sau: 5 Hình 1.3: Mô hình một nơron nhân tạo Giải thích các thành phần cơ bản: - Tập các đầu vào: Là các tín hiệu vào của nơron, các tín hiệu này thường được đưa vào dưới dạng một vector m chiều. Tập các liên kết (các trọng số): Mỗi liên kết được thể hiện bởi một trọng số (thường được gọi là trọng số liên kết). Trọng số liên kết giữa tín hiệu vào thứ j cho nơron i thường được ký hiệu là wij. Bộ tổng (hàm tổng): Thường dùng để tính tổng của tích các đầu vào với trọng số liên kết của nó. Ngưỡng: Ngưỡng thường được đưa vào như một thành phần của hàm truyền. Hàm truyền: Hàm truyền dùng để giới hạn phạm vi đầu ra của mỗi nơron. Nó nhận đầu vào là kết quả của hàm tổng và ngưỡng đã cho. Thông thường, phạm vi đầu ra của mỗi nơron được giới hạn trong đoạn [0,1] hoặc [-1,1]. Đầu ra: Là tín hiệu đầu ra của một nơron, với mỗi nơron sẽ có tối đa một đầu ra. Về mặt toán học, cấu trúc của một nơron i được mô tả bằng cặp biểu thức sau: yi  f ( net i   i ) n và net i   wij x j j 1 Trong đó: x1, x2, …xm là các tín hiệu đầu vào; wi1, wi2,…,wim là các trọng số kết nối của nơron thứ i, neti là hàm tổng, f là hàm truyền,  i là một ngưỡng, yi là tín hiệu đầu ra của nơron. Như vậy, tương tự như nơron sinh học nơron nhân tạo cũng nhận các tín hiệu đầu vào, xử lý (nhân các tín hiệu này với trọng số liên kết, tính tổng các tích 6 thu được rồi gửi kết quả đến hàm truyền) và cho một tín hiệu đầu ra (là kết quả của hàm truyền).  Hàm truyền có thể có các dạng sau: - Hàm bước 1 y 0 - Hàm giới hạn chặt - Hàm bậc thang khi x0 khi x0 (1.1)  1 khi y  sgn( x)    1 khi x0 1  y  sgn( x )   x 0  khi x 1 khi khi 0  x 1 x0 x0 (1.2) (1.3) - Hàm ngưỡng đơn cực y - Hàm ngưỡng hai cực y 1 1  e  x với λ > 0 (1.4) 2 1 1  e  x với λ > 0 (1.5)  Đồ thị các dạng hàm truyền được biểu diễn như sau: Hình 1.4: Đồ thị các dạng hàm truyền 1.1.2. Cấu tạo và phương thức làm việc của mạng nơron Mạng nơron là một hệ truyền đạt và xử lý tín hiệu, đặc tính truyền đạt của nơron phần lớn là đặc tính truyền đạt tĩnh nên có thể phân biệt các loại nơron khác 7 nhau. Các nơron có đầu vào nhận thông tin từ môi trường bên ngoài khác với các nơron có đầu vào được nối với các nơron khác trong mạng, chúng được phân biệt với nhau qua vector hàm trọng số ở đầu vào w. Nguyên lý cấu tạo của mạng nơron bao gồm nhiều lớp, mỗi lớp bao gồm nhiều nơron có cùng chức năng trong mạng. Hình 1.5 là mô hình hoạt động của một mạng nơron 3 lớp với 8 phần tử nơron. Các tín hiệu đầu vào được đưa đến 3 nơron đầu vào x1, x2, x3; 3 nơron này làm thành lớp đầu vào của mạng. Đầu ra của các nơron này được đưa đến đầu vào của 3 nơron tiếp theo, 3 nơron này không trực tiếp tiếp xúc với môi trường bên ngoài mà làm thành lớp ẩn hay còn gọi là lớp trung gian. Đầu ra của các nơron này được đưa đến 2 nơron đưa tín hiệu ra môi trường bên ngoài y1, y2. Hình 1.5: Mạng nơron ba lớp Mạng nơron có cấu trúc như trên gọi là mạng một hướng hay mạng truyền thẳng một hướng (Feed forward network) và có cấu trúc mạng ghép nối hoàn toàn. Mạng nơron bao gồm một hay nhiều lớp trung gian được gọi là mạng Multilayer Perceptrons (MLP-Network). Mạng nơron khi mới được hình thành thì chưa có tri thức, tri thức của mạng sẽ được hình thành dần dần sau một quá trình học. Khi đã hình thành tri thức, mạng có thể giải quyết các vấn đề một cách đúng đắn. Nhiệm vụ tổng quát của một mạng nơron là lưu giữ động các thông tin. Dạng thông tin lưu giữ này chính là quan hệ giữa các thông tin đầu vào và các đáp ứng đầu ra tương ứng để khi có một kích thích bất kỳ tác động vào mạng, mạng có khả 8 năng suy diễn và đưa ra một đáp ứng phù hợp. Đây chính là chức năng nhận dạng theo mẫu của mạng nơron. (a) Mạng truyền thẳng một lớp (b) Mạng hồi tiếp một lớp c) Mạng truyền thẳng nhiều lớp (d) Mạng nơron hồi quy Hình 1.6: Một số dạng mạng nơron Hình 1.6 là một số liên kết đặc thù của mạng nơron. Nơron được vẽ là các vòng tròn xem như một tế bào thần kinh, chúng có các mối liên hệ đến các nơron khác nhờ các trọng số liên kết, tập hợp các trọng số liên kết này sẽ lập thành các ma trận trọng số tương ứng. 1.1.3. Các luật học Thông thường, mạng nơron được điều chỉnh hoặc được huấn luyện để hướng các đầu vào riêng biệt đến đích ở đầu ra. ANN Dữ liệu vào Đích Trọng số wi So sánh Điều chỉnh 9 Hình 1.7: Cấu trúc huấn luyện mạng nơron Ở đây, hàm trọng số của mạng được điều chỉnh trên cơ sở so sánh đầu ra với đích mong muốn (taget) cho tới khi đầu ra của mạng phù hợp với đích. Những cặp vào/đích (input/taget) được dùng để giám sát cho sự huấn luyện mạng. Sau mỗi lần chạy ta có tổng bình phương của tất cả các sai số, sai số này được sử dụng để xác định các hàm trọng số mới. Hàm trọng số của mạng được sửa đổi với đặc tính tốt hơn tương ứng với đặc tính mong muốn. Sự thay đổi các hàm trọng số của mạng sẽ được dừng lại nếu tổng các bình phương sai số nhỏ hơn một giá trị đặt trước hoặc đã chạy đủ số lần chạy xác định (trong trường hợp này mạng có thể không thoả mãn yêu cầu đặt ra do sai lệch còn cao). Có hai kiểu học: Học tham số: Là các tham số về trọng số cập nhật kết nối giữa các nơron. Học cấu trúc: Trọng tâm là sự biến đổi cấu trúc của các mạng nơron gồm số lượng nút và các loại liên kết. Nhiệm vụ của việc học tham số là tìm ra được ma trận chính xác mong muốn từ ma trận giả thiết ban đầu (với cấu trúc của mạng nơron có sẵn). Để làm được điều này thì mạng nơron phải sử dụng các trọng số điều chỉnh với nhiều phương pháp học khác nhau để có thể tính toán gần đúng ma trận W cần tìm đặc trưng cho mạng. Sau đây là 3 phương pháp học:  Học có giám sát Là quá trình học có tín hiệu chỉ đạo bên ngoài d. Tại mỗi thời điểm khi đầu vào được cung cấp tới mạng nơron thì phản ứng đầu ra mong muốn d tương ứng của hệ thống được đưa ra.
- Xem thêm -

Tài liệu liên quan