Tài liệu Mô hình học sâu cho bài toán phân loại tài liệu ảnh

.PDF

thanhphoquetoi Báo vi phạm

Tải xuống 75

Mô tả:

LỜI CAM ĐOAN Tôi xin cam đoan đây là công trình nghiên cứu của bản thân tôi, dưới sự hướng dẫn khoa học của Thầy TS. Ngô Quốc Việt (Khoa Công Nghệ Thông Tin, trường ĐH Sư Phạm Tp Hồ Chí Minh). Các thông tin và số liệu của luận văn có nguồn gốc rõ ràng, cụ thể, các trích dẫn theo đúng quy định hiện hành. Kết quả nghiên cứu của luận văn hoàn toàn trung thực, khách quan. Tính tới thời điểm công bố kết quả chưa từng được sử dụng hay công bố ở bất kỳ công trình nghiên cứu nào khác. TP Hồ Chí Minh, tháng 9 năm 2018 Học viên thực hiện Lương Trần Ngọc Khiết LỜI CÁM ƠN Lời đầu tiên, tôi xin gửi lời cám ơn sâu sắc nhất đến thầy TS. Ngô Quốc Việt (Chủ nhiệm đề tài - GV Khoa CNTT Trường ĐH Sư Phạm TpHCM) – đã hướng dẫn Luận văn cũng như phát triển định hướng. Tôi cũng xin cám ơn thầy ThS Trần Sơn Hải (GV Khoa CNTT trường ĐH Sư Phạm TpHCM) đã góp công sức hướng dẫn, hỗ trợ và thầy ThS Nguyễn Võ Thuận Thành (Phòng Khảo Khí và Đảm bảo chất lượng, trường ĐH Sư Phạm TpHCM) đã bỏ nhiều thời gian hướng dẫn hỗ trợ trong việc thu thập, kiểm tra dữ liệu để thực hiện Luận văn này. Tôi cũng gửi lời cám ơn chân thành đến quý Thầy/ Cô giảng dạy các môn ngành Khoa Học Máy Tính khóa K27 tại trường ĐH Sư Phạm TpHCM đã cung cấp kiến thức quý báu làm nền tảng cơ bản trong quá trình học tập nghiên cứu. Đồng thời, xin gửi lời cám ơn đến quý Thầy/Cô Ban chủ nhiệm khoa Công Nghệ Thông Tin và phòng Sau Đại học đã hỗ trợ, tạo điều kiện cho tôi trong suốt thời gian qua. Trong quá trình thực hiện và tìm hiểu nghiên cứu đề tài, tôi đã gặp rất nhiều khó khăn và được quý Thầy/ Cô hỗ trợ, động viên để tôi hoàn thành tốt Luận văn này. Cuối cùng, tôi xin bày tỏ lòng biết ơn đến gia đình, bạn bè đã động viên, hỗ trợ vật chất lẫn tinh thần trong suốt quá trình học tập cũng như nghiên cứu thực hiện Luận văn này. Chân thành cám ơn quý vị. TP Hồ Chí Minh, tháng 9 năm 2018 Học viên thực hiện Lương Trần Ngọc Khiết MỤC LỤC LỜI CAM ĐOAN ........................................................................................................ i LỜI CÁM ƠN ............................................................................................................. ii MỤC LỤC ................................................................................................................. iii DANH MỤC THUẬT NGỮ VÀ VIẾT TẮT ........................................................... vi DANH MỤC CÁC BẢNG ....................................................................................... vii DANH MỤC HÌNH VẼ .......................................................................................... viii CHƯƠNG 1. 1.1. GIỚI THIỆU TỔNG QUAN ........................................................... 1 Tổng quan phân lớp ảnh ............................................................................ 1 1.1.1. Quy trình phân lớp ảnh ....................................................................... 2 1.1.2. Khảo sát các hướng tiếp cận cho bài toán phân lớp ảnh ..................... 4 1.1.3. Mô hình học sâu bài toán phân lớp ảnh .............................................. 5 1.2. Động cơ nghiên cứu................................................................................... 7 1.3. Mục tiêu và phương pháp nghiên cứu ....................................................... 7 1.3.1. Mục tiêu chính .................................................................................... 7 1.3.2. Đối tượng: ........................................................................................... 7 1.3.3. Phạm vi nghiên cứu: ........................................................................... 7 1.3.4. Phương pháp nghiên cứu: ................................................................... 8 1.4. Đóng góp của Luận Văn ............................................................................ 8 1.5. Cấu trúc luận văn ....................................................................................... 8 CHƯƠNG 2. CÁC MÔ HÌNH HỌC SÂU CHO PHÂN LỚP ............................ 10 2.1. Lược sử mô hình học sâu. ........................................................................ 10 2.2. Một số mô hình học sâu........................................................................... 11 2.2.1. LeNet [34] ......................................................................................... 11 2.2.2. AlexNet [36] ..................................................................................... 13 2.2.3. VGGNet [37] .................................................................................... 16 2.2.4. GoogLeNet [38] ................................................................................ 18 2.2.5. BKNet [39] ....................................................................................... 19 2.3. Mô hình CNN [36] [41] ........................................................................... 21 2.3.1. Tầng Convolutions............................................................................ 21 2.3.2. Tầng Pooling ..................................................................................... 25 2.3.3. Tầng Fully Connected (FC) .............................................................. 26 CHƯƠNG 3. PHÁT TRIỂN MÔ HÌNH CNN .................................................... 29 3.1. Bài toán phân lớp tài liệu trong giảng dạy............................................... 29 3.2. Mô hình phân lớp ảnh .............................................................................. 32 3.2.1. Chuẩn hóa kích thước ....................................................................... 32 3.2.2. Sử dụng Feauture local binary patterns (LBP) ................................. 33 3.2.3. Cấu trúc mạng CNN ......................................................................... 36 3.2.4. Đánh giá kết quả ............................................................................... 39 3.3. Phân tích đánh giá.................................................................................... 39 CHƯƠNG 4. 4.1. KẾT QUẢ THỰC NGHIỆM ........................................................ 40 Cở sở dữ liệu............................................................................................ 40 4.1.1. Thu thập ảnh ban đầu và tổ chức dữ liệu .......................................... 40 4.1.2. Dữ liệu đầu vào cho hệ thống máy học chuyên sâu ......................... 42 4.2. Môi trường thực nghiệm:......................................................................... 45 4.3. Phương pháp và độ đo đánh giá mô hình phân lớp ................................. 46 4.4. Kết quả thực nghiệm................................................................................ 48 4.4.1. Huấn luyện mạng .............................................................................. 48 4.4.2. Kiểm tra sau huấn luyện ................................................................... 56 4.4.3. Đánh giá dữ liệu ................................................................................ 61 CHƯƠNG 5. KẾT LUẬN ................................................................................... 63 TÀI LIỆU THAM KHẢO ........................................................................................ 64 PHỤ LỤC ................................................................................................................... 1 DANH MỤC THUẬT NGỮ VÀ VIẾT TẮT STT Ký hiệu viết tắt Tên đầy đủ 1 AI Artificial Intelligence 2 AP Average precision 3 CNN Convolution neuron network 4 Conv Convolution 5 CUDA Compute Unified Device Architecture 6 FC Fully connected layer 7 FN False Negatives 8 FP False Positives 9 GPU Graphics Processing Unit 10 mAP Mean average precision 11 ML Machine Learning 12 PLA Perceptron Learning Algorithm 13 ReLU Rectified Linear Unit 14 TP True Positives 15 TN True Negatives 16 VGG Visual Geometry Group DANH MỤC CÁC BẢNG Bảng 3-1 Minh họa thực hiện tính LBP cho ma trận ............................................... 34 Bảng 4-1 Bảng thống kê dữ liệu về số lượng và dung lượng ................................... 45 Bảng 4-2 Định nghĩa các giá trị cho việc đánh giá thực thi mô hình ....................... 47 Bảng 4-3 Thống kê dữ liệu huấn luyện .................................................................... 49 Bảng 4-4 Thống kê dữ liệu huấn luyện với số lần lặp 1........................................... 50 Bảng 4-5 Thống kê dữ liệu huấn luyện với số lần lặp là 5 ....................................... 52 Bảng 4-6 Thống kê dữ liệu huấn luyện với mô hình 32-64-fc ................................. 54 Bảng 4-7 Thống kê dữ liệu huấn luyện với mô hình 16-32-fc ................................. 55 Bảng 4-8 Thống kê dữ liệu kiểm tra ......................................................................... 58 Bảng 4-9 Thống kê độ chính xác trung bình của mô hình trong TOP2 ................... 59 Bảng 4-10 Thống kê dữ liệu chi tiết độ chính xác mô hình TOP2 (p1) ................... 59 Bảng 4-11 Thống kê dữ liệu chi tiết độ chính xác mô hình TOP2 (p2) ................... 59 DANH MỤC HÌNH VẼ Hình 1-1 Các dạng ảnh: ảnh màu, ảnh xám, ảnh trắng đen ........................................ 2 Hình 1-2 Minh họa các dạng học máy tự động từ AI đến DeepLearning [6] ............ 3 Hình 1-3 Ảnh chụp màn hình kết quả tìm kiếm các công trình nghiên cứu khoa học từ năm 2017 với từ khóa “Image classification” của SVM và DeepLearining (ngày thực hiện 20/10/2017) ................................................................................................. 4 Hình 1-4 Mô hình đề xuất giải quyết bài toán. ........................................................... 6 Hình 2-1 Lịch sử phát triển mô hình mạng CNN [26] [27] ..................................... 10 Hình 2-2 Cấu trúc mạng LeNet 5 của LeCun 1998 [34] .......................................... 12 Hình 2-3 Minh họa cách tạo đặc trưng tạo tầng 3 Convolution [34] ....................... 13 Hình 2-4 Kiến trúc mạng AlexNet – [36] ................................................................ 14 Hình 2-5 Biến đổi ảnh đầu vào qua các lớp của mạng AlexNet [36] ....................... 15 Hình 2-6 Kiến trúc mạng VGGNet [37] ................................................................... 17 Hình 2-7 Thông số chi tiết mạng VGG [37] ............................................................ 17 Hình 2-8 Module Inception [38]............................................................................... 18 Hình 2-9 Kiến trúc mạng GoogLeNet [38] .............................................................. 19 Hình 2-10 Thông số các tầng của mạng GoogLeNet[38] ........................................ 19 Hình 2-11 Thông số các tầng của mạng BKNet [39] ............................................... 20 Hình 2-12 Minh họa nhân chập 3 chiều 32x32x3 [42]............................................. 22 Hình 2-13 Minh họa tăng số lượng nhân chập ảnh đầu vào 32x32x3 [42] .............. 23 Hình 2-14 Minh họa zero-padding cho ảnh đầu vào 32x32x3 [42] ........................ 23 Hình 2-15 Minh họa phép tích chập của ảnh stride = 1 [42] .................................... 24 Hình 2-16 Minh họa phép tích chập của ảnh stride = 2 [42] .................................... 24 Hình 2-17 Minh họa sử dụng ReLU [42] ................................................................. 25 Hình 2-18 Minh họa phép tổ hợp max-pooling và average-pooling [43] ................ 26 Hình 2-19 Vị trí lớp Pooling và minh họa trong mô hình mạng [43] ...................... 26 Hình 2-20 Lớp kết nối đầy đủ trong phân loại hình ảnh đầu vào [43] ..................... 27 Hình 2-21 Minh họa kết nối đầy đủ dạng ma trận [43] ............................................ 28 Hình 3-1 Minh họa bài toán phân loại tài liệu ảnh theo môn học ............................ 30 Hình 3-2 Minh họa bài toán phân loại tài liệu ảnh trong giảng dạy các môn trong giáo dục thể chất ............................................................................................................... 30 Hình 3-3 Thư viện mở OpenCV ............................................................................... 31 Hình 3-4 Thư viện mở TensorFlow .......................................................................... 31 Hình 3-5 Thư viện mở Keras .................................................................................... 32 Hình 3-6 Bước 1 - Chuẩn hóa kích thước hình ảnh ................................................. 32 Hình 3-7 Minh họa giai đoạn chuẩn hóa kích thước ảnh đầu vào ............................ 33 Hình 3-8 Bước 2 - Trích chọn đặc trưng bằng phương pháp LBP ........................... 34 Hình 3-9 Minh họa giai đoạn trích chọn đặc trưng bằng LBP ................................. 35 Hình 3-10 Bước 3 – Hệ thống phân lớp ảnh bằng CNN .......................................... 36 Hình 3-11 Kiến trúc mạng đề xuất ........................................................................... 37 Hình 3-12 Bước 4 - Đánh giá kết quả ...................................................................... 39 Hình 4-1 Cây thư mục lưu trữ dữ liệu ảnh thu thập ................................................. 41 Hình 4-2 Thông số thư mục inputphoto ................................................................... 41 Hình 4-3 Tăng cường ảnh đầu vào ........................................................................... 42 Hình 4-4 Trích chọn đặc trưng trên ảnh ................................................................... 43 Hình 4-5 Dữ liệu CNNData cho hệ thống phân loại ................................................ 43 Hình 4-6 Minh họa quá trình huấn luyện và kiểm tra của hệ thống đề xuất ............ 44 Hình 4-7 Ảnh chụp từ một tập tin log lưu trữ dữ liệu trong quá trình huấn luyện mạng có cấu trúc khác nhau ............................................................................................... 48 Hình 4-8 Biểu đồ huấn luyện với số lần lặp là 1 ...................................................... 51 Hình 4-9 Biểu đồ huấn luyện với epoche =5 ............................................................ 53 Hình 4-10 Biểu đồ huấn luyện với mô hình 32-64-fc .............................................. 54 Hình 4-11 Biểu đồ huấn luyện với mô hình 16-32-fc .............................................. 55 Hình 4-12 Ảnh chụp từ một file log lưu trữ dữ liệu trong quá trình kiểm tra mạng có cấu trúc khác nhau .................................................................................................... 57 Hình 4-13 Biểu đồ độ chính xác trong kiểm tra của mô hình thuộc TOP2 .............. 60 Hình 4-14 Mô hình học sâu cho bài toán phân loại tài liệu ảnh giáo dục thể chất .. 61 Hình 4-15 Minh họa sơ đồ xử lý trong mô hình học sâu cho bài toán phân loại tài liệu ảnh giáo dục thể chất ................................................................................................ 62 1 CHƯƠNG 1. GIỚI THIỆU TỔNG QUAN Bài toán phân lớp ảnh đã và đang được nhiều nhà nghiên cứu quan tâm và hướng đến. Đã có nhiều phương pháp được đề xuất nhằm giải quyết các bài toán thực tiễn và nâng cao tính hiệu quả phân lớp. Một trong những cách tiếp cận phổ biến hiện nay cho bài toán phân lớp ảnh có thể nhắc tới là sử dụng phâp lớp ảnh dựa trên trích chọn đặc trưng ảnh. Ở giai đoạn đầu, các mẫu cần phân lớp về các chiều không gian để biểu diễn dựa vào việc lựa chọn phép biến đổi ảnh thích hợp để trích chọn đặc trưng ảnh. Giai đoạn tiếp theo sử dụng các kỹ thuật tính toán thông minh, các hàm số học đánh giá phân loại ảnh theo các không gian này về các lớp tương ứng. Giai đoạn cuối cùng là hợp nhất các kết quả để đánh giá, đưa ra kết luận cuối cùng. Dựa vào cách tiếp cận trích chọn đặc trưng này phản ánh đầy đủ tính đa dạng của mẫu cần phân lớp và đảm bảo độ chính xác của hệ thống. 1.1. Tổng quan phân lớp ảnh Ngày nay, kỹ thuật cùng với sự phát triển vượt bậc của của lĩnh vực công nghệ thông tin trên toàn thế giới trong những năm gần đây đã giúp rất nhiều cho đời sống. Đi kèm theo sự phát triển đó là khối lượng dữ liệu và thông tin phát triển không ngừng đặc biệt là số lượng hình ảnh trong các lĩnh lực ngày càng lớn. Với một lượng hình ảnh ngày càng nhiều như vậy, việc phân loại và phát hiện những vấn đề thông qua hình ảnh dần trở thành một nhu cầu tất yếu nhằm phục vụ, hỗ trợ con người giải quyết các vấn đề trong cuộc sống nói chung như Giao thông vận tải, Y tế, Giáo dục, .... Đồng thời đóng góp bộ phận không nhỏ vào kho nguồn tư liệu trong công tác giảng dạy, như việc truyền đạt nội dung kiến thức trong các bài học không khô khan và tiếp cận các kiến thức công nghệ nhanh linh hoạt hơn. Sự phát triển vượt bậc của các thiết bị đồ họa cũng như thiết bị lưu trữ cũng chính là một nhân tố tích cực thúc đẩy nghiên cứu các ứng dụng thực tế. Tự động phát hiện các đối tượng trong hình ảnh số là nhu cầu cấp thiết trong nhiều lĩnh vực khác nhau như: An ninh, nhận dạng đối tượng, kiểm soát giao thông,… Tính chất này cũng được áp dụng để nhận biết, phân loại mục đích cho các hình ảnh 2 làm phương tiện giảng dạy các môn học. Phân loại tài liệu là công việc quan trọng trong chu trình tài liệu. Nó không những giúp cho việc kiểm soát thư mục, xây dựng hệ thống tra cứu thông tin; tổ chức kho tài liệu,… để phục vụ độc giả mà còn thúc đẩy việc khai thác, trao đổi thông tin giữa các nguồn lưu trữ. Phân loại tài liệu cũng giữ một vai trò rất quan trọng đối với hoạt động kiểm soát các nguồn tin trong hệ thống mạng nội bộ và mạng Internet. Để có thể áp dụng bài toán phân lớp ảnh vào các ứng dụng thực tế, không những đòi hỏi phải phân lớp chính xác mà còn các vấn đề khác liên quan đến chi phí tính toán, dịch vụ đi kèm lẫn thời gian thực hiện. Chính vì vậy mà đã có rất nhiều công trình nghiên cứu có kết quả đã được công bố trên các tạp chí và hội nghị chuyên ngành có uy tín. 1.1.1. Quy trình phân lớp ảnh Mô hình bài toán ban đầu với các khái niệm [1]. input – output, trong đó đầu ra gồm nhiều lớp. Tiêu biểu với ảnh đầu vào là ảnh màu được lấy từ nguồn dữ liệu thu thập. Sau đó được mang vào hệ thống xử lý bằng phương pháp máy học chuyên sâu. Ở bộ xử lý này tiến hành phân lớp đối tượng dựa trên các đặc trưng của hình ảnh từ việc rút trích đặc trưng. Đến cuối bộ xử lý cho ra kết quả đầu ra với bộ vector mang các thành phần giá trị lần lượt là O1, O2, O3, ... – đại diện cho các lớp đầu ra cho chủ đề phân lớp của hình ảnh với giá trị cho biết mức độ thuộc lớp ảnh này theo giá trị đặc trưng. Ở quy trình này, với nguồn dữ liệu thu thập sẽ được chuẩn hóa (đồng bộ về một số tiêu chí). Ảnh gốc có thể là ảnh màu (thuộc một trong tập không gian màu: RGBA, CMY, HSI), ảnh xám, ảnh trắng đen. Hình 1-1 Các dạng ảnh: ảnh màu, ảnh xám, ảnh trắng đen 3 Trong những năm qua, thuật ngữ "Deep learning" (học sâu) đã dần được sử dụng nhiều khi nhắc đến các chủ đề hội thoại bàn về trí tuệ nhân tạo (AI), dữ liệu lớn (Big Data) và phân tích (Analytics) [2]. [3]. [4]. [5]. . Và với lý do chính đáng – đây là một cách tiếp cận đầy hứa hẹn tới AI khi phát triển các hệ thống tự vận hành, những thứ đang cách mạng hóa nhiều ngành công nghiệp. Máy học là công nghệ tiên tiến, thì học sâu là nâng cấp "tiên tiến" theo như [6]. [7]. . Học máy lấy ý tưởng cốt lõi của trí tuệ nhân tạo và tập trung vào việc giải quyết các vấn đề trong thế giới thực với các mạng thần kinh được thiết kế để bắt chước khả năng đưa ra quyết định của con người. Học sâu, đúng như tên gọi của nó, đi sâu hơn nữa vào một tập hợp các công cụ và kỹ thuật học máy, từ đó áp dụng chúng để giải quyết bất kỳ vấn đề nào đòi hỏi “khả năng tư duy”. Về cơ bản, học sâu là cho một hệ thống máy tính sử dụng rất nhiều dữ liệu, để chúng có thể đưa ra các quyết định về những dữ liệu khác. Dữ liệu này được nạp thông qua các mạng thần kinh, tương tự như học máy. Những mạng lưới này có cấu trúc logic yêu cầu một loạt các câu hỏi đúng/sai, hoặc trích xuất một giá trị số, của mỗi bit dữ liệu đi qua chúng và phân loại theo các câu trả lời nhận được. Hình 1-2 Minh họa các dạng học máy tự động từ AI đến DeepLearning [6]. 4 Khảo sát các hướng tiếp cận cho bài toán phân lớp ảnh 1.1.2. Các nghiên cứu ngoài nước, việc áp dụng hệ thống xử lý nhận dạng bằng máy học sử dụng mạng Neural nhiều lớp rất phổ biến như [8]. [9]. [10]. [11]. . Áp dụng trên hình các lĩnh vực giải trí (phân loại phim, hỗ trợ thẻ tag, ..), kỹ thuật (phân loại nhận diện đối tượng vật tiêu biểu như các bộ dữ liệu cipher, bộ nhận dạng chữ số mnist,..). Các công trình nghiên cứu trong nước về mô hình học máy chuyên sâu cùng ứng dụng trong nhiều lĩnh vực tại Việt Nam có thể kể đến như [12]. [13]. [14]. [15]. [16]. Từ những vấn đề nhận dạng ký tự đến phân loại văn bản hình thức kết hợp trong việc tìm kiếm chỉ số TFidf đã mang lại nhiều đóng góp tích cực. Trong thời gian gần đây có hai hướng tiếp cận phổ biến trong bài toán phân lớp là cách sử dụng phương pháp SVM (Support Vector Machine) và phương pháp Deep Learning [17]. . Tính riêng trong năm 2017, số lượng các công trình có liên quan đến từ khóa “Image classification by SVM” có khoảng 15.000 kết quả và từ khóa “Image classification by Deep Learning” có khoảng 28.000 kết quả (chỉ tính riêng từ năm 2017 tại thời điểm ngày 20/10/2017). Khoa học công nghệ luôn thay đổi và phát triển, với những số liệu tìm kiếm trên google scholar trên cho thấy một điều là ngày này được xu thế nghiên cứu từ các nhà khoa học hiện nay theo hướng Deep learning. Và tiếp tục xu thế này tôi lựa chọn phương pháp Convolution Neural Network (CNN) một phương pháp được sử dụng trong Deep Learning Hình 1-3 Ảnh chụp màn hình kết quả tìm kiếm các công trình nghiên cứu khoa học từ năm 2017 với từ khóa “Image classification” của SVM và DeepLearining (ngày thực hiện 20/10/2017) 5 1.1.3. Mô hình học sâu bài toán phân lớp ảnh Kiến trúc mô hình đề xuất đơn giản được nêu ra bao gồm: – Đầu vào: ảnh tham khảo học thuật từ các trang web, thư viện lưu trữ các môn học tương ứng trong giảng dạy để phân lớp. Ảnh thu thập ở nhiều dạng khác nhau, vùng đối tượng chính trong hình khác biệt nên cần bước tiền xử lý ảnh để đưa về một bộ tiêu chuẩn chung cho kích thước hình ảnh lẫn thông tin đối tượng.Ảnh sau khi được xử lý sẽ làm nguyên liệu đầu vào cho bộ xử lý phân lớp bằng phương pháp máy học chuyên sâu CNN sử dụng. – Đầu ra: Kết quả sau khi xử lý phân lớp là tập vector với mỗi nút mang giá trị trong phạm vi từ 0 tới 1. Đánh số lần lượt O1, O2, O3 ... On đại diện cho giá trị của các môn học phân lớp đầu ra. Hệ thống phân loại tài liệu giảng dạy sử dụng mô hình CNN là bài toán phân lớp ảnh với nhiều lớp đầu ra. Mô hình CNN sẽ vừa tự động xây dựng đặc trưng của ảnh dựa trên tập dữ liệu huấn luyện thông qua các tầng được thiết kế như: tầng convolution, tầng pooling, kèm các thông số bộ lọc của mỗi tầng, đồng thời tầng full connect kết hợp softmax thực hiện việc phân lớp mặc định các khoa sử dụng đầu ra dựa trên việc huấn luyện từ tập ảnh huấn luyện đã được gắn nhãn trước đó. Như vậy CNN vừa đóng vai trò trích xuất đặc trưng và phân lớp. Điều này rất thuận tiện cho các nhà phát triển sản phẩm phần mềm chỉ cần phát triển CNN mà không cần phải nghiên cứu và cài đặt thêm một bộ máy học riêng biệt (SVM, AdaBoot, …). Vấn đề nghiên cứu đặt ra là phải thiết kế một kiến trúc CNN nhằm xác định số tầng, số neural mỗi tầng, cách liên kết giữa các tầng với nhau, số lần lặp lại và bố trí thứ tự các tầng convolution – pooling sao phù hợp bài toán phân lớp ảnh. Đề tài đề xuất mô học sâu hình nhằm giải quyết bài toán phân lớp tài liệu ảnh sử dụng trong giáo dục thể chất được minh họa như hình bên: 6 Mô hình phân lớp CNN Chuẩn hóa hình ảnh Kết quả phân lớp bơi lội bóng bàn bóng chuyền bóng đá bóng rổ cầu lông điền kinh nhảy cao tennis thể hình võ yoga Kết luận Hình 1-4 Mô hình đề xuất giải quyết bài toán. Với mô hình này, được minh họa qua 4 bước Bước 1: Thu thập dữ liệu từ thư viện, trang web được kiểm chứng. Bước 2: Thực hiện chuẩn hóa hình ảnh theo tiêu chuẩn đề xuất kích thước Bước 3: Thiết lập mô hình mạng lưới các tầng trong CNN Bước 4: Phân tích kết quả đầu ra dựa trên thông số các nút mạng đầu ra lần lượt theo trình tự giá trị nhóm môn học trong giáo dục thể chất. 7 1.2. Động cơ nghiên cứu Với công việc soạn bài giảng, soạn mẫu thuyết trình sinh động là một trong những công việc hằng ngày của các giảng viên. Việc sử dụng hình ảnh trong các bài thuyết minh làm tăng thêm sự sinh động, lôi cuốn và hấp dẫn nếu được sử dụng cách hợp lý, phù hợp nội dung của bài học. Nhằm giảm tải bớt thời gian chọn lọc hình ảnh, đặc biệt với các giảng viên ít kinh nghiệm hoặc mới ra trường để giảng dạy thì công việc này cần nhiều thời gian bù đắp vào kinh nghiệm thực tế. 1.3. Mục tiêu và phương pháp nghiên cứu 1.3.1. Mục tiêu chính Mục tiêu của đề tài có thể hiểu ở đây giải quyết 2 vấn đề chính: – Dựa trên nhu cầu thực tế để trừu tượng hóa thành bài toán. Cụ thể là bài toán phân loại tài liệu ảnh theo môn học trong giảng dạy thành bài toán xử lý ảnh. – Phát triển mô hình CNN cho bài toán đặt ra dựa trên thực nghiệm, kiểm tra, tinh chỉnh mô hình đề xuất. – Yếu tố được chú trọng: mô hình đơn giản dễ sử dụng, thời gian huấn luyện mạng nhanh, độ chính xác chấp nhận được (~ 90%) phù hợp nhu cầu đặt ra ban đầu. 1.3.2. Đối tượng: Đối tượng nghiên cứu là xử lý đối với các loại ảnh được chụp lại, đối tượng chính là ảnh chụp màn hình các website, các video,… muốn xác định nội dung phù hợp theo từng môn học trong giảng dạy. 1.3.3. Phạm vi nghiên cứu: – Trừu tượng hóa yêu cầu trong thế giới thực kiểm tra tương thích hình ảnh với nội chủ đề môn học về các dạng mô hình máy tính trong xử lý ảnh. – Nghiên cứu về các mạng học sâu nói chung và mô hình CNN, chỉ rõ được các đặc điểm, tính chất, khả năng ứng dụng và khả năng mở rộng. – Một số vấn đề liên quan đến xử lý ảnh: rút trích đặc trưng, phân lớp. – Đánh giá được việc áp dụng mô hình CNN cho bài toán này. 8 1.3.4. Phương pháp nghiên cứu: Nhằm thực hiện được đề tài này, tôi vận dụng tổng hợp nhiều phương pháp nghiên cứu khác nhau như: mô hình hóa, khảo sát, thực nghiệm. Mô hình hóa từ yêu cầu thực tế về nhận dạng hình ảnh tương ứng với môn học thành dạng một bài toán lý thuyết. Khảo sát các phương pháp có liên quan từng được áp dụng để xử lý bài toán đặt ra đã có trước đó. Nhận xét, đánh giá, so sánh các phương pháp nhằm lựa chọn cách tiếp cận thích hợp, tiếp đến là lựa chọn phương pháp và đề xuất mô hình có khả năng tính toán giải quyết yêu cầu đặt ra. Cài đặt thực nghiệm, tinh chỉnh các thông số, kỹ thuật để nâng cao kết quả của mô hình đề xuất. Nhận xét, đánh giá mô hình dựa vào các tiêu chí cụ thể như độ chính xác của việc phân lớp ở đầu ra, hiệu xuất huấn luyện, hệ số loss của việc huấn luyện dữ liệu, tốc độ thực thi, thời gian xử lý việc huấn luyện... 1.4. Đóng góp của Luận Văn Thử nghiệm mô hình CNN có cấu trúc phù hợp với bài toán phân loại tài liệu ảnh trong giáo dục thể chất. Kết quả thực tiễn của luận văn hướng đến là chương trình máy tính có khả năng kiểm tra và phân loại hình ảnh theo tài liệu giảng dạy các môn học Để có thể thực hiện được mục tiêu trên thì việc ứng dụng máy học để giải quyết bài toán này, cần có những phương pháp và mô hình có độ chính xác cao. Do đó, trong đề tài nghiên cứu này, tôi tập trung nghiên cứu vào "Mô hình học sâu cho bài toán phân loại tài liệu ảnh” trong giảng dạy. 1.5. Cấu trúc luận văn Tóm lược nội dung của luận văn được trình bày trong 5 chương chính (không kể đến các phần mục lục, phụ lục, danh mục tham khảo, ...) có bố cục như sau: CHƯƠNG 1- TỔNG QUAN: Ở chương này, nội dung trình bày về các công trình nghiên cứu hiện nay có liên quan tới đề tài. Đồng thời phát biểu bài toán phân loại tài liệu học tập – giảng dạy, đưa ra hướng tiếp cận và giải pháp thực hiện. CHƯƠNG 2- CƠ SỞ LÝ THUYẾT: Trình bày các nội dung sau, gồm 9 – Lược sử mô hình học sâu: – Các Case Study kiến trúc các mạng CNN – Kỹ thuật phân lớp ảnh dùng CNN CHƯƠNG 3- MÔ HÌNH CNN PHÂN LOẠI TÀI LIỆU GIẢNG DẠY: – Bài toán phân lớp ảnh (kỹ thuật phân lớp ảnh, tiêu chí đánh giá) – Mục tiêu chương này là đề xuất mô hình giải quyết bài toán. Dữ liệu trước khi đưa vào mô hình cần được xử lý và chuẩn hóa, sau đó phân tập cho công tác huấn luyện dữ liệu. Cuối cùng là đánh giá cách thực hoạt động mô hình. – Phương pháp kiểm tra và độ đo đánh giá mô hình phân lớp CHƯƠNG 4- THỰC NGHIỆM: – Cài đặt mô hình giải quyết bài toán trên môi trường Window với các bộ dữ liệu được thu thập. – Thông kê dữ liệu thực nghiệm. – Đánh giá, nhận xét đưa ra kết luận về mô hình đề xuất. CHƯƠNG 5- KẾT LUẬN VÀ KHUYẾN NGHỊ:

- Xem thêm -

Tài liệu Mô hình học sâu cho bài toán phân loại tài liệu ảnh

Tài liệu liên quan

Tài liệu vừa đăng

Tài liệu xem nhiều nhất