LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu của bản thân tôi, dưới sự hướng
dẫn khoa học của Thầy TS. Ngô Quốc Việt (Khoa Công Nghệ Thông Tin, trường ĐH
Sư Phạm Tp Hồ Chí Minh). Các thông tin và số liệu của luận văn có nguồn gốc rõ
ràng, cụ thể, các trích dẫn theo đúng quy định hiện hành.
Kết quả nghiên cứu của luận văn hoàn toàn trung thực, khách quan. Tính tới
thời điểm công bố kết quả chưa từng được sử dụng hay công bố ở bất kỳ công trình
nghiên cứu nào khác.
TP Hồ Chí Minh, tháng 9 năm 2018
Học viên thực hiện
Lương Trần Ngọc Khiết
LỜI CÁM ƠN
Lời đầu tiên, tôi xin gửi lời cám ơn sâu sắc nhất đến thầy TS. Ngô Quốc Việt
(Chủ nhiệm đề tài - GV Khoa CNTT Trường ĐH Sư Phạm TpHCM) – đã hướng dẫn
Luận văn cũng như phát triển định hướng. Tôi cũng xin cám ơn thầy ThS Trần Sơn
Hải (GV Khoa CNTT trường ĐH Sư Phạm TpHCM) đã góp công sức hướng dẫn, hỗ
trợ và thầy ThS Nguyễn Võ Thuận Thành (Phòng Khảo Khí và Đảm bảo chất lượng,
trường ĐH Sư Phạm TpHCM) đã bỏ nhiều thời gian hướng dẫn hỗ trợ trong việc thu
thập, kiểm tra dữ liệu để thực hiện Luận văn này.
Tôi cũng gửi lời cám ơn chân thành đến quý Thầy/ Cô giảng dạy các môn
ngành Khoa Học Máy Tính khóa K27 tại trường ĐH Sư Phạm TpHCM đã cung cấp
kiến thức quý báu làm nền tảng cơ bản trong quá trình học tập nghiên cứu. Đồng thời,
xin gửi lời cám ơn đến quý Thầy/Cô Ban chủ nhiệm khoa Công Nghệ Thông Tin và
phòng Sau Đại học đã hỗ trợ, tạo điều kiện cho tôi trong suốt thời gian qua.
Trong quá trình thực hiện và tìm hiểu nghiên cứu đề tài, tôi đã gặp rất nhiều
khó khăn và được quý Thầy/ Cô hỗ trợ, động viên để tôi hoàn thành tốt Luận văn này.
Cuối cùng, tôi xin bày tỏ lòng biết ơn đến gia đình, bạn bè đã động viên, hỗ
trợ vật chất lẫn tinh thần trong suốt quá trình học tập cũng như nghiên cứu thực hiện
Luận văn này.
Chân thành cám ơn quý vị.
TP Hồ Chí Minh, tháng 9 năm 2018
Học viên thực hiện
Lương Trần Ngọc Khiết
MỤC LỤC
LỜI CAM ĐOAN ........................................................................................................ i
LỜI CÁM ƠN ............................................................................................................. ii
MỤC LỤC ................................................................................................................. iii
DANH MỤC THUẬT NGỮ VÀ VIẾT TẮT ........................................................... vi
DANH MỤC CÁC BẢNG ....................................................................................... vii
DANH MỤC HÌNH VẼ .......................................................................................... viii
CHƯƠNG 1.
1.1.
GIỚI THIỆU TỔNG QUAN ........................................................... 1
Tổng quan phân lớp ảnh ............................................................................ 1
1.1.1.
Quy trình phân lớp ảnh ....................................................................... 2
1.1.2.
Khảo sát các hướng tiếp cận cho bài toán phân lớp ảnh ..................... 4
1.1.3.
Mô hình học sâu bài toán phân lớp ảnh .............................................. 5
1.2.
Động cơ nghiên cứu................................................................................... 7
1.3.
Mục tiêu và phương pháp nghiên cứu ....................................................... 7
1.3.1.
Mục tiêu chính .................................................................................... 7
1.3.2.
Đối tượng: ........................................................................................... 7
1.3.3.
Phạm vi nghiên cứu: ........................................................................... 7
1.3.4.
Phương pháp nghiên cứu: ................................................................... 8
1.4.
Đóng góp của Luận Văn ............................................................................ 8
1.5.
Cấu trúc luận văn ....................................................................................... 8
CHƯƠNG 2.
CÁC MÔ HÌNH HỌC SÂU CHO PHÂN LỚP ............................ 10
2.1.
Lược sử mô hình học sâu. ........................................................................ 10
2.2.
Một số mô hình học sâu........................................................................... 11
2.2.1.
LeNet [34] ......................................................................................... 11
2.2.2.
AlexNet [36] ..................................................................................... 13
2.2.3.
VGGNet [37] .................................................................................... 16
2.2.4.
GoogLeNet [38] ................................................................................ 18
2.2.5.
BKNet [39] ....................................................................................... 19
2.3.
Mô hình CNN [36] [41] ........................................................................... 21
2.3.1.
Tầng Convolutions............................................................................ 21
2.3.2.
Tầng Pooling ..................................................................................... 25
2.3.3.
Tầng Fully Connected (FC) .............................................................. 26
CHƯƠNG 3.
PHÁT TRIỂN MÔ HÌNH CNN .................................................... 29
3.1.
Bài toán phân lớp tài liệu trong giảng dạy............................................... 29
3.2.
Mô hình phân lớp ảnh .............................................................................. 32
3.2.1.
Chuẩn hóa kích thước ....................................................................... 32
3.2.2.
Sử dụng Feauture local binary patterns (LBP) ................................. 33
3.2.3.
Cấu trúc mạng CNN ......................................................................... 36
3.2.4.
Đánh giá kết quả ............................................................................... 39
3.3.
Phân tích đánh giá.................................................................................... 39
CHƯƠNG 4.
4.1.
KẾT QUẢ THỰC NGHIỆM ........................................................ 40
Cở sở dữ liệu............................................................................................ 40
4.1.1.
Thu thập ảnh ban đầu và tổ chức dữ liệu .......................................... 40
4.1.2.
Dữ liệu đầu vào cho hệ thống máy học chuyên sâu ......................... 42
4.2.
Môi trường thực nghiệm:......................................................................... 45
4.3.
Phương pháp và độ đo đánh giá mô hình phân lớp ................................. 46
4.4.
Kết quả thực nghiệm................................................................................ 48
4.4.1.
Huấn luyện mạng .............................................................................. 48
4.4.2.
Kiểm tra sau huấn luyện ................................................................... 56
4.4.3.
Đánh giá dữ liệu ................................................................................ 61
CHƯƠNG 5.
KẾT LUẬN ................................................................................... 63
TÀI LIỆU THAM KHẢO ........................................................................................ 64
PHỤ LỤC ................................................................................................................... 1
DANH MỤC THUẬT NGỮ VÀ VIẾT TẮT
STT Ký hiệu viết tắt
Tên đầy đủ
1
AI
Artificial Intelligence
2
AP
Average precision
3
CNN
Convolution neuron network
4
Conv
Convolution
5
CUDA
Compute Unified Device Architecture
6
FC
Fully connected layer
7
FN
False Negatives
8
FP
False Positives
9
GPU
Graphics Processing Unit
10
mAP
Mean average precision
11
ML
Machine Learning
12
PLA
Perceptron Learning Algorithm
13
ReLU
Rectified Linear Unit
14
TP
True Positives
15
TN
True Negatives
16
VGG
Visual Geometry Group
DANH MỤC CÁC BẢNG
Bảng 3-1 Minh họa thực hiện tính LBP cho ma trận ............................................... 34
Bảng 4-1 Bảng thống kê dữ liệu về số lượng và dung lượng ................................... 45
Bảng 4-2 Định nghĩa các giá trị cho việc đánh giá thực thi mô hình ....................... 47
Bảng 4-3 Thống kê dữ liệu huấn luyện .................................................................... 49
Bảng 4-4 Thống kê dữ liệu huấn luyện với số lần lặp 1........................................... 50
Bảng 4-5 Thống kê dữ liệu huấn luyện với số lần lặp là 5 ....................................... 52
Bảng 4-6 Thống kê dữ liệu huấn luyện với mô hình 32-64-fc ................................. 54
Bảng 4-7 Thống kê dữ liệu huấn luyện với mô hình 16-32-fc ................................. 55
Bảng 4-8 Thống kê dữ liệu kiểm tra ......................................................................... 58
Bảng 4-9 Thống kê độ chính xác trung bình của mô hình trong TOP2 ................... 59
Bảng 4-10 Thống kê dữ liệu chi tiết độ chính xác mô hình TOP2 (p1) ................... 59
Bảng 4-11 Thống kê dữ liệu chi tiết độ chính xác mô hình TOP2 (p2) ................... 59
DANH MỤC HÌNH VẼ
Hình 1-1 Các dạng ảnh: ảnh màu, ảnh xám, ảnh trắng đen ........................................ 2
Hình 1-2 Minh họa các dạng học máy tự động từ AI đến DeepLearning [6] ............ 3
Hình 1-3 Ảnh chụp màn hình kết quả tìm kiếm các công trình nghiên cứu khoa học
từ năm 2017 với từ khóa “Image classification” của SVM và DeepLearining (ngày
thực hiện 20/10/2017) ................................................................................................. 4
Hình 1-4 Mô hình đề xuất giải quyết bài toán. ........................................................... 6
Hình 2-1 Lịch sử phát triển mô hình mạng CNN [26] [27] ..................................... 10
Hình 2-2 Cấu trúc mạng LeNet 5 của LeCun 1998 [34] .......................................... 12
Hình 2-3 Minh họa cách tạo đặc trưng tạo tầng 3 Convolution [34] ....................... 13
Hình 2-4 Kiến trúc mạng AlexNet – [36] ................................................................ 14
Hình 2-5 Biến đổi ảnh đầu vào qua các lớp của mạng AlexNet [36] ....................... 15
Hình 2-6 Kiến trúc mạng VGGNet [37] ................................................................... 17
Hình 2-7 Thông số chi tiết mạng VGG [37] ............................................................ 17
Hình 2-8 Module Inception [38]............................................................................... 18
Hình 2-9 Kiến trúc mạng GoogLeNet [38] .............................................................. 19
Hình 2-10 Thông số các tầng của mạng GoogLeNet[38] ........................................ 19
Hình 2-11 Thông số các tầng của mạng BKNet [39] ............................................... 20
Hình 2-12 Minh họa nhân chập 3 chiều 32x32x3 [42]............................................. 22
Hình 2-13 Minh họa tăng số lượng nhân chập ảnh đầu vào 32x32x3 [42] .............. 23
Hình 2-14 Minh họa zero-padding cho ảnh đầu vào 32x32x3 [42] ........................ 23
Hình 2-15 Minh họa phép tích chập của ảnh stride = 1 [42] .................................... 24
Hình 2-16 Minh họa phép tích chập của ảnh stride = 2 [42] .................................... 24
Hình 2-17 Minh họa sử dụng ReLU [42] ................................................................. 25
Hình 2-18 Minh họa phép tổ hợp max-pooling và average-pooling [43] ................ 26
Hình 2-19 Vị trí lớp Pooling và minh họa trong mô hình mạng [43] ...................... 26
Hình 2-20 Lớp kết nối đầy đủ trong phân loại hình ảnh đầu vào [43] ..................... 27
Hình 2-21 Minh họa kết nối đầy đủ dạng ma trận [43] ............................................ 28
Hình 3-1 Minh họa bài toán phân loại tài liệu ảnh theo môn học ............................ 30
Hình 3-2 Minh họa bài toán phân loại tài liệu ảnh trong giảng dạy các môn trong giáo
dục thể chất ............................................................................................................... 30
Hình 3-3 Thư viện mở OpenCV ............................................................................... 31
Hình 3-4 Thư viện mở TensorFlow .......................................................................... 31
Hình 3-5 Thư viện mở Keras .................................................................................... 32
Hình 3-6 Bước 1 - Chuẩn hóa kích thước hình ảnh ................................................. 32
Hình 3-7 Minh họa giai đoạn chuẩn hóa kích thước ảnh đầu vào ............................ 33
Hình 3-8 Bước 2 - Trích chọn đặc trưng bằng phương pháp LBP ........................... 34
Hình 3-9 Minh họa giai đoạn trích chọn đặc trưng bằng LBP ................................. 35
Hình 3-10 Bước 3 – Hệ thống phân lớp ảnh bằng CNN .......................................... 36
Hình 3-11 Kiến trúc mạng đề xuất ........................................................................... 37
Hình 3-12 Bước 4 - Đánh giá kết quả ...................................................................... 39
Hình 4-1 Cây thư mục lưu trữ dữ liệu ảnh thu thập ................................................. 41
Hình 4-2 Thông số thư mục inputphoto ................................................................... 41
Hình 4-3 Tăng cường ảnh đầu vào ........................................................................... 42
Hình 4-4 Trích chọn đặc trưng trên ảnh ................................................................... 43
Hình 4-5 Dữ liệu CNNData cho hệ thống phân loại ................................................ 43
Hình 4-6 Minh họa quá trình huấn luyện và kiểm tra của hệ thống đề xuất ............ 44
Hình 4-7 Ảnh chụp từ một tập tin log lưu trữ dữ liệu trong quá trình huấn luyện mạng
có cấu trúc khác nhau ............................................................................................... 48
Hình 4-8 Biểu đồ huấn luyện với số lần lặp là 1 ...................................................... 51
Hình 4-9 Biểu đồ huấn luyện với epoche =5 ............................................................ 53
Hình 4-10 Biểu đồ huấn luyện với mô hình 32-64-fc .............................................. 54
Hình 4-11 Biểu đồ huấn luyện với mô hình 16-32-fc .............................................. 55
Hình 4-12 Ảnh chụp từ một file log lưu trữ dữ liệu trong quá trình kiểm tra mạng có
cấu trúc khác nhau .................................................................................................... 57
Hình 4-13 Biểu đồ độ chính xác trong kiểm tra của mô hình thuộc TOP2 .............. 60
Hình 4-14 Mô hình học sâu cho bài toán phân loại tài liệu ảnh giáo dục thể chất .. 61
Hình 4-15 Minh họa sơ đồ xử lý trong mô hình học sâu cho bài toán phân loại tài liệu
ảnh giáo dục thể chất ................................................................................................ 62
1
CHƯƠNG 1.
GIỚI THIỆU TỔNG QUAN
Bài toán phân lớp ảnh đã và đang được nhiều nhà nghiên cứu quan tâm và
hướng đến. Đã có nhiều phương pháp được đề xuất nhằm giải quyết các bài toán thực
tiễn và nâng cao tính hiệu quả phân lớp. Một trong những cách tiếp cận phổ biến hiện
nay cho bài toán phân lớp ảnh có thể nhắc tới là sử dụng phâp lớp ảnh dựa trên trích
chọn đặc trưng ảnh. Ở giai đoạn đầu, các mẫu cần phân lớp về các chiều không gian
để biểu diễn dựa vào việc lựa chọn phép biến đổi ảnh thích hợp để trích chọn đặc
trưng ảnh. Giai đoạn tiếp theo sử dụng các kỹ thuật tính toán thông minh, các hàm số
học đánh giá phân loại ảnh theo các không gian này về các lớp tương ứng. Giai đoạn
cuối cùng là hợp nhất các kết quả để đánh giá, đưa ra kết luận cuối cùng. Dựa vào
cách tiếp cận trích chọn đặc trưng này phản ánh đầy đủ tính đa dạng của mẫu cần
phân lớp và đảm bảo độ chính xác của hệ thống.
1.1. Tổng quan phân lớp ảnh
Ngày nay, kỹ thuật cùng với sự phát triển vượt bậc của của lĩnh vực công nghệ
thông tin trên toàn thế giới trong những năm gần đây đã giúp rất nhiều cho đời sống.
Đi kèm theo sự phát triển đó là khối lượng dữ liệu và thông tin phát triển không ngừng
đặc biệt là số lượng hình ảnh trong các lĩnh lực ngày càng lớn. Với một lượng hình
ảnh ngày càng nhiều như vậy, việc phân loại và phát hiện những vấn đề thông qua
hình ảnh dần trở thành một nhu cầu tất yếu nhằm phục vụ, hỗ trợ con người giải quyết
các vấn đề trong cuộc sống nói chung như Giao thông vận tải, Y tế, Giáo dục, ....
Đồng thời đóng góp bộ phận không nhỏ vào kho nguồn tư liệu trong công tác giảng
dạy, như việc truyền đạt nội dung kiến thức trong các bài học không khô khan và tiếp
cận các kiến thức công nghệ nhanh linh hoạt hơn. Sự phát triển vượt bậc của các thiết
bị đồ họa cũng như thiết bị lưu trữ cũng chính là một nhân tố tích cực thúc đẩy nghiên
cứu các ứng dụng thực tế.
Tự động phát hiện các đối tượng trong hình ảnh số là nhu cầu cấp thiết trong
nhiều lĩnh vực khác nhau như: An ninh, nhận dạng đối tượng, kiểm soát giao thông,…
Tính chất này cũng được áp dụng để nhận biết, phân loại mục đích cho các hình ảnh
2
làm phương tiện giảng dạy các môn học. Phân loại tài liệu là công việc quan trọng
trong chu trình tài liệu. Nó không những giúp cho việc kiểm soát thư mục, xây dựng
hệ thống tra cứu thông tin; tổ chức kho tài liệu,… để phục vụ độc giả mà còn thúc
đẩy việc khai thác, trao đổi thông tin giữa các nguồn lưu trữ. Phân loại tài liệu cũng
giữ một vai trò rất quan trọng đối với hoạt động kiểm soát các nguồn tin trong hệ
thống mạng nội bộ và mạng Internet.
Để có thể áp dụng bài toán phân lớp ảnh vào các ứng dụng thực tế, không
những đòi hỏi phải phân lớp chính xác mà còn các vấn đề khác liên quan đến chi phí
tính toán, dịch vụ đi kèm lẫn thời gian thực hiện. Chính vì vậy mà đã có rất nhiều
công trình nghiên cứu có kết quả đã được công bố trên các tạp chí và hội nghị chuyên
ngành có uy tín.
1.1.1.
Quy trình phân lớp ảnh
Mô hình bài toán ban đầu với các khái niệm [1]. input – output, trong đó đầu
ra gồm nhiều lớp. Tiêu biểu với ảnh đầu vào là ảnh màu được lấy từ nguồn dữ liệu
thu thập. Sau đó được mang vào hệ thống xử lý bằng phương pháp máy học chuyên
sâu. Ở bộ xử lý này tiến hành phân lớp đối tượng dựa trên các đặc trưng của hình ảnh
từ việc rút trích đặc trưng. Đến cuối bộ xử lý cho ra kết quả đầu ra với bộ vector mang
các thành phần giá trị lần lượt là O1, O2, O3, ... – đại diện cho các lớp đầu ra cho chủ
đề phân lớp của hình ảnh với giá trị cho biết mức độ thuộc lớp ảnh này theo giá trị
đặc trưng.
Ở quy trình này, với nguồn dữ liệu thu thập sẽ được chuẩn hóa (đồng bộ về
một số tiêu chí). Ảnh gốc có thể là ảnh màu (thuộc một trong tập không gian màu:
RGBA, CMY, HSI), ảnh xám, ảnh trắng đen.
Hình 1-1 Các dạng ảnh: ảnh màu, ảnh xám, ảnh trắng đen
3
Trong những năm qua, thuật ngữ "Deep learning" (học sâu) đã dần được sử
dụng nhiều khi nhắc đến các chủ đề hội thoại bàn về trí tuệ nhân tạo (AI), dữ liệu lớn
(Big Data) và phân tích (Analytics) [2]. [3]. [4]. [5]. . Và với lý do chính đáng – đây
là một cách tiếp cận đầy hứa hẹn tới AI khi phát triển các hệ thống tự vận hành, những
thứ đang cách mạng hóa nhiều ngành công nghiệp.
Máy học là công nghệ tiên tiến, thì học sâu là nâng cấp "tiên tiến" theo như
[6]. [7]. . Học máy lấy ý tưởng cốt lõi của trí tuệ nhân tạo và tập trung vào việc giải
quyết các vấn đề trong thế giới thực với các mạng thần kinh được thiết kế để bắt
chước khả năng đưa ra quyết định của con người. Học sâu, đúng như tên gọi của nó,
đi sâu hơn nữa vào một tập hợp các công cụ và kỹ thuật học máy, từ đó áp dụng chúng
để giải quyết bất kỳ vấn đề nào đòi hỏi “khả năng tư duy”. Về cơ bản, học sâu là cho
một hệ thống máy tính sử dụng rất nhiều dữ liệu, để chúng có thể đưa ra các quyết
định về những dữ liệu khác. Dữ liệu này được nạp thông qua các mạng thần kinh,
tương tự như học máy. Những mạng lưới này có cấu trúc logic yêu cầu một loạt các
câu hỏi đúng/sai, hoặc trích xuất một giá trị số, của mỗi bit dữ liệu đi qua chúng và
phân loại theo các câu trả lời nhận được.
Hình 1-2 Minh họa các dạng học máy tự động từ AI đến DeepLearning [6].
4
Khảo sát các hướng tiếp cận cho bài toán phân lớp ảnh
1.1.2.
Các nghiên cứu ngoài nước, việc áp dụng hệ thống xử lý nhận dạng bằng máy
học sử dụng mạng Neural nhiều lớp rất phổ biến như [8]. [9]. [10]. [11]. . Áp dụng
trên hình các lĩnh vực giải trí (phân loại phim, hỗ trợ thẻ tag, ..), kỹ thuật (phân loại
nhận diện đối tượng vật tiêu biểu như các bộ dữ liệu cipher, bộ nhận dạng chữ số
mnist,..).
Các công trình nghiên cứu trong nước về mô hình học máy chuyên sâu cùng
ứng dụng trong nhiều lĩnh vực tại Việt Nam có thể kể đến như [12]. [13]. [14]. [15].
[16]. Từ những vấn đề nhận dạng ký tự đến phân loại văn bản hình thức kết hợp trong
việc tìm kiếm chỉ số TFidf đã mang lại nhiều đóng góp tích cực.
Trong thời gian gần đây có hai hướng tiếp cận phổ biến trong bài toán phân
lớp là cách sử dụng phương pháp SVM (Support Vector Machine) và phương pháp
Deep Learning [17]. . Tính riêng trong năm 2017, số lượng các công trình có liên
quan đến từ khóa “Image classification by SVM” có khoảng 15.000 kết quả và từ
khóa “Image classification by Deep Learning” có khoảng 28.000 kết quả (chỉ tính
riêng từ năm 2017 tại thời điểm ngày 20/10/2017). Khoa học công nghệ luôn thay đổi
và phát triển, với những số liệu tìm kiếm trên google scholar trên cho thấy một điều
là ngày này được xu thế nghiên cứu từ các nhà khoa học hiện nay theo hướng Deep
learning. Và tiếp tục xu thế này tôi lựa chọn phương pháp Convolution Neural
Network (CNN) một phương pháp được sử dụng trong Deep Learning
Hình 1-3 Ảnh chụp màn hình kết quả tìm kiếm các công trình nghiên cứu khoa
học từ năm 2017 với từ khóa “Image classification” của SVM và
DeepLearining (ngày thực hiện 20/10/2017)
5
1.1.3.
Mô hình học sâu bài toán phân lớp ảnh
Kiến trúc mô hình đề xuất đơn giản được nêu ra bao gồm:
– Đầu vào: ảnh tham khảo học thuật từ các trang web, thư viện lưu trữ các môn học
tương ứng trong giảng dạy để phân lớp. Ảnh thu thập ở nhiều dạng khác nhau,
vùng đối tượng chính trong hình khác biệt nên cần bước tiền xử lý ảnh để đưa về
một bộ tiêu chuẩn chung cho kích thước hình ảnh lẫn thông tin đối tượng.Ảnh sau
khi được xử lý sẽ làm nguyên liệu đầu vào cho bộ xử lý phân lớp bằng phương
pháp máy học chuyên sâu CNN sử dụng.
– Đầu ra: Kết quả sau khi xử lý phân lớp là tập vector với mỗi nút mang giá trị trong
phạm vi từ 0 tới 1. Đánh số lần lượt O1, O2, O3 ... On đại diện cho giá trị của các
môn học phân lớp đầu ra.
Hệ thống phân loại tài liệu giảng dạy sử dụng mô hình CNN là bài toán phân
lớp ảnh với nhiều lớp đầu ra. Mô hình CNN sẽ vừa tự động xây dựng đặc trưng của
ảnh dựa trên tập dữ liệu huấn luyện thông qua các tầng được thiết kế như: tầng
convolution, tầng pooling, kèm các thông số bộ lọc của mỗi tầng, đồng thời tầng full
connect kết hợp softmax thực hiện việc phân lớp mặc định các khoa sử dụng đầu ra
dựa trên việc huấn luyện từ tập ảnh huấn luyện đã được gắn nhãn trước đó.
Như vậy CNN vừa đóng vai trò trích xuất đặc trưng và phân lớp. Điều này rất
thuận tiện cho các nhà phát triển sản phẩm phần mềm chỉ cần phát triển CNN mà
không cần phải nghiên cứu và cài đặt thêm một bộ máy học riêng biệt (SVM,
AdaBoot, …). Vấn đề nghiên cứu đặt ra là phải thiết kế một kiến trúc CNN nhằm xác
định số tầng, số neural mỗi tầng, cách liên kết giữa các tầng với nhau, số lần lặp lại
và bố trí thứ tự các tầng convolution – pooling sao phù hợp bài toán phân lớp ảnh.
Đề tài đề xuất mô học sâu hình nhằm giải quyết bài toán phân lớp tài liệu ảnh
sử dụng trong giáo dục thể chất được minh họa như hình bên:
6
Mô hình phân lớp
CNN
Chuẩn
hóa
hình
ảnh
Kết quả
phân lớp
bơi lội
bóng bàn
bóng chuyền
bóng đá
bóng rổ
cầu lông
điền kinh
nhảy cao
tennis
thể hình
võ
yoga
Kết luận
Hình 1-4 Mô hình đề xuất giải quyết bài toán.
Với mô hình này, được minh họa qua 4 bước
Bước 1: Thu thập dữ liệu từ thư viện, trang web được kiểm chứng.
Bước 2: Thực hiện chuẩn hóa hình ảnh theo tiêu chuẩn đề xuất kích thước
Bước 3: Thiết lập mô hình mạng lưới các tầng trong CNN
Bước 4: Phân tích kết quả đầu ra dựa trên thông số các nút mạng đầu ra lần
lượt theo trình tự giá trị nhóm môn học trong giáo dục thể chất.
7
1.2. Động cơ nghiên cứu
Với công việc soạn bài giảng, soạn mẫu thuyết trình sinh động là một trong
những công việc hằng ngày của các giảng viên. Việc sử dụng hình ảnh trong các bài
thuyết minh làm tăng thêm sự sinh động, lôi cuốn và hấp dẫn nếu được sử dụng cách
hợp lý, phù hợp nội dung của bài học.
Nhằm giảm tải bớt thời gian chọn lọc hình ảnh, đặc biệt với các giảng viên ít
kinh nghiệm hoặc mới ra trường để giảng dạy thì công việc này cần nhiều thời gian
bù đắp vào kinh nghiệm thực tế.
1.3. Mục tiêu và phương pháp nghiên cứu
1.3.1.
Mục tiêu chính
Mục tiêu của đề tài có thể hiểu ở đây giải quyết 2 vấn đề chính:
– Dựa trên nhu cầu thực tế để trừu tượng hóa thành bài toán. Cụ thể là bài toán phân
loại tài liệu ảnh theo môn học trong giảng dạy thành bài toán xử lý ảnh.
– Phát triển mô hình CNN cho bài toán đặt ra dựa trên thực nghiệm, kiểm tra, tinh
chỉnh mô hình đề xuất.
– Yếu tố được chú trọng: mô hình đơn giản dễ sử dụng, thời gian huấn luyện mạng
nhanh, độ chính xác chấp nhận được (~ 90%) phù hợp nhu cầu đặt ra ban đầu.
1.3.2.
Đối tượng:
Đối tượng nghiên cứu là xử lý đối với các loại ảnh được chụp lại, đối tượng
chính là ảnh chụp màn hình các website, các video,… muốn xác định nội dung phù
hợp theo từng môn học trong giảng dạy.
1.3.3.
Phạm vi nghiên cứu:
– Trừu tượng hóa yêu cầu trong thế giới thực kiểm tra tương thích hình ảnh với nội
chủ đề môn học về các dạng mô hình máy tính trong xử lý ảnh.
– Nghiên cứu về các mạng học sâu nói chung và mô hình CNN, chỉ rõ được các đặc
điểm, tính chất, khả năng ứng dụng và khả năng mở rộng.
– Một số vấn đề liên quan đến xử lý ảnh: rút trích đặc trưng, phân lớp.
– Đánh giá được việc áp dụng mô hình CNN cho bài toán này.
8
1.3.4.
Phương pháp nghiên cứu:
Nhằm thực hiện được đề tài này, tôi vận dụng tổng hợp nhiều phương pháp
nghiên cứu khác nhau như: mô hình hóa, khảo sát, thực nghiệm.
Mô hình hóa từ yêu cầu thực tế về nhận dạng hình ảnh tương ứng với môn học
thành dạng một bài toán lý thuyết.
Khảo sát các phương pháp có liên quan từng được áp dụng để xử lý bài toán
đặt ra đã có trước đó. Nhận xét, đánh giá, so sánh các phương pháp nhằm lựa chọn
cách tiếp cận thích hợp, tiếp đến là lựa chọn phương pháp và đề xuất mô hình có khả
năng tính toán giải quyết yêu cầu đặt ra.
Cài đặt thực nghiệm, tinh chỉnh các thông số, kỹ thuật để nâng cao kết quả của
mô hình đề xuất. Nhận xét, đánh giá mô hình dựa vào các tiêu chí cụ thể như độ chính
xác của việc phân lớp ở đầu ra, hiệu xuất huấn luyện, hệ số loss của việc huấn luyện
dữ liệu, tốc độ thực thi, thời gian xử lý việc huấn luyện...
1.4. Đóng góp của Luận Văn
Thử nghiệm mô hình CNN có cấu trúc phù hợp với bài toán phân loại tài liệu
ảnh trong giáo dục thể chất.
Kết quả thực tiễn của luận văn hướng đến là chương trình máy tính có khả
năng kiểm tra và phân loại hình ảnh theo tài liệu giảng dạy các môn học
Để có thể thực hiện được mục tiêu trên thì việc ứng dụng máy học để giải
quyết bài toán này, cần có những phương pháp và mô hình có độ chính xác cao. Do
đó, trong đề tài nghiên cứu này, tôi tập trung nghiên cứu vào "Mô hình học sâu cho
bài toán phân loại tài liệu ảnh” trong giảng dạy.
1.5. Cấu trúc luận văn
Tóm lược nội dung của luận văn được trình bày trong 5 chương chính (không
kể đến các phần mục lục, phụ lục, danh mục tham khảo, ...) có bố cục như sau:
CHƯƠNG 1- TỔNG QUAN: Ở chương này, nội dung trình bày về các công
trình nghiên cứu hiện nay có liên quan tới đề tài. Đồng thời phát biểu bài toán phân
loại tài liệu học tập – giảng dạy, đưa ra hướng tiếp cận và giải pháp thực hiện.
CHƯƠNG 2- CƠ SỞ LÝ THUYẾT: Trình bày các nội dung sau, gồm
9
– Lược sử mô hình học sâu:
– Các Case Study kiến trúc các mạng CNN
– Kỹ thuật phân lớp ảnh dùng CNN
CHƯƠNG 3- MÔ HÌNH CNN PHÂN LOẠI TÀI LIỆU GIẢNG DẠY:
– Bài toán phân lớp ảnh (kỹ thuật phân lớp ảnh, tiêu chí đánh giá)
– Mục tiêu chương này là đề xuất mô hình giải quyết bài toán. Dữ liệu trước khi
đưa vào mô hình cần được xử lý và chuẩn hóa, sau đó phân tập cho công tác huấn
luyện dữ liệu. Cuối cùng là đánh giá cách thực hoạt động mô hình.
– Phương pháp kiểm tra và độ đo đánh giá mô hình phân lớp
CHƯƠNG 4- THỰC NGHIỆM:
– Cài đặt mô hình giải quyết bài toán trên môi trường Window với các bộ dữ liệu
được thu thập.
– Thông kê dữ liệu thực nghiệm.
– Đánh giá, nhận xét đưa ra kết luận về mô hình đề xuất.
CHƯƠNG 5- KẾT LUẬN VÀ KHUYẾN NGHỊ:
- Xem thêm -