ỦY BAN NHÂN DÂN TỈNH BÌNH DƯƠNG
TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT
PHẠM HOÀNG PHƯƠNG
TÌM KIẾM HÌNH ẢNH
BẰNG PHƯƠNG PHÁP HỌC SÂU
CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN
MÃ SỐ: 8480104
LUẬN VĂN THẠC SĨ
BÌNH DƯƠNG – 2021
UỶ BAN NHÂN DÂN TỈNH BÌNH DƯƠNG
TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT
PHẠM HOÀNG PHƯƠNG
TÌM KIẾM HÌNH ẢNH
BẰNG PHƯƠNG PHÁP HỌC SÂU
CHUYÊN NGÀNH: HỆ THÔNG THÔNG TIN
MÃ SỐ: 8480104
LUẬN VĂN THẠC SĨ
NGƯỜI HƯỚNG DẪN KHOA HỌC:
TS. BÙI THANH HÙNG
BÌNH DƯƠNG – 2021
ii
LỜI CAM ĐOAN
Tên tôi là: Phạm Hoàng Phương
Sinh ngày: 06/08/1983
Học viên lớp cao học CH19HT01 – Trường Đại học Thủ Dầu Một
Xin cam đoan: Đề tài “Tìm kiếm hình ảnh bằng phương pháp học
sâu” do Thầy TS. Bùi Thanh Hùng hướng dẫn là công trình nghiên cứu của
riêng chúng tôi. Tất cả tài liệu tham khảo đều có nguồn gốc, trích dẫn rõ
ràng.
Tác giả xin cam đoan tất cả những nội dung trong luận văn đúng như
nội dung trong đề cương và yêu cầu của thầy giáo hướng dẫn. Nếu sai chúng
tôi hoàn toàn chịu trách nhiệm trước hội đồng khoa học.
Bình Dương, tháng 10 năm 2021
Tác giả luận văn
Phạm Hoàng Phương
iii
LỜI CẢM ƠN
Sau một thời gian nghiên cứu và làm việc nghiêm túc, được sự động
viên, giúp đỡ và hướng dẫn tận tình của Thầy hướng dẫn TS. Bùi Thanh
Hùng, luận văn Thạc sĩ “Tìm kiếm hình ảnh bằng phương pháp học sâu”
đã hoàn thành.
Tôi xin bày tỏ lòng biết ơn sâu sắc đến:
Thầy hướng dẫn TS. Bùi Thanh Hùng đã tận tình chỉ dẫn, giúp đỡ
tôi hoàn thành luận văn này. Đồng thời tôi gửi lời cảm ơn đến các thầy, cô
đã giảng dạy truyền đạt kiến thức quý báo cho tôi trong suốt thời gian học
tập và nghiên cứu.
Tôi chân thành cảm ơn bạn bè, đồng nghiệp và gia đình đã động viên,
khích lệ, tạo điều kiện giúp đỡ tôi trong suốt quá trình học tập, thực hiện và
hoàn thành luận văn này.
iv
TÓM TẮT LUẬN VĂN
Sự phát triển mạnh mẽ của công nghệ ảnh số làm lượng ảnh lưu trữ
trên web tăng lên một cách nhanh chóng đòi hỏi phải có các công cụ hỗ trợ
tìm kiếm ảnh hiệu quả và tiện lợi. Mặc dù các công cụ tìm kiếm ảnh theo
văn bản đi kèm ảnh ra đời cho phép người dùng tìm kiếm ảnh với thời gian
đáp ứng khá nhanh, tuy nhiên, các công cụ này vẫn còn hạn chế trong việc
giải quyết nhập nhằng giữa nội dung câu truy vấn và nội dung hiển thị của
ảnh trả về. Sự ra đời của các công cụ tìm kiếm hình ảnh theo nội dung ảnh
đã giải quyết được những nhập nhằng trên.
Trong luận văn này, chúng tôi xin đề xuất một phương pháp sử dụng
mô hình học sâu mạng nơ-ron tích chập (CNN) để tìm kiếm hình ảnh theo
nội dung ảnh nhằm nâng cao chất lượng tìm kiếm ảnh. Đầu tiên, chúng tôi
kế thừa và huấn luyện mô hình CNN từ mô hình Pre-trained CNN để trích
chọn đặc trưng ảnh. Tiếp đó, dựa theo phương pháp tìm kiếm k láng giềng
gần nhất kết hợp độ đo tương đồng về khoảng cách giữa các véc-tor đặc
trưng và tiến hành thực nghiệm mô hình. Các thực nghiệm được thực hiện
trên cơ sở dữ liệu hình ảnh Oxford-IIIT Pet Dataset và tự thu thập thêm từ
trang web Kaggle và sử dụng các phương pháp Độ chính xác (Accuracy
score), Ma trận nhầm lẫn (Confusion matrix), Độ đo F1 (Precision, Recall
và F1 score) để đánh giá mô hình; Độ chính xác trung bình Average
Precision (AP) và Mean Average Precision (mAP) để đánh giá kết quả tìm
kiếm của hệ thống tìm kiếm của chúng tôi.
Thực nghiệm ban đầu cho thấy, từ một ảnh truy vấn đầu vào, hệ
thống trả kết quả về 40 ảnh tương đồng nhất với mỗi truy vấn với độ chính
xác trên 94% và đây là một kết quả khả quan.
v
MỤC LỤC
TÓM TẮT LUẬN VĂN ................................................................................. v
MỤC LỤC .....................................................................................................vi
DANH MỤC CHỮ VIẾT TẮT .................................................................. viii
DANH MỤC BẢNG BIỂU ...........................................................................ix
DANH MỤC HÌNH, ĐỒ THỊ ........................................................................x
CHƯƠNG 1 ..................................................................................................14
GIỚI THIỆU CHUNG .................................................................................. 14
1.1. Lý do chọn đề tài ................................................................................ 14
1.2. Mục tiêu nghiên cứu ........................................................................... 15
1.3. Đối tượng, phạm vi nghiên cứu .......................................................... 15
1.4. Phương pháp nghiên cứu ....................................................................16
1.5. Ý nghĩa khoa học và thực tiễn ............................................................ 16
1.6. Bố cục luận văn .................................................................................. 17
CHƯƠNG 2 ..................................................................................................18
CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN................... 18
2.1. Mạng Nơ-ron tích chập ......................................................................18
2.1.1. Mạng Nơ-ron nhân tạo .................................................................18
2.1.2. Mạng Nơ-ron tích chập ................................................................ 24
2.2. Các mô hình học sâu CNN .................................................................30
2.2.1. Sự hình thành và phát triển .......................................................... 30
2.2.2. Các mô hình CNN tiêu biểu ......................................................... 30
2.3. Tìm kiếm hình ảnh bằng phương pháp học sâu .................................35
2.3.1. Tổng quan .................................................................................... 35
2.3.2. Các nghiên cứu liên quan ............................................................. 38
2.3.3. Hướng đề xuất nghiên cứu ........................................................... 40
CHƯƠNG 3 ..................................................................................................42
MÔ HÌNH ĐỀ XUẤT................................................................................... 42
3.1. Tổng quan mô hình đề xuất ................................................................ 42
vi
3.2. Đặc trưng của mô hình đề xuất .......................................................... 43
3.2.1. Trích xuất đặc trưng .....................................................................43
3.2.2. Mô hình VGG19 ..........................................................................43
3.2.3. Mô hình InceptionResNetV2 ....................................................... 45
3.2.4. Mô hình DenseNet .......................................................................46
3.2.5. Mô hình InceptionV3 ...................................................................47
3.2.6. Mô hình Xception ........................................................................49
3.2.7. Tìm kiếm bằng hình ảnh .............................................................. 51
3.2.8. So sánh độ tương đồng .................................................................52
3.2.9. Phương pháp đánh giá kết quả ..................................................... 54
CHƯƠNG 4 ..................................................................................................57
THỰC NGHIỆM .......................................................................................... 57
4.1. Dữ liệu ................................................................................................ 57
4.1.1. Thu thập dữ liệu ........................................................................... 57
4.1.2. Xử lý dữ liệu ................................................................................ 59
4.2. Kết quả thực nghiệm ..........................................................................59
4.2.1. Công nghệ sử dụng ......................................................................59
4.2.2. Trích xuất đặc trưng .....................................................................60
4.2.3. Kết quả: ........................................................................................ 61
4.3. Xây dựng ứng dụng ............................................................................ 84
4.3.1. Thiết kế ........................................................................................ 84
4.3.2. Ứng dụng tìm kiếm hình ảnh ....................................................... 85
CHƯƠNG 5 ..................................................................................................96
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN .................................................... 96
5.1. Kết luận .............................................................................................. 96
5.2. Hướng phát triển ................................................................................. 96
CÔNG TRÌNH CÔNG BỐ ........................................................................... 98
TÀI LIỆU THAM KHẢO ............................................................................ 99
vii
DANH MỤC CHỮ VIẾT TẮT
KÝ HIỆU
TÊN TIẾNG ANH
ANN
Artificial Neural Network
MLP
Multi Layer Perceptron
MSE
Mean-Square Error
CBIR
Content Base Image Retrieval
CNN
Convolution Neural Network
FC
Fully Connected
RELU
Rectified Linear Unit
RGB
Red Green Blue
AP
Average Precision
MAP
Mean Average Precision
viii
DANH MỤC BẢNG BIỂU
Bảng 4.1: Số lượng hình ảnh trong tập dữ liệu ............................................. 58
Bảng 4.2: Phân chia dữ liệu ..........................................................................59
Bảng 4.3: Cấu hình phần cứng......................................................................60
Bảng 4.4: Kết quả huấn luyện pre-trained VGG19 ......................................61
Bảng 4.5: Kết quả huấn luyện pre-trained Densenet121 .............................. 64
Bảng 4.6: Kết quả huấn luyện pre-trained InceptionResNetV2 ................... 67
Bảng 4.7: Kết quả huấn luyện pre-trained InceptionV3 ............................... 70
Bảng 4.8: Kết quả huấn luyện pre-trained Xception ....................................73
Bảng 4.9: Đánh giá độ chính xác các mô hình CNN ....................................76
Bảng 4.10: So sánh đánh giá 5-Fold Cross Validation .................................82
Bảng 4.11: So sánh đánh giá mAP ............................................................... 84
ix
DANH MỤC HÌNH, ĐỒ THỊ
Hình 2.1: Mạng nơ-ron sinh học ...................................................................18
Hình 2.2: Quá trình xử lý của một nơ-ron trong ANN .................................19
Hình 2.3: Đồ thị các hàm kích hoạt:
(a).Hàm Tanh; (b).Hàm ReLU;
(c).Hàm Sigmoid ........................................................................................... 21
Hình 2.4: Mạng tự kết hợp ............................................................................ 22
Hình 2.5: Mạng kết hợp khác kiểu ............................................................... 22
Hình 2.6: Mạng truyền thẳng ........................................................................23
Hình 2.7: Mạng phản hồi .............................................................................. 23
Hình 2.9: Hình minh họa tích chập ............................................................... 25
Hình 2.10: Ảnh mờ sau khi tích chập ........................................................... 26
Hình 2.11: Ảnh được phát hiện biên sau khi tích chập.................................26
Hình 2.12: Minh họa mô hình CNN ............................................................. 27
Hình 2.13: Minh họa tích chập trên ma trận ảnh ..........................................28
Hình 2.14: Phương thức Average Pooling và Max Pooling ......................... 29
Hình 2.15: Các cột mốc phát triển của mạng CNN ......................................30
Hình 2.16: Các mô hình học sâu CNN ......................................................... 31
Hình 2.17: Kiến trúc LeNet-5 .......................................................................31
Hình 2.18: Kiến trúc AlexNet .......................................................................32
Hình 2.19: Kiến trúc ZFNet ..........................................................................33
Hình 2.20: Kiến trúc VGGNet ......................................................................34
Hình 2.21: Kiến trúc GoogleNet ...................................................................35
Hình 2.22: Mô hình CBIR tổng quát ............................................................ 36
x
Hình 2.23: Cấu trúc tổng quan của Similarity Search ..................................37
Hình 2.24: Mô hình CBIR áp dụng Deep learning .......................................38
Hình 3.1: Mô hình tổng quan đề xuất ........................................................... 42
Hình 3.2: Kiến trúc mô hình VGG19 ........................................................... 44
Hình 3.3: Cấu trúc mô hình CNN mới với VGG19 ......................................44
Hình 3.4: Kiến trúc mô hình InceptionResNetV2 ........................................45
Hình 3.5: Cấu trúc mô hình CNN mới với InceptionResNetV2 .................. 45
Hình 3.6: Kiến trúc mô hình DenseNet ........................................................ 46
Hình 3.7: Cấu trúc mô hình CNN mới với DenseNet121 ............................ 47
Hình 3.8: Kiến trúc mô hình InceptionV3 .................................................... 48
Hình 3.9: Cấu trúc mô hình CNN mới với InceptionV3 .............................. 48
Hình 3.10: Kiến trúc Depthwise Separable Convolutions trong Xception...49
Hình 3.11: Kiến trúc Xception (Entry Flow > Middle Flow > Exit Flow) ..50
Hình 3.12: Cấu trúc mô hình CNN mới với Xception..................................50
Hình 3.13: Quy trình thực hiện tìm kiếm bằng hình ảnh .............................. 51
Hình 3.14: Cosine Distance/Similarity ......................................................... 53
Hình 4.1: Hình ảnh trong tập dữ liệu ............................................................ 59
Hình 4.2: Chi tiết huấn luyện pre-trained VGG19 .......................................62
Hình 4.3: Biểu đồ trực quan huấn luyện pre-trained VGG19 ...................... 62
Hình 4.4: Pre-trained VGG19 Classification Report ....................................63
Hình 4.5: Pre-trained VGG19 Confusion Matrix .........................................64
Hình 4.6: Chi tiết huấn luyện pre-trained Densenet121 ............................... 65
Hình 4.7: Biểu đồ trực quan huấn luyện pre-trained Densenet121 .............. 65
xi
Hình 4.8: Pre-trained Densenet121 Classification Report ............................ 66
Hình 4.9: Pre-trained Densenet121 Confusion Matrix .................................67
Hình 4.10: Chi tiết huấn luyện pre-trained InceptionResNetV2 .................. 68
Hình 4.11: Biểu đồ trực quan huấn luyện với InceptionResNetV2 .............. 68
Hình 4.12: Pre-trained InceptionResNetV2 Classification Report ............... 69
Hình 4.13: Pre-trained InceptionResNetV2 Confusion Matrix .................... 70
Hình 4.14: Chi tiết huấn luyện pre-trained InceptionV3 .............................. 71
Hình 4.15: Biểu đồ trực quan huấn luyện InceptionV3 ................................ 71
Hình 4.16: Pre-trained InceptionV3 Classification Report .......................... 72
Hình 4.17: Pre-trained InceptionV3 Confusion Matrix ................................ 73
Hình 4.18: Chi tiết huấn luyện pre-trained Xception ...................................74
Hình 4.19: Biểu đồ trực quan huấn luyện pre-trained Xception .................. 74
Hình 4.20: Pre-trained Xception Classification Report ................................ 75
Hình 4.21: Pre-trained Xception Confusion Matrix .....................................76
Hình 4.22: Kết quả 5-Fold Cross Validation trên pre-trained VGG19 ........77
Hình 4.23: Kết quả 5-Fold Cross Validation trên pre-trained Densenet121 78
Hình
4.24:
Kết
quả
5-Fold
Cross
Validation
trên
pre-trained
InceptionResNetV2 ....................................................................................... 79
Hình 4.25: Kết quả 5-Fold Cross Validation trên pre-trained InceptionV3 .80
Hình 4.26: Kết quả 5-Fold Cross Validation trên pre-trained Xception ......81
Hình 4.27: Hình ảnh được tìm kiếm bằng pre-trained VGG19 .................... 82
Hình 4.28: Hình ảnh được tìm kiếm bằng pre-trained Densenet121 ............ 83
Hình 4.29: Hình ảnh được tìm kiếm bằng pre-trained InceptionResNetV2 .83
Hình 4.30: Hình ảnh được tìm kiếm bằng pre-trained InceptionV3 ............. 83
xii
Hình 4.31: Hình ảnh được tìm kiếm bằng pre-trained Xception .................. 84
Hình 4.32: Giao diện chính ........................................................................... 85
Hình 4.33: Giao diện phân tích dữ liệu ......................................................... 86
Hình 4.34: Giao diện mô hình huấn luyện .................................................... 87
Hình 4.35: Giao diện kết quả huấn luyện ..................................................... 88
Hình 4.36: Giao diện đánh giá mô hình ........................................................ 89
Hình 4.37: Giao diện đánh giá thực nghiệm ................................................. 90
Hình 4.38: Kết quả thực nghiệm 1 ................................................................ 91
Hình 4.39: Kết quả thực nghiệm 2 ................................................................ 92
Hình 4.40: Kết quả thực nghiệm 3 ................................................................ 93
Hình 4.41: Kết quả thực nghiệm 4 ................................................................ 94
Hình 4.42: Kết quả thực nghiệm 5 ................................................................ 95
xiii
CHƯƠNG 1
GIỚI THIỆU CHUNG
Trong chương này, chúng tôi sẽ giới thiệu tổng quan về các vấn đề được
nghiên cứu của đề tài, đồng thời xác định mục tiêu, phạm vi nghiên cứu cũng như
những ý nghĩa mà kết quả của đề tài này mang lại cả về ý nghĩa khoa học và áp dụng
thực tiễn.
1.1. Lý do chọn đề tài
Cùng với sự phát triển vượt trội của các công nghệ kỹ thuật số và sự phổ biến
rộng rãi các thiết bị quay phim, chụp ảnh dẫn đến kho dữ liệu ảnh lưu trữ trên Web
cũng tăng theo một cách nhanh chóng. Mary Meeker, một chuyên gia về phân tích
Internet và công nghệ thuộc đại học Cornell (Mỹ) trong báo cáo thường niên về xu
hướng Internet cho biết: “Chúng ta đã tải lên mạng trung bình khoảng 1,8 tỷ ảnh số
trong một ngày và 657 tỷ bức ảnh trong một năm. Có nghĩa là cứ mỗi hai phút thì số
lượng ảnh chúng ta chụp sẽ nhiều hơn tổng số ảnh đã có của 150 năm về trước”
(Meeker, 2014). Đây là một thách thức lớn cho việc tổ chức và tìm kiếm ảnh theo
cách truyền thống. Vì vậy, việc xây dựng một hệ thống tìm kiếm ảnh là một điều cấp
bách và cần thiết. Các hệ thống tìm kiếm ảnh hiện tại thường sử dụng phương pháp là
tìm kiếm ảnh theo các văn bản đi kèm với ảnh (meta-data) hoặc theo nội dung (sự
tương đồng) của ảnh giúp cho việc tìm kiếm đơn giản và hiệu quả. Tuy nhiên, hai
phương pháp tìm kiếm ảnh trên vẫn còn một số hạn chế làm cho kết quả tìm kiếm
chưa chính xác hoặc chưa làm hài lòng hoàn toàn người sử dụng. Đối với phương
pháp tìm kiếm ảnh dựa trên văn bản hoặc các mô tả kèm theo ảnh sẽ không chính xác
khi các mô tả này bị sai sót hoặc không tồn tại.
Kế đến là phương pháp tìm kiếm ảnh theo nội dung “truyền thống” thường dựa
vào các đặc trưng trực quan như màu sắc, kết cấu, hình dạng, đặc trưng cục bộ được
rút trích từ ảnh. Phương pháp này có hạn chế là làm cách nào để xác định và chọn ra
được những đặc trưng đại diện có ảnh hưởng cao đến độ chính xác của kết quả tìm
kiếm. Quá trình chọn lựa này sẽ gây mất nhiều thời gian trong quá trình xây dựng hệ
thống; ngoài ra, còn phát sinh vấn đề do sự cách biệt ngữ nghĩa (semantic gap) giữa
đặc trưng ở mức thấp dưới dạng các pixel ảnh và mức khái niệm cao theo sự chấp
nhận của con người.
14
Do đó, chúng tôi chọn đề tài “Tìm kiếm hình ảnh bằng phương pháp học
sâu” cho nghiên cứu luận văn của mình, chúng tôi sẽ xây dựng một hệ thống tìm kiếm
hình ảnh theo nội dung dựa trên mô hình học sâu là mạng nơ-ron tích chập
(Convolution Neural Networks - CNN) nhằm tận dụng tối đa sức mạnh tính toán của
máy tính trong việc tìm kiếm hình ảnh theo nội dung. Cụ thể người dùng có thể cung
cấp một hình ảnh bất kỳ và hệ thống sẽ trả về danh sách các ảnh với các mức độ tương
tự được sắp xếp từ cao xuống thấp. Công việc chính là việc nhận diện hình ảnh người
dùng cung cấp thuộc thể loại nào và độ tương tự của nó với các hình ảnh thuộc thể
loại đó. Việc phân loại hình ảnh người dùng được thực hiện dựa trên một mạng nơ-ron
tích chập và việc tính toán độ tương tự của hình ảnh được thực hiện dựa trên phương
pháp tìm “láng giềng gần nhất” (Nearest-Neighbors) để trả kết quả về danh sách các
hình ảnh có độ tương tự cao nhất với hình ảnh đầu vào.
1.2. Mục tiêu nghiên cứu
Mục tiêu của luận văn là xây dựng một mô hình để truy vấn nội dung ảnh dựa
trên một mạng nơ-ron tích chập sử dụng phương pháp học sâu. Đầu vào là một hình
ảnh truy vấn mong muốn, sau quá trình xử lý, trả về tập hình ảnh kết quả có nội dung
tương tự (giống hoặc gần giống với hình ảnh truy vấn) với yêu cầu sự khác biệt của
các hình ảnh trong tập ảnh kết quả trả về so với ảnh truy vấn càng thấp càng tốt.
Để đạt được mục tiêu trên, đề tài thực hiện các nội dung:
-
Tìm đọc và phân tích các phương pháp đã được sử dụng trong các công
trình nghiên cứu liên quan trước đó.
-
Thực hiện thu thập dữ liệu, từng bước xây dựng mô hình truy vấn ảnh dựa
trên đặc trựng.
-
Thực hiện huấn luyện mô hình và tiến hành thực nghiệm kiểm tra mô hình.
-
Đánh giá độ chính xác, thảo luận kết quả, tinh chỉnh tham số huấn luyện mô
hình để cải thiện hiệu quả của mô hình.
1.3. Đối tượng, phạm vi nghiên cứu
Chúng tôi đã hướng đến nghiên cứu các vấn đề sau:
- Đối tượng nghiên cứu của luận văn là các phương pháp tìm kiếm hình ảnh
dựa trên nội dung.
15
- Phạm vi nghiên cứu các phương pháp học sâu, hiệu năng và cách sử dụng từ
đó lựa chọn một phương pháp cụ thể hiệu quả nhất.
1.4. Phương pháp nghiên cứu
Để thực hiện luận văn này, chúng tôi đã áp dụng các phương pháp nghiên cứu
và thực hiện các công việc sau đây:
- Phương pháp khảo sát, phân tích và tổng hợp lý thuyết: Tìm kiếm, tổng
hợp và nghiên cứu các tài liệu về Mạng nơ-ron tích chập (Convolutional Neural
Network – CNN); Tìm hiểu các nghiên cứu liên quan đến việc truy vấn ảnh dựa trên
nội dung, nắm bắt ý tưởng chung, phân tích các ưu và khuyết điểm của từng phương
pháp.
- Phương pháp thực nghiệm: Sau khi nghiên cứu lý thuyết, xác định vấn đề
bài toán, huấn luyện mô hình, dựa trên kết quả của các mô hình chúng tôi sẽ thực
nghiệm mô hình CNN tốt nhất để xây dựng một hệ thống tìm kiếm hình ảnh.
- Phương pháp so sánh và đánh giá: phân tích đánh giá các mô hình CNN
bằng các độ đo Accuracy và Loss; đánh giá kết quả tìm kiếm của hệ thống bằng độ
chính xác trung bình (Average Precision và Mean Average Precision)
1.5. Ý nghĩa khoa học và thực tiễn
Ý nghĩa khoa học:
Từ những công trình nghiên cứu đã có, chúng tôi vận dụng, hiệu chỉnh, phân
tích và kết hợp các phương pháp lại với nhau để có thể áp dụng cho bài toán thực tế
của chúng tôi.
Luận văn cung cấp cho người đọc cơ sở lý luận về phương pháp truy xuất nội
dung hình ảnh bằng cách dựa trên độ tương đồng các véc-tơ đặc trưng ảnh được trích
xuất từ mô hình mạng học sâu như VGG19, Densenet121, InceptionResNetV2,
InceptionV3, Xception và đánh giá bằng các độ đo khác nhau.
Nghiên cứu này tạo tiền đề cho các nghiên cứu tiếp theo.
Ý nghĩa thực tiễn:
Luận văn đóng góp tri thức cho bài toán tìm kiếm hình ảnh dựa trên đặc trưng
ảnh bằng phương pháp học sâu. Bên cạnh đó ứng dụng cũng thống kê số liệu thể hiện
16
sự so sánh giữa các mô hình khác nhau trong các quá trình huấn luyện, kiểm thử và
kiểm tra mô hình CNN để trích xuất véc-tơ đặc trưng ảnh cho tìm kiếm hình ảnh dựa
trên nội dung ảnh.
Mô hình luận văn đề xuất có thể ứng dụng làm khối xử lý chính cho các hệ
thống hỗ trợ nhận dạng hình ảnh, tìm kiếm sản phẩm tương tự, …
1.6. Bố cục luận văn
Nội dung luận văn được chia thành các phần như sau:
Chương 1: Tổng quan về lĩnh vực nghiên cứu. Chương 1 trình bày đề tài
nghiên cứu, nêu động lực, mục tiêu, phương pháp, những đóng góp và cấu trúc của
luận văn.
Chương 2: Cơ sở lý thuyết và các nghiên cứu liên quan. Chương 2 trình bày
cơ sở lý thuyết và các nghiên cứu liên quan đến các mô hình học sâu CNN áp dụng
cho bài toán tìm kiếm hình ảnh.
Chương 3: Mô hình đề xuất. Chương 3 trình bày phương pháp trích xuất đặc
trưng hình ảnh bằng các mô hình CNN và ứng dụng web.
Chương 4: Thực nghiệm. Chương 4 trình bày quá trình thực nghiệm, kết quả
đạt được, phân tích và đánh giá các kết quả đạt được.
Chương 5: Kết luận và hướng phát triển. Chương 5 tổng quát kết quả thực
hiện, đưa ra các hướng phát triển cho mô hình trong tương lai.
17
CHƯƠNG 2
CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN
Trong chương cơ sở lý thuyết này, chúng tôi trình bày những kiến thức liên
quan đến những nghiên cứu về cách tiếp cận bài toán tìm kiếm hình ảnh bằng phương
pháp học sâu. Bên cạnh đó, chương này trình bày tổng quan mạng nơ-ron tích chập,
các mô hình học sâu CNN tiêu biểu, tìm kiếm hình ảnh dựa trên nội dung ảnh. Từ đó,
có cái nhìn tổng quan về các hướng tiếp cận và giải pháp để ứng dụng trong bài toán
tìm kiếm hình ảnh.
2.1. Mạng Nơ-ron tích chập
2.1.1. Mạng Nơ-ron nhân tạo
Mạng Nơ-ron nhân tạo (Artificial Neural Network – ANN) là một mô hình xử
lý thông tin phỏng theo cách thức xử lý thông tin của các hệ nơ-ron sinh học (Hình
2.1) [1]. Nó được tạo nên từ một số lượng lớn các phần tử (nơ-ron) kết nối với nhau
thông qua các liên kết (trọng số liên kết) làm việc như một thể thống nhất để giải
quyết một vấn đề cụ thể nào đó. Một mạng nơ-ron nhân tạo được cấu hình cho một
ứng dụng cụ thể (nhận dạng mẫu, phân loại dữ liệu, ...) thông qua một quá trình học từ
tập các mẫu huấn luyện. Về bản chất học chính là quá trình hiệu chỉnh trọng số liên
kết giữa các nơ-ron.
Hình 2.1: Mạng nơ-ron sinh học1
Cấu trúc và quá trình xử lý của một nơ-ron trong ANN được mô tả trong Hình
2.2. Các thành phần cơ bản của một nơ-ron nhân tạo bao gồm:
• Tập các đầu vào: Là các tín hiệu vào (input signals) của nơron, các tín hiệu
này thường được đưa vào dưới dạng một vector N chiều.
1
https://owlcation.com/stem/Structure-of-a-Neuron
18
• Tập các liên kết: Mỗi liên kết được thể hiện bởi một trọng số liên kết –
Synaptic weight. Trọng số liên kết giữa tín hiệu vào thứ j với nơ-ron k thường được kí
hiệu là wkj. Thông thường, các trọng số này được khởi tạo một cách ngẫu nhiên ở thời
điểm khởi tạo mạng và được cập nhật liên tục trong quá trình học mạng.
• Bộ tổng (Summing function): Thường dùng để tính tổng của tích các đầu vào
với trọng số liên kết của nó.
• Ngưỡng (còn gọi là một độ lệch - bias): Ngưỡng này thường được đưa vào
như một thành phần của hàm truyền.
• Hàm truyền (Transfer function): Hàm này được dùng để giới hạn phạm vi đầu
ra của mỗi nơ-ron. Nó nhận đầu vào là kết quả của hàm tổng và ngưỡng.
• Đầu ra: Là tín hiệu đầu ra của một nơ-ron, với mỗi nơ-ron sẽ có tối đa là một
đầu ra.
Hình 2.2: Quá trình xử lý của một nơ-ron trong ANN
Xét về mặt toán học, cấu trúc của một nơ-ron k, được mô tả bằng cặp biểu thức
sau:
𝑢𝑘 = ∑ 𝑁
𝑗=1 𝑤𝑘𝑗 𝑥𝑗 và yk = ꬵ (uk – bk)
(2.1)
Trong đó (x1, x2, ..., xN) là các tín hiệu vào; (wk1, wk2, ..., wkp) là các trọng số
liên kết của nơ-ron thứ k; uk là hàm tổng; bk là một ngưỡng; f là hàm truyền và yk là
tín hiệu đầu ra của nơ-ron.
Như vậy nơ-ron nhân tạo nhận các tín hiệu đầu vào, xử lý (nhân các tín hiệu
này với trọng số liên kết, tính tổng các tích thu được rồi gửi kết quả tới hàm truyền) và
cho một tín hiệu đầu ra (là kết quả của hàm truyền).
19
Hàm truyền (hàm kích hoạt hay hàm chuyển đổi) 𝑓 tính toán đầu ra của một
nơ-ron để chuyển đến lớp tiếp theo trong mạng nơ-ron. Hàm kích hoạt phi tuyến được
sử dụng vì mạng chỉ sử dụng các hàm kích hoạt tuyến tính có thể lược giản thông qua
các biến đổi đại số thành mô hình perceptron một lớp (là mô hình ANN đơn giản nhất,
không có lớp ẩn). Một số hàm kích hoạt phi tuyến thường dùng là ReLU (Rectified
Linear Unit), Sigmoid, Logistic, Gaussian, Tanh, Softmax (Hình 2.3).
Hàm ReLU:
𝑓 (𝑥 ) = {
0
𝑥
,𝑥 < 0
,𝑥 ≥ 0
(2.2)
Hàm Sigmoid:
𝑓 (𝑥 ) =
1
(2.3)
1+𝑒 −𝑥
Hàm Tanh:
𝑓 (𝑥 ) =
1
1+𝑒 −2𝑥
−1
20
(2.4)
- Xem thêm -