Tài liệu Tìm kiếm hình ảnh bằng phương pháp học sâu

.PDF

108

123

tailieuonline Báo vi phạm

Tải xuống 123

Mô tả:

ỦY BAN NHÂN DÂN TỈNH BÌNH DƯƠNG TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT PHẠM HOÀNG PHƯƠNG TÌM KIẾM HÌNH ẢNH BẰNG PHƯƠNG PHÁP HỌC SÂU CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN MÃ SỐ: 8480104 LUẬN VĂN THẠC SĨ BÌNH DƯƠNG – 2021 UỶ BAN NHÂN DÂN TỈNH BÌNH DƯƠNG TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT PHẠM HOÀNG PHƯƠNG TÌM KIẾM HÌNH ẢNH BẰNG PHƯƠNG PHÁP HỌC SÂU CHUYÊN NGÀNH: HỆ THÔNG THÔNG TIN MÃ SỐ: 8480104 LUẬN VĂN THẠC SĨ NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. BÙI THANH HÙNG BÌNH DƯƠNG – 2021 ii LỜI CAM ĐOAN Tên tôi là: Phạm Hoàng Phương Sinh ngày: 06/08/1983 Học viên lớp cao học CH19HT01 – Trường Đại học Thủ Dầu Một Xin cam đoan: Đề tài “Tìm kiếm hình ảnh bằng phương pháp học sâu” do Thầy TS. Bùi Thanh Hùng hướng dẫn là công trình nghiên cứu của riêng chúng tôi. Tất cả tài liệu tham khảo đều có nguồn gốc, trích dẫn rõ ràng. Tác giả xin cam đoan tất cả những nội dung trong luận văn đúng như nội dung trong đề cương và yêu cầu của thầy giáo hướng dẫn. Nếu sai chúng tôi hoàn toàn chịu trách nhiệm trước hội đồng khoa học. Bình Dương, tháng 10 năm 2021 Tác giả luận văn Phạm Hoàng Phương iii LỜI CẢM ƠN Sau một thời gian nghiên cứu và làm việc nghiêm túc, được sự động viên, giúp đỡ và hướng dẫn tận tình của Thầy hướng dẫn TS. Bùi Thanh Hùng, luận văn Thạc sĩ “Tìm kiếm hình ảnh bằng phương pháp học sâu” đã hoàn thành. Tôi xin bày tỏ lòng biết ơn sâu sắc đến: Thầy hướng dẫn TS. Bùi Thanh Hùng đã tận tình chỉ dẫn, giúp đỡ tôi hoàn thành luận văn này. Đồng thời tôi gửi lời cảm ơn đến các thầy, cô đã giảng dạy truyền đạt kiến thức quý báo cho tôi trong suốt thời gian học tập và nghiên cứu. Tôi chân thành cảm ơn bạn bè, đồng nghiệp và gia đình đã động viên, khích lệ, tạo điều kiện giúp đỡ tôi trong suốt quá trình học tập, thực hiện và hoàn thành luận văn này. iv TÓM TẮT LUẬN VĂN Sự phát triển mạnh mẽ của công nghệ ảnh số làm lượng ảnh lưu trữ trên web tăng lên một cách nhanh chóng đòi hỏi phải có các công cụ hỗ trợ tìm kiếm ảnh hiệu quả và tiện lợi. Mặc dù các công cụ tìm kiếm ảnh theo văn bản đi kèm ảnh ra đời cho phép người dùng tìm kiếm ảnh với thời gian đáp ứng khá nhanh, tuy nhiên, các công cụ này vẫn còn hạn chế trong việc giải quyết nhập nhằng giữa nội dung câu truy vấn và nội dung hiển thị của ảnh trả về. Sự ra đời của các công cụ tìm kiếm hình ảnh theo nội dung ảnh đã giải quyết được những nhập nhằng trên. Trong luận văn này, chúng tôi xin đề xuất một phương pháp sử dụng mô hình học sâu mạng nơ-ron tích chập (CNN) để tìm kiếm hình ảnh theo nội dung ảnh nhằm nâng cao chất lượng tìm kiếm ảnh. Đầu tiên, chúng tôi kế thừa và huấn luyện mô hình CNN từ mô hình Pre-trained CNN để trích chọn đặc trưng ảnh. Tiếp đó, dựa theo phương pháp tìm kiếm k láng giềng gần nhất kết hợp độ đo tương đồng về khoảng cách giữa các véc-tor đặc trưng và tiến hành thực nghiệm mô hình. Các thực nghiệm được thực hiện trên cơ sở dữ liệu hình ảnh Oxford-IIIT Pet Dataset và tự thu thập thêm từ trang web Kaggle và sử dụng các phương pháp Độ chính xác (Accuracy score), Ma trận nhầm lẫn (Confusion matrix), Độ đo F1 (Precision, Recall và F1 score) để đánh giá mô hình; Độ chính xác trung bình Average Precision (AP) và Mean Average Precision (mAP) để đánh giá kết quả tìm kiếm của hệ thống tìm kiếm của chúng tôi. Thực nghiệm ban đầu cho thấy, từ một ảnh truy vấn đầu vào, hệ thống trả kết quả về 40 ảnh tương đồng nhất với mỗi truy vấn với độ chính xác trên 94% và đây là một kết quả khả quan. v MỤC LỤC TÓM TẮT LUẬN VĂN ................................................................................. v MỤC LỤC .....................................................................................................vi DANH MỤC CHỮ VIẾT TẮT .................................................................. viii DANH MỤC BẢNG BIỂU ...........................................................................ix DANH MỤC HÌNH, ĐỒ THỊ ........................................................................x CHƯƠNG 1 ..................................................................................................14 GIỚI THIỆU CHUNG .................................................................................. 14 1.1. Lý do chọn đề tài ................................................................................ 14 1.2. Mục tiêu nghiên cứu ........................................................................... 15 1.3. Đối tượng, phạm vi nghiên cứu .......................................................... 15 1.4. Phương pháp nghiên cứu ....................................................................16 1.5. Ý nghĩa khoa học và thực tiễn ............................................................ 16 1.6. Bố cục luận văn .................................................................................. 17 CHƯƠNG 2 ..................................................................................................18 CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN................... 18 2.1. Mạng Nơ-ron tích chập ......................................................................18 2.1.1. Mạng Nơ-ron nhân tạo .................................................................18 2.1.2. Mạng Nơ-ron tích chập ................................................................ 24 2.2. Các mô hình học sâu CNN .................................................................30 2.2.1. Sự hình thành và phát triển .......................................................... 30 2.2.2. Các mô hình CNN tiêu biểu ......................................................... 30 2.3. Tìm kiếm hình ảnh bằng phương pháp học sâu .................................35 2.3.1. Tổng quan .................................................................................... 35 2.3.2. Các nghiên cứu liên quan ............................................................. 38 2.3.3. Hướng đề xuất nghiên cứu ........................................................... 40 CHƯƠNG 3 ..................................................................................................42 MÔ HÌNH ĐỀ XUẤT................................................................................... 42 3.1. Tổng quan mô hình đề xuất ................................................................ 42 vi 3.2. Đặc trưng của mô hình đề xuất .......................................................... 43 3.2.1. Trích xuất đặc trưng .....................................................................43 3.2.2. Mô hình VGG19 ..........................................................................43 3.2.3. Mô hình InceptionResNetV2 ....................................................... 45 3.2.4. Mô hình DenseNet .......................................................................46 3.2.5. Mô hình InceptionV3 ...................................................................47 3.2.6. Mô hình Xception ........................................................................49 3.2.7. Tìm kiếm bằng hình ảnh .............................................................. 51 3.2.8. So sánh độ tương đồng .................................................................52 3.2.9. Phương pháp đánh giá kết quả ..................................................... 54 CHƯƠNG 4 ..................................................................................................57 THỰC NGHIỆM .......................................................................................... 57 4.1. Dữ liệu ................................................................................................ 57 4.1.1. Thu thập dữ liệu ........................................................................... 57 4.1.2. Xử lý dữ liệu ................................................................................ 59 4.2. Kết quả thực nghiệm ..........................................................................59 4.2.1. Công nghệ sử dụng ......................................................................59 4.2.2. Trích xuất đặc trưng .....................................................................60 4.2.3. Kết quả: ........................................................................................ 61 4.3. Xây dựng ứng dụng ............................................................................ 84 4.3.1. Thiết kế ........................................................................................ 84 4.3.2. Ứng dụng tìm kiếm hình ảnh ....................................................... 85 CHƯƠNG 5 ..................................................................................................96 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN .................................................... 96 5.1. Kết luận .............................................................................................. 96 5.2. Hướng phát triển ................................................................................. 96 CÔNG TRÌNH CÔNG BỐ ........................................................................... 98 TÀI LIỆU THAM KHẢO ............................................................................ 99 vii DANH MỤC CHỮ VIẾT TẮT KÝ HIỆU TÊN TIẾNG ANH ANN Artificial Neural Network MLP Multi Layer Perceptron MSE Mean-Square Error CBIR Content Base Image Retrieval CNN Convolution Neural Network FC Fully Connected RELU Rectified Linear Unit RGB Red Green Blue AP Average Precision MAP Mean Average Precision viii DANH MỤC BẢNG BIỂU Bảng 4.1: Số lượng hình ảnh trong tập dữ liệu ............................................. 58 Bảng 4.2: Phân chia dữ liệu ..........................................................................59 Bảng 4.3: Cấu hình phần cứng......................................................................60 Bảng 4.4: Kết quả huấn luyện pre-trained VGG19 ......................................61 Bảng 4.5: Kết quả huấn luyện pre-trained Densenet121 .............................. 64 Bảng 4.6: Kết quả huấn luyện pre-trained InceptionResNetV2 ................... 67 Bảng 4.7: Kết quả huấn luyện pre-trained InceptionV3 ............................... 70 Bảng 4.8: Kết quả huấn luyện pre-trained Xception ....................................73 Bảng 4.9: Đánh giá độ chính xác các mô hình CNN ....................................76 Bảng 4.10: So sánh đánh giá 5-Fold Cross Validation .................................82 Bảng 4.11: So sánh đánh giá mAP ............................................................... 84 ix DANH MỤC HÌNH, ĐỒ THỊ Hình 2.1: Mạng nơ-ron sinh học ...................................................................18 Hình 2.2: Quá trình xử lý của một nơ-ron trong ANN .................................19 Hình 2.3: Đồ thị các hàm kích hoạt: (a).Hàm Tanh; (b).Hàm ReLU; (c).Hàm Sigmoid ........................................................................................... 21 Hình 2.4: Mạng tự kết hợp ............................................................................ 22 Hình 2.5: Mạng kết hợp khác kiểu ............................................................... 22 Hình 2.6: Mạng truyền thẳng ........................................................................23 Hình 2.7: Mạng phản hồi .............................................................................. 23 Hình 2.9: Hình minh họa tích chập ............................................................... 25 Hình 2.10: Ảnh mờ sau khi tích chập ........................................................... 26 Hình 2.11: Ảnh được phát hiện biên sau khi tích chập.................................26 Hình 2.12: Minh họa mô hình CNN ............................................................. 27 Hình 2.13: Minh họa tích chập trên ma trận ảnh ..........................................28 Hình 2.14: Phương thức Average Pooling và Max Pooling ......................... 29 Hình 2.15: Các cột mốc phát triển của mạng CNN ......................................30 Hình 2.16: Các mô hình học sâu CNN ......................................................... 31 Hình 2.17: Kiến trúc LeNet-5 .......................................................................31 Hình 2.18: Kiến trúc AlexNet .......................................................................32 Hình 2.19: Kiến trúc ZFNet ..........................................................................33 Hình 2.20: Kiến trúc VGGNet ......................................................................34 Hình 2.21: Kiến trúc GoogleNet ...................................................................35 Hình 2.22: Mô hình CBIR tổng quát ............................................................ 36 x Hình 2.23: Cấu trúc tổng quan của Similarity Search ..................................37 Hình 2.24: Mô hình CBIR áp dụng Deep learning .......................................38 Hình 3.1: Mô hình tổng quan đề xuất ........................................................... 42 Hình 3.2: Kiến trúc mô hình VGG19 ........................................................... 44 Hình 3.3: Cấu trúc mô hình CNN mới với VGG19 ......................................44 Hình 3.4: Kiến trúc mô hình InceptionResNetV2 ........................................45 Hình 3.5: Cấu trúc mô hình CNN mới với InceptionResNetV2 .................. 45 Hình 3.6: Kiến trúc mô hình DenseNet ........................................................ 46 Hình 3.7: Cấu trúc mô hình CNN mới với DenseNet121 ............................ 47 Hình 3.8: Kiến trúc mô hình InceptionV3 .................................................... 48 Hình 3.9: Cấu trúc mô hình CNN mới với InceptionV3 .............................. 48 Hình 3.10: Kiến trúc Depthwise Separable Convolutions trong Xception...49 Hình 3.11: Kiến trúc Xception (Entry Flow > Middle Flow > Exit Flow) ..50 Hình 3.12: Cấu trúc mô hình CNN mới với Xception..................................50 Hình 3.13: Quy trình thực hiện tìm kiếm bằng hình ảnh .............................. 51 Hình 3.14: Cosine Distance/Similarity ......................................................... 53 Hình 4.1: Hình ảnh trong tập dữ liệu ............................................................ 59 Hình 4.2: Chi tiết huấn luyện pre-trained VGG19 .......................................62 Hình 4.3: Biểu đồ trực quan huấn luyện pre-trained VGG19 ...................... 62 Hình 4.4: Pre-trained VGG19 Classification Report ....................................63 Hình 4.5: Pre-trained VGG19 Confusion Matrix .........................................64 Hình 4.6: Chi tiết huấn luyện pre-trained Densenet121 ............................... 65 Hình 4.7: Biểu đồ trực quan huấn luyện pre-trained Densenet121 .............. 65 xi Hình 4.8: Pre-trained Densenet121 Classification Report ............................ 66 Hình 4.9: Pre-trained Densenet121 Confusion Matrix .................................67 Hình 4.10: Chi tiết huấn luyện pre-trained InceptionResNetV2 .................. 68 Hình 4.11: Biểu đồ trực quan huấn luyện với InceptionResNetV2 .............. 68 Hình 4.12: Pre-trained InceptionResNetV2 Classification Report ............... 69 Hình 4.13: Pre-trained InceptionResNetV2 Confusion Matrix .................... 70 Hình 4.14: Chi tiết huấn luyện pre-trained InceptionV3 .............................. 71 Hình 4.15: Biểu đồ trực quan huấn luyện InceptionV3 ................................ 71 Hình 4.16: Pre-trained InceptionV3 Classification Report .......................... 72 Hình 4.17: Pre-trained InceptionV3 Confusion Matrix ................................ 73 Hình 4.18: Chi tiết huấn luyện pre-trained Xception ...................................74 Hình 4.19: Biểu đồ trực quan huấn luyện pre-trained Xception .................. 74 Hình 4.20: Pre-trained Xception Classification Report ................................ 75 Hình 4.21: Pre-trained Xception Confusion Matrix .....................................76 Hình 4.22: Kết quả 5-Fold Cross Validation trên pre-trained VGG19 ........77 Hình 4.23: Kết quả 5-Fold Cross Validation trên pre-trained Densenet121 78 Hình 4.24: Kết quả 5-Fold Cross Validation trên pre-trained InceptionResNetV2 ....................................................................................... 79 Hình 4.25: Kết quả 5-Fold Cross Validation trên pre-trained InceptionV3 .80 Hình 4.26: Kết quả 5-Fold Cross Validation trên pre-trained Xception ......81 Hình 4.27: Hình ảnh được tìm kiếm bằng pre-trained VGG19 .................... 82 Hình 4.28: Hình ảnh được tìm kiếm bằng pre-trained Densenet121 ............ 83 Hình 4.29: Hình ảnh được tìm kiếm bằng pre-trained InceptionResNetV2 .83 Hình 4.30: Hình ảnh được tìm kiếm bằng pre-trained InceptionV3 ............. 83 xii Hình 4.31: Hình ảnh được tìm kiếm bằng pre-trained Xception .................. 84 Hình 4.32: Giao diện chính ........................................................................... 85 Hình 4.33: Giao diện phân tích dữ liệu ......................................................... 86 Hình 4.34: Giao diện mô hình huấn luyện .................................................... 87 Hình 4.35: Giao diện kết quả huấn luyện ..................................................... 88 Hình 4.36: Giao diện đánh giá mô hình ........................................................ 89 Hình 4.37: Giao diện đánh giá thực nghiệm ................................................. 90 Hình 4.38: Kết quả thực nghiệm 1 ................................................................ 91 Hình 4.39: Kết quả thực nghiệm 2 ................................................................ 92 Hình 4.40: Kết quả thực nghiệm 3 ................................................................ 93 Hình 4.41: Kết quả thực nghiệm 4 ................................................................ 94 Hình 4.42: Kết quả thực nghiệm 5 ................................................................ 95 xiii CHƯƠNG 1 GIỚI THIỆU CHUNG Trong chương này, chúng tôi sẽ giới thiệu tổng quan về các vấn đề được nghiên cứu của đề tài, đồng thời xác định mục tiêu, phạm vi nghiên cứu cũng như những ý nghĩa mà kết quả của đề tài này mang lại cả về ý nghĩa khoa học và áp dụng thực tiễn. 1.1. Lý do chọn đề tài Cùng với sự phát triển vượt trội của các công nghệ kỹ thuật số và sự phổ biến rộng rãi các thiết bị quay phim, chụp ảnh dẫn đến kho dữ liệu ảnh lưu trữ trên Web cũng tăng theo một cách nhanh chóng. Mary Meeker, một chuyên gia về phân tích Internet và công nghệ thuộc đại học Cornell (Mỹ) trong báo cáo thường niên về xu hướng Internet cho biết: “Chúng ta đã tải lên mạng trung bình khoảng 1,8 tỷ ảnh số trong một ngày và 657 tỷ bức ảnh trong một năm. Có nghĩa là cứ mỗi hai phút thì số lượng ảnh chúng ta chụp sẽ nhiều hơn tổng số ảnh đã có của 150 năm về trước” (Meeker, 2014). Đây là một thách thức lớn cho việc tổ chức và tìm kiếm ảnh theo cách truyền thống. Vì vậy, việc xây dựng một hệ thống tìm kiếm ảnh là một điều cấp bách và cần thiết. Các hệ thống tìm kiếm ảnh hiện tại thường sử dụng phương pháp là tìm kiếm ảnh theo các văn bản đi kèm với ảnh (meta-data) hoặc theo nội dung (sự tương đồng) của ảnh giúp cho việc tìm kiếm đơn giản và hiệu quả. Tuy nhiên, hai phương pháp tìm kiếm ảnh trên vẫn còn một số hạn chế làm cho kết quả tìm kiếm chưa chính xác hoặc chưa làm hài lòng hoàn toàn người sử dụng. Đối với phương pháp tìm kiếm ảnh dựa trên văn bản hoặc các mô tả kèm theo ảnh sẽ không chính xác khi các mô tả này bị sai sót hoặc không tồn tại. Kế đến là phương pháp tìm kiếm ảnh theo nội dung “truyền thống” thường dựa vào các đặc trưng trực quan như màu sắc, kết cấu, hình dạng, đặc trưng cục bộ được rút trích từ ảnh. Phương pháp này có hạn chế là làm cách nào để xác định và chọn ra được những đặc trưng đại diện có ảnh hưởng cao đến độ chính xác của kết quả tìm kiếm. Quá trình chọn lựa này sẽ gây mất nhiều thời gian trong quá trình xây dựng hệ thống; ngoài ra, còn phát sinh vấn đề do sự cách biệt ngữ nghĩa (semantic gap) giữa đặc trưng ở mức thấp dưới dạng các pixel ảnh và mức khái niệm cao theo sự chấp nhận của con người. 14 Do đó, chúng tôi chọn đề tài “Tìm kiếm hình ảnh bằng phương pháp học sâu” cho nghiên cứu luận văn của mình, chúng tôi sẽ xây dựng một hệ thống tìm kiếm hình ảnh theo nội dung dựa trên mô hình học sâu là mạng nơ-ron tích chập (Convolution Neural Networks - CNN) nhằm tận dụng tối đa sức mạnh tính toán của máy tính trong việc tìm kiếm hình ảnh theo nội dung. Cụ thể người dùng có thể cung cấp một hình ảnh bất kỳ và hệ thống sẽ trả về danh sách các ảnh với các mức độ tương tự được sắp xếp từ cao xuống thấp. Công việc chính là việc nhận diện hình ảnh người dùng cung cấp thuộc thể loại nào và độ tương tự của nó với các hình ảnh thuộc thể loại đó. Việc phân loại hình ảnh người dùng được thực hiện dựa trên một mạng nơ-ron tích chập và việc tính toán độ tương tự của hình ảnh được thực hiện dựa trên phương pháp tìm “láng giềng gần nhất” (Nearest-Neighbors) để trả kết quả về danh sách các hình ảnh có độ tương tự cao nhất với hình ảnh đầu vào. 1.2. Mục tiêu nghiên cứu Mục tiêu của luận văn là xây dựng một mô hình để truy vấn nội dung ảnh dựa trên một mạng nơ-ron tích chập sử dụng phương pháp học sâu. Đầu vào là một hình ảnh truy vấn mong muốn, sau quá trình xử lý, trả về tập hình ảnh kết quả có nội dung tương tự (giống hoặc gần giống với hình ảnh truy vấn) với yêu cầu sự khác biệt của các hình ảnh trong tập ảnh kết quả trả về so với ảnh truy vấn càng thấp càng tốt. Để đạt được mục tiêu trên, đề tài thực hiện các nội dung: - Tìm đọc và phân tích các phương pháp đã được sử dụng trong các công trình nghiên cứu liên quan trước đó. - Thực hiện thu thập dữ liệu, từng bước xây dựng mô hình truy vấn ảnh dựa trên đặc trựng. - Thực hiện huấn luyện mô hình và tiến hành thực nghiệm kiểm tra mô hình. - Đánh giá độ chính xác, thảo luận kết quả, tinh chỉnh tham số huấn luyện mô hình để cải thiện hiệu quả của mô hình. 1.3. Đối tượng, phạm vi nghiên cứu Chúng tôi đã hướng đến nghiên cứu các vấn đề sau: - Đối tượng nghiên cứu của luận văn là các phương pháp tìm kiếm hình ảnh dựa trên nội dung. 15 - Phạm vi nghiên cứu các phương pháp học sâu, hiệu năng và cách sử dụng từ đó lựa chọn một phương pháp cụ thể hiệu quả nhất. 1.4. Phương pháp nghiên cứu Để thực hiện luận văn này, chúng tôi đã áp dụng các phương pháp nghiên cứu và thực hiện các công việc sau đây: - Phương pháp khảo sát, phân tích và tổng hợp lý thuyết: Tìm kiếm, tổng hợp và nghiên cứu các tài liệu về Mạng nơ-ron tích chập (Convolutional Neural Network – CNN); Tìm hiểu các nghiên cứu liên quan đến việc truy vấn ảnh dựa trên nội dung, nắm bắt ý tưởng chung, phân tích các ưu và khuyết điểm của từng phương pháp. - Phương pháp thực nghiệm: Sau khi nghiên cứu lý thuyết, xác định vấn đề bài toán, huấn luyện mô hình, dựa trên kết quả của các mô hình chúng tôi sẽ thực nghiệm mô hình CNN tốt nhất để xây dựng một hệ thống tìm kiếm hình ảnh. - Phương pháp so sánh và đánh giá: phân tích đánh giá các mô hình CNN bằng các độ đo Accuracy và Loss; đánh giá kết quả tìm kiếm của hệ thống bằng độ chính xác trung bình (Average Precision và Mean Average Precision) 1.5. Ý nghĩa khoa học và thực tiễn Ý nghĩa khoa học: Từ những công trình nghiên cứu đã có, chúng tôi vận dụng, hiệu chỉnh, phân tích và kết hợp các phương pháp lại với nhau để có thể áp dụng cho bài toán thực tế của chúng tôi. Luận văn cung cấp cho người đọc cơ sở lý luận về phương pháp truy xuất nội dung hình ảnh bằng cách dựa trên độ tương đồng các véc-tơ đặc trưng ảnh được trích xuất từ mô hình mạng học sâu như VGG19, Densenet121, InceptionResNetV2, InceptionV3, Xception và đánh giá bằng các độ đo khác nhau. Nghiên cứu này tạo tiền đề cho các nghiên cứu tiếp theo. Ý nghĩa thực tiễn: Luận văn đóng góp tri thức cho bài toán tìm kiếm hình ảnh dựa trên đặc trưng ảnh bằng phương pháp học sâu. Bên cạnh đó ứng dụng cũng thống kê số liệu thể hiện 16 sự so sánh giữa các mô hình khác nhau trong các quá trình huấn luyện, kiểm thử và kiểm tra mô hình CNN để trích xuất véc-tơ đặc trưng ảnh cho tìm kiếm hình ảnh dựa trên nội dung ảnh. Mô hình luận văn đề xuất có thể ứng dụng làm khối xử lý chính cho các hệ thống hỗ trợ nhận dạng hình ảnh, tìm kiếm sản phẩm tương tự, … 1.6. Bố cục luận văn Nội dung luận văn được chia thành các phần như sau: Chương 1: Tổng quan về lĩnh vực nghiên cứu. Chương 1 trình bày đề tài nghiên cứu, nêu động lực, mục tiêu, phương pháp, những đóng góp và cấu trúc của luận văn. Chương 2: Cơ sở lý thuyết và các nghiên cứu liên quan. Chương 2 trình bày cơ sở lý thuyết và các nghiên cứu liên quan đến các mô hình học sâu CNN áp dụng cho bài toán tìm kiếm hình ảnh. Chương 3: Mô hình đề xuất. Chương 3 trình bày phương pháp trích xuất đặc trưng hình ảnh bằng các mô hình CNN và ứng dụng web. Chương 4: Thực nghiệm. Chương 4 trình bày quá trình thực nghiệm, kết quả đạt được, phân tích và đánh giá các kết quả đạt được. Chương 5: Kết luận và hướng phát triển. Chương 5 tổng quát kết quả thực hiện, đưa ra các hướng phát triển cho mô hình trong tương lai. 17 CHƯƠNG 2 CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN Trong chương cơ sở lý thuyết này, chúng tôi trình bày những kiến thức liên quan đến những nghiên cứu về cách tiếp cận bài toán tìm kiếm hình ảnh bằng phương pháp học sâu. Bên cạnh đó, chương này trình bày tổng quan mạng nơ-ron tích chập, các mô hình học sâu CNN tiêu biểu, tìm kiếm hình ảnh dựa trên nội dung ảnh. Từ đó, có cái nhìn tổng quan về các hướng tiếp cận và giải pháp để ứng dụng trong bài toán tìm kiếm hình ảnh. 2.1. Mạng Nơ-ron tích chập 2.1.1. Mạng Nơ-ron nhân tạo Mạng Nơ-ron nhân tạo (Artificial Neural Network – ANN) là một mô hình xử lý thông tin phỏng theo cách thức xử lý thông tin của các hệ nơ-ron sinh học (Hình 2.1) [1]. Nó được tạo nên từ một số lượng lớn các phần tử (nơ-ron) kết nối với nhau thông qua các liên kết (trọng số liên kết) làm việc như một thể thống nhất để giải quyết một vấn đề cụ thể nào đó. Một mạng nơ-ron nhân tạo được cấu hình cho một ứng dụng cụ thể (nhận dạng mẫu, phân loại dữ liệu, ...) thông qua một quá trình học từ tập các mẫu huấn luyện. Về bản chất học chính là quá trình hiệu chỉnh trọng số liên kết giữa các nơ-ron. Hình 2.1: Mạng nơ-ron sinh học1 Cấu trúc và quá trình xử lý của một nơ-ron trong ANN được mô tả trong Hình 2.2. Các thành phần cơ bản của một nơ-ron nhân tạo bao gồm: • Tập các đầu vào: Là các tín hiệu vào (input signals) của nơron, các tín hiệu này thường được đưa vào dưới dạng một vector N chiều. 1 https://owlcation.com/stem/Structure-of-a-Neuron 18 • Tập các liên kết: Mỗi liên kết được thể hiện bởi một trọng số liên kết – Synaptic weight. Trọng số liên kết giữa tín hiệu vào thứ j với nơ-ron k thường được kí hiệu là wkj. Thông thường, các trọng số này được khởi tạo một cách ngẫu nhiên ở thời điểm khởi tạo mạng và được cập nhật liên tục trong quá trình học mạng. • Bộ tổng (Summing function): Thường dùng để tính tổng của tích các đầu vào với trọng số liên kết của nó. • Ngưỡng (còn gọi là một độ lệch - bias): Ngưỡng này thường được đưa vào như một thành phần của hàm truyền. • Hàm truyền (Transfer function): Hàm này được dùng để giới hạn phạm vi đầu ra của mỗi nơ-ron. Nó nhận đầu vào là kết quả của hàm tổng và ngưỡng. • Đầu ra: Là tín hiệu đầu ra của một nơ-ron, với mỗi nơ-ron sẽ có tối đa là một đầu ra. Hình 2.2: Quá trình xử lý của một nơ-ron trong ANN Xét về mặt toán học, cấu trúc của một nơ-ron k, được mô tả bằng cặp biểu thức sau: 𝑢𝑘 = ∑ 𝑁 𝑗=1 𝑤𝑘𝑗 𝑥𝑗 và yk = ꬵ (uk – bk) (2.1) Trong đó (x1, x2, ..., xN) là các tín hiệu vào; (wk1, wk2, ..., wkp) là các trọng số liên kết của nơ-ron thứ k; uk là hàm tổng; bk là một ngưỡng; f là hàm truyền và yk là tín hiệu đầu ra của nơ-ron. Như vậy nơ-ron nhân tạo nhận các tín hiệu đầu vào, xử lý (nhân các tín hiệu này với trọng số liên kết, tính tổng các tích thu được rồi gửi kết quả tới hàm truyền) và cho một tín hiệu đầu ra (là kết quả của hàm truyền). 19 Hàm truyền (hàm kích hoạt hay hàm chuyển đổi) 𝑓 tính toán đầu ra của một nơ-ron để chuyển đến lớp tiếp theo trong mạng nơ-ron. Hàm kích hoạt phi tuyến được sử dụng vì mạng chỉ sử dụng các hàm kích hoạt tuyến tính có thể lược giản thông qua các biến đổi đại số thành mô hình perceptron một lớp (là mô hình ANN đơn giản nhất, không có lớp ẩn). Một số hàm kích hoạt phi tuyến thường dùng là ReLU (Rectified Linear Unit), Sigmoid, Logistic, Gaussian, Tanh, Softmax (Hình 2.3). Hàm ReLU: 𝑓 (𝑥 ) = { 0 𝑥 ,𝑥 < 0 ,𝑥 ≥ 0 (2.2) Hàm Sigmoid: 𝑓 (𝑥 ) = 1 (2.3) 1+𝑒 −𝑥 Hàm Tanh: 𝑓 (𝑥 ) = 1 1+𝑒 −2𝑥 −1 20 (2.4)

- Xem thêm -

Tài liệu Tìm kiếm hình ảnh bằng phương pháp học sâu

Tài liệu liên quan

Tài liệu vừa đăng

Tài liệu xem nhiều nhất