Đăng ký Đăng nhập
Trang chủ Kỹ thuật - Công nghệ Điện - Điện tử Tìm kiếm ảnh theo nội dung dựa trên lda...

Tài liệu Tìm kiếm ảnh theo nội dung dựa trên lda

.PDF
70
306
77

Mô tả:

TÌM KIẾM ẢNH THEO NỘI DUNG DỰA TRÊN PHÂN PHỐI DIRICHLET TIỀM ẨN DANH MỤC BẢNG BIỂU .................................................................................. IV DANH MỤC HÌNH ẢNH..................................................................................... V BẢNG TỪ VIẾT TẮT ....................................................................................... VII TÓM TẮT ................................................................................................... VIII ABSTRACT ...................................................................................................... IX MỞ ĐẦU ........................................................................................................ 1 1. Lý do chọn đề tài ................................................................................................. 1 2. Mục đích của đề tài:............................................................................................. 1 3. Đối tượng và phạm vi nghiên cứu ........................................................................ 1 4. Ý nghĩa khoa học và thực tiễn của đề tài nghiên cứu............................................ 2 CHƯƠNG 1: TÌM KIẾM ẢNH THEO NỘI DUNG .......................................... 4 1.1 Đặt vấn đề ....................................................................................................... 4 1.2 Khái niệm về tìm kiếm ảnh theo nội dung ảnh: ................................................ 5 1.3 Một số công cụ tìm kiếm ảnh theo nội dung: ................................................... 8 Tổng kết chương 1 ................................................................................................. 12 CHƯƠNG 2: PHƯƠNG PHÁP LỰA CHỌN ĐẶC TRƯNG CỤC BỘ BẤT BIẾN (SIFT) ................................................................................ 13 2.1 Đặt vấn đề ..................................................................................................... 13 2.2 Khái niệm đặc trưng cục bộ bất biến. ............................................................. 13 2.2.1 Phát hiện điểm cực trị Scale-space ...................................................... 14 2.2.2 Định vị điểm hấp dẫn: ......................................................................... 16 2.2.3 Xác định hướng cho điểm hấp dẫn: ..................................................... 17 2.2.4 Biểu diễn vector cho điểm hấp dẫn ...................................................... 18 2.3 Độ đo tương đồng cho đặc trưng cục bộ bất biến ........................................... 18 2.4 Kmeans. ........................................................................................................ 19 2.4.1 Thuật toán K-Means ............................................................................ 20 2.4.2 Ví dụ minh họa thuật toán K-Mean: ..................................................... 20 2.4.3 Nhận xét .............................................................................................. 24 2.5 Mô hình túi từ - bag of words (BOW) ........................................................... 25 Tổng kết chương 2 ................................................................................................. 26 ii CHƯƠNG 3: LATENT DIRICHLET ALLOCATION (LDA) ......................... 27 3.1 Đặt vấn đề ..................................................................................................... 27 3.2 Chủ đề ẩn ...................................................................................................... 27 3.3 Latent Dirichlet Allocation ............................................................................ 30 3.3.1 Mô hình LDA ....................................................................................... 30 3.3.2 Suy luận và ước lượng tham số ............................................................ 32 3.3.3 Suy luận : ............................................................................................ 32 3.3.4 Suy luận biến ....................................................................................... 33 3.3.5 Ước lượng tham số .............................................................................. 35 3.3.6 Đánh giá đầu ra LDA .......................................................................... 37 3.4 Nhận xét ........................................................................................................ 37 3.5 Một số phương pháp đo sự tương tự của hình ảnh ......................................... 38 3.5.1 Cosine .............................................................................................. 38 3.5.2 Manhattan........................................................................................ 38 3.5.3 Sự khác nhau Jensen-Shannon ......................................................... 38 3.5.4 Khoảng cách Euclide : ..................................................................... 39 3.6 Áp dụng mô hình LDA cho thực nghiệm ....................................................... 39 3.6.1 Mô tả bài toán .................................................................................. 39 3.6.2 Mô hình tổng quan ........................................................................... 40 Tổng kết chương 3 ................................................................................................. 42 CHƯƠNG 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ .............................................. 43 4.1 Môi trường và các công cụ sử dụng cho thực nghiệm .................................... 43 4.2 Xây dựng tập dữ liệu ảnh............................................................................... 44 4.3 Quy trình phương pháp thực nghiệm ............................................................. 44 4.4 Đánh giá kết quả thực nghiệm ....................................................................... 45 4.5 Kết luận và hướng phát triển ......................................................................... 55 Tổng kết chương ................................................................................................... 56 TÀI LIỆU THAM KHẢO ................................................................................... 5
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC CẦN THƠ PHAN THỊ KIM LOAN TÌM KIẾM ẢNH THEO NỘI DUNG DỰA TRÊN PHÂN PHỐI DIRICHLET TIỀM ẨN LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Cần Thơ - 2012 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC CẦN THƠ PHAN THỊ KIM LOAN TÌM KIẾM ẢNH THEO NỘI DUNG DỰA TRÊN PHÂN PHỐI DIRICHLET TIỀM ẨN Chuyên ngành: HỆ THỐNG THÔNG TIN Mã số: 24 10 08 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Người hướng dẫn khoa học TS. PHẠM NGUYÊN KHANG Cần Thơ - 2012 MỤC LỤC DANH MỤC ĐỒ THỊ......................................................................................... III DANH MỤC BẢNG BIỂU .................................................................................. IV DANH MỤC HÌNH ẢNH..................................................................................... V BẢNG TỪ VIẾT TẮT ....................................................................................... VII TÓM TẮT ...................................................................................................VIII ABSTRACT ......................................................................................................IX MỞ ĐẦU ........................................................................................................ 1 1. Lý do chọn đề tài ................................................................................................. 1 2. Mục đích của đề tài:............................................................................................. 1 3. Đối tượng và phạm vi nghiên cứu ........................................................................ 1 4. Ý nghĩa khoa học và thực tiễn của đề tài nghiên cứu............................................ 2 CHƯƠNG 1: TÌM KIẾM ẢNH THEO NỘI DUNG .......................................... 4 1.1 Đặt vấn đề ....................................................................................................... 4 1.2 Khái niệm về tìm kiếm ảnh theo nội dung ảnh: ................................................ 5 1.3 Một số công cụ tìm kiếm ảnh theo nội dung: ................................................... 8 Tổng kết chương 1................................................................................................. 12 CHƯƠNG 2: PHƯƠNG PHÁP LỰA CHỌN ĐẶC TRƯNG CỤC BỘ BẤT BIẾN (SIFT) ................................................................................ 13 2.1 Đặt vấn đề ..................................................................................................... 13 2.2 Khái niệm đặc trưng cục bộ bất biến.............................................................. 13 2.2.1 Phát hiện điểm cực trị Scale-space ...................................................... 14 2.2.2 Định vị điểm hấp dẫn: ......................................................................... 16 2.2.3 Xác định hướng cho điểm hấp dẫn: ..................................................... 17 2.2.4 Biểu diễn vector cho điểm hấp dẫn ...................................................... 18 2.3 Độ đo tương đồng cho đặc trưng cục bộ bất biến ........................................... 18 2.4 Kmeans. ........................................................................................................ 19 2.4.1 Thuật toán K-Means ............................................................................ 20 2.4.2 Ví dụ minh họa thuật toán K-Mean: ..................................................... 20 2.4.3 Nhận xét .............................................................................................. 24 2.5 Mô hình túi từ - bag of words (BOW) ........................................................... 25 Tổng kết chương 2................................................................................................. 26 i CHƯƠNG 3: LATENT DIRICHLET ALLOCATION (LDA)......................... 27 3.1 Đặt vấn đề ..................................................................................................... 27 3.2 Chủ đề ẩn ...................................................................................................... 27 3.3 Latent Dirichlet Allocation ............................................................................ 30 3.3.1 Mô hình LDA ....................................................................................... 30 3.3.2 Suy luận và ước lượng tham số ............................................................ 32 3.3.3 Suy luận : ............................................................................................ 32 3.3.4 Suy luận biến ....................................................................................... 33 3.3.5 Ước lượng tham số .............................................................................. 35 3.3.6 Đánh giá đầu ra LDA .......................................................................... 37 3.4 Nhận xét ........................................................................................................ 37 3.5 Một số phương pháp đo sự tương tự của hình ảnh ......................................... 38 3.5.1 Cosine .............................................................................................. 38 3.5.2 Manhattan........................................................................................ 38 3.5.3 Sự khác nhau Jensen-Shannon ......................................................... 38 3.5.4 Khoảng cách Euclide : ..................................................................... 39 3.6 Áp dụng mô hình LDA cho thực nghiệm ....................................................... 39 3.6.1 Mô tả bài toán.................................................................................. 39 3.6.2 Mô hình tổng quan ........................................................................... 40 Tổng kết chương 3................................................................................................. 42 CHƯƠNG 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ .............................................. 43 4.1 Môi trường và các công cụ sử dụng cho thực nghiệm .................................... 43 4.2 Xây dựng tập dữ liệu ảnh............................................................................... 44 4.3 Quy trình phương pháp thực nghiệm ............................................................. 44 4.4 Đánh giá kết quả thực nghiệm ....................................................................... 45 4.5 Kết luận và hướng phát triển ......................................................................... 55 Tổng kết chương ................................................................................................... 56 TÀI LIỆU THAM KHẢO ................................................................................... 57 ii DANH MỤC ĐỒ THỊ Biểu đồ 4-1: Kết quả thực nghiệm trên tập Caltech4(1000 visual words) .............. 47 Biểu đồ 4-2: Kết quả thực nghiệm trên tập Caltech4(5000 visual words) .............. 48 Biểu đồ 4-3: Kết quả thực nghiệm trên tập Caltech101(1000 visual words) .......... 49 Biểu đồ 4-4: Kết quả thực nghiệm trên tập Caltech101(5000 visual words) .......... 50 Biểu đồ 4-5: Biểu đồ so sánh các phép đo ............................................................ 55 iii DANH MỤC BẢNG BIỂU Table 2-1: Bảng dữ liệu về thuốc ..................................................................................... 21 Table 2-2: Bảng kết quả phân nhóm ................................................................................ 24 Table 4-1: Cấu hình phần cứng ....................................................................................... 43 Table 4-2: Công cụ phần mềm sử dụng ............................................................................ 43 Table 4-3: Kết quả thực nghiệm trên tập Caltech4 (1000 visual words) ........................... 47 Table 4-4: Kết quả thực nghiệm trên tập Caltech4 (5000 visual words) ........................... 48 Table 4-5: Kết quả thực nghiệm trên tập Caltech101(1000 visual words) ........................ 49 Table 4-6: Kết quả thực nghiệm trên tập Caltech101(5000 visual words) ........................ 50 Table 4-7: Bảng so sánh kết quả trên tập ảnh Caltech4 ................................................... 51 Table 4-8: Bảng so sánh kết quả trên tập ảnh Caltech4 ................................................... 51 Table 4-9: Bảng so sánh các phép đo .............................................................................. 54 iv DANH MỤC HÌNH ẢNH Hình 1-1: Tìm kiếm ảnh theo văn bản ...................................................................... 4 Hình 1-2: Tìm kiếm ảnh theo nội dung..................................................................... 5 Hình 1-3: Đặc trưng màu sắc .................................................................................. 6 Hình 1-4: Đặc trưng kết cấu .................................................................................... 7 Hình 1-5: Đặc trưng hình dạng ............................................................................... 7 Hình 1-6: Đặc trưng Sift .......................................................................................... 8 Hình 1-7: Google Image Swirl ................................................................................. 9 Hình 1-8: Tiltomo .................................................................................................. 10 Hình 1-9: Byo Image Search.................................................................................. 11 Hình 1-10: Tìm kiếm ảnh theo mẫu (example-based image search) ....................... 11 Hình 2-1: Biểu đồ mô phỏng việc tính toán các DoG ảnh từ các ảnh kề mờ........... 15 Hình 2-2: Mỗi điểm ảnh được so sánh với 26 láng giềng của nó ........................... 16 Hình 2-3: Quá trình lựa chọn các điểm hấp dẫn a. Ảnh gốc, b. Các điểm hấp dẫn được phát hiện, c. Ảnh sau khi loại bỏ các điểm hấp dẫn có độ tương ... 17 Hình 2-4: Biểu diễn các vector đặc trưng .............................................................. 18 Hình 2-5: Lần lặp 0 ............................................................................................... 21 Hình 2-6: Lần lặp 1 ............................................................................................... 22 Hình 2-7: Lần lặp 2 ............................................................................................... 23 Hình 2-8: Minh họa mô hình bag of words ............................................................ 25 Hình 3-1: Trình bày mô hình đồ họa của LDA. Những cái hộp là tấm biển hiển thị việc sao chép. Bên ngoài biển hiển thị các ảnh, trong khi biển hiện thị việc chọn lựa sự lặp đi lặp lại của các chủ đề và các visual word trong cùng 1 ảnh. ............................................................................................ 31 Hình 3-2: (Trái) trình bày mô hình đồ họa của LDA. (Phải) trình bày mô hình đồ họa của phân phối biến phân được sử dụng để tính sấp xỉ ở sau (posterior) LDA. ................................................................................... 32 Hình 3-3: Mô hình tổng quan hệ thống tìm kiếm ảnh theo nội dung sử dụng LDA . 43 v Hình 4-1: Minh họa tìm kiếm ảnh trên tập Caltech4 (Airplane) ............................. 52 Hình 4-2: Minh họa tìm kiếm ảnh trên tập Caltech4 (Faces) ................................. 53 Hình 4-3: Minh họa tìm kiếm ảnh trên tập Caltech4 (Motorbike) .......................... 53 Hình 4-4: Minh họa tìm kiếm ảnh trên tập Caltech4 (Car_brad) ........................... 54 vi BẢNG TỪ VIẾT TẮT STT Từ viết tắt Từ viết đầy đủ 1 AP Average Precision 2 BOW Bag of words 3 CBIR Content Based Images Retrieval 4 CIE Commission Internationale de l’Eclairage 5 CTM Correlated Topic Models 6 DoG difference –of-Gaussian 7 DTM Dynamic Topic Models 8 EM Expectation-Maximization 9 HSV Hue - Saturation - Value 10 IR Information Retrieval 11 KL Kullback-Leibler 12 LDA latent Dirichlet Allocation 13 LSI Latent semantic indexing 14 MAP Mean Average Precision 15 PLSI Probabilistic latent semantic indexing 16 QBIC Query Based Image Content 17 RGB Red Green Blue 18 SIFT Scale Invariant Feature Transform vii TÓM TẮT Ngày nay với sự phát triển mạnh mẽ của công nghệ ảnh số làm lượng ảnh lưu trữ trên web tăng lên một cách nhanh chóng. Việc này gây ra nhiều khó khăn trong việc tìm kiếm một bức ảnh giống với ảnh truy vấn. Mặc dù các công cụ tìm kiếm ảnh theo văn bản đi kèm ảnh ra đời cho phép người dùng tìm kiếm ảnh với thời gian đáp ứng khá nhanh, tuy nhiên, các công cụ này vẫn còn hạn chế trong việc giải quyết nhập nhằng giữa nội dung câu truy vấn và nội dung hiển thị của ảnh trả về. Sự ra đời của các công cụ tìm kiếm ảnh theo nội dung ảnh đã giải quyết được những nhập nhằng trên. Mục tiêu của luận văn là nghiên cứu và sử dụng các đặc trưng cục bộ bất biến để biểu diễn nội dung của một ảnh. Thêm vào đó, luận văn còn áp dụng mô hình phân phối chủ đề ẩn mà cụ thể là phân phối Dirichlet tiềm ẩn để biểu diễn ảnh ở mức độ cấp cao hơn, làm giảm chiều vector đặc trưng, tuy nhiên vẫn giữ được những chi tiết hữu ích cho việc so sánh và tìm kiếm. Thực nghiệm ban đầu cho thấy từ một ảnh đầu vào hệ thống trả về 10 ảnh giống với ảnh truy vấn nhất, với độ chính xác trên 80% và đây là một kết quả khả quan. viii ABSTRACT Today, with the strong development of digital technology for storage of images on the web increases rapidly. This creates difficulties in finding a picture which similar to the query image. Although the search engines as a picture accompanying text introduction allows users to search for images with the response time is quite fast, however, these tools are limited in dealing with ambiguity between the content query and display content of the image returns. The advent of search engines as a picture content has resolved these ambiguities. The goal of the thesis is to study and use invariant local features to represent the content of an image. In addition, the thesis also applies distribution model hidden topics that specific is latent Dirichlet distribution for representing the image at a higher level, reduce the dimension of feature vector, but still keep the cost information useful for comparison and search. Initial experiments showed that the input image from a system returned 10 images most similar to the query image, with an accuracy of 80% and this is a positive result. ix MỞ ĐẦU 1. Lý do chọn đề tài Cùng với sự bùng nổ thông tin trên web và sự phát triển của công nghệ kỹ thuật số, lượng ảnh lưu trữ trên Web cũng tăng một cách nhanh chóng. Vì vậy, việc xây dựng các hệ thống tìm kiếm và xếp hạng ảnh là rất cần thiết và thực tế đã có nhiều công cụ tìm kiếm ảnh thương mại xuất hiện. Các công cụ tìm kiếm ảnh thường dựa vào hai đặc trưng chính là văn bản đi kèm ảnh hoặc nội dung ảnh. Hiện tại đã có một số công cụ tìm kiếm ảnh theo văn bản đi kèm ra đời như Google Image Search, Yahoo!, MSN,...và một số công cụ tìm kiếm ảnh dựa vào nội dung ảnh như Google Image Swirl, Bing, Tiltomo, Tineye,... Tuy nhiên, việc tìm kiếm chỉ dựa vào văn bản đi kèm còn có nhiều nhập nhằng giữa nội dung hiển thị ảnh và nội dung văn bản đi kèm ảnh trong quá tình tìm kiếm. Ví dụ, với truy vấn “Apple”, máy tìm kiếm khó phân biệt được người dùng muốn tìm hình ảnh quả táo hay logo của hãng Apple. Do đó đòi hỏi phải có một công cụ tìm kiếm ảnh theo nội dung giúp hạn chế được những nhập nhằng trên. Tìm kiếm ảnh theo nội dung là quá trình tìm kiếm tự động các ảnh có liên quan với ảnh truy vấn dựa trên nội dung ảnh. Nội dung ảnh thường được biểu diễn bởi các đặc trưng như: màu sắc, cấu trúc, bố trí không gian, đặc trưng cục bộ bất biến… 2. Mục đích của đề tài: Luận văn “Tìm kiếm ảnh theo nội dung dựa trên phân phối Dirichlet tiềm ẩn (content based image retrieval using latent Dirichlet allocation)” nhằm khảo sát, phân tích phương pháp trích chọn đặc trưng cục bộ bất biến trên ảnh, sử dụng mô hình LDA (Latent Dirichlet allocation) làm giảm chiều dữ liệu ảnh, thử nghiệm và đánh giá độ chính xác của hệ thống tìm kiếm ảnh theo nội dung với ảnh mẫu cho trước. 3. Đối tượng và phạm vi nghiên cứu Luận văn tập trung nghiên cứu các vấn đề sau:  Phương pháp rút trích nội dung ảnh bằng phương pháp lựa chon đặc trưng cục bộ bất biến SIFT.  Phương pháp gom cụm K-means để phân nhóm các vector thành các visual words.  Mô hình bag of words (BOW).  Mô hình LDA giúp thực hiện giảm chiều bảng xảy ra đồng thời của các visual words. 1  Các phép đo sự tương đồng giữa hai ảnh, các phương pháp đánh giá độ chính xác của hệ thống. Ngoài phần MỞ ĐẦU này, luận văn bao gồm các chương sau:  Chương 1. Tìm kiếm ảnh theo nội dung ảnh.  Chương 2. Phương pháp lựa chon đặc trưng cục bộ bất biến SIFT  Chương 3. Mô hình LDA (Latent Dirichlet Allocation)  Chương 4. Thực nghiệm và đánh giá  Cuối cùng là phần KẾT LUẬN. 4. Ý nghĩa khoa học và thực tiễn của đề tài nghiên cứu. Tìm kiếm ảnh dựa trên nội dung (CBIR – content-based image retrieval) là một nhu cầu thực tế trong việc lưu trữ và truy tìm ảnh đối với các thư viện ảnh số và các cơ sở dữ liệu đa phương tiện (multimedia) khác. Về cơ bản, CBIR là quá trình tự động tìm kiếm các ảnh liên quan với ảnh truy vấn dựa trên nội dung ảnh. Nội dung ảnh thường được biểu diễn bằng các đặc trưng ảnh mức thấp (low-level) như các đặc điểm về màu, texture, shape, và bố trí không gian (như điểm, edge,…). Tuy nhiên, thực hiện công việc này không dễ vì có những sự thay đổi về màu sắc, ánh sáng, góc chụp ảnh, vật thể bị che khuất, dữ liệu lớn, ảnh hưởng của phông nền lên vật thể… Gần đây, việc sử dụng các đặc trưng cục bộ SIFT (scale-invariant feature transform) để biểu diễn nội dung ảnh, mang lại nhiều thành tựu đáng kể trong phân tích ảnh. Để sử dụng đặc trưng cục bộ SIFT, trước hết, người ta tìm các điểm đặc biệt (interest points) trên ảnh. Các điểm này thường là các điểm nằm trong các vùng có kết cấu (texture) đặc biệt. Sau đó với từng điểm đặc biệt, ta sẽ mô tả bằng một vector đặc trưng được trích lọc từ vùng xung quanh của điểm đặc biệt này. Mỗi vector đặc trưng là một vector 128 chiều. Trung bình một ảnh sẽ có khoảng 1000 vector đặc trưng. Để so sánh sự tương tự của 2 ảnh, ta đếm số cặp vector đặc trưng “khớp” với nhau giữa hai ảnh. Phương pháp này cho kết quả rất tốt trong trường hợp ảnh bị thay đổi về độ sáng, màu sắc, góc chụp và ngay cả trường hợp vật thể quan tâm bị che khuất một phần. Tuy nhiên, nhược điểm chính của phương pháp này là độ phức tạp về không gian lưu trữ là rất lớn. Một ảnh có kích thước khoảng 500x500 pixels sẽ có khoảng 2000 tính năng ổn định (mặt dù con số này phụ thuộc vào cả nội dung của hình ảnh và việc lựa chọn các thông số khác nhau). Và thời gian tìm kiếm cũng tăng lên, do dữ liệu không được lưu trong bộ nhớ trong. Hơn nữa với mỗi ảnh, ta phải thực hiện 2 khoảng 1000 truy vấn (mỗi ảnh có khoảng 1000 vector đặc trưng). Để biểu diễn ảnh ngắn gọn nhằm giải quyết vấn đề không gian lưu trữ và tốc độ truy vấn, luận văn sẽ áp dụng phương pháp gom cụm K-means để gán các vector đặc trưng vào các nhóm tương ứng. Mỗi nhóm được gọi là một visual word. Như vậy một ảnh sẽ được biểu diễn bằng một vector duy nhất. Như vậy thay vì biểu diển ảnh bằng một tập các vector đặc trưng SIFT (khoảng 1000 vector) thì ta có thể biểu diễn ảnh bằng một vector duy nhất. Cách biểu diễn này tương tự như cách biểu diễn văn bản bằng mô hình “túi từ” (bag of words) trong phân tích dữ liệu văn bản bằng cách phân đoạn. Và tập ảnh sẽ được biểu diễn bằng một bảng tần số (contingency table) với các hàng tương ứng với ảnh và các cột tương ứng với các visual words, với phần tử [i,j] là số visual word i có trong ảnh j. Với phương pháp này một ảnh tương tự như một văn bản, vì vậy ta có thể áp dụng những mô hình xử lý văn bản lên hình ảnh. Để giảm kích thước bảng tần số, các nhà nghiên cứu tìm kiếm thông tin đã đề xuất một số kỹ thuật giảm chiều. David M. Blei, Andrew Y. Ng và Michael I. Jordan đề xuất LDA (Phân phối Dirichlet tiềm ẩn - Latent Dirichlet Allocation) là một mô hình xác suất linh động cho những bộ sưu tập dữ liệu. Ý tưởng cơ bản của LDA là các tài liệu được biểu diễn như tổ hợp ngẫu nhiên trên những chủ đề tiềm ẩn, với mỗi chủ đề được đặc trưng bởi một phân phối trên các từ. Do đó ta có thể sử dụng mô hình LDA để làm giảm chiều, biểu diễn lại ảnh ngắn gọn hơn và thực hiện tìm kiếm ảnh hiệu quả hơn. 3 CHƯƠNG 1: TÌM KIẾM ẢNH THEO NỘI DUNG 1.1 Đặt vấn đề Với sự bùng nổ của Internet, mỗi ngày có hàng triệu bức ảnh được đăng tải trên các trang ảnh trực tuyến như: Flickr1, Photobucket2, Facebook3,…. Cùng với nhu cầu tìm kiếm văn bản, nhu cầu tìm kiếm ảnh cũng nhận được nhiều quan tâm của người sử dụng. Tìm kiếm ảnh là quá trình tự động tìm kiếm các ảnh có liên quan với ảnh truy vấn trong cơ sở dữ liệu, thõa mãn một yêu cầu nào đó. Tuy nhiên, với một số lượng ảnh quá lớn trên Internet công việc tìm kiếm trở nên vô cùng khó khăn. Để giải quyết vấn đề này, các hệ thống tìm kiếm ảnh đã ra đời như: Yahoo, MSN, Google Image Search, Bing,…. Các hệ thống này cho phép người sử dụng nhập truy vấn về các ảnh cần quan tâm. Thông qua việc phân tích các văn bản đi kèm ảnh, hệ thống gửi trả các ảnh tương ứng với truy vấn của người dùng. Mỗi ảnh trên web thường có các văn bản đi kèm như là tên ảnh (title), các thẻ (tags), bình luận (comment),…để mô tả các thông tin về ảnh, đây là các siêu dữ liệu (metadata) về ảnh. Các dữ liệu này thường do người dùng tạo ảnh gắn cho mỗi ảnh, vì vậy chúng đều mang một ý nghĩa nhất định. Độ quan trọng của các loại siêu dữ liệu khác nhau cũng khác nhau. Hình 1-1: Tìm kiếm ảnh theo văn bản Tuy nhiên, kỹ thuật tìm kiếm ảnh theo văn bản đi kèm sẽ gặp một vài hạn chế như sau:  Vì văn bản đi kèm theo ảnh mang ngữ nghĩa về nội dung ảnh, cho nên hai bức ảnh có nội dung giống nhau thường có tên giống nhau và các thẻ tương tự 4 nhau. Vì vậy, các công cụ tìm kiếm ảnh theo văn bản đi kèm thường tập trung khai thác nội dung của các văn bản này để tìm kiếm và xếp hạng ảnh. Phương pháp này cho kết quả khả quan cũng như đáp ứng nhanh nhu cầu của người sử dụng. Tuy nhiên, với các câu truy vấn mang ý nghĩa nhập nhằng có thể các kết quả trả về sẽ không đúng với yêu cầu đặt ra. Ví dụ khi truy vấn là “d-80”, một loại máy ảnh phổ biến của Nikon, thì các hệ thống trả về kết quả khá tốt. Ngược lại, với truy vấn “apple’ (Hình 1-1), nếu người dùng muốn tìm quả táo thì kết quả trả về đầu tiên không thỏa mãn (logo của hãng Apple).  Mặt khác, các album cá nhân thường không có các thẻ, văn bản đi kèm ảnh hoặc văn bản đi kèm thường có định dạng nhất định (SDC13614). Cùng với số lượng ảnh số được chụp thêm mỗi ngày, định dạng này chỉ tăng thêm con số phía sau phần chữ. Vì vậy khi người dùng tra cứu ảnh theo nội dung với định dạng như trên (SDC12342), kết quả tìm kiếm sẽ có rất nhiều ảnh trả về với cùng tên văn bản nhưng nội dung ảnh có thể hoàn toàn khác nhau vì chúng thuộc những album khác nhau được tải lên web. Một hướng nghiên cứu nhằm khắc phục vấn đề trên là tìm kiếm theo nội dung dựa vào các đặc điểm nội dung trực quan của chính bức ảnh để tra cứu: màu sắc, kết cấu, hình dạng, đặc trưng cục bộ… 1.2 Khái niệm về tìm kiếm ảnh theo nội dung ảnh: Hình 1-2: Tìm kiếm ảnh theo nội dung 5 Tìm kiếm ảnh theo nội dung (Content Based Images Retrieval CBIR) hay truy vấn theo nội dung ảnh (Query Based Image Content QBIC) là một ứng dụng của thị giác máy tính đối với bài toán tìm kiếm ảnh. “Dựa vào nội dung ảnh (Content- Based) ” nghĩa là việc tìm kiếm sẽ phân tích nội dung thực sự của các bức ảnh. Nội dung ảnh ở đây được thể hiện bằng màu sắc, hình dạng, kết cấu (texture), các đặc trưng cục bộ (local features), … hay bất cứ thông tin nào có được từ chính nội dung ảnh. Sau đây là một số đặc trưng của nội dung ảnh. Đặc trưng màu sắc: Màu sắc là một đặc trưng nổi bật và được sử dụng phổ biến nhất trong tìm kiếm ảnh theo nội dung. Mỗi một điểm ảnh (thông tin màu sắc) có thể được biểu diễn như một điểm trong không gian màu sắc ba chiều. Các không gian màu sắc thường dùng là: RGB, Munsell, CIE, HSV. Tìm kiếm ảnh theo màu sắc tiến hành tính toán biểu đồ màu cho mỗi ảnh để xác định tỉ trọng các điểm ảnh của ảnh mà chứa các giá trị đặc biệt (màu sắc). Các nghiên cứu gần đây đang cố gắng phân vùng ảnh theo các màu sắc khác nhau và tìm mỗi quan hệ giữa các vùng này. Hình 1-3: Đặc trưng màu sắc Đặc trưng kết cấu: Trích xuất nội dung ảnh theo kết cấu nhằm tìm ra mô hình trực quan của ảnh và cách thức chúng được xác định trong không gian. Kết cấu được biểu diễn bởi các texel mà sau đó được đặt vào một số các tập phụ thuộc vào số kết cấu được phát hiện trong ảnh. Các tập này không chỉ xác định các kết cấu mà còn chỉ rõ vị trí các kết cấu trong ảnh. Việc xác định các kết cấu đặc biệt trong ảnh đạt được chủ yếu bằng cách mô hình các kết cấu như những biến thể cấp độ xám 2 chiều. Ví dụ về một số loại kết cấu 6 Hình 1-4: Đặc trưng kết cấu Đặc trưng hình dạng: Hình dạng của một ảnh hay một vùng là một đặc trưng quan trọng trong việc xác định và phân biệt ảnh trong nhận dạng mẫu. Mục tiêu chính của biểu diễn hình dạng trong nhận dạng mẫu là đo thuộc tính hình học của một đối tượng được dùng trong phân lớp, so sánh và nhận dạng đối tượng. Hình 1-5: Đặc trưng hình dạng Đặc trưng cục bộ bất biến (SIFT): Đầu tiên ta tìm các điểm hấp dẫn (interest point) trên ảnh. Các điểm này thường là các điểm nằm trong vùng có kết cấu đặc biệt. Sau đó với mỗi điểm đặc biệt này sẽ được mô tả bằng một vector đặc trưng được trích lọc từ vùng xung quanh của điểm đặc biệt này. Mỗi đặc trưng là một vector 128 chiều. Phương pháp này cho kết quả rất tốt trong trường hợp ảnh bị thay đổi về độ sáng, màu sắc, góc chụp và ngay cả trong trường hợp vật thể bị che khuất một phần. 7 Hình 1-6: Đặc trưng Sift Thực tế, đã có nhiều máy tìm kiếm cho phép tìm kiếm ảnh theo nội dung ảnh, tuy nhiên, các máy tìm kiếm này thường chỉ khai thác vào một phần nội dung của ảnh. 1.3 Một số công cụ tìm kiếm ảnh theo nội dung: Google Image Swirl: Là một thử nghiệm tìm kiếm hình ảnh theo nội dung của Google, trong đó, kết quả tìm kiếm được sẽ được tổ chức lại dựa vào hiển thị trực quan và độ tương đồng ngữ nghĩa giữa các ảnh. Google Image Swril phân cụm tốp đầu các kết quả trả về cho trên 200000 câu truy vấn và cho phép hiển thị hình ảnh dưới dạng các cụm và mối quan hệ giữa các ảnh. 8 Hình 1-7: Google Image Swirl Tiltomo: Là một công cụ dựa trên Flickr và duy trì chính cơ sở dữ liệu ảnh của Flickr. Nó cho phép tìm kiếm ảnh dựa vào độ tương đồng về chủ đề, màu sắc hay kết cấu. 9
- Xem thêm -

Tài liệu liên quan