Tài liệu Tìm hiểu phương pháp tra cứu ảnh theo nội dung

  • Số trang: 71 |
  • Loại file: PDF |
  • Lượt xem: 40 |
  • Lượt tải: 0
nhattuvisu

Đã đăng 27125 tài liệu

Mô tả:

§¹i häc Th¸i Nguyªn Khoa c«ng nghÖ th«ng tin Lª Hång Phong T×m hiÓu ph-¬ng ph¸p tra cøu ¶nh theo néi dung LuËn v¨n th¹c sÜ c«ng nghÖ th«ng tin Th¸i Nguyªn - 2010 §¹i häc Th¸i Nguyªn Khoa c«ng nghÖ th«ng tin Lª Hång Phong T×m hiÓu ph-¬ng ph¸p tra cøu ¶nh theo néi dung Chuyªn ngµnh : Khoa häc m¸y tÝnh M· sè : 60.48.01 LuËn v¨n th¹c sÜ c«ng nghÖ th«ng tin Ng-êi h-íng dÉn khoa häc PGS.TS Ng« Quèc T¹o Th¸i Nguyªn - 2010 LỜI CAM ĐOAN Tôi xin cam đoan toàn bộ nội dung bản luận văn theo đúng nội dung đề cương cũng như nội dung mà cán bộ hướng dẫn giao cho. Nội dung luận văn này là do tôi tự sưu tầm, tra cứu và sắp xếp cho phù hợp với nội dung yêu cầu của đề tài. Nội dung luận văn này chưa từng được công bố hay xuất bản dưới bất kỳ hình thức nào và cũng không được sao chép từ bất kỳ một công trình nghiên cứu nào. Tất cả phần mã nguồn của chương trình đều do tôi tự thiết kế và xây dựng, trong đó có sử dụng một số thư viện chuẩn và các thuật toán được các tác giả xuất bản công khai và miễn phí trên mạng Internet. Nếu sai tôi xin tôi xin hoàn toàn chịu trách nhiệm. Thái Nguyên, tháng 10 năm 2010 Người cam đoan Lê Hồng Phong Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn DANH MỤC CÁC CHỮ VIẾT TẮT Chữ Dạng đầy đủ viết tắt PWT TWT Nghĩa tiếng Việt Pyramid-structured Wavelet Biến đổi dạng sóng kiểu hình Transform chóp Tree-structure Wavelet Transform Biến đổi dạng sóng kiểu hình cây SAR Simultaneous Auto Regressive Tự thoái lui đồng thời MRF Markov Random Field Trƣờng ngẫu nhiên Markov DC Direct Current Thành phần một chiều AVR Average Rank Thứ hạng trung bình MRR Modified Retrieval Rank Thứ hạng tra cứu sửa đổi Average Normalized Modified Thứ hạng tra cứu sửa đổi và Retrieval Rank chuẩn hoá trung bình GCH Global Color Histogram Biểu đồ màu toàn cục LCH Local Color Histogram Biểu đồ màu cục bộ ANMRR Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 1 MỞ ĐẦU Những năm gần đây, ảnh số ngày càng thu hút đƣợc sự quan tâm của nhiều ngƣời, một phần là do các thiết bị thu nhận ảnh số ngày càng phổ biến và có giá cả phù hợp, cho phép nhiều ngƣời có thể sở hữu và sử dụng. Mặt khác các công nghệ chế tạo thiết bị lƣu trữ luôn đƣợc cải tiến để cho ra đời các thiết bị lƣu trữ có dung lƣợng lớn và giá thành hạ làm cho việc lƣu trữ ảnh dƣới dạng các file trở nên phổ biến. Thêm nữa là sự phát triển của mạng Internet làm cho số lƣợng ảnh số đƣợc đƣa lên lƣu trữ và trao đổi qua Internet là rất lớn. Tuy nhiên khi số lƣợng ảnh đƣợc lƣu trữ trở nên rất lớn thì vấn đề là phải có những phƣơng pháp tổ chức cơ sở dữ liệu ảnh tốt cùng với những kỹ thuật tìm kiếm, tra cứu ảnh hiệu quả, có độ chính xác cao và có hiệu năng tốt. Việc tìm kiếm đƣợc một bức ảnh mong muốn trong hàng triệu bức ảnh thuộc đủ loại chủ đề khác nhau là rất khó khăn. Khi số lƣợng ảnh trong một bộ sƣu tập còn ít, việc nhận diện một bức ảnh hay việc so sánh sự giống và khác nhau giữa nhiều bức ảnh có thể thực hiện đƣợc bằng mắt thƣờng, tuy nhiên khi có số lƣợng rất lớn ảnh thì việc so sánh bằng mắt thƣờng là rất khó khăn, đòi hỏi phải có những phƣơng pháp hiệu quả và chính xác hơn. Trong thực tế, bài toán tra cứu ảnh số có rất nhiều ứng dụng quan trọng. Ví dụ nhƣ trong lĩnh vực ngân hàng việc so sánh chữ ký của khách hàng với mẫu chữ ký đã đƣợc lƣu trữ sẵn có thể thực hiện rất nhanh và chính xác nếu có đƣợc một phần mềm so sánh mẫu chữ ký tốt. Thực tế hiện nay tại các ngân hàng ở Việt nam ngƣời ta vẫn phải sử dụng phƣơng pháp so sánh bằng mắt thƣờng vì việc so sánh chữ ký bằng phần mềm vẫn chƣa thực hiện đƣợc. Một ví dụ khác là bài toán quản lý biểu trƣng (logo) trong lĩnh vực sở hữu trí tuệ. Khi một đơn vị muốn đăng ký logo riêng cho đơn vị của mình thì cơ quan quản lý phải tiến hành đánh giá xem mẫu logo đó đã đƣợc sử dụng hay chƣa hoặc có tƣơng tự với mẫu logo nào đó đang đƣợc sử dụng hay không. Trong trƣờng hợp này nếu sử dụng mắt thƣờng để duyệt thì sẽ Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 2 tốn rất nhiều thời gian, nếu có các phần mềm cho phép tìm kiếm trong cơ sở dữ liệu ảnh có sẵn những biểu trƣng tƣơng tự với biểu trƣng mẫu thì việc đánh giá sự tƣơng tự sẽ dễ dàng hơn nhiều. Các ứng dụng phức tạp hơn nhƣ so sánh mẫu vân tay, tìm kiếm ảnh tội phạm v.v... là những bài toán tra cứu ảnh đƣợc áp dụng trong ngành khoa học hình sự. Vì vậy, việc xây dựng các hệ thống tìm kiếm và xếp hạng ảnh là rất cần thiết và thực tế đã có nhiều công cụ tìm kiếm ảnh thƣơng mại xuất hiện. Các công cụ tìm kiếm ảnh thƣờng dựa vào hai đặc trƣng chính là văn bản đi kèm ảnh hoặc nội dung ảnh. Trƣớc năm 1990, ngƣời ta thƣờng sử dụng phƣơng pháp tra cứu ảnh theo văn bản (Text Based Image Retrieval). Theo cách này ngƣời ta sẽ gán cho mỗi bức ảnh một lời chú thích phù hợp với nội dung hoặc một đặc điểm nào đó của ảnh, sau đó việc tra cứu ảnh đƣợc thực hiện dựa trên những lời chú thích này. Phƣơng pháp này khá đơn giản. Tuy nhiên, việc tìm kiếm chỉ dựa vào văn bản đi kèm còn có nhiều nhập nhằng giữa nội dung hiển thị ảnh và nội dung văn bản đi kèm ảnh trong quá trình tìm kiếm. Ví dụ, với truy vấn “Apple”, máy tìm kiếm khó phân biệt đƣợc ngƣời dùng muốn tìm hình ảnh quả táo hay logo của hãng Apple. Bên cạnh đó phƣơng pháp tra cứu ảnh dựa theo văn bản không thể áp dụng để tra cứu các cơ sở dữ liệu ảnh có số lƣợng ảnh lớn và kết quả tra cứu thì mang tính chủ quan và cảm ngữ cảnh. Một số công cụ tìm kiếm ảnh theo văn bản đi kèm nhƣ: google Image Search, Yahoo!, MSN,… Một trong những phƣơng pháp đƣợc nhiều ngƣời quan tâm nghiên cứu hiện nay là phƣơng pháp “Tra cứu ảnh dựa theo nội dung” (Content Based Image Retrieval). Ý tƣởng phƣơng pháp này là trích chọn các đặc điểm dựa vào nội dung trực quan của ảnh nhƣ màu sắc, kết cấu, hình dạng và bố cục không gian của ảnh để làm cơ sở cho việc tra cứu, sắp xếp, tổ chức cơ sở dữ liệu ảnh. Một số hệ thống tra cứu ảnh nổi tiếng nhƣ QBIC (IBM), Virage (Virage Inc.), Photobook (MIT), Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 3 VisualSEEK (Columbia University)... đã áp dụng khá thành công phƣơng pháp tra cứu này. [7],[16],[17] Nội dung của đề tài này giới thiệu cơ sở lý thuyết và các ứng dụng chính của một số phƣơng pháp tra cứu ảnh, trong đó đi sâu vào giới thiệu phƣơng pháp tra cứu ảnh theo nội dung. Trên những cơ sở đó tiến hành thử nghiệm một phƣơng pháp cụ thể để xây dựng một chƣơng trình phần mềm tra cứu ảnh cho phép đọc vào một ảnh mẫu và tìm kiếm những ảnh tƣơng tự với ảnh mẫu trong một tập hợp các ảnh cho trƣớc theo hai đặc điểm là hình dạng và màu sắc của ảnh. Nội dung luận văn ngoài phần mở đầu gồm có ba chƣơng: Chương 1: Trình bày tổng quan vấn đề tra cứu ảnh, giới thiệu sơ lƣợc một số phƣơng pháp tra cứu ảnh và một số hệ thống tra cứu ảnh tiêu biểu. Chương 2: Giới thiệu chi tiết về một số phƣơng pháp trích chọn đặc trƣng ảnh. Chương 3: Giới thiệu một ứng dụng của phƣơng pháp tra cứu ảnh theo nội dung; những hạn chế và khả năng mở rộng của chƣơng trình ứng dụng đó. Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 4 CHƢƠNG I: TỔNG QUAN VỀ TRA CỨU ẢNH 1.1. Tra cứu ảnh Những năm gần đây, vấn đề tra cứu ảnh số nhận đƣợc sự quan tâm ngày càng lớn. Nguyên nhân một phần là do sự phát triển của công nghệ chế tạo thiết bị thu nhận và lƣu trữ ảnh số cũng nhƣ sự phát triển mạnh mẽ của mạng Internet. Ngƣời sử dụng trong nhiều lĩnh vực khác nhau có cơ hội để truy cập và sử dụng các kho lƣu trữ ảnh thuộc đủ loại chủ đề và với nhiều kiểu định dạng ảnh khác nhau. Tuy nhiên ngƣời ta cùng nhận thấy rằng việc tìm đƣợc một bức ảnh mong muốn trong bộ sƣu tập ảnh đa dạng có kích thƣớc lớn là rất khó khăn. Tra cứu ảnh là một quá trình tìm kiếm trong một cơ sở dữ liệu ảnh những ảnh thoả mãn một yêu cầu nào đó. Ví dụ, ngƣời sử dụng có thể tìm kiếm tất cả các ảnh về chủ đề về biển trong một cơ sở dữ liệu ảnh hoặc một ngƣời sử dụng khác lại muốn phân loại cơ sở ảnh của mình thành các bộ sƣu tập có chủ đề khác nhau. Một ví dụ khác về tra cứu ảnh là một ngƣời muốn tìm tất cả các ảnh tƣơng tự với một bức ảnh mẫu nào đó trong một cơ sở dữ liệu ảnh. Vấn đề tra cứu ảnh đã đƣợc nhìn nhận rộng rãi và việc tìm kiếm các giải pháp cho vấn đề này trở thành một lĩnh vực rất sôi động, thu hút sự quan tâm của nhiều nhà nghiên cứu và phát triển. Những kỹ thuật tra cứu ảnh số đã đƣợc nghiên cứu từ cuối những năm 70 của thế kỷ 20. Năm 1979 một cuộc hội thảo chuyên đề về "Các kỹ thuật tổ chức cơ sở dữ liệu cho các ứng dụng đồ hoạ" đƣợc tổ chức ở thành phố Florence, Italia. Từ đó đến nay, khả năng ứng dụng cao của các kỹ thuật quản lý cơ sở dữ liệu ảnh đã thu hút sự quan tâm của nhiều nhà nghiên cứu [7]. 1.2. Mô hình hệ thống tra cứu ảnh theo nội dung Phƣơng pháp tra cứu ảnh theo nội dung (Content-Based Image Retrieval) sử dụng các nội dung trực quan của ảnh nhƣ màu sắc, hình dạng, kết cấu (texture) và phân bố không gian để thể hiện và đánh chỉ số các ảnh [7]. Trong một hệ thống tra Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 5 cứu ảnh theo nội dung điển hình (hình vẽ 1.1) các nội dung trực quan của ảnh đƣợc trích chọn và mô tả bằng những véctơ đặc trƣng nhiều chiều. Tập hợp các véctơ đặc trƣng của các ảnh trong một cơ sở dữ liệu ảnh tạo thành cơ sở dữ liệu đặc trƣng. Quá trình tra cứu ảnh đƣợc tiến hành nhƣ sau: ngƣời sử dụng cung cấp cho hệ thống tra cứu một ảnh mẫu cụ thể hoặc hình vẽ phác thảo của đối tƣợng ảnh cần tìm. Sau đó hệ thống sẽ chuyển những mẫu này thành các véc tơ đặc trƣng và tính toán sự giống nhau (hay độ tƣơng tự) giữa véc tơ đặc trƣng của ảnh mẫu và véc tơ đặc trƣng của các ảnh trong cơ sở dữ liệu. Sau cùng việc tra cứu đƣợc tiến hành với sự trợ giúp của các sơ đồ đánh chỉ số. Sử dụng sơ đồ đánh chỉ số là cách hiệu quả để tìm kiếm trong các cơ sở dữ liệu ảnh. Một số hệ thống tra cứu ảnh mới phát triển gần đây còn tích hợp cả chức năng xử lý phản hồi của ngƣời sử dụng để cải tiến các qui trình tra cứu và ra những kết quả tra cứu tốt hơn. Phản hồi thích hợp Người sử dụng Tạo truy vấn Cơ sở Dữ liệu ảnh Mô tả Nội dung Trực quan Mô tả Nội dung Các Vector Đặc trƣng Đánh giá độ tƣơng tự Cơ sở Dữ liệu Đặc trƣng Tra cứu và Đánh chỉ số Trực quan Đầu ra Kết quả tra cứu Hình 1.1: Mô hình hệ thống Tra cứu ảnh theo nội dung Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 6 Trong mô hình này, ngƣời sử dụng sẽ tạo truy vấn bằng cách chọn một ảnh mẫu trong một cơ sở dữ liệu ảnh cho trƣớc hoặc phác thảo một hình vẽ mô tả đối tƣợng ảnh cần tìm bằng cách sử dụng một giao diện đồ hoạ của hệ thống. Ảnh mẫu đó đƣợc đƣa qua khối mô tả nội dung trực quan, trong đó ngƣời ta sử dụng một phƣơng pháp mô tả nội dung trực quan nào đó để trích chọn một đặc điểm nội dung trực quan để xây dựng thành một véc tơ đặc trƣng. Véc tơ đặc trƣng của ảnh mẫu sẽ đƣợc so sánh với véc tơ đặc trƣng tƣơng ứng của các ảnh trong cơ sở dữ liệu ảnh. Kết quả của phép so sánh là một chỉ số đánh giá độ tƣơng tự giữa ảnh mẫu và ảnh lấy ra để so sánh. Dựa vào chỉ số độ tƣơng tự tính toán đƣợc ở trên, hệ thống sẽ sắp xếp các ảnh tìm đƣợc trong cơ sở dữ liệu ảnh theo một sơ đồ đánh chỉ số nào đó. Danh sách các ảnh tìm đƣợc (đã đƣợc sắp xếp) đƣợc đƣa ra đầu ra của hệ thống. 1.3. Một số hệ thống tra cứu ảnh theo nội dung tiêu biểu 1.3.1. Hệ thống QBIC (Query By Image Content) Hệ thống QBIC của hãng IBM là một hệ thống tra cứu ảnh thƣơng mại đầu tiên và nổi tiếng nhất trong số các hệ thống tra cứu ảnh dựa trên nội dung. Nó cho phép ngƣời sử dụng tra cứu ảnh dựa vào màu sắc, hình dạng và kết cấu. QBIC cung cấp một số phƣơng pháp: Simple, Multi-feature, và Multi-pass. Trong phƣơng pháp truy vấn Simple chỉ sử dụng một đặc điểm. Truy vấn Multi-feature bao gồm nhiều hơn một đặc điểm và mọi đặc điểm đều có trọng số nhƣ nhau trong suốt quá trình tìm kiếm. Truy vấn Multi-pass sử dụng đầu ra của các truy vấn trƣớc làm cơ sở cho bƣớc tiếp theo. Ngƣời sử dụng có thể vẽ ra và chỉ định màu, kết cấu mẫu của hình ảnh yêu cầu. Trong hệ thống QBIC màu tƣơng tự đƣợc tính toán bằng độ đo bình phƣơng sử dụng biểu đồ màu k phần tử và màu trung bình đƣợc sử dụng nhƣ là bộ lọc để cải tiến hiệu quả của truy vấn [4]. Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 7 1.3.2. Hệ thống Photobook Hệ thống này đƣợc phát triển ở viện kỹ thuật Massachusetts. Nó cho phép ngƣời sử dụng tra cứu ảnh dựa trên màu sắc, hình dạng và kết cấu. Hệ thống này cung cấp một tập các thuật toán đối sánh gồm: Euclidean, mahalanobis, vector space angle, histogram, Fourier peak, và wavelet tree distance nhƣ là những độ đo khoảng cách. Hệ thống nhƣ là một công cụ bán tự động và có thể sinh ra một mẫu truy vấn dựa vào những ảnh mẫu đƣợc cung cấp bởi ngƣời sử dụng. Điều này cho phép ngƣời sử dụng trực tiếp đƣa những yêu cầu truy vấn của họ với những lĩnh vực khác nhau, và mỗi lĩnh vực họ có thể thu đƣợc những mẫu truy vấn tối ƣu [4]. 1.3.3. Hệ thống VisualSEEK và WebSEEK Cả hai hệ thống này đều đƣợc phát triển tại Trƣờng Đại học Colombia. VisualSEEK là hệ thống cơ sở dữ liệu ảnh. Nó cho phép ngƣời sử dụng tra cứu ảnh dựa trên màu sắc, không gian miền và đặc điểm kết cấu. Thêm vào đó VisualSEEK còn cho phép ngƣời sử dụng tạo truy vấn bằng việc chỉ định vùng màu và những không gian vị trí của chúng. WebSEEK là một catalog ảnh và là công cụ tìm kiếm trên website [4]. 1.3.4. Hệ thống RetrievalWare Hệ thống này đƣợc phát triển bởi tập đoàn công nghệ Excalibur cho phép ngƣời sử dụng tra cứu ảnh bởi nội dung màu, hình dạng, kết cấu, độ sáng, kết cấu màu và hệ số co. Ngƣời sử dụng có thể điều chỉnh tỷ trọng của những đặc điểm này trong suốt quá trình tìm kiếm [4]. 1.3.5. Hệ thống Imatch Hệ thống này cho phép ngƣời sử dụng tra cứu ảnh bởi nội dung màu, hình dạng, và kết cấu. Nó cung cấp một số phƣơng pháp để tra cứu ảnh tƣơng tự: Màu tƣơng tự, màu và hình dạng, màu và hình dạng mờ, và phân bố màu. Màu tƣơng tự để tra cứu những ảnh tƣơng tự với ảnh mẫu dựa trên sự phân bố màu toàn cục. Màu và hình dạng thực hiện tra cứu bởi việc kết hợp cả hình dạng, kết cấu và màu. Màu và hình dạng mờ thực hiện thêm những bƣớc xác định đối tƣợng trong ảnh mẫu. Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 8 Phân bố màu cho phép ngƣời sử dụng vẽ ra sự phân bố màu hoặc xác định tỷ lệ phần trăm của một màu trong hình ảnh mong muốn. Imatch cũng cung cấp những đặc điểm khác nội dung để xác định ảnh: ảnh nhị phân, lƣu trữ trong những định dạng khác và những ảnh có tên tƣơng tự [4]. 1.4. Một số ứng dụng cơ bản của tra cứu ảnh Tra cứu ảnh đƣợc ứng dụng trong rất nhiều lĩnh vực, những lĩnh vực thành công bao gồm: Ngăn chặn tội phạm. Quân sự. Quản lý tài sản trí tuệ. Thiết kế kiến trúc máy móc. Thiết kế thời trang và nội thất. Báo chí quảng cáo. Chuẩn đoán y học. Hệ thống thông tin địa lý. Di sản văn hóa. Giáo dục và đào tạo. Giải trí. Tìm kiếm trang web. Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 9 CHƢƠNG II: MỘT SỐ PHƢƠNG PHÁP TRÍCH CHỌN ĐẶC TRƢNG ẢNH Nếu nhìn một cách tổng quát thì nội dung của một bức ảnh có thể bao gồm cả nội dung trực quan và nội dung ngữ nghĩa. Nội dung trực quan của ảnh lại đƣợc phân làm hai loại là nội dung tổng quan và nội dung đặc tả. Nội dung tổng quan bao gồm màu sắc, kết cấu, hình dạng và các quan hệ không gian giữa các đối tƣợng ảnh hoặc giữa các vùng ảnh. Nội dung đặc tả thì tuỳ vào từng ứng dụng cụ thể, ví dụ với các ứng dụng tra cứu ảnh ngƣời thì mặt ngƣời hoặc con mắt là các nội dung đặc tả; với các ứng dụng tra cứu ảnh ô tô thì bánh xe là một nội dung đặc tả. Nội dung ngữ nghĩa có thể phát hiện thông qua các chú thích hoặc sử dụng các phƣơng pháp suy diễn từ nội dung trực quan. Trong khuôn khổ của luận văn này chúng tôi chỉ tập trung vào việc mô tả nội dung trực quan tổng quan của ảnh. Một phƣơng pháp mô tả nội dung trực quan đƣợc thiết kế tốt phải có tính bất biến đối với các biến đổi bất thƣờng sinh ra trong quá trình xử lý ảnh (ví dụ nhƣ những biến đổi bất thƣờng của độ sáng của cảnh vật). Tuy nhiên cũng cần phải chú ý tới sự cân bằng giữa tính bất biến và khả năng đáp ứng những thay đổi tuỳ ý của các đặc trƣng trực quan của ảnh, bởi vì một hệ thống có tính bất biến lớn thì thƣờng là không có tính nhạy cảm, mất khả năng phản ánh những thay đổi nhỏ nhƣng rất quan trọng. Một phƣơng pháp mô tả nội dung trực quan có thể là phƣơng pháp toàn cục hoặc phƣơng pháp cục bộ. Phƣơng pháp mô tả nội dung toàn cục sử dụng các đặc trƣng trực quan của toàn bộ bức ảnh còn phƣơng pháp mô tả nội dung cục bộ lại sử dụng những đặc trƣng trực quan của các vùng ảnh hoặc các đối tƣợng ảnh để mô tả nội dung của ảnh. Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 10 Để mô tả đƣợc nội dung cục bộ trƣớc hết ngƣời ta phải chia ảnh thành các phần riêng biệt. Cách đơn giản nhất để phân chia ảnh là sử dụng một bộ phân hoạch chia ảnh thành các ô có kích thƣớc và hình dạng giống nhau. Cách phân chia đơn giản nhƣ vậy không tạo ra đƣợc những vùng ảnh có ý nghĩa thực sự nhƣng nó là cách đơn giản để biểu diễn nội dung toàn cục của ảnh với độ chính xác cao hơn. Một phƣơng pháp phân chia tốt hơn là phân chia ảnh thành các vùng đồng nhất dựa vào các tiêu chí sử dụng các thuật toán phân vùng ảnh đã đƣợc nghiên cứu và áp dụng trong ngành thị giác máy tính. Một cách phức tạp hơn để phân chia ảnh là thực hiện phân chia theo các đối tƣợng ảnh để tách ra các đối tƣợng ảnh có nghĩa thực sự (nhƣ quả bóng, cái ô tô hay con ngựa). Phần tiếp theo giới thiệu một số một số kỹ thuật đang đƣợc sử dụng rộng rãi để trích chọn các đặc điểm màu sắc, kết cấu, hình dạng và các quan hệ không gian của các đối tƣợng ảnh. 2.1. Phƣơng pháp trích chọn theo mầu sắc tổng thể và cục bộ [6],[7],[11] Tra cứu ảnh dựa trên màu sắc hầu hết là biến đổi dựa trên ý tƣởng giống nhau của các biểu đồ màu. Mỗi ảnh khi đƣa vào tập hợp ảnh đều đƣợc phân tích, tính toán một biểu đồ màu. Sau đó, biểu đồ màu của mỗi ảnh sẽ đƣợc lƣu trữ trong cơ sở dữ liệu. Khi tìm kiếm, ngƣời sử dụng có thể xác định tỷ lệ của mỗi màu mong muốn (ví dụ 75% Blue, 25% Red) hoặc đƣa ra một ảnh mẫu với biểu đồ màu đã đƣợc tính toán. Quá trình tra cứu sẽ đối sánh biểu đồ màu này với biểu đồ màu trong cơ sở dữ liệu để tìm ra kết quả tƣơng tự nhất. Kỹ thuật đối sánh đƣợc sử dụng phổ biến nhất là biểu đồ màu giao nhau đƣợc phát triển đầu tiên bởi Swain. Những kỹ thuật cải tiến từ kỹ thuật này ngày nay đƣợc sử dụng rộng rãi trong các hệ thống tra cứu ảnh hiện thời. Kết quả của các hệ thống này đã tạo những ấn tƣợng khá sâu sắc. Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 11 2.1.1. Không gian mầu Mỗi điểm ảnh trên một bức ảnh có thể đƣợc biểu diễn bằng một điểm trong một không gian màu 3 chiều. Những không gian màu đƣợc sử dụng nhiều nhất trong các hệ thống tra cứu ảnh là RGB, CIE L*a*b, CIE L*u*v, HSV, YUV, YIQ và không gian màu đối lập. Ngƣời ta cũng chƣa chỉ ra đƣợc rằng không gian màu nào đƣợc sử dụng tốt hơn cho việc tra cứu ảnh. Tuy nhiên tính chất quan trọng nhất để một không gian màu phù hợp để sử dụng trong một hệ thống tra cứu ảnh là tính đồng nhất. Một không gian màu đƣợc gọi là có tính đồng nhất nếu các cặp 2 màu tƣơng tự nhau trong không gian màu thì cũng đƣợc con ngƣời cảm nhận nhƣ nhau. Nói một cách khác, khoảng cách đo đƣợc giữa hai màu bất kỳ phải có liên quan trực tiếp với độ tƣơng tự sinh học giữa hai màu đó. 2.1.1.1 Không gian màu RGB RGB là không gian màu đƣợc sử dụng phổ biến nhất để hiển thị ảnh. Không gian RGB bao gồm 3 thành phần màu là Đỏ (Red), Xanh lá cây (Green) và Xanh lam (Blue). Các thành phần này gọi là màu cộng bởi vì các màu sắc trong không gian RGB đều có thể thu đƣợc bằng cách cộng 3 thành phần màu này lại với nhau. Một màu trong không gian màu RGB đại diện cho một véc tơ với ba tọa độ. Khi tất cả ba giá trị đều bằng 0 thì cho màu Black, khi tất cả ba giá trị đều bằng 1 thì cho màu White. Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 12 Hình 2.1. Không gian màu RGB. 2.1.1.2. Không gian màu CMY Hệ thống màu CMY theo mô hình in trên giấy trắng và theo khuôn mẫu trừ từ màu trắng thay vì thêm vào từ màu đen nhƣ hệ thống màu RGB. CMY là viết tắt của Cyan-Magenta-Yellow (màu lục lam, màu đỏ tƣơi, màu vàng), đó là ba màu chính tƣơng ứng với ba màu mực in. Cyan hấp thu sự chiếu sáng của màu đỏ, Magenta hấp thu màu xanh lục, Yellow hấp thu màu xanh dƣơng. Do đó, tạo ra sự phản ánh tƣơng ứng nhƣ khi in ảnh đƣợc chiếu sáng với ánh sáng trắng. Hệ thống dƣới dạng âm tính vì mã hóa theo dạng hấp thụ màu. Có một số mã hóa nhƣ sau: trắng (0,0,0) vì không có ánh sáng trắng đƣợc hấp thụ, đen (255,255,255) vì tất cả các thành phần của màu trắng đều đƣợc hấp thụ. Hệ thống màu CMY dƣờng nhƣ là một sự đảo ngƣợc của hệ thống màu RGB. Đặc tính của nó là sựđơn giản, ứng dụng nhiều trong thực tế. Tuy nhiên khuyết điểm của nó cũng tƣơng tự nhƣ không gian màu RGB, tức là cách mã hóa khác với cách mà con ngƣời cảm nhận về màu sắc. Không thích hợp cho bài toán tìm kiếm ảnh dựa vào nội dung. Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 13 2.1.1.3 Không gian màu HSx Không gian màu HSI, HSV, HSB, HLS thƣờng đƣợc gọi là HSx có mối liên quan gần gũi với sự nhận thức về màu sắc của con ngƣời hơn là không gian màu RGB. Những trục từ không gian màu HSx mô tả những đặc tính của màu nhƣ sắc độ, độ bão hoà và độ sáng. Sự khác nhau giữa những không gian màu HSx là sự biến đổi của chúng từ không gian màu RGB, chúng thƣờng đƣợc mô tả bằng những hình dạng khác nhau (nhƣ hình nón, hình trụ). Trong hình 2.2 không gian màu HSV đƣợc mô tả nhƣ hình nón. Hình 2.2. Mô tả không gian màu HSV. Sắc độ là thành phần của không gian màu HSx. Sắc độ là góc giữa những đƣờng tham chiếu và điểm gốc màu trong không gian màu RGB nhƣ hình 2.2. Vùng giá trị này từ 00 đến 3600. Theo uỷ ban quốc tế về màu sắc CIE (Commission International d'E clairage) thì sắc độ là thuộc tính của cảm giác có liên quan đến thị giác, qua đó một vùng xuất hiện tƣơng tự với một màu đƣợc cảm nhận nhƣ red, green, blue hoặc là sự kết hợp của hai trong số những màu đƣợc cảm nhận. Cũng theo CIE độ bão hoà là màu đƣợc đánh giá theo tỷ lệ độ sáng của nó. Trong hình Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 14 nón độ bão hoà là khoảng cách từ tâm đến cạnh hình nón. Chiều cao của đƣờng cắt chính là Value đây chính là độ sáng hoặc độ chói của màu. Khi độ bão hoà S = 0 thì H không xác định, giá trị nằm trên trục V biểu diễn ảnh xám. Không gian màu HSV dễ dàng lƣợng tử hoá. Mức lƣợng tử hoá thông dụng trong không gian màu này là 162 mức với H nhận 18 mức, S và V nhận 3 mức. 2.1.1.4. Không gian màu YUV và YIQ Không gian màu YUV và YIQ đƣợc phát triển cho truyền hình quảng bá. Không gian màu YIQ cũng giống nhƣ YUV với mặt phẳng I-Q là mặt phẳng U-V quay 330. Y mô tả độ chói của điểm ảnh và chỉ sử dụng kênh đen trắng, U, V, I, Q là mhững thành phần màu. Kênh Y đƣợc định nghĩa bởi trọng số của giá trị R(0.299), G(0.587), B(0.144). Sơ đồ lƣợng tử hoá cho không gian màu YUV và YIQ thƣờng đƣợc sử dụng là 125(53) hoặc 216(63) mức. 2.1.1.5. Không gian màu CIE XYZ và LUV Không gian màu đƣợc phát triển đầu tiên bởi CIE là không gian màu XYZ. Thành phần Y là là thành phần độ chói đƣợc định nghĩa bởi tổng trọng số của R(0.212671), G(0.715160), B(0.072169), X và Z là các thành phần màu. Không gian màu CIE LUV là sự biến đổi của không gian màu XYZ. Kênh L là độ chói của màu, kênh U và V là những thành phần màu. Vì vậy khi U và V đƣợc đặt bằng 0 thì kênh L biểu diễn ảnh xám. Trong lƣợng tử hoá không gian màu LUV mỗi trục đƣợc lƣợng tử hoá với mức xác định. Sơ đồ lƣợng tử hoá thƣờng đƣợc sử dụng cho hai không gian màu này là 64, 125, 216 mức. Các không gian màu RGB và CIE có thể chuyển đổi với nhau, tức là chúng ta có thể sử dụng các công thức để chuyển đổi một giá trị màu từ không gian màu này sang không gian màu khác. 2.1.2. Lƣợng tử hoá màu Lƣợng tử hóa màu là quá trình làm giảm số màu sắc đƣợc sử dụng để mô tả ảnh. Việc lƣợng tử hóa màu trong không gian màu RGB đƣợc thực hiện bằng cách Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 15 chia khối hình lập phƣơng lớn thành những khối nhỏ và mỗi khối nhỏ có thể đại diện cho một màu đơn. Ví dụ chia hình lớn thành 64(43) hình nhỏ bằng cách chia các trục Red, Green, Blue mỗi trục thành 4 phần nhỏ và tất cả các màu sắc đƣợc xác định trong một hình khối nhỏ sẽ đại diện cho một màu đơn. Với hệ thống máy tính hiện thời thì không gian RGB thƣờng thể hiện bởi hệ thống màu thực 24 bit. Trong hệ thống màu 24 bit thì mỗi màu đƣợc xác định bằng 3 số nguyên:{Red, Green và Blue} và 3 số nguyên này nằm trong khoảng từ 0 - 27 nhƣ vậy nó cho ta khoảng 16.777.216 màu (224). Bởi vì quá trình lƣợng tử hóa không gian màu RGB tƣơng tự nhƣ quá trình làm giảm số màu nên có thể xác định số màu trong không gian màu một cách đơn giản là giảm số màu từ 24 bit màu xuống còn n3 màu nhƣ sau: Khi giảm một màu {R, G ,B} 24 bit màu thành màu mới {R’, G’ ,B’} với n3 màu ta đặt: R'  n*R 28 G'  n*G 28 B'  n*B 28 (2.1) Vì vậy, sau khi giảm số màu sẽ có n*n*n=n3 màu. 2.1.3. Các moment màu Các moment màu đã đƣợc sử dụng rất thành công trong nhiều hệ thống tra cứu ảnh đặc biệt là khi ảnh chỉ chứa một đối tƣợng ảnh. Các thành phần moment bậc nhất (trung vị), bậc hai (phƣơng sai) và bậc ba (độ lệch) đã đƣợc chứng minh là có thể đƣợc sử dụng rất hiệu quả để biểu diễn sự phân bố màu sắc của ảnh. Công thức toán học để biểu diễn 3 moment này nhƣ sau: i  1 N N f j 1 ij Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên (2.2) http://www.lrc-tnu.edu.vn 16 i  1 N si  3 1 N N ( f j 1 ij N ( f j 1 ij  i ) 2 (2.3)  i )3 (2.4) Trong đó fij là giá trị của thành phần màu thứ i của điểm ảnh thứ j và N là số lƣợng điểm ảnh của ảnh đó. Sử dụng cả thành phần moment bậc ba si sẽ giúp tăng cƣờng hiệu năng tra cứu so với khi chỉ sử dụng các moment bậc nhất i và bậc hai i. Tuy nhiên đôi khi việc sử dụng moment bậc 3 làm cho việc biểu diễn đặc trƣng của ảnh nhạy cảm hơn đối với những thay đổi của cảnh nền và do đó làm giảm khả năng của hệ thống. Do chỉ sử dụng 9 giá trị (3 moment cho mỗi màu trong bộ ba màu) để biểu diễn nội dung màu của mỗi ảnh nên việc sử dụng moment màu để biểu diễn véc tơ đặc trƣng màu là rất đơn giản nếu so sánh với các phƣơng pháp biểu diễn khác. Và cũng chính do sự đơn giản đó nên phƣơng pháp này cho kết quả khá hạn chế. Thông thƣờng, phƣơng pháp biểu diễn bằng moment màu đƣợc sử dụng trong những bƣớc đầu tiên của quá trình tra cứu ảnh với mục đích làm giảm kích thƣớc không gian tìm kiếm trƣớc khi áp dụng các phƣơng pháp phức tạp hơn để tra cứu. 2.1.4. Biểu đồ màu (Color Histogram) Biểu đồ màu là cách hiệu quả để biểu diễn nội dung màu của một bức ảnh trong trƣờng hợp mẫu màu của bức ảnh đó là duy nhất trong tập hợp các ảnh trong cơ sở dữ liệu. Biểu đồ màu dễ tính toán và rất hiệu quả để biểu diễn cả sự phân bố màu tổng quan và sự phân bố màu cục bộ của ảnh. Ngoài ra, biểu đồ màu không bị ảnh hƣởng bởi sự dịch chuyển hay sự quay của ảnh và rất ít bị ảnh hƣởng của tỉ lệ và góc nhìn ảnh. Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
- Xem thêm -