Tài liệu Nghiên cứu một số kỹ thuật phát hiện đối tượng ảnh dựa vào kết cấu và ứng dụng luận văn ths công nghệ thông tin 1.01.10

.PDF

143

hoangtuavartar Báo vi phạm

Tải xuống 143

Mô tả:

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ------------***----------- Hoàng Vĩnh Thái Nghiên cứu một số kỹ thuật phát hiện đối tượng ảnh dựa vào kết cấu và ứng dụng LUẬN VĂN THẠC SĨ Hà nội – 2006 MỤC LỤC DANH SÁCH CÁC CHỮ VIẾT TẮT ..................................................................... 4 MỞ ĐẦU .................................................................................................................. 5 CHƢƠNG 1: TỔNG QUAN VỀ KẾT CẤU VÀ PHÁT HIỆN ĐỐI TƢỢNG ....... 7 1.1 Tổng quan về kết cấu và ứng dụng ................................................................. 7 1.1.1 Định nghĩa kết cấu ................................................................................... 7 1.1.2 Các ứng dụng của kết cấu ...................................................................... 10 1.2 Phát hiện đối tƣợng dựa vào kết cấu. ........................................................... 15 1.2.1 Phát hiện đối tƣợng ................................................................................ 15 1.2.2 Các thành phần của hệ thống phát hiện đối tƣợng ................................. 18 1.2.3 Vai trò của kết cấu trong phát hiện đối tƣợng ....................................... 25 CHƢƠNG 2: CÁC PHƢƠNG PHÁP BIỂU DIỄN KẾT CẤU ............................. 27 2.1 Biểu diễn hình học ........................................................................................ 28 2.2 Biểu diễn thống kê ........................................................................................ 29 2.3 Biểu diễn dựa vào mô hình ........................................................................... 38 2.4 Biểu diễn dựa trên kỹ thuật xử lý tín hiệu .................................................... 43 CHƢƠNG 3: ỨNG DỤNG .................................................................................... 50 3.1 Bài toán. ........................................................................................................ 50 3.2 Phân tích bài toán. ........................................................................................ 51 3.2.1 Xây dựng phƣơng pháp biểu diễn kết cấu ............................................. 53 3.2.2 Xây dựng chức năng phân loại đối tƣợng .............................................. 59 3.3 Thực nghiệm minh họa. ................................................................................ 60 KẾT LUẬN ............................................................................................................ 63 TÀI LIỆU THAM KHẢO ...................................................................................... 64 3 DANH SÁCH CÁC CHỮ VIẾT TẮT Chữ tắt Dạng đầy đủ Nghĩa tiếng Việt CV Computer Vision Hình dung máy tính KL Karhumen-Loeve (transform) Kullback-Leibler Biến đổi Karhumen-Loeve SAR Simultaneous Auto-Regressive Tự thoái lui đồng thời DSP Digital signal processing Xử lý tín hiệu số ACF Autocorrelation Function Hàm tự tƣơng quan PWT Pyramid-structured Wavelet Transform Biến đổi dạng sóng kiểu hình chóp TWT Tree-structured wavelet transform Biến đổi dạng sóng kiểu hình cây MRF Markov random field Trƣờng ngẫu nhiên Markov LBP Local Binary Pattern Kết cấu nhị phân cục bộ SOM Self Organization Map Bản đồ tự tổ chức ROR(x,i) Circular shift to the Right Hàm dịch phải quay vòng RFM Random Field Model Mô hình trƣờng ngẫu nhiên SGLDM Spatial Grey Level Dependence Phƣơng pháp phụ thuộc mức xám Method không gian GLRLM Grey Level Run Length Method Phƣơng pháp loạt dài mức xám GLDM Grey Level Difference Method Phƣơng pháp sai khác mức xám PSM Power Spectral Method Phƣơng pháp phổ lũy thừa 4 MỞ ĐẦU Phân tích kết cấu đóng một vai trò quan trọng trong lĩnh vực thị giác máy tính. Trong các ứng dụng nhƣ vậy, việc “hiểu ảnh” chính xác là một trong những yếu tố chính dẫn đến thành công của hệ thống. Thông thƣờng việc sử dụng dựa vào yếu tố màu sắc của đối tƣợng để hiểu ảnh (hay giải thích ảnh) là một trong những kỹ thuật chính để hình thành nên các hệ thống này. Tuy nhiên, trong nhiều trƣờng hợp sử dụng thông tin màu sắc để giải thích ảnh là chƣa đủ, hoặc không thể thực hiện đƣợc trong hệ thống. Trong các ứng dụng giám sát giao thông, hoặc kiểm tra chất lƣợng sản phẩm công nghiệp thì thông tin về kết cấu đã đƣợc sử dụng để tăng độ chính xác cho việc sử dụng các thông tin màu sắc đơn thuần [1,3]. Trong một số ứng dụng khác nhƣ điều khiển chất lƣợng sản xuất vải sợi, so sánh ảnh mây vệ tinh hay địa chất thì việc sử dụng thông tin kết cấu gần nhƣ là bắt buộc vì các thông tin về màu sắc, hình dạng không thể hiện đƣợc trong hệ thống [11]. Thông tin kết cấu cũng có thể đƣợc sử dụng trong phân tích ảnh y học, xác thực cho các hệ thống an toàn bảo mật dựa vào sinh trắc học, truy vấn ảnh dựa vào nội dung, phân tích tài liệu, mô hình hóa môi trƣờng,… Trong vài năm gần đây, có hàng loạt các công trình nghiên cứu, các bài báo cụ thể liên quan đến việc làm thế nào để có một mô tả kết cấu đủ hiệu quả cho các ứng dụng thị giác máy tính. Xét một cách trực quan, kết cấu cung cấp một lƣợng thông tin phong phú về bề mặt tự nhiên của hình ảnh. Tuy nhiên, việc phân tích kết cấu nói chung và biểu diễn kết cấu một cách đầy đủ, hiệu quả nói riêng vẫn là một vấn đề khó do bởi sự đa dạng và phức tạp của vấn đề kết cấu tự nhiên. Nội dung của bản luận văn này sẽ giới thiệu về cơ sở lý thuyết cũng nhƣ hƣớng ứng dụng của việc biểu diễn thông tin kết cấu cho chức năng phát hiện đối tƣợng của một hệ thống thị giác máy tính điển hình. Trên cơ sở đó tiến hành thử nghiệm xây dựng một bộ các module chƣơng trình cho việc phát hiện, phân loại đối tƣợng dựa vào kết cấu bề mặt của đối tƣợng. Về cơ bản nội dung của luận văn đƣợc chia thành 3 chƣơng chính sau: 5 Chương 1: Trình bày một cách tổng quát về kết cấu và phát hiện đối tƣợng dựa vào kết cấu trong một hệ thống thị giác máy tính. Chƣơng này cũng trình bày về các kỹ thuật áp dụng thông tin về kết cấu cho việc giải thích ảnh. Việc trình bày về cơ sở lý thuyết của kết cấu và cách thức áp dụng thông tin kết cấu vào từng thành phần của hệ thống phát hiện đối tƣợng cũng là một phần chính của chƣơng mở đầu này. Chương 2: Trình bày các phƣơng pháp cơ bản về biểu diễn thông tin kết cấu cho máy tính. Trên cơ sở đó nhấn mạnh về khái niệm và cách thức áp dụng phƣơng pháp biểu diễn kết cấu dựa vào toán tử không gian LBP cho một hệ thống phát hiện đối tƣợng. Do việc mô tả kết cấu cũng nhƣ các phƣơng pháp biểu diễn kết cấu là phức tạp và có rất nhiều phƣơng pháp đƣợc nghiên cứu. Chƣơng này cũng sẽ trình bày tóm lƣợc một số đánh giá, so sánh của các nghiên cứu về hiệu quả của các phƣơng pháp biểu diễn kết cấu phổ biến đã đƣợc thực hiện trên thực tế bằng thực nghiệm nhằm tạo cơ sở cho việc chọn lựa biểu diễn kết cấu thích hợp với các ứng dụng khác nhau. Chương 3: Chƣơng này giới thiệu cách thức ứng dụng của phƣơng pháp biểu diễn kết cấu bằng toán tử không gian LBP cho một ứng dụng cụ thể trong điều khiển chất lƣợng sản phẩm công nghiệp. Trên cơ sở đó tiến hành xây dựng một số module chƣơng trình mục đích minh họa thí nghiệm cũng nhƣ đánh giá các ƣu nhƣợc điểm khi sử dụng phƣơng pháp LBP cho một hệ thống điều khiển chất lƣợng vải sợi. 6 CHƯƠNG 1: TỔNG QUAN VỀ KẾT CẤU VÀ PHÁT HIỆN ĐỐI TƯỢNG 1.1 Tổng quan về kết cấu và ứng dụng 1.1.1 Định nghĩa kết cấu Kết cấu (của bề mặt của vật thể) trong tự nhiên là một khái niệm chung mà ngƣời ta có thể quy cho mọi vật. Có khá nhiều định nghĩa về kết cấu của đối tƣợng trong tự nhiên. Theo từ điển Webster, 1986 kết cấu “Là cấu trúc hoặc một sự sắp xếp cơ sở, một kết hợp chặt chẽ của hầu hết các phần tử riêng lẻ tạo nên một đối tượng” Theo từ điển Oxford, 1989 “Là sự tổ chức, cấu trúc, hoặc chất liệu của bất kỳ những gì hình thành nên một đối tượng” Nói chung, ngƣời ta có thể hiểu một cách chung nhất kết cấu là các tính chất thể hiện ra bên ngoài có thể nhìn thấy và tiếp xúc đƣợc của một đối tƣợng nào đó. Nhiều ví dụ minh họa về kết cấu nhƣ kết cấu của cát, của khói, của vân tay ngƣời,… Đối với con ngƣời, thể hiện của kết cấu liên quan đến các cấu trúc cục bộ của bề mặt đƣợc lặp đi lặp lại về mặt không gian. Các cấu trúc này đƣợc hình thành từ một hay một vài phần tử cơ bản (Primitives) riêng biệt. Nó chứa các thông tin quan trọng về sự sắp xếp cấu trúc của bề mặt. Kết cấu gạch Kết cấu vân tay Kết cấu mây Kết cấu đất Hình 1.1 : Ví dụ về kết cấu 7 Trong lĩnh vực xử lý ảnh số, tính chất kết cấu của ảnh đƣợc thể hiện thông qua sự biến thiên về màu sắc và cƣờng độ của ảnh. Mặc dù không thể có thông tin về nguyên nhân sự biến thiên này nhƣng thông tin về sự khác nhau của của các pixel trong ảnh đã đƣa ra nhiều phƣơng pháp để xác định kết cấu của đối tƣợng. Tuy nhiên từ trƣớc đến nay chƣa ai có thể đƣa ra đƣợc một định nghĩa chính xác về mặt toán học (định nghĩa cho xử lý số) cho kết cấu của đối tƣợng trong ảnh số. Theo [1], Haralick (1973):“Kết cấu rất khó để có được một định nghĩa chính xác”. Mƣời năm sau, Cross & Jain (1983) đƣa ra một định nghĩa đơn giản hơn:“ Chúng ta xem xét một kết cấu như là một ảnh hai chiều với tính chất tương đối chu kỳ và ngẫu nhiên”. Nhƣng mƣời ba năm sau việc định nghĩa kết cấu cũng không rõ ràng hơn: “Kết cấu mặc dù thiếu một định nghĩa chính xác nhưng lại có rất nhiều ứng dụng trong lĩnh vực thị giác máy tính (Jain & Karu 1996)”. Với việc thiếu những lý thuyết cơ bản và thống nhất nhƣ vậy đã làm cho việc phân tích kết cấu kém thuyết phục và không đồng nhất ít ra là về mặt phƣơng pháp luận theo quan điểm của các nhà toán học. Và cũng do đó việc đánh giá chất lƣợng của các hệ thống sử dụng tính kết cấu của ảnh phần nhiều đều mang tính kinh nghiệm. Tuy vậy cũng có rất nhiều nghiên cứu trong việc tạo ra và sử dụng các độ đo kết cấu đƣợc áp dụng nhiều trong các hệ thống thị giác máy tính. Trong các nghiên cứu đó, việc đƣa ra các kỹ thuật sử dụng kết cấu phụ thuộc rất nhiều vào mô hình kết cấu đƣợc sử dụng và phân loại. Một số tác giả đã phân loại kết cấu theo sự thể hiện của chúng. Một cách phân loại kết cấu hay đƣợc sử dụng là phân chia chúng thành hai nhóm chính, kết cấu ngẫu nhiên (Stochastic –hình 1.3) và kết cấu xác định đƣợc (Deterministic- hình 1.2). 8 Hình 1.2: Ví dụ về kết cấu đƣợc xác định Hình 1.3: Ví dụ về kết cấu ngẫu nhiên Trong [2], theo cách phân chia này Tamura (1978) đƣa ra các đặc trƣng mà các hệ thống phân tích kết cấu thƣờng hay sử dụng, gọi tắt là các đặc trƣng Tamura, các đặc tính quan trọng nhất của kết cấu cho hệ thống hình dung của con ngƣời là tính giống đường (Line-likeness), tính trật tự (Regularity), tính gồ ghề (Roughness), tính thô ráp (Coarseness), tính tương phản (Contrast), tính có hướng (Directionality). Ngoài ra theo cách phân loại kết cấu của Rao & Lohse (1993) dựa trên ba chiều trực giao là sự lặp lại – sự không lặp, sự vô hƣớng với sự tƣơng phản cao - có hƣớng với sự tƣơng phản thấp, độ mịn – độ hạt của kết cấu, kết cấu đƣợc phân chia theo sự đồng nhất về không gian của chúng thành ba loại: kết cấu đồng nhất, kết cấu đồng nhất yếu (hình 1.4), kết cấu không đồng nhất. Dựa trên cách phân loại này một số độ đo kết cấu (Texture Measures) đã đƣợc nghiên cứu và áp dụng cho các hệ thống thị giác máy tính [1] . 9 Hình 1.4: Ví dụ về kết cấu đồng nhất yếu 1.1.2 Các ứng dụng của kết cấu Trong lĩnh vực thị giác máy tính thông tin kết cấu đóng một vai trò quan trọng. Trong hầu hết các ứng dụng, các kỹ thuật đƣợc phát triển cho việc phân tích kết cấu tập trung vào việc tìm một mô tả kết cấu một cách hiệu quả, tổng quát [ 1, 10, 11, 12]. Mục đích chính là để cho máy tính có thể sử dụng các thao tác toán học cho việc thay thế, so sánh cũng nhƣ chuyển đổi kết cấu. Các giải thuật phân tích kết cấu hầu hết liên quan đến việc chọn lọc, xác định các đặc trƣng kết cấu và biểu diễn các đặc trƣng này dƣới một dạng mà máy tính có thể hiểu đƣợc. Các giải thuật khác nhau có các đặc trƣng đƣợc chọn lọc và cách biểu diễn các đặc trƣng của kết cấu khác nhau. Với các giải thuật sử dụng tiếp cận thống kê, chúng đặc tả kết cấu qua các thông kê tín hiệu của ảnh hay các tính chất phân bố không gian của tín hiệu ảnh. Với các giải thuật sử dụng cách tiếp cận theo phổ của ảnh (Spectral), chúng đặc tả kết cấu theo miền phổ. Các giải thuật tiếp cận theo mô hình kết cấu có cấu trúc, chúng đặc tả các kết cấu nhƣ là phân cấp theo sự sắp xếp không gian của các đối tƣợng cơ bản. Cũng tƣơng tự nhƣ mô hình xác suất cho giải thuật phân tích kết cấu. kết cấu đƣợc đặc tả dƣới dạng hàm phân bố. Có 4 dạng ứng dụng chính của kết cấu dựa trên các kỹ thuật phân tích kết cấu vừa nêu. 10  Phân loại kết cấu Phân loại kết cấu là các ứng dụng gán mỗi kết cấu đã cho tới các lớp kết cấu khác nhau đƣợc định nghĩa trƣớc. Có hai phƣơng pháp phân loại kết cấu chính là phân loại có giám sát (Supervised) và phân loại không giám sát (Unsupervised). Phân loại kết cấu có giám sát là kỹ thuật có cung cấp các ví dụ mẫu về các lớp kết cấu nhƣ là một tập huấn luyện, bộ phân loại sẽ sử dụng các mẫu này để học về tính chất của kết cấu. Phân loại không giám sát không yêu cầu tri thức về các mẫu huấn luyện cho trƣớc. Nó có thể tự động nhận ra các lớp khác nhau từ các mẫu đầu vào. Một loại phân loại kết cấu khác ít khi đƣợc sử dụng là phân loại kết cấu nửa giám sát (Semi-supervised), loại phân loại này yêu cầu một phần nhỏ tri thức cần phải biết trƣớc cho nhận dạng. Quá trình phân loại bao gồm hai trạng thái chính. Thứ nhất là quá tình xác định các đặc trƣng của kết cấu, tùy vào từng ứng dụng sẽ có các cách lấy đặc trƣng khác nhau sao cho phù hợp và chính xác với mỗi loại kết cấu. Các đặc trƣng này sẽ đƣợc biểu diễn dƣới dạng các độ đo đặc trƣng. Việc chọn các đặc trƣng là đặc biệt quan trọng và thƣờng phải đảm bảo các yêu cầu về sự không thay đổi với các thao tác chuyển ảnh nhƣ dịch ảnh, quay ảnh, hay phóng to, thu nhỏ ảnh. Lý tƣởng nhất là các độ đo định lƣợng của kết cấu đầu vào gần một cách tối đa với độ đo của các kết cấu tƣơng tự. Tuy nhiên việc thiết kế một bộ xác định kết cấu có khả năng ứng dụng một cách tổng thể là một vấn đề khó và nó thƣờng yêu cầu một số tri thức trong các lĩnh vực hẹp. Trạng thái thứ hai là quá trình phân loại, bộ phân loại sẽ dựa trên các độ đo đặc trƣng để phân các kết cấu đầu vào vào các lớp thích hợp. Bộ phân loại đƣợc xem nhƣ một hàm với đầu vào độ đo của các đặc trƣng của kết cấu đầu vào và đầu ra là lớp kết cấu tƣơng ứng. Trong phân loại có giám sát ngƣời ta thƣờng sử dụng bộ phân loại K láng giềng gần nhất (K-nearest neighbour). Đây là bộ phân loại mà kết cấu đầu vào đƣợc xác định bằng cách tính toán khoảng cách với K trƣờng hợp huấn luyện gần nhất. Hàm khoảng cách đƣợc tính toán dựa trên không gian đặc trƣng nhiều 11 chiều. Các khoảng cách Euclidean, Chi-square, và Kullback-Leibler là các khoảng cách đƣợc sử dụng chính để đo độ tƣơng tự của hai vector đặc trƣng. Đây là các phƣơng pháp phân loại không tham số. Một số phƣơng pháp phân loại khác dựa vào giả thiết về sự phân bố xác suất của vector đặc trƣng thƣờng đƣợc gọi với tên phân loại có tham số. Phân loại kết cấu có thể sắp xếp các dữ liệu ảnh thành các thông tin có thể hiểu đƣợc một cách dễ dàng. Điều này làm cho nó có nhiều ứng dụng rộng rãi trong các lĩnh vực nhƣ truy vấn ảnh dựa vào nội dung, các ứng dụng ảnh y học, các ứng dụng kiểm tra chất lƣợng công nghiệp hay các ứng dụng về nhận dạng vân tay, mặt ngƣời, tròng mắt trong các ứng dụng về an ninh sinh trắc học …  Phân đoạn kết cấu Phân đoạn kết cấu là các loại ứng dụng phân chia một ảnh thành các vùng riêng biệt dựa vào thuộc tính kết cấu của bề mặt của các vùng. Các vùng này là các vùng có cùng một thuộc tính kết cấu nào đó. Kết quả của quá trình phân đoạn dựa vào kết cấu có thể làm đầu vào cho các quá trình xử lý và phân tích ảnh về sau (chẳng hạn nhƣ nhận dạng đối tƣợng). Cũng nhƣ quá trình phân loại kết cấu, phân đoạn kết cấu cũng gồm hai trạng thái chính là xác định các độ đo đặc trƣng và sử dụng các thông số để cô lập các kết cấu. Tuy nhiên việc phân đoạn các kết cấu phải làm thêm việc dò đƣợc biên của các kết cấu đã đƣợc nhận dạng. Các kỹ thuật phân đoạn kết cấu cũng có thể là giám sát hoặc không giám sát phụ thuộc vào thông tin đƣợc biết trƣớc của ảnh hoặc các lớp kết cấu sẵn có. Phân đoạn kết cấu có giám sát xác định và phân biệt một hoặc nhiều vùng phù hợp với thuộc tính kết cấu đƣợc cung cấp trong mẫu huấn luyện. Phân đoạn kết cấu không giám sát phải lấy các lớp kết cấu khác nhau từ một ảnh trƣớc khi phân chúng thành các vùng. So với việc phân đoạn kết cấu có giám sát thì việc phân đoạn không giám sát linh hoạt và phù hợp hơn với các ứng dụng thế giới thực, tuy nhiên việc thực hiện nó sẽ phức tạp và khả năng để tính toán sẽ cao hơn. 12 Việc phân đoạn một ảnh thành các miền có kết cấu đồng nhất có nhiều ứng dụng trong thực tế nhất là các ứng dụng nhƣ học máy và nhận dạng mẫu. Ví dụ nhƣ trong các ứng dụng phân tích GIS, phân đoạn kết cấu có thể áp dụng để số hóa bản đồ hay phát hiện những thay đổi của phong cảnh từ các ảnh hàng không. Hình 1.5 cho thấy một ví dụ về phân đoạn kết cấu. Phân đoạn kết cấu có thể phân biệt thành các vùng khác nhau cho một ảnh hàng không. Các vùng này sẽ đƣợc quản lý dựa vào hệ thống GIS cho sử dụng. Hình 1.5: Ví dụ về phân đoạn kết cấu (a)Ảnh đầu vào (b)Vùng cánh đồng (c)Vùng dân cƣ (d)Vùng thực vật  Tổng hợp kết cấu Tổng hợp kết cấu là các ứng dụng muốn tạo đƣợc những kết cấu lớn từ những mẫu kết cấu nhỏ, cho các ứng dụng muốn tạo bề mặt nhân tạo. Ứng dụng cụ thể của việc tổng hợp kết cấu thể rõ ở các ứng dụng nhƣ xây dựng kỹ xảo hình ảnh cho phim (chẳng hạn, tăng số lƣợng ngƣời tham gia vào một cảnh biểu tình, bãi công tốn kém bằng cách tổng hợp các mẫu ảnh với số lƣợng ngƣời tham gia 13 ít, tuy thế ngƣời xem vẫn không có cảm giác cảnh bị lặp lại). Kết cấu đƣợc tổng hợp sẽ khác với mẫu kết cấu đầu vào nhƣng vẫn phải đảm bảo tính chất đồng nhất về kết cấu đối với quan sát của con ngƣời. Một trong những ƣu điểm chính của các kỹ thuật tổng hợp kết cấu là việc điều khiển các điều kiện ở biên của mẫu kết cấu để kết cấu đƣợc tổng hợp không có cảm giác bị lặp lại đơn điệu và do đó sẽ không có cảm giác đồng nhất về mặt kết cấu cho quan sát. So với phân loại và phân đoạn kết cấu việc tổng hợp kết cấu đƣợc xem là khó khăn hơn vì nó phải yêu cầu các mô tả kết cấu một cách chi tiết hơn nhiều so với các biểu diễn đặc trƣng của các ứng dụng phân loại và phân đoạn kết cấu. Hơn nữa việc tạo lại kết cấu hiển nhiên sẽ là khó hơn nhiều so với việc hiểu và sử dụng chúng trong các ứng dụng khác. Các ứng dụng của tổng hợp kết cấu phổ biến nhƣ các ứng dụng về biên tập ảnh, tổng hợp video hay ảnh nhân tạo. Hình 1.6: Ví dụ về tổng hợp kết cấu  Tạo hình ảnh từ kết cấu Tạo hình ảnh từ kết cấu là các ứng dụng mà phải ƣớc lƣợng hình dạng của mặt phẳng 3 chiều dựa trên việc phân tích tính chất của kết cấu ảnh hai chiều. Tính đồng nhất và tính đẳng hƣớng có thể cung cấp thông tin về hình dạng của bề mặt 3 chiều. Độ nghiêng của kết cấu có thể bị ảnh hƣởng là do ảnh đƣợc xem ở một góc nghiêng nào đó. Từ các góc nghiêng này ngƣời ta có thể suy ra các tham số về hình dạng của bề mặt hay sử dụng các thao tác chuyển đổi. Thông qua các 14 góc nghiêng và hƣớng này chiều sâu của đối tƣợng ảnh có thể đƣợc khôi phục. Cũng dựa vào các thông số của kết cấu này ngƣời ta có thể suy ra đƣợc bố trí của các đối tƣợng trong ảnh. Hình 1.7: Ứng dụng tạo lại hình ảnh trong lĩnh vực ảnh y học 1.2 Phát hiện đối tƣợng dựa vào kết cấu. 1.2.1 Phát hiện đối tƣợng Phát hiện đối tƣợng hay phát hiện đối tƣợng trong một ảnh thực chất là hoạt động tìm lớp các đối tƣợng nào đó đƣợc định nghĩa trƣớc trong ảnh [14]. Nó cũng đƣợc xem nhƣ một ứng dụng của nhận dạng mẫu. Ngƣời ta thƣờng xem phát hiện đối tƣợng ảnh nhƣ là một chức năng con trong các ứng dụng về phân tích ảnh và thị giác máy tính. Trong một hệ thống CV điển hình các thành phần chính đƣợc sử dụng theo tuần tự sau: - Thu nhận ảnh. - Xử lý nâng cao chất lƣợng ảnh đầu vào. - Phân đoạn ảnh thành các đối tƣợng quan sát. - Trích chọn các đặc trƣng của đối tƣợng. - Phân loại đối tƣợng. 15 - Mô tả và giải thích kết quả đầu ra. Hình 1.8 : Các thành phần một hệ thống CV điển hình Nhiều ứng dụng của CV đã đƣợc áp dụng, từ nhận dạng chữ viết, phân đoạn và số hóa bản đồ, cho đến các ứng dụng về phân tích ảnh trong y học, giám sát hệ thống giao thông, điều khiển robot hay các lĩnh vực đảm bảo an toàn an ninh cho quân sự. Tùy vào các ứng dụng cụ thể các thành phần chính trên sẽ có sự thay đổi khác nhau về kỹ thuật cũng nhƣ cách thức sử dụng. Cũng tùy vào từng ứng dụng mà chức năng phát hiện đối tƣợng đƣợc áp dụng một cách khác nhau. Ví dụ, trong một hệ thống giám sát giao thông, các đối tƣợng trong ảnh sau khi đã đƣợc tiền xử lý để nâng cao chất lƣợng ảnh sẽ đƣợc phân thành vùng các đối tƣợng khác nhau dựa vào biên của chúng. Các ảnh sau khi đã đƣợc phân vùng sẽ đƣợc xử lý bởi hệ thống hiểu ảnh hay một hệ thống phân loại. Xe hơi hay xe tải sẽ đƣợc gán những nhãn khác nhau cho hệ thống để hệ thống có thể đƣa ra những quyết định cuối cùng một cách chính xác nhƣ “số lượng xe tải tham gia giao thông trong ngày” hay “có bao nhiêu phương tiện giao thông không được phép qua lại trên tuyến đường này mỗi ngày”. Trong trƣờng hợp này hệ thống phát hiện đối tƣợng có vai trò quan trọng trong việc phân loại các đối tƣợng phƣơng tiện giao thông một cách chính xác. Một ví dụ khác là hệ thống cảnh báo hỏa hoạn, hệ thống phát hiện đối tƣợng có vai trò quan trọng trong việc phân loại 16 chính xác đối tƣợng là lửa, khói hay chỉ là những vật thể cùng màu nhƣ màu áo của ngƣời qua đƣờng, băng rôn cổ động,…để có thể đƣa ra cảnh báo chính xác về hỏa hoạn. Xét về tổng quát chức năng cơ bản của hệ thống phát hiện đối tƣợng ảnh là xây dựng một bộ phân loại để xác định xem lớp đối tƣợng quan sát có nằm trong một phần của ảnh hay không. Để thực hiện công việc này, về mặt kỹ thuật ta có thể xem công việc của chức năng phát hiện đối tƣợng ảnh bao gồm hai thành phần chính là xác định và biểu diễn đặc trưng từ đối tƣợng ảnh (các đối tƣợng này đƣợc phân đoạn và xác định từ trƣớc) và phân loại đối tượng ảnh thành các đối tƣợng cho mục đích phát hiện đối tƣợng ảnh. Hình 1.9: Sơ đồ một hệ thống giám sát giao thông Phát hiện đối tượng là một chức năng trong hệ thống Có thể có nhiều các định nghĩa khác nhau cho một hệ thống phát hiện đối tƣợng ảnh. Tuy nhiên hai thành phần trên đƣợc xem là chính yếu để hình thành nên hệ thống. Trong khuôn khổ của luận văn này việc xác định các kỹ thuật cũng nhƣ thiết kế, so sánh, đánh giá giữa các hệ thống phát hiện đối tƣợng sẽ đƣợc thực hiện dựa trên hai thành phần chủ yếu trên. Có rất nhiều các kỹ thuật đƣợc phát triển để thực hiện hai chức năng trên, ta sẽ đề cập đến các kỹ thuật này ở phần sau. 17 1.2.2 Các thành phần của hệ thống phát hiện đối tƣợng  Xác định và biểu diễn đặc trƣng Sau khi thu nhận đƣợc ảnh đầu vào, để có thể xử lý bằng máy tính, các đặc trƣng của ảnh (sau khi đã tách đƣợc thành các đối tƣợng riêng biệt) sẽ đƣợc hệ thống phát hiện đối tƣợng xác định. Các đặc trƣng này sẽ đƣợc sử dụng để phân loại hay phát hiện các đối tƣợng cần thiết dựa vào việc so sánh với các đặc trƣng mẫu. Việc tìm một phƣơng pháp để biểu diễn các đặc trƣng của dữ liệu ảnh một cách hiệu quả là một trong những nghiên cứu trọng tâm trong lĩnh vực CV nói chung và phát hiện đối tƣợng ảnh nói riêng. Tùy vào từng ứng dụng có các kỹ thuật biểu diễn và xác định đặc trƣng khác nhau. Các đặc trƣng này phải đồng nhất về thể hiện nhƣ các đặc trƣng mẫu trong cơ sở dữ liệu. Từ các biểu diễn đặc trƣng này hệ thống có thể tính toán để phân loại và phát hiện đƣợc các đối tƣợng cần thiết bằng các công cụ toán học thông thƣờng. Về cơ bản có một số kỹ thuật biểu diễn các đặc trƣng của ảnh thƣờng đƣợc áp dụng dựa trên các đặc trƣng dễ nhận thấy của ảnh nhƣ: các đặc trƣng về không gian, các đặc trƣng về màu sắc, các đặc trƣng về hình dạng và các đặc trƣng về kết cấu. Các đặc trƣng về màu sắc thƣờng đƣợc sử dụng cho những hệ thống mà thông tin về màu sắc là một thành phần quan trọng trong phát hiện đối tƣợng. Một số biểu diễn đặc trƣng phổ biến là moment màu, lƣợc đồ màu, vector gắn kết màu, sơ đồ tƣơng quan màu hay các đặc điểm bất biến màu [4,6,7,8,12]. Các đặc trƣng về hình dạng liên quan nhiều đến các phƣơng pháp phát hiện và biểu diễn biên, các bất biên moment, góc xoay/hàm xoay, độ tròn/độ lệch tâm/hƣớng trục chính, các mô tả Fourier [4,17]. Các đặc trƣng về kết cấu lại thƣờng đƣợc sử dụng một cách kết hợp với các thành phần biểu diễn đặc trƣng khác hoặc trong những trƣờng hợp đối tƣợng phát hiện chỉ mang thông tin về kết cấu. Một số biểu diễn của đặc trƣng kết cấu nhƣ phổ năng lƣợng Fourier, ma trận đồng khả năng, Tamura, Phân tích Wold, trƣờng ngẫu nhiên Markov, các bộ lọc đa phân giải nhƣ biến đổi Gabor và biến đổi dạng sóng, các toán tử hình thái 18 [2,4,6,8,11,12]. Việc biểu diễn các đặc trƣng kết cấu sẽ đƣợc đề cập rõ hơn trong chƣơng 2 của luận văn này. Các đặc trƣng này thƣờng đƣợc dùng để áp dụng cho các đối tƣợng trong ảnh một cách tổng thể hay cục bộ hoặc các đặc trƣng kết hợp. Với các đặc trƣng toàn cục, các tính chất của toàn bộ miền biểu diễn của đối tƣợng đƣợc xem xét. Đó có thể là các đặc trƣng về hình dạng nhƣ diện tích, chu vi, hay mô tả Fourier, moments hoặc các đặc trƣng về kết cấu nếu đối tƣợng là miền đồng nhất mang tính kết cấu cao,… Tính toàn cục thể hiện ở việc xem xét tất cả các điểm trong miền đối tƣợng hoặc toàn bộ các điểm trên biên kín biểu diễn đối tƣợng ảnh. Việc mô tả đặc trƣng phải xem xét đến tất cả các điểm, vị trí , tính chất về độ sáng, và quan hệ không gian. Một mô tả đặc trƣng cũng phải đủ mạnh để mô tả đối tƣợng khi ảnh đƣợc quay, độ sáng thay đổi, hay co giãn với các tỷ lệ khác nhau. Với các đặc trƣng cục bộ, một số phần nhỏ riêng biệt của miền đối tƣợng đƣợc sử dụng làm biểu diễn đặc trƣng. Độ cong và các thuộc tính liên quan, đƣợc tính toán trên biên hoặc trên bề mặt thƣờng đƣợc sử dụng làm các đặc trƣng phổ biến. Các góc (các điểm với độ cong cao) hay các phân đoạn của biên cũng là một trong những thành tố để biểu diễn đặc trƣng cục bộ của đối tƣợng. Với các đặc trƣng kết hợp, các đặc trƣng sử dụng dựa trên vị trí tƣơng đối của các đối tƣợng cục bộ và các đặc trƣng cục bộ. Vị trí tƣơng đối này có thể là khoảng cách và các số đo về hƣớng, chiều liên kết liên quan.  Phân loại đối tƣợng ảnh Sau khi xác định đƣợc các đặc trƣng thích hợp của đối tƣợng thì việc tiếp theo của một hệ thống phát hiện đối tƣợng là phân loại kết cấu và phát hiện đối tƣợng cần. Khi số các mẫu trong cơ sở dữ liệu lớn, và số đối tƣợng cần phải phân loại nhiều thì phải có các kỹ thuật khác nhau để hỗ trợ cho việc phân loại chính xác. Các kỹ thuật này có thể khác nhau từ đơn giản đến phức tạp, có thể kết hợp nhiều bộ phân loại với nhau để tạo ra một bộ phân loại nhiều tầng để tăng độ chính xác. Tuy nhiên, theo [14], có thể quy về hai loại kỹ thuật chính sử dụng mạng Neural trong phân loại đối tƣợng ảnh là phân loại có giám sát và phân loại 19 không giám sát phụ thuộc vào tập ví dụ mẫu sẵn có. Phân loại có giám sát (Supervised Classification) hay còn gọi là học có giám sát (là loại kỹ thuật yêu cầu thông tin về tập đối tƣợng mẫu để huấn luyện, đối tƣợng mới sẽ đƣợc phân biệt nhờ hệ thống đã đƣợc huấn luyện). Các kỹ thuật phân loại này có thể dựa trên mô hình phụ thuộc hàm phân bố (Statistical), có thể có tham số (nhƣ phân bố Gaussian) hoặc không tham số và mô hình không phụ thuộc hàm phân bố (Distribution - free). Phân loại không giám sát (Nonsupervised Classification) là loại phân loại sử dụng kỹ thuật mà không cần thông tin trƣớc về đối tƣợng mẫu, hệ thống sẽ tự nhận ra thông tin về đối tƣợng để phân loại. Trong [16], với giả sử các đặc trƣng cho một đối tƣợng đƣợc biểu diễn trong một không gian N chiều, một số kỹ thuật phân loại thƣờng đƣợc dùng trong phân loại đối tƣợng đƣợc thể hiện một cách toán học và rõ ràng hơn.  Phân loại láng giềng gần nhất (Nearest Neighbor Classifiers): Giả sử rằng đối tƣợng mẫu đại diện cho mỗi lớp đã biết và đặc trƣng biểu diễn của nó cho lớp thứ i là fij, j = 1, ... , N. Với mỗi tính toán đặc trƣng của đối tƣợng U chƣa biết đƣợc biểu diễn bởi uj, j = 1, ..., N O1 O2 O4 O3 Hình 1.10: Đối tƣợng đƣợc phân loại dựa vào khoảng cách Để quyết định lớp nào là lớp chứa đối tƣợng, ngƣời ta tính toán độ tƣơng tự của biểu diễn đặc trƣng đối tƣợng với các điểm trong mỗi lớp của không gian đặc trƣng và gán nó tới lớp có độ tƣơng tự gần nhất. Độ tƣơng tự đƣợc tính bằng cách tính khoảng cách Euclidean hoặc tổ hợp các đặc trƣng với trọng số bất kỳ. Tổng quát, khoảng cách dj của đối tƣợng đầu vào và lớp thứ j đƣợc đo bởi công thức: 20 N dj   u j  fij  i 1   2    1/2 Khi đó đối tƣợng đƣợc phân vào lớp R khi và chỉ khi khoảng cách tới lớp R là nhỏ nhất. N   d R  min d j j 1 Một vấn đề đặt ra khi sử dụng giải thuật láng giềng gần nhất này là điểm nào trong không gian đặc trƣng sẽ là điểm đại diện cho lớp để có thể tính khoảng cách tới điểm đặc trƣng đầu vào. Một lớp có thể chứa nhiều đối tƣợng, đƣợc thể hiện bằng cụm các điểm trong không gian đặc trƣng nhƣ trong hình 1.10: Hình 1.11: Một lớp đƣợc thể hiện bằng cụm các điểm Ngƣời ta giải quyết vấn đề này bằng cách chọn điểm đại diện cho lớp là điểm trọng tâm của cụm hoặc chọn điểm trong lớp có khoảng cách gần với điểm đầu vào nhất.  Phân loại Bayes (Bayesian Classifier) Phân loại Bayes đƣợc sử dụng cho phát hiện đối tƣợng khi phân bố của các đối tƣợng không dễ dàng nhận biết nhƣ trƣờng hợp phân loại láng giềng gần nhất. Trong thực tế với các giá trị vector dùng để tính các biểu diễn đặc trƣng, có nhiều vector đặc trƣng của các đối tƣợng khác nhau lại có giá trị trùng nhau. Lúc này biểu diễn của các lớp bằng các giá trị số nhiều chiều không hẳn đã phù hợp. Một biểu diễn bằng hàm mật độ xác suất cho các giá trị biểu diễn đặc trƣng 21

- Xem thêm -

Tài liệu Nghiên cứu một số kỹ thuật phát hiện đối tượng ảnh dựa vào kết cấu và ứng dụng luận văn ths công nghệ thông tin 1.01.10

Tài liệu liên quan

Tài liệu vừa đăng

Tài liệu xem nhiều nhất