Tài liệu Phát triển khuôn mặt nghiêng trên ảnh và video

.PDF

104

nhattuvisu Báo vi phạm

Tải xuống 82

Mô tả:

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ _____________o0o____________ ĐỒNG THỊ HẢI YẾN PHÁT HIỆN KHUÔN MẶT NGHIÊNG TRÊN ẢNH VÀ VIDEO LUẬN VĂN THẠC SỸ HÀ NỘI 2011 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ _____________o0o____________ ĐỒNG THỊ HẢI YẾN PHÁT HIỆN KHUÔN MẶT NGHIÊNG TRÊN ẢNH VÀ VIDEO Ngành: Công nghệ thông tin Chuyên ngành: Công nghệ phần mềm Mã số: 604810 LUẬN VĂN THẠC SỸ NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS. BÙI THẾ DUY HÀ NỘI 2011 Luận văn tốt nghiệp: Phát hiện khuôn mặt nghiêng trên ảnh và video MỤC LỤC LỜI CẢM ƠN .................................................................................................... 5 DANH SÁCH CÁC TỪ VIẾT TẮT ................................................................. 4 BẢNG CÁC HÌNH ............................................................................................ 5 MỞ ĐẦU ............................................................................................................ 6 CHƢƠNG I........................................................................................................ 8 CÁC PHƢƠNG PHÁP PHÁT HIỆN KHUÔN MẶT ..................................... 8 1.1. Tổng quan .............................................................................................. 8 1.1.1. Lịch sử phát triển ................................................................................ 8 1.1.2. Các vấn đề gặp phải của bài toán phát hiện mặt ngƣời ........................ 8 1.1.3. Ứng dụng của bài toán phát hiện mặt ngƣời........................................ 9 1.1.4. Sơ đồ tổng quát của quá trình phát hiện đối tƣợng ............................ 10 1.1.5. Các độ đo đánh giá chất lƣợng .......................................................... 12 1.2. Các phƣơng pháp phát hiện khuôn mặt .................................................... 13 1.2.1 Phƣơng pháp dựa trên tri thức ............................................................... 13 1.2.1.1. Phương pháp của Yang và Huang ................................................. 13 1.2.1.2. Phương pháp của Kotropoulos và Pitas ........................................ 15 Đánh giá hướng tiếp cận dựa trên tri thức ................................................ 16 1.2.2. Phƣơng pháp dựa trên đặc trƣng bất biến .......................................... 17 1.2.2.1. Phương pháp của Leung - Random Graph Matching .................... 17 1.2.2.2. Phương pháp của Yow và Cipolla – Features Grouping ............... 19 1.2.2.3. Phương pháp của Graf .................................................................. 19 1.2.2.4. Phương pháp dựa trên màu da ...................................................... 20 1.2.3. Phƣơng pháp đối sánh mẫu ............................................................... 23 1.2.3.1. Dùng mẫu định nghĩa sẵn ............................................................. 23 1.2.3.2. Dùng mẫu biến dạng ..................................................................... 25 Đánh giá hướng tiếp cận đối sánh mẫu ..................................................... 26 1 Luận văn tốt nghiệp: Phát hiện khuôn mặt nghiêng trên ảnh và video Phƣơng pháp dựa trên diện mạo ....................................................... 27 1.2.4. 1.2.4.1. Các khuôn mặt riêng ..................................................................... 27 1.2.4.2. Phương pháp dựa trên sự phân bố ................................................ 28 1.2.4.3. Dùng mạng Nơ-ron ....................................................................... 29 1.2.4.4. SVM (Support Vector Machines) ................................................... 31 Đánh giá hướng tiếp cận dựa trên diện mạo.............................................. 33 1.2.5. Kết luận chung ..................................................................................... 34 CHƢƠNG II .................................................................................................... 35 THUẬT TOÁN ĐỀ XUẤT ............................................................................. 35 2.1 Sơ đồ tổng quan ................................................................................... 36 2.2 Một số khái niệm và định nghĩa................................................................ 37 2.2.1. Phân loại sử dụng kỹ thuật Boosting và mô hình Cascade ............... 37 2.2.1.1 Tiếp cận Boosting .......................................................................... 37 2.2.1.2 Adaboost ........................................................................................ 38 Thuật toán AdaBoost: .............................................................................. 41 2.2.1.3 Mô hình Cascade ........................................................................... 43 2.2.1.4 Áp dụng mô hình cascade cho các bộ phân loại AdaBoost ............ 44 2.2.2. Đặc trưng Haar-like ........................................................................ 45 2.2.2.1 Định nghĩa .................................................................................... 45 2.2.2.2. Ảnh tích phân (Integral Image)................................................... 48 2.2.2.3 Tính toán nhanh các đặc trưng Haar-like ................................... 49 2.2.2.4 Lựa chọn đặc trưng ...................................................................... 49 CHƢƠNG III................................................................................................... 54 XÂY DỰNG HỆ THỐNG VÀ THỬ NGHIỆM ............................................. 54 3.1 Sơ đồ khối và nguyên lý hoạt động........................................................... 54 3.2 Tập các tƣ thế khuôn mặt ......................................................................... 54 3.3 THỬ NGHIỆM, ĐÁNH GIÁ VÀ KẾT LUẬN ........................................ 56 3.3.1. Cơ sở dữ liệu ........................................................................................ 56 2 Luận văn tốt nghiệp: Phát hiện khuôn mặt nghiêng trên ảnh và video 3.3.1.1. Dữ liệu huấn luyện........................................................................ 56 3.3.1.2. Dữ liệu thử nghiệm ....................................................................... 58 3.3.1.3. Hoạt động của bộ phát hiện một tư thế khuôn mặt ........................ 58 3.3.2. Xây dựng chƣơng trình ......................................................................... 60 3.3.3. Đánh giá kết quả ................................................................................... 64 3.3.3.1. Một số độ đo đánh giá .................................................................. 65 3.3.3.2. Kết quả huấn luyện ....................................................................... 65 3.3.3.3. Thử nghiệm trên cơ sở dữ liệu ảnh................................................ 67 KẾT LUẬN ...................................................................................................... 70 TÀI LIỆU THAM KHẢO............................................................................... 72 3 Luận văn tốt nghiệp: Phát hiện khuôn mặt nghiêng trên ảnh và video DANH SÁCH CÁC TỪ VIẾT TẮT STT 01 Từ viết tắt PDM Ý nghĩa Point Distribution Model 02 SVM Support Vector Machines 03 DAB Discrete AdaBoost 04 RAB Real AdaBoost 4 Luận văn tốt nghiệp: Phát hiện khuôn mặt nghiêng trên ảnh và video BẢNG CÁC HÌNH HÌNH 1: SƠ ĐỒ TỔNG QUAN CỦA HỆ THỐNG PHÁT HIỆN ĐỐI TƢỢNG................................................... 10 HÌNH 2: CÁC ẢNH ĐỘ PHÂN GIẢI KHÁC NHAU ......................................................................................... 14 HÌNH 3: MỘT TRI THỨC VỀ KHUÔN MẶT ................................................................................................... 14 HÌNH 4: PHƢƠNG PHÁP CHIẾU..................................................................................................................... 16 HÌNH 5: PHÂN BỐ MÀU DA TRONG MẶT PHẲNG CRCB TRONG KHÔNG GIAN YCRCB.......................... 21 HÌNH 6: MINH HỌA MẪU GỒM CÁC QUAN HỆ ........................................................................................... 25 HÌNH 7: MỖI NHÓM CÓ 6 MẪU CÙNG LOẠI ................................................................................................ 29 HÌNH 8: THÀNH PHẦN ĐẦU CỦA HỆ THỐNG ............................................................................................. 30 HÌNH 9: SIÊU PHẲNG TÁCH VỚI KHOẢNG CÁCH LỀ CỰC ĐẠI................................................................. 31 HÌNH 10: SƠ ĐỒ TỔNG QUAN THUẬT TOÁN............................................................................................... 36 HINH 11: MINH HỌA BOOSTING .................................................................................................................. 38 HÌNH 12: MINH HỌA THUẬT TOÁN ADABOOST ........................................................................................ 39 HÌNH 13: BỘ PHÂN LOẠI MẠNH H(X) XÂY DỰNG BẰNG ADABOOST ..................................................... 40 HÌNH 14: MÔ HÌNH CASCADE ...................................................................................................................... 43 HÌNH 15A: CÁC ĐẶC TRƢNG CẠNH ............................................................................................................. 46 HÌNH 15B: CÁC ĐẶC TRƢNG ĐƢỜNG .......................................................................................................... 46 HÌNH 15C: CÁC ĐẶC TRƢNG BAO QUANH TÂM......................................................................................... 46 HÌNH 15D: ĐẶC TRƢNG ĐƢỜNG CHÉO........................................................................................................ 46 HÌNH 16A: CÁC ĐẶC TRƢNG HAAR MỞ RỘNG MỚI .................................................................................. 47 HÌNH 16B: CÁC ĐẶC TRƢNG HAAR MỞ RỘNG MỚI ................................................................................... 48 HÌNH 17: ẢNH TÍCH PHÂN ............................................................................................................................ 48 HÌNH 18: CÁCH TÍNH TỔNG CÁC ĐIỂM ẢNH TRONG HÌNH CHỮ NHẬT BẤT KÌ..................................... 49 HÌNH 19: CÁC ĐẶC TRƢNG HAAR-LIKE DÙNG TRONG LUẬN VĂN ........................................................ 52 HÌNH 20: ĐẶC TRƢNG LOẠI 1 VÀ SỰ TƢƠNG QUAN MỨC XÁM ............................................................. 52 HÌNH 21: ĐẶC TRƢNG LOẠI 3 VÀ SỰ TƢƠNG QUAN MỨC XÁM .............................................................. 52 HÌNH 22: SƠ ĐỒ KHỐI VÀ NGUYÊN LÝ HOẠT ĐÔNG ................................................................................ 54 HÌNH 23: ẢNH CHỤP CÁC TƢ THẾ KHÁC NHAU......................................................................................... 56 HÌNH 24: ẢNH TRƢỚC KHI CẮT .................................................................................................................... 57 HÌNH 25: ẢNH SAU KHI CẮT ......................................................................................................................... 57 HÌNH 26: ẢNH KHÔNG CHỨA KHUÔN MẶT ............................................................................................... 58 HÌNH 27 : CÁC VÙNG KHÔNG LIÊN QUAN SÉ BỊ LOẠI NGAY TỪ NHỮNG TẦNG ĐẦU TIÊN ................ 59 HÌNH 28: KHẮC PHỤC TRƢỜNG HỢP NHIỀU VÙNG ẢNH KẾ CẬN NHAU ............................................... 59 HÌNH 29: VÙNG ẢNH LỒNG NHAU............................................................................................................... 60 HÌNH 30A: PHÁT HIỆN MẶT NGHIÊNG PHẢI 30 ĐẾN 60 ĐỘ - KHUNG TRÒN ........................................... 61 HÌNH 30B: PHÁT HIỆN MẶT NGHIÊNG PHẢI 30 ĐẾN 60 ĐỘ - KHUNG CHỮ NHẬT .................................. 62 HÌNH 30C: PHÁT HIỆN MẶT NGHIÊNG TRÁI 30-60 ĐỘ - KHUNG CHỮ NHẬT .......................................... 62 HÌNH 31A: PHÁT HIỆN MẶT NGHIÊNG PHẢI 60 ĐẾN 90 ĐỘ -KHUNG TRÒN ........................................... 63 HÌNH 31B: PHÁT HIỆN MẶT NGHIÊNG TRÁI 60 ĐẾN 90 ĐỘ – KHUNG CHỮ NHẬT ................................. 63 HÌNH 32A: PHÁT HIỆN MẶT THẲNG VÀ CHÍNH DIỆN – KHUNG TRÒN ................................................... 64 HÌNH 32B: PHÁT HIỆN MẶT THẲNG VÀ CHÍNH DIỆN – KHUNG CHỮ NHẬT .......................................... 64 HÌNH 33: BIỂU ĐỒ ĐÁNH GIÁ ĐỘ CHÍNH XÁC THEO D1 VÀ F-SCORE ..................................................... 69 5 Luận văn tốt nghiệp: Phát hiện khuôn mặt nghiêng trên ảnh và video MỞ ĐẦU Ngày nay cùng với sự bùng nổ thông tin, sự phát triển công nghệ cao, sự giao tiếp giữa con ngƣời và máy tính đang thay đổi rất nhanh, giờ đây giao tiếp này không còn đơn thuần dùng những thiết bị cơ học nhƣ chuột, bàn phím… mà có thể thông qua các biểu hiện của khuôn mặt. Bên cạnh đó, công nghệ càng phát triển thì giá cả ngày càng giảm, thêm vào đó tốc độ xử lý của máy tính ngày càng cao, do đó hệ thống xử lý khuôn mặt đang đƣợc phát triển rất nhiều. Trong đó, bài toán phát hiện khuôn mặt thẳng và chính diện đang đạt đƣợc một kết quả rất khả quan với mô hình “Bộ phân tầng của các lớp” (Cascade of Boosted Classifiers) do Viola và Jones đề nghị. Mô hình này đạt hiệu quả cao cả về độ chính xác lẫn thời gian phát hiện. Tuy nhiên, bài toán này vẫn còn là một thử thách rất lớn bởi phát hiện đƣợc khuôn mặt còn dựa vào nhiều yếu tố nhƣ tỉ lệ, vị trí, hƣớng nhìn (từ trên xuống, quay…), kiểu chụp (chụp đối diện, chụp ngang …). Ngoài ra, những cảm xúc của khuôn mặt, một số phần bị che, hoặc hƣớng ánh sáng cũng ảnh hƣởng đến bài toán phát hiện khuôn mặt. Mục tiêu của luận văn này là thử nghiệm áp dụng mô hình “Bộ phân tầng của các lớp” lên bài toán phát hiện khuôn mặt nghiêng trên ảnh và video với hy vọng nó cũng sẽ đạt đƣợc kết quả tốt nhƣ trên bài toán phát hiện khuôn mặt thẳng và chính diện. Luận văn này nằm trong khuôn khổ dự án “Nghiên cứu xây dựng một mô hình môi trƣờng phòng làm việc thông minh” thực hiện bởi phòng thí nghiệm Tƣơng tác ngƣời – máy, trƣờng Đại học Công Nghệ, Đại học Quốc Gia Hà Nội. 6 Luận văn tốt nghiệp: Phát hiện khuôn mặt nghiêng trên ảnh và video Nội dung luận văn đƣợc trình bày trong 3 chƣơng với bố cục nhƣ sau: Chƣơng 1: Trình bày về lịch sử phát triển, các vấn đề khó khăn trong bài toán phát hiện khuôn mặt, ứng dụng của bài toán và độ đo đánh giá chất lƣợng. Tìm hiểu các hƣớng tiếp cận giải quyết bài toán, đồng thời tóm tắt, sơ lƣợc về các phƣơng pháp nghiên cứu và thành quả đạt đƣợc của các nhà nghiên cứu trong bài toán phát hiện khuôn mặt. Chƣơng 2: Đi sâu vào hƣớng tiếp cận dựa theo thuật toán phân lớp Adaboost. Giới thiệu về các đặc trƣng Haar-like của khuôn mặt, cách tính các đặc trƣng Haar-like. Tiếp theo là giới thiệu về mô hình “Bộ phân tầng của các lớp” và cách áp dụng vào bài toán phát hiện khuôn mặt thẳng và khuôn mặt nghiêng trên ảnh và video. Chƣơng 3: Xây dựng ứng dụng với các chức năng phát hiện khuôn mặt nghiêng trên ảnh tĩnh và trên camera kết hợp với chức năng phát hiện khuôn mặt thẳng của thƣ viện OpenCV. 7 Luận văn tốt nghiệp: Phát hiện khuôn mặt nghiêng trên ảnh và video CHƢƠNG I CÁC PHƢƠNG PHÁP PHÁT HIỆN KHUÔN MẶT 1.1. Tổng quan 1.1.1. Lịch sử phát triển Phát hiện và nhận dạng khuôn mặt trong ảnh có rất nhiều ứng dụng trong cuộc sống, bài toán này đã đƣợc các nhà khoa học quan tâm và nghiên cứu từ những năm 1970, phát triển mạnh mẽ vào những năm 1990 khi có những tiến bộ trong công nghệ video. Ngày nay, khi công nghệ phát triển vƣợt bậc thì các ứng dụng về phát hiện và nhận dạng khuôn mặt đã trở thành phổ biến trong cuộc sống. Tuy nhiên, do tính phức tạp và đa dạng của thực tế nên việc tìm ra một giải pháp toàn diện và hoàn chỉnh cho vấn đề này vẫn đang là một thách thức. Dựa vào tính chất của các phƣơng pháp phát hiện khuôn mặt, cho đến nay, xét về cơ bản ta có thể chia các giải pháp đó theo 4 hƣớng tiếp cận chính: - Hướng tiếp cận dựa trên tri thức (Knowledge-based methods) - Hướng tiếp cận dựa trên đặc trưng bất biến (Feature-based methods) - Hướng tiếp cận dựa trên đối sánh mẫu (Template matching) - Hướng tiếp cận dựa trên thể hiện bề ngoài (Appearance-based methods) Ngoài ra, còn một số nghiên cứu liên quan nhiều hơn một hướng tiếp cận trên. 1.1.2. Các vấn đề gặp phải của bài toán phát hiện mặt ngƣời Bài toán phát hiện mặt ngƣời đã đƣợc nghiên cứu từ những năm 70, ngƣời đầu tiên là Kanade [1]. Tuy nhiên, đây là một bài toán khó nên những nghiên cứu hiện tại vẫn chƣa đạt đƣợc kết quả mong muốn. Có thể kể đến những khó khăn của bài toán phát hiện mặt ngƣời nhƣ sau:  Tư thế, góc chụp: Ảnh chụp khuôn mặt có thể thay đổi rất nhiều bởi góc chụp giữa camera và khuôn mặt. Chẳng hạn nhƣ: chụp thẳng, chụp chéo bên trái 45o 8 Luận văn tốt nghiệp: Phát hiện khuôn mặt nghiêng trên ảnh và video hay chéo bên phải 45o, chụp từ trên xuống, chụp từ dƣới lên ...). Với các tƣ thế khác nhau, các thành phần trên khuôn mặt nhƣ mắt, mũi, miệng có thể bị khuất một phần hoặc thậm chí khuất hết.  Sự xuất hiện hoặc thiếu một số thành phần của khuôn mặt: Các đặc trƣng nhƣ: râu mép, râu hàm, mắt kính ... có thể xuất hiện hoặc không. Vấn đề này làm cho bài toán càng trở nên khó hơn rất nhiều.  Cảm xúc biểu hiện trên khuôn mặt: Cảm xúc có thể làm ảnh hƣởng đáng kể lên các thông số của khuôn mặt. Chẳng hạn, cùng một khuôn mặt một ngƣời, nhƣng có thể sẽ rất khác khi họ cƣời hoặc sợ hãi…  Sự che khuất: Khuôn mặt có thể bị che khuất bởi các đối tƣợng khác hoặc các khuôn mặt khác.  Hướng của ảnh: Các ảnh của khuôn mặt có thể biến đổi rất nhiều với các góc quay khác nhau của trục camera. Chẳng hạn chụp với trục máy ảnh nghiêng làm cho khuôn mặt bị nghiêng so với trục của ảnh.  Điều kiện của ảnh: Ảnh đƣợc chụp trong các điều kiện khác nhau về: chiếu sáng, về tính chất camera (máy kỹ thuật số, máy hồng ngoại ...) ảnh hƣởng rất nhiều đến chất lƣợng ảnh khuôn mặt. 1.1.3. Ứng dụng của bài toán phát hiện mặt ngƣời Ứng dụng của bài toán phát hiện mặt ngƣời có rất nhiều và đã đƣợc triển khai tƣơng đối hiệu quả trong thực tế. Phát hiện mặt ngƣời là khâu đầu tiên cho tất cả các ứng dụng phát hiện, theo dõi, nhận dạng …khuôn mặt. Có thể kể đến một số ứng dụng điển hình sau đây.  Hệ thống tương tác người - máy: thay thế việc tƣơng tác giữa ngƣời và máy theo những cách truyền thống nhƣ: bàn phím, chuột...bằng cách sử dụng các giao tiếp trực quan: biểu cảm khuôn mặt, ánh mắt …Nhƣ các ứng dụng điều khiển robot, ngôi nhà thông minh, hệ thống điều khiển bằng khuôn mặt, cảm xúc dành cho ngƣời tàn tật … 9 Luận văn tốt nghiệp: Phát hiện khuôn mặt nghiêng trên ảnh và video  Hệ thống giám sát, theo dõi: nhằm phát hiện đối tƣợng khả nghi thông qua hệ thống camera đƣợc đặt tại một số điểm công cộng nhƣ: siêu thị, nhà sách, trạm xe buýt, sân bay, văn phòng các công ty ...  Hệ thống lưu trữ hình ảnh: lƣu trữ hình ảnh chủ thẻ ATM và so sánh với những ngƣời rút tiền vào từng thời điểm hay lƣu trữ hình ảnh chủ thẻ căn cƣớc, chứng minh nhân dân, chủ nhân máy tính …  Hệ thống tìm kiếm thông tin trên ảnh, video: là bƣớc đệm cho việc tìm kiếm dựa trên nội dung ảnh hay video.  Công nghệ ảnh kỹ thuật số: các hãng điện thoại di động và máy ảnh đã đƣa ứng dụng về khuôn mặt vào công nghệ chụp ảnh tự động, ví dụ nhƣ khi mặt cƣời máy tự động chụp …. 1.1.4. Sơ đồ tổng quát của quá trình phát hiện đối tƣợng Đầu vào Phát hiện đối tƣợng Thu tín hiệu, tiền xử lý vào Trích chọn đặc trƣng Phân đoạn Hình 1 Sơ đồ tổng quan của hệ thống phát hiện đối tượng  Thu nhận tín hiệu, tiền xử lý Nếu là hệ thống phát hiện đối tƣợng vật lý, ở đầu vào của hệ thống thƣờng là một loại thiết bị chuyển đổi nhƣ máy ghi hình hay ghi âm… Thiết bị này thu nhận tín hiệu để phát hiện đối tƣợng. Các tín hiệu này thông thƣờng sẽ đƣợc số hóa, sau đó sẽ đƣợc tiến hành tiền xử lý nhƣ: lọc nhiễu, tách ngƣỡng… 10 Luận văn tốt nghiệp: Phát hiện khuôn mặt nghiêng trên ảnh và video  Phân đoạn Phân đoạn là một trong những bài toán rất khó trong phát hiện đối tƣợng. Chẳng hạn, trong bài toán phát hiện văn bản thì giai đoạn phân đoạn chính là việc xác định đâu là vùng dữ liệu văn bản để phát hiện, tiếp đó ta phải tách đƣợc những vùng có thể là một từ, rồi lại tách tiếp ra từng ký tự ... Nhƣ vậy, có thể nói việc phân đoạn trong bài toán phát hiện đối tƣợng là quá trình xác định đƣợc đâu là vùng dữ liệu cần quan tâm.  Trích chọn đặc trƣng Ranh giới khái niệm giữa việc trích chọn đặc trƣng và phân lớp ở góc độ nào đó có phần không thực sự rõ ràng. Một bộ trích chọn đặc trƣng lý tƣởng phải làm cho công việc còn lại của bộ phân lớp trở nên dễ dàng hơn. Mục tiêu chung của bộ trích chọn đặc trƣng là dựa trên tín hiệu thu đƣợc để mô tả các đối tƣợng bằng các giá trị xấp xỉ bằng nhau đối với các đối tƣợng thuộc cùng loại, và khác xa nhau nếu khác loại. Hơn nữa để tiện xử lý thì số lƣợng đặc trƣng càng ít càng tốt. Điều này dẫn đến việc phải tìm ra các đặc trƣng khác nhau và chúng không phụ thuộc vào hoàn cảnh thu nhận tín hiệu về đối tƣợng. Đầu ra của công đoạn này đƣợc gọi là véc-tơ đặc trƣng của đối tƣợng, thông thƣờng đây là một véc-tơ số thực.  Phát hiện Nhiệm vụ của phần này trong hệ thống là sử dụng các véc-tơ đặc trƣng đƣợc cung cấp từ bƣớc trích chọn đặc trƣng để gắn các đối tƣợng vào các lớp hoặc phân tích hồi quy hay mô tả đối tƣợng. Các kỹ thuật thƣờng đƣợc sử dụng cho công đoạn phát hiện gồm: thuật toán k-láng giềng gần nhất, mạng nơ-ron, máy hỗ trợ véc-tơ SVM... Nói chung, ở bƣớc này gần nhƣ đã có công thức xử lý cố định và thƣờng không bị phụ thuộc vào bài toán phát hiện mẫu cụ thể nào. Theo quan niệm, cách đơn giản nhất để đánh giá hoạt động của một bộ phát hiện đối tƣợng là xem tỷ lệ phát hiện đối tƣợng sai với các mẫu mới. Do đó chúng ta cần phải phát hiện đối tƣợng với tỷ lệ lỗi thấp nhất. 11 Luận văn tốt nghiệp: Phát hiện khuôn mặt nghiêng trên ảnh và video 1.1.5. Các độ đo đánh giá chất lƣợng Để đánh giá chất lƣợng hệ thống phát hiện mặt ngƣời, chúng ta thƣờng đánh giá trên tiêu chí sau đây:  Độ chính xác: Độ chính xác là một yêu cầu với bất kỳ hệ thống nào. Độ chính xác thể hiện tính tin cậy của hệ thống. Ngƣời ta thƣờng đánh giá độ chính xác dựa trên tỉ lệ phát hiện đúng và tỉ lệ phát hiện sai. Ví dụ: Tỉ lệ phát hiện đúng = 0.95 có nghĩa là trong số 100 mẫu đối tƣợng thử nghiệm, hệ thống chỉ nhận ra đƣợc 95 đối tƣợng là khuôn mặt (5 mẫu còn lại đƣợc bộ phân loại cho không phải khuôn mặt). Tỉ lệ phát hiện sai là tỉ lệ phát hiện nhầm các đối tƣợng không phải khuôn mặt. Ví dụ: Tỉ lệ phát hiện sai = 0.01 có nghĩa là cứ 100 mẫu không phải là khuôn mặt thì có 1 mẫu bị hệ thống phát hiện nhầm thành khuôn mặt.  Thời gian Thời gian phát hiện càng nhanh càng tốt, một hệ thống cần phải đáp ứng yêu cầu thời gian thực. Phát hiện khuôn mặt trên ảnh và video, ngƣời ta xác định thời gian phát hiện bằng cách tính số khung hình xử lý đƣợc trên 1 giây.  Tính thích nghi Một hệ thống phát hiện khuôn mặt cũng cần đáp ứng tính thích nghi, tức là phải có khả năng đảm bảo độ phát hiện chính xác khi có sự thay đổi của môi trường và đối tượng đưa vào hệ thống. 12 Luận văn tốt nghiệp: Phát hiện khuôn mặt nghiêng trên ảnh và video 1.2. Các phƣơng pháp phát hiện khuôn mặt 1.2.1 Phƣơng pháp dựa trên tri thức Trong hƣớng tiếp cận này, phƣơng pháp phát hiện khuôn mặt dựa trên các quy tắc rút ra từ những tri thức về khuôn mặt đƣợc các nhà khoa học mã hóa thành các luật mô tả quan hệ của các đặc trƣng. Dễ dàng để có đƣợc luật đơn giản để thể hiện các đặc trƣng mặt ngƣời và mối quan hệ giữa chúng. Chẳng hạn, một khuôn mặt thƣờng có hai mắt đối xứng nhau, một mũi và một miệng. Quan hệ giữa chúng thể hiện qua quan hệ khoảng cách hay vị trí. Thƣờng thì các đặc trƣng khuôn mặt của ảnh đầu vào đƣợc trích chọn trƣớc để đƣa ra các ứng viên, tiếp đó là dùng tập luật trên đây để loại bỏ tiếp các ứng viên không phải khuôn mặt. Thông thƣờng có một giai đoạn kiểm tra lại kết quả các ứng viên khuôn mặt đó để tăng độ chính xác của hệ thống. Tuy nhiên, hƣớng tiếp cận này gặp một khó khăn đó là làm thế nào để chuyển các tri thức của con ngƣời về khuôn mặt sang các tập luật cho máy tính một cách hiệu quả. Nếu các tập luật quá chi tiết sẽ rất dễ dẫn đến bỏ sót các khuôn mặt thật, ngƣợc lại nếu tập luật sơ sài sẽ dẫn đến kết quả có rất nhiều khuôn mặt mà trong số đó có cả các ứng viên không phải khuôn mặt. Thêm vào đó hƣớng tiếp cận này là khá khó khăn khi mở rộng bài toán trong các trƣờng hợp tƣ thế chụp khác nhau vì tƣ thế chụp có thể dẫn đến luật trên đây áp dụng không đúng nữa. Theo hƣớng tiếp cận này, chúng ta sẽ xem xét 2 nghiên cứu sau đây: 1.2.1.1. Phương pháp của Yang và Huang Hai nhà khoa học Yang và Huang[4,31] đã dùng phƣơng pháp có thứ tự theo hƣớng tiếp cận này để phát hiện khuôn mặt. Hệ thống này bao gồm 3 tầng luật:  Tầng thứ nhất: Dùng một khung cửa sổ quét trên ảnh và thông qua một tập luật để tìm các ứng viên có thể là khuôn mặt.  Tầng thứ hai: Sử dụng các tập luật mô tả chung về khuôn mặt. 13 Luận văn tốt nghiệp: Phát hiện khuôn mặt nghiêng trên ảnh và video  Tầng thứ ba: Dùng một tập luật khác để xem xét một cách chi tiết các đặc trƣng khuôn mặt. Một hệ thống ảnh đa phân giải đƣợc xây dựng theo các mẫu con với độ xám của cả mẫu đó đƣợc thay bằng mức xám trung bình của mẫu. Ví dụ nhƣ dƣới đây: (a) (b) (c) (d) (a)- ảnh ban đầu có độ phân giải n=1; (b),(c) và (d): ảnh có độ phân giải n=4,8 và 16 Hình 2 Các ảnh với độ phân giải khác nhau Các mẫu đƣợc mã hóa theo quy tắc nxn điểm có giá trị trung bình của các điểm trong mẫu. Trái qua phải n=1,4,8,16. Hình 3 Một tri thức về khuôn mặt Yang và Huang sử dụng tri thức về khuôn mặt với một số tính chất độ sáng nhƣ trên hình 3 và phát triển hệ thống dựa trên 3 tầng luật:  Tầng thứ nhất: Tìm ứng viên khuôn mặt trong mức phân giải thấp nhất gồm có phần trung tâm của mặt với 4 phần có mức sáng tƣơng đối đều nhau, tiếp theo là phần xung quanh, sáng hơn một chút cũng có độ sáng gần nhƣ nhau (chênh lệch độ sáng giữa hai vùng nói trên là đủ lớn). 14 Luận văn tốt nghiệp: Phát hiện khuôn mặt nghiêng trên ảnh và video  Tầng thứ hai: Dùng biểu đồ historgram để xem xét tiếp các ứng viên trên đây, đồng thời tìm ra đƣờng cạnh bao xung quanh ứng viên.  Tầng thứ ba: Những ứng viên nào còn lại sẽ đƣợc xem xét các đặc trƣng của khuôn mặt về mắt và miệng. Nhận xét: Phƣơng pháp này dùng chiến lƣợc từ thô đến mịn theo kiểu tiếp cận từ trên xuống, khá đơn giản, dễ thực hiện, tuy nhiên, kết quả lại chƣa cao. Song các ý tƣởng của phƣơng pháp đã làm nền tảng cho các nghiên cứu sau này. 1.2.1.2. Phương pháp của Kotropoulos và Pitas Kotropoulos và Pitas đƣa ra một phƣơng pháp tƣơng tự dùng trên độ phân giải thấp. Hai ông khá thành công trong việc định vị vùng chứa khuôn mặt bằng phƣơng pháp chiếu. Ảnh đƣợc nghiên cứu là ảnh đa mức xám. Cơ sở của phƣơng pháp có thể hiểu nhƣ sau:  Giả thiết I(x,y) là độ xám tại vị trí tọa độ (x,y) của ảnh kích thƣớc mxn  Định nghĩa: HI(x)= : đặc trưng xám ngang. VI(y)= : đặc trưng xám dọc.  Với nhận xét mức xám vùng da mặt chỉ nằm trong 1 khoảng nhất định, từ đó dựa trên sự thay đổi của đƣờng cong HI(x), tìm ra 2 cực trị địa phƣơng tƣơng ứng với hai bên của phần đầu ngƣời. Tƣơng tự với sự thay đổi của VI(y), tìm ra các cực trị địa phƣơng tƣơng ứng với vùng đôi mắt, đôi môi và đỉnh mũi. Các đặc trƣng này đủ để phát hiện đƣợc các ứng viên khuôn mặt. Xem ví dụ dƣới đây cho giải thuật này. Hình 4.a minh họa cho cách xác định biên của khuôn mặt ứng với các cực trị địa phƣơng nhƣ đã nêu trên đây. Sau đó dùng vài luật đơn giản để kiểm tra lại ví nhƣ việc tồn tại của lông mày/ mắt, lỗ mũi/ mũi hay cái miệng … Tuy nhiên ở hai hình bên 4.b và 4.c việc xác định các cực trị địa phƣơng 15 Luận văn tốt nghiệp: Phát hiện khuôn mặt nghiêng trên ảnh và video nhƣ đã nêu là rất khó khăn do sự thay đổi của các đƣờng cong HI(x) và VI(y) phụ thuộc vào nhiều yếu tố. (a) (b) (c) (a) ảnh có 1 khuôn mặt và hình nền đơn giản; (b): ảnh có 1 khuôn mặt và hình nền phức tạp; (c): ảnh có nhiều khuôn mặt. Hình 4 Phương pháp chiếu Mỗi ảnh chỉ chứa 1 khuôn mặt trên 1 nền không đổi. Phƣơng pháp của họ tìm ra đƣợc đúng các ứng viên khuôn mặt. Tỷ lệ phát hiện đúng là 86.5% và định vị đúng các đặc trƣng của khuôn mặt nhƣ mắt, mũi, môi … Trƣờng hợp hình 4.b rất khó tìm và trƣờng hợp hình 4.c thì sẽ không xác định đƣợc. Nhận xét: phƣơng pháp của Kotropoulos Pitas khá đơn giản, dễ thực hiện, tuy nhiên, phƣơng pháp này lại chỉ cho hiệu quả cao với các ảnh có một khuôn mặt, tƣ thế chụp thẳng và nền ảnh không quá phức tạp. Sau này, phƣơng pháp này đã đƣợc cải tiến, kết hợp với ý tƣởng đa phân giải, hay tiền xử lí trƣớc khi chiếu. Đánh giá hướng tiếp cận dựa trên tri thức  Ưu điểm: Dễ dàng xây dựng những nguyên tắc đơn giản để mô tả các đặc trƣng của khuôn mặt và mối quan hệ giữa chúng. Định vị tốt cho mặt chính diện của khuôn mặt trong ảnh có nền không phức tạp. Giải thuật đơn giản, dễ triển khai, thời gian xử lí chấp nhận đƣợc. 16 Luận văn tốt nghiệp: Phát hiện khuôn mặt nghiêng trên ảnh và video  Nhược điểm: Việc chuyển đổi tri thức con ngƣời thành những nguyên tắc chính xác là khó khăn dẫn đến độ chính xác trong phát hiện chƣa cao. Khó có thể mở rộng phƣơng pháp này cho bài toán phát hiện khuôn mặt trong các trƣờng hợp, tƣ thế khác nhau. 1.2.2. Phƣơng pháp dựa trên đặc trƣng bất biến Đây là hƣớng tiếp cận theo kiểu từ dƣới lên. Khác với hƣớng tiếp cận dựa trên tri thức, theo hƣớng tiếp cận này các nhà khoa học cố gắng tìm ra các đặc trƣng bất biến của khuôn mặt phục vụ cho việc phát hiện khuôn mặt. Trên tƣ tƣởng các đặc trƣng bất biến này vẫn tồn tại và có thể nhận biết dễ dàng các khuôn mặt và các đối tƣợng trong các điều kiện chiếu sáng và tƣ thế khác nhau. Có nhiều nghiên cứu trƣớc nhằm xác định sự tồn tại đặc trƣng khuôn mặt và sau đó chỉ ra có khuôn mặt hay không. Các đặc trƣng nhƣ lông mày, mắt, mũi, miệng, và đƣờng viền của tóc đƣợc trích bằng phƣơng pháp xác định cạnh. Trên cơ sở các đặc trƣng này, xây dựng một mô hình thống kê để mô tả các quan hệ giữa các đặc trƣng để kiểm tra sự tồn tại của khuôn mặt. Vấn đề ở đây là các đặc trƣng này có thể bị sai khác đi tùy thuộc điều kiện chiếu sáng, nhiễu, hay có thể bị che khuất. Bên cạnh đó, bóng của ảnh cũng có thể tạo ra các cạnh gây lên sự nhầm lẫn, những vấn đề này gây ra khó khăn cho việc xác định khuôn mặt, do đó cần có sự điều chỉnh phù hợp. Sau đây ta xem xét cụ thể hơn về một số phƣơng pháp theo hƣớng tiếp cận này: 1.2.2.1. Phương pháp của Leung - Random Graph Matching Có rất nhiều nghiên cứu về các đặc trƣng của khuôn mặt. Có thể dựa vào các đặc trƣng nhƣ: hai mắt, hai lỗ mũi, miệng, phần nối giữa mũi và miệng … hoặc dựa vào đƣờng viền của khuôn mặt. Leung đã phát triển một mô hình xác suất để định vị khuôn mặt trong ảnh nền phức tạp dựa vào việc xác định các đặc trƣng cục bộ và bộ so sánh đồ thị ngẫu nhiên[5]. 17 Luận văn tốt nghiệp: Phát hiện khuôn mặt nghiêng trên ảnh và video Ý tƣởng ở đây là:  Đƣa ra quy tắc định vị khuôn mặt thông qua các đặc trƣng của mặt bằng việc tìm ra một trật tự hình học các đặc trƣng sao cho gần với mẫu khuôn mặt nhất.  Các đặc trƣng đƣợc xác định bởi giá trị trung bình các đáp ứng đa hƣớng, đa tỷ lệ qua bộ lọc đạo hàm Gauss.  Học các cấu hình của đặc trƣng khuôn mặt với phân bố Gauss của các khoảng cách qua lại giữa các đặc trƣng.  Dựa trên sự gần giống nhau giữa các đặc trƣng, dùng bộ lọc Gauss để định vị các đặc trƣng là ứng viên.  Cuối cùng, dùng bộ khớp đồ thị ngẫu nhiên đối với các đặc trƣng ứng viên trên để xác định khuôn mặt. Ông xem bài toán phát hiện khuôn mặt nhƣ là bài toán tìm kiếm với mục tiêu là tìm thứ tự các đặc trƣng không thay đổi của khuôn mặt để tạo ra một mẫu giống khuôn mặt. Dùng 5 đặc trƣng: hai mắt, hai lỗ mũi, phần nối giữa mũi và miệng …để mô tả khuôn mặt. Ông luôn tính quan hệ khoảng cách với các đặc trƣng cặp (chẳng hạn mắt trái và mắt phải), dùng mô hình Gauss để mô hình hóa. Định nghĩa một mẫu khuôn mặt bởi giá trị trung bình tập kết quả của bộ lọc đạo hàm đa hƣớng, đa tỉ lệ (tại các điểm trong vùng đặc trƣng mặt) trên tổng số các mặt trong tập dữ liệu. Với 1 ảnh cần kiểm tra, mỗi đặc trƣng mặt đƣợc chỉ ra bằng cách khớp đáp ứng bộ lọc tại mỗi điểm với đáp ứng véc-tơ mẫu. Chọn hai đặc trƣng với đáp ứng tốt nhất để làm cơ sở cho việc tìm các đặc trƣng khác của khuôn mặt. Vì rằng các đặc trƣng không thể xuất hiện tùy tiện nên có thể dùng mô hình xác xuất để định vị chúng qua khoảng cách. Các hình sao đƣợc hình thành từ các đặc trƣng ứng viên trong vùng thích hợp. Việc tìm kiếm hình sao tốt nhất đƣợc xem nhƣ việc khớp đồ thị mà các nút tƣơng ứng với các đặc trƣng khuôn mặt, còn các cạnh ứng với khoảng cách giữa các đặc trƣng. Hạng của các hình sao đƣợc tính dựa trên hàm tỉ lệ xác suất mà hình sao đó ứng với khuôn mặt thật và không phải khuôn mặt rồi đƣa ra kết luận cho ứng viên hình sao đó. 18

- Xem thêm -

Tài liệu Phát triển khuôn mặt nghiêng trên ảnh và video

Tài liệu liên quan

Tài liệu vừa đăng

Tài liệu xem nhiều nhất