Đăng ký Đăng nhập
Trang chủ Giáo dục - Đào tạo Cao đẳng - Đại học Tìm kiếm và nhận dạng khuôn mặt người trong ảnh...

Tài liệu Tìm kiếm và nhận dạng khuôn mặt người trong ảnh

.PDF
72
236
76

Mô tả:

MỤC LỤC MỞ ĐẦU ............................................................................................... 7 1 Chương 1 PHÁT BIỂU BÀI TOÁN .................................................... 9 1.1 Tổng quan và các khái niệm liên quan đến nhận dạng khuôn mặt ................................................ 9 1.1.1 Hệ thống sinh trắc học ....................................................................................................... 9 1.1.2 Hệ thống nhận dạng khuôn mặt .......................................................................................... 9 1.1.3 Hệ thống xác minh hay xác thực khuôn mặt là gì? ............................................................... 9 1.1.4 Hệ thống nhận dạng tĩnh - tĩnh, tĩnh - động, động - động.................................................. 10 1.1.4.1 1.1.4.2 1.1.4.3 Hệ thống nhận dạng tĩnh - tĩnh ................................................................................................... 10 Hệ thông nhận dạng tĩnh - động ................................................................................................. 10 Hệ thống nhận dạng động - động ................................................................................................ 10 1.1.5 Những thách thức trong bài toán nhận dạng khuôn mặt .................................................... 10 1.1.6 Sai số trong hệ nhận dạng [20]......................................................................................... 10 1.2 Các ứng dụng tương tác người máy (Human computer interactive) liên quan đến khuôn mặt ..... 11 1.3 Các hướng tiếp cận chính trong lĩnh vực nhận dạng khuôn mặt ................................................. 13 1.3.1 Các công trình nghiên cứu về phương pháp nhận dạng và kiểm chứng chất lượng cho một hệ thống nhận dạng khuôn mặt ............................................................................................................. 13 1.3.2 Hướng tiếp cận được thử nghiệm trong luận văn............................................................... 15 2 Chương 2 DÒ TÌM KHUÔN MẶT TRONG ẢNH MÀU................ 16 2.1 Giới thiệu ................................................................................................................................ 16 2.1.1 Các thách thức trong việc dò tìm khuôn mặt...................................................................... 16 2.1.2 Một số hướng tiếp cận thường được dùng trong dò tìm khuôn mặt nhanh .......................... 17 2.2 Tìm kiếm khuôn mặt người trong ảnh dựa trên màu da ............................................................. 18 2.2.1 Giới thiệu [16] ................................................................................................................. 18 2.2.2 Dò tìm da trên ảnh màu .................................................................................................... 19 2.2.2.1 2.2.3 2.2.3.1 2.2.4 2.2.4.1 2.2.4.2 2.2.5 2.2.5.1 2.2.5.2 2.2.5.3 2.2.6 Mô hình hóa da.......................................................................................................................... 20 Không gian màu cho mô hình da....................................................................................... 23 Phân tách vùng da trong không gian màu rg................................................................................ 25 Xác định vùng da sử dụng entropy .................................................................................... 28 Khái niệm về entropy................................................................................................................. 28 Phát hiện màu da bằng mô hình Entropy cực đại. ........................................................................ 29 Định vị khuôn mặt bên trong các vùng da ......................................................................... 35 Giới thiệu .................................................................................................................................. 35 Định vị vùng khả năng mặt ........................................................................................................ 36 Ra quyết định sử dụng đối sánh mẫu .......................................................................................... 39 Kết luận về tìm kiếm khuôn mặt dựa trên màu da .............................................................. 41 3 Chương 3 RÚT TRÍCH ĐẶC TRƯNG TỪ KHUÔN MẶT ............ 42 Tiếp cận theo phương pháp phân tích thành phần chính (Principal Component Analysis hay PCA) 42 3.1.1 Vector riêng, Trị riêng và sự chéo hoá của ma trận ........................................................... 42 3.1.2 Kì vọng và phương sai trong thống kê đa chiều ................................................................. 43 3.2 Phương pháp phân tích thành phần chính (Principal Component Anlysis hay PCA)................... 43 3.2.1 Yêu cầu ............................................................................................................................ 43 3.2.2 Trích đặc trưng bằng phương pháp PCA .......................................................................... 44 3.2.3 Kỹ thuật tính đặc trưng bằng PCA .................................................................................... 46 3.3 Phương pháp PCA toàn cục và cục bộ ...................................................................................... 48 3.3.1 Phương pháp PCA toàn cục.............................................................................................. 48 3.3.2 Phương pháp PCA cục bộ................................................................................................. 48 3.4 Đánh giá .................................................................................................................................. 49 3.4.1 Mộ số đánh giá quan trọng về rút trích đặc trưng bằng phương pháp PCA ........................ 49 3.4.2 So sánh phương pháp PCA toàn cục và PCA cục bộ.......................................................... 49 3.1 4 Chương 4 MÔ HÌNH MAKOV ẨN VÀ ỨNG DỤNG NHẬN DẠNG KHUÔN MẶT .......................................................................................... 50 3 4.1 Giới thiệu mô hình Makov ẩn ................................................................................................... 50 4.1.1 Mô hình Markov ............................................................................................................... 50 4.1.2 Mô hình Markov ẩn [19] .................................................................................................. 51 4.1.2.1 4.1.2.2 4.1.2.3 4.1.2.4 Mô hình Markov ẩn và nhận dạng mặt người .................................................................... 58 4.1.3 4.1.3.1 4.1.3.2 4.1.3.3 4.1.3.4 4.1.3.5 4.1.3.6 4.1.3.7 4.2 Xác suất của chuỗi quan sát ....................................................................................................... 52 Dãy trạng thái tối ưu .................................................................................................................. 54 Hiệu chỉnh các tham số của mô hình .......................................................................................... 55 Khoảng cách giữa các mô hình Markov ẩn ................................................................................. 55 Ý tưởng..................................................................................................................................... 58 Mô hình Markov ẩn biểu diễn ảnh mặt ....................................................................................... 59 Trích chọn đặc trưng.................................................................................................................. 60 Luyện mô hình mặt.................................................................................................................... 64 Nhận dạng khuôn mặt người trong ảnh ....................................................................................... 66 Tìm kiếm khuôn mặt người trong ảnh......................................................................................... 67 Các dạng của mô hình Markov ẩn trong mô tả khuôn mặt ........................................................... 69 Kết chương .............................................................................................................................. 70 5 KẾT LUẬN ......................................................................................... 71 6 TÀI LIỆU THAM KHẢO .................................................................. 72 4 DANH MỤC CÁC HÌNH Hình 1-1. So sánh hai tác vụ nhận dạng khuôn mặt và xác nhận khuôn mặt ....................... 9 Hình 1-2. Hình biểu diễn hàm FRR và FAR ..................................................................... 11 Hình 2-1. Ảnh màu với da và kết quả của sự dò tìm da ................................................... 18 Hình 2-2. Mẫu da của mỗi người rất khác nhau............................................................... 19 Hình 2-3. Mẫu da bị ảnh hưởng bởi các loại nhiễu và biến dạng ..................................... 19 Hình 2-4. Những mạng SOM với những hệ thống khu lân cận ........................................ 21 Hình 2-5. Phân phối màu cho các màu da khác nhau ...................................................... 27 Hình 2-6. Biểu diễn mô hình màu da bằng phân phối Gauss ............................................ 27 Hình 2-7. Đường cong entropy của biểu diễn biến ngẫu nhiên......................................... 29 Hình 2-8. 4 điểm lân cận và 8 điểm lân cận ..................................................................... 30 Hình 2-9. Một ảnh mẫu từ tập phân phối thỏa mãn D, có năng lượng cực tiểu ................ 33 Hình 2-10. Hình (a): ảnh gốc, hình (b): Baseline, hình (c): HMM, .................................. 35 Hình 2-11. Khuôn mặt mẫu của Chang và Robles ............................................................ 39 Hình 2-12. Khuôn mặt mẫu tổng hợp ............................................................................... 39 Hình 2-13. Khuôn mặt mẫu được điều chỉnh kích thước................................................... 40 Hình 2-14. Khuôn mặt mẫu được xoay và điều chỉnh lại kích thước ................................. 40 Hình 4-5. Tính hội tụ của khoảng cách HMM khi độ dài chuỗi quan sát tăng .................. 58 Hình 4-6.(a) Mô hình ergodic 4 trạng thái (b) Mô hình trái - phải 4 trạng thái................ 59 Hình 4-7. Mô hình mặt 6 trạng thái ................................................................................. 60 Hình 4-8. Ảnh mặt và phương pháp trích chọn khối quan sát. .......................................... 61 Hình 4-9. Chiến lược huấn luyện mô hình Markov ẩn cho biểu diễn khuôn mặt ............... 66 Hình 4-10. Nhận dạng mặt sử dụng mô hình Marov ẩn .................................................... 67 Hình 4-11. Tìm kiếm khuôn mặt sử dụng mô hình Markov ............................................... 68 Hình 4-12. Mô hình Markov ẩn nhúng với 3 siêu trạng thái ............................................. 70 5 BẢNG CÁC TỪ VIẾT TẮT Kí hiệu Từ Tiếng Anh Civil Giải thích Aviation Tổ chức Hàng không Dân dụng Quốc tế ICAO International Organization FAR False Acceptance Rate FMR False Match Rate FRR False Reject Rate FNMR False Non Match Rate TAR True Accpetance Rate Độ chính xác PCA Principal Component Analysis Phân tích thành phần chính HMM Hidden Markov Model Mô hình Markov ẩn LDA Linear discriminant analysis Phân tích độc lập tuyến tính KLT Karhunen-Loève transform Phép biến đổi Karhuen-loeve DCT Discrete cosine transform Phép biến đổi Cosin rời rạc ORL Olivetti Research Laboratory PDF probability density function Sai số bắt nhầm Sai số bỏ sót hàm mật độ xác suất 6 0 MỞ ĐẦU  Ngày nay, cùng với những tiến bộ vượt bậc của khoa học kỹ thuật nói chung, bộ môn khoa học xử lý ảnh đã và đang thu được những thành tựu lớn lao và chứng tỏ vài trò không thể thiếu với những ứng dụng sâu rộng trong khoa học kỹ thuật cũng như đời sống xã hội. Một bộ phận của khoa học xử lý ảnh là lĩnh vực thị giác máy tính hiện đang thu hút rất nhiều sự quan tâm của các nhà nghiên cứu xử lý ảnh với mục tiêu xây dựng nên một thế giới trong đó hệ thống thị giác kỳ diệu của con người có thể được mô phỏng bởi các hệ thống máy tính, đem lại khả năng cảm nhận bằng thị giác cho các hệ thống về môi trường xung quanh. Mơ ước về một hệ thống máy tính có thể hoà nhập vào thế giới con người với đầy đủ các giác quan trong đó thị giác đóng vai trò quan trọng đang dần dần được hiện thực hoá với những đóng góp nghiên cứu của các nhà khoa học trên phạm vi toàn thế giới. Đồng thời việc phát triển của các thiết bị phần cứng cả về phương diện thu nhận, hiển thị, tốc độ xử lý đã mở ra nhiều hướng mới cho công nghệ xử lý ảnh. Nó có thể giải quyết các bài toán như giám sát tự động phục vụ trong cơ quan, ngân hàng, kho bạc, ... hoặc trong việc giám sát giao thông tự động, phục vụ tại bãi đỗ xe, trạm thu phí tự động hoặc việc phát hiện và nhận dạng mặt người phục vụ trong công tác quân sự, an ninh v.v... Đặc biệt trong lĩnh vực nhận dạng bằng sinh trắc học, sau sự kiện 11/9/2001, việc nghiên cứu và đưa vào ứng dụng thực tế lĩnh vực nhận dạng bằng sinh trắc đã được các nhà khoa học và chính phủ nhiều nước chú trọng. Đơn cử có thể kể tới hệ thống kiểm soát (tự động) tại các cửa khẩu vào /ra ở Mỹ, Úc, khối EU và ở một số nước châu Á (Singapore, Thái Lan, ...) đã xử dụng thông tin sinh trắc vào trong quá trình kiểm soát xác định thật giả về giấy tờ và con người. Cho đến nay, theo Tổ chức hàng không dân dụng thế giới - ICAO cho biết đã có khoảng 34 quốc gia áp dụng việc đưa các thông tin sinh trắc vào hộ chiếu để chống làm giả và dùng trong các của kiểm soát tự động tại biên giới. Trong đó, thông tin ảnh mặt là một thông tin bắt buộc dùng để đối sánh và nhận dạng bởi tuy các phương pháp nhận dạng bằng ảnh mặt thường cho chất lượng chưa cao bằng các phương pháp sử dụng các đặc điểm sinh trắc khác như vân tay hoặc tròng mắt do ảnh mặt thu nhận được thường bị ảnh hướng lớn của nhiễu, đặc biệt là môi trường và chất lượng của các thiết bị thu nhận hình ảnh song ảnh mặt là một đặc điểm sinh trắc mà ta có thể thu nhận một cách nhanh chóng và dễ dàng nhất (sử dụng các camera quan sát tự động). Tại Việt Nam, việc ứng dụng thông tin sinh trắc vào trong các giấy tờ (hộ chiếu, chứng minh thư, ...) cũng đang được tích cực nghiên cứu để đưa vào ứng dụng (hộ chiếu điện tử dự kiến sẽ được thử nghiệm trong năm 2008). Từ những lý do trên, tôi đã chọn đề tài luận văn: “Tìm kiếm và nhận dạng khuôn mặt người trong ảnh”. 7 Bố cục của luận văn gồm: Chương 1: Phát biểu bài toán Nêu lên một số khái niệm liên quan đến nhận dạng khuôn mặt; các ứng dụng tương tác người máy liên quan đến nhận dạng khuôn mặt; điểm qua một số phương pháp nhận dạng khuôn mặt được nghiên cứu và cải tiến trong thời gian gần đây. Chương 2: Dò tìm khuôn mặt người trong ảnh màu Giới thiệu một số phương pháp dò tìm khuôn mặt người dựa trên màu da. Chương 3: Rút trích đặc trưng từ khuôn mặt người Trình bày phương pháp phân tích các thành phần chính PCA (Principal Component Analysis) rút trích đặc trưng từ ảnh bản đầu. Chương 4: Mô hình Markov ẩn và ứng dụng nhận dạng khuôn mặt Giới thiệu mô hình Markov ẩn, một số bài toán cơ bản của mô hình Markov và ứng dụng mô hình trong nhận dạng khuôn mặt người. Chương 5: Kết luận 8 1 Chương 1 PHÁT BIỂU BÀI TOÁN 1.1 Tổng quan và các khái niệm liên quan đến nhận dạng khuôn mặt 1.1.1 Hệ thống sinh trắc học Hệ thống sinh trắc học là một hệ thống được thiết kế để xác minh và nhận dạng một người dựa vào những đặc trưng sinh học duy nhất của người đó. 1.1.2 Hệ thống nhận dạng khuôn mặt Hệ thống nhận dạng khuôn mặt là một hệ thống được thiết kế để tìm thông tin của một người. Kĩ thuật nhận dạng là kiểm tra sự phù hợp dựa trên phép so sánh một-nhiều cụ thể là tìm ra một người là ai trong số những người đã được lưu trữ trong hệ thống dựa vào thông tin khuôn mặt. 1.1.3 Hệ thống xác minh hay xác thực khuôn mặt là gì? Hệ thống xác minh/xác thực khuôn mặt là một hệ thống được thiết kế để xác minh thông tin của một người. Kĩ thuật xác minh là kiểm tra sự phù hợp trên phép so sánh một-một cụ thể là đối chiếu thông tin mới nhận về một người với thông tin đã lưu trữ về người này có khớp hay không dựa trên thông tin khuôn mặt. Hoàn toàn không biết thông tin Đã biết trước thông tin ngưòi này là ai ? Đây là Hùng phải không? Hùng Kết quả Xác minh người (verification) Kết quả Nhận dạng người (identification) Đúng / sai Hình 1-1. So sánh hai tác vụ nhận dạng khuôn mặt và xác nhận khuôn mặt 9 1.1.4 Hệ thống nhận dạng tĩnh - tĩnh, tĩnh - động, động - động 1.1.4.1 Hệ thống nhận dạng tĩnh - tĩnh Hệ thống nhận dạng tĩnh - tĩnh là hệ thống được thiết kế bằng cách sử dụng một số ảnh tĩnh làm mẫu để nhận dạng khuôn mặt người trong ảnh tĩnh. Kỹ thuật nhận dạng này kiểm tra sự phù hợp dựa trên phép so sánh một - nhiều như hệ thống nhận dạng nói chung ở trên. 1.1.4.2 Hệ thông nhận dạng tĩnh - động Hệ thống nhận dạng tĩnh - động là hệ thống được thiết kế bằng cách sử dụng một số ảnh tĩnh làm mẫu để nhận dạng khuôn mặt người trong ảnh động. Kỹ thuật nhận dạng này kiểm tra sự phù hợp dựa trên phép so sánh một - nhiều như hệ thống nhận dạng nói chung ở trên, song ảnh cần kiểm tra là các khung ảnh động trong các đoạn phim từ các máy camera. Kỹ thuật này dĩ nhiên không thể chính xác vì chuyển động của mặt người trong đoạn phim khá phức tạp song thể hiện trong ảnh tĩnh để huấn luyện lại ít. 1.1.4.3 Hệ thống nhận dạng động - động Hệ thống nhận dạng động - động là hệ thống được thiết kế bằng cách sử dụng các ảnh động làm mẫu để nhận dạng khuôn mặt người trong ảnh động. Kỹ thuật nhận dạng này kiểm tra sự phù hợp dựa trên phép so sánh một - nhiều như hệ thống nhận dạng nói chung ở trên. Tuy nhiên, kỹ thuật này chính xác hơn kỹ thuật sử dụng trong hệ thống nhận dạng tĩnh - động do sự chuyển động phức tạp của khuôn mặt người cũng được huấn luyện bằng các khung ảnh động. 1.1.5 Những thách thức trong bài toán nhận dạng khuôn mặt Những biến đổi quá lớn giữa các ảnh khuôn mặt khác nhau từ một người cần nhận dạng gồm trạng thái cảm xúc trên khuôn mặt, ánh sáng, và các thay đổi vị trí của khuôn mặt..vv. Giới hạn về số ảnh cần thiết cho việc nhận dạng, tập học không thể bao quát được tất cả các biến đổi có thể có trên khuôn mặt của một người cần nhận dạng trong thế giới thực. 1.1.6 Sai số trong hệ nhận dạng [20] Hệ nhận dạng bằng sinh trắc luôn có sai số nói cách khác không thể chính xác tuyệt đối. Độ chính xác của (đối sánh 1:1, và 1:N) phụ thuộc nhiều yếu tố, ví dụ thông tin sinh trắc (Sample data), bản thân thuật toán trích chọn đặc điểm (enrollment) và thuật toán đối sánh (matcher), kích cỡ CSDL - miền đối sánh. Có 2 đại lượng chính dùng để đo lường sai số của một hệ nhận dạng bằng sinh trắc: 10  Sai số bắt nhầm – FAR (False Acceptance Rate) có tài liệu gọi là FMR (False Match Rate)  Sai số bỏ sót – FRR (False Reject Rate) có tài liệu gọi là FNMR (False Non Match Rate) Độ chính xác – TAR (True Accpetance Rate) là dẫn xuất của FRR  TAR = 1 - FRR FAR và FRR là hàm số của t – ngưỡng xét trùng  FAR(t)  FRR(t)  ERR là điểm mà FRR = FAR Hình 1-2. Hình biểu diễn hàm FRR và FAR Để đánh giá chất lượng một hệ thống nhận dạng mặt người một cách khách quan cần:  Số cá nhân đối sánh đủ lớn.  Đo với CSDL đủ lớn. 1.2 Các ứng dụng tương tác người máy (Human computer interactive) liên quan đến khuôn mặt Từ những năm 1990 trở lại đây, chúng ta đã chứng kiến sự phát triển như vũ bão của các ngành công nghiệp, đặc biệt là ngành công nghiệp chế tạo điện tử. Tuy nhiên hiện nay các thiết bị điện tử cao cấp như máy ảnh số, camera kĩ thuật số, và nhiều sản phẩm khác dường như chỉ phù hợp cho các phòng thí nghiệm, các công ty 11 sản xuất kinh doanh, thương mại, tài chính, ngân hàng, ... Trong thời gian không xa, chi phí cho các thiết bị này sẽ giảm đáng kể. Khi đó sẽ mở ra nhiều hướng nghiên cứu về thị giác máy tính, đồng thời sẽ có nhiều ứng dụng trong giao tiếp giữa người với máy tính mà trong đó hệ thống nhận dạng mặt người đóng một vai trò không nhỏ. Dưới đây là một số ứng dụng.  Các ứng dụng chuyên biệt cho ngành hàng không  Đảm bảo sự truy cập và tính hợp lệ trong công việc cho từng nhân viên: Mỗi nhân viên làm việc tại cảng hàng không cũng như nhân viên phi hành đoàn được cung cấp quyền truy cập để đến vị trí làm việc. Làm thế nào để xác minh nhân viên này vào đúng khu vực làm việc hay không?  Làm sao để đảm bảo trong số những hành khách không có sự trà trộn của một số kẻ khủng bố/tội phạm quốc gia/ quốc tế?  Bảo vệ trẻ em ở nhà trẻ từ bọn bắt cóc  Quy định rằng, chỉ có những nhân viên của nhà trẻ mới được phép dẫn trẻ em ra ngoài và trao tận tay cho bố mẹ đón về. Nhưng trong xã hôi cũng có một số trường hợp giả danh nhân viên để bắt cóc trẻ em với mục đích xấu. Làm thể nào để ngăn chặn hành vi xấu này?  Nhận dạng khuôn mặt được sử dụng kèm với thẻ quy cập  Trong các nước phát triển, hầu như mọi người dân đều dùng thẻ tín dụng để mua bán, rút tiền, trao đổi hàng hóa. Điều này rất nguy hiểm khi thẻ truy cập này bị người khác nhặt được hay biết được mật khẩu của sở hữu thẻ này? Làm cách nào có thể bảo đảm an toàn nhất? Có thể dùng song mật khẩu: Có nghĩa sử dụng khuôn mặt như là một mật khẩu thứ hai để truy cập vào hệ thống cùng với thông tin từ card truy cập. Để rút được tiền • Đưa thẻ vào hệ thống • Đưa khuôn mặt vào để nhận dạng • Xác minh người này có phải là chủ sở hữu của thẻ hay không? Nếu khớp thì hệ thống cho rút tiền Nếu không thì hệ thống không cho rút tiền.  Kinh doanh thương mại điện tử  Với sự tiến bộ của khoa học công nghệ, nhiều hình thức kinh doanh thương mại xuất hiện, đặc biệt là thương mại điện tử. Việc buôn bán và trao đổi giữa hai bên đối tác không cần diễn ra trực tiếp (mặt đối mặt), mà chỉ cần qua mạng với hình ảnh của người đại diện. Tuy nhiên bên cạnh đó sẽ có nhiều mặt tiêu cực trên hình thức kinh doanh này, đó là các vụ lừa đảo, giả mạo, giả danh.v..v... Làm sao để biết được đối tác của mình là thật hay giả? 12  Ngăn chặn việc xuất/nhập cảnh bất hợp pháp  Một số người không được xuất/nhập cảnh vào nước, song họ cố tình khai gian giấy tờ để xuất/nhập cảnh bất hợp pháp. Làm sao để ngăn chặn được sự gian lận này?  Lần dấu vết đi tìm kẻ khủng bố  Từ những bức ảnh số hay những đoạn video số đã được ghi lại tự động về hiện trường trước khi vụ khủng bố xảy ra. Cần nhận dạng những đối tượng khả nghi của vụ khủng bố này?  Hệ thống giám sát công nhân và chấm công tự động  Hiện nay trong các khu công nghiệp hay những công ty sản xuất lớn có hàng ngàn công nhân vào ra mỗi ngày nên việc giám sát kẻ gian vào công ty cũng như công việc chấm công rất phức tạp. Vậy làm thế nào để nhận ra từng nhân viên của công ty. Tóm lại: Nhu cầu sử dụng các hệ thống xử lý dùng trí tuệ nhân tạo ngày càng phát triển, mà trong đó nhận dạng khuôn mặt để mã hóa mật khẩu cá nhân là một nhu cầu thiết yếu hiện nay và trong tương lai. Đặc biệt vụ khủng bố ngày 11-9-2001 tại Mỹ đã đánh dấu một bước ngoặc mới trong xu hướng nghiên cứu và giá trị thương mại của các hệ thống sinh trắc học ứng dụng trong quân sự và an ninh. 1.3 Các hướng tiếp cận chính trong lĩnh vực nhận dạng khuôn mặt 1.3.1 Các công trình nghiên cứu về phương pháp nhận dạng và kiểm chứng chất lượng cho một hệ thống nhận dạng khuôn mặt Bài toán nhận dạng khuôn mặt cần xác định hai vấn đề chính: dùng thông tin nào để nhận dạng: chân mày, cặp mắt, mũi, môi, tai, hay kết hợp các thông tin trên. Và dùng phương pháp nào để huấn luyện cho máy nhận dạng dùng nguồn thông tin đó. Nhận dạng khuôn mặt trên máy tính đã trải qua nhiều bước thăng trầm, chúng ta có thể liệt kê một số kết quả như sau: Wenyi Zhao, Arvindh Krishnaswamy, Rama Chellappa, Danie L.Swets, John Weng (1998)[4] sử dụng phương pháp PCA (phân tích thành phần chính) kết hợp LDA (phân tích độc lập tuyến tính). Bước 1, chiếu ảnh khuôn mặt từ không gian ảnh thô sang không gian các không gian khuôn mặt (Mỗi lớp khuôn mặt được nhận dạng sẽ được mô hình hóa bằng một không gian khuôn mặt) dùng PCA. Bước 2, sử dụng phương pháp LDA để tạo bộ phân loại tuyến tính có khả năng phân lớp các lớp khuôn mặt. John Daugnman (1998), đưa ra phương pháp dùng đặc trưng về tròng của mắt để phân biệt cặp (trai/gái) song sinh. Emmanuel Viennet và Francoise Fogelman Soulie (1998), sử dụng phương pháp mạng neural nhân tạo để xử lý và nhận dạng khuôn mặt. 13 Antonio J.Colmenarez và Thomas S.Huang (1998),[5] sử dụng kỹ thuật học thị giác và phù hợp mẫu 2-D. Ông quan niệm bài toán dò tìm khuôn mặt là thao tác phân loại khuôn mặt trong đó khuôn mặt thuộc về một lớp và các đối tượng khác thuộc về lớp còn lại bằng cách ước lượng mô hình xác suất cho mỗi lớp, và việc dò tìm sử dụng luật quyết định Maximum-likelihood. Kazunori Okada, Johannes Steffens, Thomas Maurer, Hai Hong, Egor Elagin, Hartmut Neven, and Christoph (1998),[6] nhận dạng khuôn mặt dựa vào sóng Gabor và phương pháp phù hợp đồ thị bó. Với ý tưởng dùng đồ thị để biểu diễn khuôn mặt, ảnh khuôn mặt được đánh dấu tại các vị trí đã được xác định trước trên khuôn mặt, gọi các vị trí này chính là các vị trí chuẩn. Khi thực hiện thao tác so khớp đồ thị với một ảnh, các điểm chuẩn (Jets) sẽ trích ra từ ảnh và so sánh các điểm chuẩn này với tất cả các điểm chuẩn tương ứng trong các đồ thị khác nhau, và đồ thị nào phù hợp nhất với ảnh sẽ được chọn. Baback Moghaddam và Alex Pentland (1998) [7], đưa ra phương pháp phù hợp thị giác trực tiếp từ các ảnh cần sử dụng cho mục đích nhận dạng khuôn mặt và dùng độ đo xác suất để tính độ tương tự. Massimo Tistaelli và Enrico Grosso (1998) [8], đưa ra kỹ thuật thị giác động. Vì khả năng quan sát các chuyển động của khuôn mặt và xử lý các tình huống theo dự định là thông tin rất quan trọng, từ đó nhận được mô tả đầy đủ hơn về khuôn mặt cho mục đích thu thập mẫu và nhận dạng. Jeffrey Huang, Chengjun Liu, và Harry Wechsler (1998)[9], đề xuất thuật toán căn cứ trên tính tiến hóa (Evolutionary computation) và di truyền (Genetic) cho các tác vụ nhận dạng khuôn mặt. Đối với cách tiếp cận này, hai mắt sẽ được dò tìm trước tiên và thông tin này được xem là vết để quan sát khuôn mặt, trình xử lý dò tiếp mắt bằng cách sử dụng một thuật toán lai để kết hợp thao tác học và tiến hóa trong quá trình học. Daniel Bgraham và Nigel M Allinson (1998)[10], sử dụng phương pháp được gọi là tạo bản sao không gian đặc trưng để biểu diễn và nhận dạng hướng di chuyển của khuôn mặt. Oi Bin Sun, Chian Prong Lam và Jian Kang Wu (1998)[11], sử dụng phương pháp tìm vùng hai chân mày, hai mắt, mũi, miệng và cằm. Ảnh khuôn mặt thẳng ban đầu được chiếu theo chiều ngang để tìm các giá trị điểm ảnh thỏa ngưỡng cho trước, đồ thị biểu diễn theo trục ngang sẽ định vị trí biên trên và biên dưới của hình chữ nhật bao các đặc trưng cục bộ khuôn mặt. Tương tự với chiều đứng để tìm ra đường biên bên trái và phải cho các vùng đặc trưng. Ara V.Nefian và Monson H.Hayes III (1998) trình bày hướng tiếp cận theo mô hình Markov ẩn (HMM) trong đó ảnh mẫu khuôn mặt được lượng hóa thành chuỗi quan sát trên khuôn mặt theo quan niệm dựa trên thứ tự xuất hiện các đặc trưng khuôn mặt {hai chân mày, hai lông mi, mũi, miệng, cằm}. Trong chuỗi quan sát đó, mỗi quan sát lại là một vector nhiều chiều và mỗi vector quan sát này được 14 sử dụng để đặc trưng cho mỗi trạng thái trong chuỗi trạng trạng thái của HMM. Mỗi người được ước lượng bằng một mô hình của HMM. Guodong Guo, Stan Z.Li, Kap Luk Chan (2001), dùng phương pháp SVM để nhận dạng khuôn mặt. Sử dụng chiến lược kết hợp nhiều bộ phân loại nhị phân để xây dựng bộ phân loại SVM đa lớp. 1.3.2 Hướng tiếp cận được thử nghiệm trong luận văn Trong đề tài đi vào tìm hiểu phương pháp nhận dạng dùng HMM; tìm hiểu phương pháp PCA (phân tích thành phần chính) để trích chọn đặc trưng từ ảnh. Việc cô lập khuôn mặt trong ảnh đầu vào (ảnh chứa khuôn mặt) được thực hiện với phương pháp dò tìm dựa trên màu da kết hợp với mô hình Markov ẩn. 15 2 Chương 2 DÒ TÌM KHUÔN MẶT TRONG ẢNH MÀU 2.1 Giới thiệu Dò tìm đối tượng là bài toán cơ bản và quan trọng trong lĩnh vực thị giác máy tính. Các kỹ thuật đã được áp dụng có thể chia thành một trong hai tiếp cận: so khớp các mô hình hình học hai, ba chiều vào ảnh [Seutens at al., 1992, Chin và Dyer, 1986, Besl và Jain, 1985], hay phương pháp so khớp các mô hình khung vào ảnh có chứa khuôn mặt cần dò tìm. Các nghiên cứu trước đây cho thấy rằng các phương pháp dựa trên khung nhìn có thể dò tìm các khuôn mặt thẳng trong nền phức tạp một cách hiệu quả. Việc phát triển bộ dò tìm đối tượng dựa trên khung nhìn dùng máy học có ba vấn đề chính. Thứ nhất, ảnh của các đối tượng (chẳng hạn khuôn mặt) biến đổi nhiều, tuỳ thuộc vào độ sáng, tình trạng che lấp, tư thế, biểu hiện khuôn mặt và tính giống nhau. Thuật toán dò tìm giải quyết với càng nhiều biến đổi càng tốt. Thứ hai, một hay nhiều mạng neural được huấn luyện để giải quyết với mọi biến đổi còn lại trong việc phân biệt đối tượng (object) với không phải đối tượng (non-object). Thứ ba, đầu ra từ các bộ dò tìm phải được kết hợp lại thành một quyết định có biểu diễn đối tượng hay không. Hai bài toán dò tìm và nhận dạng đối tượng có liên quan mật thiết. Hệ thống nhận dạng đối tượng có thể xây dựng mà không có tập bộ dò tìm đối tượng, mỗi bộ dò tìm dò một đối tượng quan tâm. Tương tự, bộ dò tìm đối tượng có thể được xây dựng mà không có hệ thống nhận dạng đối tượng; bộ nhận dạng đối tượng này cần phân biệt đối tượng mong muốn với mọi đối tương khác có thể xuất hiện hay là lớp đối tượng chưa biết. Do đó hai bài toán là như nhau, dù trong thực hành hầu hết các hệ thống nhận dạng đối tượng ít khi giải quyết nền tuỳ ý, và các hệ thống dò tìm đối tượng ít khi được huấn luyện trên đủ loại đối tượng để xây dựng hệ thống nhận dạng. Điểm chú trọng khác nhau của các bài toán này dẫn đến các trình bày và thuật toán khác nhau. Thông thường, các hệ thống nhận dạng khuôn mặt làm việc bằng cách trước hết áp dụng bộ dò tìm khuôn mặt để định vị khuôn mặt, sau đó áp dụng thuật toán nhận dạng để nhận diện khuôn mặt. Bài toán dò tìm khuôn mặt nhanh trên ảnh là bài toán quan trọng vì là quá trình nhận dạng đối tượng sẽ thiếu chính xác nếu như thiếu bước dò tìm và định vị được đối tượng. Bài toán dò tìm khuôn mặt nhanh có ý nghĩa rất quan trọng trong việc nhận dạng, theo vết các đối tượng chuyển động trong các đoạn video hay camera. 2.1.1 Các thách thức trong việc dò tìm khuôn mặt Việc dò tìm đối tượng là bài toán xác định cửa sổ con của ảnh có thuộc về tập các ảnh của đối tượng quan tâm hay không. Do đó, đường biên quyết định của 16 tập ảnh đối tượng phức tạp sẽ làm tăng độ khó của bài toán và có thể tăng số lỗi dò tìm. Giả sử ta muốn dò khuôn mặt nghiêng trong mặt phẳng ảnh, ngoài các khuôn mặt thẳng. Việc thêm các khuôn mặt nghiêng vào tập các ảnh ta muốn dò tìm làm tăng độ biến thiên của tập, và có thể làm tăng độ phức tạp của đường biên quyết định của tập ảnh. Độ phức tạp này làm bài toán dò tìm khó hơn. Việc thêm ảnh mới vào tập ảnh đối tượng có thể làm đường biên quyết định đơn giản hơn và dễ học hơn. Có thể tưởng tượng điều này là đường biên quyết định được làm trơn bằng việc thêm các ảnh vào tập. Có nhiều nguồn biến đổi trong bài toán dò tìm đối tượng, và cụ thể trong bài toán dò tìm khuôn mặt. Có các nguồn biến đổi sau.  Biến đổi trong mặt phẳng ảnh: loại biến đổi ảnh khuôn mặt đơn giản nhất có thể được biểu diễn độc lập với khuôn mặt, bằng cách quay, dịch chuyển, biến đổi tỷ lệ và soi gương ảnh.  Biến đổi độ sáng và ngữ cảnh: biến đổi do đối tượng và môi trường gây ra, cụ thể các thuộc tính bề mặt của đối tượng và các nguồn sáng. Các thay đổi về nguồn sáng nói riêng có thể biến đổi hoàn toàn vẻ bề ngoài của khuôn mặt.  Biến đổi nền: Trong luận văn của mình, Sung cho rằng với kỹ thuật nhận dạng mẫu hiện nay, tiếp cận dựa trên khung nhìn để dò tìm đối tượng chỉ thích hợp cho các đối tượng có “đường biên ảnh có thể dự đoán được”. Khi đối tượng có hình dáng dự đoán được, ta có thể trích ra window chỉ chứa các pixel bên trong đối tượng, và bỏ qua nền.  Biến đổi hình dáng: với khuôn mặt, loại biến đổi này bao gồm biểu lộ tình cảm khuôn mặt, miệng và mắt mở hay đóng, và hình dáng khuôn mặt của từng người. Tuy nhiên, nếu việc dò tìm được tiến hành trên các đoạn video hay camera ta có thể áp dụng các phương pháp xử lý các khung hình liên tục cùng một lúc như theo vết đối tượng, trừ ảnh v..v… 2.1.2 Một số hướng tiếp cận thường được dùng trong dò tìm khuôn mặt nhanh  Hướng dò tìm khuôn mặt trên ảnh màu dựa trên sự phân tích màu sắc của vùng da. Mặc dù việc xử lý khá nhanh nhưng hướng này có giới hạn chỉ xử lý trên ảnh màu và thường nhạy cảm với ánh sáng, thường chỉ sử dụng làm các bước tiền xử lý cho các hướng khác.  Hướng dò tìm khuôn mặt dựa trên đặc trưng chủ yếu dựa vào các đặc trưng của khuôn mặt người được quy định trước. Thành công nhất trong dò tìm 17 khuôn mặt người trong thời gian thực là phương pháp ASM (Active shape Models).  Hướng dò tìm khuôn mặt dựa trên thông tin hình ảnh gồm mạng nơron, các hướng thông kê (SVM, AdaBoost, …). Phương pháp SVM và mạng nơ ron cũng đạt được kết quả cao trong thời gian khá nhanh song cũng chỉ vài ảnh trong một giây nên khó có thể áp dụng trong việc nhận dạng thời gian thực. Riêng phương pháp AdaBoost cho kết quả khả quan vì có thể xử lý đến khoảng 15-20 khung hình trong một giây. 2.2 Tìm kiếm khuôn mặt người trong ảnh dựa trên màu da 2.2.1 Giới thiệu [16] Sự dò tìm da chính là phát hiện những điểm da con người từ một hình ảnh màu. Đầu ra hệ thống là một hình ảnh dưới dạng nhị phân trên cùng lưới điểm như hình ảnh đầu vào với 1 biểu thị cho da và 0 biểu thị cho nền. Hình 2.1 cho thấy một hình ảnh màu đầu vào và một ảnh đầu ra kết quả của sự dò tìm da. Hình 2-1. Ảnh màu với da và kết quả của sự dò tìm da Sự dò tìm da đóng một vai trò quan trọng trong nhiều ứng dụng như sự dò tìm mặt, sự tìm kiếm và lọc nội dung ảnh trên mạng, sự phân đoạn vi đi ô và giám sát tự động, ... Tuy nhiên sự dò tìm da không phải là một nhiệm vụ dễ. Trước hết, màu da của mỗi người có thể rất khác nhau. Trong hình 2.2, có người da trắng, người Châu Phi và người Chấu Á, … Hơn nữa, một khi những hình ảnh được thu nhận với những thiết bị có đặc điểm kỹ thuật khác nhau dưới nhiều điều kiện, chúng tùy thuộc vào tất cả các loại nhiễu và sự biến dạng. Hình 2.3 cho thấy vài ví dụ. 18 Hình 2-2. Mầu da của một số chủng tộc người khác nhau Hình 2-3. Mẫu da bị ảnh hưởng bởi các loại nhiễu và biến dạng Một hệ thống dò tìm da thì không bao giờ hoàn hảo và những người dùng khác nhau sử dụng tiêu chuẩn khác nhau cho sự đánh giá. 2.2.2 Dò tìm da trên ảnh màu Nghiên cứu đã được thực hiện trên sự dò tìm của những điểm da con người trong những hình ảnh màu trên sự phân biệt giữa những điểm da và không da bằng việc sử dụng nhiều mô hình màu. Có hai vấn đề chủ yếu mà chúng ta phải thực hiện ở đây là làm sao để chúng ta có thể phân biệt những điểm da từ những điểm không phải da; và không gian màu nào sẽ được lựa chọn để tốt nhất cho việc thực hiện phân tích. 19 2.2.2.1 Mô hình hóa da Mục đích của việc mô hình hóa da là xây dựng cho một quy tắc quyết định những điểm da từ những điểm không phải da. Công việc này có thể chia thành hai vùng chính: mô hình không tham số và mô hình tham số.  Mô hình da không tham số Kết quả của những phương pháp này đôi khi được viện dẫn như xây dựng bản đồ xác suất da, một xác suất đánh giá từng điểm trong mô tả không gian màu. Những mô hình Bayesian dựa vào histograms Trong [17] [3] các tác giả mô hình những màu da và không da thông qua histograms. Họ chia không gian mầu C thành số các bin c  C và đếm số điểm ảnh mầu trong mỗi bin Nskin(c) đại diện cho lớp da và N skin đại diện cho lớp không phải da. Cuối cùng, họ bình thường hóa mỗi bin để có phân phối p(c|skin)/p(c|skin). Để cho Nskin biểu thị số những điểm da và Nskin biểu thị số những điểm không da trong tập huấn luyện, chúng ta có: p(c | skin)  N skin (c) N skin (2.1) N skin (c) N skin (2.2) N skin N skin  N skin (2.3) p(c | skin)  cũng như p( skin)  p(skin)  N skin  1  p( skin) N skin  N skin (2.4) Công thức Bayesian đánh giá xác suất da/không da theo màu của điểm đã cho: p( skin | c)  p(c | skin) p( skin) p(c | skin) p( skin)  p(c | skin) p(skin) p(skin)  1  p(skin | c) (2.5) (2.6) Việc đưa ra quyết định được dựa trên một ngưỡng , 0 <  < 1. Điểm được gọi là điểm da nếu p(skin|c) >  và ngược lại điểm không phải là da nếu p(skin|c) ≤ . Mạng tự tổ chức (SOM) Được đưa ra bởi Kohonen ở những năm đầu thập kỷ 80, ngày nay SOM đã trở thành phổ biến và được sử dụng rộng rãi trong những kiểu mạng nơron nhân tạo không giám sát. SOM cơ bản gồm có một mạng hai chiều L nơron. Mỗi nơron n i  L có liên hệ với một vectơ vi  Rm mà được khởi tạo ngẫu nhiên khi bắt đầu. Ở đây 20 sử dụng không gian màu hai chiều nên m = 2. Mạng có thể là hình chữ nhật hoặc lục giác. Hình 2.4 cho thấy những ví dụ của cả hai dạng cũng như khu lân cận của những nút trung tâm. Hình 2-4. Những mạng SOM với những hệ thống khu lân cận [2] Trong thứ tự để huấn luyện SOM, chúng ta giới thiệu những vectơ huấn luyện tuần tự tới tất cả các nơron trong mạng. Mỗi lúc vectơ đầu vào v được gửi vào trong SOM, một nơron vw thắng cuộc được xác định bởi || vw  v ||  || vi  v ||, i  I (1.7) trong đó, I là tất cả các chỉ số của các nơron trong mạng. Những nơron trong khu vực lân cận thì điều chỉnh các vector v của chúng theo một hàm học. Trong khi sự huấn luyện tiến triển, nhịp độ học và kích thước khu lân cận bị tác động làm cả hai giảm bớt. Mạng dần dần hình thành một ánh xạ có trật tự tôpô (hoặc có đặc tính bản đồ) của dữ liệu huấn luyện. Nếu cần thiết, một pha định kích cỡ rồi đánh dấu, nơi được gắn nhãn dữ liệu huấn luyện thì tuần tự được giới thiệu tới SOM. Nhãn dữ liệu và chỉ số của nơron thắng cuộc được ghi mỗi thời gian. Mỗi nơron rồi được gán một nhãn nào đó. Cho sự phân loại, mỗi nơron đầu vào chỉ cần nắm lấy nhãn của nơron thắng cuộc. Brown chọn mạng lục giác và kích thước của mạng là khoảng 16 - 256. Họ chỉ ra rằng sự thực hiện của SOM ở lề tốt hơn sự pha trộn Gaussian, trong khi thấp hơn những phương pháp trên histogram. Điểm tốt là nó tiêu thụ ít tài nguyên hơn những phương pháp dựa trên histogram và có thể được thực hiện trong phần cứng SOM nhanh và rẻ.  Những lợi thế của những phương pháp không tham số:  Chúng nói chung nhanh trong cả sự huấn luyện và kiểm tra; 21  Phương pháp không quan tâm hình dạng những phân phối nằm bên dưới của dữ liệu huấn luyện, như vậy chúng ít ràng buộc hơn trong việc lựa chọn không gian màu. Tuy nhiên những mô hình này nói chung cần số lượng lớn của không gian lưu trữ và thiếu khả năng chèn thêm hoặc khái quát hóa dữ liệu huấn luyện. Để giảm số bin dùng để lưu trữ mỗi biểu đồ da/không da, người ta đã đề xuất giảm bớt số của những bin bằng cách đơn giản hóa không gian màu. Ví dụ, nếu ta chọn không gian mầu RBG (C = {0,...,255}3), chúng ta cần 224 bin để cất giữ mỗi biểu đồ da / không da. Người tra đã chỉ ra rằng chỉ cần dùng 323 bin là đủ để thể hiện các biểu đồ da/không da trong không gian màu RGB.  Mô hình da tham số Những mô hình tham số thì cần ít không gian lưu trữ hơn nhiều so với các mô hình không tham số. Chúng thể hiện tính đều đặn của những phân phối và cho phép phân tích về sau. Chúng có khả năng chèn thêm dữ liệu huấn luyện khi nó thưa thướt. Những hàm khác nhau có thể được áp dụng theo những vấn đề đặc biệt. Gaussian đơn Phân phối màu da những mô hình Gaussian đơn với một hàm mật độ xác suất Gaussian (pdf) : p(c | skin)  1 2  skin 1/ 2 1  1  exp   (c   skin )T skin (c  skin )  (1.8)  2  với skin là sự chờ đợi và skin là ma trận hiệp phương sai của các vector màu da. Chúng có thể được đánh giá từ những mẫu huấn luyện sau:  skin   skin  1 N skin 1  N skin (c)c N skin cC (1.9) N 1 (1.10) cC skin (c)(c  skin )(c  skin )T P(c|skin) có thể được sử dụng như xác suất c thuộc về da. Hoặc chúng ta chỉ cần phát sinh mô hình khác cho lớp không da và sử dụng công thức Bayesian để có p(skin|c). Gaussians kết hợp Mô hình Gaussian kết hợp là một mở rộng của Gaussian đơn, nó có khả năng đại diện nhiều phân phối phức tạp hơn. Pdf dưới sự pha trộn của Gaussians được tính như sau: 22
- Xem thêm -

Tài liệu liên quan