Đăng ký Đăng nhập
Trang chủ Giáo dục - Đào tạo Cao đẳng - Đại học Công nghệ thông tin Nhận diện khuôn mặt người sử dụng Wavelet và Principle component analysis (PCA) ...

Tài liệu Nhận diện khuôn mặt người sử dụng Wavelet và Principle component analysis (PCA) (Luận văn thạc sĩ)

.PDF
59
192
63

Mô tả:

ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG VŨ THÁI LINH NHẬN DIỆN KHUÔN MẶT NGƯỜI SỬ DỤNG WAVELET VÀ PRINCIPLE COMPONENT ANALYSIS (PCA) LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Thái Nguyên, 2018 ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG VŨ THÁI LINH NHẬN DIỆN KHUÔN MẶT NGƯỜI SỬ DỤNG WAVELET VÀ PRINCIPLE COMPONENT ANALYSIS (PCA) Chuyên ngành: Khoa học máy tính Mã số: 8 480 101 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Người hướng dẫn khoa học: TS. NGUYỄN TOÀN THẮNG Thái Nguyên, 2018 i LỜI CAM ĐOAN Tôi xin cam đoan kết quả đạt được trong luận văn là sản phẩm của riêng cá nhân, không sao chép lại của người khác. Trong toàn bộ nội dung của luận văn, những điều được trình bày hoặc là của cá nhân hoặc là được tổng hợp từ nhiều nguồn tài liệu. Tất cả các tài liệu tham khảo đều có xuất xứ rõ ràng và được trích dẫn hợp pháp. Tôi xin hoàn toàn chịu trách nhiệm và chịu mọi hình thức kỷ luật theo quy định cho lời cam đoan của mình. Tác giả luận văn Vũ Thái Linh ii LỜI CẢM ƠN Lời đầu tiên, tôi xin bày tỏ lòng biết ơn sâu sắc đến đến Ban Giám Hiệu, các thầy giáo, cô giáo phòng đào tạo sau đại học Công Nghệ Thông Tin & Truyền Thông, các thầy giáo, cô giáo đã giảng dạy và cung cấp cho tôi những kiến thức rất bổ ích trong thời gian học, giúp tôi có nền tảng tri thức để phục vụ nghiên cứu khoa học sau này. Đặc biệt, tôi xin bày tỏ sự kính trọng và lòng biết ơn sâu sắc đến thầy giáo TS. Nguyễn Toàn Thắng người đã tận tình hướng dẫn, chỉ bảo và giúp đỡ tôi trong suốt quá trình nghiên cứu và hoàn thành luận văn này. Tôi cũng xin bày tỏ lòng cảm ơn đến gia đình và bạn bè, những người luôn quan tâm, động viên và khuyến khích tôi. Tác giả luận văn Vũ Thái Linh iii MỤC LỤC Trang TRANG BÌA PHỤ LỜI CAM ĐOAN ..............................................................................................i LỜI CẢM ƠN.................................................................................................. ii MỤC LỤC....................................................................................................... iii DANH MỤC BẢNG......................................................................................... v DANH MỤC HÌNH ẢNH ..............................................................................vi CHƯƠNG 1: TỔNG QUAN VỀ NHẬN DẠNG KHUÔN MẶT NGƯỜI .............................................................................................................. 1 1.1 Giới thiệu chung về nhận dạng khuôn mặt ..................................................1 1.2 Các phương pháp phát hiện khuôn mặt. ......................................................3 1.2.1 Các phương pháp phát hiện tiêu biểu .......................................................4 1.2.2 Các phương pháp tiếp cận theo thời gian thực và đa chiều. .....................5 1.3 Các phương pháp theo dõi khuôn mặt .........................................................6 1.3.1 Các phương pháp theo dõi khuôn mặt tiêu biểu. ......................................7 1.3.2 Các phương pháp theo dõi thời gian thực.................................................9 1.4. Nhận dạng khuôn mặt .............................................................................. 10 1.4.1 Phương pháp nhận dạng dựa vào không gian thông tin ........................ 11 1.4.2 Phương pháp nhận dạng dựa vào mô hình thống kê ............................. 12 1.4.3 Phương pháp nhận dạng dựa trên những gợi ý lai ................................. 13 1.4.4. Các phương pháp nâng cao trong nhận dạng khuôn mặt ..................... 13 1.5 Các cơ sở dữ liệu ảnh và video nổi tiếng .................................................. 18 KẾT LUẬN CHƯƠNG 1 .............................................................................. 20 CHƯƠNG 2: NHẬN DẠNG KHUÔN MẶT NGƯỜI SỬ DỤNG PCA QUA BIẾN ĐỔI WAVELET ........................................................................ 21 2.1 Biến đổi Wavelet ...................................................................................... 23 iv 2.1.1 Giới thiệu về Wavelet ............................................................................ 23 2.1.2 Lựa chọn Wavelet .................................................................................. 28 2.2 Đánh giá về PCA và Eigenfaces để nhận dạng khuôn mặt ...................... 30 2.2.1 Phân tích thành phần chính - PCA......................................................... 30 2.2.2 Eigenfaces .............................................................................................. 32 2.3 Giai đoạn huấn luyện ................................................................................ 33 2.4 Giai đoạn nhận dạng ................................................................................. 36 KẾT LUẬN CHƯƠNG 2 .............................................................................. 38 CHƯƠNG 3. ỨNG DỤNG ĐIỂM DANH ................................................... 39 3.1 Giới thiệu bài toán .................................................................................... 39 3.2 Giao diện và hoạt động của chương trình ................................................. 39 3.3 Đánh giá kết quả thu được ........................................................................ 42 KẾT LUẬN CHƯƠNG 3 .............................................................................. 47 KẾT LUẬN CHUNG ..................................................................................... 48 TÀI LIỆU THAM KHẢO ............................................................................. 50 v DANH MỤC BẢNG Trang Bảng 1.1: Cơ sở dữ liệu mặt ............................................................................ 19 Bảng 2.1: Tỷ lệ nhận dạng bằng cách sử dụng các wavelet khác nhau trên cơ sở dữ liệu của Yale ................................................................... 24 Bảng 2.2: Sự chênh lệch của các hình ảnh subband của WT và độ phân giải của nó trong Hình 2.3 (b). ............................................................. 28 Bảng 2.3: Tỉ lệ nhận dạng khuôn mặt trên các subband khác nhau ................ 29 Bảng 3.1: So sánh hiệu năng sử dụng cơ sở dữ liệu huấn luyện ..................... 44 vi DANH MỤC HÌNH ẢNH Trang Hình 1.1: Quy trình nhận dạng khuôn mặt trong video ..................................... 3 Hình 2.1 Sơ đồ khối của hệ thống nhận dạng khuôn mặt được đề xuất .......... 22 Hình 2.2: (a) Phân rã wavelet cấp 1 và (b) Phân rã wavelet cấp 3 và phân rã wavelet cấp 6, dải A bị phân rã một lần nữa. ................................ 26 Hình 2.3: (a) Một hình ảnh gốc có độ phân giải 128x128; (b) Sự phân rã WT ba mức của hình ảnh (a). ........................................................ 27 Hình 2.4 Biểu diễn ảnh .................................................................................... 33 Hình 2.5: (a) Năm hình ảnh từ Đại học Brown ............................................... 35 (b) Hình ảnh biểu diễn đào tạo dựa trên subband 4 ........................ 35 Hình 3.1: Tập ảnh huấn luyện thực tế.............................................................. 40 Hình 3.2: Giao diện khi huấn luyện cơ sở dữ liệu ........................................... 41 Hình 3.3: Giao diện khi nhận dạng được khuôn mặt ....................................... 42 Hình 3.4: Hình ảnh từ cơ sở dữ liệu tập huấn với các biểu hiện trên khuôn mặt khác nhau, điều kiện chiếu sáng. ............................................ 43 Hình 3.5: Hình ảnh hệ thống nhận dạng nhiều người một lúc ........................ 44 Hình 3.6: Hình ảnh hệ thống nhận dạng với người không có trong cơ sở dữ liệu huấn luyện .............................................................................. 45 Hình 3.7: Hình ảnh hệ thống nhận dạng với nhiều người không có trong cơ sở dữ liệu huấn luyện..................................................................... 46 1 CHƯƠNG 1: TỔNG QUAN VỀ NHẬN DẠNG KHUÔN MẶT NGƯỜI 1.1 Giới thiệu chung về nhận dạng khuôn mặt Trong những năm qua, nhận dạng khuôn mặt trong video đã nhận được sự chú ý đáng kể. Đã xuất hiện những công nghệ khả thi sau nhiều thập niên nghiên cứu đóng góp vào xu thế này, chúng không chỉ ứng dụng vào các ứng dụng thương mại, ứng dụng bảo mật mà còn nhiều lĩnh vực khác trong cuộc sống. Mặc dù hệ thống nhận dạng khuôn mặt hiện tại đã đạt đến một mức độ phát triển nhất định, nhưng chúng vẫn còn nhiều hạn chế khi áp dụng vào các điều kiện thực tế. Ví dụ, các hình ảnh nhận dạng của video được lấy trong môi trường thực tế với sự thay đổi độ sáng, khuôn mặt nghiêng hoặc độ phân giải thấp của hình ảnh thu được vẫn là vấn đề khó giải quyết. Nói cách khác, các thuật toán hiện tại vẫn chưa được hoàn thiện tốt nhất. Trong chương này, sự phát triển hiện tại của nhận dạng khuôn mặt dựa trên video được chia thành các mục như sau:  Phần 1.1 Giới thiệu chung  Phần 1.2 Giới thiệu các kỹ thuật điển hình của việc phát hiện khuôn mặt trong video, thời gian thực và đa chiều.  Phần 1.3 Các phương pháp theo dõi gương mặt điển hình.  Phần 1.4 So sánh với hình ảnh tĩnh, và liệt kê những thuận lợi và bất lợi của nhận dạng khuôn mặt trong video. Các phương pháp đặc biệt để giải quyết các vấn đề như chiếu sáng, độ phân giải thấp và giới thiệu về 3D  Phần 1.5 Trình bày một số cơ sở dữ liệu dựa trên video nổi tiếng. Từ lần đầu tiên được đề xuất vào những năm 1880, nhận dạng khuôn mặt đã nhận được sự chú ý đáng kể và trở thành một trong những hướng nghiên cứu thành công nhất của nhận dạng mẫu. Các nghiên cứu đã đưa ra nhiều thuật toán có giá trị cho bài toán nhận dạng khuôn mặt, ví dụ … 2 Principal Component Analysis (PCA), Linear Discriminant Analysis (LDA), Elastic Graph Matching (EGM), v.v.. So với hình ảnh tĩnh, video có thể cung cấp thêm thông tin về không gian và thời gian. Do đó, nhận dạng khuôn mặt dựa trên video đã thu hút nhiều sự chú ý hơn trong thời gian gần đây. Trong chương này sẽ khảo sát sự nhận dạng khuôn mặt dựa trên video trong những năm đây. Ngay từ đầu, hầu hết các phương pháp đã được dựa trên các kỹ thuật xử lý trên các frame (khung hình) dừng nhằm mục đích để lựa chọn frame tốt nhất và sau khi đã làm một số xử lý tương đối. Gần đây các nhà nghiên cứu đã bắt đầu thực sự giải quyết những vấn đề như vậy bằng cách thể hiện không gian thời gian. Hầu hết các hệ thống hiện có đều giải quyết các vấn đề nhận dạng khuôn mặt dựa trên video như sau: Trước tiên, phát hiện khuôn mặt và theo dõi nó theo thời gian. Đôi khi chọn các frame hình tốt có mặt trước mặt hoặc các tín hiệu có giá trị là cần thiết. Tiếp theo, khi một frame thỏa mãn các tiêu chí nhất định (kích thước, hình dáng, độ sáng và v.v…), việc nhận dạng được thực hiện bằng cách sử dụng kỹ thuật nhận dạng. Hình 1.1 cho thấy toàn bộ quá trình. 3 Đầu vào chuỗi video Khung hình a Khung hình b Khung hình c Khung hình.. Khung hình 𝑛 Phát hiện khuôn mặt và Theo dõi khuôn mặt 1. Sử dụng thông tin không gian thời gian 2. Đối phó với các vấn đề đặt ra\ độ phân giải thấp\ chiếu sáng\ độ trễ No Tín hiệu có chứa giá trị khuôn mặt? Yes Chỉ số mặt 1 Chỉ số mặt 2 Chỉ số mặt… Nhận dạng khuôn mặt Hình 1.1: Quy trình nhận dạng khuôn mặt trong video Ngoài ra, một số phương pháp cũng sử dụng tín hiệu kết hợp, chẳng hạn như âm thanh, đi bộ và như vậy, để thực hiện phân tích toàn diện và đưa ra quyết định. 1.2 Các phương pháp phát hiện khuôn mặt. Phát hiện khuôn mặt là giai đoạn đầu tiên của hệ thống nhận dạng khuôn mặt. Rất nhiều nghiên cứu đã được thực hiện trong lĩnh vực này và đạt được nhiều kết quả tốt đối với ảnh tĩnh. Tuy nhiên các phương pháp này lại có nhiều hạn chế khi áp dụng vào video. Trong các cảnh quay video, khuôn mặt 4 của con người có thể có các hướng và vị trí không giới hạn, do đó việc phát hiện khuôn mặt người là một loạt các thách thức đối với các nhà nghiên cứu. Nói chung, có cách tiếp cận cho bài toán phát hiện khuôn mặt dựa trên video. Thứ nhất là phát hiện khuôn mặt trong từng frame. Do mỗi frame có thể xem là một hình ảnh tĩnh, do đó có thể áp dụng nhiều phương pháp truyền thống cho hình ảnh tĩnh như phương pháp mô hình thống kê (Statistical modeling method), phương pháp dựa trên mạng neuron nhân tạo (neural network-based method), phương pháp dựa trên SVM, phương pháp dựa trên mô hình Markov ẩn HMM, phương pháp BOOST và phát hiện khuôn mặt dựa trên màu sắc, v.v… Tuy nhiên, nhược điểm chính của các cách tiếp cận này là bỏ qua thông tin thời gian thu được từ các frame nối tiếp. Thứ hai, là kết hợp phát hiện và theo dõi, quá trình này phát hiện khuôn mặt trong frame đầu tiên và sau đó theo dõi vị trí khuôn mặt qua các frame kế tiếp. Do việc phát hiện và theo dõi được độc lập, phương pháp này có thể đánh mất dấu vết của khuôn mặt đươc theo dõi. Hướng tiếp cận thứ ba là khai thác mối quan hệ thời gian giữa các frame để phát hiện nhiều khuôn mặt người trong một chuỗi video. Hướng tiếp cận này phát hiện và dự đoán vị trí của khuôn mặt trong các frame tiếp và sau đó cập nhật theo dõi. Điều này giúp việc phát hiện khuôn mặt ổn định hơn so với hai hướng tiếp cận trên. 1.2.1 Các phương pháp phát hiện tiêu biểu Vào năm 2000, Zhu Liu và Yao Wang đã trình bày một thủ tục kết hợp nhanh với dynamic programming để phát hiện khuôn mặt và theo dõi những khuôn mặt không trực diện sử dụng các mô hình khuôn mặt thích nghi. Thực tế quan sát thấy rằng mật độ tập trung các cạnh cao hơn ở các vùng chứa 5 khuôn mặt và mật độ cạnh xuất hiện ít hơn ở các vùng bên ngoài. Dựa trên quan sát này, Li Silva, K. Aizawa và M. Hatori đề xuất một phương pháp đếm cạnh, để phát hiện và theo dõi các đặc trưng của khuôn mặt trong chuỗi video. Han và cộng sự đã phát hiện và theo dõi nhiều đối tượng không xác định bằng cách sử dụng graph structure that maintains multiple hypotheses. Và D. Ramanan đã đưa ra các mô hình trình diễn tự động được xây dựng dựa trên phân nhóm thích hợp trên các phân đoạn video. Ngoài ra, một số phương pháp tiếp cận kết hợp tính năng Edge Orientation Features để nâng cao hiệu quả của việc phát hiện vị trí khuôn mặt thời gian thực trên ảnh tĩnh xám. Để sử dụng đầy đủ các thông tin thời gian được cung cấp bởi video, Mikolajczyk, K và cộng sự đề xuất một phương pháp phát hiện khuôn mặt sử dụng biểu đồ địa phương của các hệ số wavelet đại diện cho một frame phối hợp cố định cho đối tượng. Zhenqiu Zhang đề xuất Floatboost dựa trên phát hiện khuôn mặt để tạo ra một điểm quyết định, và sau đó sử dụng thông tin thời gian để xác nhận và xác nhận kết quả. 1.2.2 Các phương pháp tiếp cận theo thời gian thực và đa chiều. Phát hiện khuôn mặt nhiều lần và trong thời gian thực là một yêu cầu rất quan trọng trong việc phát hiện khuôn mặt dựa trên video. Có một số phương pháp thường được áp dụng để phát hiện khuôn mặt trong thời gian thực:  Sử dụng Haar wavelet kết hợp với Cascade AdaBoost của Viola và Jones.  Sử dụng thông tin màu để phát hiện và xác nhận khuôn mặt người. Một kỹ thuật thống kê phi tham số được khai thác bởi Bradski và cộng sự để phát hiện khuôn mặt trong 3D. Schneiderman và Kanade trong IEEE Computer Society Conference on Computer Vision and Pattern Recognition 6 năm 2000 đã công bố hệ thống của họ là hệ thống đầu tiên trên thế giới để phát hiện khuôn mặt đa diện. Trong những năm qua, đã có nhiều tiến bộ trong lĩnh vực này. Có hai phương pháp chính:  Phương pháp xây dựng một máy dò duy nhất để áp dụng với tất cả các góc nhìn của khuôn mặt;  Phương pháp xây dựng nhiều máy dò để áp dụng các góc nhìn khác nhau. Feraud và cộng sự đã sử dụng một dãy của 5 máy dò với mỗi máy dò cho một lần kiểm tra. Các máy dò quay để nhận ra những thay đổi, dựa trên quỹ đạo của khuôn mặt trong các không gian đặc trưng PCA tuyến tính, S. Gong và cộng sự đã cung cấp một cơ chế hữu ích để điều tra những thay đổi này. Thêm vào đó, kiến trúc kim tự tháp được phát hiện trình bày bởi Zhenqiu Zhang, trong đó đã áp dụng một chiến lược tổng hợp về sự phân rã từ thấp đến cao và sự phân loại khuôn mặt hoặc không phải khuôn mặt. Để đạt được tỷ lệ lỗi tối thiểu, Li và Zhang đã đề xuất một thuật toán bằng cách tích hợp nguyên lý của cả Cascade AdaBoost và mảng dò. Tuy nhiên, theo hầu hết các cách tiếp cận này, có một vấn đề nghiêm trọng xảy ra bởi vì tính đa dạng trong lớp của tập dữ liệu khuôn mặt đa diện rộng lớn hơn so với bộ dữ liệu khuôn mặt chụp trực diện. Mặc dù AdaBoost (DPAA) có khả năng xử lý vấn đề này, nhưng do sự phức tạp tăng dẫn đến việc tải phép tính cao hơn và không phù hợp trong huấn luyện dữ liệu. 1.3 Các phương pháp theo dõi khuôn mặt Ở các hệ thống nhận dạng khuôn mặt, việc theo dõi khuôn mặt là khai thác sự tương ứng của khuôn mặt theo thời gian giữa các frame. Theo dõi khuôn mặt có thể được chia thành ba hướng: 7  Theo dõi đầu (dựa trên màu, dựa trên mô hình và dựa trên hình dạng).  Theo dõi các đặc điểm trên khuôn mặt.  Kết hợp theo dõi đặc điểm trên khuôn mặt và mặt. Đối với xử lý video, thời gian thực chính là tính năng hàng đầu để theo dõi khuôn mặt. 1.3.1 Các phương pháp theo dõi khuôn mặt tiêu biểu. Phương pháp đầu tiên để theo dõi khuôn mặt là dựa trên mô hình, thường bao gồm các mô hình thống kê và dựa trên mẫu. Hongli và những người khác đã áp dụng hiệu quả bản đồ biên cho quá trình theo dõi tiếp theo trên cơ sở kết quả phân đoạn trước. Các bước chính trong giai đoạn theo dõi là sự kết hợp và kết nối các biên với nhau. Việc xây dựng trước bản đồ để xác định ranh giới của khuôn mặt và sau đó được sử dụng để trích xuất khu vực giữa hai điểm chính. 1.3.1.1 Cách tiếp cận dựa trên mô hình Hager và Belhumeur đã sử dụng một mô hình tham số để theo dõi. Mô hình Active Appearance Model (AAM) được giới thiệu bởi Cootes và những người khác, trong đó có một mô hình thống kê về hình dạng và mức độ màu xám của đối tượng chính để mã hóa thông tin hình dạng và cấu trúc. Dựa vào AAM, Jorgen Ahlberg vào năm 2001 đã trình bày một mô hình hoạt động để theo dõi những đặc điểm trên khuôn mặt. Theo dõi mẫu của J Saragih và R Goecke mở rộng ý tưởng về AAM và đã đạt được kết quả tốt hơn. Isard và Blake đã kết hợp thuật toán ngưng tụ với các đường viền hoạt động được tham số hóa bởi các vectơ. Thuật toán tương tự được khái quát bởi Seo và cộng sự tại IEEE 5th Asian Control Conference năm 2004, sử dụng đường viền hoạt động với sự ngưng tụ và cũng như sử dụng thông tin màu sắc. 8 1.3.1.2 Cách tiếp cận dựa trên màu sắc và hình dạng. Màu sắc và hình dạng là các tín hiệu quan trọng để theo dõi khuôn mặt. Đã có nhiều phương pháp được đề xuất, một phương pháp theo dõi khuôn mặt tốt dựa trên thuật toán ngưng tụ kết hợp màu da với hình dạng khuôn mặt đã được giới thiệu bởi Hyung-Soo Lee và cộng sự. Màu da và hệ thống theo dõi khuôn mặt được xây dựng như là thước đo quan sát tương ứng. Kết quả cho thấy phương pháp này thậm chí còn tỏ ra ổn định trong khi thay đổi ánh sáng đột ngột. Tương tự như vậy, F.M Noguer và Alberto Sanfeliu đề xuất việc sử dụng một phương pháp không gian màu mới dựa trên phương pháp Linear Discriminate Analysis kết hợp màu sắc và hình dạng khuôn mặt thành thuật toán ngưng tụ. Ying Ren và Chin Seng Chua tích hợp quy trình theo dõi với miền không gian và đề xuất phương pháp Bilateral Learning. Thuật toán của họ chủ yếu chọn các mẫu đáng tin cậy để cập nhật mô hình màu và không gian trong EM framework và nó không cần mô hình hình dạng chính xác. Jwu-Sheng Hu đã đưa ra một phương pháp theo dõi chuyển đổi trung bình đã được cải tiến sử dụng tính năng không gian hỗn hợp và đề xuất một chức năng đo lường tương tự mới. Theo dõi các đặc điểm trên khuôn mặt luôn được đặt trọng tâm. Các phương pháp tiếp cận gặp khó khăn với sự thay đổi tỉ lệ hoặc độ phân giải, nhưng nó chính xác và cho kết quả tốt với chuyển động phẳng. Yan Tong và YangWang đã áp dụng một mô hình đồng thời mô tả các hình dạng và các chi tiết cấu trúc cục bộ trên khuôn mặt người. Cùng với đó wavelet gabor và các hồ sơ cấp độ xám được tích hợp để có hiệu quả hơn và thể hiện các đặc điểm trên khuôn mặt một cách hiệu quả hơn. Phương pháp tiếp cận theo dõi nhiều mô hình được sử dụng để ước tính vị trí các điểm đặc trưng trên khuôn mặt một cách chính xác và tối ưu nhất. Tu JL và Tao H đã đưa sự theo dõi tích hợp vào bộ lọc Kalman, trong đó hệ thống phi tuyến tính trở thành giống một 9 mô hình tuyến tính cục bộ. Christian Kublbeck và Andreas Ernst đã trình bày việc theo dõi khuôn mặt bằng các phương tiện phát hiện liên tục và đưa ra các tính năng cấu trúc không thay đổi về độ sáng trong bộ lọc Kalman. Hướng còn lại là theo dõi dựa trên sự kết hợp của đầu và đặc điểm trên khuôn mặt. Brais Martinez và Xavier Binefa trình bày một phương pháp để theo dõi một số đặc điểm của một mục tiêu trải qua một chuyển động 3D tự do. Phương pháp Multiple kernel tracking có thể theo dõi các đối tượng trải qua quá trình biến đổi tham số. Phương pháp này mở rộng kết quả đến các tình huống tổng quát hơn. Indra Sulistijono và Naoyuki Kubota đã đề xuất một phương pháp nâng cấp của SSGA và Particle Swarm Optimization (PSO) để thực hiện việc theo dõi nhiều người và phương pháp này cũng có thể làm giảm chi phí tính toán. Trong Proceedings 2nd Joint IEEE International Workshop on VS-PETS năm 2005, Yonggang Jin trình bày một bộ lọc hợp nhất dữ liệu cho phương pháp theo dõi đầu đã được đề xuất dựa trên các tín hiệu màu và cạnh. Một bộ lọc Boosted Adaptive Particle (BAPF) để cho phép ước lượng và theo dõi với độ chính xác cao hơn nhiều. 1.3.2 Các phương pháp theo dõi thời gian thực. Theo dõi khuôn mặt theo thời gian thực gần đây đã thu hút nhiều sự chú ý. Các kỹ thuật theo dõi thời gian thực hiện tại bao gồm: CAMSHIFT, ngưng tụ và bộ lọc Kalman. Khi đối tượng ở xa camera, thuật toán khó có thể theo dõi được. Để hiệu quả trong việc tăng hiệu suất theo dõi và khả năng tính toán, các phương pháp theo dõi khuôn mặt dựa trên phân bố màu đã được nghiên cứu. Ví dụ, Yao và Gao đã đề xuất một thuật toán theo dõi khuôn mặt dựa trên sự biến đổi màu da và màu sắc môi. Huang và Chen năm 2000 đã xây dựng một mô hình màu thống kê và mẫu để theo dõi nhiều khuôn mặt. 10 1.4. Nhận dạng khuôn mặt Nhận dạng khuôn mặt là giai đoạn quan trọng nhất trong toàn bộ hệ thống. Các thuật toán nhận dạng khuôn mặt trên video sử dụng các phương pháp tiếp cận về công nghệ xử lý trên các frame dừng. Tuy nhiên, video có khả năng cung cấp nhiều thông tin hơn hình ảnh tĩnh. Ta thấy được rằng có bốn lợi thế lớn khi sử dụng video như sau:  Khả năng sử dụng các frame khác có trong video để cải thiện hiệu suất nhận dạng hình ảnh.  Nghiên cứu tâm lý và tâm thần học gần đây đã chỉ ra rằng thông tin động là rất quan trọng trong quá trình nhận biết khuôn mặt của con người.  Các lợi thế như mô hình mặt 3D hoặc hình ảnh có độ phân giải cao, có thể được lấy từ video và được sử dụng để cải thiện hiệu quả nhận dạng.  Nhận dạng khuôn mặt dựa trên video cho phép học tập hoặc cập nhật mô hình theo thời gian. Mặc dù có rất nhiều lợi thế khi nhận dạng khuôn mặt trên video nhưng ta thấy rằng cũng có một số nhược điểm cần quang tâm như:  Chất lượng video kém, độ phân giải hình ảnh thấp  Chiếu sáng  Thay đổi dáng đi, chuyển động.  Biểu hiện khuôn mặt  Khoảng cách lớn từ camera ... Với tất cả những thuận lợi và những nhược điểm này, đã có nhiều phương pháp áp dụng giải quyết nhiều khía cạnh đã nêu để nhận dạng khuôn mặt dựa trên video. 11 1.4.1 Phương pháp nhận dạng dựa vào không gian thông tin Hầu hết các cách tiếp cận gần đây sử dụng không gian thông tin để nhận dạng khuôn mặt trong video. Thông thường, một số phương pháp sử dụng chọn lọc tạm thời để cải thiện tỷ lệ nhận dạng. Ngoài ra còn có một số thuật toán lấy được cấu trúc khuôn mặt 2D hoặc 3D từ video như của W. Y. Zhao and R. Chellappa. Khác với cách tiếp cận chọn lọc đơn giản, Li và cộng sự đã đề xuất một phương pháp dựa trên mô hình hình dạng và kết cấu và khai thác tính năng hạt nhân. Tuy nhiên, phương pháp như vậy không sử dụng đầy đủ thông tin trong video. Zhou và Chellappa đã đưa ra một phương pháp kết hợp thông tin thời gian trong một trình tự video cho nhiệm vụ xác thực khuôn mặt. Một mô hình không gian trạng thái với vector theo dõi trạng thái và nhận dạng biến số được sử dụng để mô tả các đặc điểm trên khuôn mặt. Cách tiếp cận xác suất này nhằm tích hợp chuyển động và thông tin nhận dạng theo thời gian với thuật toán sequential importance sampling algorithm; tuy nhiên nó vẫn chỉ xem xét được duy nhất sự thống nhất trong miền thời gian và do đó nó có thể không hoạt động tốt khi đối tượng bị che khuất. Zhang YB, Martinez AM đã so sánh PCA, LDA và ICA với nhiều hình ảnh với các đoạn video, điều này chứng minh rằng cách tiếp cận xác suất cân bằng có thể giải quyết được các vấn đề tồn tại trong ảnh đơn. Krueger và Zhou đã chọn những hình ảnh đại diện cho từng khuôn mặt như là những mẫu được lấy từ các video huấn luyện trực tiếp. Mô hình này có hiệu quả trong việc thu được chuyển động 2D nhỏ nhưng có thể không phù hợp với sự thay đổi hoặc che khuất với hình dạng 3D lớn. Năm 2002, Li và những người khác đã áp dụng mô hình piecewise linear để nắm bắt các chuyển động cục bộ. Phương pháp tương tự đã được đề xuất bởi Kuang-Chih Lee, đã mang lại phương pháp tuyên truyền xác suất của các mô hình tuyến tính thông qua ma trận chuyển đổi. Thuật toán ngưng tụ có thể được sử dụng thay thế cho mô hình 12 cấu trúc thời gian của S. Zhou. Các phương pháp dựa trên không gian thời gian để nhận biết khuôn mặt trong video có một số nhược điểm:  Động lực học trên khuôn mặt của từng cá nhân cụ thể rất hữu ích cho việc phân biệt giữa những người khác nhau, tuy nhiên thông tin thời gian trong cá nhân liên quan đến biểu hiện khuôn mặt và cảm xúc cũng được mã hoá và sử dụng.  Trọng lượng trung bình được đưa ra đối với các đặc điểm không thời gian mặc dù một số tính năng góp phần nhận ra nhiều hơn những điểm khác;  Rất nhiều phương pháp chỉ có thể xử lý tốt các khuôn mặt do vậy hạn chế sử dụng của các phương pháp đó trong thực tế với ảnh người có cả phong cảnh. 1.4.2 Phương pháp nhận dạng dựa vào mô hình thống kê Năm 2002, Zhou và những người khác đã thu được các mô hình thống kê từ video bằng cách sử dụng các tính năng cấp thấp (ví dụ: bằng PCA) chứa trong các hình ảnh mẫu, được sử dụng để thực hiện kết hợp giữa một frame đơn và luồng video hoặc giữa hai luồng video. Satoh đã khớp với hai chuỗi video bằng cách chọn cặp frame gần nhất trên cả hai video. Một vài phương pháp sử dụng trình tự video để đào tạo mô hình thống kê khuôn mặt cho phù hợp. Phương pháp mutual subspace lấy các frame riêng biệt trong video cho mỗi người để tính toán nhiều không gian riêng lẻ, xem xét góc giữa đầu vào và các không gian con tham chiếu được hình thành bởi các thành phần chính của các chuỗi hình ảnh là thước đo cho sự nhận dạng. Năm 2003, một phương pháp đã được đề xuất bằng cách sử dụng các góc độ không gian hình ảnh ban đầu và sử dụng một không gian đặc trưng để đo sự tương đồng giữa hai chuỗi video. Để cải thiện, Topkaya đã đề xuất thuật toán đơn giản dựa trên các tính
- Xem thêm -

Tài liệu liên quan