ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
VŨ THÁI LINH
NHẬN DIỆN KHUÔN MẶT NGƯỜI SỬ DỤNG WAVELET
VÀ PRINCIPLE COMPONENT ANALYSIS (PCA)
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
Thái Nguyên, 2018
ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
VŨ THÁI LINH
NHẬN DIỆN KHUÔN MẶT NGƯỜI SỬ DỤNG WAVELET
VÀ PRINCIPLE COMPONENT ANALYSIS (PCA)
Chuyên ngành: Khoa học máy tính
Mã số: 8 480 101
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
Người hướng dẫn khoa học: TS. NGUYỄN TOÀN THẮNG
Thái Nguyên, 2018
i
LỜI CAM ĐOAN
Tôi xin cam đoan kết quả đạt được trong luận văn là sản phẩm của
riêng cá nhân, không sao chép lại của người khác. Trong toàn bộ nội dung của
luận văn, những điều được trình bày hoặc là của cá nhân hoặc là được tổng
hợp từ nhiều nguồn tài liệu. Tất cả các tài liệu tham khảo đều có xuất xứ rõ
ràng và được trích dẫn hợp pháp.
Tôi xin hoàn toàn chịu trách nhiệm và chịu mọi hình thức kỷ luật theo
quy định cho lời cam đoan của mình.
Tác giả luận văn
Vũ Thái Linh
ii
LỜI CẢM ƠN
Lời đầu tiên, tôi xin bày tỏ lòng biết ơn sâu sắc đến đến Ban Giám
Hiệu, các thầy giáo, cô giáo phòng đào tạo sau đại học Công Nghệ Thông Tin
& Truyền Thông, các thầy giáo, cô giáo đã giảng dạy và cung cấp cho tôi
những kiến thức rất bổ ích trong thời gian học, giúp tôi có nền tảng tri thức để
phục vụ nghiên cứu khoa học sau này.
Đặc biệt, tôi xin bày tỏ sự kính trọng và lòng biết ơn sâu sắc đến thầy
giáo TS. Nguyễn Toàn Thắng người đã tận tình hướng dẫn, chỉ bảo và giúp
đỡ tôi trong suốt quá trình nghiên cứu và hoàn thành luận văn này.
Tôi cũng xin bày tỏ lòng cảm ơn đến gia đình và bạn bè, những người
luôn quan tâm, động viên và khuyến khích tôi.
Tác giả luận văn
Vũ Thái Linh
iii
MỤC LỤC
Trang
TRANG BÌA PHỤ
LỜI CAM ĐOAN ..............................................................................................i
LỜI CẢM ƠN.................................................................................................. ii
MỤC LỤC....................................................................................................... iii
DANH MỤC BẢNG......................................................................................... v
DANH MỤC HÌNH ẢNH ..............................................................................vi
CHƯƠNG 1: TỔNG QUAN VỀ NHẬN DẠNG KHUÔN MẶT
NGƯỜI .............................................................................................................. 1
1.1 Giới thiệu chung về nhận dạng khuôn mặt ..................................................1
1.2 Các phương pháp phát hiện khuôn mặt. ......................................................3
1.2.1 Các phương pháp phát hiện tiêu biểu .......................................................4
1.2.2 Các phương pháp tiếp cận theo thời gian thực và đa chiều. .....................5
1.3 Các phương pháp theo dõi khuôn mặt .........................................................6
1.3.1 Các phương pháp theo dõi khuôn mặt tiêu biểu. ......................................7
1.3.2 Các phương pháp theo dõi thời gian thực.................................................9
1.4. Nhận dạng khuôn mặt .............................................................................. 10
1.4.1 Phương pháp nhận dạng dựa vào không gian thông tin ........................ 11
1.4.2 Phương pháp nhận dạng dựa vào mô hình thống kê ............................. 12
1.4.3 Phương pháp nhận dạng dựa trên những gợi ý lai ................................. 13
1.4.4. Các phương pháp nâng cao trong nhận dạng khuôn mặt ..................... 13
1.5 Các cơ sở dữ liệu ảnh và video nổi tiếng .................................................. 18
KẾT LUẬN CHƯƠNG 1 .............................................................................. 20
CHƯƠNG 2: NHẬN DẠNG KHUÔN MẶT NGƯỜI SỬ DỤNG PCA
QUA BIẾN ĐỔI WAVELET ........................................................................ 21
2.1 Biến đổi Wavelet ...................................................................................... 23
iv
2.1.1 Giới thiệu về Wavelet ............................................................................ 23
2.1.2 Lựa chọn Wavelet .................................................................................. 28
2.2 Đánh giá về PCA và Eigenfaces để nhận dạng khuôn mặt ...................... 30
2.2.1 Phân tích thành phần chính - PCA......................................................... 30
2.2.2 Eigenfaces .............................................................................................. 32
2.3 Giai đoạn huấn luyện ................................................................................ 33
2.4 Giai đoạn nhận dạng ................................................................................. 36
KẾT LUẬN CHƯƠNG 2 .............................................................................. 38
CHƯƠNG 3. ỨNG DỤNG ĐIỂM DANH ................................................... 39
3.1 Giới thiệu bài toán .................................................................................... 39
3.2 Giao diện và hoạt động của chương trình ................................................. 39
3.3 Đánh giá kết quả thu được ........................................................................ 42
KẾT LUẬN CHƯƠNG 3 .............................................................................. 47
KẾT LUẬN CHUNG ..................................................................................... 48
TÀI LIỆU THAM KHẢO ............................................................................. 50
v
DANH MỤC BẢNG
Trang
Bảng 1.1: Cơ sở dữ liệu mặt ............................................................................ 19
Bảng 2.1: Tỷ lệ nhận dạng bằng cách sử dụng các wavelet khác nhau trên
cơ sở dữ liệu của Yale ................................................................... 24
Bảng 2.2: Sự chênh lệch của các hình ảnh subband của WT và độ phân giải
của nó trong Hình 2.3 (b). ............................................................. 28
Bảng 2.3: Tỉ lệ nhận dạng khuôn mặt trên các subband khác nhau ................ 29
Bảng 3.1: So sánh hiệu năng sử dụng cơ sở dữ liệu huấn luyện ..................... 44
vi
DANH MỤC HÌNH ẢNH
Trang
Hình 1.1: Quy trình nhận dạng khuôn mặt trong video ..................................... 3
Hình 2.1 Sơ đồ khối của hệ thống nhận dạng khuôn mặt được đề xuất .......... 22
Hình 2.2: (a) Phân rã wavelet cấp 1 và (b) Phân rã wavelet cấp 3 và phân rã
wavelet cấp 6, dải A bị phân rã một lần nữa. ................................ 26
Hình 2.3: (a) Một hình ảnh gốc có độ phân giải 128x128; (b) Sự phân rã
WT ba mức của hình ảnh (a). ........................................................ 27
Hình 2.4 Biểu diễn ảnh .................................................................................... 33
Hình 2.5: (a) Năm hình ảnh từ Đại học Brown ............................................... 35
(b) Hình ảnh biểu diễn đào tạo dựa trên subband 4 ........................ 35
Hình 3.1: Tập ảnh huấn luyện thực tế.............................................................. 40
Hình 3.2: Giao diện khi huấn luyện cơ sở dữ liệu ........................................... 41
Hình 3.3: Giao diện khi nhận dạng được khuôn mặt ....................................... 42
Hình 3.4: Hình ảnh từ cơ sở dữ liệu tập huấn với các biểu hiện trên khuôn
mặt khác nhau, điều kiện chiếu sáng. ............................................ 43
Hình 3.5: Hình ảnh hệ thống nhận dạng nhiều người một lúc ........................ 44
Hình 3.6: Hình ảnh hệ thống nhận dạng với người không có trong cơ sở dữ
liệu huấn luyện .............................................................................. 45
Hình 3.7: Hình ảnh hệ thống nhận dạng với nhiều người không có trong cơ
sở dữ liệu huấn luyện..................................................................... 46
1
CHƯƠNG 1: TỔNG QUAN VỀ NHẬN DẠNG KHUÔN MẶT NGƯỜI
1.1 Giới thiệu chung về nhận dạng khuôn mặt
Trong những năm qua, nhận dạng khuôn mặt trong video đã nhận được
sự chú ý đáng kể. Đã xuất hiện những công nghệ khả thi sau nhiều thập niên
nghiên cứu đóng góp vào xu thế này, chúng không chỉ ứng dụng vào các ứng
dụng thương mại, ứng dụng bảo mật mà còn nhiều lĩnh vực khác trong cuộc
sống. Mặc dù hệ thống nhận dạng khuôn mặt hiện tại đã đạt đến một mức độ
phát triển nhất định, nhưng chúng vẫn còn nhiều hạn chế khi áp dụng vào các
điều kiện thực tế. Ví dụ, các hình ảnh nhận dạng của video được lấy trong môi
trường thực tế với sự thay đổi độ sáng, khuôn mặt nghiêng hoặc độ phân giải
thấp của hình ảnh thu được vẫn là vấn đề khó giải quyết. Nói cách khác, các
thuật toán hiện tại vẫn chưa được hoàn thiện tốt nhất. Trong chương này, sự
phát triển hiện tại của nhận dạng khuôn mặt dựa trên video được chia thành
các mục như sau:
Phần 1.1 Giới thiệu chung
Phần 1.2 Giới thiệu các kỹ thuật điển hình của việc phát hiện khuôn
mặt trong video, thời gian thực và đa chiều.
Phần 1.3 Các phương pháp theo dõi gương mặt điển hình.
Phần 1.4 So sánh với hình ảnh tĩnh, và liệt kê những thuận lợi và bất lợi
của nhận dạng khuôn mặt trong video. Các phương pháp đặc biệt để giải
quyết các vấn đề như chiếu sáng, độ phân giải thấp và giới thiệu về 3D
Phần 1.5 Trình bày một số cơ sở dữ liệu dựa trên video nổi tiếng.
Từ lần đầu tiên được đề xuất vào những năm 1880, nhận dạng khuôn
mặt đã nhận được sự chú ý đáng kể và trở thành một trong những hướng
nghiên cứu thành công nhất của nhận dạng mẫu. Các nghiên cứu đã đưa ra
nhiều thuật toán có giá trị cho bài toán nhận dạng khuôn mặt, ví dụ …
2
Principal Component Analysis (PCA), Linear Discriminant Analysis (LDA),
Elastic Graph Matching (EGM), v.v.. So với hình ảnh tĩnh, video có thể cung
cấp thêm thông tin về không gian và thời gian. Do đó, nhận dạng khuôn mặt
dựa trên video đã thu hút nhiều sự chú ý hơn trong thời gian gần đây. Trong
chương này sẽ khảo sát sự nhận dạng khuôn mặt dựa trên video trong những
năm đây. Ngay từ đầu, hầu hết các phương pháp đã được dựa trên các kỹ
thuật xử lý trên các frame (khung hình) dừng nhằm mục đích để lựa chọn
frame tốt nhất và sau khi đã làm một số xử lý tương đối.
Gần đây các nhà nghiên cứu đã bắt đầu thực sự giải quyết những vấn đề
như vậy bằng cách thể hiện không gian thời gian. Hầu hết các hệ thống hiện
có đều giải quyết các vấn đề nhận dạng khuôn mặt dựa trên video như sau:
Trước tiên, phát hiện khuôn mặt và theo dõi nó theo thời gian. Đôi
khi chọn các frame hình tốt có mặt trước mặt hoặc các tín hiệu có giá trị là
cần thiết.
Tiếp theo, khi một frame thỏa mãn các tiêu chí nhất định (kích thước,
hình dáng, độ sáng và v.v…), việc nhận dạng được thực hiện bằng cách sử
dụng kỹ thuật nhận dạng. Hình 1.1 cho thấy toàn bộ quá trình.
3
Đầu vào chuỗi video
Khung hình
a
Khung hình
b
Khung hình
c
Khung
hình..
Khung hình
𝑛
Phát hiện khuôn mặt và Theo dõi khuôn mặt
1. Sử dụng thông tin không gian thời
gian
2. Đối phó với các vấn đề đặt ra\ độ
phân giải thấp\ chiếu sáng\ độ trễ
No
Tín hiệu có chứa giá
trị khuôn mặt?
Yes
Chỉ số mặt
1
Chỉ số mặt
2
Chỉ số
mặt…
Nhận dạng khuôn mặt
Hình 1.1: Quy trình nhận dạng khuôn mặt trong video
Ngoài ra, một số phương pháp cũng sử dụng tín hiệu kết hợp, chẳng
hạn như âm thanh, đi bộ và như vậy, để thực hiện phân tích toàn diện và đưa
ra quyết định.
1.2 Các phương pháp phát hiện khuôn mặt.
Phát hiện khuôn mặt là giai đoạn đầu tiên của hệ thống nhận dạng
khuôn mặt. Rất nhiều nghiên cứu đã được thực hiện trong lĩnh vực này và đạt
được nhiều kết quả tốt đối với ảnh tĩnh. Tuy nhiên các phương pháp này lại có
nhiều hạn chế khi áp dụng vào video. Trong các cảnh quay video, khuôn mặt
4
của con người có thể có các hướng và vị trí không giới hạn, do đó việc phát
hiện khuôn mặt người là một loạt các thách thức đối với các nhà nghiên cứu.
Nói chung, có cách tiếp cận cho bài toán phát hiện khuôn mặt dựa trên video.
Thứ nhất là phát hiện khuôn mặt trong từng frame. Do mỗi frame có
thể xem là một hình ảnh tĩnh, do đó có thể áp dụng nhiều phương pháp truyền
thống cho hình ảnh tĩnh như phương pháp mô hình thống kê (Statistical
modeling method), phương pháp dựa trên mạng neuron nhân tạo (neural
network-based method), phương pháp dựa trên SVM, phương pháp dựa trên
mô hình Markov ẩn HMM, phương pháp BOOST và phát hiện khuôn mặt dựa
trên màu sắc, v.v… Tuy nhiên, nhược điểm chính của các cách tiếp cận này là
bỏ qua thông tin thời gian thu được từ các frame nối tiếp.
Thứ hai, là kết hợp phát hiện và theo dõi, quá trình này phát hiện khuôn
mặt trong frame đầu tiên và sau đó theo dõi vị trí khuôn mặt qua các frame kế
tiếp. Do việc phát hiện và theo dõi được độc lập, phương pháp này có thể
đánh mất dấu vết của khuôn mặt đươc theo dõi.
Hướng tiếp cận thứ ba là khai thác mối quan hệ thời gian giữa các
frame để phát hiện nhiều khuôn mặt người trong một chuỗi video. Hướng tiếp
cận này phát hiện và dự đoán vị trí của khuôn mặt trong các frame tiếp và sau
đó cập nhật theo dõi. Điều này giúp việc phát hiện khuôn mặt ổn định hơn so
với hai hướng tiếp cận trên.
1.2.1 Các phương pháp phát hiện tiêu biểu
Vào năm 2000, Zhu Liu và Yao Wang đã trình bày một thủ tục kết hợp
nhanh với dynamic programming để phát hiện khuôn mặt và theo dõi những
khuôn mặt không trực diện sử dụng các mô hình khuôn mặt thích nghi. Thực
tế quan sát thấy rằng mật độ tập trung các cạnh cao hơn ở các vùng chứa
5
khuôn mặt và mật độ cạnh xuất hiện ít hơn ở các vùng bên ngoài. Dựa trên
quan sát này, Li Silva, K. Aizawa và M. Hatori đề xuất một phương pháp đếm
cạnh, để phát hiện và theo dõi các đặc trưng của khuôn mặt trong chuỗi video.
Han và cộng sự đã phát hiện và theo dõi nhiều đối tượng không xác định bằng
cách sử dụng graph structure that maintains multiple hypotheses. Và D.
Ramanan đã đưa ra các mô hình trình diễn tự động được xây dựng dựa trên
phân nhóm thích hợp trên các phân đoạn video. Ngoài ra, một số phương
pháp tiếp cận kết hợp tính năng Edge Orientation Features để nâng cao hiệu
quả của việc phát hiện vị trí khuôn mặt thời gian thực trên ảnh tĩnh xám. Để
sử dụng đầy đủ các thông tin thời gian được cung cấp bởi video, Mikolajczyk,
K và cộng sự đề xuất một phương pháp phát hiện khuôn mặt sử dụng biểu đồ
địa phương của các hệ số wavelet đại diện cho một frame phối hợp cố định
cho đối tượng. Zhenqiu Zhang đề xuất Floatboost dựa trên phát hiện khuôn
mặt để tạo ra một điểm quyết định, và sau đó sử dụng thông tin thời gian để
xác nhận và xác nhận kết quả.
1.2.2 Các phương pháp tiếp cận theo thời gian thực và đa chiều.
Phát hiện khuôn mặt nhiều lần và trong thời gian thực là một yêu
cầu rất quan trọng trong việc phát hiện khuôn mặt dựa trên video. Có một
số phương pháp thường được áp dụng để phát hiện khuôn mặt trong thời
gian thực:
Sử dụng Haar wavelet kết hợp với Cascade AdaBoost của Viola và
Jones.
Sử dụng thông tin màu để phát hiện và xác nhận khuôn mặt người.
Một kỹ thuật thống kê phi tham số được khai thác bởi Bradski và cộng
sự để phát hiện khuôn mặt trong 3D. Schneiderman và Kanade trong IEEE
Computer Society Conference on Computer Vision and Pattern Recognition
6
năm 2000 đã công bố hệ thống của họ là hệ thống đầu tiên trên thế giới để
phát hiện khuôn mặt đa diện. Trong những năm qua, đã có nhiều tiến bộ trong
lĩnh vực này. Có hai phương pháp chính:
Phương pháp xây dựng một máy dò duy nhất để áp dụng với tất cả các
góc nhìn của khuôn mặt;
Phương pháp xây dựng nhiều máy dò để áp dụng các góc nhìn
khác nhau.
Feraud và cộng sự đã sử dụng một dãy của 5 máy dò với mỗi máy dò
cho một lần kiểm tra. Các máy dò quay để nhận ra những thay đổi, dựa trên
quỹ đạo của khuôn mặt trong các không gian đặc trưng PCA tuyến tính, S.
Gong và cộng sự đã cung cấp một cơ chế hữu ích để điều tra những thay đổi
này. Thêm vào đó, kiến trúc kim tự tháp được phát hiện trình bày bởi Zhenqiu
Zhang, trong đó đã áp dụng một chiến lược tổng hợp về sự phân rã từ thấp
đến cao và sự phân loại khuôn mặt hoặc không phải khuôn mặt. Để đạt được
tỷ lệ lỗi tối thiểu, Li và Zhang đã đề xuất một thuật toán bằng cách tích hợp
nguyên lý của cả Cascade AdaBoost và mảng dò.
Tuy nhiên, theo hầu hết các cách tiếp cận này, có một vấn đề nghiêm
trọng xảy ra bởi vì tính đa dạng trong lớp của tập dữ liệu khuôn mặt đa diện
rộng lớn hơn so với bộ dữ liệu khuôn mặt chụp trực diện. Mặc dù AdaBoost
(DPAA) có khả năng xử lý vấn đề này, nhưng do sự phức tạp tăng dẫn đến
việc tải phép tính cao hơn và không phù hợp trong huấn luyện dữ liệu.
1.3 Các phương pháp theo dõi khuôn mặt
Ở các hệ thống nhận dạng khuôn mặt, việc theo dõi khuôn mặt là khai
thác sự tương ứng của khuôn mặt theo thời gian giữa các frame. Theo dõi
khuôn mặt có thể được chia thành ba hướng:
7
Theo dõi đầu (dựa trên màu, dựa trên mô hình và dựa trên hình dạng).
Theo dõi các đặc điểm trên khuôn mặt.
Kết hợp theo dõi đặc điểm trên khuôn mặt và mặt.
Đối với xử lý video, thời gian thực chính là tính năng hàng đầu để theo
dõi khuôn mặt.
1.3.1 Các phương pháp theo dõi khuôn mặt tiêu biểu.
Phương pháp đầu tiên để theo dõi khuôn mặt là dựa trên mô hình,
thường bao gồm các mô hình thống kê và dựa trên mẫu. Hongli và những
người khác đã áp dụng hiệu quả bản đồ biên cho quá trình theo dõi tiếp theo
trên cơ sở kết quả phân đoạn trước. Các bước chính trong giai đoạn theo dõi
là sự kết hợp và kết nối các biên với nhau. Việc xây dựng trước bản đồ để xác
định ranh giới của khuôn mặt và sau đó được sử dụng để trích xuất khu vực
giữa hai điểm chính.
1.3.1.1 Cách tiếp cận dựa trên mô hình
Hager và Belhumeur đã sử dụng một mô hình tham số để theo dõi. Mô
hình Active Appearance Model (AAM) được giới thiệu bởi Cootes và những
người khác, trong đó có một mô hình thống kê về hình dạng và mức độ màu
xám của đối tượng chính để mã hóa thông tin hình dạng và cấu trúc. Dựa vào
AAM, Jorgen Ahlberg vào năm 2001 đã trình bày một mô hình hoạt động để
theo dõi những đặc điểm trên khuôn mặt. Theo dõi mẫu của J Saragih và R
Goecke mở rộng ý tưởng về AAM và đã đạt được kết quả tốt hơn. Isard và
Blake đã kết hợp thuật toán ngưng tụ với các đường viền hoạt động được
tham số hóa bởi các vectơ. Thuật toán tương tự được khái quát bởi Seo và
cộng sự tại IEEE 5th Asian Control Conference năm 2004, sử dụng đường
viền hoạt động với sự ngưng tụ và cũng như sử dụng thông tin màu sắc.
8
1.3.1.2 Cách tiếp cận dựa trên màu sắc và hình dạng.
Màu sắc và hình dạng là các tín hiệu quan trọng để theo dõi khuôn mặt.
Đã có nhiều phương pháp được đề xuất, một phương pháp theo dõi khuôn mặt
tốt dựa trên thuật toán ngưng tụ kết hợp màu da với hình dạng khuôn mặt đã
được giới thiệu bởi Hyung-Soo Lee và cộng sự. Màu da và hệ thống theo dõi
khuôn mặt được xây dựng như là thước đo quan sát tương ứng. Kết quả cho
thấy phương pháp này thậm chí còn tỏ ra ổn định trong khi thay đổi ánh sáng
đột ngột. Tương tự như vậy, F.M Noguer và Alberto Sanfeliu đề xuất việc sử
dụng một phương pháp không gian màu mới dựa trên phương pháp Linear
Discriminate Analysis kết hợp màu sắc và hình dạng khuôn mặt thành thuật
toán ngưng tụ. Ying Ren và Chin Seng Chua tích hợp quy trình theo dõi với
miền không gian và đề xuất phương pháp Bilateral Learning. Thuật toán của
họ chủ yếu chọn các mẫu đáng tin cậy để cập nhật mô hình màu và không
gian trong EM framework và nó không cần mô hình hình dạng chính xác.
Jwu-Sheng Hu đã đưa ra một phương pháp theo dõi chuyển đổi trung bình đã
được cải tiến sử dụng tính năng không gian hỗn hợp và đề xuất một chức
năng đo lường tương tự mới.
Theo dõi các đặc điểm trên khuôn mặt luôn được đặt trọng tâm. Các
phương pháp tiếp cận gặp khó khăn với sự thay đổi tỉ lệ hoặc độ phân giải,
nhưng nó chính xác và cho kết quả tốt với chuyển động phẳng. Yan Tong và
YangWang đã áp dụng một mô hình đồng thời mô tả các hình dạng và các chi
tiết cấu trúc cục bộ trên khuôn mặt người. Cùng với đó wavelet gabor và các
hồ sơ cấp độ xám được tích hợp để có hiệu quả hơn và thể hiện các đặc điểm
trên khuôn mặt một cách hiệu quả hơn. Phương pháp tiếp cận theo dõi nhiều
mô hình được sử dụng để ước tính vị trí các điểm đặc trưng trên khuôn mặt
một cách chính xác và tối ưu nhất. Tu JL và Tao H đã đưa sự theo dõi tích
hợp vào bộ lọc Kalman, trong đó hệ thống phi tuyến tính trở thành giống một
9
mô hình tuyến tính cục bộ. Christian Kublbeck và Andreas Ernst đã trình bày
việc theo dõi khuôn mặt bằng các phương tiện phát hiện liên tục và đưa ra các
tính năng cấu trúc không thay đổi về độ sáng trong bộ lọc Kalman.
Hướng còn lại là theo dõi dựa trên sự kết hợp của đầu và đặc điểm trên
khuôn mặt. Brais Martinez và Xavier Binefa trình bày một phương pháp để
theo dõi một số đặc điểm của một mục tiêu trải qua một chuyển động 3D tự
do. Phương pháp Multiple kernel tracking có thể theo dõi các đối tượng trải
qua quá trình biến đổi tham số. Phương pháp này mở rộng kết quả đến các
tình huống tổng quát hơn. Indra Sulistijono và Naoyuki Kubota đã đề xuất
một phương pháp nâng cấp của SSGA và Particle Swarm Optimization (PSO)
để thực hiện việc theo dõi nhiều người và phương pháp này cũng có thể làm
giảm chi phí tính toán. Trong Proceedings 2nd Joint IEEE International
Workshop on VS-PETS năm 2005, Yonggang Jin trình bày một bộ lọc hợp
nhất dữ liệu cho phương pháp theo dõi đầu đã được đề xuất dựa trên các tín
hiệu màu và cạnh. Một bộ lọc Boosted Adaptive Particle (BAPF) để cho phép
ước lượng và theo dõi với độ chính xác cao hơn nhiều.
1.3.2 Các phương pháp theo dõi thời gian thực.
Theo dõi khuôn mặt theo thời gian thực gần đây đã thu hút nhiều sự
chú ý. Các kỹ thuật theo dõi thời gian thực hiện tại bao gồm: CAMSHIFT,
ngưng tụ và bộ lọc Kalman. Khi đối tượng ở xa camera, thuật toán khó có thể
theo dõi được. Để hiệu quả trong việc tăng hiệu suất theo dõi và khả năng tính
toán, các phương pháp theo dõi khuôn mặt dựa trên phân bố màu đã được
nghiên cứu. Ví dụ, Yao và Gao đã đề xuất một thuật toán theo dõi khuôn mặt
dựa trên sự biến đổi màu da và màu sắc môi. Huang và Chen năm 2000 đã
xây dựng một mô hình màu thống kê và mẫu để theo dõi nhiều khuôn mặt.
10
1.4. Nhận dạng khuôn mặt
Nhận dạng khuôn mặt là giai đoạn quan trọng nhất trong toàn bộ hệ
thống. Các thuật toán nhận dạng khuôn mặt trên video sử dụng các phương
pháp tiếp cận về công nghệ xử lý trên các frame dừng. Tuy nhiên, video có
khả năng cung cấp nhiều thông tin hơn hình ảnh tĩnh. Ta thấy được rằng có
bốn lợi thế lớn khi sử dụng video như sau:
Khả năng sử dụng các frame khác có trong video để cải thiện hiệu suất
nhận dạng hình ảnh.
Nghiên cứu tâm lý và tâm thần học gần đây đã chỉ ra rằng thông tin
động là rất quan trọng trong quá trình nhận biết khuôn mặt của con
người.
Các lợi thế như mô hình mặt 3D hoặc hình ảnh có độ phân giải cao, có
thể được lấy từ video và được sử dụng để cải thiện hiệu quả nhận dạng.
Nhận dạng khuôn mặt dựa trên video cho phép học tập hoặc cập nhật
mô hình theo thời gian.
Mặc dù có rất nhiều lợi thế khi nhận dạng khuôn mặt trên video nhưng
ta thấy rằng cũng có một số nhược điểm cần quang tâm như:
Chất lượng video kém, độ phân giải hình ảnh thấp
Chiếu sáng
Thay đổi dáng đi, chuyển động.
Biểu hiện khuôn mặt
Khoảng cách lớn từ camera ...
Với tất cả những thuận lợi và những nhược điểm này, đã có nhiều
phương pháp áp dụng giải quyết nhiều khía cạnh đã nêu để nhận dạng khuôn
mặt dựa trên video.
11
1.4.1 Phương pháp nhận dạng dựa vào không gian thông tin
Hầu hết các cách tiếp cận gần đây sử dụng không gian thông tin để
nhận dạng khuôn mặt trong video. Thông thường, một số phương pháp sử
dụng chọn lọc tạm thời để cải thiện tỷ lệ nhận dạng. Ngoài ra còn có một số
thuật toán lấy được cấu trúc khuôn mặt 2D hoặc 3D từ video như của W. Y.
Zhao and R. Chellappa. Khác với cách tiếp cận chọn lọc đơn giản, Li và cộng
sự đã đề xuất một phương pháp dựa trên mô hình hình dạng và kết cấu và
khai thác tính năng hạt nhân. Tuy nhiên, phương pháp như vậy không sử dụng
đầy đủ thông tin trong video. Zhou và Chellappa đã đưa ra một phương pháp
kết hợp thông tin thời gian trong một trình tự video cho nhiệm vụ xác thực
khuôn mặt. Một mô hình không gian trạng thái với vector theo dõi trạng thái
và nhận dạng biến số được sử dụng để mô tả các đặc điểm trên khuôn mặt.
Cách tiếp cận xác suất này nhằm tích hợp chuyển động và thông tin nhận
dạng theo thời gian với thuật toán sequential importance sampling algorithm;
tuy nhiên nó vẫn chỉ xem xét được duy nhất sự thống nhất trong miền thời
gian và do đó nó có thể không hoạt động tốt khi đối tượng bị che khuất.
Zhang YB, Martinez AM đã so sánh PCA, LDA và ICA với nhiều hình ảnh
với các đoạn video, điều này chứng minh rằng cách tiếp cận xác suất cân bằng
có thể giải quyết được các vấn đề tồn tại trong ảnh đơn. Krueger và Zhou đã
chọn những hình ảnh đại diện cho từng khuôn mặt như là những mẫu được
lấy từ các video huấn luyện trực tiếp. Mô hình này có hiệu quả trong việc thu
được chuyển động 2D nhỏ nhưng có thể không phù hợp với sự thay đổi hoặc
che khuất với hình dạng 3D lớn. Năm 2002, Li và những người khác đã áp
dụng mô hình piecewise linear để nắm bắt các chuyển động cục bộ. Phương
pháp tương tự đã được đề xuất bởi Kuang-Chih Lee, đã mang lại phương
pháp tuyên truyền xác suất của các mô hình tuyến tính thông qua ma trận
chuyển đổi. Thuật toán ngưng tụ có thể được sử dụng thay thế cho mô hình
12
cấu trúc thời gian của S. Zhou. Các phương pháp dựa trên không gian thời
gian để nhận biết khuôn mặt trong video có một số nhược điểm:
Động lực học trên khuôn mặt của từng cá nhân cụ thể rất hữu ích cho
việc phân biệt giữa những người khác nhau, tuy nhiên thông tin thời
gian trong cá nhân liên quan đến biểu hiện khuôn mặt và cảm xúc cũng
được mã hoá và sử dụng.
Trọng lượng trung bình được đưa ra đối với các đặc điểm không thời
gian mặc dù một số tính năng góp phần nhận ra nhiều hơn những điểm
khác;
Rất nhiều phương pháp chỉ có thể xử lý tốt các khuôn mặt do vậy hạn
chế sử dụng của các phương pháp đó trong thực tế với ảnh người có cả
phong cảnh.
1.4.2 Phương pháp nhận dạng dựa vào mô hình thống kê
Năm 2002, Zhou và những người khác đã thu được các mô hình thống
kê từ video bằng cách sử dụng các tính năng cấp thấp (ví dụ: bằng PCA) chứa
trong các hình ảnh mẫu, được sử dụng để thực hiện kết hợp giữa một frame
đơn và luồng video hoặc giữa hai luồng video. Satoh đã khớp với hai chuỗi
video bằng cách chọn cặp frame gần nhất trên cả hai video. Một vài phương
pháp sử dụng trình tự video để đào tạo mô hình thống kê khuôn mặt cho phù
hợp. Phương pháp mutual subspace lấy các frame riêng biệt trong video cho
mỗi người để tính toán nhiều không gian riêng lẻ, xem xét góc giữa đầu vào
và các không gian con tham chiếu được hình thành bởi các thành phần chính
của các chuỗi hình ảnh là thước đo cho sự nhận dạng. Năm 2003, một phương
pháp đã được đề xuất bằng cách sử dụng các góc độ không gian hình ảnh ban
đầu và sử dụng một không gian đặc trưng để đo sự tương đồng giữa hai chuỗi
video. Để cải thiện, Topkaya đã đề xuất thuật toán đơn giản dựa trên các tính
- Xem thêm -