Đăng ký Đăng nhập
Trang chủ Các kỹ thuật lựa chọn, trích rút, ghi nhận trạng thái biểu cảm cơ bản của mặt ng...

Tài liệu Các kỹ thuật lựa chọn, trích rút, ghi nhận trạng thái biểu cảm cơ bản của mặt người (LV thạc sĩ)

.PDF
69
200
52

Mô tả:

Các kỹ thuật lựa chọn, trích rút, ghi nhận trạng thái biểu cảm cơ bản của mặt người (LV thạc sĩ)Các kỹ thuật lựa chọn, trích rút, ghi nhận trạng thái biểu cảm cơ bản của mặt người (LV thạc sĩ)Các kỹ thuật lựa chọn, trích rút, ghi nhận trạng thái biểu cảm cơ bản của mặt người (LV thạc sĩ)Các kỹ thuật lựa chọn, trích rút, ghi nhận trạng thái biểu cảm cơ bản của mặt người (LV thạc sĩ)Các kỹ thuật lựa chọn, trích rút, ghi nhận trạng thái biểu cảm cơ bản của mặt người (LV thạc sĩ)Các kỹ thuật lựa chọn, trích rút, ghi nhận trạng thái biểu cảm cơ bản của mặt người (LV thạc sĩ)Các kỹ thuật lựa chọn, trích rút, ghi nhận trạng thái biểu cảm cơ bản của mặt người (LV thạc sĩ)Các kỹ thuật lựa chọn, trích rút, ghi nhận trạng thái biểu cảm cơ bản của mặt người (LV thạc sĩ)Các kỹ thuật lựa chọn, trích rút, ghi nhận trạng thái biểu cảm cơ bản của mặt người (LV thạc sĩ)Các kỹ thuật lựa chọn, trích rút, ghi nhận trạng thái biểu cảm cơ bản của mặt người (LV thạc sĩ)
ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG NGUYỄN XUÂN THUYẾT CÁC KỸ THUẬT LỰA CHỌN, TRÍCH RÚT, GHI NHẬN TRẠNG THÁI BIỂU CẢM CƠ BẢN CỦA MẶT NGƯỜI LUẬN VĂN THẠC SỸ KHOA HỌC MÁY TÍNH THÁI NGUYÊN - 2017 ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG NGUYỄN XUÂN THUYẾT CÁC KỸ THUẬT LỰA CHỌN, TRÍCH RÚT, GHI NHẬN TRẠNG THÁI BIỂU CẢM CƠ BẢN CỦA MẶT NGƯỜI Chuyên ngành: Khoa học máy tính Mã số: 60480101 LUẬN VĂN THẠC SỸ KHOA HỌC MÁY TÍNH NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS. TS ĐỖ NĂNG TOÀN THÁI NGUYÊN - 2017 i LỜI CAM ĐOAN Tôi xin cam đoan: Luận văn này là công trình nghiên cứu thật sự của cá nhân, được thực hiện dưới sự hướng dẫn khoa học của PGS.TS. Đỗ Năng Toàn. Các số liệu và thông tin thứ cấp sử dụng trong luận văn được trích dẫn rõ ràng. Tôi hoàn toàn chịu trách nhiệm về tính xác thực và nguyên bản của luận văn. Học viên Nguyễn Xuân Thuyết ii MỤC LỤC MỤC LỤC .................................................................................................... i DANH MỤC KÝ HIỆU, CÁC CHỮ VIẾT TẮT ...................................... iv DANH MỤC CÁC HÌNH ........................................................................... v PHẦN MỞ ĐẦU .......................................................................................... 1 Chương 1: KHÁI QUÁT VỀ BIỂU CẢM KHUÔN MẶT VÀ BÀI TOÁN TRÍCH RÚT ĐẶC TRƯNG BIỂU CẢM KHUÔN MẶT ............................ 1 1.1. Khái quát về biểu cảm khuôn mặt ........................................................ 1 1.1.1. Khái niệm biểu cảm khuôn mặt .................................................... 1 1.1.2. Vấn đề biểu diễn biểu cảm khuôn mặt 3D .................................... 6 1.2. Bài toán trích rút đặc trưng phục vụ biểu diễn biểu cảm khuôn mặt 3D .............................................................................................................. 10 1.2.1. Giới thiệu bài toán ....................................................................... 10 1.2.2. Một số vấn đề trong việc triển khai thực tế ................................ 13 1.2.2.1. Vấn đề ràng buộc dữ liệu ..................................................... 13 1.2.2.2. Vấn đề lựa chọn tập điểm điều khiển ................................... 14 1.2.3. Một số ứng dụng liên quan ......................................................... 16 Chương 2: MỘT SỐ KỸ THUẬT LỰA CHỌN, TRÍCH RÚT, GHI NHẬN TRẠNG THÁI BIỂU CẢM MẶT NGƯỜI ................................................ 18 2.1. Kỹ thuật SIFT ..................................................................................... 19 2.1.1.Tổng quan về SIFT....................................................................... 19 2.1.2. Nội dung giải thuật ...................................................................... 21 2.1.2.1. Dò tìm cực trị cục bộ ............................................................ 21 2.1.2.2. Trích xuất keypoint .............................................................. 25 2.1.2.3. Gán hướng cho các keypoint................................................ 28 2.1.2.4. Tạo bộ mô tả cục bộ ............................................................. 29 2.1.3. Kỹ thuật đối sánh ........................................................................ 30 iii 2.1.4. Một số hướng cải tiến, phát triển thuật toán SIFT ...................... 32 2.1.4.1. Giảm số lượng keypoint trích xuất ở mỗi ảnh ..................... 32 2.1.4.2. Dùng lược đồ màu loại trừ trước các ảnh ít khả năng tương đồng ................................................................................................... 32 2.1.4.3. Trích xuất đối tượng ra khỏi ảnh theo đối tượng mẫu ......... 33 2.2. Kỹ thuật AAM.................................................................................... 33 2.2.1. Giới thiệu về mô hình biểu diễn động......................................... 33 2.2.2. Mô hình thống kê của sự biểu diễn đối tượng ............................ 35 2.2.2.1. Phương pháp phân tích đặc trưng chính (Principle component analysis - PCA)............................................................... 36 2.2.2.2. Mô hình thông kê của hình dạng đối tượng ......................... 37 2.2.2.3. Mô hình thống kê của kết cấu đối tượng ............................. 38 2.2.2.4. Sự tổng hợp mô hình hình dạng và kết cấu thành mô hình biểu diễn ............................................................................................ 40 2.2.2.5. Tổng quan quá trình tìm kiếm dựa vào AAM...................... 42 2.2.3. Ràng buộc tìm kiếm trong AAM ................................................ 44 2.2.3.1. Mô hình so khớp .................................................................. 45 2.2.3.2. Tìm kiếm vị trí định trước của mô hình ............................... 47 2.2.4. Ứng dụng mô hình biễu diễn động vào nhận dạng khuôn mặt ... 47 2.2.4.1. Giới thiệu bài toán nhận dạng khuôn mặt và vai trò của AAM. 47 2.2.4.2. Dữ liệu huấn luyện ............................................................... 48 Chương 3: CHƯƠNG TRÌNH THỬ NGHIỆM ........................................ 53 3.1. Phân tích yêu cầu bài toán .................................................................. 53 3.2. Phân tích lựa chọn công cụ ................................................................ 54 3.3. Một số kết quả chương trình .............................................................. 56 KẾT LUẬN .............................................................................................. 56 TÀI LIỆU THAM KHẢO ...................................................................... 58 iv v DANH MỤC KÝ HIỆU, CÁC CHỮ VIẾT TẮT STT Ký hiệu Viết đầy đủ Ý nghĩa 1 AAM Active Aperence Model Mô hình biểu diễn động 2 ASM Active Shape Model Mô hình hình dạng động 3 SIFT Scale Invariant Feature Transform Phép biến đổi đặc trưng bất biến tỷ lệ 4 DoG Deffirence of Gaussisan Hàm sai khác Gaussian 5 VR Virtual Reality Thực tại ảo 6 PCA Principle component analysis Phân tích đặc trưng chính 7 CSDL Cơ sở dữ liệu vi DANH MỤC CÁC HÌNH Hình 1.1. Mô tả dưới dạng ma trận của các loại cảm xúc theo 2 chiều: cường độ cao hay thấp(I) và đánh giá positive hay negative(E) của Shaver ............... 2 Hình 1.2. 7 Trạng thái cảm xúc khuôn mặt cơ bản tronng nghiên cứu của Matsumoto ......................................................................................................... 3 Hình 1.3. Hệ cơ mặt .......................................................................................... 3 Hình 1.4. Mô hình hệ thống biểu diễn biểu cảm khuôn mặt ........................... 10 Hình 1.5. Phát hiện và gán nhãn điểm đánh dấu trong công trình của Arman Savran và các đồng nghiệp .............................................................................. 11 Hình 1.6. Công nghệ giám sát điểm đánh dấu trong phim Avatar ................. 12 Hình 1.7. Hệ thống điểm của MPEG-4 ........................................................... 15 Hình 1.8. Tập điểm của Luxand ...................................................................... 16 Hình 2.2. Quá trình tính không gian đo (L) và hàm sai khác D ..................... 23 Hình 2.3. Quá trình tìm điểm cực trị trong các hàm sai khác DoG ................ 25 Hình 2.4. Mô phỏng sử dụng công thức mở rộng của Taylor cho hàm DoG . 26 Hình 2.5. Minh họa các bước của quá trình lựa chọn các điểm keypoints ..... 27 Hình 2.6. Mô tả tạo bộ mô tả cục bộ ............................................................... 30 Hình 2.7. Tóm tắt thuật toán SIFT .................................................................. 31 Hình 2.8. Hình ảnh mô tả quá trình huấn luyện dữ liệu bằng việc mô hình hóa thống kê hình dáng và kết cấu của đối tượng.................................................. 35 Hình 2.9. Phần tử x được xấp xỉ bằng phần tử x’ trên hệ trục tọa độ ............. 36 Hình 2.10. Ví dụ về hình dạng bàn tay khi thay đổi các tham số ................... 38 Hình 2.11. Ví dụ về hình dạng khuôn mặt khi thay đổi các tham số .............. 38 Hình 2.12. Hai mô hình với độ biến đổi độ xám 3sd ................................... 40 Hình 2.13. Tập dữ liệu huấn luyện .................................................................. 49 Hình 2.14. Ví dụ về sự biến đổi hình dạng và kết cấu trên 2 mô hình khác nhau... 49 Hình 2.15. Biểu đồ mô tả sự khớp nhau trong việc tiên đoán góc giữa mô hình thật và dữ liệu huấn luyện ............................................................................... 51 Hình 2.17. Ví dụ minh họa những mô hình có thể suy ra khi ta đã tiến hành so khớp và tìm ra độ nghiêng một góc của một dữ liệu ảnh................................ 52 Hình 3.1. Ảnh khuôn mặt đầu vào: ................................................................. 53 Hình 3.2. Mô hình chức năng nhận dạng đối tượng ....................................... 54 vii Hình 3.3. Truy vấn và so khớp đối tượng ứng với trạng thái vui vẻ .............. 56 Hình 3.4. Truy vấn và so khớp đối tượng ứng với trạng thái ngạc nhiên ....... 56 1 PHẦN MỞ ĐẦU Chương 1: KHÁI QUÁT VỀ BIỂU CẢM KHUÔN MẶT VÀ BÀI TOÁN TRÍCH RÚT ĐẶC TRƯNG BIỂU CẢM KHUÔN MẶT 1.1. Khái quát về biểu cảm khuôn mặt 1.1.1. Khái niệm biểu cảm khuôn mặt Theo cách hiểu thông thường, biểu cảm khuôn mặt có thể hình dung là thể hiện bên ngoài tương ứng với một trạng thái của hệ cơ nét mặt nằm dưới vùng da mặt [5]. Đây cũng là một khái niệm gần gũi với con người trong cuộc sống hàng ngày bởi con người trong sinh hoạt, lao động, giao tiếp đều cần phải biểu lộ thông tin mà mình muốn truyền đạt hoặc thậm chí là phản xạ, trong đó, biểu cảm khuôn mặt gắn liền với việc biểu lộ thông tin qua khuôn mặt là một trong những cách thức cơ bản và phổ dụng nhất. Các nhà tâm lý học nhìn nhận biểu cảm khuôn mặt dựa trên những trạng thái tâm lý con người. Có thể hình dung, khi nói đến tâm trạng hay trạng thái tâm lý là nói đến một dạng cảm xúc có cường độ nhất định, tồn tại trong một khoảng thời gian tương đối. Những trạng thái tâm lý có tác động mạnh vào các quyết định của con người như các thao tác, hành vi, hoạt động. Theo hướng này, trạng thái biểu cảm có thể được hiểu là cách thức con người thể hiện cảm xúc, dự đoán hay chia sẻ tình cảm của mình. Có nhiều cách nhìn nhận về việc phân chia các trạng thái biểu cảm., chẳng hạn như chia thành 3 mức chính: mức cao, mức trung và mức thấp. Trong đó mức cao thể hiện sự khác biệt rõ rệt giữa hài lòng và không hài lòng. Mức chung thể hiện cảm giác như tức giận, khiếp sợ, vui mừng và ngạc nhiên. Mức thấp thể hiện khác biệt nhỏ như với trạng thái tức giận ta có những mức độ khác nhau. Bên cạnh đó, một cách phân chia trạng thái biểu cảm khác là theo tâm 2 trạng negative (buồn), negative hay positive (ngạc nhiên) và positive (vui). Chẳng hạn như trong nghiên cứu của Shaver và các đồng nghiệp về việc phân tích liên quan đến các trạng thái yêu (Love), vui mừng (Joy), Ngạc nhiên (Surprise), tức giận (Anger), buồn (Sadness) và sợ hãi (Fear). Hình 1.1. Mô tả dưới dạng ma trận của các loại cảm xúc theo 2 chiều: cường độ cao hay thấp(I) và đánh giá positive hay negative(E) của Shaver Gần đây, Matsumoto và các đồng nghiệp sử dụng cách phân chia các trạng thái cảm xúc của khuôn mặt đã chia thành 7 nhóm thể hiện chính. 3 Hình 1.2. 7 Trạng thái cảm xúc khuôn mặt cơ bản tronng nghiên cứu của Matsumoto Hệ cơ mặt đóng vai trò quan trọng trong việc tạo ra các biểu cảm của mặt, các cơ trên khuôn mặt ở trạng thái khác nhau với những trạng thái biểu cảm khác nhau. Hình 1.3. Hệ cơ mặt 4 Nói chung, trước khi có những sự phát triển trong lĩnh vực công nghệ thông tin, đặc biệt là trong lĩnh vực thị giác máy, việc phân tích biểu cảm khuôn mặt về cơ bản là vấn đề của những nhà nghiên cứu tâm lý và bác sĩ. Tuy nhiên sau đó đã có những sự thay đổi và đã xuất hiện nhiều nhóm nghiên cứu, nhiều công ty đầu tư vào vấn đề phân tích biểu cảm khuôn mặt trên phương diện xử lý ảnh và đồ họa máy tính. Có thể kể đến một vài kết quả khởi đầu như: vào năm 1978, Suwa và các cộng sự đã trình bày một khảo sát sơ bộ về việc phân tích biểu cảm khuôn mặt tự động từ một chuỗi các hình ảnh; vào những năm 90, vấn đề nghiên cứu biểu hiện khuôn mặt tự động đạt được nhiều sự quan tâm với sự tiên phong của Mase và Pentland, trong công trình này các tác giả trình bày một phương pháp sử dụng luồng quang học để ước lượng các cử động của cơ mặt và dựa vào đó để nhận dạng một số biểu cảm đặc trưng, theo đó những thí nghiệm ban đầu cho thấy độ chính xác khoảng 80% khi nhận bốn loại: hạnh phúc, giận dữ, ghê tởm, và ngạc nhiên. Nghiên cứu về biểu cảm khuôn mặt trong lĩnh vực công nghệ thông tin rất được quan tâm đến chính bởi vì nó hứa hẹn rất nhiều ứng dụng trong cuộc sống, chẳng hạn như: Các hệ thống xác thực bằng sinh trắc học trong thời gian thực cho phép người dùng đăng nhập bằng cách nhìn vào ống kính camera Các hệ thống kiểm soát vào ra và có lưu vết thời gian Các ứng dụng nhận dạng đối tượng không cần sự ghi danh trước Hệ thống giám sát video và nhận dạng khuôn mặt tự động Hệ thống tìm ảnh dựa trên nội dung Các ứng dụng giải trí trên thiết bị di động Các ứng dụng phân tích tâm lý con người ứng dụng trong phát hiện nói dối, đánh giá sự hài lòng của khách hang với các dịch vụ… 5 Xây dựng các hoạt cảnh khuôn mặt trong ngành công nghiệp giải trí Các ứng dụng tăng cường chất lượng ảnh và biên tập đồ họa Có rất nhiều điều liên quan đến các đặc trưng thể hiện cử chỉ, trạng thái biểu cảm khuôn mặt trong một hệ thống phân tích biểu hiện khuôn mặt. Các biểu cảm khuôn mặt được sinh ra từ sự chuyển động của các cơ nét mặt, kết quả là tạo ra những biến dạng tạm thời của những thành phần khuôn mặt như mí mắt, lông mày, mũi, môi và da như nếp nhăn và những chỗ phình. Những thay đổi thông thường của các cơ nét mặt thường rất ngắn, chỉ khoảng vài giây, hiếm khi dài hơn 5s và ngắn hơn 250ms. Các đặc trưng của biểu hiện khuôn mặt thường yêu cầu một độ đo chính xác và một thuật ngữ hữu ích cho việc miêu tả chúng. Vấn đề thường được đặt ra là việc định vị các cử động trên khuôn mặt cũng như cường độ của chúng. Cường độ của các biểu hiện khuôn mặt có thể được đo bằng cách xác định những biến đổi hình học của các đặc trưng khuôn mặt hay mật độ các nếp nhăn xuất hiện trên vùng mặt. Ví dụ như độ mỉm cười được truyền đạt dựa trên độ phình của má và việc nâng cao điểm góc môi cũng như việc biểu hiện các nếp nhăn. Do có sự ảnh hưởng của tính chất cá nhân lên cử động của khuôn mặt nên rất khó để xác định một cách tuyệt đối cường độ của biểu hiện khuôn mặt mà không sử dụng đến một khuôn mặt trung tính cho chủ thể được đề cập tới. Chú ý rằng việc đo cường độ của những biểu cảm tự nhiên trên khuôn mặt là khó khăn hơn khi so sánh với những biểu hiện khuôn mặt trong một tình huống cụ thể, khi đó các biểu hiện thường có cường độ phóng đại và có thể được xác định dễ dàng hơn. Không chỉ bản chất tự nhiên của những biến dạng thành phần khuôn mặt mang ý nghĩa, mà còn thời gian diễn ra tương đối cũng như quá trình chuyển đổi theo thời gian. Bài toán xây dựng hệ thống thường được đặt ra với đầu vào dữ liệu là cả video và ảnh tĩnh, ngoài ra hiện nay còn có sự góp mặt của ảnh chiều sâu của của một số loại 6 cảm biến như Kinect. Thông thường hình ảnh tĩnh không thể hiện rõ những thay đổi tinh tế trên khuôn mặt do đó nhiều hệ thống hướng đến việc sử dụng dữ liệu đầu vào là một luồng ảnh như trực tiếp từ camera hoặc từ video để có thể tận dụng thêm thông tin có được theo chuỗi thời gian. 1.1.2. Vấn đề biểu diễn biểu cảm khuôn mặt 3D Xét một cách tổng quát, trên thế giới hiện nay, những người tham gia vào công việc liên quan đến biểu diễn biểu cảm khuôn mặt người thường rơi vào một trong hai nhóm: những người làm việc trong lĩnh vực khoa học máy tính và những họa sỹ. Những người làm việc trong lĩnh vực khoa học máy tính quan tâm đến những vấn đề chi tiết về nhiều khía cạnh theo cách nhìn của kỹ thuật và công nghệ. Họ dùng nhiều thời gian trong việc nghiên cứu, thử nghiệm và triển khai những phương pháp mô hình hóa, định vị và hoạt hóa khuôn mặt người và những đặc trưng khuôn mặt dựa trên nhiều tiếp cận khác nhau. Có những hướng tiếp cận phân tích thuần túy những tính chất bất biến trong vùng ảnh mặt người đồng thời có khả năng phân biệt với những loại dữ liệu khác để áp dụng trong công đoạn xác định vị trí cùng phạm vi vùng ảnh khuôn mặt trong một bức ảnh hoặc trong luồng video. Những nghiên cứu này cũng là một phần quan trọng trong việc thiết kế những hệ thống thực hiện bám sát những điểm đặc trưng khuôn mặt trong một luồng video, có thể với nhiều yêu cầu cụ thể hơn như phải xử lý thời gian thực và có thể không bao gồm việc đánh dấu những điểm đó khuôn mặt. Nhiều nghiên cứu khác lại nhìn nhận vấn đề theo khía cạnh kết hợp dữ liệu ảnh với những nghiên cứu về cơ thể người như trong giải phẫu học, tâm lý học hay nhân chủng học. Các nghiên cứu theo tiếp cận này cũng quan tâm đến nhiều vấn đề, chẳng hạn như lợi dụng một số loại mặt mẫu có sẵn để làm cơ sở cho những đánh giá tiếp theo trong việc phân tích khuôn mặt; hoặc theo 7 cách nhìn vật lý, mô phỏng lại hình dáng cùng sự chuyển động của xương, cơ và mô với nhiều mức độ chi tiết khác nhau. Ngoài ra còn một số hướng quan tâm đến việc tiếp cận từng ứng dụng cụ thể, như nhận dạng cảm xúc khuôn mặt, tương tác người máy bằng cử chỉ mặt, tổng hợp biểu hiện khuôn mặt từ lời thoại… Những họa sĩ thì có những mối quan tâm cụ thể và gần với nhiều thứ xuất hiện trong đời sống hơn. Đó là những công việc mang tính chất thực hành và kỹ năng nhiều hơn, như việc tạo ra các hoạt cảnh khuôn mặt chất lượng cao cho những chương tình TV, cho những trò chơi, cho phim ảnh, quảng cáo… Những người làm công tác này hầu như sẽ không quan tâm đến phương diện nghiên cứu tạo ra một phương pháp mới, công nghệ mới mà khi làm việc họ cần chủ yếu là những kỹ năng thao tác, những kinh nghiệm làm việc cùng với những phương thức tốt nhất hiện có. Các phương thức này liên quan đến sự hỗ trợ về mặt học thuật và công nghệ dựa trên môt phần mềm mô hình hóa, thường là 3D mà họ có khả năng thao tác và làm việc hiệu quả. Ngoài những nhóm người trên, vẫn còn những người khác có liên quan nhưng sự xuất hiện của họ ít hơn, và nếu có thường mang tính chất kết hợp liên ngành cho những người làm kỹ thuật với chuyên ngành khoa học máy tính, đó là những người chuyên gia về tâm lý học, giải phẫu học, nhân chủng học… Những người này cung cấp những tri thức chuyên gia trong chuyên ngành hẹp của họ cho những người làm toán và lập trình. Đây cũng là cách tiếp cận rất tự nhiên cho việc phân tích và tổng hợp khuôn mặt. Tuy nhiên, thông thường những ứng dụng mà yêu cầu có sự tham gia sâu của nhóm chuyên gia này thường rất chuyên biệt và có thể chính là để phục vụ cho chuyên ngành của họ. Biểu diễn biểu cảm khuôn mặt 3D có thể hiểu chi tiết hơn là việc thể hiện khuôn mặt người trong môi trường thực tại ảo với những tư thế, hình dáng, kết 8 cấu hình ảnh hoặc chuyển động dựa trên những biểu cảm của khuôn mặt người thật theo cách phù hợp với yêu cầu của ứng dụng đặt ra, khuôn mặt 3D theo cách hình dung này có thể hiểu là một mô hình 3D có hình dạng và kết cấu dựa trên khuôn mặt người thật. Các yêu cầu với việc biểu diễn sẽ rất khác nhau tùy vào từng ứng dụng, có thể chỉ mang tính chất ước lệ, tượng trưng như trong chương trình ca sĩ ảo Hatsune Miku của Crypton Future Media hoặc trong một số game 3D, nhưng cũng có thể phải chính xác đến từng chi tiết nhỏ như với các ứng dụng trong y học, giải phẫu.. Một mô hình 3D có thể hiểu về mặt bản chất là một tập điểm trong không gian 3 chiều cùng với mối quan hệ giữa các điểm đó, do vậy, việc biến đổi mô hình 3D cũng không nằm ngoài việc biến đổi những dữ liệu này. Xét trên bài toán biểu diễn biểu cảm khuôn mặt, mô hình mặt gần như không có sự thay đổi về chất liệu ảnh cũng như sự liên kết đặc trưng giữa các điểm dẫn đến thay đổi hoàn toàn mô hình mà chỉ là những sự dịch chuyển có giới hạn và ràng buộc cục bộ của các điểm trong mô hình. Bởi vậy kết quả của việc biểu diễn biểu cảm khuôn mặt có thể hiểu là thao tác thay đổi tọa độ của một tập điểm trong mô hình mặt 3D với một số giới hạn cùng với ràng buộc đã được xác định trước. Để thực hiện việc này, người ta thường chọn 1 tập điểm điều khiển và trên cơ sở đó khi cần người ta sẽ thực hiện biến đổi trực tiếp trên tập điểm này. Tập điểm được chọn sau khi biến đổi sẽ định hướng điều khiển sự thay đổi cho các điểm khác. Thông thường tập điểm điều khiển sẽ được chọn bởi các chuyên gia, những người có chuyên môn trong ứng dụng cần triển khai hoặc công trình cần nghiên cứu, những người này có thể là những chuyên gia tâm lý, bác sĩ pháp y hoặc những người làm về nhân chủng học… nói chung là những người có kiến thức chuyên biệt theo yêu cầu bài toán. Do vậy với những ứng dụng khác nhau, số lượng điểm điều khiển cũng sẽ rất khác, có thể dao động từ vài 9 điểm đến vài trăm điểm. Bài toán được quan tâm ở đây chính là việc biểu diễn biểu cảm khuôn mặt 3D từ dữ liệu đầu vào là ảnh số, có thể là ảnh tĩnh hoặc luồng video. Trong trường hợp này, để xác định sự biến đổi của tập điểm điều khiển trong mô hình khuôn mặt 3D, một tập điểm 2D trên ảnh được xác định. Tập điểm 2D này được hiểu là hình chiếu của tập điểm điều khiển 3D trên ảnh. Trên cơ sở dố, tọa độ của tập điểm 3D được ước lượng dựa vào sự phân bố của tập điểm điều khiển 2D này. Xét từ vấn đề tổng quan cho một hệ thống, mô hình hệ thống biểu diễn biểu cảm khuôn mặt trên thực tế để triển khai có rất nhiều biến thể khác nhau tùy vào cách tiếp cận, có người tiếp cận dựa trên việc nhận dạng một tập giới hạn các biểu cảm rồi dựa trên đó mô phỏng tương ứng loại biểu cảm và cường độ nếu có, có hướng tiếp cận chỉ mang tính chất phát hiện một số đặc điểm khuôn mặt và biến đổi mô hình mặt theo, không cần quan tâm sâu hơn về ý nghĩa của những biểu hiện đó là do xuất phát từ những trạng thái cảm xúc hay những hành động cụ thể gì của khuôn mặt theo cách hiểu thông thường của con người hay của những chuyên gia tâm lý học và giải phẫu học. Ngay trong những hướng tiếp cận trên cũng có rất nhiều mô hình hệ thống biểu diễn biểu cảm khuôn mặt được đề xuất. Xuất phát điểm cho sự đa dạng về mặt thiết kế những hệ thống này đến từ sự đa dạng trong những lựa chọn sử dụng cũng như những yêu cầu của hệ thống và chuyên môn sâu của những nhóm nghiên cứu thị giác máy. Nói chung, các mô hình hệ thống biểu diễn biểu cảm khuôn mặt được thiết kế trong những năm gần đây thường có thể hình dung một cách đơn giản như sau: 10 Expression recognition Face detection Shape location Expression simulation Hình 1.4. Mô hình hệ thống biểu diễn biểu cảm khuôn mặt Từ những khung hình đầu vào, khuôn mặt được định vị một cách tương đối và làm thông tin để tiến hành xác định một tập điểm điều khiển mô tả hình dạng. Từ kết quả của việc xác định tập điểm này, các hệ thống được thiết kế chia làm 2 hướng tiếp cận. Hướng thứ nhất là các hệ thống sẽ thực hiện nhận dạng ra một vài loại biểu cảm khuôn mặt đã được định nghĩa trước từ đó tiến hành mô phỏng theo. Các trạng thái biểu cảm đặc trưng sẽ được nhận dạng theo tiếp cận này thường được lấy theo các trạng thái tâm lý như hạnh phúc, giận dữ, ghê tởm, ngạc nhiên…, ngoài ra còn có thể chia nhỏ ra thành từng đơn vị cử động trên khuôn mặt như nhướn mày, trề môi… Hướng thứ hai là trực tiếp tiến hành mô phỏng lại các biểu hiện trên khuôn mặt để biểu diễn biểu cảm dựa trên những vị trí tương đối của những điểm trong tập điểm điều khiển đã tính toán được. 1.2. Bài toán trích rút đặc trưng phục vụ biểu diễn biểu cảm khuôn mặt 3D 1.2.1. Giới thiệu bài toán Trích rút đặc trưng thể hiện cử chỉ, trạng thái biểu cảm khuôn mặt trong ảnh là một kỹ thuật tính toán nhằm ước lượng các thông số cho các mô hình toán học đã được nghiên cứu nhằm mục đích phân tích và tổng hợp biểu hiện khuôn mặt trong ảnh. Bài toán trích rút đặc trưng phục vụ biểu diễn biểu cảm khuôn mặt 3D là bài toán trích rút đặc trưng thể hiện cử chỉ, trạng thái biểu cảm 11 khuôn mặt trong ảnh phục vụ cho hệ thống mô phỏng biểu cảm khuôn mặt 3D trong lĩnh vực thực tại ảo [5]. Trích rút đặc trưng phục vụ biểu diễn biểu cảm khuôn mặt 3D là một khâu quan trọng trong hệ thống biểu diễn biểu cảm, đóng vai trò nhận và xử lý dữ liệu ảnh đầu vào và kết quả đầu ra được sử dụng làm dữ liệu làm đầu vào cho công đoạn mô phỏng biểu cảm khuôn mặt 3D. Cụ thể hơn, thao tác này cho ra kết quả là tọa độ 2D trên ảnh của tập điểm điều khiển đặc trưng của khuôn mặt. Một hướng tiếp cận với hiệu quả khá cao đó là giám sát điểm đánh dấu. Theo tiếp cận này, người ta thực hiện đánh dấu bằng cách chấm lên mặt với những màu cụ thể trước khi quay lại bằng camera. Hướng này được đưa ra để giải quyết vấn đề đo đạc sự biến dạng tại một số vùng trên mặt, nơi mà nằm trên những mốc của các cơ mặt nhưng có kết cấu hình ảnh thường là vùng da khá đơn điệu. Arman Savran và các đồng nghiệp đã sử dụng không gian màu HSI để phân đoạn những vùng màu đánh dấu kết hợp với việc lọc bằng việc tính thành phần liên thông và độ dài bán kính. Hình 1.5. Phát hiện và gán nhãn điểm đánh dấu trong công trình của Arman Savran và các đồng nghiệp
- Xem thêm -

Tài liệu liên quan

Tài liệu xem nhiều nhất