ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC BÁCH KHOA
KHOA ĐIỆN – ĐIỆN TỬ
BỘ MÔN ĐIỀU KHIỂN TỰ ĐỘNG
-------------------------
LUẬN VĂN THẠC SĨ
NHẬN DẠNG CẢM XÚC MẶT NGƯỜI
SVTH: VÕ LÊ TRƯỜNG PHI
MSHV: 01506737
GVHD: TS. TRƯƠNG ĐÌNH CHÂU
TP Hồ Chí Minh, 01 / 2009
NHẬN DẠNG CẢM XÚC MẶT NGƯỜI
SVTH: VÕ LÊ TRƯỜNG PHI
TÓM TẮT NỘI DUNG
Cùng với sự phát triển của khoa học kỹ thuật trên thế giới, thị giác máy tính
ngày càng phát triển , dần trở thành một lĩnh vực được nhiều nhà nghiên cứu quan
tâm. Cùng với sự phát triển đó, thị giác máy tính cho robot trở thành đề tài nóng
bỏng gây chú ý nhiều cho các nhà khoa học lớn trên thế giới.
Trong quá khứ, chúng ta thường nghĩ robot chỉ là một cái máy, được lập
trình và hoạt động cứng nhắc theo chương trình sẵn có, chỉ giao tiếp được với con
người qua bàn phím, chuột, màn hình. Tuy nhiên, ngày nay, với sức mạnh của các
bộ vi xử lý ngày càng được cải thiện, đã cho phép robot giao tiếp với con người
theo một cách mới, đó là hình ảnh (thị giác) và âm thanh. Có thể, trong một tương
lai xa, robot có thể “nhìn thấy” con người xung quanh nó và giao tiếp lại một cách
rất “người” như thể hiện cảm xúc, điệu bộ
Trong luận văn này, tác giả trình bày những kết quả nghiên cứu nhằm điều
khiển robot có tính cách người hơn (humanoid robot), nghĩa là robot có thể hiểu
được cảm xúc và cử chỉ của con người. Để thực hiện ý tưởng đó, đòi hỏi chúng ta
tạo cho robot một Hệ Thống Tự Động Nhận Biết Cảm Xúc Mặt Người. Hệ thống có
thể tự động nhận dạng mặt người trong một dòng video thực bằng phương pháp
tăng cường thích nghi (Adaboost) và tiếp tục trích đặc trưng những cảm xúc của
mặt người bằng phương pháp eigenface, dựa trên các đặc trưng vị trí hình học như
lông mày, để phân loại cảm xúc tác giả đã dùng phương pháp mạng neural.
BỘ MÔN ĐIỀU KHIỂN TỰ ĐỘNG
1
GVHD: TS. TRƯƠNG ĐÌNH CHÂU
NHẬN DẠNG CẢM XÚC MẶT NGƯỜI
SVTH: VÕ LÊ TRƯỜNG PHI
ABSTRACT
Along with the development of science and technology in the world,
computer vision developed increasingly, gradually became a field for many
researchers interested in. Along its development, computer vision for the robot
becomes hot topic cause of much attention to the famous scientists in the world.
In the past, we thought about of robots were just machines, ‘re programmed
and worked hard promptly by the available programs. They only communicate to
people through keyboard, mouse, screen. However, nowadays, thanks to power of
the high-speed computer, allowing robot has been communicating to people in a
new way, it is the images (vision) and sound. Maybe, in new future, robots can
"see" people around them and communicate to us in a “very like-people" robots
named “Expressed Emotions, Gestures”.
To discover this problems, the author presented the results of researching in
order to control the robot as more like-people (humanoid) robots, means that robots
can understand the emotions and gestures of humans. To make the ideas concerning
that, requires us to create a robot for “Facial Emotion Recognition System”. The
system can identify automatically facial in a video stream on the Strengthening
Adapted (Adaboost) algorithms and continue extrating the emotional features of the
people on the eigenfaces, based on the specific locations that contain features as
eyebrow, mouth, nose, … to classify emotions, author uses the Neural Network
method.
BỘ MÔN ĐIỀU KHIỂN TỰ ĐỘNG
2
GVHD: TS. TRƯƠNG ĐÌNH CHÂU
NHẬN DẠNG CẢM XÚC MẶT NGƯỜI
SVTH: VÕ LÊ TRƯỜNG PHI
MỤC LỤC
CHƯƠNG 1 ...............................................................................................................7
GIỚI THIỆU..............................................................................................................7
1.
2.
ĐẶT VẤN ĐỀ ..............................................................................................7
NHỮNG CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN ..............................8
2.1. Luận văn về các phương pháp nhận dạng mặt người ...........................8
2.2. Nhận dạng mặt người dùng gabor wavelets .........................................9
2.3. Mạng neural nhận dạng mặt người .....................................................10
2.4. Hệ thống chuyên gia cho phân tích tự động cảm xúc.........................11
2.5. Hệ thống trích đặc trưng cảm xúc tự động .........................................12
2.6. Hệ thống nhận diện cảm xúc dựa trên fed (facial expression
dictionary) ......................................................................................................12
2.7. Hệ thống mã hoá cảm xúc (facial action coding system-facs) ..........13
KẾT LUẬN ................................................................................................14
3.
CHƯƠNG 2 .............................................................................................................16
MỤC TIÊU CỦA LUẬN VĂN...............................................................................16
CHƯƠNG 3 .............................................................................................................17
CƠ SỞ LÝ THUYẾT VỀ THUẬT TOÁN NHẬN DẠNG..................................17
1.
LÝ THUYẾT VỀ ẢNH SỐ .......................................................................17
1.1. Khái niệm............................................................................................17
1.2. Khái niệm về phần tử ảnh ...................................................................19
1.3. Cấu trúc một file ảnh...........................................................................19
1.4. Ảnh xám..............................................................................................20
1.5. Ảnh trắng đen hay ảnh nhị phân .........................................................20
1.6. Ảnh màu và mô hình màu RGB..........................................................20
1.7. Hệ toạ độ pixel mặt người...................................................................21
1.8. Mục đích của việc xử lý ảnh số ..........................................................22
2. CÁC PHƯƠNG PHÁP PHÁT HIỆN HÌNH ẢNH MẶT NGƯỜI............23
2.1. Phát hiện dựa trên ảnh.........................................................................24
2.2. Phát hiện dựa trên dạng hình học........................................................24
2.3. Phương pháp đặc trưng Haar-like và tăng tốc thích nghi nhanh
AdaBoost – phương pháp sử dụng trong luận văn.........................................26
3. TRÍCH ĐẶT TRƯNG BẰNG PHƯƠNG PHÁP EIGENFACES PCA –
PHƯƠNG PHÁP SỬ DỤNG TRONG LUẬN VĂN........................................35
3.1. Phương pháp Eigenfaces PCA............................................................35
3.2. Xây dựng Eigenfaces với PCA ...........................................................38
3.3. Biến đổi ảnh mặt thành vector ............................................................39
3.4. Không gian ảnh ...................................................................................40
3.5. Xây dựng Eigenfaces ..........................................................................41
BỘ MÔN ĐIỀU KHIỂN TỰ ĐỘNG
3
GVHD: TS. TRƯƠNG ĐÌNH CHÂU
NHẬN DẠNG CẢM XÚC MẶT NGƯỜI
SVTH: VÕ LÊ TRƯỜNG PHI
3.6. Xây dựng ảnh từ các Eigenfaces.........................................................46
3.7. Xây dựng lại trạng mặt với PCA ........................................................47
4. MẠNG NEURON CHO NHẬN DẠNG TRẠNG THÁI MẶT ................48
4.2. Mạng truyền thẳng một lớp (mạng perceptron đơn giản)...................49
4.3. Mạng perceptron nhiều lớp và thuật toán lan truyền ngược – thuật
toán huấn luyện dùng trong luận văn.............................................................57
CHƯƠNG 4 .............................................................................................................67
GIẢI THUẬT & KẾT QUẢ...................................................................................67
1.
2.
3.
XÂY DỰNG GIẢI THUẬT CHƯƠNG TRÌNH:......................................67
CHƯƠNG TRÌNH MATLAB: ..................................................................68
KẾT QUẢ CHƯƠNG TRÌNH...................................................................73
CHƯƠNG 5 .............................................................................................................92
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN.............................................................92
1.
2.
3.
KẾT LUẬN ................................................................................................92
HẠN CHẾ CHƯƠNG TRÌNH ...................................................................92
HƯỚNG PHÁT TRIỂN: ............................................................................92
TÀI LIỆU THAM KHẢO ......................................................................................93
LÝ LỊCH TRÍCH NGANG ....................................................................................96
BỘ MÔN ĐIỀU KHIỂN TỰ ĐỘNG
4
GVHD: TS. TRƯƠNG ĐÌNH CHÂU
NHẬN DẠNG CẢM XÚC MẶT NGƯỜI
SVTH: VÕ LÊ TRƯỜNG PHI
DANH SÁCH HÌNH SỬ DỤNG TRONG LUẬN VĂN
Hình 1. Các cảm xúc trên gương mặt người
Hình 2 . Sơ đồ khối nhận dạng mặt người bằng DCT
Hình 3. Sơ Đồ Trích Đặc Trưng Bằng Gabor Wavelets
Hình 4. Thuật toán neural nhận dạng mặt người
Hình 5. Mô Hình Mặt Người Của Kobayashi Và Hara
Hình 6. Giao Diện Của FED (Facial Expression Dictionary)
Hình 7. Hệ Thống Mã Hoá Cảm Xúc (FACS)
Hình 8. Hệ thống nhận dạng cảm xúc tự động theo thời gian thực
Hình 9. Mảng hai chiều của một file ảnh
Hình 10. Mô hình màu RGB
Hình 11. Hệ toạ độ pixel
Hình 12: Các đặc trưng cạnh
Hình 13: Các đặc trưng đường
Hình 14: Các đặc trưng bao quanh tâm
Hình 15: Đặc trưng đường chéo
Hình 16: Tổng các giá trị pixel nằm trong vùng A
Hình 17: Ảnh chia nhỏ tại tọa độ (x,y)
Hình 18: Lược đồ cơ bản của AdaBoost
Hình 19: Thuật toán học AdaBoost
Hình 20: Dùng chuỗi cascade đã được huấn luyện để phát hiện cửa sổ con phù hợp
Hình 21: Cấu trúc các chuỗi cascade song song
Hình 22: Mô hình tác vụ phát hiện vật thể dùng chuỗi cascade
Hình 23: Ảnh dùng cho việc huấn luyện
Hình 24: Bảy eigenface được tính toán từ ảnh ngõ vào
Hình 25: Ảnh minh họa không gian mặt
Hình 26: ảnh trung bình
Hình 27: Sơ đồ thuật khối phân loại cảm xúc bằng mạng neural
BỘ MÔN ĐIỀU KHIỂN TỰ ĐỘNG
5
GVHD: TS. TRƯƠNG ĐÌNH CHÂU
NHẬN DẠNG CẢM XÚC MẶT NGƯỜI
SVTH: VÕ LÊ TRƯỜNG PHI
Hình 28: Trình trự phân loại trạng thái mặt với PCA
Hình 29: Mạng neural nhân tạo
Hình 30: Mạng một lớp chỉ một neural ở ngõ ra hay một perceptron
Hình 31: Mặt phẳng quyết định của một perceptron
Hình 32: Sai số với các trọng số khác nhau
Hình 33: Hàm ngưỡng Sigmoid
Hình 34: Sơ đồ giải thuật chương trình
BỘ MÔN ĐIỀU KHIỂN TỰ ĐỘNG
6
GVHD: TS. TRƯƠNG ĐÌNH CHÂU
NHẬN DẠNG CẢM XÚC MẶT NGƯỜI
SVTH: VÕ LÊ TRƯỜNG PHI
CHƯƠNG 1
GIỚI THIỆU
1. ĐẶT VẤN ĐỀ
-
Trong quá khứ, chúng ta thường nghĩ robot chỉ là một cái máy, được lập
trình và hoạt động cứng nhắc theo chương trình sẵn có, chỉ giao tiếp được
với con người qua bàn phím, chuột, màn hình. Tuy nhiên, ngày nay, với sức
mạnh của các bộ vi xử lý ngày càng được cải thiện, đã cho phép robot giao
tiếp với con người theo một cách mới, đó là hình ảnh (thị giác) và âm thanh.
Có thể, trong một tương lai xa, robot có thể “nhìn thấy” con người xung
quanh nó và giao tiếp lại một cách rất “người” như thể hiện cảm xúc, điệu
bộ, ….vv. Vì thế, nhiều dự án ở nước ngoài đã được nghiên cứu nhằm điều
khiển robot có tính cách người hơn (humanoid robot), nghĩa là robot có thể
hiểu được cảm xúc và cử chỉ của con người. Để thực hiện ý tưởng đó, đòi hỏi
chúng ta tạo cho Robot một Hệ Thống Tự Động Nhận Biết Cảm Xúc Mặt
Người. Song song với điều đó việc ứng dụng nhận dạng trạng thái con người
trong điều tra tội phạm cũng là vấn đề đáng được quan tâm rất nhiều. Hệ
thống có thể tự động nhận dạng mặt người trong một dòng video thực và tiếp
tục nhận dạng những cảm xúc của mặt người trong thời gian thực. Nói cách
khác, hệ thống tự động kiểm tra mặt người và nhận dạng ra các cảm xúc mặt
người: vui mừng (Joy), buồn (sadness), bất ngờ (suprise), giận dữ (angry), sợ
sệt (fear), bình thường (neural),…v.v.
Hình 1. Các cảm xúc trên gương mặt người
1.Giận dữ, 2.Kinh tởm, 3.Sợ hải, 4.Hạnh phúc, 5.Buồn, 6.Ngạc nhiên
BỘ MÔN ĐIỀU KHIỂN TỰ ĐỘNG
7
GVHD: TS. TRƯƠNG ĐÌNH CHÂU
NHẬN DẠNG CẢM XÚC MẶT NGƯỜI
-
SVTH: VÕ LÊ TRƯỜNG PHI
Ứng dụng: Nếu một robot có khả năng nhận biết được cảm xúc của con
người, nó sẽ rất có ích trong lĩnh vực y tế nói chung, ví dụ như: chế tạo robot
chăm sóc người bệnh, người già,…vv [1]
2. NHỮNG CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN
-
Phần này sẽ trình bày các bài báo và luận văn mà tác giả đã tham khảo, để có
được một cái nhìn tổng quan về các công trình nghiên cứu liên quan trong
nước và nước ngoài trong lĩnh vực nhận dạng mặt người và cảm xúc của
gương mặt.
2.1. Luận văn về các phương pháp nhận dạng mặt người
Các nghiên cứu ở trong nước cũng như nước ngoài về các phương pháp nhận dạng
mặt người được tiến hành rất phổ biến trong những năm gần đây. Dưới đây tổng
quan một số đặc điểm về các nghiên cứu.
-
Theo [2], tác giả giới thiệu phương pháp nhận dạng mặt người truyền thống:
Nhận Dạng Mặt Người Dùng Mạng Neural Bằng Biến Đổi DCT (Discrete
Cosine Transform).
-
DCT, một kỹ thuật nén ảnh được sử dụng rộng rãi, cho phép hiện diện tất cả
các thành phần quan trọng nhất của khuôn mặt (tóc, mắt, miệng, mũi) với
một số lượng nhỏ thành phần tần số thấp. Sau khi DCT được áp dụng cho
một hình ảnh, các hệ số được lựa chọn được đưa đến một mạng nơron nhân
tạo nhiều lớp (ANN). Bởi vì chỉ dùng một lượng nhỏ các hệ số nên tốc độ
huấn luyện và nhận dạng sẽ rất cao.
-
Tác giả dùng cơ sở dữ liệu ảnh gồm 400 ảnh khác nhau, cho 40 người khác
nhau, kích thước mỗi ảnh là 112-92 pixel mặt người, với 256 mức xám cho
mỗi pixel mặt người.
-
Một hệ thống nhận dạng mặt người bao gồm các công đoạn như hình 2.
BỘ MÔN ĐIỀU KHIỂN TỰ ĐỘNG
8
GVHD: TS. TRƯƠNG ĐÌNH CHÂU
NHẬN DẠNG CẢM XÚC MẶT NGƯỜI
ảnh
Tiền xử
lý
SVTH: VÕ LÊ TRƯỜNG PHI
Phát hiện
đặc trưng
Nhận dạng
mặt
(DCT)
Kết quả
nhận dạng
(Mạng Neural)
Hình 2 . Sơ đồ khối nhận dạng mặt người bằng DCT
-
Nhận mặt người trong luận văn này, chủ yếu tác giả nhận dạng mặt người
trên cơ sở dữ liệu ảnh có sẵn (ảnh gray, kích thước 112x92), là các ảnh tĩnh
chưa tập trung vào nhận dạng mặt người theo thời gian thực, ví dụ: ảnh động
từ video hay webcam, vì phương pháp nhận dạng tốc độ còn chậm.
2.2. Nhận dạng mặt người dùng gabor wavelets
-
Theo [3], tác giả đề cập phương pháp gabor wavelets được sử dụng để xây
dựng các vector đặc trưng vì nó có khả năng miêu tả tốt cách xử lý của các
lĩnh vực dễ tiếp thu trong hệ thống trực quan của con người. Phương pháp
chọn các đỉnh (các điểm năng lượng cao) của đáp ứng Gabor làm điểm đặc
trưng.
BỘ MÔN ĐIỀU KHIỂN TỰ ĐỘNG
9
GVHD: TS. TRƯƠNG ĐÌNH CHÂU
NHẬN DẠNG CẢM XÚC MẶT NGƯỜI
SVTH: VÕ LÊ TRƯỜNG PHI
Bắt đầu
Anh vào
Biến đổi Gabor wavelets
Tìm điểm đặc trưng
Các vector đặc trưng
Ma trận đặc trưng Mi
Hình 3. Sơ Đồ Trích Đặc Trưng Bằng Gabor Wavelets
-
Nhận mặt người luận văn này cũng giống luận văn trên, chỉ nhận dạng mặt
người trên một cơ sở ảnh sẵn có và là ảnh tĩnh nên chỉ chủ yếu áp dụng cho
các ngành an ninh, …vv , khó có thể áp dụng cho giao tiếp giữa người và
robot. Vì Robot cần nhận dạng mặt người để làm một việc cụ thể hơn, ví dụ:
nhận dạng cảm xúc của gương mặt đó trong hình ảnh động (camera,
webcam) để xử lý điều chỉnh các hoạt động của mình.
2.3. Mạng neural nhận dạng mặt người
-
Trong [4], các tác giả trình bày phương pháp để nhận dạng mặt người bằng
mạng neural trong các hình ảnh xám. Thuật toán và phương pháp huấn luyện
có thể mô tả như hình sau đây:
BỘ MÔN ĐIỀU KHIỂN TỰ ĐỘNG
10
GVHD: TS. TRƯƠNG ĐÌNH CHÂU
NHẬN DẠNG CẢM XÚC MẶT NGƯỜI
SVTH: VÕ LÊ TRƯỜNG PHI
Hình 4. Thuật toán neural nhận dạng mặt người
-
Chương trình hoạt động theo 2 giai đoạn. Thành phần đầu tiên là neural
network-based filter nhận vùng ảnh 20x20 pixel. Đầu ra là khẳng định hay
không khẳng định cho sự hiện diện hay sự không hiện diện gương mặt trong
cửa sổ phụ (sub-window). Để kiểm tra các gương mặt lớn hơn cửa sổ, thì
hình ảnh sẽ được thu nhỏ lại. Trước khi 20x20 pixes vượt qua mạng nơron,
nó được chỉnh độ sáng và cân bằng histogram.
2.4. Hệ thống chuyên gia cho phân tích tự động cảm xúc
-
Trong [5], Rothkrantz đang làm việc để phát triển một hệ thống tự động cho
việc phân tích các giao tiếp không lời. Kết quả nghiên cứu là một hệ thống
nhận dạng cảm xúc (ISFER). Sự khác biệt với các hệ thống nhận dạng cảm
xúc khác là người ta thường dùng một kỹ thuật xử lý ảnh đơn lẻ thì ở đây tác
giả dùng một biện pháp ghép nối các phương pháp được áp dụng. Thay vì
tìm cách cải tiến các phương pháp nhận dạng cảm xúc, tác giả đã ghép nối
các kỹ thuật này chạy song song. Tuy nhiên hệ thống này chỉ làm việc với
ảnh tĩnh. Mô hình gương mặt là một mô hình 2D.
BỘ MÔN ĐIỀU KHIỂN TỰ ĐỘNG
11
GVHD: TS. TRƯƠNG ĐÌNH CHÂU
NHẬN DẠNG CẢM XÚC MẶT NGƯỜI
SVTH: VÕ LÊ TRƯỜNG PHI
2.5. Hệ thống trích đặc trưng cảm xúc tự động
-
Theo [6], tác giả đã phát triển một mô hình gương mặt 3D face robot cho sự
tương tác thời gian thực với con người. Để phản ứng hợp lý, robot phải nhận
biết được cảm xúc của con người. Mô hình mặt dùng cho hệ thống này mô
hình Kobayashi và Hara.
Hình 5. Mô Hình Mặt Người Của Kobayashi Và Hara
-
Từ mô hình trên, tác giả giả sử một gương mặt với 29 điểm mô tả cảm xúc.
Sự chuyển động của các đặc điểm sẽ chỉ ra cảm xúc của gương mặt. Những
điểm này được dùng cho việc nhận dạng cảm xúc.
2.6. Hệ thống nhận diện cảm xúc dựa trên fed (facial expression dictionary)
-
Trong [7], Edwin Jde Jongh đã tạo ra Hệ thống FED - một từ điển online
cảm xúc gương mặt, có giao diện như sau:
BỘ MÔN ĐIỀU KHIỂN TỰ ĐỘNG
12
GVHD: TS. TRƯƠNG ĐÌNH CHÂU
NHẬN DẠNG CẢM XÚC MẶT NGƯỜI
SVTH: VÕ LÊ TRƯỜNG PHI
Hình 6. Giao Diện Của FED (Facial Expression Dictionary)
-
FED hoạt động như sau: người dùng phải định bằng tay vị trí gương mặt và
các điểm mô tả cảm xúc (FCPs) của mô hình Haar face. Sau khi chọn bằng
tay và đồng ý với các điểm này thì hệ thống sẽ cho ra nhận dạng cảm xúc của
người đó.
-
Nhận mặt người từ nguyên tắc hoạt động trên, ta thấy FED có khuyết điểm là
(không tự động nhận dạng cảm xúc, cũng như chỉ xử lý với ảnh tĩnh.
2.7. Hệ thống mã hoá cảm xúc (facial action coding system-facs)
-
Theo [8], Ekman đã phát triển hệ thống mã hóa cho các cảm xúc của gương
mặt với sự chuyển động của gương mặt FACIAL ACTION CODING
SYSTEM (FACS) được mô tả bằng đơn vị hoạt động (action units (AU)).
Mỗi AU liên quan đến một nhóm cơ mặt.
-
Cơ bản, FACS chia gương mặt ra vùng cảm xúc trên và vùng cảm xúc dưới.
BỘ MÔN ĐIỀU KHIỂN TỰ ĐỘNG
13
GVHD: TS. TRƯƠNG ĐÌNH CHÂU
NHẬN DẠNG CẢM XÚC MẶT NGƯỜI
SVTH: VÕ LÊ TRƯỜNG PHI
Hình 7. Hệ Thống Mã Hoá Cảm Xúc (FACS)
3. KẾT LUẬN
-
Từ những tìm hiểu trên, tác giả nhận thấy:
• Trong nước:
Các đề tài nghiên cứu trong nước, chủ yếu là nhận dạng mặt người
bằng các phương pháp khác nhau, chưa thấy các tác giả hướng đến
việc phân tích cảm xúc trên gương mặt người đã nhận dạng được.Vì
thế, đề tài nghiên cứu nhận dạng cảm xúc mặt người là một hướng
nghiên cứu mới và sâu hơn trong nhận dạng mặt người.
• Ngoài nước:
Các đề tài nghiên cứu ở nước ngoài, các tác giả đã và đang phát triển
những hệ thống tự động nhận dạng cảm xúc mặt người khác nhau
bằng các phương pháp mới và hiệu quả như: Adaboost, HMMs, TAN,
NB, Neutral, Facts ,…v.v. Mỗi phương pháp có ưu và nhiệt điểm
BỘ MÔN ĐIỀU KHIỂN TỰ ĐỘNG
14
GVHD: TS. TRƯƠNG ĐÌNH CHÂU
NHẬN DẠNG CẢM XÚC MẶT NGƯỜI
SVTH: VÕ LÊ TRƯỜNG PHI
riêng, có kết quả đạt khoảng 80%-90%. Tuy nhiên, đa số các chương
trình này được phát triển tại các phòng thí nghiệm lớn của các đại học
danh tiếng của thế giới, được đầu tư lớn và có cả một đội ngũ tham
gia nghiên cứu, lập trình, phát triển. Sau đây là địa chỉ trang web [9]
mà chúng ta có thể tham khảo, là nơi để trao đổi giữa các phòng thí
nghiệm về các kết quả đạt được.
-
Ngoài ra, theo ý kiến riêng của tác giả, các phòng thí nghiệm đa số chỉ báo
cáo kết quả đạt được và trình bày sơ lược về các thuật toán, thiếu nhiều thông
tin hướng dẫn thực hiện báo cáo, cũng như các chương trình demo trình
chiếu. Điều này đã gây ra rất nhiều khó khăn cho những ai mới tham gia vào
hướng nghiên cứu này như: tốn nhiều thời gian để nghiên cứu và xây dựng
lại chương trình và thí nghiệm,..v.v
-
Kế tiếp, các chương trình này đa phần là xây dựng cho các ứng dụng an ninh,
chống khủng bố, ví dụ: các chương trình được xây dựng trên cơ sở: một
camera được đặt cố định trong nhà hay siêu thị,..v.v với các điều kiện tốt về
ánh sáng, mặt người khả nghi nhận dạng được sẽ được phân tích cảm xúc và
so với một database mặt người để nhằm phát hiện tên, tuổi và dự đoán các
hành động của người đó. Hướng ứng dụng này hơi khác với hướng ứng dụng
cho robot. Vì môi trường hoạt động của robot có thể là ngoài trời và di
chuyển nên cần một chương trình đơn giản, xử lý nhanh và cho kết quả
tương đối nếu các điều kiện về ánh sáng thay đổi.
BỘ MÔN ĐIỀU KHIỂN TỰ ĐỘNG
15
GVHD: TS. TRƯƠNG ĐÌNH CHÂU
NHẬN DẠNG CẢM XÚC MẶT NGƯỜI
SVTH: VÕ LÊ TRƯỜNG PHI
CHƯƠNG 2
MỤC TIÊU CỦA LUẬN VĂN
-
Từ mục tiêu điều khiển robot có thể hiểu và giao tiếp với con người trong
thời gian thực và xác định ứng nhiều trong an ninh phát hiện tội phạm, hỏi
cung tội phạm, mà cụ thể là việc nhận dạng cảm xúc trên gương mặt người,
đề tài sẽ tập trung nghiên cứu Hệ Thống Tự Động Nhận Dạng Cảm Xúc
Mặt Người Trong Thời Gian Thực và Nhận Dạng Ảnh Tĩnh theo sơ đồ
sau:
Webcam
Nhận dạng mặt
người
Nhận dạng
cảm xúc
Hiển thị
kết quả
Ảnh từ
file
Hình 8. Hệ thống nhận dạng cảm xúc tự động theo thời gian thực
-
Vì thế các bước thực hiện chương trình luận văn được xác định như
sau:
Thu nhận hình ảnh động từ webcam hoặc ảnh từ file.
Cộng ảnh mặt vào cơ sở dữ liệu.
Nhận dạng những cảm xúc cơ bản của mặt người : vui, buồn, bất ngờ,
bình thường,...v.v
Vẽ một gương mặt robot để thể hiện robot hiểu ra sao các cảm xúc cơ bản
của gương mặt nhận dạng.
BỘ MÔN ĐIỀU KHIỂN TỰ ĐỘNG
16
GVHD: TS. TRƯƠNG ĐÌNH CHÂU
NHẬN DẠNG CẢM XÚC MẶT NGƯỜI
SVTH: VÕ LÊ TRƯỜNG PHI
CHƯƠNG 3
CƠ SỞ LÝ THUYẾT VỀ THUẬT TOÁN NHẬN DẠNG
1. LÝ THUYẾT VỀ ẢNH SỐ
1.1. Khái niệm
-
Khái niệm về ảnh số xuất hiện từ năm 1964. Chẳng bao lâu, một nhánh mới
của khoa học gọi là xử lý ảnh số ra đời. Kể từ đó, liên tục phát triển và tạo ra
các kỹ thuật quan trọng ảnh hưởng trực tiếp đến các lĩnh vực truyền thông,
tivi, kỹ xảo đồ hoạ ,....
-
Xử lý ảnh là một trong các vấn đề ngày nay được thế giới quan tâm, nghiên
cứu và ứng dụng. Ở Việt Nam, vấn đề xử lý ảnh cũng được quan tâm và
nghiên cứu trong thời gian gần đây .
-
Cùng với sự phát triển mạnh mẽ của máy tính số, xử lý ảnh số với sự hỗ trợ
của máy tính cũng được phát triển và có nhiều ứng dụng. Các ứng dụng cụ
thể như: Trong lĩnh vực truyền hình, cũng như việc lấy hình ảnh từ vệ tinh về
trái đất thì ảnh có thể giảm chất lượng do tác động của nhiễu từ môi trường
hay nhiễu trong các thiết bị xuất nhập. Trong đo đạc bản đồ phục vụ cho việc
xây dựng các bản đồ, trong quá trình chụp ảnh đôi khi bản đồ bị mờ, nhoè
hoặc bị nhiễu do điều kiện khách quan của môi trường chụp. Do đó việc xử
lý khôi phục lại ảnh gốc là rất quan trọng.
-
Vấn đề xử lý hình ảnh bằng kỹ thuật số đã được quan tâm, có thể tóm tắt các
hướng nghiên cứu chính trong xử lý hình ảnh bằng phương pháp số như sau:
• Mã hoá, xấp xỉ và nén hình ảnh (digitalization, approximation,
compression).
• Khôi phục ảnh, làm nổi bật các đặc trưng lọc, biến đổi, tạo lại hình ảnh
(restoration , filtering , enhancement , transforms , reconstruction).
BỘ MÔN ĐIỀU KHIỂN TỰ ĐỘNG
17
GVHD: TS. TRƯƠNG ĐÌNH CHÂU
NHẬN DẠNG CẢM XÚC MẶT NGƯỜI
SVTH: VÕ LÊ TRƯỜNG PHI
• Nhận dạng hình ảnh (pictorial pattern recognition).
• Các đặc trưng phân đoạn, phân tích ảnh (feature detection,
segmentation image analysis).
• Ghép (matching) và biến đổi thời gian (time varying imaging).
• Tạo dạng và mẫu (shape, pattern).
-
Hình ảnh của một đối tượng là sự sao chụp lại đối tượng đó. Qua hình ảnh
mắt ta cảm thụ hình ảnh một cách gián tiếp. Ảnh được hình thành qua hệ
thống ảnh. Trong thực tế ảnh sao chụp không phải là lý tưởng, ảnh bị méo,
sai lệch với nhiều mức độ khác nhau, vì vậy việc xử lý khôi phục hình ảnh là
nhằm khôi phục lại ảnh nguyên gốc theo một tiêu chuẩn nào đó.
-
Khôi phục là quá trình so sánh một hình ảnh nào đó với một tập các hình ảnh
chuẩn. Khôi phục các hình ảnh giảm chất lượng (do chụp và ghi nhận trong
điều kiện không thuận lợi hoặc do lưu trữ lâu ngày) bằng phương pháp số
cho hiệu quả cao và nhanh (trong nhiều trường hợp không thể giải quyết
bằng phương pháp tương tự ).
-
Hình ảnh được phân vào hai loại:
Hình ảnh tĩnh (static image).
Hình ảnh động (dynamic image).
-
Hình ảnh được biểu diễn theo nhiều chiều (hai hoặc ba chiều). Tất nhiên hình
ảnh nhiều chiều sẽ phức tạp hơn hình ảnh một chiều khi biểu diễn và xử lý.
-
Xử lý hình ảnh là thực hiện các phép toán lên các tín hiệu số của hình ảnh.
Khối lượng thông tin trong một bức ảnh là rất lớn (đến vài trăm mêga
bít/ảnh). Bản chất các thông số ảnh có tính vector. Để xử lý với tốc độ nhanh
cần có yêu cầu thích hợp về dung lượng bộ nhớ, các phương pháp mã hoá có
hiệu quả, giảm độ dư thừa về thông tin trong ảnh và các thuật toán xử lý
nhanh.
BỘ MÔN ĐIỀU KHIỂN TỰ ĐỘNG
18
GVHD: TS. TRƯƠNG ĐÌNH CHÂU
NHẬN DẠNG CẢM XÚC MẶT NGƯỜI
SVTH: VÕ LÊ TRƯỜNG PHI
1.2. Khái niệm về phần tử ảnh
-
Ảnh trong thực tế liên tục về không gian và độ sáng, để ảnh có thể xử lý
bằng máy tính ta cần thiết phải số hoá ảnh. Quá trình này, người ta biến đổi
tín hiệu tương tự thành tín hiệu rời rạc thông qua quá trình lấy mẫu (rời rạc
về không gian) và lượng thành phần giá trị mà về mặt nguyên tắc bằng mắt
thường không phân biệt được hai điểm liền kề nhau. Quá trình này người ta
sử dụng khái niệm phần tử ảnh mà ta thường gọi là pixel, nó là phần tử nhỏ
nhất của ảnh. Như vậy, một ảnh là một tập hợp các pixel.
-
Một ảnh số là một mảng các điểm ảnh được số hoá và đưa vào bộ nhớ của
máy tính. Một số nhị phân chứa trong mỗi điểm ảnh thể hiện cường độ hay
bước sóng ánh sáng trong ảnh.
-
Độ phân giải của một ảnh là khu vực của mỗi điểm ảnh, thông thường nó là
số điểm ảnh trên mỗi hàng của ảnh, nó là một hàm của khoảng cách từ
camera đến khung nhìn, chiều dài hội tụ của thấu kính và số điểm ảnh mỗi
hàng của ảnh. Như màn hình máy tính có nhiều loại với độ phân giải khác
nhau: màn hình CGA có độ phân giải 320x200, màn hình VGA là 640x350.
1.3. Cấu trúc một file ảnh
-
Tổng quát, một file ảnh là một tập hợp nhiều điểm ảnh, mỗi điểm ảnh được
hiểu như thế nào còn tuỳ vào file ảnh đó là màu hay xám, nhưng cơ bản ảnh
vẫn là mảng hai chiều.
X
Y
BỘ MÔN ĐIỀU KHIỂN TỰ ĐỘNG
19
GVHD: TS. TRƯƠNG ĐÌNH CHÂU
- Xem thêm -