LỜI CAM ĐOAN
Tên tôi là: Nguyễn Thị Nhung
Sinh ngày: 04/11/1984
Học viên lớp cao học 18M - CT52 trường Đại học Mở Hà Nội
Hiện đang công tác tại: Trường THPT Chuyên Vĩnh Phúc, tỉnh Vĩnh Phúc
Tôi xin cam đoan đề tài “Phương pháp nhận dạng khuôn mặt dựa trên
phương pháp học chuyển giao của mạng nơron tích chập và ứng dụng vào bài
toán điểm danh học sinh tại trường THPT Chuyên Vĩnh Phúc” do thầy giáo TS.
Dương Thăng Long hướng dẫn là công trình nghiên cứu của riêng tôi. Các kết quả
đạt được trong luận văn là sản phẩm của riêng cá nhân, không sao chép của người
khác. Nội dung của luận văn có tham khảo và sử dụng một số thông tin, tài liệu từ
các nguồn sách, tạp chí được liệt kê trong danh mục các tài liệu tham khảo.
Vĩnh Phúc, ngày 10 tháng 8 năm 2021
Tác giả luận văn
Nguyễn Thị Nhung
i
LỜI CẢM ƠN
Sau một thời gian nghiên cứu và làm việc nghiêm túc, được sự động viên, giúp
đỡ và hướng dẫn tận tình của Thầy giáo hướng dẫn TS. Dương Thăng Long, luận văn
với đề tài “Phương pháp nhận dạng khuôn mặt dựa trên phương pháp học
chuyển giao của mạng nơron tích chập và ứng dụng vào bài toán điểm danh học
sinh tại trường THPT Chuyên Vĩnh Phúc” đã hoàn thành.
Tôi xin bày tỏ lòng biết ơn sâu sắc đến: Thầy giáo hướng dẫn TS. Dương
Thăng Long đã tận tình chỉ dẫn, giúp đỡ tôi hoàn thành luận văn.
Tôi xin chân thành cảm ơn bạn bè, đồng nghiệp và gia đình đã động viên,
khích lệ, tạo điều kiện giúp đỡ tôi trong suốt quá trình học tập, thực hiện và hoàn
thành luận văn.
Tác giả luận văn
Nguyễn Thị Nhung
ii
MỤC LỤC
Trang
LỜI CAM ĐOAN ....................................................................................................... i
LỜI CẢM ƠN ............................................................................................................ ii
MỤC LỤC ................................................................................................................. iii
DANH MỤC CÁC KÍ HIỆU, CÁC CHỮ VIẾT TẮT ............................................. vi
DANH MỤC CÁC BẢNG....................................................................................... vii
DANH MỤC HÌNH VẼ .......................................................................................... viii
MỞ ĐẦU .....................................................................................................................1
CHƯƠNG 1: GIỚI THIỆU VỀ NHẬN DẠNG KHUÔN MẶT VÀ MẠNG
NƠRON TÍCH CHẬP.................................................................................................4
1.1. Hệ thống nhận dạng khuôn mặt ........................................................................4
1.1.1. Mô tả bài toán nhận dạng khuôn mặt .........................................................4
1.1.2. Hệ thống nhận dạng khuôn mặt..................................................................5
1.1.3. Một số ứng dụng của hệ thống nhận dạng khuôn mặt ...............................7
1.2. Một số hướng tiếp cận nhận dạng khuôn mặt...................................................8
1.2.1. Hướng tiếp cận dựa trên tri thức ................................................................9
1.2.2. Hướng tiếp cận dựa trên đặc trưng không thay đổi ..................................11
1.2.3. Hướng tiếp cận dựa trên so khớp mẫu .....................................................14
1.2.4. Hướng tiếp cận dựa trên diện mạo ...........................................................15
1.3. Mạng nơron nhân tạo ......................................................................................16
1.3.1. Mạng nơron sinh học ................................................................................16
1.3.2. Mạng nơron nhân tạo................................................................................18
1.3.3. Quá trình học của mạng nơron .................................................................23
1.3.4. Các ứng dụng của mạng nơron .................................................................26
1.4. Mạng nơron tích chập .....................................................................................27
1.4.1. Định nghĩa mạng nơron tích chập ............................................................27
1.4.2. Cấu trúc tổng quát của mạng nơron tích chập ..........................................29
1.4.3. Giải thuật lan truyền ngược ......................................................................39
Kết luận chương .....................................................................................................41
iii
CHƯƠNG 2: NHẬN DẠNG KHUÔN MẶT DỰA TRÊN PHƯƠNG PHÁP HỌC
CHUYỂN GIAO CỦA MẠNG NƠRON TÍCH CHẬP ...........................................42
2.1. Thiết kế mạng nơron CNN nhận dạng khuôn mặt ..........................................42
2.1.1 Tiền xử lý ảnh đầu vào ..............................................................................43
2.1.2 Mô hình nhận dạng khuôn mặt dựa trên CNN ..........................................44
2.2. Phương pháp học chuyển giao trên CNN .......................................................50
2.2.1. Giới thiệu phương pháp học chuyển giao ................................................50
2.2.2. Một số biện pháp học chuyển giao trên CNN ..........................................51
2.2.3. Vai trò của học chuyển giao .....................................................................54
2.3. Mô số mô hình mạng CNN hiện đại ...............................................................56
2.3.1. Mạng VGG ...............................................................................................56
2.3.2. Mạng Googlenet .......................................................................................59
2.3.3. Mạng Resnet .............................................................................................61
2.3.4. Mạng Densenet .........................................................................................65
2.4. Áp dụng phương pháp học chuyển giao cho bài toán nhận dạng khuôn mặt để
điểm danh ...............................................................................................................66
2.4.1. Phân tích bài toán .....................................................................................66
2.4.2 Cơ sở dữ liệu ảnh.......................................................................................67
2.4.3. Áp dụng phương pháp học chuyển giao với mạng VGG và Resnet vào
nhận dạng khuôn mặt .........................................................................................68
Kết luận chương .....................................................................................................71
CHƯƠNG 3: XÂY DỰNG PHẦN MỀM MÔ PHỎNG VÀ KẾT QUẢ THỬ
NGHIỆM ...................................................................................................................72
3.1. Xây dựng chương trình ứng dụng ...................................................................72
3.1.1. Công cụ xây dựng phần mềm ...................................................................72
3.1.2. Cài đặt.......................................................................................................74
3.2. Thử nghiệm chương trình ...............................................................................76
3.2.1. Tiền xử lý ảnh đầu vào .............................................................................76
3.2.2. Đào tạo mô hình .......................................................................................79
3.2.3. Nhận diện khuôn mặt qua Camera ...........................................................86
3.2.4. Nhận diện khuôn mặt qua ảnh có sẵn .......................................................87
3.2.5. Đánh giá kết quả .......................................................................................88
Kết luận chương .....................................................................................................89
iv
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ................................................................90
TÀI LIỆU THAM KHẢO .........................................................................................91
v
DANH MỤC CÁC KÍ HIỆU, CÁC CHỮ VIẾT TẮT
STT
Từ viết tắt
Tiếng Anh
Tiếng Việt
1
CSDL
2
ANN
Artificial Neural Network
Mạng nơron nhân tạo
3
CNN
Convolution Neural Network
Mạng nơron tích chập
4
VGG
Visual Geometry Group
5
FC
6
RELU
Cơ sở dữ liệu
Fully Connected
Lớp kết nối đầy đủ
Rectified Linear Unit
Hàm kích hoạt
vi
DANH MỤC CÁC BẢNG
Trang
Bảng 1.1. Một số hàm truyền thông dụng .................................................................21
Bảng 2.1. Ví dụ về dữ liệu phân lớp của mô hình CNN ...........................................50
Bảng 3.1 Cấu trúc chương trình ................................................................................76
Bảng 3.2. Bảng so sánh mô hình VGG19 - VGG Face ............................................88
Bảng 3.3. Bảng so sánh hiệu quả mô hình VGG19 - VGGFACE ............................89
vii
DANH MỤC HÌNH VẼ
Trang
Hình 1.1. Mô hình bài toán nhận dạng mặt người ......................................................5
Hình 1.2. Cấu trúc tổng quát của hệ thống nhận dạng khuôn mặt ..............................6
Hình 1.3. Hệ thống đa độ phân giải ..........................................................................10
Hình 1.4. Một lọai tri trức của người nghiên cứu phân tích trên khuôn mặt. ...........10
Hình 1.5. Cấu trúc cơ bản của nơron sinh học ..........................................................17
Hình 1.6. Cấu tạo một Neural ...................................................................................19
Hình 1.7. Mạng tự kết hợp ........................................................................................21
Hình 1.8. Mạng kết hợp khác kiểu ............................................................................22
Hình 1.9. Mạng truyền thẳng ....................................................................................22
Hình 1.10. Mạng phản hồi.........................................................................................23
Hình 1.11. Mô hình huấn luyện mạng có giám sát [11]............................................24
Hình 1.12. Mô hình huấn luyện mạng không giám sát [11] .....................................25
Hình 1.13. Mô hình huấn luyện mạng tăng cường [11] ............................................26
Hình 1.14. Mô hình CNN ..........................................................................................29
Hình 1.15. Cấu trúc tổng quát của mạng nơron tích chập.........................................30
Hình 1.16. Minh hoạ tích chập trên ma trận ảnh.......................................................31
Hình 1. 17. Minh hoạ tích chập 3 chiều ....................................................................32
Hình 1.18. Max pooling với lọc 2x2 .........................................................................35
Hình 1.19. Mô hình hàm softmax cho mạng Neural .................................................37
Hình 1.20. Quá khớp .................................................................................................38
Hình 1.21 Mạng nơron truyền thẳng nhiều lớp sử dụng giải thuật lan truyền ngược
...................................................................................................................................40
Hình 2.1. Sơ đồ quy trình của mô hình nhận dạng khuôn mặt .................................42
Hình 2.2. Các dạng đặc trưng Haar-like ...................................................................43
Hình 2.3. Kiến trúc dạng khối của mô hình CNN.....................................................45
Hình 2.4. Một ảnh đầu vào kích thước 100×90×1 (đa cấp xám) ..............................46
Hình 2.5. Hình ảnh sau khi xử lý của khối B2 và lớp nơron POOL .........................47
Hình 2.6. Hình ảnh kết quả xử lý sau B5, B7 và B9 .................................................48
Hình 2.7. Mô hình VGG ban đầu và mô hình VGG mới ..........................................52
Hình 2.8. Bỏ các fully connected layer ở model VGG16 đi và thêm vào các Fully
connected layer mới ..................................................................................................53
Hình 2.9. So sánh hiệu suất mô hình trước và sau khi áp dụng học chuyển giao. ...55
Hình 2.10. Kiến trúc mô hình VGG ..........................................................................57
Hình 2.11. Các biến thể của mô hình VGG ..............................................................58
Hình 2.12. Inception ..................................................................................................60
Hình 2.13. Vanishing Gradients ................................................................................62
Hình 2.14. Residual Module và vài lớp đầu tiên của ResNet ...................................64
viii
Hình 2.15. Mạng Densenet........................................................................................65
Hình 2.16 Cấu hình khác nhau của DenseNet ..........................................................66
Hình 2.17. Hình ảnh về tập dữ liệu ảnh khuôn mặt cho 4 danh tính ........................67
Hình 2.18. Mô tả định dạng sắp xếp các thư mục trong tập dữ liệu ảnh mẫu ban đầu
...................................................................................................................................68
Hình 3.1 Kiểm tra cài đặt ngôn ngữ python ..............................................................74
Hình 3.2 Cài đặt thư viện dlib ...................................................................................75
Hình 3.3. Cài đặt thư viện OpenCV ..........................................................................75
Hình 3.4. Cài đặt Kera...............................................................................................76
Hình 3.5. Tiền xử lý ảnh đầu vào ..............................................................................79
Hình 3.6. Kết quả nhận diện bằng Camera - mô hình VGG19 .................................86
Hình 3.7. Kết quả nhận diện bằng Camera - mô hình VGG Face ............................86
Hình 3.8. Ảnh nhận diện qua File - mô hình VGG face ...........................................87
Hình 3.9. Ảnh nhận diện qua file - mô hình VGG19 ................................................87
ix
MỞ ĐẦU
1. Lý do chọn đề tài
Hiện nay, cùng với sự phát triển của xã hội, vấn đề an ninh bảo mật đang được
yêu cầu khắt khe tại mọi quốc gia trên thế giới. Các hệ thống nhận dạng con người
được ra đời với độ tin cậy ngày càng cao. Một trong các bài toán nhận dạng con người
rất được quan tâm hiện nay là nhận dạng mặt người.
Bài toán nhận dạng khuôn mặt người vốn được nghiên cứu từ những năm 1970
và cho đến nay, rất nhiều nghiên cứu lẫn ứng dụng cho bài toán này đã ra đời. Bài
toán nhận dạng mặt người có thể áp dụng rộng rãi trong nhiều lĩnh vực khác nhau.
Các ứng dụng liên quan đến nhận dạng mặt người có thể kể như: hệ thống phát hiện
tội phạm, hệ thống theo dõi nhân sự trong một đơn vị, hệ thống tìm kiếm thông tin
trên ảnh, video dựa trên nội dung…
Deep Learning là một thuật toán dựa trên một số ý tưởng từ não bộ tới việc
tiếp thu nhiều tầng biểu đạt, cả cụ thể lẫn trừu tượng, qua đó làm rõ nghĩa của các
loại dữ liệu. Deep Learning được ứng dụng trong nhận diện hình ảnh, nhận diện giọng
nói, xử lý ngôn ngữ tự nhiên. Hiện nay rất nhiều các bài toán nhận dạng sử dụng deep
learning để giải quyết do deep learning có thể giải quyết các bài toán với số lựợng
lớn, kích thước đầu vào lớn với hiệu năng cũng như độ chính xác vượt trội so với các
phương pháp phân lớp truyền thống
Convolutional Neural Network (CNN – Mạng nơ-ron tích chập) là một trong những
mô hình Deep Learning tiên tiến giúp cho chúng ta xây dựng được những hệ thống
thông minh với độ chính xác cao như hiện nay. Trong luận văn cao học này, tôi nghiên
cứu “Phương pháp nhận dạng khuôn mặt dựa trên phương pháp học chuyển
giao của mạng nơron tích chập và ứng dụng vào bài toán điểm danh học sinh tại
trường trung học phổ thông Chuyên Vĩnh Phúc”.
2. Mục tiêu nghiên cứu
- Nghiên cứu tổng quan về bài toán nhận dạng khuôn mặt người
1
- Tập trung làm rõ cơ sở lý thuyết, ứng dụng của bài toán nhận dạng khuôn mặt người
dùng mạng nơron tích chập.
- Nghiên cứu nhận dạng khuôn mặt dựa trên phương pháp học chuyển giao của mạng
nơron tích chập
- Phân tích bài toán, thiết kế và cài đặt thử nghiệm phần mềm mô phỏng nhận dạng
thí sinh dự thi ứng dụng mạng nơron tích chập.
3. Đối tượng và phạm vi nghiên cứu
- Đối tượng nghiên cứu: Phương pháp nhận dạng khuôn mặt dựa trên phương pháp
học chuyển giao của mạng nơron tích chập.
- Phạm vi nghiên cứu: Lý thuyết ứng dụng mạng nơron tích chập cho bài toán điểm
danh học sinh tại trường THPT Chuyên Vĩnh Phúc.
4. Phương pháp nghiên cứu
- Phương pháp nghiên cứu lý thuyết: Tổng hợp, nghiên cứu các tài liệu về nhận dạng
khuôn mặt và mạng nơron tích chập; nghiên cứu phương pháp học chuyển giao của
mạng nơron tích chập;
- Phương pháp nghiên cứu thực nghiệm: Sau khi nghiên cứu lý thuyết, phát biểu
bài toán, đưa ra giải pháp xử lý; cài đặt thử nghiệm chương trình phần mềm mô phỏng
nhận dạng học sinh; Đánh giá các kết quả đạt được.
5. Bố cục của luận văn
Bố cục của luận văn được chia làm 3 chương
Chương 1. Giới thiệu về nhận dạng khuôn mặt và mạng nơron tích chập
Giới thiệu về hệ thống nhận dạng khuôn mặt, Nghiên cứu lý thuyết về mạng nơron
tích chập.
Chương 2. Nhận dạng khuôn mặt dựa trên phương pháp học chuyển giao của
mạng nơron tích chập
2
Giới thiệu phương pháp học chuyển giao của mạng nơron, giới thiệu 2 mạng đào tạo
trước VGG và Resnet50
Chương 3: Xây dựng phần mềm mô phỏng và kết quả thử nghiệm
Lựa chọn ngôn ngữ cài đặt, xử lý dữ liệu đầu vào để đưa vào chương trình. Quá trình
cài đặt chương trình, quá trình chạy thử nghiệm. Thống kê, đánh giá các kết quả trong
quá trình thử nghiệm chương trình.
3
CHƯƠNG 1: GIỚI THIỆU VỀ NHẬN DẠNG KHUÔN MẶT
VÀ MẠNG NƠRON TÍCH CHẬP
1.1. Hệ thống nhận dạng khuôn mặt
1.1.1. Mô tả bài toán nhận dạng khuôn mặt
Nhận dạng mặt người là một trong những ứng dụng quan trọng của thị giác máy
tính nói riêng cũng như khoa học máy tính nói chung. Bài toán nhận dạng khuôn mặt
người vốn được nghiên cứu từ những năm 1970 và cho đến nay, rất nhiều nghiên cứu
lẫn ứng dụng cho bài toán này đã ra đời. Bài toán nhận dạng mặt người có thể áp dụng
rộng rãi trong nhiều lĩnh vực khác nhau. Các ứng dụng liên quan đến nhận dạng mặt
người có thể kể như: hệ thống phát hiện tội phạm, hệ thống theo dõi nhân sự trong
một đơn vị, hệ thống tìm kiếm thông tin trên ảnh, video dựa trên nội dung [1]
Như chúng ta đã biết, con người khi sinh ra đã có những đặc điểm sinh học tự
nhiên riêng biệt phân biệt giữa người này với người kia, rất khó có thể trùng lặp. Các
đặc điểm đó có thể bị thay đổi trong cuộc sống trừ những tác động khách quan hoặc
chủ quan như: tai nạn, tổn thương, phẫu thuật chỉnh hình... Chính bởi yếu tố riêng
biệt đó, các nhà khoa học tập trung nghiên cứu, tìm hiểu đặc trưng sinh trắc của con
người và áp dụng vào các biện pháp giúp nhận dạng, xác định danh tính của mỗi
người. Dựa vào những đặc điểm sinh trắc học của con người, các hệ thống nhận dạng
sinh trắc học ra đời nhằm giải quyết nhiều vấn đề có liên quan tới bảo mật, an ninh,
khoa học hay các nhu cầu khác trong cuộc sống.
Các đặc trưng sinh trắc khuôn mặt là những đặc điểm riêng trên khuôn mặt mỗi
người gần như không thay đổi theo thời gian, các đặc điểm này phân biệt giữa người
này và người kia, rất khó có thể xảy ra trùng lặp. Dựa trên nhận xét thực tế, con người
dễ dàng nhận biết các khuôn mặt và các đối tượng trong các tư thế khác nhau và điều
kiện ánh sáng khác nhau, thì phải tồn tại các thuộc tính hay đặc trưng không thay đổi.
Chính vì thế, việc xác định danh tính, nhận dạng khuôn mặt người thông qua các đặc
trưng sinh trắc học đó sẽ đảm bảo được độ chính xác, tin cậy cao.
4
Bản thân con người có thể nhận dạng ảnh khuôn mặt của mọi người một cách
dễ dàng. Thậm chí, ảnh đó có thể nằm trong một ảnh nền phức tạp. Tuy nhiên, đối
với hệ máy thì việc nhận dạng này là một công việc rất phức tạp và khó khăn. Chính
vì vậy, trong những năm gần đây, lĩnh vực nhận dạng khuôn mặt đã nhận được sự
quan tâm nghiên cứu lớn từ các nhà khoa học nhằm tạo ra các hệ hỗ trợ quyết định
phục vụ trong rất nhiều lĩnh vực của cuộc sống.
Giả sử ta có một cơ sở dữ liệu ảnh đã được lưu trong máy về một số người (Hình
1.1), bài toán nhận dạng là làm sao để khi đưa ảnh khuôn mặt của một người bất kỳ
vào thì máy sẽ tự động nhận dạng ra người này trong cơ sở dữ liệu.
Hình 1.1. Mô hình bài toán nhận dạng mặt người
1.1.2. Hệ thống nhận dạng khuôn mặt
Nhiệm vụ của hệ thống nhận dạng khuôn mặt là xử lý tự động thông tin từ các
ảnh khuôn mặt để tìm ra độ tương tự giữa các khuôn mặt và đưa ra quyết định về tính
đồng nhất giữa chúng. Cấu trúc của hệ thống nhận dạng khuôn mặt được thể hiện như
hình 1.2 và gồm các khâu chức năng sau [1]
5
Hình 1.2. Cấu trúc tổng quát của hệ thống nhận dạng khuôn mặt
Phát hiện khuôn mặt (face detection): Phát hiện khuôn mặt sẽ lấy ra tất cả
các khuôn mặt trong một hình ảnh. Chức năng này làm nhiệm vụ xác định vị trí, kích
cỡ của một hoặc nhiều khuôn mặt trên ảnh chụp từ đó tách ra phần mặt. Phần ảnh mặt
được tách ra thường nhỏ hơn nhiều so với ảnh chụp ban đầu, nó sẽ là các khuôn mặt
cần tìm và chức năng trích chọn đặc trưng sẽ sử dụng các ảnh được tách ra này.
Tiền xử lý (Pre-Processing): Bước này nhằm mục đích lọc nhiễu, nâng cao
chất lượng ảnh để chuẩn hóa ảnh cần tìm giúp cho việc tìm kiếm được hiệu quả hơn.
Các công việc trong bước tiền xử lý có thể là: Chuẩn hóa kích cỡ giữa ảnh trong
CSDL và ảnh cần tìm, hiệu chỉnh độ sáng, tối của ảnh; lọc nhiễu, chuẩn hóa về vị trí,
tư thế ảnh mặt.
Trích chọn đặc trưng (FE): Tìm ra các đặc trưng chính của ảnh mặt, từ các
đặc trưng này hình thành các vector đặc trưng, các vector này sẽ được sử dụng để đối
sánh sự giống nhau giữa ảnh mặt cần tìm và ảnh mặt trong CSDL.
Nhận dạng/Phân lớp: Bước nhận dạng (recognition) hay phân lớp
(classification), tức là xác định danh tính (identity) hay nhãn (label) của ảnh đó là ảnh
của ai.
6
Dữ liệu hệ thống nhận dạng: Dữ liệu hệ thống nhận dạng được chia làm 3
tập gồm tập huấn luyện (training set), tập tham chiếu (reference set) và tập để nhận
dạng (probe set). Tập huấn luyện gồm các ảnh được dùng để huấn luyện, thông
thường tập này được dùng để sinh ra một không gian con là một ma trận. Tập tham
chiếu gồm các ảnh đã biết danh tính được chiếu vào không gian con ở bước huấn
luyện... Sau khi thực hiện chiếu tập tham chiếu vào không gian con, hệ thống lưu lại
kết quả là một ma trận với mỗi cột của ma trận là một vector tương ứng với ảnh (định
danh đã biết) để thực hiện nhận dạng (hay phân lớp).
Hệ thống nhận dạng khuôn mặt cần đảm bảo các yêu cầu:
- Độ chính xác nhận dạng có thể chấp nhận được đối với yêu cầu của bài toán
nhận dạng;
- Tốc độ vận hành cao đối với các CSDL lớn và số lượng các yêu cầu có thể giải
quyết được;
- Đơn giản trong việc cài đặt, lựa chọn thiết bị và vận hành. An toàn với người sử
dụng.
1.1.3. Một số ứng dụng của hệ thống nhận dạng khuôn mặt
Hệ thống nhận dạng khuôn mặt đã và đang được áp dụng trong rất nhiều lĩnh
vực của đời sống xã hội. Chúng ta có thể liệt kê một số ứng dụng tiêu biểu như sau:
- Hệ thống tương tác giữa người và máy: sẽ giúp những người tàn tật hoặc
khiếm khuyết có thể trao đổi. Những người câm sẽ nói chuyện với người bình
thường bằng ngôn ngữ tay, người bại liệt có thể thông qua các ký hiệu như
nháy mắt, những cử chỉ trên khuôn mặt để ra hiệu cho người bình thường, …
- Nhận dạng người có phải là tội phạm bị truy nã hay không? Giúp cơ quan an
ninh quản lý tốt con người. Hoặc có thể truy tìm nhanh chóng các hồ sơ tội
phạm trong cơ sở dữ liệu của máy tính.
7
- Hệ thống quan sát theo dõi và bảo vệ. Các hệ thống camera sẽ xác định đâu
là con người và theo dõi con người đó xem họ có vi phạm gì không, ví dụ như
xâm phạm khu vực không được vào, xâm phạm vào nhà riêng, …
- Lưu trữ hình ảnh khuôn mặt những người rút tiền từ máy rút tiền, hiện nay có
tình trạng những người bị người khác lấy mất mã số PIN và những người ăn
cắp này đi rút tiền. Hoặc những người chủ thẻ đi rút tiền nhưng lại báo mất
thẻ và mất tiền. Các ngân hàng có nhu cầu khi giao dịch tiền sẽ kiểm tra hay
lưu trữ khuôn mặt người rút tiền để sau đó đối chứng và xử lý.
- Các hệ thống mở cửa, chấm ngày công lao động của các nhân viên vào ra
trong công ty. Hệ thống nhận dạng mặt người sẽ cho phép các nhân viên vào
ra những khu vực cho phép, hay đăng nhập máy tính hoặc đăng nhập máy
tính cá nhân của mình mà không cần mật khẩu, …
- Phân tích các cảm xúc của con người trên khuôn mặt.
- Tương lai sẽ phát triển các loại thẻ thông minh có tích hợp sẵn đặc trưng của
người dùng trên đó, khi bất cứ người dùng nào khác dùng để truy cập hay xử
lý tại các hệ thống sẽ được yêu cầu kiểm tra các đặc trưng của khuôn mặt so
với thẻ để biết có phải là chủ thẻ hay không [1]
1.2. Một số hướng tiếp cận nhận dạng khuôn mặt
Có nhiều nghiên cứu tìm phương pháp xác định khuôn mặt người, từ ảnh xám
đến ngày nay là ảnh màu. Tôi sẽ trình bày một cách tổng quát nhất những hướng giải
quyết chính cho bài toán, từ những hướng chính này nhiều tác giả thay đổi một số ý
nhỏ bên trong để có kết quả mới.
Dựa vào tính chất của các phương pháp xác định khuôn mặt người trên ảnh.
Các phương pháp này được chia làm bốn hướng tiếp cận chính. Ngoài bốn hướng
này, nhiều nghiên cứu có khi liên quan đến không những một hướng tiếp cận mà có
liên quan nhiều hơn một hướng chính [3]
8
Hướng tiếp cận dựa trên tri thức: Mã hóa các hiểu biết của con người về các
loại khuôn mặt người thành các luật. Thông thường các luật mô tả quan hệ của các
đặc trưng.
Hướng tiếp cận dựa trên đặc trưng không thay đổi: Mục tiêu các thuật toán đi
tìm các đặc trưng mô tả cấu trúc khuôn mặt người mà các đặc trưng này sẽ không
thay đổi khi tư thế khuôn mặt, vị trí đặt thiết bị thu hình hoặc điều kiện ánh sáng thay
đổi.
Hướng tiếp cận dựa trên so khớp mẫu: Dùng các mẫu chuẩn của khuôn mặt
người (các mẫu này được chọn lựa và lưu trữ) để mô tả cho khuôn mặt người hay các
đặc trưng khuôn mặt (các mẫu này phải chọn làm sao cho tách biệt nhau theo tiêu
chuẩn mà các tác giả định ra để so sánh). Các mối tương quan giữa dữ liệu ảnh đưa
vào và các mẫu dùng để xác định khuôn mặt người.
Hướng tiếp cận dựa trên diện mạo: Trái ngược hẳn với so khớp mẫu, các mô
hình (hay các mẫu) được học từ một tập ảnh huấn luyện trước đó. Sau đó hệ thống
(mô hình) sẽ xác định khuôn mặt người. Hay một số tác giả còn gọi hướng tiếp cận
này là hướng tiếp cận theo phương pháp học.
1.2.1. Hướng tiếp cận dựa trên tri thức
Trong hướng tiếp cận này, các luật sẽ phụ thuộc rất lớn vào tri thức của những
tác giả nghiên cứu về bài toán xác định khuôn mặt người. Đây là hướng tiếp cận dạng
top-down. Dễ dàng xây dựng các luật cơ bản để mô tả các đặc trưng của khuôn mặt
và các quan hệ tương ứng. Ví dụ, một khuôn mặt thường có hai mắt đối xứng nhau
qua trục thẳng đứng ở giữa khuôn mặt và có một mũi, một miệng. Các quan hệ của
các đặc trưng có thể được mô tả như quan hệ về khoảng cách và vị trí. Thông thường
các tác giả sẽ trích đặc trưng của khuôn mặt trước tiên để có được các ứng viên, sau
đó các ứng viên này sẽ được xác định thông qua các luật để biết ứng viên nào là khuôn
mặt và ứng viên nào không phải khuôn mặt. Thường áp dụng quá trình xác định để
giảm số lượng xác định sai.
9
Một vấn đề khá phức tạp khi dùng hướng tiếp cận này là làm sao chuyển từ tri
thức con người sang các luật một các hiệu quả. Nếu các luật này quá chi tiết (chặt
chẽ) thì khi xác định có thể xác định thiếu các khuôn mặt có trong ảnh, vì những
khuôn mặt này không thể thỏa mãn tất cả các luật đưa ra. Nhưng các luật tổng quát
quá thì có thể chúng ta sẽ xác định lầm một vùng nào đó không phải là khuôn mặt mà
lại xác định là khuôn mặt. Và cũng khó khăn mở rộng yêu cầu từ bài toán để xác định
các khuôn mặt có nhiều tư thế khác nhau.
Hình 1.3. Hệ thống đa độ phân giải
(a) Ảnh ban đầu có độ phân giải n=1;
(b), (c), và (d) Ảnh có độ phân giải n=4, 8, và 16.
Hình 1.4. Một lọai tri trức của người nghiên cứu phân tích trên khuôn mặt.
Yang và Huang dùng một phương thức theo hướng tiếp cận này để xác định
các khuôn mặt. Hệ thống của hai tác giả này bao gồm ba mức luật. Ở mức cao nhất,
dùng một khung cửa sổ quét trên ảnh và thông qua một tập luật để tìm các ứng viên
có thể là khuôn mặt. Ở mức kế tiếp, hai ông dùng một tập luật để mô tả tổng quát
hình dáng khuôn mặt. Còn ở mức cuối cùng lại dùng một tập luật khác để xem xét ở
mức chi tiết các đặc trưng khuôn mặt. Một hệ thống đa độ phân giải có thứ tự được
dùng để xác định, hình 1. Các luật ở mức cao nhất để tìm ứng viên như: “vùng trung
tâm khuôn mặt (phần tối hơn trong hình 1.4) có bốn phần với một mức độ đều cơ
bản”, “phần xung quanh bên trên của một khuôn mặt (phần sáng hơn trong hình 1.4)
có một mức độ đều cơ bản”, và “mức độ khác nhau giữa các giá trị xám trung bình
10
của phần trung tâm và phần bao bên trên là đáng kể”. Độ phân giải thấp nhất (mức
mộ) của ảnh dùng để tìm ứng viên khuôn mặt mà còn tìm ở các mức phân giải tốt
hơn. Ở mức hai, xem xét biểu đồ histogram của các ứng viên để loại bớt ứng viên nào
không phải là khuôn mặt, đồng thời dò ra cạnh bao xung quanh ứng viên. Ở mức cuối
cùng, những ứng viên nào còn lại sẽ được xem xét các đặc trưng của khuôn mặt về
mắt và miệng. Hai ông đã dùng một chiến lược “từ thô đến mịn” hay “làm rõ dần” để
giảm số lượng tính toán trong xử lý. Mặc dù tỷ lệ chính xác chưa cao, nhưng đây là
tiền đề cho nhiều nghiên cứu sau này.
Kotropoulos và Pitas đưa một phương pháp tương tự dùng trên độ phân giải
thấp. Hai ông dùng phương pháp chiếu để xác định các đặc trưng khuôn mặt, Kanade
đã thành công với phương pháp chiếu để xác định biên của khuôn mặt. Với I(x,y) là
giá trị xám của một điểm trong ảnh có kích thước m x n ở tại vị trí (x,y), các hàm để
chiếu ảnh theo phương ngang và thẳng đứng được định nghĩa như sau:
𝑛
𝐻𝐼(𝑥) = ∑𝑦=1 𝐼(𝑥, 𝑦) và
𝑚
V𝐼(𝑦) = ∑𝑥=1 𝐼(𝑥, 𝑦)
Dựa trên biểu đồ hình chiếu ngang, có hai cực tiểu địa phương khi hai ông xét
quá trình thay đổi độ đốc của HI, đó chính là cạnh bên trái và phải của hai bên đầu.
Tương tự với hình chiếu dọc VI, các cực tiểu địa phương cũng cho ta biết vị trí miệng,
đỉnh mũi, và hai mắt. Các đặc trưng này đủ để xác định khuôn mặt.
1.2.2. Hướng tiếp cận dựa trên đặc trưng không thay đổi
Đây là hướng tiếp cận theo kiểu bottom-up. Các tác giả cố gắng tìm các đặc
trưng không thay đổi của khuôn mặt người để xác định khuôn mặt người. Dựa trên
nhận xét thực tế, con người dễ dàng nhận biết các khuôn mặt và các đối tượng trong
các tư thế khác nhau và điều kiện ánh sáng khác nhau, thì phải tồn tại các thuộc tính
hay đặc trưng không thay đổi. Có nhiều nghiên cứu đầu tiên xác định các đặc trưng
khuôn mặt rồi chỉ ra có khuôn mặt trong ảnh hay không. Các đặc trưng như: lông
mày, mắt, mũi, miệng, và đường viền của tóc được trích bằng phương pháp xác định
11
- Xem thêm -