ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
NGUYỄN THU HƯƠNG
PHÂN VÙNG BÀN TAY
DỰA TRÊN PHÁT HIỆN CÁC BỘ PHẬN
Chuyên ngành: Khoa học máy tính
Mã số: 60 48 01 01
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
Người hướng dẫn khoa học: TS. NGUYỄN VĂN TẢO
THÁI NGUYÊN, 2017
LỜI CẢM ƠN
Tác giả xin bày tỏ lòng biết ơn tới các thầy cô giáo Trường Đại học Công
nghệ Thông tin và Truyền thông, các thầy cô giáo Viện Công nghệ Thông tin - Viện
Hàn lâm Khoa học và Công nghệ Việt Nam đã tạo điều kiện giúp đỡ em trong quá
trình học tập và làm luận văn tại Trường.
Đặc biệt tác giả xin bày tỏ lòng biết ơn sâu sắc tới TS. Nguyễn Văn Tảo là
người đã dìu dắt, định hướng và trực tiếp hướng dẫn cho tác giả trong những năm
học cao học và thực hiện luận văn.
Cuối cùng, tác giả xin gửi lời cảm ơn đến gia đình, bạn bè vì những tình cảm,
sự ủng hộ và động viên đã dành cho tôi trong suốt quá trình học tập cũng như thực
hiện luận văn này.
Thái Nguyên, tháng 6 năm 2017
Học viên cao học
Nguyễn Thu Hương
i
LỜI CAM ĐOAN
Tôi xin cam đoan luận văn này do chính tôi thực hiện, dưới sự hướng dẫn
khoa học của TS. Nguyễn Văn Tảo các kết quả lý thuyết được trình bày trong luận
văn là sự tổng hợp từ các kết quả đã được công bố và có trích dẫn đầy đủ, kết quả
của chương trình thực nghiệm trong luận văn này được tác giả thực hiện hoàn toàn
trung thực, nếu sai tôi hoàn toàn chịu trách nhiệm.
Thái Nguyên, tháng 6 năm 2017
Học viên
Nguyễn Thu Hương
ii
MỤC LỤC
LỜI CẢM ƠN ...................................................................................................... i
LỜI CAM ĐOAN ................................................................................................ ii
MỤC LỤC ......................................................................................................... iii
DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT .......................................... v
DANH MỤC CÁC BẢNG .................................................................................. vi
DANH MỤC CÁC HÌNH .................................................................................. vii
MỞ ĐẦU............................................................................................................ 1
CHƯƠNG I: TỔNG QUAN VỀ BÀI TOÁN PHÂN VÙNG BÀN TAY ............ 4
1.1 Giới thiệu bài toán ....................................................................................... 4
1.2 Một số nghiên cứu liên quan ....................................................................... 4
1.2.1 Pixel value (intensity/color) ..................................................................... 4
1.2.2 Hình dạng (shape) .................................................................................... 7
1.2.3 Topography .............................................................................................. 7
1.2.4 Ngữ cảnh (Context) .................................................................................. 8
1.2.5 Chuyển động (Motion) ............................................................................. 8
1.2.6 Thảo luận .................................................................................................. 9
CHƯƠNG II: PHÂN VÙNG BÀN TAY SỬ DỤNG ĐẶC TRƯNG
HAAR-LIKE ................................................................................................... 11
2.1 Giới thiệu ................................................................................................... 11
2.2 Sơ đồ hệ thống phát hiện bàn tay .............................................................. 12
2.3 Trích chọn đặc trưng ................................................................................. 13
2.3.1 Đặc trưng Haar-like................................................................................ 13
2.3.2 Tính toán nhanh các đặc trưng Haar-like sử dụng ảnh tích phân .......... 15
2.3.3 Các đặc trưng Internal ............................................................................ 22
2.3.4 Đặc trưng Internal Haar-like .................................................................. 23
iii
2.4 Phân loại .................................................................................................... 26
2.4.1 Thuật toán Boosting ............................................................................... 27
2.4.2 AdaBoost ................................................................................................ 28
2.4.3 Cấu trúc Cascade của các bộ phân loại .................................................. 31
2.5 Thí nghiệm ................................................................................................ 32
2.5.2 Huấn luyện bộ phát hiện ........................................................................ 38
2.5.3 Kết quả ................................................................................................... 40
2.6 Kết luận ..................................................................................................... 45
CHƯƠNG III: PHƯƠNG PHÁP PHÁT HIỆN MÀU DA SỬ DỤNG CHO
BÀI TOÁN PHÂN VÙNG BÀN TAY.............................................................. 46
3.1 Nội dung phương pháp .............................................................................. 46
3.2 Chi tiết các bước........................................................................................ 48
3.2.1 Phát hiện màu da .................................................................................... 48
3.2.2 Công thức màu da .................................................................................. 48
3.2.2.1 Histogram ............................................................................................ 50
3.2.3 Lọc nhiễu ................................................................................................ 53
3.2.4 Xác định các vùng trắng ......................................................................... 54
3.2.5 Phân loại các vùng trắng ........................................................................ 59
3.3. Xây dựng hệ thống và thử nghiệm ........................................................... 61
3.3.1 Mục đích ................................................................................................. 61
3.3.2. Dữ liệu đầu vào ..................................................................................... 61
KẾT LUẬN...................................................................................................... 63
TÀI LIỆU THAM KHẢO ............................................................................... 64
iv
DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT
Chữ cái viết tắt/cụm từ
Tiếng Anh
đầy đủ
ACRH
AIRH
Approximate Circumscribed
Rectangle’s area of a Hand
Approximate Inscribed
Rectangle’s area of a Hand
GMM
Gaussian Mixture Model
LBP
Local binary pattern
RGB
Red Green Blue
ROI
Region Of Interest
v
DANH MỤC CÁC BẢNG
Bảng 2.1: Thuật toán Boosting..................................................................................27
Bảng 2.2: Ý tưởng thuật toán AdaBoost. ..................................................................31
Bảng 2.3: Thông tin về số liệu thu thập ....................................................................34
Bảng 2.4: So sánh các bộ dữ liệu ..............................................................................35
Bảng 2.5: Cấu hình quy trình huấn luyện .................................................................39
Bảng 2.6: Kết quả phát hiện với số lượng các tầng khác nhau .................................41
vi
DANH MỤC CÁC HÌNH
Hình 1.1: Sự thay đổi màu da trong các điều kiện ánh sáng khác nhau ........... 5
Hình 2.1: (a) Ảnh mẫu khuôn mặt; (b) Một ảnh mẫu bàn tay. ....................... 12
Hình 2.2: Khung phát hiện tay ........................................................................ 12
Hình 2.3: Đặc trưng Haar-like ........................................................................ 14
Hình 2.4: Tập mở rộng các kiểu đặc trưng Haar-like [17] được sử dụng. ..... 15
Hình 2.5: Tập các kiểu đặc trưng Haar-like .................................................... 15
Hình 2.6: Ảnh tích phân (không xoay) ........................................................... 16
Hình 2.7: Tính toán của ảnh tích phân ............................................................ 18
Hình 2.8: Sơ đồ tính toán ảnh tích phân.......................................................... 19
Hình 2.9. Tính toán tổng của các giá trị điểm ảnh bên trong một hình chữ
nhật (không xoay) r =(x, y, w, h) .................................................. 20
Hình 2.10: Ảnh tích phân quay nghiêng 45◦. .................................................. 21
Hình 2.11: Sơ đồ tính toán đối với ảnh tích phân xoay nghiêng 45◦. ............. 21
Hình 2.12: Sơ đồ tính toán tổng các điểm ảnh thuộc hình chữ nhật (xoay
nghiêng 45◦). ................................................................................. 22
Hình 2.13: (a) Ví dụ về các đặc trưng Haar-like mà không phải là đặc
trưng Internal Haar-like. (b) Ví dụ về đặc trưng Internal
Haar-like. ...................................................................................... 23
Hình 2.14: Hai ảnh mẫu bàn tay của một hình trạng bàn tay ......................... 24
Hình 2.15: Các ví dụ về đặc trưng Haar-like được trích chọn từ vùng
ACRH và đặc trưng Internal Haar-like được trích chọn từ vùng
AIRH. ............................................................................................ 24
Hình 2.16: Các ví dụ về đặc trưng Haar-like và Internal Haar-like trích
xuất từ vùng ACRH (bên trái) và vùng AIRH (bên phải). ........... 25
Hình 2.17: Ví dụ về các đặc trưng Haar-like cho 3 loại hình trạng ................ 26
vii
Hình 2.18. Minh họa thuật toán Boosting ....................................................... 28
Hình 2.19: Thuật toán AdaBoost với số bộ phân loại yếu M = 3. .................. 29
Hình 2.20: Cấu trúc Cascade của các bộ phân loại ......................................... 31
Hình 2.21: Thiết lập cho việc thu thập tập dữ liệu L3i-MICA. ...................... 33
Hình 2.22: Danh sách 21 hình trạng bàn tay trong tập dữ liệu L3i-MICA..... 34
Hình 2.23: Sự đa dạng của màu tay trong bộ dữ liệu MICA-L3i ................... 35
Hình 2.24: Các vùng sáng, tối khác nhau trong vùng bàn tay ........................ 35
Hình 2.25: Độ nghiêng khác nhau của bàn tay khi thực hiện cùng một
hình trạng. ..................................................................................... 36
Hình 2.26: Sự đa dạng của Scale, kích thước tay ........................................... 36
Hình 2.27: Ví dụ về nhiều cách thực hiện cùng một hình trạng bàn tay ........ 36
Hình 2.28: Ví dụ về các hình trạng khác nhau nhưng có đặc điểm hình dạng
tương tự nhau .................................................................................. 37
Hình 2.29: Số lượng bộ phân loại yếu trong mỗi tầng .................................... 40
Hình 2.30: Tần số xuất hiện các loại đặc trưng Haar-like .............................. 40
Hình 2.31: Biểu đồ kết quả của bộ phát hiện bộ phận trung tâm bàn tay ....... 42
Hình 2.32: Biểu đồ kết quả của bộ phát hiện toàn bộ bàn tay ........................ 42
Hình 2.33: Các đường cong Precision-Recall để so sánh giữa bộ phát hiện
bộ phận trung tâm bàn tay và bộ phát hiện toàn bộ bàn tay ............ 43
Hình 2.34: So sánh Precision (độ chính xác) .................................................. 43
Hình 2.35: So sánh về giá trị Recall................................................................ 44
Hình 2.36: So sánh giá trị F-score................................................................... 44
Hình 2.37: Ví dụ về lợi thế và bất lợi của bộ phát hiện bộ phận trung tâm
bàn tay ........................................................................................... 45
Hình 3.1: Sơ đồ khối của phương pháp .......................................................... 47
Hình 3.2: Vị trí các khâu trong phương pháp ................................................. 48
Hình 3.3: Sự phân bố các điểm màu da trong không gian YCrCb ................. 49
viii
Hình 3.4: Sự phân bố các điểm màu da trong hệ màu HSV ........................... 49
Hình 3.5: Một số bàn tay người được dùng trong tổng hợp histogram
màu da ........................................................................................... 51
Hình 3.6: Một số kết quả minh họa trong phát hiện màu da ........................... 52
Hình 3.7: Minh họa phát hiện màu da theo từng tiêu chí. Từ trái sang
phải: ảnh vào, ảnh màu da theo công thức, ảnh màu da theo
histogram....................................................................................... 52
Hình 3.8: Vị trí của khâu lọc nhiễu trong phương pháp ................................. 53
Hình 3.9: Minh họa kết quả lọc nhiễu ............................................................. 54
Hình 3.10: Vị trí của khâu xác định vùng trắng trong phương pháp .............. 54
Hình 3.11: Vị trí tương đối của 1 điểm trắng so với vùng trắng hiện tại........ 57
Hình 3.12: Vị trí của khâu phân loại vùng trắng trong phương pháp ............. 59
Hình 3.13: Trường hợp phát hiện nhầm nếu không có cận trên của tỉ lệ
điểm trắng ..................................................................................... 60
Hình 3.14: Giao diện khi mới khởi động chương trình .................................. 61
Hình 3.15: Vùng bàn tay sau khi đã được phát hiện ....................................... 62
ix
MỞ ĐẦU
Sự ra đời của máy tính đã giúp ích rất nhiều cho công việc và cuộc sống của
con người. Với máy tính, con người có thể soạn thảo văn bản, nghe nhạc, xem
phim, thiết kế đồ họa, xử lý ảnh, biên tập phim ... Tuy nhiên, việc giao tiếp giữa con
người và máy tính phụ thuộc chủ yếu vào bàn phím và chuột, và hầu như con người
luôn phải ngồi trước máy tính. Dần dần, các nhà sản xuất thấy được sự bất tiện và
đã tạo ra bàn phím và chuột không dây với mong muốn mang lại sự tự do hơn cho
người dùng. Tuy nhiên,với bàn phím không dây thì con người vẫn phải tương tác
với máy tính bằng các phím cơ học. Con người chỉ thật sự được thoải mái khi việc
tương tác với máy tính được thực hiện thông qua ngôn ngữ cử chỉ và giọng nói.
Hơn nữa, ngày nay, công nghệ thực tại ảo đã và đang được phát triển, ứng dụng
trong đời sống. Trong môi trường thực tại ảo, việc tương tác một cách tự nhiên
thông qua ngôn ngữ, cử chỉ càng trở nên cần thiết. Bên cạnh đó, xu hướng hiện nay
là hầu hết các vật dụng, đồ dùng, thiết bị xung quanh ta, trong môi trường sống đều
là máy tính và được kết nối với nhau thì việc giao tiếp với các thiết bị một cách tự
nhiên, thân thiện, gần với cách giao tiếp giữa người với người trong cuộc sống là
một nhu cầu tất yếu. Nhu cầu này đặt ra nhiều bài toán trong đó có bài toán nhận
dạng cử chỉ tay.
Trong cuộc sống hàng ngày, nhận dạng cử chỉ có thể giúp cho việc giao tiếp
giữa người bình thường với người khiếm thính dễ dàng hơn, vì máy tính sẽ chuyển
ngôn ngữ cử chỉ thành chữ viết. Trong công nghiệp và sản xuất, chỉ cần trang bị cho
các robot hệ thống camera, việc điều khiển robot sẽ trở nên đơn giản hơn bao giờ
hết nếu robot có thể hiểu được các cử chỉ của con người. Trong lĩnh vực đồ họa 3
chiều, trong môi trường thực tại ảo, ta có thể dùng tay để tương tác với các đối
tượng trong các ứng dụng đồ họa và trong môi trường thực tại ảo. Trong công việc
văn phòng, nhận dạng cử chỉ giúp ta có thể yêu cầu máy tính thực thi một chương
trình, mở một bài hát, gửi một lá thư... chỉ với một vài cử chỉ ra hiệu từ xa. Trong
các ngôi nhà thông minh, ta có thể điều khiển các thiết bị bằng cử chỉ tay như bật tắt
1
đèn, chọn kênh TV. Trong lĩnh vực giải trí, các trò chơi thực tế ảo, người chơi sẽ
điều khiển hành động nhân vật bằng chính hành động của mình.
Mô ̣t hê ̣ thố ng nhâ ̣n da ̣ng bàn tay thông thường có hai bước chính: phát hiện,
theo vế t bàn tay, và nhâ ̣n dạng bàn tay. Trong đó, phát hiện bàn tay là bước đầu
tiên, có vai trò quan trọng, ảnh hưởng đế n hiê ̣u năng của hê ̣ thố ng. Việc phát hiện
được bàn tay trong thế giới thực là mô ̣t nhiê ̣m vụ khó khăn. Nhiều phương pháp đã
đươ ̣c đề xuấ t để giải quyết bài toán như sử dụng template matching, neuron
network. Tuy nhiên, mỗi phương pháp hiện có vẫn còn những ha ̣n chế trong viê ̣c
giải quyế t các thách thức của bài toán như phông nề n phức ta ̣p, thay đổ i, điều kiê ̣n
chiế u sáng thay đổ i.
Gần đây, mô ̣t phương pháp phát hiện bàn tay sử du ̣ng đă ̣c trưng Haar-like
[1][2] đã đươ ̣c đề xuấ t. Theo [1][2], phương pháp này có nhiề u ưu điể m trong viê ̣c
phát hiê ̣n vùng lòng bàn tay, giảm đươ ̣c ảnh hưởng của nề n phức ta ̣p, thay đổ i. Các
tác giả cũng nhâ ̣n xét rằng ta có thể sử du ̣ng phương pháp để phát hiện các bô ̣ phâ ̣n
khác của bàn tay từ đó đưa ra kế t quả phát hiê ̣n bàn tay cuối cùng chính xác hơn.
Hơn nữa, trong [1][2], các tác giả mới chỉ sử du ̣ng đă ̣c trưng Haar-like [3] mà chưa
khai thác thông tin màu da, một trong những thông tin quan tro ̣ng giúp phát hiê ̣n
bàn tay.
Từ những phân tích trên đây, em đã xác định đề tài luâ ̣n văn tha ̣c sỹ của
mình là: “Phân vùng bàn tay dựa trên phát hiện các bộ phận”. Nội dung luận văn
gồm 3 chương:
Mở đầu
Phần mở đầu tập trung phân tích và nêu rõ tính cấp thiết của đề tài, mục tiêu
và đối tượng nghiên cứu của đề tài cũng như giới thiệu lịch sử phát triển của vấn đề
nghiên cứu và trình bày cấu trúc của đề tài.
Chương 1: Tổng quan về bài toán phân vùng bàn tay
Chương đầu tiên sẽ giới thiệu tổng quan về bài toán, các hướng tiếp cận
trong việc phân vùng bàn tay.
Chương 2: Phân vùng bàn tay sử dụng đặc trưng Haar-like
2
Chương này trình bày phương pháp phát hiện đối tượng được đề xuất bởi
Viola và Jones sử dụng đặc trưng Haar-like và mô hình Cascade và việc áp dụng
vào bài toán phân vùng bàn tay.
Chương 3: Phương pháp phát hiện màu da sử dụng cho bài toán phân
vùng bàn tay
Chương này trình bày phương pháp phát hiện màu da, một hướng tiếp cận
cho bài toán phân vùng bàn tay.
Kết Luận
Tóm tắt các kết quả đã đạt được và hướng phát triển tiếp theo của luận văn.
3
CHƯƠNG I
TỔNG QUAN VỀ BÀI TOÁN PHÂN VÙNG BÀN TAY
1.1 Giới thiệu bài toán
Phân vùng bàn tay là một quá trình nhằm mục đích xác định vùng chứa bàn
tay trong ảnh. Đây là bước đầu tiên và quan trọng trong việc nhận dạng cử chỉ tay vì
chất lượng của bước này sẽ ảnh hưởng đến hiệu suất của toàn bộ hệ thống. Tuy
nhiên, phân vùng chính xác bàn tay qua hình ảnh hoặc video vẫn là một vấn đề khó
khăn do sự thay đổi về hình dạng bàn tay và môi trường.
1.2 Một số nghiên cứu liên quan
Trong phần này, tác giả sẽ trình bày một khảo sát về hệ thống nhận dạng
tay. Luận văn này tập trung vào bài toán phân vùng bàn tay trong ngữ cảnh tương
tác người-máy trong môi trường trong nhà. Vì vậy, chúng tôi sẽ khảo sát các nghiên
cứu liên quan đến phát hiện, phân vùng bàn tay phù hợp với môi trường đã nêu.
Luận văn tập trung vào vấn đề trích chọn đặc trưng và biểu diễn bàn tay bởi
vì đây là vấn đề quan trọng trong hệ thống phát hiện, nhận dạng đối tượng. Do đó,
trong phần này tác giả sẽ tập trung vào việc phân tích các phương pháp trích chọn
đặc trưng và biểu diễn bàn tay.
Nhiều đặc trưng đã được đề xuất cho việc phát hiện, phân vùng bàn tay. Căn
cứ vào bản chất của thông tin được phản ánh trong các đặc trưng, tác giả chia các
đặc trưng thành 5 loại: pixel value, shape, topography, context, và motion. Hầu hết
các phương pháp có sự kết hợp sử dụng nhiều hơn một loại đặc trưng. Dưới đây,
chúng tôi sẽ trình bày mô tả ngắn gọn về các đặc trưng này.
1.2.1 Pixel value (intensity/color)
Hầu hết các phương pháp phát hiện tay sử dụng các giá trị điểm ảnh. Giá trị
điểm ảnh có thể là cường độ và/hoặc màu sắc. Nhiều phương pháp sử dụng thông
tin màu sắc để phát hiện các điểm ảnh có màu da trong khi một số phương pháp
khác sử dụng cường độ điểm ảnh để quyết định một điểm ảnh có thuộc vùng tay
hay không. Chúng ta có thể chia các đặc trưng dựa trên giá trị điểm ảnh thành hai
loại chính: chỉ dựa trên giá trị điểm ảnh (Individual pixel) và dựa trên mối quan hệ
4
giữa các điểm ảnh (Relationship between pixels or regions). Loại thứ nhất chỉ dựa
trên giá trị của bản thân các điểm ảnh. Hướng tiếp cận này thường dùng trong các
phương pháp phát hiện điểm ảnh thuộc vùng bàn tay dựa trên màu da. Trong khi đó,
hướng tiếp cận thứ hai sử dụng mối quan hệ giữa các điểm ảnh hoặc giữa các vùng.
(i) Chỉ dựa trên giá trị điểm ảnh (Individual pixel)
Trong loại đầu tiên, giá trị của mỗi điểm ảnh trong ảnh được kết hợp với một
mô hình màu da hoặc một tiêu chí để xác định đó có phải là điểm ảnh thuộc vùng da
hay không. Màu da thường được sử dụng trong việc phát hiện, phân vùng bàn
tay. Tuy nhiên, chỉ sử dụng màu da sẽ không đủ vì các ảnh hưởng của phông nền và
ánh sáng (xem hình minh họa 1.1). Vì lý do này, các phương pháp phát hiện, phân
vùng bàn tay dựa trên màu da thường sử dụng thêm các thông tin ngữ cảnh như
khuôn mặt và các bộ phận khác của người. Tiếp theo, tác giả sẽ giới thiệu chi tiết
một số nghiên cứu tiêu biểu thuộc loại này.
Hình 1.1: Sự thay đổi màu da trong các điều kiện ánh sáng khác nhau
Một số phương pháp chỉ sử dụng màu da trong bước phát hiện tay:
Zhu và các cộng sự [4] đề xuất một cách để xác định bàn tay trong trường
hợp camera đeo trên người. Đối với mỗi ảnh, một mô hình màu tay và một mô hình
màu nền được tạo ra sử dụng GMM (Gaussian Mixture Model) với các thuật toán
EM. Sau đó, mỗi điểm ảnh được phân thành điểm ảnh tay hoặc nền dựa vào các mô
hình đã có. Phương pháp này dựa trên giả thiết rằng màu tay trong ảnh đưa ra là phù
hợp để có thể được mô hình hóa bởi một phân phối Gaussian. Một điều kiện tiên
quyết quan trọng là một số vị trí có xu hướng xuất hiện bàn tay với xác suất cao
được xác định trước. Do đó, màu bàn tay trung bình trong một ảnh có thể được ước
5
tính một cách đáng tin cậy. Tuy nhiên, trên thực tế, trong nhiều ứng dụng (ví dụ như
tương tác với robot trong môi trường thực tế), người sử dụng đứng xa máy ảnh; do
đó những ràng buộc trên là không thỏa mãn.
Stergiopoulou và các cộng sự [5] áp dụng một kỹ thuật phân phân vùng màu
dựa trên một thủ tục lọc màu da trong không gian màu YCbCr. Tuy nhiên, những
ảnh đầu vào sử dụng trong nghiên cứu này là những ảnh đơn giản, chỉ chứa bàn tay
trong một nền đồng nhất.
Để nâng cao độ chính xác của việc phân vùng bàn tay, nhiều đặc trưng được
bổ sung kết hợp với màu da. Trong nhiều nghiên cứu, các đặc trưng phản ánh mối
quan hệ giữa các điểm ảnh được sử dụng kết hợp với màu da [6].
(ii) Mối quan hệ giữa các pixel hoặc vùng (Relationship between pixels
or regions)
Khác với cách tiếp cận thứ nhất (Individual pixel), các phương pháp trong
hướng tiếp cận thứ hai sử dụng các đặc trưng phản ánh mối quan hệ giữa các điểm
ảnh/vùng hoặc thông tin thống kê. Một số đặc trưng thuộc loại này là đặc trưng
Local Binary Pattern (LBP), Histogram of Gradient (HOG), Scale Invariant Feature
Transform (SIFT) và Haar-like.
Trong [6], Francke và cộng sự kết hợp đặc trưng Haar và mLBP với mô hình
da thích nghi được xây dựng từ vùng mặt để phát hiện tay trước khi theo dõi. Wang
và cộng sự sử dụng các đặc trưng SIFT chung của các hình trạng bàn tay khác nhau
để phát hiện tay. Đặc trưng HOG cũng thường được sử dụng trong phát hiện bàn tay
[7]. Mittal và cộng sự đề xuất một phương pháp phân vùng bàn tay sử dụng hướng
tiếp cận kết hợp nhiều phương pháp. Trong hướng tiếp cận này, các mô hình có thể
biến dạng (deformable models) dựa trên đặc trưng HOG được sử dụng để phát hiện
bàn tay và phần cuối của cánh tay (cổ tay). Trong [7], trên vùng màu da đã được
phân vùng, vùng bàn tay được xác định dựa trên đặc trưng HOG và cấu trúc phân
tầng của các bộ phân lớp AdaBoosted (Cascades of AdaBoosted classifiers).
Trong [6] một bộ phát hiện đã được thực hiện bằng cách sử dụng cấu trúc
phân tầng của các bộ phân loại để phát hiện tay trong các blob màu da. Các tác giả
nhận xét rằng mặc dù các bộ phát hiện sử dụng cấu trúc phân tầng của các bộ phân
6
loại mạnh cho phép phát hiện hiệu quả khuôn mặt hoặc xe hơi, chúng ta không thể
xây dựng một bộ phát hiện hiệu quả để phát hiện tay chung chung. Lý do: (i) tay là
đối tượng phức tạp, có khả năng biến dạng cao, (ii) tay có thể có nhiều hình trạng
thay đổi khác nhau, (iii) trong môi trường thực tế thì nền là thay đổi và phức tạp. Do
đó, các tác giả đã thay đổi cách tiếp cận. Đầu tiên cần phát hiện tay sau đó bàn tay
được theo dõi trong các frame liên tiếp. Để phát hiện ra bàn tay, đầu tiên hệ thống
yêu cầu người dùng thực hiện một cử chỉ cụ thể (hình trạng nắm tay). Để xác định
hình trạng nào đang được thực hiện, họ áp dụng một cấu trúc cascade song song của
các bộ phát hiện riêng cho từng hình trạng trên trên các vùng quan tâm (ROI) thu
được từ đầu ra của mô-đun theo dõi. Các tác giả chỉ ra rằng các bộ phát hiện hoạt
động kém hiệu quả trong trường hợp nền phức tạp.
1.2.2 Hình dạng (shape)
Đặc trưng hình dạng đã được sử dụng để phát hiện bàn tay trong ảnh. Đặc
điểm hình dạng thường thu được bằng cách trích chọn các đường bao và cạnh. Choi
và cộng sự [8] đề xuất một phương pháp dựa trên giả định rằng bàn tay và cánh tay
có độ sáng khác nhau do đó các vùng da có màu khác nhau. Trước tiên họ phân chia
khu vực tay, cánh tay từ các vùng da khác nhau dựa trên độ sáng khác nhau. Việc
phân biệt vùng tay và cánh tay được thực hiện bằng cách sử dụng đặc trưng hình
dạng. Họ coi các blob dài là vùng tay-cánh tay. Phương pháp này không thể phát
hiện vùng tay mà không có cánh tay. Ràng buộc này thường không được thảo mãn
trong các ứng dụng thực tế. Việc phát hiện tay từ vùng tay-cánh tay được thực hiện
bằng cách tìm ra một điểm đặc trưng cho cổ tay.
Chúng ta có thể nhận xét rằng nếu chúng ta có thể phát hiện đường bao một
cách chính xác thì đường bao sẽ biểu diễn tốt hình dạng bàn tay. Tuy nhiên, trong
môi trường thực tế việc tìm đường bao của vùng bàn tay vẫn là một thách thức.
1.2.3 Topography
Đặc trưng topography của bàn tay là các blob, ngón tay, cổ tay, lòng bàn tay.
Một số phương pháp sử dụng các đặc trưng topography bổ sung để quyết định một
vùng da có phải là khu vùng bàn tay hay không. Le và cộng sự [9] xác định được lòng
bàn tay và các vị trí đầu ngón tay dựa trên hình ảnh DT (distance transformation
7
image). Phương pháp này yêu cầu phải thực hiện trên một kết quả phân vùng màu da
tốt. Sgouropoulos và cộng sự phát hiện các blob bàn tay từ các vùng da dựa trên kích
thước của blob so với kích thước khuôn mặt. Trong [10], các blob màu và hình dạng
ngón tay được trích chọn từ các vùng da phân đoạn, đặc trưng blob and rigde sẽ được
sử dụng trong việc phát hiện, theo dõi và nhận dạng tay. Một số phương pháp [8] xác
định vùng bàn tay từ vùng tay-cánh tay bằng cách phát hiện các đặc trưng cổ tay.
1.2.4 Ngữ cảnh (Context)
Thông tin ngữ cảnh được sử dụng trong một số nghiên cứu. Chúng thường
kết hợp với các thông tin khác như màu sắc. Marcel và cộng sự xác định nếu một
blob màu da có phải vùng bàn tay hay không dựa vào cửa sổ hoạt động (actived
window). Cửa sổ hoạt động được xác định trong vùng cơ thể-mặt. Mittal và cộng sự
[11] sử dụng một bộ phát hiện dựa trên thông tin ngữ cảnh kết hợp với hai bộ phát
hiện khác (một bộ phát hiện tay dạng cửa sổ trượt và một bộ phát hiện dựa trên da)
để tạo ra một bộ phát hiện tay dựa trên nhiều đề xuất. Trong [12] Dardas và
Georganas đã sử kỹ thuật loại trừ vùng khuôn mặt kết hợp với phát hiện vùng màu
da và đường bao để phát hiện và theo dõi bàn tay trong môi trường nền phức tạp.
1.2.5 Chuyển động (Motion)
Chuyển động là đặc trưng phổ biến trong phát hiện tay. Đặc trưng chuyển
động thường kết hợp với màu da. Triesch và công sự [13] sử dụng kỹ thuật tách
ngưỡng kết hợp với thông tin về màu da để theo dõi và phát hiện tay. YingWu và
cộng sự sử dụng kỹ thuật phân đoạn chuyển động kết hợp màu da để cho kết quả
chính xác hơn. Trong [14], các vùng bàn tay được xác định bằng cách chọn các
vùng màu da có một số lượng lớn các điểm ảnh với các giá trị nhỏ các điểm ảnh
không chuyển động liên tục. Steigiopoulou và cộng sự sử dụng sự kết hợp của các
kỹ thuật hiện có dựa trên phát hiện chuyển động và một bộ phát hiện màu da để
phát hiện tay. Việc phát hiện chuyển động dựa kỹ thuật trừ nền. Cụ thể, người ta
tính toán sự sai khácg giữa ba khung hình liên tiếp để phát hiện sự chuyển động đột
ngột từ đó xác định vùng quan tâm (mROI).
8
1.2.6 Thảo luận
Chúng ta thấy rằng chuyển động là một trong những đặc trưng nổi bật để
phát hiện bàn tay. Tuy nhiên, mục đích của luận văn này là phát hiện bàn tay trong
bài toán nhận dạng cử chỉ tĩnh. Ngoài màu da, đặc trưng topography và các đặc
trưng hình dạng được sử dụng thường xuyên hơn thông tin ngữ cảnh bởi vì chúng
rất hữu ích cho việc phát hiện bàn tay. Tuy nhiên, việc tính toán các đặc trưng của
hình trạng tay vẫn là một thách thức trong môi trường thực tế.
Màu da cũng là một đặc trưng phổ biến để phát hiện tay. Tuy nhiên, trong
hầu hết các hệ thống việc phát hiện màu da tốt là không khả thi vì các điều kiện rất
phức tạp như nền phức tạp và điều kiện chiếu sáng thay đổi khác nhau. Độ chính
xác phụ thuộc nhiều vào đặc điểm của thiết bị thu nhận, điều kiện chiếu sáng và đặc
điểm màu da của người dùng khác nhau [15]. Các tác giả khảo sát nhiều phương
pháp phân đoạn màu da sau đó đưa ra kết luận tương tự.
Để nâng cao kết quả phân đoạn màu da, nhiều phương pháp tiếp cận đã được
sử dụng. Tran và cộng đề xuất phương pháp chuẩn hóa màu da dựa trên mạng
nơron, tuy nhiên chi phí thời gian tính toán quá đắt.
Một cách khác để nâng cao độ chính xác của việc phát hiện bàn tay là kết
hợp màu da với một số đặc trưng bổ sung để tạo ra các bộ phát hiện phức tạp hơn.
Tuy nhiên, phương pháp sử dụng màu da kết hợp với các đặc trưng khác vẫn bị bỏ
sót các điểm ảnh màu da khi các điểm ảnh này không khớp với mô hình da do ảnh
hưởng của các điều kiện phức tạp đã nêu.
Qua khảo sát của tác giả cũng như thông tin trong một nghiên cứu khảo sát
khá đầy đủ gần đây, một trong những đặc trưng phổ biến nhất phản ánh mối quan hệ
giữa các điểm ảnh và các vùng như đặc trưng Haar bởi vì những lợi ích nó mang lại.
Các phương pháp sử dụng phương pháp Viola-Jones dựa trên đặc trưng Haar và
Cascade of AdaBoost classifier cho kết quả tốt do những ưu điểm: bất biến với
scale, điều kiện chiếu sáng và có tốc độ tính toán thời gian thực. Sử dụng phương
pháp Viola-Jones để phát hiện bàn tay trong ngữ cảnh bài toán đặt ra trong luận văn
là một cách tiếp cận có thể thực hiện được. Tuy nhiên, nhược điểm chính của
9
phương pháp này là nó bị ảnh hưởng bởi nền. Trong luận văn này, chúng tôi sẽ cố
gắng điều chỉnh phương pháp, áp dụng thích hợp để vẫn giữ được ưu điểm của
phương pháp Viola-Jones và tránh được những ảnh hưởng của nền. Đồng thời,
chúng tôi sẽ tận dụng, kết hợp ưu điểm của thông tin màu da.
10
- Xem thêm -