Đăng ký Đăng nhập
Trang chủ Giáo dục - Đào tạo Cao đẳng - Đại học Công nghệ thông tin Luận văn phân vùng bàn tay dựa trên phát hiện các bộ phận...

Tài liệu Luận văn phân vùng bàn tay dựa trên phát hiện các bộ phận

.PDF
75
154
68

Mô tả:

ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG NGUYỄN THU HƯƠNG PHÂN VÙNG BÀN TAY DỰA TRÊN PHÁT HIỆN CÁC BỘ PHẬN Chuyên ngành: Khoa học máy tính Mã số: 60 48 01 01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Người hướng dẫn khoa học: TS. NGUYỄN VĂN TẢO THÁI NGUYÊN, 2017 LỜI CẢM ƠN Tác giả xin bày tỏ lòng biết ơn tới các thầy cô giáo Trường Đại học Công nghệ Thông tin và Truyền thông, các thầy cô giáo Viện Công nghệ Thông tin - Viện Hàn lâm Khoa học và Công nghệ Việt Nam đã tạo điều kiện giúp đỡ em trong quá trình học tập và làm luận văn tại Trường. Đặc biệt tác giả xin bày tỏ lòng biết ơn sâu sắc tới TS. Nguyễn Văn Tảo là người đã dìu dắt, định hướng và trực tiếp hướng dẫn cho tác giả trong những năm học cao học và thực hiện luận văn. Cuối cùng, tác giả xin gửi lời cảm ơn đến gia đình, bạn bè vì những tình cảm, sự ủng hộ và động viên đã dành cho tôi trong suốt quá trình học tập cũng như thực hiện luận văn này. Thái Nguyên, tháng 6 năm 2017 Học viên cao học Nguyễn Thu Hương i LỜI CAM ĐOAN Tôi xin cam đoan luận văn này do chính tôi thực hiện, dưới sự hướng dẫn khoa học của TS. Nguyễn Văn Tảo các kết quả lý thuyết được trình bày trong luận văn là sự tổng hợp từ các kết quả đã được công bố và có trích dẫn đầy đủ, kết quả của chương trình thực nghiệm trong luận văn này được tác giả thực hiện hoàn toàn trung thực, nếu sai tôi hoàn toàn chịu trách nhiệm. Thái Nguyên, tháng 6 năm 2017 Học viên Nguyễn Thu Hương ii MỤC LỤC LỜI CẢM ƠN ...................................................................................................... i LỜI CAM ĐOAN ................................................................................................ ii MỤC LỤC ......................................................................................................... iii DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT .......................................... v DANH MỤC CÁC BẢNG .................................................................................. vi DANH MỤC CÁC HÌNH .................................................................................. vii MỞ ĐẦU............................................................................................................ 1 CHƯƠNG I: TỔNG QUAN VỀ BÀI TOÁN PHÂN VÙNG BÀN TAY ............ 4 1.1 Giới thiệu bài toán ....................................................................................... 4 1.2 Một số nghiên cứu liên quan ....................................................................... 4 1.2.1 Pixel value (intensity/color) ..................................................................... 4 1.2.2 Hình dạng (shape) .................................................................................... 7 1.2.3 Topography .............................................................................................. 7 1.2.4 Ngữ cảnh (Context) .................................................................................. 8 1.2.5 Chuyển động (Motion) ............................................................................. 8 1.2.6 Thảo luận .................................................................................................. 9 CHƯƠNG II: PHÂN VÙNG BÀN TAY SỬ DỤNG ĐẶC TRƯNG HAAR-LIKE ................................................................................................... 11 2.1 Giới thiệu ................................................................................................... 11 2.2 Sơ đồ hệ thống phát hiện bàn tay .............................................................. 12 2.3 Trích chọn đặc trưng ................................................................................. 13 2.3.1 Đặc trưng Haar-like................................................................................ 13 2.3.2 Tính toán nhanh các đặc trưng Haar-like sử dụng ảnh tích phân .......... 15 2.3.3 Các đặc trưng Internal ............................................................................ 22 2.3.4 Đặc trưng Internal Haar-like .................................................................. 23 iii 2.4 Phân loại .................................................................................................... 26 2.4.1 Thuật toán Boosting ............................................................................... 27 2.4.2 AdaBoost ................................................................................................ 28 2.4.3 Cấu trúc Cascade của các bộ phân loại .................................................. 31 2.5 Thí nghiệm ................................................................................................ 32 2.5.2 Huấn luyện bộ phát hiện ........................................................................ 38 2.5.3 Kết quả ................................................................................................... 40 2.6 Kết luận ..................................................................................................... 45 CHƯƠNG III: PHƯƠNG PHÁP PHÁT HIỆN MÀU DA SỬ DỤNG CHO BÀI TOÁN PHÂN VÙNG BÀN TAY.............................................................. 46 3.1 Nội dung phương pháp .............................................................................. 46 3.2 Chi tiết các bước........................................................................................ 48 3.2.1 Phát hiện màu da .................................................................................... 48 3.2.2 Công thức màu da .................................................................................. 48 3.2.2.1 Histogram ............................................................................................ 50 3.2.3 Lọc nhiễu ................................................................................................ 53 3.2.4 Xác định các vùng trắng ......................................................................... 54 3.2.5 Phân loại các vùng trắng ........................................................................ 59 3.3. Xây dựng hệ thống và thử nghiệm ........................................................... 61 3.3.1 Mục đích ................................................................................................. 61 3.3.2. Dữ liệu đầu vào ..................................................................................... 61 KẾT LUẬN...................................................................................................... 63 TÀI LIỆU THAM KHẢO ............................................................................... 64 iv DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT Chữ cái viết tắt/cụm từ Tiếng Anh đầy đủ ACRH AIRH Approximate Circumscribed Rectangle’s area of a Hand Approximate Inscribed Rectangle’s area of a Hand GMM Gaussian Mixture Model LBP Local binary pattern RGB Red Green Blue ROI Region Of Interest v DANH MỤC CÁC BẢNG Bảng 2.1: Thuật toán Boosting..................................................................................27 Bảng 2.2: Ý tưởng thuật toán AdaBoost. ..................................................................31 Bảng 2.3: Thông tin về số liệu thu thập ....................................................................34 Bảng 2.4: So sánh các bộ dữ liệu ..............................................................................35 Bảng 2.5: Cấu hình quy trình huấn luyện .................................................................39 Bảng 2.6: Kết quả phát hiện với số lượng các tầng khác nhau .................................41 vi DANH MỤC CÁC HÌNH Hình 1.1: Sự thay đổi màu da trong các điều kiện ánh sáng khác nhau ........... 5 Hình 2.1: (a) Ảnh mẫu khuôn mặt; (b) Một ảnh mẫu bàn tay. ....................... 12 Hình 2.2: Khung phát hiện tay ........................................................................ 12 Hình 2.3: Đặc trưng Haar-like ........................................................................ 14 Hình 2.4: Tập mở rộng các kiểu đặc trưng Haar-like [17] được sử dụng. ..... 15 Hình 2.5: Tập các kiểu đặc trưng Haar-like .................................................... 15 Hình 2.6: Ảnh tích phân (không xoay) ........................................................... 16 Hình 2.7: Tính toán của ảnh tích phân ............................................................ 18 Hình 2.8: Sơ đồ tính toán ảnh tích phân.......................................................... 19 Hình 2.9. Tính toán tổng của các giá trị điểm ảnh bên trong một hình chữ nhật (không xoay) r =(x, y, w, h) .................................................. 20 Hình 2.10: Ảnh tích phân quay nghiêng 45◦. .................................................. 21 Hình 2.11: Sơ đồ tính toán đối với ảnh tích phân xoay nghiêng 45◦. ............. 21 Hình 2.12: Sơ đồ tính toán tổng các điểm ảnh thuộc hình chữ nhật (xoay nghiêng 45◦). ................................................................................. 22 Hình 2.13: (a) Ví dụ về các đặc trưng Haar-like mà không phải là đặc trưng Internal Haar-like. (b) Ví dụ về đặc trưng Internal Haar-like. ...................................................................................... 23 Hình 2.14: Hai ảnh mẫu bàn tay của một hình trạng bàn tay ......................... 24 Hình 2.15: Các ví dụ về đặc trưng Haar-like được trích chọn từ vùng ACRH và đặc trưng Internal Haar-like được trích chọn từ vùng AIRH. ............................................................................................ 24 Hình 2.16: Các ví dụ về đặc trưng Haar-like và Internal Haar-like trích xuất từ vùng ACRH (bên trái) và vùng AIRH (bên phải). ........... 25 Hình 2.17: Ví dụ về các đặc trưng Haar-like cho 3 loại hình trạng ................ 26 vii Hình 2.18. Minh họa thuật toán Boosting ....................................................... 28 Hình 2.19: Thuật toán AdaBoost với số bộ phân loại yếu M = 3. .................. 29 Hình 2.20: Cấu trúc Cascade của các bộ phân loại ......................................... 31 Hình 2.21: Thiết lập cho việc thu thập tập dữ liệu L3i-MICA. ...................... 33 Hình 2.22: Danh sách 21 hình trạng bàn tay trong tập dữ liệu L3i-MICA..... 34 Hình 2.23: Sự đa dạng của màu tay trong bộ dữ liệu MICA-L3i ................... 35 Hình 2.24: Các vùng sáng, tối khác nhau trong vùng bàn tay ........................ 35 Hình 2.25: Độ nghiêng khác nhau của bàn tay khi thực hiện cùng một hình trạng. ..................................................................................... 36 Hình 2.26: Sự đa dạng của Scale, kích thước tay ........................................... 36 Hình 2.27: Ví dụ về nhiều cách thực hiện cùng một hình trạng bàn tay ........ 36 Hình 2.28: Ví dụ về các hình trạng khác nhau nhưng có đặc điểm hình dạng tương tự nhau .................................................................................. 37 Hình 2.29: Số lượng bộ phân loại yếu trong mỗi tầng .................................... 40 Hình 2.30: Tần số xuất hiện các loại đặc trưng Haar-like .............................. 40 Hình 2.31: Biểu đồ kết quả của bộ phát hiện bộ phận trung tâm bàn tay ....... 42 Hình 2.32: Biểu đồ kết quả của bộ phát hiện toàn bộ bàn tay ........................ 42 Hình 2.33: Các đường cong Precision-Recall để so sánh giữa bộ phát hiện bộ phận trung tâm bàn tay và bộ phát hiện toàn bộ bàn tay ............ 43 Hình 2.34: So sánh Precision (độ chính xác) .................................................. 43 Hình 2.35: So sánh về giá trị Recall................................................................ 44 Hình 2.36: So sánh giá trị F-score................................................................... 44 Hình 2.37: Ví dụ về lợi thế và bất lợi của bộ phát hiện bộ phận trung tâm bàn tay ........................................................................................... 45 Hình 3.1: Sơ đồ khối của phương pháp .......................................................... 47 Hình 3.2: Vị trí các khâu trong phương pháp ................................................. 48 Hình 3.3: Sự phân bố các điểm màu da trong không gian YCrCb ................. 49 viii Hình 3.4: Sự phân bố các điểm màu da trong hệ màu HSV ........................... 49 Hình 3.5: Một số bàn tay người được dùng trong tổng hợp histogram màu da ........................................................................................... 51 Hình 3.6: Một số kết quả minh họa trong phát hiện màu da ........................... 52 Hình 3.7: Minh họa phát hiện màu da theo từng tiêu chí. Từ trái sang phải: ảnh vào, ảnh màu da theo công thức, ảnh màu da theo histogram....................................................................................... 52 Hình 3.8: Vị trí của khâu lọc nhiễu trong phương pháp ................................. 53 Hình 3.9: Minh họa kết quả lọc nhiễu ............................................................. 54 Hình 3.10: Vị trí của khâu xác định vùng trắng trong phương pháp .............. 54 Hình 3.11: Vị trí tương đối của 1 điểm trắng so với vùng trắng hiện tại........ 57 Hình 3.12: Vị trí của khâu phân loại vùng trắng trong phương pháp ............. 59 Hình 3.13: Trường hợp phát hiện nhầm nếu không có cận trên của tỉ lệ điểm trắng ..................................................................................... 60 Hình 3.14: Giao diện khi mới khởi động chương trình .................................. 61 Hình 3.15: Vùng bàn tay sau khi đã được phát hiện ....................................... 62 ix MỞ ĐẦU Sự ra đời của máy tính đã giúp ích rất nhiều cho công việc và cuộc sống của con người. Với máy tính, con người có thể soạn thảo văn bản, nghe nhạc, xem phim, thiết kế đồ họa, xử lý ảnh, biên tập phim ... Tuy nhiên, việc giao tiếp giữa con người và máy tính phụ thuộc chủ yếu vào bàn phím và chuột, và hầu như con người luôn phải ngồi trước máy tính. Dần dần, các nhà sản xuất thấy được sự bất tiện và đã tạo ra bàn phím và chuột không dây với mong muốn mang lại sự tự do hơn cho người dùng. Tuy nhiên,với bàn phím không dây thì con người vẫn phải tương tác với máy tính bằng các phím cơ học. Con người chỉ thật sự được thoải mái khi việc tương tác với máy tính được thực hiện thông qua ngôn ngữ cử chỉ và giọng nói. Hơn nữa, ngày nay, công nghệ thực tại ảo đã và đang được phát triển, ứng dụng trong đời sống. Trong môi trường thực tại ảo, việc tương tác một cách tự nhiên thông qua ngôn ngữ, cử chỉ càng trở nên cần thiết. Bên cạnh đó, xu hướng hiện nay là hầu hết các vật dụng, đồ dùng, thiết bị xung quanh ta, trong môi trường sống đều là máy tính và được kết nối với nhau thì việc giao tiếp với các thiết bị một cách tự nhiên, thân thiện, gần với cách giao tiếp giữa người với người trong cuộc sống là một nhu cầu tất yếu. Nhu cầu này đặt ra nhiều bài toán trong đó có bài toán nhận dạng cử chỉ tay. Trong cuộc sống hàng ngày, nhận dạng cử chỉ có thể giúp cho việc giao tiếp giữa người bình thường với người khiếm thính dễ dàng hơn, vì máy tính sẽ chuyển ngôn ngữ cử chỉ thành chữ viết. Trong công nghiệp và sản xuất, chỉ cần trang bị cho các robot hệ thống camera, việc điều khiển robot sẽ trở nên đơn giản hơn bao giờ hết nếu robot có thể hiểu được các cử chỉ của con người. Trong lĩnh vực đồ họa 3 chiều, trong môi trường thực tại ảo, ta có thể dùng tay để tương tác với các đối tượng trong các ứng dụng đồ họa và trong môi trường thực tại ảo. Trong công việc văn phòng, nhận dạng cử chỉ giúp ta có thể yêu cầu máy tính thực thi một chương trình, mở một bài hát, gửi một lá thư... chỉ với một vài cử chỉ ra hiệu từ xa. Trong các ngôi nhà thông minh, ta có thể điều khiển các thiết bị bằng cử chỉ tay như bật tắt 1 đèn, chọn kênh TV. Trong lĩnh vực giải trí, các trò chơi thực tế ảo, người chơi sẽ điều khiển hành động nhân vật bằng chính hành động của mình. Mô ̣t hê ̣ thố ng nhâ ̣n da ̣ng bàn tay thông thường có hai bước chính: phát hiện, theo vế t bàn tay, và nhâ ̣n dạng bàn tay. Trong đó, phát hiện bàn tay là bước đầu tiên, có vai trò quan trọng, ảnh hưởng đế n hiê ̣u năng của hê ̣ thố ng. Việc phát hiện được bàn tay trong thế giới thực là mô ̣t nhiê ̣m vụ khó khăn. Nhiều phương pháp đã đươ ̣c đề xuấ t để giải quyết bài toán như sử dụng template matching, neuron network. Tuy nhiên, mỗi phương pháp hiện có vẫn còn những ha ̣n chế trong viê ̣c giải quyế t các thách thức của bài toán như phông nề n phức ta ̣p, thay đổ i, điều kiê ̣n chiế u sáng thay đổ i. Gần đây, mô ̣t phương pháp phát hiện bàn tay sử du ̣ng đă ̣c trưng Haar-like [1][2] đã đươ ̣c đề xuấ t. Theo [1][2], phương pháp này có nhiề u ưu điể m trong viê ̣c phát hiê ̣n vùng lòng bàn tay, giảm đươ ̣c ảnh hưởng của nề n phức ta ̣p, thay đổ i. Các tác giả cũng nhâ ̣n xét rằng ta có thể sử du ̣ng phương pháp để phát hiện các bô ̣ phâ ̣n khác của bàn tay từ đó đưa ra kế t quả phát hiê ̣n bàn tay cuối cùng chính xác hơn. Hơn nữa, trong [1][2], các tác giả mới chỉ sử du ̣ng đă ̣c trưng Haar-like [3] mà chưa khai thác thông tin màu da, một trong những thông tin quan tro ̣ng giúp phát hiê ̣n bàn tay. Từ những phân tích trên đây, em đã xác định đề tài luâ ̣n văn tha ̣c sỹ của mình là: “Phân vùng bàn tay dựa trên phát hiện các bộ phận”. Nội dung luận văn gồm 3 chương: Mở đầu Phần mở đầu tập trung phân tích và nêu rõ tính cấp thiết của đề tài, mục tiêu và đối tượng nghiên cứu của đề tài cũng như giới thiệu lịch sử phát triển của vấn đề nghiên cứu và trình bày cấu trúc của đề tài. Chương 1: Tổng quan về bài toán phân vùng bàn tay Chương đầu tiên sẽ giới thiệu tổng quan về bài toán, các hướng tiếp cận trong việc phân vùng bàn tay. Chương 2: Phân vùng bàn tay sử dụng đặc trưng Haar-like 2 Chương này trình bày phương pháp phát hiện đối tượng được đề xuất bởi Viola và Jones sử dụng đặc trưng Haar-like và mô hình Cascade và việc áp dụng vào bài toán phân vùng bàn tay. Chương 3: Phương pháp phát hiện màu da sử dụng cho bài toán phân vùng bàn tay Chương này trình bày phương pháp phát hiện màu da, một hướng tiếp cận cho bài toán phân vùng bàn tay. Kết Luận Tóm tắt các kết quả đã đạt được và hướng phát triển tiếp theo của luận văn. 3 CHƯƠNG I TỔNG QUAN VỀ BÀI TOÁN PHÂN VÙNG BÀN TAY 1.1 Giới thiệu bài toán Phân vùng bàn tay là một quá trình nhằm mục đích xác định vùng chứa bàn tay trong ảnh. Đây là bước đầu tiên và quan trọng trong việc nhận dạng cử chỉ tay vì chất lượng của bước này sẽ ảnh hưởng đến hiệu suất của toàn bộ hệ thống. Tuy nhiên, phân vùng chính xác bàn tay qua hình ảnh hoặc video vẫn là một vấn đề khó khăn do sự thay đổi về hình dạng bàn tay và môi trường. 1.2 Một số nghiên cứu liên quan Trong phần này, tác giả sẽ trình bày một khảo sát về hệ thống nhận dạng tay. Luận văn này tập trung vào bài toán phân vùng bàn tay trong ngữ cảnh tương tác người-máy trong môi trường trong nhà. Vì vậy, chúng tôi sẽ khảo sát các nghiên cứu liên quan đến phát hiện, phân vùng bàn tay phù hợp với môi trường đã nêu. Luận văn tập trung vào vấn đề trích chọn đặc trưng và biểu diễn bàn tay bởi vì đây là vấn đề quan trọng trong hệ thống phát hiện, nhận dạng đối tượng. Do đó, trong phần này tác giả sẽ tập trung vào việc phân tích các phương pháp trích chọn đặc trưng và biểu diễn bàn tay. Nhiều đặc trưng đã được đề xuất cho việc phát hiện, phân vùng bàn tay. Căn cứ vào bản chất của thông tin được phản ánh trong các đặc trưng, tác giả chia các đặc trưng thành 5 loại: pixel value, shape, topography, context, và motion. Hầu hết các phương pháp có sự kết hợp sử dụng nhiều hơn một loại đặc trưng. Dưới đây, chúng tôi sẽ trình bày mô tả ngắn gọn về các đặc trưng này. 1.2.1 Pixel value (intensity/color) Hầu hết các phương pháp phát hiện tay sử dụng các giá trị điểm ảnh. Giá trị điểm ảnh có thể là cường độ và/hoặc màu sắc. Nhiều phương pháp sử dụng thông tin màu sắc để phát hiện các điểm ảnh có màu da trong khi một số phương pháp khác sử dụng cường độ điểm ảnh để quyết định một điểm ảnh có thuộc vùng tay hay không. Chúng ta có thể chia các đặc trưng dựa trên giá trị điểm ảnh thành hai loại chính: chỉ dựa trên giá trị điểm ảnh (Individual pixel) và dựa trên mối quan hệ 4 giữa các điểm ảnh (Relationship between pixels or regions). Loại thứ nhất chỉ dựa trên giá trị của bản thân các điểm ảnh. Hướng tiếp cận này thường dùng trong các phương pháp phát hiện điểm ảnh thuộc vùng bàn tay dựa trên màu da. Trong khi đó, hướng tiếp cận thứ hai sử dụng mối quan hệ giữa các điểm ảnh hoặc giữa các vùng. (i) Chỉ dựa trên giá trị điểm ảnh (Individual pixel) Trong loại đầu tiên, giá trị của mỗi điểm ảnh trong ảnh được kết hợp với một mô hình màu da hoặc một tiêu chí để xác định đó có phải là điểm ảnh thuộc vùng da hay không. Màu da thường được sử dụng trong việc phát hiện, phân vùng bàn tay. Tuy nhiên, chỉ sử dụng màu da sẽ không đủ vì các ảnh hưởng của phông nền và ánh sáng (xem hình minh họa 1.1). Vì lý do này, các phương pháp phát hiện, phân vùng bàn tay dựa trên màu da thường sử dụng thêm các thông tin ngữ cảnh như khuôn mặt và các bộ phận khác của người. Tiếp theo, tác giả sẽ giới thiệu chi tiết một số nghiên cứu tiêu biểu thuộc loại này. Hình 1.1: Sự thay đổi màu da trong các điều kiện ánh sáng khác nhau Một số phương pháp chỉ sử dụng màu da trong bước phát hiện tay: Zhu và các cộng sự [4] đề xuất một cách để xác định bàn tay trong trường hợp camera đeo trên người. Đối với mỗi ảnh, một mô hình màu tay và một mô hình màu nền được tạo ra sử dụng GMM (Gaussian Mixture Model) với các thuật toán EM. Sau đó, mỗi điểm ảnh được phân thành điểm ảnh tay hoặc nền dựa vào các mô hình đã có. Phương pháp này dựa trên giả thiết rằng màu tay trong ảnh đưa ra là phù hợp để có thể được mô hình hóa bởi một phân phối Gaussian. Một điều kiện tiên quyết quan trọng là một số vị trí có xu hướng xuất hiện bàn tay với xác suất cao được xác định trước. Do đó, màu bàn tay trung bình trong một ảnh có thể được ước 5 tính một cách đáng tin cậy. Tuy nhiên, trên thực tế, trong nhiều ứng dụng (ví dụ như tương tác với robot trong môi trường thực tế), người sử dụng đứng xa máy ảnh; do đó những ràng buộc trên là không thỏa mãn. Stergiopoulou và các cộng sự [5] áp dụng một kỹ thuật phân phân vùng màu dựa trên một thủ tục lọc màu da trong không gian màu YCbCr. Tuy nhiên, những ảnh đầu vào sử dụng trong nghiên cứu này là những ảnh đơn giản, chỉ chứa bàn tay trong một nền đồng nhất. Để nâng cao độ chính xác của việc phân vùng bàn tay, nhiều đặc trưng được bổ sung kết hợp với màu da. Trong nhiều nghiên cứu, các đặc trưng phản ánh mối quan hệ giữa các điểm ảnh được sử dụng kết hợp với màu da [6]. (ii) Mối quan hệ giữa các pixel hoặc vùng (Relationship between pixels or regions) Khác với cách tiếp cận thứ nhất (Individual pixel), các phương pháp trong hướng tiếp cận thứ hai sử dụng các đặc trưng phản ánh mối quan hệ giữa các điểm ảnh/vùng hoặc thông tin thống kê. Một số đặc trưng thuộc loại này là đặc trưng Local Binary Pattern (LBP), Histogram of Gradient (HOG), Scale Invariant Feature Transform (SIFT) và Haar-like. Trong [6], Francke và cộng sự kết hợp đặc trưng Haar và mLBP với mô hình da thích nghi được xây dựng từ vùng mặt để phát hiện tay trước khi theo dõi. Wang và cộng sự sử dụng các đặc trưng SIFT chung của các hình trạng bàn tay khác nhau để phát hiện tay. Đặc trưng HOG cũng thường được sử dụng trong phát hiện bàn tay [7]. Mittal và cộng sự đề xuất một phương pháp phân vùng bàn tay sử dụng hướng tiếp cận kết hợp nhiều phương pháp. Trong hướng tiếp cận này, các mô hình có thể biến dạng (deformable models) dựa trên đặc trưng HOG được sử dụng để phát hiện bàn tay và phần cuối của cánh tay (cổ tay). Trong [7], trên vùng màu da đã được phân vùng, vùng bàn tay được xác định dựa trên đặc trưng HOG và cấu trúc phân tầng của các bộ phân lớp AdaBoosted (Cascades of AdaBoosted classifiers). Trong [6] một bộ phát hiện đã được thực hiện bằng cách sử dụng cấu trúc phân tầng của các bộ phân loại để phát hiện tay trong các blob màu da. Các tác giả nhận xét rằng mặc dù các bộ phát hiện sử dụng cấu trúc phân tầng của các bộ phân 6 loại mạnh cho phép phát hiện hiệu quả khuôn mặt hoặc xe hơi, chúng ta không thể xây dựng một bộ phát hiện hiệu quả để phát hiện tay chung chung. Lý do: (i) tay là đối tượng phức tạp, có khả năng biến dạng cao, (ii) tay có thể có nhiều hình trạng thay đổi khác nhau, (iii) trong môi trường thực tế thì nền là thay đổi và phức tạp. Do đó, các tác giả đã thay đổi cách tiếp cận. Đầu tiên cần phát hiện tay sau đó bàn tay được theo dõi trong các frame liên tiếp. Để phát hiện ra bàn tay, đầu tiên hệ thống yêu cầu người dùng thực hiện một cử chỉ cụ thể (hình trạng nắm tay). Để xác định hình trạng nào đang được thực hiện, họ áp dụng một cấu trúc cascade song song của các bộ phát hiện riêng cho từng hình trạng trên trên các vùng quan tâm (ROI) thu được từ đầu ra của mô-đun theo dõi. Các tác giả chỉ ra rằng các bộ phát hiện hoạt động kém hiệu quả trong trường hợp nền phức tạp. 1.2.2 Hình dạng (shape) Đặc trưng hình dạng đã được sử dụng để phát hiện bàn tay trong ảnh. Đặc điểm hình dạng thường thu được bằng cách trích chọn các đường bao và cạnh. Choi và cộng sự [8] đề xuất một phương pháp dựa trên giả định rằng bàn tay và cánh tay có độ sáng khác nhau do đó các vùng da có màu khác nhau. Trước tiên họ phân chia khu vực tay, cánh tay từ các vùng da khác nhau dựa trên độ sáng khác nhau. Việc phân biệt vùng tay và cánh tay được thực hiện bằng cách sử dụng đặc trưng hình dạng. Họ coi các blob dài là vùng tay-cánh tay. Phương pháp này không thể phát hiện vùng tay mà không có cánh tay. Ràng buộc này thường không được thảo mãn trong các ứng dụng thực tế. Việc phát hiện tay từ vùng tay-cánh tay được thực hiện bằng cách tìm ra một điểm đặc trưng cho cổ tay. Chúng ta có thể nhận xét rằng nếu chúng ta có thể phát hiện đường bao một cách chính xác thì đường bao sẽ biểu diễn tốt hình dạng bàn tay. Tuy nhiên, trong môi trường thực tế việc tìm đường bao của vùng bàn tay vẫn là một thách thức. 1.2.3 Topography Đặc trưng topography của bàn tay là các blob, ngón tay, cổ tay, lòng bàn tay. Một số phương pháp sử dụng các đặc trưng topography bổ sung để quyết định một vùng da có phải là khu vùng bàn tay hay không. Le và cộng sự [9] xác định được lòng bàn tay và các vị trí đầu ngón tay dựa trên hình ảnh DT (distance transformation 7 image). Phương pháp này yêu cầu phải thực hiện trên một kết quả phân vùng màu da tốt. Sgouropoulos và cộng sự phát hiện các blob bàn tay từ các vùng da dựa trên kích thước của blob so với kích thước khuôn mặt. Trong [10], các blob màu và hình dạng ngón tay được trích chọn từ các vùng da phân đoạn, đặc trưng blob and rigde sẽ được sử dụng trong việc phát hiện, theo dõi và nhận dạng tay. Một số phương pháp [8] xác định vùng bàn tay từ vùng tay-cánh tay bằng cách phát hiện các đặc trưng cổ tay. 1.2.4 Ngữ cảnh (Context) Thông tin ngữ cảnh được sử dụng trong một số nghiên cứu. Chúng thường kết hợp với các thông tin khác như màu sắc. Marcel và cộng sự xác định nếu một blob màu da có phải vùng bàn tay hay không dựa vào cửa sổ hoạt động (actived window). Cửa sổ hoạt động được xác định trong vùng cơ thể-mặt. Mittal và cộng sự [11] sử dụng một bộ phát hiện dựa trên thông tin ngữ cảnh kết hợp với hai bộ phát hiện khác (một bộ phát hiện tay dạng cửa sổ trượt và một bộ phát hiện dựa trên da) để tạo ra một bộ phát hiện tay dựa trên nhiều đề xuất. Trong [12] Dardas và Georganas đã sử kỹ thuật loại trừ vùng khuôn mặt kết hợp với phát hiện vùng màu da và đường bao để phát hiện và theo dõi bàn tay trong môi trường nền phức tạp. 1.2.5 Chuyển động (Motion) Chuyển động là đặc trưng phổ biến trong phát hiện tay. Đặc trưng chuyển động thường kết hợp với màu da. Triesch và công sự [13] sử dụng kỹ thuật tách ngưỡng kết hợp với thông tin về màu da để theo dõi và phát hiện tay. YingWu và cộng sự sử dụng kỹ thuật phân đoạn chuyển động kết hợp màu da để cho kết quả chính xác hơn. Trong [14], các vùng bàn tay được xác định bằng cách chọn các vùng màu da có một số lượng lớn các điểm ảnh với các giá trị nhỏ các điểm ảnh không chuyển động liên tục. Steigiopoulou và cộng sự sử dụng sự kết hợp của các kỹ thuật hiện có dựa trên phát hiện chuyển động và một bộ phát hiện màu da để phát hiện tay. Việc phát hiện chuyển động dựa kỹ thuật trừ nền. Cụ thể, người ta tính toán sự sai khácg giữa ba khung hình liên tiếp để phát hiện sự chuyển động đột ngột từ đó xác định vùng quan tâm (mROI). 8 1.2.6 Thảo luận Chúng ta thấy rằng chuyển động là một trong những đặc trưng nổi bật để phát hiện bàn tay. Tuy nhiên, mục đích của luận văn này là phát hiện bàn tay trong bài toán nhận dạng cử chỉ tĩnh. Ngoài màu da, đặc trưng topography và các đặc trưng hình dạng được sử dụng thường xuyên hơn thông tin ngữ cảnh bởi vì chúng rất hữu ích cho việc phát hiện bàn tay. Tuy nhiên, việc tính toán các đặc trưng của hình trạng tay vẫn là một thách thức trong môi trường thực tế. Màu da cũng là một đặc trưng phổ biến để phát hiện tay. Tuy nhiên, trong hầu hết các hệ thống việc phát hiện màu da tốt là không khả thi vì các điều kiện rất phức tạp như nền phức tạp và điều kiện chiếu sáng thay đổi khác nhau. Độ chính xác phụ thuộc nhiều vào đặc điểm của thiết bị thu nhận, điều kiện chiếu sáng và đặc điểm màu da của người dùng khác nhau [15]. Các tác giả khảo sát nhiều phương pháp phân đoạn màu da sau đó đưa ra kết luận tương tự. Để nâng cao kết quả phân đoạn màu da, nhiều phương pháp tiếp cận đã được sử dụng. Tran và cộng đề xuất phương pháp chuẩn hóa màu da dựa trên mạng nơron, tuy nhiên chi phí thời gian tính toán quá đắt. Một cách khác để nâng cao độ chính xác của việc phát hiện bàn tay là kết hợp màu da với một số đặc trưng bổ sung để tạo ra các bộ phát hiện phức tạp hơn. Tuy nhiên, phương pháp sử dụng màu da kết hợp với các đặc trưng khác vẫn bị bỏ sót các điểm ảnh màu da khi các điểm ảnh này không khớp với mô hình da do ảnh hưởng của các điều kiện phức tạp đã nêu. Qua khảo sát của tác giả cũng như thông tin trong một nghiên cứu khảo sát khá đầy đủ gần đây, một trong những đặc trưng phổ biến nhất phản ánh mối quan hệ giữa các điểm ảnh và các vùng như đặc trưng Haar bởi vì những lợi ích nó mang lại. Các phương pháp sử dụng phương pháp Viola-Jones dựa trên đặc trưng Haar và Cascade of AdaBoost classifier cho kết quả tốt do những ưu điểm: bất biến với scale, điều kiện chiếu sáng và có tốc độ tính toán thời gian thực. Sử dụng phương pháp Viola-Jones để phát hiện bàn tay trong ngữ cảnh bài toán đặt ra trong luận văn là một cách tiếp cận có thể thực hiện được. Tuy nhiên, nhược điểm chính của 9 phương pháp này là nó bị ảnh hưởng bởi nền. Trong luận văn này, chúng tôi sẽ cố gắng điều chỉnh phương pháp, áp dụng thích hợp để vẫn giữ được ưu điểm của phương pháp Viola-Jones và tránh được những ảnh hưởng của nền. Đồng thời, chúng tôi sẽ tận dụng, kết hợp ưu điểm của thông tin màu da. 10
- Xem thêm -

Tài liệu liên quan