i
ĐẠI HỌC THÁI NGUYÊN
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
NGUYỄN KHÁNH TÙNG
PHƢƠNG PHÁP NHẬN DIỆN MẪU SỬ DỤNG
MÔ HÌNH TÚI TỪ VÀ MẠNG NEURAL
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
Thái Nguyên, tháng 06 năm 2016
Số hóa bởi Trung tâm Học liệu – ĐHTN
http://www.lrc.tnu.edu.vn
ii
ĐẠI HỌC THÁI NGUYÊN
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
NGUYỄN KHÁNH TÙNG
PHƢƠNG PHÁP NHẬN DIỆN MẪU SỬ DỤNG
MÔ HÌNH TÚI TỪ VÀ MẠNG NEURAL
Chuyên ngành: Khoa học máy tính
Mã số: 60 48 01 01
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
Ngƣời hƣớng dẫn khoa học
TS. Nguyễn Toàn Thắng
Thái Nguyên, tháng 06 năm 2016
Số hóa bởi Trung tâm Học liệu – ĐHTN
http://www.lrc.tnu.edu.vn
iii
LỜI CAM ĐOAN
Tên tôi là Nguyễn Khánh Tùng, học viên cao học lớp 13 C niên khóa
2014- 2016, chuyên nghành Khoa học máy tính. Tôi xin cam đoan luận văn
thạc sĩ: Phƣơng pháp nhận diện mẫu sử dụng mô hình túi từ và mạng
Neural của tự bản thân tôi tìm hiểu, nghiên cứu dƣới sự hƣớng dẫn của TS.
Nguyễn Toàn Thắng. Các chƣơng trình thực nghiệm do chính bản thân tôi lập
trình, các kết quả là hoàn toàn trung thực. Các tài liệu tham khảo đƣợc trích
dẫn và chú thích đầy đủ.
TÁC GIẢ LUẬN VĂN
Nguyễn Khánh Tùng
Số hóa bởi Trung tâm Học liệu – ĐHTN
http://www.lrc.tnu.edu.vn
iv
LỜI CẢM ƠN
Để hoàn thành luận văn này tôi đƣợc rất nhiều sự động viên giúp đỡ
của các cá nhân tập thể.
Trƣớc hết, cho tôi xin đƣợc bày tỏ lòng biết ơn sâu sắc nhất đến TS
Nguyễn Toàn Thắng đã hƣớng dẫn tôi thực hiện đề tài nghiên cứu của mình.
Xin cùng bày tỏ lòng biết ơn chân thành tới các thầy, cô giáo ngƣời đã
đem lại cho tôi những kiến thức vô cùng quý giá, có ích trong những năm học
vừa qua.
Cảm ơn Trung tâm HN&GDTX Thị xã Đông Triều đã hết sức tạo điều
kiện cho tôi trong suốt quá trình học tập.
Cùng xin gửi lời cảm ơn chân thành tới Ban giám hiệu, Phòng Đào tạo,
Khoa sau đại học, Đại học Công nghệ thông tin và Truyền thông Thái Nguyên
đã tạo điều kiện cho tôi trong quá trình học tập và nghiên cứu.
Cuối cùng tôi xin gửi lời cảm ơn đến gia đình, bạn bè đồng nghiệp, tập thể
lớp Khoa học máy tính K13 C Quảng Ninh, những ngƣời đã luôn bên tôi, động
viên và khuyến khích tôi trong quá trình thực hiện đề tài nghiên cứu của mình.
HỌC VIÊN
Nguyễn Khánh Tùng
Số hóa bởi Trung tâm Học liệu – ĐHTN
http://www.lrc.tnu.edu.vn
v
MỤC LỤC
LỜI CAM ĐOAN ........................................................................................................ i
LỜI CẢM ƠN ............................................................................................................ iv
MỤC LỤC ................................................................................................................... v
DANH MỤC CÁC BẢNG........................................................................................vii
DANH MỤC CÁC HÌNH ....................................................................................... viii
MỞ ĐẦU ..................................................................................................................... 1
CHƢƠNG 1. TỔNG QUAN ....................................................................................... 5
1.1. Khảo sát một số công trình đã đƣợc công bố về nhận diện bàn tay ................ 5
1.2.Trích chọn đặc trƣng ....................................................................................... 10
1.2.1. Đặt vấn đề ............................................................................................... 10
1.2.2. Đặc trƣng màu sắc .................................................................................. 11
1.2.3. Đặc trƣng kết cấu .................................................................................... 12
1.2.4. Đặc trƣng hình dạng ............................................................................... 13
1.2.5. Đặc trƣng cục bộ bất biến ....................................................................... 14
1.3. Phân lớp dữ liệu và mạng neuron .................................................................. 18
1.3.1. Phân lớp dữ liệu ...................................................................................... 18
1.3.2. Các vấn đề liên quan đến phân lớp dữ liệu............................................. 21
1.3.3. Mạng neuron ........................................................................................... 22
CHƢƠNG 2. TRÌNH BÀY SỬ DỤNG MÔ HÌNH TÚI TỪ ĐỂ XÂY DỰNG BỘ 29
MÔ TẢ CHO VẬT THỂ VÀ THUẬT TOÁN NHẬN DIỆN VẬT THỂ VỚI
MẠNG NEURON ..................................................................................................... 29
2.1. Mô hình túi từ trong phân lớp văn bản .......................................................... 29
2.2. Ý tƣởng và Thuật toán .................................................................................. 31
2.3. Diễn giải chi tiết thuật toán ........................................................................... 35
2.3.1. Trích chọn và mô tả đặc trƣng với SURF .............................................. 35
2.3.2. Phân cụm đặc trƣng SURF và sinh từ điển ............................................ 37
2.3.3.Tạo loại mô tả vật thể mới dựa trên SURF và từ điển để dùng cho mạng
neuron ........................................................................................................................ 40
Số hóa bởi Trung tâm Học liệu – ĐHTN
http://www.lrc.tnu.edu.vn
vi
2.3.4. Huấn luyện và phân lớp với mạng neuron ............................................. 42
CHƢƠNG 3. XÂY DỰNG CHƢƠNG TRÌNH THỬ NGHIỆM ............................. 44
3.1. Các lớp xây dựng chƣơng trình ..................................................................... 44
3.2. Chƣơng trình «Hand Recognitor» ................................................................. 49
CHƢƠNG 4. THỬ NGHIỆM THUẬT TOÁN VÀ PHÂN TÍCH KẾT QUẢ ......... 60
4.1. Thử nghiệm với các bộ dữ liệu tự tạo ............................................................ 60
4.1.1. Giai đoạn sinh từ điển và huấn luyện ..................................................... 60
4.1.2. Test với bộ dữ liệu chứa các ảnh với nền đơn giản ở nhiều góc nghiêng
và khoảng cách khác nhau ................................................................................ 63
4.1.3. Test với bộ dữ liệu chứa các ảnh có nhiễu ............................................. 67
4.1.4. Test với bộ dữ liệu chứa ảnh bị nhiễu nặng ........................................... 69
4.1.5. Kết luận................................................................................................... 70
4.2. Thử nghiệm với một số bộ dữ liệu mở .......................................................... 71
4.2.1. Thử nghiệm với bộ dữ liệu của Sebastien Marcel .................................. 71
4.2.2. Test với bộ dữ liệu của Đại học Cambridge ........................................... 73
KẾT LUẬN ............................................................................................................... 76
TÀI LIỆU THAM KHẢO ......................................................................................... 77
Số hóa bởi Trung tâm Học liệu – ĐHTN
http://www.lrc.tnu.edu.vn
vii
DANH MỤC CÁC BẢNG
Số bảng
Tên bảng
Trang
Bảng 3.1 Mô tả các lớp để xây dựng mạng neuron ........................................ 45
Bảng 3.2 Mô tả các lớp của module SURF..................................................... 46
Bảng 3.3 Mô tả một số lớp thuộc module sinh từ điển ................................... 47
Bảng 4.1. Một số kết quả phân tích số lƣợng đặc trƣng với các giá trị khác
nhau của ngƣỡng Hessian. .............................................................................. 62
Bảng4.2. Kết quả test với các bộ dữ liệu hình có kích thƣớc khác nhau ........ 65
Bảng 4.3. Kết quả test với bộ dữ liệu ảnh có nhiễu nhẹ ................................. 68
Bảng 4.4. Kết quả test với bộ dữ liệu có nhiễu ............................................... 70
Bảng 4.5. Kết quả test với bộ dữ liệu Sebastien Marcel ................................. 72
Bảng 4.6. Kết quả thử nghiệm của mô hình CGM.......................................... 73
Bảng. 4.7. Kết quả thử nghiệm với bộ dữ liệu của Đại học Cambridge ......... 75
Số hóa bởi Trung tâm Học liệu – ĐHTN
http://www.lrc.tnu.edu.vn
viii
DANH MỤC CÁC HÌNH
Số hình
Tên hình
Trang
Hình 1.1 Găng tay có gắn thiết bị trong HCI .................................................... 6
Hình 1.2. Mô hình bàn tay với 27 DOF do Tomasi xây dựng và nguyên tắc
hoạt động của các phƣơng pháp dựa trên mô hình 3D ..................................... 7
Hình 1.3. Nhận diện bàn tay dựa trên đƣờng biên ............................................ 8
Hình 1.4. Đặc trƣng Haar và AdaBoost ............................................................ 9
Hình 1.5 Biểu đồ mô phỏng việc tính toán các DoG ảnh từ các ảnh kê mờ ... 16
Hình 1.6 Quá trình lựa chọn các điểm hấp dẫn ............................................... 17
Hình 1.7 Biểu diễn vector đặc trƣng ............................................................... 18
Hình 1.8.cấu trúc cơ bản của một neuron ....................................................... 23
Hình 1.9 Mô hình neuron của Mc. Culloch và Pitts ....................................... 24
Hình 1.10. Mạng truyền thẳng ba lớp ............................................................. 25
Hình 2.1. Mô tả ý tƣởng của thuật toán nhận diện vật thể trình bày dựa trên
mô hình túi từ .................................................................................................. 32
Hình 2.2. Sơ đồ tổng quát của thuật toán nhận diện vật thể trình bày ............ 33
Hình 2.3. Đặc trƣng đƣợc trích chọn bằng SURF........................................... 37
Hình 2.4.Mô tả trực quan quá trình phân cụm và sinh từ điển ....................... 39
Hình 2.5. Vật thể và mô tả BOW tƣơng ứng .................................................. 41
Hình 2.6.Mạng neuron nhiều lớp .................................................................... 42
Hình 3.1 Các lớp để xây dựng mạng neuron .................................................. 45
Hình 3.2 Mô tả các lớp của module SURF ..................................................... 46
Hình 3.3 Các lớp thuộc module sinh từ điển .................................................. 48
Hình 3.4 Giao diện chính của chƣơng trình Hand Recognitor ....................... 49
Hình 3.5. Giao diện module tạo dữ liệu và test thuật toán.............................. 50
Hình 3.6. Tab «Real-time» để tạo bộ dữ liệu .................................................. 51
Số hóa bởi Trung tâm Học liệu – ĐHTN
http://www.lrc.tnu.edu.vn
ix
Hình 3.7. Ví dụ về các ảnh thu đƣợc thuộc 4 lớp «Fist», «OK», «Palm»,
«Point» ............................................................................................................ 52
Hình 3.8. Giao diện module tạo dữ liệu và test thuật toán.............................. 53
Hình 3.9. Ứng dụng «BOW params» để lựa chọn tham số ............................ 54
Hình 3.10 Kết quả phân tích bộ ảnh thuộc 4 lớp ............................................ 55
Hình 3.11 Giao diện để tạo và huấn luyện mạng neuron. ............................... 56
Hình 3.12 Tự động test độ chính xác của thuật toán ...................................... 58
Hình 3.13 Kiểm tra hoạt động của thuật toán ................................................. 59
Hình 3.14 Thử nghiệm nhận diện trong thời gian thực................................... 59
Hình 4.1. Các lớp vật thể trong các bộ dữ liệu ............................................... 60
Hình 4.2. Một phần bộ dữ liệu dùng để sinh từ điển ...................................... 61
Hình 4.3. Bộ dữ liệu huấn luyện. .................................................................... 63
Hình 4.4. Một số hình trong bộ dữ liệu test .................................................... 64
Hình 4.5. Một phần bộ dữ liệu test với nhiễu nhẹ .......................................... 68
Hình 4.6. Một phần bộ dữ liệu thử nghiệm ..................................................... 69
Hình 4.7 Các lớp trong bộ dữ liê ̣u Sebastien Marcel ...................................... 71
Hình 4.8. Một số hình thuộc lớp A chia làm hai nhóm: nhóm “đơn giản”
(hàng trên), nhóm “phức tạp” (hàng dƣới) ...................................................... 72
Hình 4.9. Một phần dữ liệu của Đại học Cambridge ..................................... 74
Số hóa bởi Trung tâm Học liệu – ĐHTN
http://www.lrc.tnu.edu.vn
1
MỞ ĐẦU
Ngày nay dƣới sự phát triển rộng rãi của các ứng dụng công nghệ thông
tin vào trong cuộc sống, việc tƣơng tác giữa con ngƣời và thiết bị ngày càng
trở nên quan trọng. Trƣớc đây, bàn phím và chuột là các giao diện chính để
giao tiếp giữa ngƣời và máy tính. Trong các lĩnh vực khác cần tới các thông
tin 3D, chẳng hạn nhƣ trò chơi máy tính, robot và lĩnh vực thiết kế… các thiết
bị cơ khí khác nhƣ bóng lăn, cần điều khiển hay các găng tay dữ liệu đã đƣợc
sử dụng. Tuy nhiên, con ngƣời giao tiếp chủ yếu bởi “nghe” và “nhìn”, do đó
một giao diện ngƣời – máy sẽ trực quan hơn nếu con ngƣời có thể điều khiển
máy tính bằng giọng nói hay cử chỉ giống nhƣ khi tƣơng tác giữa ngƣời với
ngƣời trong thế giới thực mà không cần thông qua các thiết bị điều khiển khác
nhƣ chuột hay bàn phím. Một ƣu điểm khác là ngƣời dùng có thể giao tiếp từ
xa mà không cần phải có tiếp xúc vật lý với máy tính. So với các hệ thống
điều khiển bằng lệnh âm thanh, một hệ thống thị giác sẽ thích hợp hơn trong
môi trƣờng ồn ào hoặc trong trƣờng hợp âm thanh bị nhiễu.
Nhận dạng các cử động của tay ngƣời là cách tự nhiên khi tƣơng tác
ngƣời – máy và ngày nay nhiều nhà nghiên cứu trong các học viện và ngành
công nghiệp đang quan tâm đến hƣớng này. Nó cho phép con ngƣời tƣơng tác
với máy rất dễ dàng và thuận tiện mà không cần phải mang thêm bất kỳ thiết
bị ngoại vi nào. Với mục đích nghiên cứu kỹ thuật nhận dạng cử chỉ bàn tay
ngƣời, luận văn sẽ tập trung trình bày một số nội dung chính nhƣ sau:
1. GIỚI THIỆU TỔNG QUAN VỀ ĐỀ TÀI
Tƣơng tác ngƣời - máy (Human - Computer Interaction, HCI) là một
lĩnh vực thu hút nhiều nghiên cứu và đã đạt đƣợc nhiều kết quả ấn tƣợng
trong thời gian gần đây. Một trong những bài toán quan trọng của lĩnh vực
này là cung cấp khả năng điều khiển máy tính (hoặc thiết bị) từ xa thông qua
camera kết nối với máy. Bài toán này thƣờng bao gồm các bƣớc: phát hiện đối
Số hóa bởi Trung tâm Học liệu – ĐHTN
http://www.lrc.tnu.edu.vn
2
tƣợng trong thị trƣờng của camera (ví dụ, tay, mặt, cơ thể ngƣời điều khiển
hoặc một thiết bị đặc biệt nào đó dùng để điều khiển); theo dõi chuyển động
của đối tƣợng; nhận diện hình dạng và cách thức chuyển động của đối tƣợng.
Kết quả nhận diện đƣợc sử dụng để tạo ra các lệnh tƣơng ứng cho máy tính.
Mục đích của đề tài là xây dựng một phƣơng pháp nhận diện mẫu trong
các frame thu trực tiếp từ camera theo thời gian thực để giải quyết bƣớc thứ
ba trong bài toán điều khiển máy tính từ xa nêu trên. Phƣơng pháp nhận diện
này sử dụng mô hình túi từ (bag-of-features, bag-of-words) kết hợp với
phƣơng pháp phân lớp bằng mạng neural. Trong đó, mô hình túi từ đƣợc sử
dụng để tạo ra các vector đặc trƣng làm dữ liệu đầu vào cho mạng neural.
Phƣơng pháp nhận diện này cần đảm bảo đƣợc tốc độ xử lý cao (để có thể
thực hiện trong thời gian thực với dữ liệu thu trực tiếp từ một camera), và có
tính bền vững với một số dạng biến đổi của đối tƣợng (xoay hình, thay đổi
kích thƣớc và vị trí trong frame). Đối tƣợng nhận diện chính của đề tài là cử
chỉ tay ngƣời và một số đồ vật đơn giản.
2. ĐỐI TƢỢNG VÀ PHẠM VI NGHIÊN CỨU
a. Lý thuyết
- Nghiên cứu mô hình túi từ;
- Nghiên cứu một số phƣơng pháp trích chọn đặc trƣng trong ảnh số;
- Nghiên cứu một số phƣơng pháp phân cụm dữ liệu đơn giản;
- Nghiên cứu mạng neural nhiều lớp.
b. Thực nghiệm
- Xây dựng chƣơng trình thử nghiệm;
- Thực hiện huấn luyện và test trên một số loại lớp đối tƣợng (ví dụ,
các dạng của tay ngƣời, một số loại đồ vật đơn giản);
- Thực hiện huấn luyện và test trên một số kho dữ liệu cử chỉ (ví dụ,
kho dữ liệu của trƣờng Đại học Cambridge);
Số hóa bởi Trung tâm Học liệu – ĐHTN
http://www.lrc.tnu.edu.vn
3
- Phân tích, đánh giá kết quả thu đƣợc; so sánh kết quả thu đƣợc với kết
quả của một số phƣơng pháp nhận diện đã đƣợc công bố.
3. HƢỚNG NGHIÊN CỨU CỦA ĐỀ TÀI
- Nghiên cứu một số phƣơng pháp nhận diện mẫu đã đƣợc công bố ở
trong và ngoài nƣớc (từ nguồn học liệu tại trung tâm học liệu Đại học Thái
Nguyên, trƣờng Đại học CNTT&TT, các tạp chí online).
- Nghiên cứu mô hình túi từ và cách áp dụng phƣơng pháp này trong xử
lý ảnh để tạo ra vector đặc trƣng làm dữ liệu đầu vào cho mạng neural.
- Nghiên cứu và so sánh một số phƣơng pháp trích chọn đặc trƣng
trong ảnh số (SURF, SIFT) để lựa chọn phƣơng pháp phù hợp với mô hình túi
từ và đáp ứng đƣợc yêu câu đặt ra của đề tài. (tốc độ xử lý, tính bền vững với
một số dạng biến đổi của đối tƣợng trong ảnh).
- Nghiên cứu cách sử dụng mạng neural nhân tạo trong phân lớp dữ
liệu, trong đó, dữ liệu đầu vào cho mạng neural đƣợc tạo ra bằng cách áp
dụng mô hình túi từ.
- Xây dựng dữ liệu để huấn luyện và test; phân tích và đánh giá kết quả
thu đƣợc; so sánh kết quả test trên các kho dữ liệu cử chỉ khác nhau; so sánh
kết quả thu đƣợc bằng phƣơng pháp trình bày với các phƣơng pháp khác đã
đƣợc công bố.
4. NỘI DUNG NGHIÊN CỨU
Chƣơng 1. Tổng quan
Phần này trình bày các kiến thức cơ bản về nhận diện mẫu, các bài toán
trong nhận diện mẫu, một số phƣơng pháp nhận diện mẫu đã đƣợc công bố.
Chƣơng 2. Trình bày sử dụng mô hình túi từ để xây dựng bộ mô tả
cho vật thể và thuật toán nhận diện vật thể với mạng Neuron.
Số hóa bởi Trung tâm Học liệu – ĐHTN
http://www.lrc.tnu.edu.vn
4
Phần này trình bày chi tiết về mô hình túi từ, cách ứng dụng mô hình
này trong bài toán nhận diện mẫu, lựa chọn thuật toán trích chọn đặc trƣng và
phân cụm dữ liệu phù hợp, cách xây dựng vector đăc trƣng với mô hình túi từ.
Chƣơng 3. Xây dựng chƣơng trình thử nghiệm
Chƣơng 4. Thử nghiệm và đánh giá kết quả
Phần này trình bày chi tiết về chƣơng trình thử nghiệm, áp dụng
chƣơng trình cho các kho dữ liệu ảnh, phân tích – đánh giá – so sánh kết quả.
5. PHƢƠNG PHÁP NGHIÊN CỨU
- Phương pháp nghiên cứu lý thuyết: Tìm hiểu các tài liệu liên quan tới
các phƣơng pháp nhận diện mẫu trong ảnh số, mô hình túi từ, các phƣơng
pháp trích chọn và biểu diễn đặc trƣng, một số thuật toán phân cụm dữ liệu
đơn giản, mạng neural nhân tạo.
- Phương pháp nghiên cứu thực nghiệm: Xây dựng một số kho dữ liệu
ảnh; xây dựng chƣơng trình thử nghiệm; huấn luyện và test thuật toán trên các
kho dữ liệu để lấy dữ liệu đánh giá độ chính xác và tốc độ xử lý của thuật toán.
- Phương pháp trao đổi khoa học: Trao đổi hƣớng nghiên cứu với
ngƣời hƣớng dẫn và trình bày Seminar với các đồng nghiệp để trình bày và
giải quyết các nội dung luận văn đề ra.
6. Ý NGHĨA KHOA HỌC VÀ THỰC TIỄN CỦA ĐỀ TÀI
Ý nghĩa khoa học của đề tài là trình bày một thuật toán xây dựng vector
đặc trƣng cho đối tƣợng trên ảnh số. Thuật toán đảm bảo tốc độ xử lý trong
thời gian thực với dữ liệu thu trực tiếp từ camera. Vector đặc trƣng đảm bảo
đƣợc tính bền vững khi đối tƣợng chịu một số biến đổi.
Số hóa bởi Trung tâm Học liệu – ĐHTN
http://www.lrc.tnu.edu.vn
5
CHƢƠNG 1. TỔNG QUAN
1.1. Khảo sát một số công trình đã đƣợc công bố về nhận diện bàn tay
Cử chỉ tay là phƣơng thức giao tiếp tự nhiên và trực quan trong tƣơng
tác ngƣời – máy (Human – Computer Interaction). Để thực hiện loại tƣơng tác
này ngƣời ta cần phát triển các phƣơng pháp và công cụ gọi là giao diện
người máy (Human – Computer Interface – HCI), cho phép máy tính nhận
diện cử chỉ tay trong thời gian thực. Tuy nhiên, việc theo dõi chuyển động của
tay dựa vào thị giác máy và nhận diện cử chỉ là một vấn đề khó giải quyết do
các cử chỉ tay ngƣời rất phức tạp. Sự phức tạp này là do sự đa dạng của cử chỉ
tạo ra bởi một số lƣợng lớn các bậc tự do (Degree of Freedom – DoF, thu
đƣợc trong quá trình mô hình hóa bàn tay ngƣời).
Để thực hiện tốt vai trò của mình, các HCI dựa trên cử chỉ tay phải đáp
ứng các yêu cầu về hiệu suất trong thời gian thực, độ chính xác cao trong
nhận diện, mức độ ổn định trƣớc các loại biến đổi khác nhau (ví dụ: thay đổi
hƣớng và cƣờng độ chiếu sáng, thay đổi về góc nghiêng của đối tƣợng,
v.v…), và khả năng hoạt động với các phông nền (khung cảnh phía sau ngƣời
thực hiện cử chỉ) đa dạng.
Để đáp ứng các yêu cầu này, nhiều hệ thống nhận dạng cử chỉ đã sử
dụng những thiết bị đánh dấu bằng màu sắc hoặc găng tay (găng tay gắn cảm
biến) để đơn giản hóa việc thu nhận và xử lý thông tin từ cử chỉ tay [5]. Tuy
nhiên, việc sử dụng các thiết bị đánh dấu hoặc găng tay gây phiền phức cho
ngƣời sử dụng, đồng thời làm giảm tính tự nhiên trong tƣơng tác với máy tính.
Số hóa bởi Trung tâm Học liệu – ĐHTN
http://www.lrc.tnu.edu.vn
6
Hình 1.1. Găng tay có gắn thiết bị trong HCI
Luận văn này chỉ tập trung vào việc nhận diện một phần cử chỉ tay,
trƣớc hết là hình dạng của bàn tay, thu từ camera trong thời gian thực và
không có sự hỗ trợ của các thiết bị đánh dấu khác hoặc găng tay.
Có hai nhóm phƣơng pháp chính đối với bài toán nhận dạng cử chỉ tay
dựa trên thị giác: các phƣơng pháp dựa trên mô hình ba chiều của tay (3D
hand model); các phƣơng pháp dựa vào hình dạng bên ngoài của tay [15].
Các phƣơng pháp dựa trên mô hình 3D sử dụng mô hình động học ba
chiều của tay với một số lƣợng tƣơng đối lƣớng các bậc tự do [9], [6]–[11].
Các phƣơng pháp này tính ra các tham số của tay bằng cách so sánh hình ảnh
bàn tay trên các frame với hình chiếu của mô hình 3D trên mặt phẳng. Các
phƣơng pháp này phù hợp với tƣơng tác trong môi trƣờng ảo, cho phép thu
đƣợc nhiều tham số của cử chỉ tay, đồng thời cho phép nhận diện một số
lƣợng lớn các lớp cử chỉ tay. Tuy nhiên, do các mô hình 3-D của bàn tay là
những vật thể biến dạng có khớp nối với nhiều bậc tự do (mô hình 3D tiêu
chuẩn có 27 DOF), để mô tả hình dạng của tay dƣới các góc nhìn khác nhau
cần một cơ sở dữ liệu rất lớn. Nhƣợc điểm khác của các phƣơng pháp này là
sự khó khăn trong trích trọn đặc trƣng và không có khả năng xử lý những tình
huống đặc biệt (phát sinh từ các góc nhìn không rõ ràng).
Số hóa bởi Trung tâm Học liệu – ĐHTN
http://www.lrc.tnu.edu.vn
7
Thu nhận hình
qua camera
Xử lý ảnh
Bàn tay
Phát hiện / Nhận
diện
Điều chỉnh tham số
Chiếu hình
Mô hình
bàn tay
Hình 1.2. Mô hình bàn tay với 27 DOF do Tomasi xây dựng và nguyên tắc
hoạt động của các phương pháp dựa trên mô hình 3D
Các phƣơng pháp dựa trên hình dạng (appearance-based) thực hiện
trích trọn đặc trƣng để mô hình hóa hình dạng bên ngoài của bàn tay. Khi
nhận diện, các đặc trƣng trích ra sẽ đƣợc so sánh với các đặc trƣng của các
lớp đã biết. Các phƣơng pháp dựa trên hình dạng thƣờng có tốc độ xử lý cao
(hoạt động trong thời gian thực) do việc xử lý hình 2D thƣờng đơn giản hơn.
Các phƣơng pháp thuộc nhóm này thƣờng xử dụng các đặc trƣng nhƣ màu
sắc, đƣờng biên, các điểm hoặc các vùng đặc biệt.
Số hóa bởi Trung tâm Học liệu – ĐHTN
http://www.lrc.tnu.edu.vn
8
Trong [10] sử dụng một phƣơng pháp nhận diện đơn giản bằng cách
tìm kiếm những vùng màu da trong hình ảnh. Tuy nhiên, phƣơng pháp này có
một số yếu điểm: rất nhạy cảm với điều kiện ánh sáng; không cho phép có các
đối tƣợng giống màu da trong hình ảnh. Trong [3] sử dụng các đặc trƣng màu
sắc theo thang đo (scale-space color features) để nhận diện cử chỉ tay. Tuy
nhiên, hệ thống này chỉ hoạt động đƣợc trong thời gian thực khi trong hình
không có đối tƣợng khác trùng màu da.
Các tác giả trong [1] sử dụng đƣờng biên của tay để nhận diện bằng
cách tính toán độ cong tại mỗi điểm trên đƣờng biên. Phƣơng pháp tách biên
này thƣờng khó sử dụng nếu có yếu tố gây nhiễu, khi điều kiện chiếu sáng
thay đổi, hoặc khi sử dụng trên phông nền phức tạp.
Hình 1.3. Nhận diện bàn tay dựa trên đường biên
Gần đây có một số nghiên cứu về các đặc trƣng bất biến cục bộ (local
invariant features) [13]–[4]. Trong [13], thuật toán Adaboost và đặc trƣng
SIFT đƣợc sử dụng để phát hiện bàn tay. Phƣơng pháp này cho phép pháp
hiện bàn tay kể cả trong trƣờng hợp bàn tay xoay trên một mặt phẳng. Phƣơng
pháp này cũng đƣa ra khái niệm sharing feature để tăng tốc độ hoạt động và
độ chính xác (lên tới 97,8%). Để đạt đƣợc tốc độ nhận diện trong thời gian
thực, phƣơng pháp này sử dụng thêm một số loại đặc trƣng khác (vd, contrast
context histogram). Trong [2], [4], đặc trƣng Haar đƣợc sử dụng dụng để phát
hiện bàn tay. Đặc trƣng Haar tập trung vào các thông tin trong một vùng nhất
định của hình ảnh thay vì từng pixel riêng rẽ. Để nâng cao độ chính xác khi
phân loại và có đƣợc hiệu suất thời gian thực, phƣơng pháp này sử dụng
Số hóa bởi Trung tâm Học liệu – ĐHTN
http://www.lrc.tnu.edu.vn
9
Adaboost (ghép các classifier đơn giản theo mô hình thác nƣớc để tạo thành
một classifier mạnh).
Nghiên cứu mà Viola và Jones đề xuất [12] cho bài toán phát hiện vật
thể trong thời gian thực cho phép phát hiện bàn tay trên bất kỳ phông nền nào
với độ chính xác rất cao [14]. Phƣơng pháp này phát hiện vật thể nhanh và
chính xác nhƣng cần thời gian huấn luyện rất dài và một số lƣợng hình mẫu
rất lớn. Ngoài ra, phƣơng pháp phát hiện vật thể của Viola-Jones chỉ có thể
đƣợc thực hiện với bàn tay nghiêng từ 15 tới 30 độ [7].
Xử lý bổ sung
Cửa sổ con
Cấu trúc thác nƣớc
Classifier
№1
Classifier
№2
Classifier
№3
Classifier
№n
Cửa sổ con bị loại bỏ
Hình 1.4. Đặc trưng Haar và AdaBoost
Số hóa bởi Trung tâm Học liệu – ĐHTN
http://www.lrc.tnu.edu.vn
10
1.2.Trích chọn đặc trƣng
1.2.1. Đặt vấn đề
Trong tìm kiếm ảnh theo nội dung, việc lựa chọn các đặc trƣng thích
hợp với từng loại truy vấn và miền ứng dụng cùng với các độ đo tƣơng đồng
tƣong ứng là thành phần quan trọng và then chốt nhất. Việc lựa chọn các đặc
trƣng và độ đo thích hợp sẽ giúp tăng cả tốc độ và mức độ chính xác lựa chọn
đặc trƣng cho ảnh:
- Thành phần lựa chọn đặc trƣng phải lựa chọn đƣợc một tập các đặc
trƣng cung cấp đầu vào tốt nhất cho hệ thống tìm kiếm ảnh. Nếu số lƣợng các
đặc trƣng quá nhiều sẽ làm "che khuất" các "tín hiệu" (giảm các "tín hiệu" đối
với tỉ lệ nhiễu), mặt khác, nếu số lƣợng các đặc trƣng quá ít sẽ khó phân biệt
đƣợc ảnh trong tìm kiếm.
- Nó phải giảm bớt đƣợc độ phức tạp trong lúc tính toán tổng thể bằng
giảm đa chiều của bài toán phân lớp.
- Khi ngƣời dùng muốn sử dụng các đặc trƣng đó cho mọi truy vấn,
thì việc sử dụng các đặc trƣng này phải hiệu quả. Vì số lƣợng các đặc trƣng
có thể là hàng ngàn, dó đó thời gian xử lý của module phải tuyến tính với số
lƣợng đặc trƣng.
- Vì thời gian xử lý của thành phần lựa chọn đặc trƣng tuyến tính với số
lƣợng đặc trƣng, do đó việc lựa chọn các đặc trƣng cũng nên tuyến tính dựa
trên phân lớp.
Trong phần này, chúng tôi sẽ trình bày sơ bộ về các vấn đề về đặc
trƣng của ảnh (màu sắc, kết cấu, hình dạng, đặc trƣng cục bộ SIFT), một số
độ đo tƣơng đồng tƣơng ứng với các đặc trƣng và phƣơng pháp lựa chọn đặc
trƣng ảnh để tăng chất lƣợng tập đặc trƣng.
Số hóa bởi Trung tâm Học liệu – ĐHTN
http://www.lrc.tnu.edu.vn
11
1.2.2. Đặc trưng màu sắc
a. Đặc trƣng màu sắc
Tìm kiếm ảnh theo lƣợc đồ màu là phƣơng pháp phổ biến và đƣợc sử
dụng nhiều nhất trong các hệ thống tìm kiếm ảnh theo nội dung. Đây là phƣơng
pháp đơn giản, tốc độ tìm kiếm tƣơng đối nhanh tuy nhiên kết quả tìm kiếm có
độ chính xác không cao. Đây có thể xem là bƣớc lọc đầu tiên cho những bƣớc
tìm kiếm sau. Một số lƣợc đồ màu đƣợc sử dụng nhƣ: lƣợc đồ màu RGB, lƣợc
đồ màu HSI, lƣợc đồ HSI cải tiến.
Trong đó, lƣợc đồ màu RGB đƣợc sử dụng phổ biến nhất.
* Lƣợc đồ màu RGB:
Đối với ảnh 256 màu, lƣợc đồ màu của ảnh tƣơng đƣơng với lƣợc đồ màu
của ảnh xám. Đối với ảnh 24 bit màu, lƣợc đồ miêu tả khả năng kết nối về
cƣờng độ của ba kênh màu R, G, B. Luợc đồ màu này đƣợc định nghĩa nhƣ sau:
h R,G, r, g, b robR x, G g, b
(1.1)
Trong đó N là số lƣợng điểm có trong ảnh.
Lƣợc đồ màu này đƣợc tính bằng cách rời rạc hóa từng màu trong ảnh,
sau đó đếm số điểm ảnh của mỗi màu. Khi mà số lƣợng màu là có hạng, để
thuận tiện hơn, ngƣời ta thƣờng chuyển đổi ba kênh màu thành một biến giá
trị duy nhất. Một cách khác để tính lƣợc đồ màu của ảnh RGB là ta phân ra
làm 3 lƣợt đồ riêng biệt hR[] , hG[] , hB[]. Khi đó, mỗi lƣợc đồ đƣợc tính bằng
cách đếm kênh màu tƣơng ứng trong mỗi điểm ảnh.
b. Độ đo tƣơng đồng về màu sắc
Một số độ đo tƣơng đồng đƣợc sử dụng nhƣ: Độ đo khoảng cách
Euclide, độ đo Jensen-Shannon divergence (JSD).
Gọi h(I) và h(M) tƣơng ứng là 2 lƣợt đồ màu của hai ảnh I và ảnh M.
Khi đó các loại độ đo màu đƣợc định nghĩa là một số nguyên (hoặc số thực)
theo các loại độ đo tƣơng ứng nhƣ sau:
Số hóa bởi Trung tâm Học liệu – ĐHTN
http://www.lrc.tnu.edu.vn
- Xem thêm -