Đăng ký Đăng nhập
Trang chủ Nhận dạng hành vi người trong video dựa trên đặc trưng hình dáng và chuyển động ...

Tài liệu Nhận dạng hành vi người trong video dựa trên đặc trưng hình dáng và chuyển động

.PDF
144
55
113

Mô tả:

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN VÕ HOÀI VIỆT NHẬN DẠNG HÀNH VI NGƯỜI TRONG VIDEO DỰA TRÊN ĐẶC TRƯNG HÌNH DÁNG VÀ CHUYỂN ĐỘNG LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN Tp. Hồ Chí Minh – Năm 2019 ĐẠI HỌC QUỐC GIA TP. HCM TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN VÕ HOÀI VIỆT NHẬN DẠNG HÀNH VI NGƯỜI TRONG VIDEO DỰA TRÊN ĐẶC TRƯNG HÌNH DÁNG VÀ CHUYỂN ĐỘNG Ngành: Khoa Học Máy Tính Mã số ngành: 62480101 Phản biện 1: PGS. TS. Huỳnh Trung Hiếu Phản biện 2: TS. Lê Thành Sách Phản biện 3: TS. Hà Việt Uyên Synh Phản biện độc lập 1: PGS.TS. Nguyễn Thanh Bình Phản biện độc lập 2: TS. Ngô Quốc Việt NGƯỜI HƯỚNG DẪN KHOA HỌC 1. PGS. TS. LÝ QUỐC NGỌC 2. TS. TRẦN THÁI SƠN TP. Hồ Chí Minh - 2019 LỜI CAM ĐOAN Tôi xin cam đoan các kết quả nghiên cứu được trình bày trong luận án là thành quả của một quá trình học tập, nghiên cứu và làm việc trong nhiều năm của tôi. Kết quả nào do chính tôi nghiên cứu và kết quả nào kế thừa từ cộng đồng đều được trình bày một cách hệ thống với các minh chứng rõ ràng và cụ thể. 2 MỤC LỤC LỜI CAM ĐOAN ............................................................................................................. 1 MỤC LỤC ........................................................................................................................ 2 DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT ...................................................... 4 MỤC LỤC BẢNG ............................................................................................................ 7 MỤC LỤC HÌNH.............................................................................................................. 8 MỞ ĐẦU ........................................................................................................................ 10 CHƯƠNG 1 GIỚI THIỆU .......................................................................................... 13 1.1 Động lực nghiên cứu ......................................................................................... 13 1.2 Mục tiêu của luận án ......................................................................................... 15 1.3 Phát biểu bài toán .............................................................................................. 16 1.4 Đóng góp .......................................................................................................... 17 1.5 Tổ chức luận án ................................................................................................. 18 CHƯƠNG 2 CÁC NGHIÊN CỨU LIÊN QUAN VÀ HƯỚNG TIẾP CẬN CỦA LUẬN ÁN 20 2.1 Bài toán nhận dạng hành vi người ..................................................................... 20 2.2 Lịch sử nghiên cứu bài toán nhận dạng hành vi ................................................. 22 2.3 Các hướng nghiên cứu chính trong nhận dạng hành vi ....................................... 24 2.3.1 Các nghiên cứu sử dụng đặc trưng thiết kế ................................................. 27 2.3.2 Các nghiên cứu sử dụng đặc trưng học ....................................................... 31 2.3.3 Phương pháp phân lớp hành vi ................................................................... 36 2.4 Hướng tiếp cận của luận án ............................................................................... 37 2.5 Kết luận ............................................................................................................ 43 CHƯƠNG 3 MÔ HÌNH NHẬN DẠNG HÀNH ĐỘNG .............................................. 44 3.1 Giới thiệu .......................................................................................................... 44 3.2 Kiến trúc hệ thống ............................................................................................. 46 3.2.1 Rút trích đặc trưng ..................................................................................... 49 3.2.2 Biểu diễn hành động ................................................................................... 53 3.2.2.1 Giải thuật gom nhóm Kmeans++ ......................................................... 54 3.2.2.2 Mô hình GMM .................................................................................... 55 3.2.2.3 Kỹ thuật phân đoạn video .................................................................... 57 3.2.3 Phân lớp hành động .................................................................................... 59 3.3 Kết quả thực nghiệm ......................................................................................... 61 3.3.1 Cấu hình thực nghiệm ................................................................................ 61 3.3.2 UTKinect-Action ....................................................................................... 62 3.3.3 Tập dữ liệu 3D Action Pairs ....................................................................... 64 3.3.4 Phân tích kết quả thực nghiệm .................................................................... 66 3.4 Kết luận ............................................................................................................ 67 CHƯƠNG 4 MÔ HÌNH NHẬN DẠNG HOẠT ĐỘNG TRONG SINH HOẠT HÀNG NGÀY 69 4.1 Giới thiệu .......................................................................................................... 69 4.2 Hệ thống đề xuất ............................................................................................... 72 4.2.1 Rút trích đặc trưng khung xương ................................................................ 74 4.2.2 Rút trích đặc trưng màu – độ sâu ................................................................ 78 3 4.2.3 Phát sinh chuỗi biểu diễn hoạt động ........................................................... 79 4.2.4 Mô hình markov ẩn phân lớp hoạt động ..................................................... 81 4.2.5 Mô hình HCRF phân lớp hoạt động ............................................................ 83 4.3 Kết quả thực nghiệm ......................................................................................... 86 4.3.1 Tập dữ liệu CAD120 .................................................................................. 87 4.3.2 Tập dữ liệu MSR DailyActivity 3D ............................................................ 88 4.4 Phân tích kết quả thực nghiệm ........................................................................... 90 4.5 Kết luận ............................................................................................................ 91 CHƯƠNG 5 MÔ HÌNH NHẬN DẠNG HOẠT ĐỘNG TRONG MÔI TRƯỜNG KHÔNG RÀNG BUỘC .................................................................................................. 93 5.1 Giới thiệu .......................................................................................................... 93 5.2 Học chuyển tiếp ................................................................................................ 97 5.3 Mô hình đề xuất .............................................................................................. 100 5.3.1 VGG ........................................................................................................ 104 5.3.2 Đặc trưng hình ảnh ................................................................................... 105 5.3.3 Đặc trưng chuyển động ............................................................................ 105 5.3.4 Mô hình phân lớp NBNN ......................................................................... 108 5.4 Thực nghiệm ................................................................................................... 110 5.4.1 Tập dữ liệu UCF101 ................................................................................. 110 5.4.2 Tập dữ liệu HMDB 51.............................................................................. 112 5.5 Phân tích kết quả thực nghiệm ......................................................................... 114 5.6 Kết luận .......................................................................................................... 115 CHƯƠNG 6 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ............................................. 117 6.1 Kết luận .......................................................................................................... 117 6.2 Hướng phát triển ............................................................................................. 118 DANH MỤC CÔNG TRÌNH TÁC GIẢ ........................................................................ 120 TÀI LIỆU THAM KHẢO ............................................................................................. 122 PHỤ LỤC A: SƠ LƯỢC VỀ THIẾT BỊ GHI NHẬN DỮ LIỆU 3 CHIỀU .................... 134 PHỤ LỤC B: MỘT SỐ THUẬT TOÁN SỬ DỤNG TRONG LUẬN ÁN ..................... 138 4 DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT SỬ DỤNG TRONG LUẬN ÁN Ký hiệu Cụm Tiếng Anh Ý nghĩa Histogram of Oriented Histogram of Oriented Normal Normal Vector Vector BOW Bag of Word Mô hình túi từ CNN Convolution Neural Network Mạng tích chập CRF Conditional Random Field Trường ngẫu nhiên có điều kiện 3DS-HONV DBT Discriminability-based Transfer Discriminability-based Transfer DMM Depth Motion Map Bản đồ chuyển động độ sâu EM Expectation - Maximization Thuật toán ước lượng cực đại GMM Gaussian Mixture Model Mô hình Gauss hỗn hợp GPU Graphics Processing Unit Bộ xử lý đồ họa HCRF Hidden Conditional Random Field Trường ngẫu nhiên có điều kiện ẩn HMAX Hierarchical Model and X Hierarchical Model and X HMM Hidden Markov Model Mô hình Markov ẩn HOF Histogram of Optical Flow Biểu đồ luồng chuyển động HOF2.5D Histogram of Optical Flow 2.5D Histogram of Optical Flow 2.5D HOG Histogram of Gradient Biểu đồ đạo hàm theo hướng HOG3D Histogram of Gradient 3D Histogram of Gradient 3D KHMT Computer Science Khoa học máy tính LDP Local Depth Pattern Local Depth Pattern LSH Local Sensitive Hash Thuật toán băm đặc trưng cục bộ 5 LSTM Long Short Term Memory Long Short Term Memory MEI Motion Energy Image Ảnh năng lượng chuyển động MHB Motion History Boundary Motion History Boundary MHI Motion History Image Ảnh lịch sử chuyển động MKL Multiple Kernels Learning Mô hình học đa nhân Naïve Bayes Nearest Thuật toán láng giềng cần nhất ngây Neighbor thơ Visual Geometry Group Mạng học sâu của nhóm nghiên cứu NBNN VGG thị giác tại đại học Oxford RNN Recurrent Neural Network Recurrent Neural Network ROP Random Occupancy Patterns Random Occupancy Patterns Space-Time Interest Points Bộ phát hiện điểm trọng yếu trọng STIP không gian – thời gian SVM Support Vector Machine Máy hỗ trợ phân lớp TGMT Computer Vision Thị Giác Máy Tính TSN Temporal Segment Networks Temporal Segment Networks DANH MỤC CÁC TỪ CHUYÊN MÔN ĐƯỢC DỊCH SANG TIẾNG VIỆT Từ chuyên môn tiếng Việt Từ chuyên môn tiếng Anh Biểu đồ đạo hàm theo hướng Histogram of Orientated Gradients Cảm xúc Expression Cấu trúc ẩn Hidden Structure Cử chỉ Gestures Đặc trưng thiết kế Handcrafted Feature Độ sâu Depth Giả thuyết hai dòng vỏ não thị giác Two Streams Hypothesis Gối đầu Overlapping Hành động Action 6 Hành vi người Human Behavior Hoạt động Activity Hoạt động con Sub-Activity Học chuyển tiếp Transfer Learning Kết hợp sớm Early Fusion Kết hợp trễ Late Fusion Không gối đầu Non-Overlapping Không gian – thời gian Spatio-Temporal Mạng nơ ron nhân tạo Artificial Neural Network Mạng tích chập Convolution Neural Network Máy hỗ trợ phân lớp Support Vector Machine Mô hình Markov ẩn Hidden Markov Model Mô hình túi từ Bag Of Words Mô hình học đa nhân Multiple Kernel Learning Mô hình phân biệt Discriminative Model Mô hình tạo sinh Generative Model Luồng chuyển động Optical Flow Phân đoạn theo thời gian Temporal Segmentation Sự tập trung thị giác Visual Attention Trường ngẫu nhiên có điều kiện Conditional Random Fields Trường ngẫu nhiên trạng thái ẩn có điều kiện Hidden-State Conditional Random Fields Thuật toán băm đặc trưng cục bộ Locality-Sensitive Hashing Tích phân video Integral video Tìm kiếm lưới Grid Search Trọng số cứng Hard-weighting Trọng số mềm Soft-weigthing Tổng hợp cực đại Max pooling 7 MỤC LỤC BẢNG Bảng 2-1. Bảng tóm tắt lịch sử nghiên cứu nhận dạng hành vi được bổ sung dựa trên nghiên cứu [56] ............................................................................................................... 24 Bảng 2-2. Bảng so sánh phương pháp phân lớp tạo sinh và phân biệt ............................... 37 Bảng 3-1. So sánh kết quả nhận dạng các phương pháp đề xuất trên tập dữ liệu UTKinectAction ............................................................................................................................. 64 Bảng 3-2. So sánh kết quả nhận dạng các phương pháp đề xuất trên tập dữ liệu 3D Action Pairs ................................................................................................................................ 65 Bảng 4-1. Bảng tổng hợp thông tin đặc trưng từ dữ liệu khung xương ............................. 77 Bảng 4-2. So sánh với các phương pháp khác trên tập dữ liệu CAD120 ........................... 88 Bảng 4-3. So sánh kết quả nhận dạng với các phương pháp khác trên tập dữ liệu MSR DailyActivity 3D ............................................................................................................. 90 Bảng 5-1. So sánh kết quả huấn luyện mạng VGG16 trên tập dữ liệu UCF101 .............. 111 Bảng 5-2. Kết quả phân lớp NBNN trên tập dữ liệu UCF101 ......................................... 111 Bảng 5-3. So sánh với các phương pháp khác trên tập dữ liệu UCF101 ......................... 112 Bảng 5-4. So sánh kết quả huấn luyện mạng VGG16 trên tập dữ liệu HMDB 51 ........... 113 Bảng 5-5. Kết quả phân lớp NBNN trên tập dữ liệu HMDB 51...................................... 113 Bảng 5-6. So sánh với các phương pháp khác trên tập dữ liệu HMDB 51 ...................... 114 8 MỤC LỤC HÌNH Hình 2-1. Phân rã bài toán hành vi người ......................................................................... 21 Hình 2-2. Các cấp độ của các bài toán trong nhận dạng hành vi người ............................. 22 Hình 2-3. Mô hình tổng quát cho bài toán nhận dạng hành vi .......................................... 22 Hình 2-4. Mô hình kết hợp sớm dựa vào đặc trưng đa nguồn ........................................... 25 Hình 2-5. Mô hình kết hợp trễ dựa trên đặc trưng đa nguồn ............................................. 25 Hình 2-6. Các cột mốc chính của quá trình tiến hóa các phương pháp rút trích đặc trưng thiết kế và dữ liệu trong bài toán nhận dạng hành vi người .............................................. 27 Hình 2-7. Tổng quát về mức độ phân cấp trong bài toán nhận dạng hành vi người dựa vào thông tin thị giác từ video ................................................................................................ 38 Hình 2-8. Minh họa cấu trúc vỏ não thị giác và cơ chể hiểu thông tin trong giả thuyết 2 dòng vỏ não thị giác ........................................................................................................ 39 Hình 2-9. Cấu trúc nhận thức hành động ở người dựa vào hệ thống thông tin thị giác trong video ............................................................................................................................... 41 Hình 2-10. Cấu trúc nhận thức hoạt động ở người dựa vào hệ thống thông tin thị giác trong video ............................................................................................................................... 42 Hình 3-1. Minh họa lược đồ chung của mô hình nhận dạng hành động người .................. 46 Hình 3-2. Lược đồ mô hình chi tiết hiện thực hóa mô hình nhận dạng hành động người .. 47 Hình 3-3. Minh họa quá trình học và biểu diễn hành động bằng mô hình BOW ............... 54 Hình 3-4. Kết quả thực nghiệm với chiều dài các phân đoạn khác nhau trên tập dữ liệu UTKinect-Action............................................................................................................. 63 Hình 3-5. So sánh chi tiết kết quả nhận dạng trên tập dữ liệu UTKinect-Action ............... 63 Hình 3-6. So ánh kết quả biểu diễn đặc trưng từ vựng thị giác trên tập dữ liệu UTKinectAction ............................................................................................................................. 63 Hình 3-7. Kết quả thực nghiệm với chiều dài các phân đoạn khác nhau trên tập dữ liệu 3D Action Pairs..................................................................................................................... 64 Hình 3-8. So sánh chi tiết kết quả nhận dạng trên tập dữ liệu 3D Action Pairs ................. 65 Hình 3-9. So ánh kết quả biểu diễn đặc trưng từ vựng thị giác trên tập dữ liệu 3D Action Pairs ................................................................................................................................ 65 Hình 4-1. Minh họa lược đồ chung của mô hình nhận dạng hoạt động người trong sinh hoạt hàng ngày ........................................................................................................................ 71 Hình 4-2. Kiến trúc tổng quát của mô hình đề xuất .......................................................... 73 Hình 4-3. Cấu trúc của 15 khớp nối của khung xương thu nhận từ Kinect ........................ 75 Hình 4-4. Minh họa rút trích đặc trưng của cơ thể và bộ phận trên dữ liệu màu ................ 78 Hình 4-5. Quá trình chuyển các khung hình của hoạt động thành tập các véc tơ đặc trưng đại diện của các hoạt động con ........................................................................................ 80 Hình 4-6. Minh họa quá trình chuyển đổi một hoạt động từ một chuỗi khung hình thành chuỗi số tự nhiên với số nhóm là 5 .................................................................................. 81 Hình 4-7. Kết quả nhận dạng HMM với 5 trạng thái ẩn với số lượng hàm Gauss khác nhau ........................................................................................................................................ 87 Hình 4-8. So sánh kết quả nhận dạng của mô hình HMM và HCRF với số lượng trạng thái ẩn khác nhau trên tập dữ liệu CAD120 ............................................................................ 88 Hình 4-9. Kết quả nhận dạng HMM có 5 trạng thái ẩn với số lượng hàm Gauss khác nhau trên tập dữ liệu MSR DailyActivity 3D............................................................................ 89 9 Hình 4-10. So sánh kết quả nhận dạng của mô hình HMM và HCRF với số lượng trạng thái ẩn khác nhau trên tập dữ liệu MSR DailyActivity 3D................................................ 89 Hình 5-1. Minh họa lược đồ chung của mô hình nhận dạng hoạt động người trong môi trường không ràng buộc................................................................................................... 95 Hình 5-2. Kiến trúc hiện thực hóa mô hình nhận dạng hoạt động người trong điều kiện không ràng buộc ............................................................................................................ 102 Hình 5-3. Minh họa quá trình rút trích đặc trưng tại mỗi hoạt động con ......................... 102 Hình 5-4. Một số khung hình minh họa kết quả rút trích MHI ........................................ 106 Hình 5-5. Một số khung hình minh họa kết quả rút trích đặc trưng luồng chuyển động: dòng trên là luồng chuyển động theo hướng x và dòng dưới là luồng chuyển động theo hướng y ......................................................................................................................... 107 Hình 5-6. Minh họa quá trình xác định một mẫu đặc trưng cục bộ trong quá trình phân lớp sử dụng NBNN.............................................................................................................. 108 10 MỞ ĐẦU Hệ thống thông minh dựa vào video là kết quả quan trọng trong các nghiên cứu của ngành khoa học máy tính (KHMT) nói chung và thị giác máy tính (TGMT) nói riêng với một lịch sử phát triển lâu đời. Cùng với đó là nhiều công trình nghiên cứu được công bố để xây dựng các hệ thống thông minh có thể tương tác với con người một cách hiệu quả và thân thiện. Với nhiều nổ lực nghiên cứu và hiện thực hóa các mô hình khác nhau, đã có những hệ thống đánh bại con người trong một số tác vụ trong các trò chơi đối kháng như chiến thắng ván cờ của Deep Blue với Kasparov vào 1996 và AlphaGo của Google chiến thắng nhà vô địch cờ vây Lee Se-dol vào 2016. Điều này cho thấy tiềm năng to lớn của máy trong việc hiểu cuộc sống của con người là rất lớn và cần được nghiên cứu để khai thác một cách hiệu quả. Thúc đẩy bởi động lực từ những kết quả trên, việc nghiên cứu các phương pháp giúp máy tính mô hình hóa và hiểu được cuộc sống của con người từ đó nó có những phản hồi thích hợp là một vấn đề cần được quan tâm và đầu tư nghiên cứu nhiều hơn. Nhận dạng hành vi người là một lĩnh vực thú vị và nhiều thách thức trong các nghiên cứu về TGMT. Đồng thời, nó là một trong những bài toán quan trọng giúp hệ thống hiểu được hành vi của con người thông qua thông tin thị giác. Nhận dạng được chính xác hành vi người sẽ có tác dụng to lớn trong việc phát triển các ứng dụng trong thực tiễn như các hệ thống giám sát, hệ thông phân tích – tìm kiếm video, hệ thống tương tác người - máy, hệ thống nhà thông minh, thành phố thông minh, các ứng dụng khoa học robot... Có thể nói, việc tìm ra một giải pháp tổng quát giúp máy hiểu hành vi của con người vẫn đang là một vấn đề đầy thú vị và thách thức đối với cộng đồng nghiên cứu TGMT, bất chấp những nổ lực nghiên cứu rất lớn đã được thực hiện nhiều thập kỷ qua. Trong bối cảnh sự tiến bộ không ngừng trong lĩnh vực TGMT và các bài toán tương tác người – máy ngày càng phát triển và tiến đến áp dụng vào thực tế. Đặc biệt là trong bối cảnh sự phát triển của các ứng dụng thông minh nhấn mạnh đến các hệ thống thông minh dựa vào video và robot trợ giúp. Trong nghiên cứu này, luận 11 án trình bày mô hình nhận dạng hành vi người trong video tiến đến hỗ trợ mô hình của hệ thống thông minh dựa vào thông tin thị giác (hình 1). Với việc tập trung nghiên cứu xây dựng phân hệ hiểu hành vi người theo hướng có thể dễ dàng trong việc chuyển đổi và mở rộng hướng tới có thể ứng dụng vào các hệ thống tương tác người – máy, hệ thống camera giám sát và truy vấn dữ liệu video. Luận án hướng đến tập trung nghiên cứu mô hình hiểu hành vi người với trọng tâm nghiên cứu tập trung vào trình bày ba vấn đề chính:  Mô hình rút trích đặc trưng trong video để mô tả một hành vi người.  Xây dựng mô hình để biểu diễn đặc trưng của hành vi.  Mô hình nhận dạng dựa trên mô hình biểu diễn hành vi. Hình 1. Cấu trúc của các hệ thống thông minh dựa video Các vấn đề nghiên cứu trên có mối liên hệ hữu cơ với nhau tác động trực tiếp đến quá trình lựa chọn các phương pháp trong toàn bộ mô hình của hệ thống cũng như kết quả nhận dạng. Trong đó, dữ liệu nghiên cứu về hành vi người được cung cấp bởi cộng đồng là rất đa dạng tùy theo mục đích nghiên cứu, cũng như khả năng ứng dụng của các nghiên cứu trong môi trường thực tế là phức tạp và có nhiều biến thể so với môi trường nghiên cứu khoa học. Điều này dẫn đến rất khó để có thể đề xuất một phương pháp tổng quát để có thể giải quyết bài toán nhận dạng mọi hành vi. Để đạt được mục tiêu nghiên cứu của luận án trong ba vấn đề chính nêu trên. Luận án tiến hành khảo sát các nghiên cứu liên quan trong lĩnh vực TGMT cũng 12 như các nguyên lý trong việc làm thế nào để giải các bài toán trên máy tính. Luận án dựa trên 2 nguyên lý chính đã chứng minh được hiệu quả trong lĩnh vực TGMT: chia để trị và giả thuyết 2 dòng vỏ não thị giác [40]. Trong đó, giả thuyết 2 dòng vỏ não thị giác chỉ ra rằng để biểu diễn hành vi trong video một cách hiệu quả thì phải biểu diễn được 2 luồng thông tin thị giác là hình dáng và chuyển động. Dựa vào các nguyên lý này, luận án tiến hành nghiên cứu, thực nghiệm và phát triển các kỹ thuật đặc thù để giải quyết từng bài toán cụ thể trong việc hướng tới hiểu nội dung trong video dựa vào thông tin thị giác. Tuy nhiên, giả thuyết này không làm rõ được làm thể nào có thể chuyển các thông tin thị giác này thành ngữ nghĩa. Điều này được luận án xem như là một cấu trúc ẩn trong vỏ não mà được hiện thực hóa bằng các mô hình máy học. Cụ thể, luận án tiến hành khảo sát bài toán hành vi với 2 mức độ từ thấp đến cao bằng cách khảo sát 2 bài toán con là hành động và hoạt động của người. Trong đó, hành động là quá trình chuyển động của toàn bộ cơ thể người trong một khoảng thời gian nhất định. Và hoạt động là bài toán mở rộng của hành động khi xét thêm các yếu tố tương tác giữa người – vật thể hoặc người – người cũng như là ngữ cảnh môi trường trong quá trình thực hiện hoạt động [2]. Tóm lại, nhận dạng được hành vi người trong video là một bài toán quan trọng và thách thức đóng vai trò then chốt quyết định sự thành công của các hệ thống thông minh dựa vào video. Tuy nhiên, làm thế nào để đưa ra một giải pháp tổng quát giúp máy có thể hiểu được mọi hành vi của con người vẫn là một vấn đề khoa học chưa được làm rõ một cách tường minh. Vì vậy, đây là một bài toán cần được nghiên cứu và làm sáng tỏ từng ngày. Thật khó để có thể mô tả một cách đầy đủ về bài toán nhận dạng hành vi người. Tuy nhiên, luận án cũng mong muốn dựa vào việc khảo sát các nghiên cứu liên quan, thực nghiệm, thực hiện một số cải tiến sẽ có thể làm sáng tỏ một số vấn đề còn tồn tại về bài toán nhận dạng hành vi người cũng như có giá trị nhất định cả trong giả thuyết và ứng dụng thực tiễn. 13 CHƯƠNG 1 GIỚI THIỆU Trong chương này, luận án trình bày động lực nghiên cứu, phát biểu bài toán, các đóng góp của luận án và sau cùng là các nội dung sẽ được trình bày. 1.1 Động lực nghiên cứu Với sự phát triển không ngừng và những kết quả nghiên cứu khả quan của thị giác máy tính (TGMT), trí tuệ nhân tạo và máy học, con người đang tiến đến một kỷ nguyên mới nơi mà máy có thể suy nghĩ, nhận dạng và thực hiện các nhiệm vụ phức tạp. Với nhiều công trình nghiên cứu được công bố để xây dựng các hệ thống thông minh có thể tương tác với con người. Đã có những hệ thống đã đánh bại con người trong một số tác vụ đối kháng trong đánh cờ [4, 24]. Điều này cho thấy khả năng tiềm tàng của máy trong việc hiểu nội dung mà con người vẫn đang nhận thức. Trong một hệ thống thông minh dựa vào video, phát triển khả năng nhận thức của hệ thống là nhiệm vụ quan trọng và thách thức nhất. Con người có thể hiểu được nội dung của video rất dễ dàng với sự thay đổi của không gian - thời gian và tri thức mà họ được trao dồi trong quá trình học tập, nghiên cứu và làm việc. Nhưng để máy tính có thể hiểu được nội dung trong đoạn video là một vấn đề thách thức trong lĩnh vực TGMT. Mặc dù đã có nhiều nghiên cứu về phương pháp và thuật toán hướng tới phát triển và hoàn thiện dần khả năng nhận thức của máy. Nhưng vẫn chưa có thuật toán nào hiệu quả và bền vững để làm cho máy có khả năng suy nghĩ và hoạt động một cách hợp lý, linh hoạt để thích nghi với môi trường xung quanh chúng như là con người đã làm. Trong đó, nhận dạng hành vi người trong video được xem là một trong các nhiệm vụ khó khăn và phức tạp nhất. Điều này bởi vì biểu diễn hành vi người là cực kỳ đa dạng và dáng điệu của người cũng có một số lượng lớn các bậc tự do. Ví dụ, cùng một hoạt động nhưng hai người khác nhau có thời gian hoàn thành là khác nhau hoặc trong hoạt động uống nước một người có thể sử dụng hai tay để bưng cốc nước nhưng người khác có thể không. Điều này 14 giải thích tại sao nhiều phương pháp có kết quả tốt trên tập dữ liệu huấn luyện nhưng lại thất bại khi ứng dụng vào tập dữ liệu khác hoặc các ứng dụng thực tế. Vì vậy, phát triển và tăng độ chính xác của bài toán nhận dạng hành vi còn cần rất nhiều nổ lực của các nhà nghiên cứu trên toàn thế giới. Mỗi đóng góp dù rất nhỏ cũng có ý nghĩa quan trọng trong việc mang robot đến gần hơn với cuộc sống của con người và tăng cường khả năng hiểu của các hệ thống thông minh cũng như làm rõ hơn về hệ thống nhận thức của con người. Vào những năm bắt đầu của thế kỷ 21, ý tưởng mang robot vào cuộc sống của con người để thực hiện một số hoạt động thường nhật ngày càng trở thành hiện thực. Như trong nhà thông minh, ngày nay robot có thể thực hiện những hoạt động đơn giản như mở của, quét nhà hay gấp quần áo. Đặc biệt, robot có tác dụng to lớn trong việc hỗ trợ con người thực hiện các công việc nguy hiểm như phát hiện bom, tháo gỡ bom, thám hiểm các khu vực nguy hiểm... Các kết quả nghiên cứu về hành vi người sẽ giúp hoàn thiện trong việc cho robot bắt chước các hành vi của con người một cách chính xác và thực hiện các thao tác này ngày càng hoàn thiện và hiệu quả. Tuy nhiên, sự gia tăng nhu cầu cuộc sống chất lượng cao, robot được yêu cầu phải có khả năng tương tác ngày càng tự nhiên, thông minh và hiệu hơn. Chúng không chỉ được yêu cầu thực hiện các nhiệm vụ theo lịch đặt trước hoặc con người ra lệnh cho chúng thực hiện theo chỉ thị mà còn được yêu cầu đáp trả các hành vi của con người mà luôn biến động và không theo một kịch bản cố định trước. Ví dụ, khi một robot hỗ trợ nhìn thấy một người đang làm ngũ cốc, nó biết và hiểu người đó đang làm gì, sau đó nó thực hiện một số nhiệm vụ để giúp đỡ như chuẩn bị cốc hoặc nước. Hoặc khi robot phát hiện một người đang lo lắng trong bệnh viện hoặc siêu thị thì có thể tiến đến để thực hiện các chỉ dẫn cần thiết. Không chỉ trong robot, nhận dạng hành vi người còn có vai trò quan trọng trong các hệ thống giám sát các sự kiện dựa vào phân tích các video thu thập được. Những hệ thống này có thể hỗ trợ cuộc sống con người trong nhiều lĩnh vực và đặc biệt là nơi có sự xuất hiện liên tục của con người là không thể. Ví dụ trong một siêu thị, một hệ thống giám sát phân tích hành vi của khách hàng và xác định chúng là 15 các hình vi tốt hoặc xấu. Sau đó, hệ thống thông báo cho đội bảo vệ các thông tin liên quan, như vậy các siêu thị không tốn quá nhiều chi phí để thuê bảo vệ trực ở khắp mọi nơi trong siêu thị. Ngoài ra, hành vi người con có thể ứng dụng trong nhiều ứng dụng khác như tìm kiếm video dựa vào nội dung, trong các trò chơi tương tác … Nâng cao hiệu quả nhận dạng của bài toán hành vi người ngày càng trở nên cấp thiết trong cả khía cạnh lý thuyết và thực tế. Từ khía cạnh thực tế, một hệ thống có thể phân tích hành vi có thể giúp xây dựng một chuyên gia trong một miền ứng dụng hoặc giúp phát hiện những mẫu hành vi bất thường trong các hệ thống giám sát. Từ khía cạnh lý thuyết, bài toán này có thể trả lời các câu hỏi: “Các khái niệm được trình bày như thế nào trong các hệ thống thông minh dựa vào video?”. Ngoài ra, nó cũng giúp bộc lộ những hiểu nhầm của con người về hệ thống nhận thức của não người hoặc cũng có thể xác minh các giả thuyết về hoạt động của não người. Tóm lại, động lực giúp luận án thực hiện nghiên cứu này là tính thực tiễn và tính khoa học của đề tài. Luận án với kỳ vọng sẽ đề xuất một số cải tiến và hướng tiếp cận mới cho bài toán nhận dạng hành vi người trong video với kỳ vọng sánh vai cùng thế giới trong lĩnh vực nghiên cứu đầy thách thức và có nhiều ứng dụng tiềm năng trong thực tiễn này. 1.2 Mục tiêu của luận án Mục tiêu của luận án là nghiên cứu, hệ thống hóa và cải tiến một số phương pháp cho bài toán nhận dạng hành vi người trong video. Để đạt được mục tiêu chung của luận án, các mục tiêu chính của luận án có thể được mô tả như sau:  Khảo sát các nghiên cứu liên quan đến bài toán hành vi người trong video để cho thấy hiện trạng về sự tiến triển các nghiên cứu trên thế giới và ứng dụng của hành vi người trong video.  Nghiên cứu và đề xuất mô hình nâng cao hiệu quả cho bài toán nhận dạng hành vi trong video. 16 1.3 Phát biểu bài toán Cho trước tập dữ liệu video chứa hành vi người trong mỗi video với yêu cầu xác định hành vi được thực hiện trong mỗi video. Đầu vào: tập các video với mỗi video chứa một hành vi. Đầu ra: loại hành vi chứa trong mỗi video. Giới hạn bài toán Bài toán nhận dạng hành vi người là một bài toán thuộc lĩnh vực xác định nội dung của video ở mức khái niệm. Hành vi người được xem là mẫu chuyển động của người trong khoảng thời gian nhất định [2]. Trong nghiên cứu này luận án chỉ tập trung hướng vào hành vi trong video và trong mỗi video chỉ chứa một hành vi được thực hiện. Phát biểu hình thức Cho trước tập dữ liệu video như sau: = {( , } ), = 1 … trong đó: là tập dữ liệu video là đoạn video thứ i của tập dữ liệu. có thể được biểu diễn dưới dạng hàm dữ liệu như ( , , ) đối với dãy ảnh màu, ( , , ) đối với dãy ảnh độ sâu và ( , , ), ( , , ) với dãy ảnh màu kết hợp độ sâu. Trong đó, giá trị tại mỗi điểm ảnh trên ảnh độ sâu được chuẩn hóa về [0, 255] tương ứng khoảng cách từ của đối tượng đến máy quay theo dữ liệu thu thập từ Kinect. là nhãn của đoạn video thứ i của tập dữ liệu là tập nhãn hành vi cần huấn luyện Nhận dạng hành vi trải qua 2 giai đoạn huấn luyện và kiểm tra  Giai đoạn học từ dữ liệu huấn luyện Xây dựng hàm ℎ : → ={ }, ={ sao cho kết quả nhận dạng tối ưu nhất.  Thực hiện phân lớp mẫu mới ℎ( ∈ } ) = argmax ( | ∈ , ) 17 Các bài toán cần giải quyết Bài toán 1: trích chọn đặc trưng. Đây là quá trình chuyển dữ liệu đầu vào thành thông tin có ích đại diện cho hình dáng và chuyển động phục vụ nhận dạng hành vi. Bài toán 2: biểu diễn đặc trưng. Chuyển các thông tin đã rút trích trong bài toán 1 thành một hoặc nhiều véc tơ đặc trưng biểu diễn được bản chất không gian – thời gian của hành vi. Bài toán 3: phân lớp hành vi. Sử dụng thông tin có được từ bài toán 2 làm dữ liệu huấn luyện các mô hình máy học để xác định nhãn ngữ nghĩa hành vi của video mới cần phân lớp. 1.4 Đóng góp Dựa trên các kết quả nghiên cứu và các công trình đã được công bố. Luận án đã hệ thống hóa và cải tiến một số phương pháp cho bài toán hành vi người theo hướng độ phức tạp tăng dần với sự tiến hóa của các bài toán con là hành động và hoạt động. Các đóng góp chính của luận án có thể được tổng kết như sau: Thứ nhất, đối với bài toán nhận dạng hành động, luận án tiến hành khảo sát và đề xuất mô hình nhận dạng hành động sử dụng giả thuyết 2 dòng vỏ não thị giác trong rút trích đặc trưng và biểu diễn hành động. Luận án sử dụng bộ rút trích đặc trưng cục bộ STIP và các bộ miêu tả không gian – thời gian trên cả kênh màu và độ sâu để biểu diễn hình dáng và chuyển dộng. Đồng thời, kỹ thuật phân đoạn video và mô hình BOW đánh trọng số mềm dựa vào GMM được khởi tạo từ Kmeans++ để tạo thành các véc tơ đặc trưng đại diện cho hành động. Cuối cùng, một cấu trúc ẩn trong vỏ não để tổng hợp 2 dòng thông tin thị giác dựa trên việc đánh trọng số của mô hình học đa nhân theo thuật toán SimpleMLK. Kết quả thực nghiệm và đánh giá một cách có hệ thống các khía cạnh khác nhau của kiến trúc đề xuất trên các tập dữ liệu 3D Action Pairs và UT-Kinect Action. Các đóng góp chi tiết trong mô hình nhận dạng hành động người được công bố trong các nghiên cứu [CT02], [CT03], [CT04], [CT06], [CT08], [CT09] và [CT10]. 18 Thứ hai, đề xuất mô hình nhận dạng hoạt động trong môi trường sinh hoạt hàng ngày dựa trên biểu diễn chuỗi hoạt động con. Mô hình này tận dụng sức mạnh của dữ liệu khung sương, màu và độ sâu trong việc rút trích đặc trưng không gian – thời gian biểu diễn hình dáng, ngữ cảnh và tương tác trong và ngoài của người khi thực hiện hoạt động theo giả thuyết 2 dòng vỏ não thị giác. Sử dụng mô hình HMM để mô hình hóa sự tiến hóa của hành động theo chuỗi thời gian và HCRF để tăng hiệu quả phân lớp hoạt động. Kết quả thực nghiệm và đánh giá một cách có hệ thống các khía cạnh khác nhau của kiến trúc đề xuất trên các tập dữ liệu CAD120 và MSRDailyActivity3D. Các đóng góp này được thể hiện trong các nghiên cứu đã được công bố [CT01], [CT02], [CT04] và [CT06]. Thứ ba, đề xuất mô hình nhận dạng hoạt động trong môi trường không ràng buộc dựa trên bản đồ đặc trưng không gian – thời gian và học chuyển tiếp mô hình mạng học sâu. Mô hình này tận dụng sức mạnh của cả 2 phương pháp đặc trưng thiết kế và đặc trưng được học. Mỗi hoạt động được biểu diễn bởi một tập các đặc trưng tĩnh và động từ mạng VGG được học chuyển đổi từ bộ trọng của mạng VGG được học từ ImageNet theo giả thuyết 2 dòng vỏ não thị giác. Cuối cùng, phương pháp Naïve Bayes Nearest Neighbor (NBNN) được sử dụng để tăng hiệu quả nhận dạng cũng như tính dễ dàng mở rộng khi lượng dữ liệu và số lớp gia tăng. Kết quả thực nghiệm và đánh giá một cách có hệ thống các khía cạnh khác nhau của kiến trúc đề xuất trên các tập dữ liệu UCF101 và HMDB51. Các đóng góp này được thể hiện trong các nghiên cứu đã được công bố [CT03], [CT05], và [CT07]. 1.5 Tổ chức luận án Luận án được tổ chức thành các chương chính sau: Chương hai trình bày các nghiên cứu trong bài toán nhận dạng hành vi người và hướng tiếp cận của luận án. Nội dung chương này liên quan đến các nghiên cứu được công bố tại “Danh mục công trình nghiên cứu”
- Xem thêm -

Tài liệu liên quan