Đăng ký Đăng nhập
Trang chủ Phân tích dữ liệu khung xương và ứng dụng nhận dạng dáng đi...

Tài liệu Phân tích dữ liệu khung xương và ứng dụng nhận dạng dáng đi

.PDF
70
5
65

Mô tả:

ii MỤC LỤC MỞ ĐẦU ......................................................................................................................... 1 1. LÝ DO CHỌN ĐỀ TÀI ...................................................................................... 1 2. MỤC TIÊU VÀ NHIỆM VỤ CỦA ĐỀ TÀI ...................................................... 2 3. ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU ................................................... 2 4. PHƯƠNG PHÁP NGHIÊN CỨU ...................................................................... 2 5. Ý NGHĨA KHOA HỌC VÀ THỰC TIỄN......................................................... 2 6. BỐ CỤC LUẬN VĂN ........................................................................................ 3 TỔNG QUAN VỀ PHÂN TÍCH DÁNG ĐI ......................................... 4 GIỚI THIỆU CHUNG ............................................................................................. 4 TRÍCH XUẤT ĐẶC TRƯNG.................................................................................. 5 Phân đoạn đối tượng ...................................................................................... 5 Theo vết đối tượng ........................................................................................ 6 Biểu diễn đặc trưng ..................................................................................... 11 . NHẬN DẠNG DÁNG ĐI....................................................................................... 16 Phương pháp dựa vào đặc trưng .................................................................. 16 Phương pháp dựa vào mô hình .................................................................... 18 GIỚI THIỆU TỔNG QUAN VỀ KINECT........................................ 23 TỔNG QUAN VỀ KINECT .................................................................................. 23 CẤU TẠO.............................................................................................................. 24 Hệ thống cảm biến chiều sâu ....................................................................... 25 Camera RGB-D ........................................................................................... 26 Động cơ, máy đo gia tốc, micro .................................................................. 26 Cảm biến đo chiều sâu (depth sensor) ......................................................... 26 Cảm biến hình ảnh (RGB-D)....................................................................... 27 . THƯ VIỆN HỖ TRỢ KINECT .............................................................................. 29 MỘT SỐ ỨNG DỤNG SỬ DỤNG KINECT ........................................................ 30 PHÂN TÍCH DÁNG ĐI SỬ DỤNG KINECT ................................... 34 TỔNG QUAN HỆ THỐNG ................................................................................... 34 GIỚI THIỆU ĐẶC TRƯNG KHUNG XƯƠNG ................................................... 34 TRÍCH XUẤT ĐẶC TRƯNG................................................................................ 36 HUẤN LUYỆN ...................................................................................................... 37 Tách chu kỳ bước ........................................................................................ 37 Xây dựng mô hình dáng đi bình thường ..................................................... 38 Phát hiện bất thường .................................................................................... 42 iii KẾT QUẢ THỰC NGHIỆM.................................................................................. 42 Dữ liệu thử nghiệm ...................................................................................... 42 Kết quả thử nghiệm ..................................................................................... 43 Một số hình ảnh thực nghiệm ...................................................................... 43 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ................................................................. 46 TÀI LIỆU THAM KHẢO iv PHÂN TÍCH DỮ LIỆU KHUNG XƯƠNG VÀ ỨNG DỤNG NHẬN DẠNG DÁNG ĐI Học viên: Hồ Thiên Hoàng Chuyên ngành: Khoa học máy tính Mã số: 60.48.01 Khóa: 31 Trường Đại học Bách khoa – ĐHĐN Tóm tắt: Ngày nay, các nghiên cứu trong lĩnh vực thị giác máy tính hỗ trợ rất nhiều cho cuộc sống. Đặc biệt là các nghiên cứu phân tích dáng đi hỗ trợ quan sát, chẩn đoán bệnh nhân trong lĩnh vực y tế. Trong luận văn này, tôi đề xuất giải pháp nhận dạng dáng đi của con người thông qua ảnh chiều sâu thu nhận được từ thiết bị Microsoft Kinect. Quá trình xử lý bao gồm các bước: (1) thu nhận các đặc trưng về khung xương và vị trí các khớp xương thông qua việc sử dụng Kinect; (2) tính toán các thông số đặc trưng gồm vị trí tương đối các khớp và tương quan giữa các khớp; (3) so sánh các giá trị thông số đặc trưng đó với các giá trị ngưỡng, nếu đặc trưng đó đạt tới ngưỡng xác định một loại dáng đi được quy định trước thì đưa ra kết luận dáng đi đó. Kết quả thực nghiệm trong môi trường thực tế và bộ cơ sở dữ liệu tự thu về các khung xương các dáng đi cho thấy giải phải đề xuất mang lại hiệu quả hứa hẹn. Từ khóa: thị giác máy tính, phân tích dáng đi, Kinect, khung xương, ảnh chiều sâu. Abstract: Nowadays, researching the field of computer vision supports too much for life. Especially the gait analysis supports the observation, diagnosis patients in the medical. In this dissertation, I propose a way to recognize the gait of human through the depth image from Microsoft Kinect device. The process involves the following steps: (1) using Kinect to acquiring skeletal data and joint position; (2) determining characteristic parameters including relative positions of joints and correlations between joints; (3) compare those characteristic values with threshold values, if that characteristic within the threshold’s reach that defined a predetermined gait, concludes that gait. The result of experimental in real world environments and self-collect databases of skeletons show that the proposed solution has promising effects. Key words: Computer vision, the gait analysis, Kinect, skeleton frame, depth image v DANH MỤC CÁC TỪ VIẾT TẮT API Application Programming Interface CBIR Content-Based Image Retrieval HMM Hidden Markov Model SVM Support Vector Machine vi DANH MỤC CÁC BẢNG Số hiệu Tên bảng Trang 1.1 So sánh một số ứng dụng hỗ trợ của thư viện OpenNI và Microsoft SDK 11 2.1 Tổng hợp các đặc trưng dáng đi trong nghiên cứu .28 3.1 Bảng mô tả các góc tính đặc trưng 36 3.2 Số chu kỳ được thực hiện trên mỗi người 42 3.3 Kết quả thử nghiệm với 8 trạng thái và 6 quan sát 43 vii DANH MỤC CÁC HÌNH Số hiệu 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 1.10 1.11 1.12 1.13 1.14 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 2.10 2.11 2.12 2.13 2.14 2.15 3.1 3.2 Tên bảng Camera Kinect của hãng Microsoft Camera Kinect và Xbox 360 của hãng Microsoft Cấu tạo của Camera Kinect Sơ đồ khối Phạm vi hoạt động của cảm biến trên Kinect Vùng hoạt động của Kinect Cơ chế hoạt động của Kinect Ảnh thu được từ Kinect Cách tạo ra ảnh 3D của Kinect Hình ảnh chọn trang phục ảo Một bài tập trong hệ thống RespondWell Người dùng điều khiển máy tính bằng cử chỉ tay Các bác sĩ sử dụng Kinect trong phòng mổ Người chơi game Kinect Ví dụ về phân đoạn đối tượng [20] Các dạng biểu diễn đối tượng khác nhau [21], phục vụ cho mục đích theo vết: điểm, kernel, và hình chiếu Các phương pháp theo vết: (a) theo vết điểm, (b) theo vết kernel, (c) theo vết dựa trên hình chiếu Theo vết và xử lý che khuất dựa trên hình chiếu [28] Tái cấu trúc đối tượng 3 chiều từ chuỗi ảnh hình chiếu [31] Mô hình đối tượng chuyển động với vị trí đầu và các chi [37] Một ví dụ về MII, với các dòng lần lượt là chuỗi ảnh đầu vào, chuỗi hình chiếu đối tượng trước và sau khi canh giữa, cuối cùng là MII [40] Ví dụ về ảnh chuyển động tích lũy 0 Ví dụ về hai hành động có cùng ma trận xếp hạng [41] Các vectơ chỉ hướng tương ứng với luồng quang học [42] Một số đặc trưng quan hệ hình học [47] Mẫu mô hình dáng đi Tham số xác suất của một mô hình Markov ẩn Mô hình HMM tương ứng với các mô hình HMM con Mô hình mạng nơron dùng trong nghiên cứu [79] Giải pháp đề xuất Vị trí các khớp trong khung xương Kinect Trang 23 24 24 25 25 26 27 28 28 31 31 32 32 33 6 7 7 9 10 11 12 13 13 14 15 19 20 21 22 34 35 viii 3.3 3.4 3.5 3.6 3.7 3.8 3.9 Chu kỳ bước đi Đồ thị khoảng cách tương ứng với chu kỳ Mô hình HMM được sử dụng trong giải pháp đề xuất Dáng đi bình thường Dáng đi bất đối xứng Dáng đi khom lưng Dáng đi ngã ngữa 37 37 41 44 44 45 45 1 MỞ ĐẦU 1. LÝ DO CHỌN ĐỀ TÀI Hiện nay, tỉ lệ người cao tuổi (từ 65 tuổi trở lên) tại Việt Nam và trên thế giới đang có xu hướng tăng nhanh [1]. Năm 2010, cứ 100 dân số thì có 6 người cao tuổi. Con số này sẽ tăng lên 8% vào năm 2020. Đến năm 2050, tỉ lệ người cao tuổi chiếm đến 23% dân số, tức cao gấp 4 lần so với hiện tại. Nói cách khác, trong vòng 40 năm tới, khoảng một phần tư dân số là người cao tuổi. Theo thống kê, cuối năm 2013, Việt Nam có khoảng 5 triệu người cao tuổi. Đến năm 2022, số người cao tuổi sẽ tăng lên mức 7.2 triệu, tức tăng 45% so với hiện nay. Năm 2050, con số này nhảy vọt lên đến gần 22 triệu, tương ứng mức tăng 4.4 lần. Người cao tuổi trên thế giới thường có xu hướng sống độc thân, và ở Việt Nam, người già cũng thường ở một mình phần lớn thời gian trong ngày. Vì vậy, nguy cơ xảy ra té ngã hoặc gặp chấn thương về xương ở người cao tuổi rất lớn. Năm 2005, tại Canada có đến 62% số ca nhập viện của người cao tuổi xuất phát từ nguyên nhân té ngã [2]. Những sự cố như vậy có thể dẫn đến hậu quả nghiêm trọng nếu bản thân người bị ngã không thể gửi thông điệp hỗ trợ kịp thời. Một số nghiên cứu trước đây sử dụng các thiết bị phần cứng để giúp người cao tuổi thông báo đến người thân hoặc dịch vụ y tế khi gặp sự cố. Người dùng thường phải đeo cảm biến gia tốc để khi bị ngã đột ngột, hệ thống tự động phát hiện và thông báo [3]. Một giải pháp khác được đưa ra là dùng một nút bấm báo động, được sử dụng khi người dùng ngã. Tuy vậy, người cao tuổi thường quên mang nút bấm bên mình, và trong trường hợp bất tỉnh sau khi ngã thì người dùng cũng không thể sử dụng. Để khắc phục các nhược điểm này, hiện nay khi phân tích, nhận dạng dáng đi bằng phương pháp sử dụng camera có cảm biến như Kinect đang được nghiên cứu rộng rãi. Mục đích của phương pháp này là phân tích dữ liệu khung xương và dáng đi để tạo ra một hệ thống phản hồi sinh học theo thời gian thực nhằm xây dựng bộ dữ liệu về dáng đi để nghiên cứu trong lĩnh vực sinh trắc học; hình thành nền tảng cho hệ thống bảo mật mới [4], ví dụ nhờ phân tích dáng đi, danh tính của một tên cướp bịt mặt và đeo găng tay vẫn có thể xác định được khi hắn ta bước ra khỏi ngân hàng; sàng lọc thông tin y tế và biểu diễn sự bất đối xứng trong dáng đi của bệnh nhân [5], bởi vì ngoài nhiệt độ cơ thể, huyết áp, nhịp tim, nhịp thở và nồng độ ôxy trong máu, dáng đi của chúng ta còn được các bác sĩ đánh giá là dấu hiệu quan trọng thứ 6 có thể giúp chẩn đoán các bệnh như suy tim, bệnh phổi tắc nghẽn mãn tính và hen suyễn; hay ước lượng các thông số dáng đi cơ bản trong bối cảnh nhà ở [6]. Vì các lý do trên, tôi quyết định chọn đề tài “Phân tích dữ liệu khung xương và ứng dụng nhận dạng dáng đi” 2 2. MỤC TIÊU VÀ NHIỆM VỤ CỦA ĐỀ TÀI  Mục tiêu của đề tài Mục tiêu của đề tài là dùng camera Kinect ghi lại video và dùng các giải thuật nhận dạng để xác định các đặc trưng từ đó xây dựng giải pháp phát hiện sự bất thường trong dáng đi của người.  Nhiệm vụ chính của đề tài bao gồm - Nghiên cứu các đặc trưng của dáng đi và các phương pháp phân tích dáng đi. - Nghiên cứu giải pháp mới sử dụng Kinect và giải thuật nhận dạng để đưa ra giải pháp sử dụn kết hợp mang lại hiệu suất cao - Xây dựng chương trình Demo để kiểm tra tính hiệu quả của giải pháp 3. ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU  Đối tượng nghiên cứu - Các dáng đi bình thường và bất thường. - Công cụ Microsoft Kinect. - Các phương pháp trích chọn đặc trưng ảnh. - Các phương pháp học máy dùng cho bài toán phân lớp.  Phạm vi nghiên cứu Nghiên cứu các phương pháp trích đặc trưng của đối tượng chuyển động, và đề xuất giải pháp phát hiện bất thường trong dáng đi của đối tượng. 4. PHƯƠNG PHÁP NGHIÊN CỨU  Phương pháp tài liệu - Tìm hiểu các kĩ thuật xử lý ảnh, mô hình hóa - Các phương pháp trích chọn đặc trưng - Các phương pháp nhận dạng - Nghiên cứu các bài báo liên quan  Phương pháp thực nghiệm - Xây dựng chương trình demo dựa trên giải pháp đề xuất - Thực nghiệm trên dữ liệu đầu vào là các video. - Kiểm tra hiệu quả với các các dữ liệu khung xương khác nhau. 5. Ý NGHĨA KHOA HỌC VÀ THỰC TIỄN  Ý nghĩa khoa học 3 Kết quả thu được là cơ sở để thực hiện các nghiên cứu tiếp theo về dáng đi của người nhằm hỗ trợ cho các hệ thống y tế.  Ý nghĩa thực tiễn Góp phần hỗ trợ cảnh báo kịp thời khi người cao tuổi gặp sự cố bất ngờ như té ngã hay bị thương ở chân. 6. BỐ CỤC LUẬN VĂN Nội dung của luận văn được trình bày bao gồm các phần chính như sau: Mở đầu Chương 1: Giới thiệu tổng quan về Kinect Ở chương này, nội dung chính là giới thiệu tổng quan về Kinect, bao gồm chức năng, cấu tạo, môi trường làm việc, các đặc tính, thư viện hỗ trợ và các ứng dụng của Kinect. Chương 2: Tổng quan về phân tích dáng đi Trong chương này giới thiệu tổng quan về phân tích dáng đi, phương pháp phân tích dáng đi. Chương 3: Phân tích dáng đi sử dụng Kinect Nội dung chương này mô tả giải pháp đề xuất của phương pháp phân tích dáng đi sử dụng Kinect bao gồm trích xuất đặc trưng khung xương, xây dựng mô hình dáng đi bình thường dựa trên mô hình Markov ẩn và tính ngưỡng nhận biết dáng đi bất thường. Bên cạnh đó, cuối chương còn trình bày kết quả thử nghiệm của giải pháp đề xuất. Kết luận và hướng phát triển 4 TỔNG QUAN VỀ PHÂN TÍCH DÁNG ĐI GIỚI THIỆU CHUNG Phân tích dáng đi của người là một bài toán phức tạp và đầy thách thức bởi phạm vi rộng lớn của nó. Nhận dạng dáng đi, theo vết chuyển động, mô hình hóa và xác định ngữ nghĩa của dáng đi là những vấn đề đang nhận được nhiều sự chú ý trong lĩnh vực thị giác máy tính, cũng như cộng đồng các nhà nghiên cứu về học máy. Bên cạnh những ứng dụng trong giám sát, tương tác người – máy, đa phương tiện và mô phỏng, việc sử dụng các hệ thống thị giác máy tính còn phục vụ cho mục tiêu chăm sóc y tế tại nhà. Các hệ thống này sử dụng camera kết nối với máy tính hoặc bộ xử lý chuyên dụng để quan sát và đánh giá dáng đi của người. Mỗi hệ thống như vậy thường thực hiện các bước xử lý chính như sau: Trích xuất đặc trưng: Đây là giai đoạn xử lý thiết yếu trong toàn bộ hệ thống giám sát. Bản chất của quá trình này là giảm khối lượng thông tin cần biểu diễn, tương ứng với việc giảm số chiều của không gian thông tin ban đầu. Trước hết, đối tượng chuyển động được tách ra khỏi nền tĩnh trong video đầu vào thông qua các thuật toán phát hiện người và phân đoạn đối tượng. Tiếp theo, các kĩ thuật theo vết được thực hiện để xác định vị trí đối tượng qua từng khung hình thu được theo thời gian. Kết quả theo vết sau đó được dùng để trích xuất vectơ đặc trưng của khung hình tương ứng. Nếu các đặc trưng được lựa chọn phù hợp, vectơ tính được có khả năng biểu diễn tốt thông tin từ video đầu vào và hệ thống mang lại hiệu quả cao. Nhận dạng dáng đi: Sau khi có được các vectơ đặc trưng của một chuỗi khung hình liên tiếp, hệ thống tiến hành xác định dáng đi tương ứng với chuỗi giá trị đó. Bước xử lý này mang lại nhiều khó khăn bởi mức độ đa dạng của việc biểu diễn thông tin dáng đi trong các bối cảnh khác nhau, ví dụ góc nhìn, độ sáng, nền, quần áo đối tượng, hay tốc độ thực hiện chuyển động. Để có được sự biểu diễn phù hợp, các đặc trưng phải vượt qua sự ảnh hưởng của kích thước đối tượng cũng như sự chênh lệch khối lượng thông tin của cùng một dáng đi khi được thực hiện bởi nhiều người khác nhau. Một vấn đề quan trọng khác là làm sao để tổng quát hóa được một dáng đi cụ thể thông qua một lượng giới hạn các mẫu huấn luyện tương ứng với dáng đi đó. Xác định ngữ nghĩa: Đây là bước xử lý cuối cùng của các hệ thống thị giác máy tính, với mục tiêu xác định được ngữ nghĩa của dáng đi thông qua việc phân tích kết quả của bước trước đó. Bên cạnh đó, các thông tin phụ về ngữ cảnh khá cần thiết để có được kết luận chính xác về một dáng đi. Trong [7], thông tin ngữ cảnh được xác định thông qua việc giải quyết bài toán phân lớp. Cụ thể, các chuyển động giống nhau có thể có ý nghĩa khác nhau tùy vào bối cảnh mà chúng được thực hiện, vì vậy ta có thể xem như đó là những dáng đi khác nhau. Hai bước xử lý đầu tiên của hệ thống thị giác máy tính 5 không phụ thuộc vào ý nghĩa bối cảnh, vì vậy, các quá trình đó có thể được kế thừa cho những vấn đề khác có liên quan. Các thông tin ngữ cảnh thường được định nghĩa trước, bao gồm địa điểm, thời gian, và tương tác. Địa điểm, tức là nơi mà hành động diễn ra, là thông tin thường được sử dụng nhất để phỏng đoán ý nghĩa của hành động đó. Ví dụ, trong bối cảnh chăm sóc y tế, thông tin về vị trí có thể được sử dụng để phát hiện dáng đi bất thường, chẳng hạn việc nằm xuống tại vị trí giường hay ghế sẽ được xem như hành động bình thường, trong khi ở khu vực khác như nhà bếp thì hệ thống xác định có sự cố vừa xảy ra. Bên cạnh địa điểm, thời điểm hoặc quãng thời gian cũng chứa nhiều thông tin để xác định dáng đi. Ví dụ, việc xem vô tuyến sau 2 giờ sáng có thể được xem như triệu chứng của bệnh mất ngủ; một người ngồi xuống và đứng lên trong thời gian ngắn có thể là hành động nhặt đồ vật, ngược lại, hành động tương ứng diễn ra trong thời gian lâu hơn thì có thể nguyên nhân là bệnh viêm khớp. Số lần lặp lại của hành động cũng là một gợi ý tốt để xác định ý nghĩa dáng đi. Ví dụ, việc cúi liên tục trong khi di chuyển có thể xem là một dáng đi khom lưng. TRÍCH XUẤT ĐẶC TRƯNG Quá trình xử lý này gồm 3 giai đoạn chính: phân đoạn để xác định đối tượng chuyển động, theo vết đối tượng, và trích xuất các đặc trưng biểu diễn thông tin. Bước đầu tiên thường là tách đối tượng cần quan tâm ra khỏi phần còn lại của ảnh, gọi là nền. Trong các hệ thống chăm sóc y tế, đối tượng chuyển động là con người. Bước tiếp theo là kết nối các đối tượng trong khung ảnh hiện tại với những đối tượng ở các khung ảnh trước đó, từ đó tạo ra quỹ đạo chuyển động trong không gian. Việc theo vết đối tượng có liên quan đến việc ước lượng tư thế, vị trí, và chuyển động của các phần trên cơ thể. Ước lượng tư thế có thể xem như một bước hậu xử lý của quá trình theo vết, hoặc có thể được tích hợp trực tiếp. Bước thứ ba sử dụng kết quả theo vết và thông tin về quỹ đạo chuyển động của các phần cơ thể để trích xuất các đặc trưng phù hợp. Đây đang là một thách thức không nhỏ với các nhà nghiên cứu bởi các đặc trưng được đề xuất vẫn chứa sự khác biệt đáng kể giữa các dáng đi giống nhau được thực hiện bởi nhiều người, hoặc một dáng đi nhưng được quan sát dưới các góc nhìn khác nhau. Vì vậy, việc xác định các đặc trưng đáng tin cậy để khắc phục các vấn đề đã nêu là một trong những mục tiêu chính đang được nghiên cứu trong lĩnh vực thị giác máy tính hiện nay. Chi tiết cụ thể của quá trình xử lý được đề cập ở trên sẽ được trình bày ở nội dung tiếp theo dưới đây. Phân đoạn đối tượng Từ một đoạn video, đối tượng chuyển động được tách ra khỏi nền tĩnh thông qua các thuật toán phát hiện đối tượng và phân đoạn dựa trên sự biến đổi thông tin trong hai khung hình liên tiếp [8], [9] hoặc các kĩ thuật trừ nền [10], [11], [12], [13]. 6 Trong những năm qua, trừ nền là một kĩ thuật tiền xử lý hiệu quả và phù hợp để áp dụng cho các camera tĩnh lắp đặt trong nhà nhờ vào sự phát triển của các thuật toán ước lượng và cập nhật nền. Nội dung cơ bản của trừ nền là thực hiện phép trừ giữa ảnh đang xét với một ảnh tham chiếu được sử dụng như mô hình nền. Một số thuật toán trừ nền đã đề xuất được sử dụng phổ biến có thể kể đến như running Gaussian average [14], temporal median filter [15], adaptive Gaussian mixture model [16], kernel density estimation [17], hay computational color model [18], trong đó phương pháp được đề xuất bởi Stauffer và Grimson [19] hiện được sử dụng như một kĩ thuật trừ nền chuẩn. Mỗi điểm ảnh được biểu diễn dưới dạng hợp Gauss và được cập nhật liên tục trong quá trình thực thi. Quá trình cập nhật được thực hiện đệ quy để có thể mô hình hóa sự biến đổi từ từ của các yếu tố tự nhiên trong ảnh, ví dụ độ sáng, độ dịch chuyển cảm biến, và nhiễu. Một ví dụ về phân đoạn đối tượng được thể hiện trong hình 1.1, với thứ tự từ trái sang phải như sau: ảnh đầu vào, phân đoạn thô và hậu xử lý. Ví dụ về phân đoạn đối tượng [20] Theo vết đối tượng Với các hệ thống chăm sóc y tế, theo vết được định nghĩa là sự ước lượng quỹ đạo chuyển động của một người hay một bộ phận cơ thể theo thời gian. Hiện nay, nghiên cứu về theo vết người trong video đang gặp nhiều thách thức bởi sự khác biệt lớn giữa các ảnh thu từ nhiều góc nhìn, sự biến đổi tư thế trong quá trình chuyển động, nhiễu bên trong ảnh, và sự che khuất các bộ phận cơ thể. Việc theo vết có thể được thực hiện với một camera hoặc hệ thống nhiều camera đồng bộ. Với ứng dụng trong lĩnh vực chăm sóc y tế, dữ liệu đầu vào thường được thu bởi một camera duy nhất. Nhiều thuật toán theo vết dựa trên đặc trưng ảnh đã được đề xuất, bao gồm các bước xử lý chính: trích xuất các giá trị đặc trưng và so khớp theo một chuỗi các 7 khung hình liên tiếp. Kĩ thuật theo vết có thể thực hiện trên nhiều cách biểu diễn đối tượng khác nhau: điểm, kernel, và hình chiếu. Các dạng biểu diễn đối tượng khác nhau [21], phục vụ cho mục đích theo vết: điểm, kernel, và hình chiếu (a) (b) (c) Các phương pháp theo vết: (a) theo vết điểm, (b) theo vết kernel, (c) theo vết dựa trên hình chiếu a. Theo vết dựa trên điểm Với phương pháp theo vết điểm, các đối tượng trong mỗi khung hình được biểu diễn dưới dạng các điểm, mối quan hệ giữa các điểm này trong hai khung hình liên tiếp được ước lượng dựa trên trạng thái của đối tượng ở khung hình trước, bao gồm thông tin về vị trí và chuyển động. Nghiên cứu [22] là một ví dụ phù hợp cho kĩ thuật theo vết điểm. Mỗi người đi bộ được bao quanh bởi một khung chữ nhật và tâm của khung được dùng như một đặc trưng để theo vết. Lọc Kalman cũng là một phương pháp theo vết được sử dụng rộng rãi từ năm 1986 với khả năng theo vết điểm trong ảnh chứa nhiễu [23], hay ước lượng quỹ đạo ba chiều của nhiều đối tượng từ dữ liệu chuyển động hai chiều [24]. b. Theo vết dựa trên kernel Các kernel được sử dụng có thể ở dạng hình chữ nhật hoặc elip cùng với lược đồ mức xám tương ứng, và vị trí đối tượng được xác định dựa trên vùng ảnh tương ứng trong một chuỗi khung hình liên tiếp. 8 Phương pháp theo vết kernel phổ biến nhất được đề xuất ở nghiên cứu [25]. Một mặt nạ không gian được kết hợp với kernel đẳng hướng để xác định vị trí đối tượng thông qua một độ đo tương tự. Mức độ tương đồng giữa mô hình mục tiêu và vị trí xem xét trong khung hình tiếp theo được ước lượng dựa trên hệ số Bhattacharyya. Thuật toán mean shift được sử dụng để tối ưu kết quả. Phương pháp này mang lại hiệu quả tốt trong việc xử lý các chuyển động phức tạp và ít bị ảnh hưởng bởi thời gian thực hiện chuyển động. Bộ lọc Kalman cũng là một lựa chọn phù hợp để dự đoán vị trí của tâm đối tượng trong khung hình tiếp theo. Nghiên cứu [26] đề xuất một bộ lọc Kalman cụ thể được sử dụng cho bài toán theo vết nhiều đối tượng cùng lúc, với kết quả thu được có độ chính xác cao. c. Theo vết dựa trên hình chiếu Trong phương pháp này, đối tượng được theo vết dựa trên đường bao và hình dạng. Mục tiêu của việc theo vết hình chiếu là tìm vị trí của đối tượng trong mỗi khung hình thông qua một mô hình đối tượng được xây dựng từ các khung hình trước đó [11]. Với một mô hình đối tượng cho trước, các hình chiếu được theo vết dựa trên kĩ thuật so khớp hình dạng hoặc sự biến đổi đường biên. Ở [27], các nhà nghiên cứu thực hiện việc so khớp hình dạng dựa trên thông tin về cạnh của đối tượng và khoảng cách Hausdorff. Trong [28], vùng biểu diễn đối tượng được xác định dựa trên việc tính toán sự chuyển hóa đường biên qua từng khung hình. Các thành phần trực quan như màu và kết cấu được mô hình hóa, đồng thời thông tin hình dạng được dùng để tái tạo đối tượng trong trường hợp xảy ra sự che khuất một phần cơ thể, như minh họa ở hình 2.4. 9 Theo vết và xử lý che khuất dựa trên hình chiếu [28] d. Ước lượng tư thế Đây được xem như bước hậu xử lý trong thuật toán theo vết. Khi tất cả các quỹ đạo (2 chiều hoặc mô hình xấp xỉ 3 chiều) của các phần cơ thể được trích xuất thích hợp (dưới dạng các vectơ), ta có thể biểu diễn hành động được thực hiện. Ngoài ra, trong hệ thống chăm sóc sức khỏe, tư thế người còn hỗ trợ việc phục hồi chức năng thông qua việc phân tích chuyển động của bệnh nhân. Nhiều giải pháp đã được đề xuất để giải quyết các thách thức đang tồn tại như sự biến đổi tư thế hay khoảng cách từ đối tượng đến camera [29], được chia thành hai nhóm chính: sử dụng và không sử dụng mô hình. Nhóm giải pháp không sử dụng mô hình biểu diễn hình dạng người dưới dạng cấu trúc hình học ba chiều. Tư thế được biểu diễn dưới dạng điểm, ví dụ các khối tương ứng đầu và tay, hay các đoạn thẳng. Vì không có một mô hình cụ thể cho hành động, nên tư thế được ước lượng dựa trên tập dữ liệu huấn luyện, ví dụ như dữ liệu được thu bởi các hệ thống thu nhận chuyển động. Với các giải pháp ở nhóm còn lại, một mô hình khởi đầu được dùng để tham chiếu đến các thông tin liên quan được xác định dựa trên việc ước lượng dữ liệu, hoặc mô hình 10 này biểu diễn trực tiếp đối tượng quan sát và được cập nhật liên tục. Trong [30], các nhà nghiên cứu sử dụng mô hình hai chiều của phần đầu và vai để phát hiện và theo vết đối tượng, thông tin về tư thế tổng quát không được xác định chi tiết dẫn đến khó khăn trong trường hợp có che khuất. Để khắc phục nhược điểm này, nhiều giải pháp đã được đề xuất, ví dụ như [31], [32], [33], [34], [35], [36], thực hiện tái cấu trúc tư thế người với một mô hình cho trước. Đa số các phương pháp này sử dụng kĩ thuật phân tích tổng hợp, cụ thể là tách cơ thể đối tượng thành các phần riêng biệt để tối ưu mức độ tương tự giữa mô hình và ảnh quan sát. Với việc sử dụng mô hình cho trước, vấn đề che khuất có thể được xử lý và thống nhất các ràng buộc khác nhau vào trong một hệ thống. Nghiên cứu [37] sử dụng giải pháp này và mang lại hiệu quả cao trong việc xử lý vấn đề che khuất, tuy nhiên hệ thống chỉ hoạt động được nếu tư thế khởi tạo ban đầu là “đứng thẳng”. Các phương pháp theo vết dựa trên điểm phù hợp nhất với các đối tượng nhỏ, mặc dù cũng có thể sử dụng để theo vết các đối tượng kích cỡ lớn. Nhược điểm chính của hướng tiếp cận này là chi phí tính toán cao trong trường hợp số lượng điểm lớn. Tái cấu trúc đối tượng 3 chiều từ chuỗi ảnh hình chiếu [31] 11 Mô hình đối tượng chuyển động với vị trí đầu và các chi [37] e. Đánh giá Theo vết kernel có thể được sử dụng cho một hoặc nhiều đối tượng cùng lúc, đặc biệt là phù hợp khi áp dụng cho người để xác định vị trí trong ảnh. Thế mạnh lớn nhất của các giải pháp này là chi phí tính toán thấp nếu so với các hướng tiếp cận cùng mục tiêu. Tuy vậy, với các đối tượng có hình dạng phức tạp như người với các bộ phận tay chân và đầu, theo vết kernel chưa đủ mạnh để mô tả thông tin chi tiết về đối tượng. Để khắc phục nhược điểm của theo vết kernel, thông tin về hình chiếu đối tượng được sử dụng bởi tính linh hoạt trong việc xử lý lượng lớn thông tin về hình dạng. Mặc dù nhiều thuật toán theo vết dựa trên hình chiếu có thể xử lý che khuất, ví dụ [28], nhưng lại nhạy cảm với nhiễu. Trong môi trường ảnh chứa nhiều nhiễu, thông tin về hình dạng và đường bao của đối tượng được theo vết khó có thể trích xuất hiệu quả. Biểu diễn đặc trưng Kết quả theo vết trong mỗi khung hình được biến đổi thành một tập các đặc trưng với dạng biểu diễn có số chiều ít hơn thông tin ban đầu, gọi là vectơ đặc trưng. Như đã đề cập, cách mô tả đặc trưng đóng vai trò quan trọng trong các hệ thống thị giác máy tính nói chung và chăm sóc y tế nói riêng. Có rất nhiều phương pháp mô tả đặc trưng đã được đề xuất, được chia thành hai nhóm chính: đặc trưng số [38], [39], [40] và đặc trưng nhị phân [46], [47]. a. Đặc trưng dạng số Các đặc trưng này được biểu diễn dưới dạng các giá trị liên tục, trong đó phần lớn được trích xuất dựa trên thông tin hai chiều trong chuỗi ảnh. Có hai nhóm phương pháp mô tả đặc trưng số: dựa trên hình dạng và dựa trên vectơ chỉ hướng chuyển động. 12 Các giải pháp ở nhóm đầu tiên trích xuất hình chiếu của đối tượng chuyển động và nhận dạng hành vi dựa trên việc phân tích dữ liệu thu được [38], [39], [40], [41]. Nghiên cứu [41] biểu diễn hành động trong một ảnh đơn được gọi là ảnh cường độ chuyển động (MII). Ảnh này được tạo ra bằng cách canh giữa các hình chiếu đối tượng trong mỗi ảnh nhị phân (kết quả phép trừ nền hay phân đoạn) theo một điểm tham chiếu cố định, từ đó chuyển động được thu hẹp vào một khu vực có giới hạn. Ưu điểm của MII là sự đơn giản, độ hiệu quả và mạnh mẽ khi thực hiện trên ảnh chứa nhiễu. Một ví dụ về MII, với các dòng lần lượt là chuỗi ảnh đầu vào, chuỗi hình chiếu đối tượng trước và sau khi canh giữa, cuối cùng là MII [40] Ở [41], các nhà nghiên cứu sử dụng ảnh chuyển động tích lũy (AMI) để biểu diễn chuyển động trong một chuỗi ảnh, được tính bằng trung bình độ sai lệch từng cặp ảnh liên tiếp trong chuỗi. Để đảm bảo tính mạnh mẽ của đặc trưng, ảnh AMI được biến đổi kích thước thành một ảnh con kích thước NN và một ma trận xếp hạng được tạo ra dựa trên thứ hạng các giá trị trong ảnh đó. Một ví dụ minh họa hai ảnh con khác nhau nhưng có cùng giá trị ma trận xếp hạng được trình bày trong hình 2.9. 13 Ví dụ về ảnh chuyển động tích lũy 0 Ảnh con 33 Ảnh con 33 Ví dụ về hai hành động có cùng ma trận xếp hạng [41] Các giải pháp sử dụng vectơ chỉ hướng thường ước lượng hướng biến đổi cường độ của các điểm ảnh trong hai khung hình liên tiếp (thường gọi là luồng quang học), và sử dụng các thông tin về hướng cho việc nhận dạng hành động [42], [43], [44], [45]. Nghiên cứu tiên phong của hướng tiếp cận này được đề xuất ở [44] với tập dữ liệu ảnh được thu từ một khoảng cách xác định. Trong [43], các tác giả cũng trình bày một thuật toán nhận dạng hành động dựa trên luồng quang học và thông tin các phần của cơ thể. Ở [42], các nhà nghiên cứu thực hiện việc nhận dạng với chuỗi ảnh được thu dưới góc nhìn bất kỳ thông qua sự kết hợp các thành phần của luồng quang học với các vectơ đặc trưng về hình chiếu đối tượng, như minh họa ở hình 1.10.
- Xem thêm -

Tài liệu liên quan