Tài liệu Nghiên cứu và phát triển giải thuật phát hiện và theo vết người trên một mạng camera

.PDF

559

150

thanhphoquetoi Báo vi phạm

Tải xuống 150

Mô tả:

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI --------------------------------------- PHẠM ANH TUẤN NGHIÊN CỨU VÀ PHÁT TRIỂN GIẢI THUẬT PHÁT HIỆN VÀ THEO VẾT NGƯỜI TRÊN MỘT MẠNG CAMERA Chuyên ngành Công nghệ thông tin LUẬN VĂN THẠC SĨ KỸ THUẬT CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. VŨ HẢI Hà Nội - Năm 2015 LỜI CẢM ƠN Trước tiên, em muốn gửi lời cảm ơn sâu sắc nhất đến thầy giáo, Tiến sĩ Vũ Hải đã tận tình hướng dẫn em trong suốt quá trình thực hiện luận văn cao học. Em xin bày tỏ lời cảm ơn sâu sắc đến các thầy cô, các anh chị công tác tại viện nghiên cứu quốc tế MICA, đặc biệt là tại phòng Thị giác máy tính, đã luôn tạo điều kiện tốt nhất cho em học tập và công tác, giúp đỡ cho em cả về tri thức và kinh nghiệm sống, là hành trang giúp em vững bước trong tương lai. Em cũng xin chân thành cảm ơn chị Phạm Thị Thanh Thủy, NCS tại phòng Thị giác máy tính, Viện MICA, đã cho phép em sử dụng bộ dữ liệu chuẩn về định vị và định danh người trong môi trường cảm thụ. Em cũng muốn gửi lời cảm ơn đến tất cả các thầy cô đã dạy dỗ em các môn học trong học phần cao học, tất cả đều là những bài học bổ ích về chuyên môn cung cấp cho em những gợi mở quan trọng trong suốt quá trình nghiên cứu. Em xin cảm ơn đơn vị nơi công tác đã tạo điều kiện thuận lợi cho em hoàn thành luận văn này. Cuối cùng, em muốn gửi lời cảm ơn sâu sắc đến tất cả gia đình, bạn bè, những người luôn kịp thời động viên và giúp đỡ em vượt qua những khó khăn, đạt được những mục tiêu đề ra trong quá trình hoàn thành luận văn. HỌC VIÊN Phạm Anh Tuấn 1 LỜI CAM ĐOAN Tôi xin cam đoan luận văn được hoàn thành trên cơ sở nghiên cứu, tổng hợp các kiến thức và các công việc của tôi tại Viện nghiên cứu quốc tế MICA, Đại học Bách Khoa Hà Nội, thông qua các bài giảng của thầy hướng dẫn và qua các tài liệu tham khảo đã được trích dẫn đầy đủ. Luận văn này là mới, các đóng góp trong luận văn do bản thân tôi thực hiện, nghiên cứu, đúc rút, các thí nghiệm và các số liệu là có thực và được thực hiện tại Phòng Thị giác máy tính, Viện MICA, Đại học Bách Khoa Hà Nội. Tôi xin cam đoan các đóng góp này không sao chép nguyên bản từ bất kỳ một nguồn tài liệu nào. HỌC VIÊN Phạm Anh Tuấn 2 MỤC LỤC LỜI CẢM ƠN .............................................................................................................1 LỜI CAM ĐOAN .......................................................................................................2 MỤC LỤC ...................................................................................................................3 DANH MỤC CÁC KÝ HIỆU, CÁC TỪ VIẾT TẮT .................................................5 DANH MỤC CÁC HÌNH VẼ.....................................................................................6 MỞ ĐẦU .....................................................................................................................9 1.1. Bối cảnh và lí do chọn đề tài .........................................................................9 1.1. Nhiệm vụ đặt ra............................................................................................10 1.2. Những đóng góp chính của luận văn..........................................................10 1.3. Bố cục luận văn ............................................................................................10 Chương 1 . TÌM HIỂU CÁC BÀI TOÁN LIÊN QUAN VỀ PHÁT HIỆN VÀ THEO VẾT NGƯỜI TRONG MỘT MẠNG CAMERA ................................12 1.1. Phát hiện và theo vết người trên một camera ...........................................12 1.1.1. Các nghiên cứu liên quan về bài toán phát hiện người ..........................12 1.1.2. Các nghiên cứu liên quan về theo vết đối tượng ....................................14 1.2. Phát hiện và theo vết người trong mạng camera ......................................19 1.2.1. Phối ghép nhiều camera (Multiple Camera Calibration) .......................20 1.2.2. Theo dõi người trong một mạng camera ................................................21 1.2.3. Định danh lại người trong một mạng camera .........................................24 1.3. Giới hạn bài toán nghiên cứu của luận văn ...............................................29 Chương 2 . PHƯƠNG PHÁP PHÁT HIỆN NGƯỜI TRÊN MỘT CAMERA .......31 2.1. Phương pháp phát hiện người sử dụng các kỹ thuật trừ nền ..................33 2.1.1. Lọc trung bình (Running Average) ........................................................33 2.1.2. Lọc trung vị (Running Median)..............................................................35 2.1.3. Lọc trung bình Gaussian.........................................................................36 2.1.4. Mô hình Gauss hỗn hợp .........................................................................37 2.1.5. Mô hình hỗn hợp Gaussian thích nghi ...................................................40 2.2. Phát hiện và khử bóng .................................................................................43 2.2.1. Khử bóng sử dụng ngưỡng tỷ lệ chiều cao và chiều rộng của đối tượng .............................................................................................................44 2.2.2. Khử bóng sử dụng đặc trưng ảnh ...........................................................45 2.3. Phát hiện và theo vết đối tượng ..................................................................49 2.3.1. Phát hiện đối tượng người sử dụng HOG - SVM...................................49 2.3.2. Theo vết đối tượng .................................................................................54 Chương 3 . PHƯƠNG PHÁP PHỐI GHÉP HÀNH TRÌNH TRÊN MỘT MẠNG CAMERA .........................................................................................................56 3.1. Camera calibration ......................................................................................56 3.1.1. Camera Model ........................................................................................57 3.1.2. Hình học ánh xạ ......................................................................................58 3.1.3. Biến dạng thấu kính (Lens Distortions) .................................................59 3 3.2. Phương pháp phối ghép nhiều Camera .....................................................61 3.2.1. Chuẩn bị dữ liệu cho Calibration (Thu thập hình ảnh sàn nhà) .............62 3.2.2. Phép chiếu bird-eye view .......................................................................63 3.3. Phương pháp kết nối hành trình từ nhiều camera ...................................65 Chương 4 . KẾT QUẢ THỬ NGHIỆM ....................................................................67 4.1. Mô tả môi trường thử nghiệm ....................................................................67 4.2. Đánh giá hiệu quả của khử bóng đối với kết quả của kỹ thuật trừ nền .68 4.3. Đánh giá hiệu quả việc kết hợp bộ phát hiện HOG+SVM sau khi trừ nền ..........................................................................................................................69 4.4. Kết quả hành trình người di chuyển quan sát từ một mạng camera sử dụng bộ dữ liệu Ground-truth ......................................................................71 4.5. Kết quả vẽ hành trình từ mạng camera trong thực tế .............................72 KẾT LUẬN ...............................................................................................................73 TÀI LIỆU THAM KHẢO .........................................................................................75 4 DANH MỤC CÁC KÝ HIỆU, CÁC TỪ VIẾT TẮT Ký hiệu / Từ viết tắt CỤM TỪ ĐẦY ĐỦ DỊCH NGHĨA BGS Background Subtraction Kỹ thuật trừ nền FG Foreground Ảnh có đối tượng HOG Histogram of Oriented Gradients Biểu đồ các biến đổi trên các hướng PCA Principal component analysis Phân tích thành phần chính SDK Software Development Kit Bộ công cụ phát triển phần mềm SVM Support Vector Machine Bộ phân lớp máy hỗ trợ vectơ Calib Calibration Kỹ thuật căn chỉnh camera MOG Mixture of Gaussians Gauss hỗn hợp 5 DANH MỤC CÁC HÌNH VẼ Hình 1.1. Minh họa bài toán phát hiện người trong ảnh .....................................12 Hình 1.2. Sơ đồ khối của hướng tiếp cận 1 .........................................................13 Hình 1.3. Sơ đồ khối của hướng tiếp cận 2. ........................................................14 Hình 1.4. Bài toán nhận dạng xe trong các ảnh. ..................................................14 Hình 1.5. Minh hoạ kết quả bài toán theo vết người ...........................................15 Hình 1.6. Hai pha chu trình ước lượng: dự báo dựa trên thông tin tiên nghiệm và hiệu chỉnh theo thông tín đo lường mới [4] ...................................................19 Hình 1.7. Một số kỹ thuật được nghiên cứu đối với bài toán giám sát sử dụng mạng camera ..................................................................................................19 Hình 1.8. Tìm bộ tham số ngoài (ma trận R|t) giữa camera và hệ tọa độ thế giới thực .................................................................................................................20 Hình 1.9. Đối tượng được xác định lên trên nhiều khung hình camera ..............27 Hình 1.10. Các bước chính của bài toán phát hiện và theo dõi đối tượng người 30 Hình 2.1. Sơ đồ phương pháp đề xuất phát hiện và theo vết người trên một camera ............................................................................................................31 Hình 2.2. Sơ đồ thiết lập môi trường mạng camera sử dụng trong nghiên cứu của luận văn ....................................................................................................32 Hình 2.3. Một số hình ảnh thu thập từ Cam1 (hàng trên) và Cam 2 (hàng dưới) được sử dụng trong các mình họa trong các nội dung tiếp theo ....................32 Hình 2.4. Kết quả khi thực hiện thuật toán Running Average. trên Cam1 (a) và Cam2 (b) .........................................................................................................35 Hình 2.5. Kết quả khi thực hiện Running Median trên Cam1 (a) và Cam2 (b) ..36 Hình 2.6. Kết quả khi sử dụng trung bình Gaussian trên Cam1 (a) và Cam2 (b) ........................................................................................................................37 Hình 2.7. Kết quả trừ nền sử dụng mô hình hỗn hợp Gaussian trên Cam1 (a) và Cam2 (b) .........................................................................................................40 Hình 2.8. Kết quả trừ nền sử dụng mô hình hỗn hợp Gaussian thích nghi. (a) Kết quả trừ nền thu được trên Cam#1. (b) Kết quả trừ nền thu được trên Cam#2 ........................................................................................................................42 Hình 2.9. (a) Box màu đỏ đánh dấu vùng người phát hiện dựa trên blob của ảnh đã trừ nền; Box màu vàng đánh dấu vùng người đúng (ground-truth). (b) Ảnh kết quả trừ nền. ...............................................................................................43 Hình 2.10. Đối tượng được phát hiện bao gồm cả bóng .....................................44 Hình 2.11. Kết quả phát hiện đối tượng với bóng đã được tách. ........................45 Hình 2.12. Chuẩn bị dữ liệu xác định shadow cho quá hình học P (S | shadow) và P(H | shadow) ..........................................................................................47 Hình 2.13. Quan sát giá trị S và H tại các shadow pixel. ..............................47 Hình 2.14. Phân bố của P(S | shadow) và P(H | shadow) đối với vùng có bóng trong môi trường quan sát ..............................................................................48 6 Hình 2.15. Minh họa kết quả khử bóng. Hàng 1: các hình ảnh gốc, các frame thu cách nhau 2s. Hàng 2: kết quả trừ nền chưa khử bóng; Hàng 3: kết quả phát hiện các pixel bóng . Các pixel bóng được vẽ trên kết quả trừ nền với màu xám .................................................................................................................48 Hình 2.16. Thứ tự các Histogram với các góc khác nhau (từ 00 đến 1800). ........49 Hình 2.17. HOG đối với số bins lần lượt bằng 4 bins; 8 bins; và 16 bins. ..........50 Hình 2.18. Hai loại hình học block chính. ...........................................................50 Hình 2.19. Bộ phân loại SVM đơn giản với số chiều vector đặc trưng bằng 2. .51 Hình 2.20. Kết quả phát hiện người sử dụng HOG và SVM với Threshold=1.0 52 Hình 2.21. Kết quả sau khi quét cửa sổ HOG trên toàn bộ ảnh ..........................53 Hình 2.22. Kết quả sau khi quét cửa sổ HOG trên vùng mở rộng. .....................53 Hình 3.1. Quá trình tìm bộ tham số trong và hiệu chỉnh (sửa méo) đối với ảnh thu nhận từ một camera ..................................................................................56 Hình 3.2. Pinhole camera model .........................................................................57 Hình 3.3. Một mô hình tương đương của Pinhole camera ..................................58 Hình 3.4. Hình ảnh minh họa radial distortions ..................................................60 Hình 3.5. Méo Tangential ....................................................................................61 Hình 3.6. Hình ảnh chưa sửa méo và đã được sửa méo ......................................61 Hình 3.7. Phương pháp phối ghép nhiều Camera ................................................62 Hình 3.8. Hình ảnh thu được từ 2 Camera với cùng gốc tọa độ trong thế giới thực (điểm được đánh dấu màu vàng trên mặt sàn) .......................................62 Hình 3.9. Quá trình thu thập ảnh và kết quả phát hiện các góc của chessboard tại Cam1 được sử dụng cho Calibration. Hàng trên: Ảnh gốc thu thập từ Cam1. Ảnh dưới: Vị trí các điểm trên chessboard được phát hiện. Nhờ cấu hình biết trước của chessboard, các điểm tương ứng giữa các góc nhìn (1-2-3) được thiết lập ...........................................................................................................63 Hình 3.10. Xác định tọa độ 4 điểm trong ảnh thu được từ camera #1 và camera #2 ....................................................................................................................63 Hình 3.11 Hình chiếu Bird-eye-view từ ảnh quan sát của các camera Cam1 và Cam2 như minh họa trong Hình 3.10.............................................................64 Hình 3.12. Kết quả biến đổi ngược của ma trận H, phát hiện các điểm giao nhau giữa các viên gạch ..........................................................................................64 Hình 3.13. Kết quả khớp giữa các điểm giao nhau giữa các hàng gạch trên ảnh thu thập từ 2 camera .......................................................................................64 Hình 3.14. Kết quả phối ghép giữa hai camera dựa trên các điểm khớp tìm được ........................................................................................................................65 Hình 3.15. người phát hiện được khoanh bao bằng 1 hình chữ nhật. Tọa độ thấp nhất được đánh dấu ghi như trên ảnh .............................................................65 Hình 3.16- Kết quả vẽ hành trình (đường đỏ) của một người di chuyển trong môi trường. Hành trình bắt đầu ở frame #250 và kết thúc ở frame#1098. Một số điểm trung gian như frame #298 chỉ quan sát từ 1 camera và #907quan sát được từ cả hai camera. Các frame thu được từ các camera tại tương ứng mỗi vị trí được hiển thị dưới mỗi khung hình .......................................................66 7 Hình 4.1. Môi trường thử nghiệm........................................................................67 Hình 4.2. Các hình ảnh thu thập và chuẩn bị dữ liệu ground-truth cho thử nghiệm hệ thống. Theo hàng dọc: hình ảnh thu thập từ các camera Cam1, Cam2, và Cam3. Theo hàng ngang: các thử nghiệm khác nhau gồm: 1 người đi; 2 người đi; 5 người đi. Hiện tượng che khuất thấy rõ đối với trường hợp 5 người đi lại. ....................................................................................................68 Hình 4.3. Hiệu quả của khử bóng đối với kết quả trừ nền ..................................69 Hình 4.4. Kết quả vẽ hành trình khi có khử bóng và không khử bóng. (a). Giá trị lỗi Error tại mỗi frame. (b) Vẽ hành trình có và không có khử bóng sát với dữ liệu ground-truth.............................................................................................69 Hình 4.5. Hiệu quả của quá trình kềt hợp HOG+SVM và kết quả trừ nền .........70 Hình 4.6. Kết quả kết hợp trừ nền và bộ phát hiện HOG + SVM. Hàng 1: Chuỗi các frame gốc, các frame cách nhau 25-30 frames. Hàng 2: Kết quả sử dụng kỹ thuật trừ nền; Hàng 3: Kết quả áp dụng bộ phát hiện HOG + SVM . Nhiều vùng false postive xuất hiện. Hàng 4: Kết quả sau khi kết hợp (đóng khung màu đỏ). Vùng đóng khung màu vàng là dữ liệu Ground-truth. ....................70 Hình 4.7. Hành trình tổng hợp từ các camera giám sát với các thử nghiệm gồm 2 và 5 người đi lại trong môi trường. Hảnh trình tổng hợp từ 2 camera Cam1 và Cam2. Hành trình của mỗi người được vẽ theo màu khác nhau. ..............71 Hình 4.8. Hành trình được quan sát thường ngày thu từ Cam 1 sử dụng hệ thống đề xuất. Các frame cách nhau 2s. Trong mỗi khung hình: Góc trên: là ảnh thu từ camera. Góc trên bên phải: là kết quả ảnh trừ nền; Góc dưới bên phải: là ảnh sau khi khử bóng; Ảnh này sử dụng kết hợp HOG+SVM vẽ được vùng bao màu đỏ trên ảnh gốc. Hành trình theo trục thời gian được vẽ ở góc dưới bên trái (màu xanh) ........................................................................................72 Hình 4.9. Kết quả minh họa đối với Cam2. Các giải thích tương tự với Hình 4.8 ........................................................................................................................72 8 MỞ ĐẦU 1.1. Bối cảnh và lí do chọn đề tài Bài toán phát hiện và theo vết người sử dụng một mạng camera hình ảnh có nhiều ứng dụng trong giám sát đối với cả môi trường công cộng và môi trường có yêu cầu về an ninh. Một số ứng dụng có thể kể như: tự động theo dõi và giám sát trong và ngoài tòa nhà, sân bay, bến cảng, bãi đỗ xe, kho bãi; Trong y tế hoặc hỗ trợ người tàn tật: giám sát bệnh nhân, giám sát các tai nạn bất ngờ, theo dõi người già, trẻ em trong nhà. Để xây dựng các ứng dụng này, các lĩnh vực nghiên cứu liên quan đến bài toán phát hiện và theo vết người sử dụng trên một camera đã nhận được nhiều sự quan tâm của các nhà nghiên cứu trong lĩnh vực thị giác máy tính, học máy, tự động hóa. Hai hướng nghiên cứu chính đó là: bài toán phát hiện cho phép xác định sự tồn tại của người trong khung hình thu nhận được ở trong camera, trong khi đó bài toán theo vết cho phép kết nối các vùng phát hiện được của cùng một đối tượng ở các khung hình khác nhau, hoặc giữa các camera khác nhau khi điều kiện về môi trường thay đổi (như che khuất, thay đổi tỉ lệ ….). Bài toán phát hiện và theo vết đối tượng nói chung và đối tượng người nói riêng trên một mạng camera mạng camera ngoài phải giải quyết hai nội dung nghiên cứu trên, còn cần phải có các nội dung nghiên cứu khác như: phối ghép các góc nhìn từ nhiều camera; theo vết và định danh hoặc so khớp người dựa trên các đặc trưng ảnh từ các góc nhìn của camera khác nhau. Việc kết hợp thông tin từ nhiều camera trong mạng sẽ giúp việc mở rộng môi trường cần giám sát cũng như để nâng cao độ chính xác của hệ thống. Xuất phát từ những cơ sở khoa học trên, đề tài tập trung vào việc xây dựng và phát triển giải thuật phát hiện và theo vết người trong một mạng camera. Trong đó phương pháp đề xuất sẽ có thể phát hiện nhanh chóng, chính xác đối tượng người sử dụng kết hợp luồng dữ liệu hình ảnh thu thập kết hợp từ nhiều camera. Nội dung luận văn là một phần trong đề tài cấp bộ: “Nghiên cứu và phát triển hệ thống tìm đường tối ưu dựa trên thông tin định vị bằng hình ảnh, RFID và wifi, ứng dụng trợ giúp định hướng người khiếm thị trong môi trường ít ràng buộc” đang được Viện MICA thực hiện. 9 1.1. Nhiệm vụ đặt ra Mục đích của đề tài nhằm nghiên cứu thuật toán phát hiện và theo vết người đang chuyển động trên một mạng camera, từ đó xây dựng chương trình hỗ trợ với các chức năng sau: - Phát hiện người và theo vết người trên một mạng camera. - Cung cấp thông tin về sự di chuyển của người trong môi trường giám sát. - Bên cạnh đó đề tài còn mong muốn có một cái nhìn toàn diện hơn về vai trò và khả năng ứng dụng của công nghệ xử lý ảnh vào trong thực tế đời sống xã hội. Để hoàn thành mục tiêu trên, luận văn tập trung thực hiện các nhiệm vụ sau: - Tìm hiểu và đánh giá các giải thuật phát hiện và theo vết người. - Xây dựng kỹ thuật phối ghép (calibration) các camera trong mạng. - Cài đặt và đánh giá hiệu quả của các giải thuật đã đưa ra. 1.2. Những đóng góp chính của luận văn Đề tài tập trung nghiên cứu các kỹ thuật phù hợp của thị giác máy tính để thực hiện phát hiện và theo bám, phối ghép thông qua mạng cảm biến camera. Hệ thống đưa ra trong đề tài có thể làm việc trong môi trường hành lang tòa nhà, văn phòng, thư viện. Cụ thể, những đóng góp của tác giả như sau: - Kết hợp hiệu quả các kỹ thuật trừ nền, khử bóng và phát hiện người sử dụng bộ phát hiện người HOG (Histogram of Gradient). Đối với kỹ thuật trừ nền, phương pháp khử bóng sử dụng bộ phân lớp Bayesian đã được nghiên cứu. - Xây dựng kỹ thuật phối ghép luồng di chuyển của người giữa hai (nhiều) camera thông qua sử dụng hệ tọa độ định nghĩa trên mặt sàn. Phương pháp đặc biệt thích hợp với môi trường trong tòa nhà nơi có cấu trúc sàn được quan sát rõ ràng chi tiết. Kỹ thuật ghép nối giữa các camera đảm bảo thống nhất và chính xác khi ghép nối các luồng di chuyển giữa các camera. - Hệ thống xây dựng đã được đánh giá và kiểm tra thử nghiệm đối với hoạt động người di chuyển tại môi trường thực là tầng 8 tòa nhà B1, Viện MICA, ĐHBK Hà Nội. 1.3. Bố cục luận văn Nội dung chính của luận văn được chia thành 6 phần như sau: 10 Mở đầu: Phần mở đầu này trình bày bối cảnh, lý do, mục tiêu nghiên cứu, những đóng góp chính và bố cục của luận văn. Nội dung các chương tiếp theo cụ thể như sau: Chương 1. Tìm hiểu các bài toán liên quan về phát hiện và theo vết người trong một mạng camera: Chương này trình bày những tìm hiểu các hướng nghiên cứu cơ bản trong nước và quốc tế về bài toán phát hiện và theo vết người trong một mạng camera. Đặc biệt luận văn đề cập đến các kỹ thuật chính cần giải quyết khi sử dụng một mạng camera để giám sát như: Tạo bản đồ kết nối nhiều camera; Thuật toán phát hiện và định danh lại đối tượng (người) khi quan sát trên các camera khác nhau; Thuật toán theo vết đối tượng trong một mạng camera. Chương 2. Phương pháp phát hiện người sử dụng một camera: Chương này đầu tiên trình bày về các thiết lập môi trường của bài toán nghiên cứu. Đề tài sẽ tập trung vào phát triển một hệ thống theo dõi, giám sát người di chuyển trong hành lang một tòa nhà. Để giải quyết vấn đề này, nội dung nghiên cứu của chương này sẽ đề xuất giải pháp cho việc phát hiện người sử dụng một camera trong mạng. Các kỹ thuật bao gồm: Phát hiện người di chuyển sử dụng các kỹ thuật trừ nền; Khử bóng người; Phương pháp kết hợp giữa phát hiện người sau khi trừ nền và mô hình đặc trưng HOG và bộ phân lớp SVM. Chương 3. Phương pháp theo vết người trên một mạng camera: Sử dụng kết quả về phát hiện người từ một camera trong Chương 4, chương này trình bày về các kỹ thuật đề xuất cho việc theo vết người (đối tượng cần quan tâm) từ các quan sát của các camera khác nhau trong mạng. Các kỹ thuật đề xuất bao gồm: Phối ghép nhiều camera để tạo thành bản đồ với một gốc tọa độ duy nhất; Theo vết đối tượng cần quan tâm; Xác định vùng giao và khớp hành trình khi người di chuyển qua các vùng quan sát của các camera khác nhau. Chương 4. Kết quả thử nghiệm: Trình bày việc xây dựng thử nghiệm trong môi trường hành lang tòa nhà; Đánh giá các giải pháp kỹ thuật đề xuất ở Chương 2 và Chương 3; Những thử nghiệm này được thực hiện tại hành lang tầng 8, tòa nhà B1, Trường Đại học Bách khoa Hà Nội. Kết luận: Chương này tổng kết các kết quả đã đạt được của luận văn cùng với các hướng phát triển trong tương lai. 11 Chương 1. TÌM HIỂU CÁC BÀI TOÁN LIÊN QUAN VỀ PHÁT HIỆN VÀ THEO VẾT NGƯỜI TRONG MỘT MẠNG CAMERA 1.1. Phát hiện và theo vết người trên một camera Phát hiện và theo vết người từ camera là một trong những chủ đề nghiên cứu sôi nổi nhất trong lĩnh vực thị giác máy tính do khả năng ứng dụng rộng rãi của nó trong các ứng dụng khác nhau như theo vết giám sát, đánh chỉ mục dựa trên nội dung hay tương tác người máy. 1.1.1. Các nghiên cứu liên quan về bài toán phát hiện người Bài toán phát hiện người trong ảnh là bài toán phát hiện sự có mặt của người xuất hiện trong ảnh, nếu có xác định vị trí của họ với một ảnh cho trước. Hình 1.1 minh họa kết quả của bài toán phát hiện người trong ảnh [1]. Thông thường, bài toán phát hiện người cho phép khởi tạo các bộ theo vết hoặc tạo các liên kết quan sát đối tượng trong quá trình theo vết. Hình 1.1. Minh họa bài toán phát hiện người trong ảnh Mặc dù đã thu hút được nhiều sự quan tâm của các nhà nghiên cứu từ nhiều thập kỷ qua, bài toán phát hiện đối tượng vẫn còn nhiều thách thức do : - Sự đa dạng trong thể hiện hình dáng người trên các khung hình do sự đa dạng của từng cá thể người, tư thế người; - Điều kiện thu nhận ảnh khác nhau (góc nhìn camera, điều kiện chiếu sáng, phông nền) làm cho khó có thể xây dựng một bộ mô tả toàn diện về lớp “người” cho phép phân biệt với lớp “không người”. - Sự che khuất, hoặc có nhiều đối tượng xuất hiện trên phông nền phức tạp. Phương pháp phát hiện người được chia thành hai hướng tiếp cận chính: - Hướng tiếp cận thứ nhất: Trước tiên, các vùng được xem là có người sẽ được tách ra khỏi các vùng nền. Sau đó, các thuật toán nhận dạng đối tượng sẽ được 12 áp dụng trên các vùng được xem là có người. Hình 1.2 sẽ biểu diễn sơ đồ khối của hướng tiếp cận thứ nhất. Các nghiên cứu trong [15] thực hiện theo hướng tiếp cận này. Theo các tác giả, tất cả các đối tượng đều có ít nhất một trong ba đặc điểm để phân biệt chúng với các đối tượng khác hoặc môi trường: + Một đường biên đóng rõ ràng trong không gian + Sự khác biệt của đối tượng với môi trường xung quanh + Đôi khi, đối tượng là duy nhất và nổi bật trong ảnh Bò Ảnh, khung hình thu nhận được từ camera Nhận dạng đối tượng Phát hiện đối tượng Người Vùng chứa đối tượng và nhãn của đối tượng Hình 1.2. Sơ đồ khối của hướng tiếp cận 1 Trên thực tế, có những đối tượng chỉ thỏa mãn một trong số ba đặc điểm nêu trên song cũng có nhiều đối tượng thoả mãn đồng thời cả ba đặc điểm này. Dựa trên ba đặc điểm quan trọng này của đối tượng trong ảnh, bốn đặc trưng sau đây được đề xuất để biểu diễn đối tượng: + Bản đồ đo độ nổi bật đa tỉ lệ (Multi-scale saliencymap) + Độ tương phản màu sắc (Color contrast) + Mật độ biên (Edge density) + Các vùng ảnh xác định bởi giải thuật phân vùng (Image segmentation) - Hướng tiếp cận thứ hai: Các tác giả thực hiện huấn luyện các bộ phân loại nhị phân: có đối tượng quan tâm và không có đối tượng quan tâm. Như vậy ứng với bài toán cần phát hiện N đối tượng ta phải tiến hành xây dựng N bộ phân lớp. Đối với hướng tiếp cận này, các tác giả thường sử dụng kỹ thuật cửa sổ quét. Một cửa sổ với nhiều kích thước được quét trên toàn bộ ảnh. Trong mỗi lần quét, các đặc trưng trên cửa sổ sẽ được tính toán và ước lượng xem cửa sổ đó có chứa đối tượng thuộc vào lớp quan tâm hay không. 13 Bò Ảnh, khung hình thu nhận được từ camera Phát hiện và nhận dạng đối tượng Người Vùng chứa đối tượng và nhãn của đối tượng Hình 1.3. Sơ đồ khối của hướng tiếp cận 2. Hình 1.4 giới thiệu một bài toán thuộc hướng tiếp cận này. Bài toán nhằm phát hiện các xe có trong ảnh. Để thực hiện được điều đó, một cửa sổ quét sẽ được dịch chuyển ở trong ảnh. Với mỗi cửa sổ, bộ phân lớp nhị phân sẽ quyết định sự tồn tại của xe hay không trên cửa sổ đó. Tùy thuộc vào từng đối tượng quan tâm mà người ta sẽ xây dựng các bộ phân lớp và trích chọn các đặc trưng phù hợp. Bài toán phát hiện mặt người [17] hay phát hiện người [6] cũng là các bài toán đi theo hướng tiếp cận này. Hình 1.4. Bài toán nhận dạng xe trong các ảnh. Việc phân chia các phương pháp phát hiện và nhận dạng theo hai hướng tiếp cận cho phép làm rõ trật tự thực hiện của từng công việc trong các phương pháp. Nhìn chung dù các phương pháp đi theo hướng tiếp cận thứ nhất hay hướng tiếp cận thứ hai đều cần tập trung làm rõ loại đặc trưng và phương pháp học được sử dụng trong các phương pháp. 1.1.2. Các nghiên cứu liên quan về theo vết đối tượng Bài toán theo vết người trong video hay từ camera được định nghĩa như sau: Theo vết đối tượng ảnh trong video (object tracking) là thực hiện dự đoán quỹ đạo chuyển động của đối tượng trên mặt ảnh phẳng khi đối tượng đó di chuyển. Nói cách khác, một bộ theo vết (object tracker) sẽ tiến hành gán nhãn tương ứng cho đối 14 tượng bị theo vết (object-observation assignment) qua các khung hình (frame) liên tiếp của video. Các phương pháp theo vết đối tượng người thường gặp một số khó khăn như: - Do cùng một cá thể người nhưng thể hiện ở các khung hình liên tiếp lại rất khác nhau gây khó khăn cho việc gán quan sát đối tượng. - Theo vết cũng gặp khó khăn như thiếu quan sát (do bộ phát hiện chưa tối ưu, các đối tượng che khuất lẫn nhau) hoặc có nhiều quan sát (bài toán theo vết nhiều người cùng một lúc). Như vậy, để thực hiện việc theo vết, tại mỗi frame video phải có dữ liệu quan sát về đối tượng. Dữ liệu này thường lấy được thông qua các bộ phát hiện đối tượng (object detectors). Hình 1.5 minh họa kết quả của bài toán theo vết người [1]. Quỹ đạo chuyển động của một người là kết nối vị trí của họ trong các khung hình kế tiếp. Mỗi quỹ đạo được biểu diễn bởi một màu. Hình 1.5. Minh hoạ kết quả bài toán theo vết người Tùy thuộc vào mục đích ứng dụng, theo vết đối tượng ảnh trong video có thể chia thành hai trường hợp: bài toán theo vết một đối tượng (single object tracking) và bài toán theo vết nhiều đối tượng (multiple object tracking). Đối với trường hợp theo vết một đối tượng, việc gán quan sát đối tượng được thực hiện một cách dễ dàng. Trọng tâm của bài toán này là giải thuật để xác định chuyển động của đối tượng xảy ra ở đâu, xảy ra như thế nào, và hướng của chuyển động của đối tượng. Bài toán theo vết nhiều đối tượng thường gặp hơn trong thực tế, do các ứng dụng đòi hỏi giám sát nhiều hơn một đối tượng cùng một lúc rất phổ biến. Ví dụ như tại các bến tàu điện ngầm, sân bay, hay siêu thị, hệ thống camera phải quan sát số 15 lượng lớn phương tiện và người di chuyển, hoạt động. Hoặc trên các tuyến đường quốc lộ, công việc điều phối luồng giao thông yêu cầu quan sát không chỉ một mà nhiều xe cộ đi lại trên đường. Thông thường một hệ thống theo vết giám sát và phân tích sự kiện qua video gồm ba bước chủ yếu sau: + Phát hiện các đối tượng chuyển động (detection of moving objects). + Theo vết đối tượng qua các frame ảnh (object tracking). + Phân tích chuyển động để nhận biết trạng thái (analysis of object). Như vậy, bước theo vết làm nhiệm vụ kết nối các quan sát của cùng một đối tượng theo thời gian, để từ đó đưa ra thông tin về hành vi của đối tượng cũng như sự kiện đang xảy ra. Có thể thấy, bước này là bước thứ hai, thực hiện sau phát hiện đối tượng. Tức là, chỉ khi xác định được đối tượng cần quan tâm, mới có thể tiến hành theo vết và phân tích. Một số phương pháp theo vết đối tượng ảnh phổ biến có thể kể đến: - Xây dựng mẫu chuyển động (motion templates): Mẫu chuyển động được nghiên cứu lần đầu tiên tại phòng thí nghiệm MIT Media Lab, sau đó được phát triển bởi Bradski và Davis [3]. Đây là một phương pháp rất hiệu quả để theo dõi những chuyển động thông thường, đặc biệt cho các ứng dụng về nhận dạng cử chỉ. Để thực hiện so khớp mẫu, trước hết cần xác định dáng (silhouette) hay một phần dáng của đối tượng. Silhouette đối tượng ảnh có thể được được xác định thông qua một số kỹ thuật trừ nền và phân đoạn ảnh. Khi đối tượng di chuyển, bản sao dáng đối tượng mới nhất được cập nhật vào “ảnh lưu trữ chuyển động” MHI (motion history image), được gán nhãn thời gian với độ chính xác dấu phảy động (floating point timestamp). Ảnh MHI chính là biểu diễn của mẫu chuyển động. Tùy theo một mức pixel hay một ngưỡng thời gian cài đặt thích hợp, các pixel trong ảnh MHI nhỏ hơn ngưỡng sẽ bị xóa về không. Kết quả cuối cùng là một mẫu chuyển động, hay tập hợp dáng của đối tượng xếp chồng theo thời gian. Từ đó, có thể sử dụng kết quả này để tính toán và dự báo hướng, vị trí tiếp theo của đối tượng. - Theo vết mean-shift và camshift Mean-shift và camshift là hai kỹ thuật của toán phân tích dữ liệu được ứng dụng vào lĩnh vực xử lý ảnh. Do chúng khá phức tạp và đòi hỏi những nghiên cứu 16 chuyên sâu nên ở đây sẽ chỉ trình bày một số nét chính và quan hệ giữa chúng với bài toán theo dõi đối tượng ảnh. Chi tiết cụ thể hơn có thể xem tại [5]. Giải thuật mean-shift là phương pháp tìm vùng cực trị địa phương từ phân bố mật độ một tập dữ liệu. Nó hoạt động tốt với những phân bố liên tục và kém hiệu quả trên những tập dữ liệu rời rạc. Các bước trong giải thuật mean-shift [4]: 1) Chọn cửa sổ tìm kiếm: vùng khởi tạo, loại (đa thức, hàm mũ, hay Gaussian), dạng (đối xứng hay lệch, tròn hay chữ nhật, khả năng xoay), kích thước (giới hạn hay có thể mở rộng). 2) Tính toán trọng tâm cửa sổ (window’s center of mass) với trọng số. 3) Định tâm cửa sổ tại trọng tâm đã tìm được. 4) Quay lại bước 2 cho đến khi cửa sổ dừng di chuyển. Từ các bước của giải thuật nhận thấy, khi có chuyển động, vùng cửa sổ thay đổi và ta phải tiến hành lại quá trình định tâm. Quá trình này luôn hội tụ về một vector mean-shift của 0, nghĩa là không còn có dịch chuyển. Vùng hội tụ nằm ở khu vực cực đại (đỉnh) phân bố bên trong cửa sổ. Những cửa sổ kích thước khởi tạo khác nhau sẽ xác định các đỉnh khác nhau. Có thể sử dụng mô hình tìm kiếm của giải thuật vào bài toán theo dõi đối tượng trong video. Bởi vì histogram hai chiều của ảnh có dạng phân bố mật độ của một không gian hai chiều. Các phương trình của giải thuật mean-shift được đơn giản hóa khi áp dụng vào trường hợp ảnh 2D gồm [4]: + Mô men zero (zeroth moment): M 00   I  x, y  x y + Mô men bậc nhất (the first moment): M 10   xI  x, y  , M 01   yI  x, y  x x y y + Trọng tâm phân bố pixel ảnh: xc  M 10 M , yc  01 M 00 M 00 Có thể hình dung giải thuật mean-shift trong theo dõi đối tượng gồm ba bước. Đầu tiên, chọn một phân bố đặc trưng để biểu diễn đối tượng. Sau đó, tiến hành tìm 17 cửa sổ mean-shift trên toàn bộ phân bố đặc trưng của đối tượng. Cuối cùng, tính toán phân bố đặc trưng như đã lựa chọn qua frame kế tiếp. Giải thuật camshift (continuously adaptive mean-shit) gần tương tự như giải thuật mean-shift. Điểm khác biệt nằm ở chỗ mean-shift thiết kế cho các phân bố tĩnh còn camshift dùng cho trường hợp phân bố động. Ví dụ trường hợp các đối tượng trong video di chuyển và thay đổi cả kích thước lẫn vùng phân bố đặc trưng theo thời gian. Khi xử lý, giải thuật camshift sẽ tự động điều chỉnh kích thước cửa sổ tìm kiếm cho phù hợp. Mean-shift và camshift là các phương pháp hiệu quả trong bài toán theo dõi đối tượng. Tuy nhiên, nhược điểm là thời gian tính toán lớn, và do chỉ tối ưu hóa cục bộ nên khi màu nền và màu đối tượng ảnh gần giống nhau, phương pháp sẽ không còn tác dụng. - Xây dựng bộ ước lượng Giả sử nhiệm vụ đặt ra cho chúng ta là theo dõi người đi bộ ngang qua một camera. Tại mỗi frame, tiến hành xác định vị trí của người di chuyển. Sau đó, bằng cách nào đó, chúng ta thực hiện một dự đoán về vị trí của người đi bộ trong frame kế tiếp. Sự dự đoán này tất nhiên sẽ không thể chính xác tuyệt đối. Nguyên nhân kể đến có rất nhiều, như sai số của thiết bị đo, việc tính toán xấp xỉ trong quá trình xử lý. sự xuất hiện của bóng hay người di chuyển bị che khuất, hay sự thay đổi hình dạng khi người đi bộ do tay hoặc chân của họ đu đưa. Với bất kể nguyên nhân gì, chúng ta hy vọng phép đo sẽ chỉ thay đổi một cách ngẫu nhiên, xung quanh giá trị nhận được từ “thiết bị đo lý tưởng”. Tức là, thay vì quan tâm đến các nguồn gây mất chính xác, chúng ta thay thế chúng bằng cách mô hình hóa các nguồn gây nhiễu trong quá trình xử lý. Quay trở lại với bài toán, chúng ta có khả năng ước lượng chuyển động của người bằng cách sử dụng tối đa những thông tin chúng ta đã đo được. Theo cách như vậy, việc tích lũy thông tin theo quá trình sẽ giúp phát hiện được phần nào đó chuyển động không bị ảnh hưởng nhiều bởi nhiễu. Điểm quan trọng ở đây là cần xây dựng được một mô hình cho chuyển động của người. Chẳng hạn như giả thiết chuyển động của người với điều kiện “người tiến vào frame từ một hướng và đi ngang qua frame với vận tốc cố định”. Khi xây dựng mô hình như vậy, chúng ta có 18 thể yêu cầu không chỉ thông tin về vị trí của người mà cả những tham số khác của mô hình với sự trợ giúp từ các quan sát hay phép đo của chúng ta. Hình 1.6. Hai pha chu trình ước lượng: dự báo dựa trên thông tin tiên nghiệm và hiệu chỉnh theo thông tín đo lường mới [4] Tóm lại, nhiệm vụ theo dõi đặt ra ở trên sẽ chia thành hai pha (Hình 1.6). Trong pha thứ nhất, gọi là pha dự báo (prediction phase), chúng ta sử dụng thông tin học được từ quá khứ để lọc ra từ mô hình của chúng ta vị trí tiếp theo của người hay đối tượng. Trong pha thứ hai, gọi là pha hiệu chỉnh (correction phase), chúng ta thực hiện phép đo mới và sau đó căn cứ vào giá trị này hiệu chỉnh lại dự đoán dựa trên phép đo trước đó. 1.2. Phát hiện và theo vết người trong mạng camera Hạn chế của việc phát hiện và theo vết người sử dụng một camera duy nhất là vùng theo dõi người nhỏ, không thể mở rộng. Các hệ thống giám sát sử dụng mạng camera đã được phát triển. Nhiệm vụ chính của các hệ thống này là trích chọn các thông tin hữu ích (người xuất hiện, di chuyển) một cách tự động thông qua các thuật toán về phát hiện, theo bám, nhận dạng đối tượng cần quan tâm, nhận dạng hành động của đối tượng trong mạng camera. Hình 1.7 trình bày một số kỹ thuật về thị giác máy tính thường được sử dụng đối với bài toán theo vết và phát hiện người trong một mạng camera. Hình 1.7. Một số kỹ thuật được nghiên cứu đối với bài toán giám sát sử dụng mạng camera 19

- Xem thêm -

Tài liệu Nghiên cứu và phát triển giải thuật phát hiện và theo vết người trên một mạng camera

Tài liệu liên quan

Tài liệu vừa đăng

Tài liệu xem nhiều nhất