Đăng ký Đăng nhập
Trang chủ Tái định danh đối tượng cho tập camera quan sát ...

Tài liệu Tái định danh đối tượng cho tập camera quan sát

.PDF
74
1
75

Mô tả:

ĐẠI HỌC QUỐC GIA TP.HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA ———————————– VŨ TRUNG HIẾU TÁI ĐỊNH DANH ĐỐI TƯỢNG CHO TẬP CAMERA QUAN SÁT Chuyên ngành: Khoa Học Máy Tính Mã số: 8.48.01.01 LUẬN VĂN THẠC SĨ TP. HỒ CHÍ MINH, tháng 8 năm 2021 CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA ĐHQG-HCM Cán bộ hướng dẫn khoa học: TS. Nguyễn Lê Duy Lai Cán bộ chấm nhận xét 1: TS. Nguyễn Văn Sinh Cán bộ chấm nhận xét 2: PGS. TS. Huỳnh Trung Hiếu Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG Tp. HCM ngày 5 tháng 8 năm 2021 (Trực tuyến). Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: (Ghi rõ họ, tên, học hàm, học vị của Hội đồng chấm bảo vệ luận văn thạc sĩ) 1. Chủ Tịch: PGS. TS. Thoại Nam 2. Thư Ký: TS. Lê Thành Sách 3. Phản Biện 1: TS. Nguyễn Văn Sinh 4. Phản Biện 2: PGS. TS. Huỳnh Trung Hiếu 5. Ủy Viên: TS. Nguyễn Lê Duy Lai Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý chuyên ngành sau khi luận văn đã được sửa chữa (nếu có). CHỦ TỊCH HỘI ĐỒNG TRƯỞNG KHOA KHOA HỌC VÀ KỸ THUẬT MÁY TÍNH ĐẠI HỌC QUỐC GIA TP.HCM CỘNG HOÀ XÃ HỘI CHỦ NGHĨA VIỆT NAM TRƯỜNG ĐẠI HỌC BÁCH KHOA Độc lập - Tự Do - Hạnh Phúc NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ và tên học viên: Vũ Trung Hiếu MSHV: 1970215 Ngày, tháng năm sinh: 18/11/1996 Nơi sinh: Ninh Thuận Ngành: Khoa học Máy Tính Mã số: 8480101 I. TÊN ĐỀ TÀI: – Tái định danh đối tượng cho tập camera quan sát II. NHIỆM VỤ VÀ NỘI DUNG : – Tìm hiểu bài toán phân loại người đi bộ dựa trên nội dung ảnh. – Đề xuất và hiện thực những mô hình trích xuất đặc trưng phân biệt cho người đi bộ trong hệ thống camera quan sát. – So sánh hiệu quả của những mô hình đề xuất và những công trình nghiên cứu liên quan trong thời gian gần đây. III. NGÀY GIAO NHIỆM VỤ: 20/01/2021 IV. NGÀY HOÀN THÀNH NHIỆM VỤ: 20/06/2021 V. CÁN BỘ HƯỚNG DẪN: TS. Nguyễn Lê Duy Lai Tp. HCM, ngày ........ tháng ......... năm 2021 CÁN BỘ HƯỚNG DẪN CHỦ NHIỆM BỘ MÔN ĐÀO TẠO (Họ tên và chữ ký) (Họ tên và chữ ký) TRƯỞNG KHOA KHOA HỌC VÀ KỸ THUẬT MÁY TÍNH (Họ tên và chữ ký) Lời cảm ơn Đầu tiên, tôi xin được bày tỏ lòng biết ơn sâu sắc tới TS. Lê Thành Sách và TS. Nguyễn Lê Duy Lai, người đã hướng dẫn tôi trong suốt quá trình thực hiện luận văn cũng như đề cương. Nhờ có những chỉ dẫn và góp ý của thầy mà tôi mới có thể hoàn thành tốt được đề tài luận văn này. Tôi xin được gửi lời cảm ơn đến quý thầy cô khoa Khoa học và Kỹ thuật máy tính đã truyền thụ những kiến thức, kinh nghiệm quý báu cho tôi trong hơn hai năm qua. Xin gửi lời tri ân đến tất cả các thành viên trong nhóm luận văn của thầy Sách vì những sự giúp đỡ và hỗ trợ trong suốt quá trình thực hiện luận văn. Cuối cùng, tôi xin gửi lời cảm ơn chân thành đến gia đình và bạn bè, những người đã luôn động viên, ủng hộ tôi trong suốt thời gian học cao học. Thành phố Hồ Chí Minh, 06/2021 Vũ Trung Hiếu i Tóm tắt Tái định danh người là một bài toán đầy thử thách nhằm truy xuất tất cả các hình ảnh khớp với hình ảnh truy vấn trong một hệ thống camera quan sát. Do những thay đổi đáng kể của góc nhìn và điều kiện môi trường, việc trích xuất được các đặc trưng phân biệt là chìa khóa thành công của việc tái định danh người. Trong luận văn này, tác giả đề xuất mạng POSNet, một phương pháp dựa trên OSNet kết hợp với luồng học theo từng phần giúp mạng học tập trung vào cả đặc trưng toàn cục và cục bộ. Một nhánh của mô hình POSNet tập trung vào việc trích xuất các đặc trưng trên toàn bộ ảnh, trong khi nhánh kia dành cho việc trích xuất đặc trưng của từng phần trong bức ảnh. Luồng học cục bộ sử dụng chiến lược phân vùng đều nhau và gom lại thành một vector đặc trưng trong quá trình học phân lớp. Luồng còn lại tận dụng OSNet để tạo ra vector đặc trưng toàn cục. Hai luồng kết hợp lại thành một vector đặc trưng duy nhất dùng để đánh giá mô hình. POSNet đạt được kết quả tích cực trên tập dữ liệu CHUK03 khi so sánh với các công trình nghiên cứu trong vài năm qua. ii Abstract Person Re-Identification is a challenging task that retrieves all instances of a query image across a closed circuit television (CCTV). Due to the various extreme changes of view, learning diverse features is key to the success of person re-identification. In this work, the author introduces the POSNet, a method based on OSNet with part-based stream that pushes the network to focus on learning both global and local features. One branch of the proposed POSNet is for global feature representation, while the other is for local feature representation. The local branch uses a uniform partition strategy for part-level feature resolution but yields only a single identity-prediction loss. The global branch utilizes the OSNet to produce global feature vector, which is combined with local feature vector to reach higher performance. POSNet achieves positive results on CHUK03 dataset when compared with the related researches over the past few years. iii Lời cam đoan Tôi là Vũ Trung Hiếu học viên cao học khoa Khoa Học và Kĩ Thuật Máy Tính, Đại học Bách Khoa TP. HCM, MSHV 1970215. Tôi xin cam đoan rằng luận văn thạc sĩ "Tái định danh đối tượng cho tập camera quan sát" là kết quả tìm hiểu, nghiên cứu độc lập của chính bản thân. Tôi xin cam đoan: 1. Luận văn được thực hiện cho mục đích tìm hiểu và nghiên cứu ở bậc cao học 2. Các công trình, bài báo tham khảo để xây dựng nên luận văn này đều được trích dẫn, tham khảo. Tất cả các tài liệu được trích dẫn và có tính kế thừa từ các tạp chí và các công trình nghiên cứu đã được công bố 3. Những công cụ, phần mềm cho quá trình thực hiện luận văn đều là phần mềm mã nguồn mở 4. Hình ảnh và số liệu được trích dẫn nguồn tham khảo rõ ràng 5. Kết quả nghiên cứu được trình bày trung thực dựa trên số liệu thực tế khi chạy chương trình TP. Hồ Chí Minh, Ngày 13 Tháng 05 Năm 2021 Học viên Vũ Trung Hiếu iv Mục lục 1 Giới thiệu 1.1 Mở đầu . . . . . . . . . . . . . . . . . . . . 1.2 Ý nghĩa đề tài . . . . . . . . . . . . . . . . . 1.3 Tình hình nghiên cứu . . . . . . . . . . . . . 1.4 Mục tiêu, phạm vi và đối tượng nghiên cứu . 1.4.1 Mục tiêu . . . . . . . . . . . . . . . . 1.4.2 Phạm vi nghiên cứu . . . . . . . . . 1.4.3 Đối tượng nghiên cứu . . . . . . . . . 1.5 Bố cục của luận văn . . . . . . . . . . . . . 2 Cơ 2.1 2.2 2.3 2.4 sở lý thuyết Mạng neuron nhân tạo . . . . . . . . Gradient descent và lan truyền ngược Kiến trúc mạng học sâu tích chập . . Một số lớp tính toán trong CNN . . . 2.4.1 Lớp Pooling . . . . . . . . . . 2.4.2 Lớp BactchNorm . . . . . . . 2.4.3 Lớp BNNeck . . . . . . . . . . 2.5 Chiến lược huấn luyện mạng học sâu 2.5.1 Học theo epoch . . . . . . . . 2.5.2 Học theo episode . . . . . . . 2.6 Các độ đo thường gặp . . . . . . . . 2.6.1 Độ chính xác . . . . . . . . . 2.6.2 Precision và Recall . . . . . . 2.7 Các hàm mất mát . . . . . . . . . . . 2.7.1 Triplet loss . . . . . . . . . . 2.7.2 Center loss . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1 2 3 4 4 5 5 5 . . . . . . . . . . . . . . . . 6 6 7 9 10 10 11 12 14 14 15 16 16 16 17 17 19 3 Các hướng tiếp cận và công trình liên quan 3.1 Bài nghiên cứu Spatial-Temporal Person Re-identification . . . . . . . . 3.2 Bài nghiên cứu Beyond Part Models: Person Retrieval with Refined Part Pooling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . v 20 20 23 MỤC LỤC 3.3 3.4 3.5 Bài nghiên cứu Omni-Scale Feature Learning . . . . . . . . . . . . . . . Bài nghiên cứu Relation-Aware Global Attention . . . . . . . . . . . . . Bài nghiên cứu Salience-Guided Cascaded Suppression Network . . . . 4 Phương pháp đề xuất 4.1 Phương pháp và thí 4.2 Phương pháp và thí 4.3 Phương pháp và thí 4.4 Phương pháp và thí 26 29 30 . . . . 32 32 33 34 35 . . . . . . . . . . 37 37 37 38 39 41 41 41 45 50 53 6 Kết Luận 6.1 Tổng kết kết quả . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.2 Hướng nghiên cứu tiếp theo . . . . . . . . . . . . . . . . . . . . . . . . 56 56 57 Tài liệu tham khảo 58 A Bảng đối chiếu thuật ngữ Anh - Việt 61 nghiệm nghiệm nghiệm nghiệm 1 2 3 4 . . . . . . . . . . . . 5 Kết quả thực nghiệm 5.1 Thu thập và tiền xử lý dữ liệu . . . 5.1.1 Dữ liệu . . . . . . . . . . . . 5.1.2 Tiền xử lý dữ liệu . . . . . . 5.2 Độ đo đánh giá kết quả nghiên cứu 5.3 Môi trường thực hiện . . . . . . . . 5.4 Kết quả thí nghiệm . . . . . . . . . 5.4.1 Thí nghiệm 1 . . . . . . . . 5.4.2 Thí nghiệm 2 . . . . . . . . 5.4.3 Thí nghiệm 3 . . . . . . . . 5.4.4 Thí nghiệm 4 . . . . . . . . vi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Danh sách hình vẽ 1.1 Một số hướng nghiên cứu tiêu biểu . . . . . . . . . . . . . . . . . . . . 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 Sơ đồ tính toán một nút neuron Sơ đồ tính toán hai nút neuron Ví dụ mình hoạ cho tích chập . Mô tả trực quan lớp pooling . . ID loss kết hợp triplet loss . . . So sánh ảnh hưởng của các hàm Sơ đồ BNNeck . . . . . . . . . . Ý tưởng triplet learning . . . . Quá trình triplet learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 8 10 10 12 13 13 18 18 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.9 3.10 3.11 3.12 3.13 Mô hình st-ReID [2] . . . . . . . . . . . . . . . . . . . . . . . Mô hình mạng PCB [3] . . . . . . . . . . . . . . . . . . . . . . Trực quan hoá cách hoạt động RPP [3] . . . . . . . . . . . . . Mô hình PCB kết hợp với RPP [3] . . . . . . . . . . . . . . . Bộ 3 hình cần tìm, hình đúng, hình sai [4] . . . . . . . . . . . Cách kết hợp các đặc trưng đồng nhất [4] . . . . . . . . . . . . Khối tích chập cơ bản (a) và khối tích chập nhẹ (b) [4] . . . . Baseline bottleneck (a) OMNI bottleneck (b) [4] . . . . . . . . Mô hình của OSNet [4] . . . . . . . . . . . . . . . . . . . . . . Cách học tập trung theo hướng cục bộ, toàn cục và kết hợp [5] Khối RGA [5] . . . . . . . . . . . . . . . . . . . . . . . . . . . Mô hình mạng SCSN [6] . . . . . . . . . . . . . . . . . . . . . Mô hình khối SFE (Salient Feature Extraction) [6] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 24 25 25 26 27 27 28 28 29 30 31 31 4.1 4.2 4.3 4.4 Kiến Kiến Kiến Kiến . . . . . . . . . . . . . . . . . . . . 32 34 35 36 5.1 5.2 Một số hình ảnh trong tập CUHK03 . . . . . . . . . . . . . . . . . . . Một số hình ảnh trong tập Market-1501 . . . . . . . . . . . . . . . . . 38 38 trúc trúc trúc trúc mạng mạng mạng mạng . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . losses [1] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . PCB [2] với OSNet backbone Global + Part-based OSNet . POSNet . . . . . . . . . . . . POSNet + BNNeck . . . . . . vii . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 DANH SÁCH HÌNH VẼ 5.3 5.4 5.5 5.6 5.7 5.8 5.9 5.10 5.11 5.12 5.13 5.14 5.15 5.16 Độ lớn của Center, Triplet và ID loss . . . . . . . . . . . Độ chính xác theo epoch của part-based OSNet (4 phần) Heatmap của các mô hình Part-based OSNet . . . . . . . Truy vấn hình ảnh của của mô hình Part-based OSNet . Loss của Global + Part-based OSNet . . . . . . . . . . . Độ chính xác theo epoch của Global + Part-based OSNet Heatmap của Global + Part-based OSNet . . . . . . . . So sánh heatmap giữa thí nghiệm 1 và 2 . . . . . . . . . Truy vấn hình ảnh của mô hình Global + Part OSNet . Loss của POSNet . . . . . . . . . . . . . . . . . . . . . . Độ chính xác theo epoch của POSNet . . . . . . . . . . . Heatmap của POSNet . . . . . . . . . . . . . . . . . . . So sánh heatmap giữa thí nghiệm 1, 2, và 3 . . . . . . . Truy vấn hình ảnh của mô hình POSNet . . . . . . . . . viii . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . (4 phần) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 43 43 45 46 47 48 48 49 50 51 51 52 53 Danh sách bảng 5.1 5.2 5.3 5.4 5.5 Độ chính xác của các thí nghiệm liên quan đến part-based OSNet Độ chính xác giữa thí nghiệm part-base và kết hợp global . . . . . Độ chính xác mô hình Part-base, Global + Part-based, POSNet . So sánh độ chính xác giữa các mô hình trong thiết kế thí nghiệm . So sánh độ chính xác với các mô hình liên quan . . . . . . . . . . ix . . . . . . . . . . . . . . . 44 48 52 54 55 Chương 1 Giới thiệu 1.1 Mở đầu Trong hệ thống camera quan sát, tái định danh đối tượng nói chung và con người nói riêng là một trong những nhu cần căn bản và cần thiết. Với những đặc tính hoặc hình ảnh cho trước của một đối tượng hay con người, mục tiêu của việc tái định danh này là nhận diện và truy xuất chính xác đối tượng trong tập dữ liệu mà camera ghi lại được. Ứng dụng của tái định danh một người trong thực tế là rất hữu ích, ví dụ như tìm kiếm đứa trẻ đi lạc trong một trung tâm thương mại, hay công an đang theo dấu một nghi phạm thông qua hình ảnh từ camera an ninh đường phố... Bằng cách quan sát tất cả các camera một cách thủ công, ta có thể tìm kiếm được đối tượng cần nhận diện. Tuy nhiên, việc làm thủ công tốn rất nhiều công sức và thời gian đặc biệt là trong bối cảnh hệ thống thông tin và giám sát ngày càng bùng nổ. Vấn đề đặt ra là xây dựng được một giải thuật và hệ thống có thể tự động nhận diện để tìm kiếm một cách chính xác hoặc thu hẹp phạm vi tìm kiếm một đối tượng tập dữ liệu của hệ thống camera. Tái định danh người, cũng giống như tái định danh một đối tượng, có hai thách thức chính. Thứ nhất, những hình ảnh của cùng một định danh đôi khi có sự thay đổi khá rộng. Việc này có thể xuất phát từ việc góc quay của các camera khác nhau khiến một số vật thể không xuất hiện, tư thế của người thay đổi lúc di chuyển hoặc thậm chí đối tượng thay đổi cả trang phục. Thứ hai, sự khác 1 CHƯƠNG 1. GIỚI THIỆU nhau giữa một số đối tượng là không rõ ràng ví dụ như những người có hình thể giống nhau, trang phục của mọi người giống nhau. Để giải quyết hai vấn đề này, giải thuật cần học được những đặc trưng có khả năng phân biệt tốt giữa các định danh. Những đặc trưng này được ánh xạ trên một không gian nhiều chiều mà ở đó độ đo khoảng cách thể hiện trực tiếp độ tương đồng giữa hai đối tượng. Đây cũng là phương pháp phổ biến mà các nghiên cứu gần đây theo đuổi. Ngoài ra, những thách thức của bài toán để có thể ứng dụng thành công trong thực tế có thể kể đến là: • Điều kiện ánh sáng phụ thuộc vào thời điểm trong ngày, thời tiết cũng như nhiều yếu tố khác. Mỗi đối tượng dưới các nguồn sáng khác nhau có thể có các chi tiết màu khác nhau. • Vấn đề về góc quay cao thấp, góc xoay, khoảng cách tới đối tượng và hướng nhìn đối tượng sẽ làm cho một đối tượng có những hình ảnh đa dạng. Thêm vào đó, tùy vào vị trí đặt camera, đối tượng có thể bị che khuất bởi vật cản. • Một đối tượng có thể xuất hiện với nhiều trang phục khác nhau. Yếu tố này là rất khó để giải quyết khi đặc điểm ngoại hình của đối tượng đã thay đổi nhưng hệ thống vẫn cần nhận diện được sự thay đổi đó. • Gắn nhãn dữ liệu là vấn đề không chỉ trong tái định danh, mà còn cho các bài toán về học có giám sát nói chung. Với một hệ thống camera lớn, việc gắn nhãn cho từng định danh thủ công tốn nhiều thời gian và công sức. 1.2 Ý nghĩa đề tài Về ý nghĩa khoa học, tái định danh người là một bài toán con trong lớp các bài toán về trích xuất đặc trưng. Vì vậy, việc nghiên cứu và giải quyết bài toán sẽ góp phần phát triển thêm những hướng đi và ý tưởng cho một chuỗi các bài toán liên quan đến nhận diện, gom cụm, so trùng, hệ thống gợi ý... Mặc dù đối tượng cụ thể của bài toán là con người nhưng phương pháp nghiên cứu có thể hữu dụng cho cả định danh những vật thể khác như phương tiện giao thông, khuôn mặt... 2 CHƯƠNG 1. GIỚI THIỆU Về ý nghĩa thực tiễn, nhận dạng người đóng một vai trò quan trọng trong cuộc sống hiện đại. Nó giúp tiết kiệm thời gian tìm kiếm một đối tượng trong một ngữ cảnh hẹp như toà nhà, trung tâm thương mại, quảng trường... Tái định danh người còn có thể áp dụng cho phạm vi rộng lớn hơn với hàng chục, hàng trăm camera quan sát nhằm theo dấu vị trí mà một người đã đi qua. Những điều này hỗ trợ tốt cho việc tìm kiếm người thất lạc, duy trì an ninh, truy bắt tội phạm, theo dõi đường dây phạm pháp... 1.3 Tình hình nghiên cứu Hiện nay đã có những nghiên cứu liên quan đến tái định danh người và cách tiếp cận của những nghiên cứu này là rất đa dạng. Hình 1.1 thể hiện một số hướng nghiên cứu mà tác giả đã khảo sát. Một số nhóm nhà nghiên cứu tập trung khai phá thông tin về không gian và thời gian trong tập dữ liệu, ví dụ như st-ReID [2], spatiotemporal model [7]. Trong đó, st-ReID đạt được kết quả chính xác đứng đầu trong tập dữ liệu Market-1501. Ngoài việc trích xuất đặc trưng của đối tượng, đặc điểm của hướng đi này là dùng thông tin về không thời gian để giới hạn phạm vi tìm kiếm. Đây như là một bộ lọc những người không liên quan trong một thời điểm và vị trí cụ thể để tránh nhận dạng nhầm khi các đối tượng có nhiều nét tương đồng. Việc sử dụng thêm cả thông tin không thời gian giúp tăng độ chính xác nhưng lại cần một lượng lớn dữ liệu để huấn luyện và chỉ áp dụng được cho một ngữ cảnh cụ thể. Hình 1.1: Một số hướng nghiên cứu tiêu biểu Thời gian gần đây, hướng tiếp cận huấn luyện tập trung (attention) đang được nhiều nhà nghiên cứu theo đuổi, ví dụ như RGA [5], SCSN [6], MHN [8], ABD [9]. Giải pháp này có thể hướng mô hình học tập trung vào những đặc trưng 3 CHƯƠNG 1. GIỚI THIỆU nổi bật một cách tự động và đem lại hiệu quả tốt, tuy nhiên mô hình lại có rất nhiều thông số cần phải học làm ảnh hưởng đến tốc độ tính toán và có thể học quá khớp (overfitting). Bên cạnh huấn luyện tập trung, huấn luyện nhiều luồng cũng là một hướng đi mang lại hiệu quả, như OSNet [4], MGN [10], MLFN [11], Pyramid [12]. Một trong những hướng đi khác nữa là khai thác thông tin về dáng người để học được những đặc trưng mang tính phân biệt hơn, ví dụ như PCB kết hợp RPP [3], PAFs [13]. Thông thường, cách tiếp cận sẽ dựa trên việc ước lượng hình dáng của con người để từ đó hướng mô hình học tập trung vào cấu trúc ước lượng được. Điều này đem lại kết quả tốt cho những tập dữ liệu có góc nhìn ngang nhưng trong thực tế thì hầu hết các camera có góc nhìn hướng xuống. Nhìn chung, các kết quả đạt được của các hướng nghiên cứu là rất tích cực. Một số mô hình thay thế Resnet50 trở thành nền tảng (baseline) cho các mô hình về sau như OSNet, PCB. Trong đó OSNet là một mạng có hiệu quả cao và có ít thông số cần phải học. Một số mô hình học tập trung (attention) được sửa lại từ Resnet50 đạt kết quả rất tốt trên một tập dữ liệu nhưng thông số học còn khá nhiều và có thể sẽ gặp hiện tượng học quá khớp nếu ứng dụng trên thực tế. Điều này mở ra một ý tưởng là kết hợp cách học tập trung với một mô hình nền tảng có ít thông số hơn Resnet50 để đạt hiệu suất tương tự, tránh tình trạng học quá khớp và tính toán nhanh hơn. 1.4 Mục tiêu, phạm vi và đối tượng nghiên cứu 1.4.1 Mục tiêu Mục tiêu của Luận văn Tốt nghiệp là khảo sát và đánh giá các nghiên cứu mới về bài toán tái định danh người để từ đó thay đổi, cải tiến, thử nghiệm và đưa ra các kết quả. Kết quả này cần đạt được độ tìm kiếm chính xác tốt hơn mô hình gốc. Từ đó, cung cấp những hướng đi và nhận xét cho chủ đề tái định danh này. 4 CHƯƠNG 1. GIỚI THIỆU 1.4.2 Phạm vi nghiên cứu Phạm vi nghiên cứu của Luận văn là tái định danh người đi bộ trong ngữ cảnh được ghi hình dưới nhiều camera. Giả định rằng góc quay của các camera này là không trùng lắp. Điều kiện ánh sáng, góc quay, và độ cao của các camera này là có thể khác nhau. 1.4.3 Đối tượng nghiên cứu Đối tượng nghiên cứu của Luận văn là các cách tiếp cận, các mạng học máy, học sâu theo những hướng như học tập trung (attention), học với ít thông số, tự động làm giàu dữ liệu... để giải quyết bài toán tái định danh người trong tập camera quan sát. 1.5 Bố cục của luận văn Chương 1: Giới thiệu: Tổng quan về nội dung, mục tiêu và cấu trúc luận văn. Chương 2: Cơ sở lý thuyết: Kiến thức nền tảng có liên quan đến đề tài. Chương 3: Các hướng tiếp cận và công trình liên quan. Chương 4: Phương pháp thí nghiệm: Trình bày các mô hình và thí nghiệm. Chương 5: Kết quả thực nghiệm: So sánh và đánh giá những thay đổi của các thí nghiệm. Chương 6: Kết luận: Tổng kết kết quả đúc kết được trong quá trình nghiên cứu và hướng nghiên cứu tiếp theo trong tương lai. 5 Chương 2 Cơ sở lý thuyết Trong những năm trở lại đây, mạng học sâu (deep neural networks) đang trở thành một hướng đi lớn cho việc giải quyết các bài toán về trí thông minh nhân tạo nói chung và các bài toán xử lý ảnh nói riêng. Các mô hình tính toán với độ phức tạp cao trước đây không hiện thực hoá được nay lại trở nên dễ dàng ứng dụng với sự phát triển mạnh mẽ của các thiết bị phần cứng. Deep learning đang dần thống trị các lĩnh vực từ thị giác máy tính, xử lý ngôn ngữ tự nhiên hay khoa học dữ liệu. Mạng học sâu cũng được ứng dụng trong bài toán tái định danh với nhiều công trình nổi tiếng gần đây như tại [2], [3], [5], [7], ... 2.1 Mạng neuron nhân tạo Mạng neuron nhân tạo là một đồ thị tính toán gồm các neuron là các nút tính toán được liên kết với nhau. Mỗi neuron bao gồm nhiều tín hiệu đầu vào và một tín hiệu đầu ra. Đầu ra được lấy tổ hợp tuyến tính của các dữ liệu đầu vào, sau đó sẽ qua một hàm kích hoạt phi tuyến. Một neuron được biểu diễn như hình sau: 6 CHƯƠNG 2. CƠ SỞ LÝ THUYẾT Hình 2.1: Sơ đồ tính toán một nút neuron Hàm kích hoạt có tác dụng phi tuyến hóa đầu ra của neuron. Một số hàm kích hoạt tiêu biểu là Sigmoid, T anh, ReLU , ... Hàm kích hoạt phải thỏa mãn các tính chất: (1) là hàm đồng biến (đạo hàm không âm) trên không gian số thực để giữ được đặc tính so sánh của dữ liệu đầu vào và (2) có đạo hàm trên toàn bộ không gian số thực để phục vụ cho việc tối ưu bằng gradient descent. Các trọng số của neuron sẽ được điều chỉnh trong quá trình học sao cho hợp lý nhất. Với mỗi nút neuron, khả năng biểu diễn tính toán có thể nhỏ nhưng liên kết nhiều nút lại với nhau sẽ giúp tăng khả năng biểu diễn chung của toàn mạng. Từ đó, mạng neuron có khả năng biểu diễn mọi hàm số phức tạp. 2.2 Gradient descent và lan truyền ngược Mục tiêu của gradient descent là điều chỉnh bộ tham số w để tối thiểu hóa hàm mục tiêu L. Ý tưởng chính của phương pháp là thay đổi w một lượng tỉ lệ nghịch với đạo hàm của L. w ←w−α× ∂L ∂w (2.1) Ở công thức trên thì α là một hằng số, gọi là hệ số học (learning rate) thể hiện cho mức độ thay đổi trong việc cập nhật trọng số sau mỗi bước. 7 CHƯƠNG 2. CƠ SỞ LÝ THUYẾT Hình 2.2: Sơ đồ tính toán hai nút neuron Đối với mô hình như 2.2, khi áp dụng gradient descent để tinh chỉnh mạng nhằm tối thiểu hóa hàm mục tiêu, ta cần tính toán được các giá trị đạo hàm của hàm mục tiêu theo từng bộ tham số bao gồm: ∂L ∂w2 ∂L ∂w1 = = ∂L ∂y ∂L ∂y × × ∂y ∂w2 ∂y ∂o1 × ∂o1 ∂w1 (2.2) (2.3) Với những hệ tính toán nhiều lớp, cần phải có cách để tính đạo hàm của hàm mục tiêu trên từng tham số cần tối ưu. Lan truyền ngược đã được được áp dụng để giải quyết vấn đề này trong quá trình học: 1. Bước lan truyền thuận: Dữ liệu được đưa vào mạng, tính toán và cho ra kết quả. Các dữ kiện cần thiết cho bước tính đạo hàm sẽ được lưu lại để phục vụ tính toán. 2. Bước lan truyền ngược: đạo hàm của hàm mục tiêu trên từng tham số trong mạng sẽ được tính toán bằng công thức đạo hàm của hàm hợp (chain-rule). Sở dĩ gọi bước này là lan truyền ngược, vì đạo hàm của một nút lớp trước sẽ được tính toán dựa trên đạo hàm đã tính của các nút phía sau gần hàm mục tiêu hơn. 3. Bước cập nhật: Từng tham số trong mạng sẽ được cập nhật theo công thức đã trình bày ở 2.1 8
- Xem thêm -

Tài liệu liên quan