Tài liệu Truy tìm đối tượng dựa vào thuộc tính cho dãy camera quan sát

.PDF

thanhphoquetoi Báo vi phạm

Tải xuống 58

Mô tả:

ĐẠI HỌC QUỐC GIA TP.HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA ———————————– NGUYỄN TRỌNG TÍNH TRUY TÌM ĐỐI TƯỢNG DỰA VÀO THUỘC TÍNH CHO DÃY CAMERA QUAN SÁT Chuyên ngành: Khoa Học Máy Tính Mã số: 8.48.01.01 LUẬN VĂN THẠC SĨ TP. HỒ CHÍ MINH, tháng 8 năm 2021 CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA ĐHQG-HCM Cán bộ hướng dẫn khoa học: TS. Lê Thành Sách Cán bộ chấm nhận xét 1: PGS. TS. Huỳnh Trung Hiếu Cán bộ chấm nhận xét 2: TS. Nguyễn Văn Sinh Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG Tp. HCM ngày 5 tháng 8 năm 2021 (Trực tuyến). Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: (Ghi rõ họ, tên, học hàm, học vị của Hội đồng chấm bảo vệ luận văn thạc sĩ) 1. Chủ Tịch: PGS. TS. Thoại Nam 2. Thư Ký: TS. Nguyễn Lê Duy Lai 3. Phản Biện 1: PGS. TS. Huỳnh Trung Hiếu 4. Phản Biện 2: TS. Nguyễn Văn Sinh 5. Ủy Viên: TS. Lê Thành Sách Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý chuyên ngành sau khi luận văn đã được sửa chữa (nếu có). CHỦ TỊCH HỘI ĐỒNG TRƯỞNG KHOA KHOA HỌC VÀ KỸ THUẬT MÁY TÍNH ĐẠI HỌC QUỐC GIA TP.HCM CỘNG HOÀ XÃ HỘI CHỦ NGHĨA VIỆT NAM TRƯỜNG ĐẠI HỌC BÁCH KHOA Độc lập - Tự Do - Hạnh Phúc NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ và tên học viên: Nguyễn Trọng Tính MSHV: 1970219 Ngày, tháng năm sinh: 15/08/1996 Nơi sinh: Đồng Tháp Ngành: Khoa học Máy Tính Mã số: 8480101 I. TÊN ĐỀ TÀI: – Truy tìm đối tượng dựa vào thuộc tính cho dãy camera quan sát II. NHIỆM VỤ VÀ NỘI DUNG: – Tìm hiểu bài toán phân loại thuộc tính của người đi bộ dựa trên thuộc tính. – Đề xuất và thực hiện các mô hình trích xuất đặc trưng về thuộc tính cho người đi bộ trong hệ thống camera giám sát. – Đánh giá hiệu quả của mô hình đề xuất với những công trình nghiên cứu liên quan trong thời gian gần đây. III. NGÀY GIAO NHIỆM VỤ: 20/01/2021 IV. NGÀY HOÀN THÀNH NHIỆM VỤ: 20/06/2021 V. CÁN BỘ HƯỚNG DẪN: TS. Lê Thành Sách Tp. HCM, ngày ........ tháng ......... năm 2021 CÁN BỘ HƯỚNG DẪN CHỦ NHIỆM BỘ MÔN ĐÀO TẠO (Họ tên và chữ ký) (Họ tên và chữ ký) TRƯỞNG KHOA KHOA HỌC VÀ KỸ THUẬT MÁY TÍNH (Họ tên và chữ ký) Lời cảm ơn Để hoàn thành được bài luận văn thạc sĩ này, tôi xin bày tỏ sự cảm kích đặc biệt tới thầy hướng dẫn khoa học của tôi, Tiến sĩ Lê Thành Sách. Người đã định hướng, trực tiếp dẫn dắt và cố vấn tôi trong suốt thời gian thực hiện đề tài luận văn tốt nghiệp. Những lời nhận xét, góp ý và hướng dẫn của Thầy đã giúp tôi tiếp cận đúng hướng đi trong quá trình thực hiện luận văn, giúp tôi thấy được những ưu điểm và khuyết điểm của những phương pháp tiếp cận khác nhau và từng bước khắc phục để có kết quả ngày càng tốt hơn. Hơn thế nữa tôi còn học được ở Thầy phương pháp luận và tư duy trong quá trình nghiên cứu khoa học. Đây chính là bàn đạp vững chắc giúp tôi hoàn thành luận văn một cách hoàn chỉnh. Đồng thời tôi cũng muốn gửi lời cảm ơn chân thành đến với công ty TNHH Knorex - nơi tôi đang làm việc, gia đình và bạn bè đã tạo điều kiện, động viên, cổ vũ tinh thần trong suốt quá trình học tập và thực hiện đề tài. Đặc biệt là gia đình đã chăm lo và hy sinh rất nhiều để tôi chuyên tâm học tập. Sau cùng, tôi xin cảm ơn các Thầy, Cô và cán bộ trong khoa Khoa học và Kỹ Thuật Máy Tính đã hỗ trợ và cung cấp những kiến thức khoa học. Những kiến thức này không chỉ dừng ở việc hoàn thành luận văn mà còn là một nền tảng khoa học giúp tôi phát triển trong tương lai. Trong luận văn, chắc hẳn không thể tránh khỏi những hạn chế và thiếu sót. Tôi hy vọng sẽ nhận được nhiều đóng góp quý báu từ các quý thầy cô, hội đồng và các bạn đọc để đề tài được hoàn thiện hơn nữa và có ý nghĩa thiết thực áp dụng trong thực tiễn cuộc sống. Chân thành cảm ơn. TP. Hồ Chí Minh, Ngày 13 Tháng 05 Năm 2021 Nguyễn Trọng Tính i Tóm tắt Truy tìm đối tượng dựa vào thuộc tính cho dãy camera quan sát là một nhánh của đề tài tái định danh người người đi bộ. Mục đích để dự đoán những thuộc tính cụ thể cho trước, tùy vào những vùng ảnh khác nhau. Thách thức của bài toán là tìm kiếm được những đối tượng có một số thuộc tính nhất định trong tập hình ảnh của camera. Do những đối tượng xuất hiện trong camera với nhiều tư thế khác nhau, dẫn đến các thuộc tính cũng thay đổi theo, hơn nữa các thuộc tính này có thể nằm ở các đối tượng khác với vị trí khác nhau, nên sự phân biệt dựa trên các vùng cục bộ bị hạn chế. Chính vì lý do này dẫn đến phương pháp tiếp cận các vùng ít liên quan để nhận dạng những thuộc tính. Trong bài luận văn này đề xuất một phương pháp - kế thừa từ bài báo [1] cho tái định danh, đó là Top DropBlock. Phương pháp này gồm ba nhánh: Nhánh global stream để học các thông tin từ pre-train, nhánh Top DropBlock để cố gắng học những vùng ít thông tin để tăng khả năng phân biệt các thuộc tính, nhánh regularization để giải quyết các nhiễu được tạo ra bởi nhánh Top DropBlock. Hơn nữa, phương pháp đề xuất này có nhiều tiềm năng để ứng dụng vào thực tiễn vì không yêu cầu tạo thêm các chú thích cho dữ liệu và dễ dàng huấn luyện. Các thử nghiệm được tiến hành dựa trên hai tập dữ liệu có sẵn: PA100K [2] và PETA [3]. Kết quả thử nghiệm rất khả quan khi được so sánh với các phương pháp tiếp cận trong vài năm trở lại đây. ii Abstract Tracing objects based on properties for CCTV arrays is a branch of re-id topic. The purpose is to predict the specific attributes, depending on the different image regions. The challenge of the problem is to find objects with certain properties in the image set of camera. Because the objects appear in the camera with many different poses, lead to the properties also changing. Moreover these attributes may be located in other objects with different positions, so the discrimination is based on on restricted local areas. It is for this reason that the less relevant region approach is used to identify attributes. In this thesis, we propose a approach which inherit from re-identification paper [1], as Top DropBlock. This approach is three streams: a global stream encodes rich image information from a backbone, the Top DropBlock stream encourages the backbone to encode low informative regions with high discriminative features and a regularization stream helps to deal with the noise created by the dropping process of the second stream, when testing the first two streams are used. Moreover, this proposed approach has a lot of potential for practical application because it does not require creating additional annotations for the data and is easy to train. The tests were conducted against two available data sets: PA100K [2] and PETA [3]. The test results are very positive when compared with approaches of the past few years. iii Lời cam đoan Tôi là Nguyễn Trọng Tính học viên cao học khoa Khoa Học và Kỹ thuật Máy Tính, đại học Bách Khoa TP.HCM, MSHV là 1970219. Tôi xin cam đoan rằng luận văn thạc sĩ “Truy tìm đối tượng dựa vào thuộc tính cho dãy camera quan sát” là kết quả tìm hiểu, nghiên cứu độc lập của chính bản thân dưới sự hướng dẫn trực tiếp của TS. Lê Thành Sách. Tôi xin cam đoan: 1. Luận văn được thực hiện cho mục đích tìm hiểu và nghiên cứu ở bậc cao học. 2. Các công trình, bài báo tham khảo để xây dựng nên luận văn này đều được trích dẫn, tham khảo. 3. Những công cụ, phần mềm cho quá trình thực hiện luận văn đều là phần mềm mã nguồn mở. 4. Hình ảnh và số liệu được trích dẫn nguồn tham khảo rõ ràng. 5. Kết quả nghiên cứu được trình bày trung thực dựa trên số liệu thực tế khi chạy chương trình. TP. Hồ Chí Minh, Ngày 13 Tháng 05 Năm 2021 Học viên Nguyễn Trọng Tính iv Mục lục 1 Giới thiệu đề tài 1.1 Đặt vấn đề . . . . . . . 1.2 Mục tiêu nghiên cứu . 1.3 Ý nghĩa đề tài . . . . . 1.4 Kết quả đạt được . . . 1.5 Cấu trúc của luận văn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1 2 3 3 4 2 Cơ sở lý thuyết 2.1 Mạng nơ-ron đa tầng và mạng học sâu . . . . . . . . . . . . . . . . . . 2.1.1 Mạng nơ-ron đa tầng . . . . . . . . . . . . . . . . . . . . . . . . 2.1.2 Mạng nơ-ron học sâu . . . . . . . . . . . . . . . . . . . . . . . . 2.2 Mạng nơ-ron tích chập . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.1 Đặc tính của mạng nơ-ron tích chập . . . . . . . . . . . . . . . 2.2.2 Phép tích chập - Convolution . . . . . . . . . . . . . . . . . . . 2.2.3 Mạng nơ-ron tích chập dưới góc nhìn của một mạng nơ-ron nhân tạo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3 Các mạng pretrain thường dùng cho bài toán phân loại . . . . . . . . . 2.3.1 ResNet-50 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3.2 Inception-v3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 5 5 6 11 11 13 3 Tổng quan tình hình nghiên 3.1 Holistic . . . . . . . . . . 3.2 Attention based . . . . . . 3.3 Relation based . . . . . . 3.4 Part based . . . . . . . . . . . . . 19 20 21 23 25 . . . . . 27 27 28 28 32 33 cứu . . . . . . . . . . . . 4 Phương pháp nghiên cứu 4.1 Ý tưởng thiết kế thử nghiệm . 4.2 Thiết kế thử nghiệm . . . . . 4.2.1 Mô hình . . . . . . . . 4.2.2 Hàm mục tiêu . . . . . 4.2.3 Chiến lược huấn luyện . . . . . . . . . . . . . . v . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 15 16 17 MỤC LỤC 4.2.4 Các thử nghiệm triển khai . . . . . . . . . . . . . . . . . . . . . 5 Kết quả thực nghiệm 5.1 Thu thập và tiền xử lý dữ liệu . . . . 5.1.1 Dữ liệu . . . . . . . . . . . . . 5.1.2 Phân tích dữ liệu . . . . . . . 5.1.3 Tiền xử lý dữ liệu . . . . . . . 5.2 Các tiêu chí đánh giá . . . . . . . . . 5.2.1 Mean Accuracy - mA . . . . . 5.2.2 Accuracy - Accu . . . . . . . 5.2.3 Precision - Prec . . . . . . . . 5.2.4 Recall . . . . . . . . . . . . . 5.2.5 F1 score - F1 . . . . . . . . . 5.3 Môi trường thực nghiệm . . . . . . . 5.4 Kết quả . . . . . . . . . . . . . . . . 5.4.1 Thử nghiệm 1 . . . . . . . . . 5.4.2 Thử nghiệm 2 . . . . . . . . . 5.4.3 So sánh với các công trình liên 33 . . . . . . . . . . . . . . . 35 35 35 36 40 41 42 43 43 43 44 44 44 44 47 51 6 Kết Luận 6.1 Kết quả đạt được . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.2 Hướng nghiên cứu tiếp theo . . . . . . . . . . . . . . . . . . . . . . . . 54 54 55 Tài liệu tham khảo 56 A Bảng đối chiếu thuật ngữ Anh - Việt 59 vi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . quan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Danh sách hình vẽ 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 Cấu tạo của mạng nơ-ron đa tầng. . . . . . . . . . . . . . . . . . . . . Mạng MLP và mạng học sâu với một lớp ẩn . . . . . . . . . . . . . . . Đồ thị của hàm sigmoid. . . . . . . . . . . . . . . . . . . . . . . . . . . Một tầng ẩn của mạng neural nhiều lớp dùng hàm sigmoid. . . . . . . . Đồ thị của hàm tanh. . . . . . . . . . . . . . . . . . . . . . . . . . . . . Mạng nơ-ron trước khi dropout . . . . . . . . . . . . . . . . . . . . . . Mạng nơ-ron sau khi dropout . . . . . . . . . . . . . . . . . . . . . . . Hình ảnh minh họa phân tích của nhà phân phối điện thoại thông minh Hình ảnh minh họa quá trình học và trích xuất thuộc tính của một mạng nơ-ron . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.10 Hình ảnh mô tả ma trận hình ảnh và cửa sổ tích chập . . . . . . . . . . 2.11 Hình ảnh mô tả phân tích chập một bộ lọc tạo ra các nơ-ron . . . . . . 2.12 Kiến trúc khối residual block [2.12] . . . . . . . . . . . . . . . . . . . . 6 7 7 8 9 10 10 12 3.1 3.2 3.3 3.4 3.5 3.6 3.7 Các hướng tiếp cận của việc truy tìm thuộc tính của người đi bộ Cấu trúc mạng CNN của Dangwei đề xuất trong [4] . . . . . . . Tổng quan về kiến trúc mô hình của bài báo [5] . . . . . . . . . Kiến trúc mạng ALM [5] . . . . . . . . . . . . . . . . . . . . . . Kiến trúc mạng ML-GCN [6] . . . . . . . . . . . . . . . . . . . Kiến trúc mạng Grouping Recurrent Learning [7] . . . . . . . . Kiến trúc mạng Multi-label CNN [8] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 20 21 22 24 25 26 4.1 4.2 4.3 4.4 Một số kết của Top DropBlock trên nội dung ảnh . Mô hình Top-DB-Net . . . . . . . . . . . . . . . . . Cấu trúc của nhánh global stream trên tập PA100K Cấu trúc khối Bottleneck . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 29 29 30 5.1 5.2 5.3 5.4 5.5 5.6 Một số ảnh trong tập dữ liệu PETA . . . . . . . . . . . . . . . . . . . . Tỷ lệ % mẫu dương ứng với từng thuộc tính trong tập dữ liệu PA100K Tỷ lệ % mẫu dương ứng với từng thuộc tính trong tập dữ liệu PETA . Các hình có độ phân giải thấp trong tập dữ liệu PA100K . . . . . . . . Kích thước ảnh thay đổi trong tập dữ liệu PA100K . . . . . . . . . . . Các hình nhiều đối tượng trong tập dữ liệu PA100K . . . . . . . . . . 36 37 37 38 38 39 vii . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 13 15 17 DANH SÁCH HÌNH VẼ 5.7 5.8 5.9 5.10 5.11 5.12 5.13 5.14 5.15 5.16 5.17 5.18 5.19 5.20 Các ảnh bị thiếu ánh sáng trong tập dữ liệu PA100K . . . . . . . . . . Bản đồ nhiệt phân loại thuộc tính kính của người đi bộ . . . . . . . . . Thay đổi kích thước ảnh . . . . . . . . . . . . . . . . . . . . . . . . . . Lập ảnh theo chiều ngang . . . . . . . . . . . . . . . . . . . . . . . . . Thành phần của confusion matrix . . . . . . . . . . . . . . . . . . . . Bản đồ nhiệt của thuộc tính Front trong thử nghiệm 1 . . . . . . . . . Bản đồ nhiệt của thuộc tính HandBag trong thử nghiệm 1 . . . . . . . Giá trị mất mát trong quá trình huấn luyện trên tập PETA . . . . . . Độ chính xác trong quá trình huấn luyện và kiểm tra trên PETA . . . . Random DropBlock . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Top DropBlock . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . mA của Top DropBlock và Baseline trên tập dữ liệu PA100K . . . . . . Bản đồ nhiệt của LowerStripe và HoldObjectsInFront khi sử dụng Baseline Bản đồ nhiệt của LowerStripe và HoldObjectsInFront khi sử dụng Top DropBlock . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . viii 39 40 41 41 42 46 46 48 48 50 50 50 51 51 Danh sách bảng 5.1 5.2 5.3 5.4 Sự ảnh hưởng của tỷ lệ loại bỏ trên tập PA100K . . . . . . Ảnh hưởng của các nhánh Top-DB-Net . . . . . . . . . . . So sánh với các mô hình gần đây trên tập dữ liệu PA100K So sánh với các mô hình gần đây trên tập dữ liệu PETA . ix . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 49 52 53 Chương 1 Giới thiệu đề tài 1.1 Đặt vấn đề Ngày nay, với sự phát triển của công nghệ và tiềm năng to lớn của các mạng học sâu. Đã thúc đẩy các nhà nghiên cứu, các công ty bắt tay vào việc nghiên cứu các ứng dụng tích hợp học máy, học sâu để phục vụ đời sống của con người. Nhờ có hỗ trợ học máy hay học sâu, các ứng dụng này sẽ tiết kiệm thời gian, công sức của con người, qua đó giúp tối đa hiệu quả năng suất làm việc. Các ứng này có thể được kể đến như: chatbot, giám sát công nhân có đeo khẩu trang hay không, phát hiện nhiệt độ bắt thường trên người... Các ứng dụng thường sẽ được chia thành hai hướng để giải quyết, một là theo hướng xử lý ảnh, hai là theo hướng xử lý ngôn ngữ tự nhiên. Trong đó, xử lý ảnh có xu hướng nổi trội hơn hẳn bởi vì tính cấp bách và cần thiết của nó. Việc truy vết hoặc tìm kiếm các đối tượng trong video cũng là một trong những vấn đề mang tính chất nói trên. Đây cũng là vấn đề được sự thu hút và chú ý rộng rãi của những nhà nghiên cứu cũng như các cơ quan thực tế. Bởi vì tiềm năng to lớn nó mang lại, không chỉ trong hệ thống camera mà còn trong các ứng dụng giám sát video. Với sự phát triển của khoa học và công nghệ hiện đại như thời điểm hiện tại, chi phí sản xuất các thiết bị thu hình như camera được đẩy xuống mức vừa phải, nên việc sở hữu một camera đối với mọi người không phải là vấn đề quá khó khăn. Chính vì điều này, số lượng tạo ra video của mọi người nói riêng và các hệ thống camera nói chung tăng liên tục theo thời gian. Khi phát sinh một 1 CHƯƠNG 1. GIỚI THIỆU ĐỀ TÀI vấn đề an ninh nào đó, chúng ta cần phải tìm kiếm và truy vết lại các đối tượng xuất hiện trong video để phục vụ cho công tác điều tra. Nếu không có sự giúp đỡ của các ứng dụng như việc truy vết trên, chúng ta sẽ gặp nhiều khó khăn và tốn rất nhiều thời gian trong việc tìm kiếm. Hiểu được vấn đề này, chúng tôi đã thực hiện nghiên cứu này để góp phần nào đó giảm chi phí và thời gian cho người lao động, họ chỉ cần vài thao tác nhỏ trên màn hình là có thể xác định được đối tượng muốn tìm kiếm. Việc truy vết hoặc tìm kiếm đối tượng được chia thành hai hướng tiếp cận: truy vết theo thuộc tính và truy vết theo đối tượng cụ thể. Trong đó hướng tiếp cận theo thuộc tính là việc chúng ta sẽ đưa các đầu vào mang tính chất của một đối tượng nào đó, ví dụ như là: giới tính nữ, trên 18 tuổi, tóc dài, mang giày thể thao,... Sau khi tiếp nhận các đầu vào như vậy hệ thống sẽ truy xuất để tìm những người có các thông tin gần như vậy và trả về các thông tin của camera. Từ đó, chúng ta có thể truy vết lại lịch trình của đối tượng. Ngược lại đối với hướng tiếp cận dựa trên một đối tượng cụ thể, đầu vào chúng ta là một người nào đó cụ thể, đã từng xuất hiện trong hệ thống camera, sau khi xử lý hệ thống sẽ trả về thông tin người đó đã xuất hiện trong camera nào. 1.2 Mục tiêu nghiên cứu Với những tiềm năng rất đang mong đợi của các mạng nơ-ron học sâu, trong nghiên cứu tôi tận dụng các thế mạng của những mạng nơ-ron để phân loại các thuộc tính của người đi bộ, từ đó góp phần cho việc truy xuất đối tượng cho dãy camera. Để giải quyết vấn đề đặt ra, tôi sẽ xây dựng mô hình mạng nơ-ron học sâu, trọng tâm là sử dụng mạng pre-train để rút trích đặc trưng. Đồng thời kế thừa nguyên cứu của Quispe và các cộng sự [1] về bài toán re-identification, tôi sẽ xây dựng mạng nơ-ron học sâu Top DropBlock để giải quyết cho bài toán phân loại thuộc tính. Top DropBlock là một phương pháp có khả năng tăng cường học các vùng ít thông tin để góp phần tăng sự phân biệt các đối tượng, được Quispe đề xuất cho bài toán nhận dạng người dựa trên nội dung. Việc phân loại các thuộc tính trong ảnh và đối tượng trong ảnh là hai bài toán có mối liên hệ mật thiết với nhau, cả hai cũng làm việc trên đối tượng là người đi bộ, nhưng có điểm khác biệt lớn nhất ở đây là một bên là bài toán phân loại nhiều nhãn 2 CHƯƠNG 1. GIỚI THIỆU ĐỀ TÀI (thuộc tính), bên còn lại là bài toán phân loại nhị phân (đối tượng). Vì thế tôi tin rằng chúng ta có thể sử dụng ý tưởng của bài toán nhận dạng đối tượng cho bài toán thuộc tính. Nghiên cứu sẽ sử dụng những tập dữ liệu có sẵn như PA100K [2] và PETA [3] để huấn luyện và đánh giá hiệu năng của mô hình. Ngoài ra, nghiên cứu cũng so sánh với các cách tiếp cận khác trong khoảng thời gian gần đây. Chúng tôi sẽ so sánh về độ chính xác và khả năng hiện thực hoá của các mô hình này. Từ những kết luận rút ra, cho ta thấy được cái nhìn tổng quan của các cách tiếp cận, và những yếu tố nào quan trọng khi áp dụng vào thực tiễn. 1.3 Ý nghĩa đề tài Với việc nghiên cứu về phân loại các thuộc tính của người đi bộ, từ đó có thể hỗ trợ cho việc truy tìm đối tượng dựa trên thuộc tính cho dãy camera quan sát, đề tài có ý nghĩa sau đây. Ý nghĩa thực tiễn : • Góp phần trong việc nhận dạng người trong hệ thống camera. • Tiết kiệm công sức và thời gian cho việc tìm kiếm người trong hệ thống camera. Ý nghĩa khoa học : • Góp phần đưa ra một mô hình, ứng dụng phương pháp học sâu vào bài toán phân loại thuộc tính của người đi bộ. • Mở ra một hướng mới về việc ứng dụng các mô hình của việc nhận dạng người dựa trên nội dung vào bài toán thuộc tính. 1.4 Kết quả đạt được Trong nghiên cứu này, chúng tôi đã xây dựng thành công mô hình Top DropBlock được kết thừa từ tác giả Quispe [1] và bổ sung cho bài toán phân loại thuộc tính của người đi bộ. Chúng tôi đã tận dụng thành công khả năng rút 3 CHƯƠNG 1. GIỚI THIỆU ĐỀ TÀI trích đặc trưng của mạng pre-train, cụ thể ở đây là ResNet-50 để tăng khả năng phân loại thuộc tính. Ngoài ra, mô hình của chúng tôi xây dựng gọn nhẹ, không cần yêu cầu xử lý tiền dữ liệu phức tạp nên dễ dàng cho việc huấn luyện và kiểm tra. Đồng thời cho thấy được tiềm năng hứa hẹn khi ứng dụng vào thực tiễn. Bên cạnh đó, mô hình vẫn có phân loại nhầm các thuộc tính có tần số xuất hiện thấp trong tập dữ liệu. Đây cũng là cũng là một trong những khuyết điểm cần được cải thiện trong các hướng nghiên cứu tiếp theo. 1.5 Cấu trúc của luận văn Cấu trúc của luận văn được tổ chức như sau: • Chương 1 - Giới thiệu đề tài: nhằm giới thiệu tổng quan về bài toán phân loại thuộc tính người đi bộ và phương pháp giải quyết. • Chương 2 - Cơ sở lý thuyết: trình bày những lý thuyết liên quan được sử dụng trong bài nghiên cứu. • Chương 3 - Tổng quan tình hình nghiên cứu: bao gồm các công trình nghiên cứu liên quan đến bài nhập dạng thuộc tính người đi bộ, phân tích các ưu và nhược điểm để có thể khắc phục và tăng cường trong phương pháp đề xuất. • Chương 4 - Phương pháp nghiên cứu: trình bày cụ thể mô hình đề xuất và cách thức mô hình hoạt động. • Chương 5 - Kết quả thực nghiệm: phân tích đặc điểm của các bộ dữ liệu được sử dụng trong bài toán, các phương pháp đánh giá, kết quả đánh giá của mô hình đề xuất và so sánh với công trình gần đây. • Chương 6 - Kết luận: nêu ra các kết luận đúc kết được trong quá trình nghiên cứu và hướng phát triển tiếp theo trong tương lai. 4 Chương 2 Cơ sở lý thuyết Chương này sẽ giải thích về khái niệm, kiến trúc mạng nơ-ron đa tầng và mạng nơ-ron tích chập - CNN, phân tích một số pretrain model thường dùng cho việc phân loại các thuộc tính của người nói riêng và trên ảnh nói chung. 2.1 2.1.1 Mạng nơ-ron đa tầng và mạng học sâu Mạng nơ-ron đa tầng Mạng nơ-ron đa tầng là mạng sử dụng nhiều perceptron được sắp xếp thành các tầng khác nhau. Các perceptron ở tầng sau đều nối tới tầng trước (fullyconnected). Các thành phần của một mạng nơ-ron đa tầng gồm: • Tầng dữ kiện (input layer): Là tầng đầu tiên của mạng, thể hiện các dữ kiện đầu vào. • Tầng kết quả (output layer): Là tầng nằm ở vị trí cuối cùng, thể hiện kết quả đầu ra của mạng. • Tầng ẩn (hidden layer): Là tầng nằm ở giữa, chịu trách nhiệm trong việc tính toán (có thể có nhiều tầng) thông qua các hàm kích hoạt (activation function). 5 CHƯƠNG 2. CƠ SỞ LÝ THUYẾT Hình 2.1: Cấu tạo của mạng nơ-ron đa tầng. Tuy nhiên các phép tính của mạng nơ-ron đa tầng đều là tuyến tính, chính vì vậy gây ra những vấn đề sau: • Khó khăn trong việc xây dựng những mô hình phi tuyến phức tạp. • Khi đi qua nhiều lớp, những vấn đề về trọng số sẽ xảy ra ví dụ như đầu ra của một perceptron nào đó quá lớn hoặc quá âm sẽ ảnh hưởng rất nhiều đến độ chính xác của bài toán hoặc thậm chí là máy tính không thể biểu diễn được. • Vì đầu ra sẽ được so sánh về ngưỡng nào đó, do đó, vấn đề về xác định xác suất sẽ rất khó thực hiện vì chúng ta chỉ thể hiện được mức độ hay nói cách khác là những giá trị rời rạc. 2.1.2 Mạng nơ-ron học sâu Mạng nơ-ron học sâu sinh ra để khắc phục những vấn đề của mạng nơ-ron gặp phải. Bằng cách áp dụng các hàm activation khác nhau thay cho threshold và cách làm tuyến tính như mạng nơ-ron đa tầng thì mạng học sâu đã ra đời. Chúng ta cũng dễ thấy rằng, không có sự khác biệt quá nhiều giữa mạng nơ-ron đa tầng và mạng học sâu, như hình 2.2, hay có thể nói mạng nơ-ron đa tầng là một tập hợp con của mạng học sâu khi chúng ta chỉ cần thay đổi activation của từng hidden layers và layer đầu ra để thể hiện về tính phi tuyến và xác suất. Như hình trên, chúng ta có thể thấy rằng, đi qua mỗi layer của mạng học sâu chúng ta có thể thêm vào đó các hàm activation khác nhau, hoặc thậm chí không cần thêm. Còn trong mạng nơ-ron đa tầng thì chỉ đơn thuần là các phép tính toán ma trận tuyến tính. Các hàm kích hoạt thường được sử dụng trong mạng học sâu: 6 CHƯƠNG 2. CƠ SỞ LÝ THUYẾT Hình 2.2: Mạng MLP và mạng học sâu với một lớp ẩn Hàm sigmoid : σ(x) = 1 1 + e−x Hàm sigmoid nhận vào một giá trị thực x và trả về một giá trị trong khoảng (0, 1). Nếu x là một số thực âm rất nhỏ thì kết quả của hàm sigmoid sẽ tiệm cận 0, và ngược lại nếu x là một số dương rất lớn thì kết quả sẽ tiệm cận 1. Hình 2.3 bên dưới là đồ thị biểu diễn cho hàm sigmoid. Hình 2.3: Đồ thị của hàm sigmoid. Đối với hàm sigmoid, việc tính toán vô cùng thuận lợi do kết quả đạo hàm của sigmoid rất "đẹp". Tuy nhiên, điều này không thể che lấp những khuyết điểm nghiêm trọng của sigmoid: • Hàm sigmoid bão hòa và triệt tiêu gradient (vanishing gradient) Trên hình 2.3, đường màu xanh thể hiện cho giá trị của hàm sigmoid và đường màu cam thể hiện cho giá trị của đạo hàm. Có thể nhận ra được, với những giá trị x rất lớn hoặc rất nhỏ, kết quả đạo hàm của hàm sigmoid rất gần với 0. Điều này gây ra sự triệt tiêu gradient và hạn chế khả năng học 7 CHƯƠNG 2. CƠ SỞ LÝ THUYẾT của mạng. Cụ thể, nếu mạng được khởi động bằng những trọng số quá lớn hoặc quá nhỏ, giá trị đầu vào của hàm sigmoid bị bão hòa, giá trị của đạo hàm sẽ là một giá trị gần 0 và gradient sẽ bị triệt tiêu. Nếu mạng được khởi động bằng những trọng số "đẹp"(không quá lớn, không quá nhỏ), giá trị của đạo hàm cũng sẽ là một giá trị trong khoảng (0, 0.25). Khi đi qua một mạng nhiều tầng, đạo hàm của các trọng số sẽ nhỏ dần và gradient vẫn sẽ bị triệt tiêu. • Hàm sigmoid không có tính chất zero-centered Hình 2.4: Một tầng ẩn của mạng neural nhiều lớp dùng hàm sigmoid. Ở ví dụ của mạng neuron như hình 2.4, đạo hàm riêng phần của hàm mất mát theo hai trọng số w1 và w2 sẽ được tính như sau: ∂L ∂z ∂L 0 × = × a1 ∂z ∂w1 ∂z ∂L ∂z ∂L 0 ∇w2 = × = × a2 ∂z ∂w2 ∂z ∇w1 = 0 0 Vì a1 và a1 là kết quả của một hàm sigmoid trước đó, do đó luôn nhận giá trị dương và dấu của các gradient sẽ phụ thuộc vào ∂L ∂z . Điều này có nghĩa là các gradient sẽ luôn cùng dương hoặc luôn cùng âm. Việc cập nhật trọng số sẽ chỉ xảy ra về một phía, hạn chế sự linh hoạt của mạng và gây khó khăn cho việc hội tụ. Hàm tanh : tanh(x) = ex − e−x ex + e−x Hàm tanh nhận vào một số thực và trả về một giá trị trong khoảng (-1,1). Trên hình 2.5, đường màu xanh thể hiện giá trị của hàm tanh và đường màu 8

- Xem thêm -

Tài liệu Truy tìm đối tượng dựa vào thuộc tính cho dãy camera quan sát

Tài liệu liên quan

Tài liệu vừa đăng

Tài liệu xem nhiều nhất