ĐẠI HỌC QUỐC GIA TP.HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA
———————————–
NGUYỄN TRỌNG TÍNH
TRUY TÌM ĐỐI TƯỢNG DỰA VÀO THUỘC TÍNH
CHO DÃY CAMERA QUAN SÁT
Chuyên ngành: Khoa Học Máy Tính
Mã số: 8.48.01.01
LUẬN VĂN THẠC SĨ
TP. HỒ CHÍ MINH, tháng 8 năm 2021
CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI
TRƯỜNG ĐẠI HỌC BÁCH KHOA ĐHQG-HCM
Cán bộ hướng dẫn khoa học: TS. Lê Thành Sách
Cán bộ chấm nhận xét 1: PGS. TS. Huỳnh Trung Hiếu
Cán bộ chấm nhận xét 2: TS. Nguyễn Văn Sinh
Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG Tp.
HCM ngày 5 tháng 8 năm 2021 (Trực tuyến).
Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: (Ghi rõ họ, tên, học
hàm, học vị của Hội đồng chấm bảo vệ luận văn thạc sĩ)
1. Chủ Tịch:
PGS. TS. Thoại Nam
2. Thư Ký:
TS. Nguyễn Lê Duy Lai
3. Phản Biện 1:
PGS. TS. Huỳnh Trung Hiếu
4. Phản Biện 2:
TS. Nguyễn Văn Sinh
5. Ủy Viên:
TS. Lê Thành Sách
Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý
chuyên ngành sau khi luận văn đã được sửa chữa (nếu có).
CHỦ TỊCH HỘI ĐỒNG
TRƯỞNG KHOA
KHOA HỌC VÀ KỸ THUẬT MÁY TÍNH
ĐẠI HỌC QUỐC GIA TP.HCM
CỘNG HOÀ XÃ HỘI CHỦ NGHĨA VIỆT NAM
TRƯỜNG ĐẠI HỌC BÁCH KHOA
Độc lập - Tự Do - Hạnh Phúc
NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ và tên học viên: Nguyễn Trọng Tính
MSHV: 1970219
Ngày, tháng năm sinh: 15/08/1996
Nơi sinh: Đồng Tháp
Ngành: Khoa học Máy Tính
Mã số: 8480101
I. TÊN ĐỀ TÀI:
– Truy tìm đối tượng dựa vào thuộc tính cho dãy camera quan sát
II. NHIỆM VỤ VÀ NỘI DUNG:
– Tìm hiểu bài toán phân loại thuộc tính của người đi bộ dựa trên thuộc tính.
– Đề xuất và thực hiện các mô hình trích xuất đặc trưng về thuộc tính cho người đi bộ
trong hệ thống camera giám sát.
– Đánh giá hiệu quả của mô hình đề xuất với những công trình nghiên cứu liên quan
trong thời gian gần đây.
III. NGÀY GIAO NHIỆM VỤ: 20/01/2021
IV. NGÀY HOÀN THÀNH NHIỆM VỤ: 20/06/2021
V. CÁN BỘ HƯỚNG DẪN: TS. Lê Thành Sách
Tp. HCM, ngày ........ tháng ......... năm 2021
CÁN BỘ HƯỚNG DẪN
CHỦ NHIỆM BỘ MÔN ĐÀO TẠO
(Họ tên và chữ ký)
(Họ tên và chữ ký)
TRƯỞNG KHOA KHOA HỌC VÀ KỸ THUẬT MÁY TÍNH
(Họ tên và chữ ký)
Lời cảm ơn
Để hoàn thành được bài luận văn thạc sĩ này, tôi xin bày tỏ sự cảm kích đặc
biệt tới thầy hướng dẫn khoa học của tôi, Tiến sĩ Lê Thành Sách. Người đã định
hướng, trực tiếp dẫn dắt và cố vấn tôi trong suốt thời gian thực hiện đề tài luận
văn tốt nghiệp. Những lời nhận xét, góp ý và hướng dẫn của Thầy đã giúp tôi
tiếp cận đúng hướng đi trong quá trình thực hiện luận văn, giúp tôi thấy được
những ưu điểm và khuyết điểm của những phương pháp tiếp cận khác nhau và
từng bước khắc phục để có kết quả ngày càng tốt hơn. Hơn thế nữa tôi còn học
được ở Thầy phương pháp luận và tư duy trong quá trình nghiên cứu khoa học.
Đây chính là bàn đạp vững chắc giúp tôi hoàn thành luận văn một cách hoàn
chỉnh.
Đồng thời tôi cũng muốn gửi lời cảm ơn chân thành đến với công ty TNHH
Knorex - nơi tôi đang làm việc, gia đình và bạn bè đã tạo điều kiện, động viên,
cổ vũ tinh thần trong suốt quá trình học tập và thực hiện đề tài. Đặc biệt là gia
đình đã chăm lo và hy sinh rất nhiều để tôi chuyên tâm học tập.
Sau cùng, tôi xin cảm ơn các Thầy, Cô và cán bộ trong khoa Khoa học và Kỹ
Thuật Máy Tính đã hỗ trợ và cung cấp những kiến thức khoa học. Những kiến
thức này không chỉ dừng ở việc hoàn thành luận văn mà còn là một nền tảng
khoa học giúp tôi phát triển trong tương lai.
Trong luận văn, chắc hẳn không thể tránh khỏi những hạn chế và thiếu sót.
Tôi hy vọng sẽ nhận được nhiều đóng góp quý báu từ các quý thầy cô, hội đồng
và các bạn đọc để đề tài được hoàn thiện hơn nữa và có ý nghĩa thiết thực áp
dụng trong thực tiễn cuộc sống. Chân thành cảm ơn.
TP. Hồ Chí Minh, Ngày 13 Tháng 05 Năm 2021
Nguyễn Trọng Tính
i
Tóm tắt
Truy tìm đối tượng dựa vào thuộc tính cho dãy camera quan sát là một nhánh của đề
tài tái định danh người người đi bộ. Mục đích để dự đoán những thuộc tính cụ
thể cho trước, tùy vào những vùng ảnh khác nhau. Thách thức của bài toán là
tìm kiếm được những đối tượng có một số thuộc tính nhất định trong tập hình
ảnh của camera. Do những đối tượng xuất hiện trong camera với nhiều tư thế
khác nhau, dẫn đến các thuộc tính cũng thay đổi theo, hơn nữa các thuộc tính
này có thể nằm ở các đối tượng khác với vị trí khác nhau, nên sự phân biệt dựa
trên các vùng cục bộ bị hạn chế. Chính vì lý do này dẫn đến phương pháp tiếp
cận các vùng ít liên quan để nhận dạng những thuộc tính. Trong bài luận văn
này đề xuất một phương pháp - kế thừa từ bài báo [1] cho tái định danh, đó là
Top DropBlock. Phương pháp này gồm ba nhánh: Nhánh global stream để học
các thông tin từ pre-train, nhánh Top DropBlock để cố gắng học những vùng ít
thông tin để tăng khả năng phân biệt các thuộc tính, nhánh regularization để
giải quyết các nhiễu được tạo ra bởi nhánh Top DropBlock. Hơn nữa, phương
pháp đề xuất này có nhiều tiềm năng để ứng dụng vào thực tiễn vì không yêu
cầu tạo thêm các chú thích cho dữ liệu và dễ dàng huấn luyện. Các thử nghiệm
được tiến hành dựa trên hai tập dữ liệu có sẵn: PA100K [2] và PETA [3]. Kết
quả thử nghiệm rất khả quan khi được so sánh với các phương pháp tiếp cận
trong vài năm trở lại đây.
ii
Abstract
Tracing objects based on properties for CCTV arrays is a branch of re-id topic. The
purpose is to predict the specific attributes, depending on the different image
regions. The challenge of the problem is to find objects with certain properties
in the image set of camera. Because the objects appear in the camera with many
different poses, lead to the properties also changing. Moreover these attributes
may be located in other objects with different positions, so the discrimination
is based on on restricted local areas. It is for this reason that the less relevant
region approach is used to identify attributes. In this thesis, we propose a approach which inherit from re-identification paper [1], as Top DropBlock. This
approach is three streams: a global stream encodes rich image information from
a backbone, the Top DropBlock stream encourages the backbone to encode low
informative regions with high discriminative features and a regularization stream
helps to deal with the noise created by the dropping process of the second stream,
when testing the first two streams are used. Moreover, this proposed approach
has a lot of potential for practical application because it does not require creating additional annotations for the data and is easy to train. The tests were
conducted against two available data sets: PA100K [2] and PETA [3]. The test
results are very positive when compared with approaches of the past few years.
iii
Lời cam đoan
Tôi là Nguyễn Trọng Tính học viên cao học khoa Khoa Học và Kỹ thuật Máy
Tính, đại học Bách Khoa TP.HCM, MSHV là 1970219. Tôi xin cam đoan rằng
luận văn thạc sĩ “Truy tìm đối tượng dựa vào thuộc tính cho dãy camera quan sát”
là kết quả tìm hiểu, nghiên cứu độc lập của chính bản thân dưới sự hướng dẫn
trực tiếp của TS. Lê Thành Sách. Tôi xin cam đoan:
1. Luận văn được thực hiện cho mục đích tìm hiểu và nghiên cứu ở bậc cao
học.
2. Các công trình, bài báo tham khảo để xây dựng nên luận văn này đều được
trích dẫn, tham khảo.
3. Những công cụ, phần mềm cho quá trình thực hiện luận văn đều là phần
mềm mã nguồn mở.
4. Hình ảnh và số liệu được trích dẫn nguồn tham khảo rõ ràng.
5. Kết quả nghiên cứu được trình bày trung thực dựa trên số liệu thực tế khi
chạy chương trình.
TP. Hồ Chí Minh, Ngày 13 Tháng 05 Năm 2021
Học viên
Nguyễn Trọng Tính
iv
Mục lục
1 Giới thiệu đề tài
1.1 Đặt vấn đề . . . . . . .
1.2 Mục tiêu nghiên cứu .
1.3 Ý nghĩa đề tài . . . . .
1.4 Kết quả đạt được . . .
1.5 Cấu trúc của luận văn
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
1
2
3
3
4
2 Cơ sở lý thuyết
2.1 Mạng nơ-ron đa tầng và mạng học sâu . . . . . . . . . . . . . . . . . .
2.1.1 Mạng nơ-ron đa tầng . . . . . . . . . . . . . . . . . . . . . . . .
2.1.2 Mạng nơ-ron học sâu . . . . . . . . . . . . . . . . . . . . . . . .
2.2 Mạng nơ-ron tích chập . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2.1 Đặc tính của mạng nơ-ron tích chập . . . . . . . . . . . . . . .
2.2.2 Phép tích chập - Convolution . . . . . . . . . . . . . . . . . . .
2.2.3 Mạng nơ-ron tích chập dưới góc nhìn của một mạng nơ-ron nhân
tạo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3 Các mạng pretrain thường dùng cho bài toán phân loại . . . . . . . . .
2.3.1 ResNet-50 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3.2 Inception-v3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5
5
5
6
11
11
13
3 Tổng quan tình hình nghiên
3.1 Holistic . . . . . . . . . .
3.2 Attention based . . . . . .
3.3 Relation based . . . . . .
3.4 Part based . . . . . . . . .
.
.
.
.
19
20
21
23
25
.
.
.
.
.
27
27
28
28
32
33
cứu
. . .
. . .
. . .
. . .
4 Phương pháp nghiên cứu
4.1 Ý tưởng thiết kế thử nghiệm .
4.2 Thiết kế thử nghiệm . . . . .
4.2.1 Mô hình . . . . . . . .
4.2.2 Hàm mục tiêu . . . . .
4.2.3 Chiến lược huấn luyện
.
.
.
.
.
.
.
.
.
.
.
.
.
.
v
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
14
15
16
17
MỤC LỤC
4.2.4
Các thử nghiệm triển khai . . . . . . . . . . . . . . . . . . . . .
5 Kết quả thực nghiệm
5.1 Thu thập và tiền xử lý dữ liệu . . . .
5.1.1 Dữ liệu . . . . . . . . . . . . .
5.1.2 Phân tích dữ liệu . . . . . . .
5.1.3 Tiền xử lý dữ liệu . . . . . . .
5.2 Các tiêu chí đánh giá . . . . . . . . .
5.2.1 Mean Accuracy - mA . . . . .
5.2.2 Accuracy - Accu . . . . . . .
5.2.3 Precision - Prec . . . . . . . .
5.2.4 Recall . . . . . . . . . . . . .
5.2.5 F1 score - F1 . . . . . . . . .
5.3 Môi trường thực nghiệm . . . . . . .
5.4 Kết quả . . . . . . . . . . . . . . . .
5.4.1 Thử nghiệm 1 . . . . . . . . .
5.4.2 Thử nghiệm 2 . . . . . . . . .
5.4.3 So sánh với các công trình liên
33
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
35
35
35
36
40
41
42
43
43
43
44
44
44
44
47
51
6 Kết Luận
6.1 Kết quả đạt được . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.2 Hướng nghiên cứu tiếp theo . . . . . . . . . . . . . . . . . . . . . . . .
54
54
55
Tài liệu tham khảo
56
A Bảng đối chiếu thuật ngữ Anh - Việt
59
vi
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
quan
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Danh sách hình vẽ
2.1
2.2
2.3
2.4
2.5
2.6
2.7
2.8
2.9
Cấu tạo của mạng nơ-ron đa tầng. . . . . . . . . . . . . . . . . . . . .
Mạng MLP và mạng học sâu với một lớp ẩn . . . . . . . . . . . . . . .
Đồ thị của hàm sigmoid. . . . . . . . . . . . . . . . . . . . . . . . . . .
Một tầng ẩn của mạng neural nhiều lớp dùng hàm sigmoid. . . . . . . .
Đồ thị của hàm tanh. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Mạng nơ-ron trước khi dropout . . . . . . . . . . . . . . . . . . . . . .
Mạng nơ-ron sau khi dropout . . . . . . . . . . . . . . . . . . . . . . .
Hình ảnh minh họa phân tích của nhà phân phối điện thoại thông minh
Hình ảnh minh họa quá trình học và trích xuất thuộc tính của một mạng
nơ-ron . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.10 Hình ảnh mô tả ma trận hình ảnh và cửa sổ tích chập . . . . . . . . . .
2.11 Hình ảnh mô tả phân tích chập một bộ lọc tạo ra các nơ-ron . . . . . .
2.12 Kiến trúc khối residual block [2.12] . . . . . . . . . . . . . . . . . . . .
6
7
7
8
9
10
10
12
3.1
3.2
3.3
3.4
3.5
3.6
3.7
Các hướng tiếp cận của việc truy tìm thuộc tính của người đi bộ
Cấu trúc mạng CNN của Dangwei đề xuất trong [4] . . . . . . .
Tổng quan về kiến trúc mô hình của bài báo [5] . . . . . . . . .
Kiến trúc mạng ALM [5] . . . . . . . . . . . . . . . . . . . . . .
Kiến trúc mạng ML-GCN [6] . . . . . . . . . . . . . . . . . . .
Kiến trúc mạng Grouping Recurrent Learning [7] . . . . . . . .
Kiến trúc mạng Multi-label CNN [8] . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
20
20
21
22
24
25
26
4.1
4.2
4.3
4.4
Một số kết của Top DropBlock trên nội dung ảnh .
Mô hình Top-DB-Net . . . . . . . . . . . . . . . . .
Cấu trúc của nhánh global stream trên tập PA100K
Cấu trúc khối Bottleneck . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
28
29
29
30
5.1
5.2
5.3
5.4
5.5
5.6
Một số ảnh trong tập dữ liệu PETA . . . . . . . . . . . . . . . . . . . .
Tỷ lệ % mẫu dương ứng với từng thuộc tính trong tập dữ liệu PA100K
Tỷ lệ % mẫu dương ứng với từng thuộc tính trong tập dữ liệu PETA .
Các hình có độ phân giải thấp trong tập dữ liệu PA100K . . . . . . . .
Kích thước ảnh thay đổi trong tập dữ liệu PA100K . . . . . . . . . . .
Các hình nhiều đối tượng trong tập dữ liệu PA100K . . . . . . . . . .
36
37
37
38
38
39
vii
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
12
13
15
17
DANH SÁCH HÌNH VẼ
5.7
5.8
5.9
5.10
5.11
5.12
5.13
5.14
5.15
5.16
5.17
5.18
5.19
5.20
Các ảnh bị thiếu ánh sáng trong tập dữ liệu PA100K . . . . . . . . . .
Bản đồ nhiệt phân loại thuộc tính kính của người đi bộ . . . . . . . . .
Thay đổi kích thước ảnh . . . . . . . . . . . . . . . . . . . . . . . . . .
Lập ảnh theo chiều ngang . . . . . . . . . . . . . . . . . . . . . . . . .
Thành phần của confusion matrix . . . . . . . . . . . . . . . . . . . .
Bản đồ nhiệt của thuộc tính Front trong thử nghiệm 1 . . . . . . . . .
Bản đồ nhiệt của thuộc tính HandBag trong thử nghiệm 1 . . . . . . .
Giá trị mất mát trong quá trình huấn luyện trên tập PETA . . . . . .
Độ chính xác trong quá trình huấn luyện và kiểm tra trên PETA . . . .
Random DropBlock . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Top DropBlock . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
mA của Top DropBlock và Baseline trên tập dữ liệu PA100K . . . . . .
Bản đồ nhiệt của LowerStripe và HoldObjectsInFront khi sử dụng Baseline
Bản đồ nhiệt của LowerStripe và HoldObjectsInFront khi sử dụng Top
DropBlock . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
viii
39
40
41
41
42
46
46
48
48
50
50
50
51
51
Danh sách bảng
5.1
5.2
5.3
5.4
Sự ảnh hưởng của tỷ lệ loại bỏ trên tập PA100K . . . . . .
Ảnh hưởng của các nhánh Top-DB-Net . . . . . . . . . . .
So sánh với các mô hình gần đây trên tập dữ liệu PA100K
So sánh với các mô hình gần đây trên tập dữ liệu PETA .
ix
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
45
49
52
53
Chương 1
Giới thiệu đề tài
1.1
Đặt vấn đề
Ngày nay, với sự phát triển của công nghệ và tiềm năng to lớn của các mạng
học sâu. Đã thúc đẩy các nhà nghiên cứu, các công ty bắt tay vào việc nghiên
cứu các ứng dụng tích hợp học máy, học sâu để phục vụ đời sống của con người.
Nhờ có hỗ trợ học máy hay học sâu, các ứng dụng này sẽ tiết kiệm thời gian,
công sức của con người, qua đó giúp tối đa hiệu quả năng suất làm việc. Các
ứng này có thể được kể đến như: chatbot, giám sát công nhân có đeo khẩu trang
hay không, phát hiện nhiệt độ bắt thường trên người... Các ứng dụng thường
sẽ được chia thành hai hướng để giải quyết, một là theo hướng xử lý ảnh, hai
là theo hướng xử lý ngôn ngữ tự nhiên. Trong đó, xử lý ảnh có xu hướng nổi
trội hơn hẳn bởi vì tính cấp bách và cần thiết của nó. Việc truy vết hoặc tìm
kiếm các đối tượng trong video cũng là một trong những vấn đề mang tính chất
nói trên. Đây cũng là vấn đề được sự thu hút và chú ý rộng rãi của những nhà
nghiên cứu cũng như các cơ quan thực tế. Bởi vì tiềm năng to lớn nó mang lại,
không chỉ trong hệ thống camera mà còn trong các ứng dụng giám sát video.
Với sự phát triển của khoa học và công nghệ hiện đại như thời điểm hiện
tại, chi phí sản xuất các thiết bị thu hình như camera được đẩy xuống mức vừa
phải, nên việc sở hữu một camera đối với mọi người không phải là vấn đề quá
khó khăn. Chính vì điều này, số lượng tạo ra video của mọi người nói riêng và
các hệ thống camera nói chung tăng liên tục theo thời gian. Khi phát sinh một
1
CHƯƠNG 1. GIỚI THIỆU ĐỀ TÀI
vấn đề an ninh nào đó, chúng ta cần phải tìm kiếm và truy vết lại các đối tượng
xuất hiện trong video để phục vụ cho công tác điều tra. Nếu không có sự giúp
đỡ của các ứng dụng như việc truy vết trên, chúng ta sẽ gặp nhiều khó khăn và
tốn rất nhiều thời gian trong việc tìm kiếm. Hiểu được vấn đề này, chúng tôi
đã thực hiện nghiên cứu này để góp phần nào đó giảm chi phí và thời gian cho
người lao động, họ chỉ cần vài thao tác nhỏ trên màn hình là có thể xác định
được đối tượng muốn tìm kiếm.
Việc truy vết hoặc tìm kiếm đối tượng được chia thành hai hướng tiếp cận:
truy vết theo thuộc tính và truy vết theo đối tượng cụ thể. Trong đó hướng tiếp
cận theo thuộc tính là việc chúng ta sẽ đưa các đầu vào mang tính chất của một
đối tượng nào đó, ví dụ như là: giới tính nữ, trên 18 tuổi, tóc dài, mang giày
thể thao,... Sau khi tiếp nhận các đầu vào như vậy hệ thống sẽ truy xuất để tìm
những người có các thông tin gần như vậy và trả về các thông tin của camera.
Từ đó, chúng ta có thể truy vết lại lịch trình của đối tượng. Ngược lại đối với
hướng tiếp cận dựa trên một đối tượng cụ thể, đầu vào chúng ta là một người
nào đó cụ thể, đã từng xuất hiện trong hệ thống camera, sau khi xử lý hệ thống
sẽ trả về thông tin người đó đã xuất hiện trong camera nào.
1.2
Mục tiêu nghiên cứu
Với những tiềm năng rất đang mong đợi của các mạng nơ-ron học sâu, trong
nghiên cứu tôi tận dụng các thế mạng của những mạng nơ-ron để phân loại các
thuộc tính của người đi bộ, từ đó góp phần cho việc truy xuất đối tượng cho dãy
camera. Để giải quyết vấn đề đặt ra, tôi sẽ xây dựng mô hình mạng nơ-ron học
sâu, trọng tâm là sử dụng mạng pre-train để rút trích đặc trưng. Đồng thời kế
thừa nguyên cứu của Quispe và các cộng sự [1] về bài toán re-identification, tôi sẽ
xây dựng mạng nơ-ron học sâu Top DropBlock để giải quyết cho bài toán phân
loại thuộc tính. Top DropBlock là một phương pháp có khả năng tăng cường
học các vùng ít thông tin để góp phần tăng sự phân biệt các đối tượng, được
Quispe đề xuất cho bài toán nhận dạng người dựa trên nội dung. Việc phân loại
các thuộc tính trong ảnh và đối tượng trong ảnh là hai bài toán có mối liên hệ
mật thiết với nhau, cả hai cũng làm việc trên đối tượng là người đi bộ, nhưng
có điểm khác biệt lớn nhất ở đây là một bên là bài toán phân loại nhiều nhãn
2
CHƯƠNG 1. GIỚI THIỆU ĐỀ TÀI
(thuộc tính), bên còn lại là bài toán phân loại nhị phân (đối tượng). Vì thế tôi
tin rằng chúng ta có thể sử dụng ý tưởng của bài toán nhận dạng đối tượng cho
bài toán thuộc tính.
Nghiên cứu sẽ sử dụng những tập dữ liệu có sẵn như PA100K [2] và PETA
[3] để huấn luyện và đánh giá hiệu năng của mô hình.
Ngoài ra, nghiên cứu cũng so sánh với các cách tiếp cận khác trong khoảng
thời gian gần đây. Chúng tôi sẽ so sánh về độ chính xác và khả năng hiện thực
hoá của các mô hình này. Từ những kết luận rút ra, cho ta thấy được cái nhìn
tổng quan của các cách tiếp cận, và những yếu tố nào quan trọng khi áp dụng
vào thực tiễn.
1.3
Ý nghĩa đề tài
Với việc nghiên cứu về phân loại các thuộc tính của người đi bộ, từ đó có thể
hỗ trợ cho việc truy tìm đối tượng dựa trên thuộc tính cho dãy camera quan
sát, đề tài có ý nghĩa sau đây.
Ý nghĩa thực tiễn :
• Góp phần trong việc nhận dạng người trong hệ thống camera.
• Tiết kiệm công sức và thời gian cho việc tìm kiếm người trong hệ thống
camera.
Ý nghĩa khoa học :
• Góp phần đưa ra một mô hình, ứng dụng phương pháp học sâu vào bài
toán phân loại thuộc tính của người đi bộ.
• Mở ra một hướng mới về việc ứng dụng các mô hình của việc nhận dạng
người dựa trên nội dung vào bài toán thuộc tính.
1.4
Kết quả đạt được
Trong nghiên cứu này, chúng tôi đã xây dựng thành công mô hình Top DropBlock được kết thừa từ tác giả Quispe [1] và bổ sung cho bài toán phân loại
thuộc tính của người đi bộ. Chúng tôi đã tận dụng thành công khả năng rút
3
CHƯƠNG 1. GIỚI THIỆU ĐỀ TÀI
trích đặc trưng của mạng pre-train, cụ thể ở đây là ResNet-50 để tăng khả năng
phân loại thuộc tính.
Ngoài ra, mô hình của chúng tôi xây dựng gọn nhẹ, không cần yêu cầu xử lý
tiền dữ liệu phức tạp nên dễ dàng cho việc huấn luyện và kiểm tra. Đồng thời
cho thấy được tiềm năng hứa hẹn khi ứng dụng vào thực tiễn. Bên cạnh đó, mô
hình vẫn có phân loại nhầm các thuộc tính có tần số xuất hiện thấp trong tập
dữ liệu. Đây cũng là cũng là một trong những khuyết điểm cần được cải thiện
trong các hướng nghiên cứu tiếp theo.
1.5
Cấu trúc của luận văn
Cấu trúc của luận văn được tổ chức như sau:
• Chương 1 - Giới thiệu đề tài: nhằm giới thiệu tổng quan về bài toán phân
loại thuộc tính người đi bộ và phương pháp giải quyết.
• Chương 2 - Cơ sở lý thuyết: trình bày những lý thuyết liên quan được sử
dụng trong bài nghiên cứu.
• Chương 3 - Tổng quan tình hình nghiên cứu: bao gồm các công trình nghiên
cứu liên quan đến bài nhập dạng thuộc tính người đi bộ, phân tích các ưu
và nhược điểm để có thể khắc phục và tăng cường trong phương pháp đề
xuất.
• Chương 4 - Phương pháp nghiên cứu: trình bày cụ thể mô hình đề xuất và
cách thức mô hình hoạt động.
• Chương 5 - Kết quả thực nghiệm: phân tích đặc điểm của các bộ dữ liệu
được sử dụng trong bài toán, các phương pháp đánh giá, kết quả đánh giá
của mô hình đề xuất và so sánh với công trình gần đây.
• Chương 6 - Kết luận: nêu ra các kết luận đúc kết được trong quá trình
nghiên cứu và hướng phát triển tiếp theo trong tương lai.
4
Chương 2
Cơ sở lý thuyết
Chương này sẽ giải thích về khái niệm, kiến trúc mạng nơ-ron đa tầng và
mạng nơ-ron tích chập - CNN, phân tích một số pretrain model thường dùng
cho việc phân loại các thuộc tính của người nói riêng và trên ảnh nói chung.
2.1
2.1.1
Mạng nơ-ron đa tầng và mạng học sâu
Mạng nơ-ron đa tầng
Mạng nơ-ron đa tầng là mạng sử dụng nhiều perceptron được sắp xếp thành
các tầng khác nhau. Các perceptron ở tầng sau đều nối tới tầng trước (fullyconnected).
Các thành phần của một mạng nơ-ron đa tầng gồm:
• Tầng dữ kiện (input layer): Là tầng đầu tiên của mạng, thể hiện các dữ
kiện đầu vào.
• Tầng kết quả (output layer): Là tầng nằm ở vị trí cuối cùng, thể hiện kết
quả đầu ra của mạng.
• Tầng ẩn (hidden layer): Là tầng nằm ở giữa, chịu trách nhiệm trong việc
tính toán (có thể có nhiều tầng) thông qua các hàm kích hoạt (activation
function).
5
CHƯƠNG 2. CƠ SỞ LÝ THUYẾT
Hình 2.1: Cấu tạo của mạng nơ-ron đa tầng.
Tuy nhiên các phép tính của mạng nơ-ron đa tầng đều là tuyến tính, chính vì
vậy gây ra những vấn đề sau:
• Khó khăn trong việc xây dựng những mô hình phi tuyến phức tạp.
• Khi đi qua nhiều lớp, những vấn đề về trọng số sẽ xảy ra ví dụ như đầu ra
của một perceptron nào đó quá lớn hoặc quá âm sẽ ảnh hưởng rất nhiều
đến độ chính xác của bài toán hoặc thậm chí là máy tính không thể biểu
diễn được.
• Vì đầu ra sẽ được so sánh về ngưỡng nào đó, do đó, vấn đề về xác định xác
suất sẽ rất khó thực hiện vì chúng ta chỉ thể hiện được mức độ hay nói cách
khác là những giá trị rời rạc.
2.1.2
Mạng nơ-ron học sâu
Mạng nơ-ron học sâu sinh ra để khắc phục những vấn đề của mạng nơ-ron
gặp phải. Bằng cách áp dụng các hàm activation khác nhau thay cho threshold
và cách làm tuyến tính như mạng nơ-ron đa tầng thì mạng học sâu đã ra đời.
Chúng ta cũng dễ thấy rằng, không có sự khác biệt quá nhiều giữa mạng nơ-ron
đa tầng và mạng học sâu, như hình 2.2, hay có thể nói mạng nơ-ron đa tầng là
một tập hợp con của mạng học sâu khi chúng ta chỉ cần thay đổi activation của
từng hidden layers và layer đầu ra để thể hiện về tính phi tuyến và xác suất.
Như hình trên, chúng ta có thể thấy rằng, đi qua mỗi layer của mạng học
sâu chúng ta có thể thêm vào đó các hàm activation khác nhau, hoặc thậm chí
không cần thêm. Còn trong mạng nơ-ron đa tầng thì chỉ đơn thuần là các phép
tính toán ma trận tuyến tính.
Các hàm kích hoạt thường được sử dụng trong mạng học sâu:
6
CHƯƠNG 2. CƠ SỞ LÝ THUYẾT
Hình 2.2: Mạng MLP và mạng học sâu với một lớp ẩn
Hàm sigmoid :
σ(x) =
1
1 + e−x
Hàm sigmoid nhận vào một giá trị thực x và trả về một giá trị trong khoảng
(0, 1). Nếu x là một số thực âm rất nhỏ thì kết quả của hàm sigmoid sẽ tiệm cận
0, và ngược lại nếu x là một số dương rất lớn thì kết quả sẽ tiệm cận 1. Hình
2.3 bên dưới là đồ thị biểu diễn cho hàm sigmoid.
Hình 2.3: Đồ thị của hàm sigmoid.
Đối với hàm sigmoid, việc tính toán vô cùng thuận lợi do kết quả đạo hàm
của sigmoid rất "đẹp". Tuy nhiên, điều này không thể che lấp những khuyết
điểm nghiêm trọng của sigmoid:
• Hàm sigmoid bão hòa và triệt tiêu gradient (vanishing gradient)
Trên hình 2.3, đường màu xanh thể hiện cho giá trị của hàm sigmoid và
đường màu cam thể hiện cho giá trị của đạo hàm. Có thể nhận ra được, với
những giá trị x rất lớn hoặc rất nhỏ, kết quả đạo hàm của hàm sigmoid rất
gần với 0. Điều này gây ra sự triệt tiêu gradient và hạn chế khả năng học
7
CHƯƠNG 2. CƠ SỞ LÝ THUYẾT
của mạng. Cụ thể, nếu mạng được khởi động bằng những trọng số quá lớn
hoặc quá nhỏ, giá trị đầu vào của hàm sigmoid bị bão hòa, giá trị của đạo
hàm sẽ là một giá trị gần 0 và gradient sẽ bị triệt tiêu. Nếu mạng được khởi
động bằng những trọng số "đẹp"(không quá lớn, không quá nhỏ), giá trị
của đạo hàm cũng sẽ là một giá trị trong khoảng (0, 0.25). Khi đi qua một
mạng nhiều tầng, đạo hàm của các trọng số sẽ nhỏ dần và gradient vẫn sẽ
bị triệt tiêu.
• Hàm sigmoid không có tính chất zero-centered
Hình 2.4: Một tầng ẩn của mạng neural nhiều lớp dùng hàm sigmoid.
Ở ví dụ của mạng neuron như hình 2.4, đạo hàm riêng phần của hàm mất
mát theo hai trọng số w1 và w2 sẽ được tính như sau:
∂L
∂z
∂L
0
×
=
× a1
∂z
∂w1
∂z
∂L
∂z
∂L
0
∇w2 =
×
=
× a2
∂z
∂w2
∂z
∇w1 =
0
0
Vì a1 và a1 là kết quả của một hàm sigmoid trước đó, do đó luôn nhận giá
trị dương và dấu của các gradient sẽ phụ thuộc vào
∂L
∂z
. Điều này có nghĩa
là các gradient sẽ luôn cùng dương hoặc luôn cùng âm. Việc cập nhật trọng
số sẽ chỉ xảy ra về một phía, hạn chế sự linh hoạt của mạng và gây khó
khăn cho việc hội tụ.
Hàm tanh :
tanh(x) =
ex − e−x
ex + e−x
Hàm tanh nhận vào một số thực và trả về một giá trị trong khoảng (-1,1).
Trên hình 2.5, đường màu xanh thể hiện giá trị của hàm tanh và đường màu
8
- Xem thêm -