ĐẠI HỌC QUỐC GIA TP.HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA
———————————–
VŨ TRUNG HIẾU
TÁI ĐỊNH DANH ĐỐI TƯỢNG CHO TẬP
CAMERA QUAN SÁT
Chuyên ngành: Khoa Học Máy Tính
Mã số: 8.48.01.01
LUẬN VĂN THẠC SĨ
TP. HỒ CHÍ MINH, tháng 8 năm 2021
CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI
TRƯỜNG ĐẠI HỌC BÁCH KHOA ĐHQG-HCM
Cán bộ hướng dẫn khoa học: TS. Nguyễn Lê Duy Lai
Cán bộ chấm nhận xét 1: TS. Nguyễn Văn Sinh
Cán bộ chấm nhận xét 2: PGS. TS. Huỳnh Trung Hiếu
Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG Tp.
HCM ngày 5 tháng 8 năm 2021 (Trực tuyến).
Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: (Ghi rõ họ, tên, học
hàm, học vị của Hội đồng chấm bảo vệ luận văn thạc sĩ)
1. Chủ Tịch:
PGS. TS. Thoại Nam
2. Thư Ký:
TS. Lê Thành Sách
3. Phản Biện 1:
TS. Nguyễn Văn Sinh
4. Phản Biện 2:
PGS. TS. Huỳnh Trung Hiếu
5. Ủy Viên:
TS. Nguyễn Lê Duy Lai
Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý
chuyên ngành sau khi luận văn đã được sửa chữa (nếu có).
CHỦ TỊCH HỘI ĐỒNG
TRƯỞNG KHOA
KHOA HỌC VÀ KỸ THUẬT MÁY TÍNH
ĐẠI HỌC QUỐC GIA TP.HCM
CỘNG HOÀ XÃ HỘI CHỦ NGHĨA VIỆT NAM
TRƯỜNG ĐẠI HỌC BÁCH KHOA
Độc lập - Tự Do - Hạnh Phúc
NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ và tên học viên: Vũ Trung Hiếu
MSHV: 1970215
Ngày, tháng năm sinh: 18/11/1996
Nơi sinh: Ninh Thuận
Ngành: Khoa học Máy Tính
Mã số: 8480101
I. TÊN ĐỀ TÀI:
– Tái định danh đối tượng cho tập camera quan sát
II. NHIỆM VỤ VÀ NỘI DUNG :
– Tìm hiểu bài toán phân loại người đi bộ dựa trên nội dung ảnh.
– Đề xuất và hiện thực những mô hình trích xuất đặc trưng phân biệt cho người đi bộ
trong hệ thống camera quan sát.
– So sánh hiệu quả của những mô hình đề xuất và những công trình nghiên cứu liên
quan trong thời gian gần đây.
III. NGÀY GIAO NHIỆM VỤ: 20/01/2021
IV. NGÀY HOÀN THÀNH NHIỆM VỤ: 20/06/2021
V. CÁN BỘ HƯỚNG DẪN: TS. Nguyễn Lê Duy Lai
Tp. HCM, ngày ........ tháng ......... năm 2021
CÁN BỘ HƯỚNG DẪN
CHỦ NHIỆM BỘ MÔN ĐÀO TẠO
(Họ tên và chữ ký)
(Họ tên và chữ ký)
TRƯỞNG KHOA KHOA HỌC VÀ KỸ THUẬT MÁY TÍNH
(Họ tên và chữ ký)
Lời cảm ơn
Đầu tiên, tôi xin được bày tỏ lòng biết ơn sâu sắc tới TS. Lê Thành Sách và
TS. Nguyễn Lê Duy Lai, người đã hướng dẫn tôi trong suốt quá trình thực hiện
luận văn cũng như đề cương. Nhờ có những chỉ dẫn và góp ý của thầy mà tôi
mới có thể hoàn thành tốt được đề tài luận văn này.
Tôi xin được gửi lời cảm ơn đến quý thầy cô khoa Khoa học và Kỹ thuật máy
tính đã truyền thụ những kiến thức, kinh nghiệm quý báu cho tôi trong hơn hai
năm qua. Xin gửi lời tri ân đến tất cả các thành viên trong nhóm luận văn của
thầy Sách vì những sự giúp đỡ và hỗ trợ trong suốt quá trình thực hiện luận văn.
Cuối cùng, tôi xin gửi lời cảm ơn chân thành đến gia đình và bạn bè, những
người đã luôn động viên, ủng hộ tôi trong suốt thời gian học cao học.
Thành phố Hồ Chí Minh, 06/2021
Vũ Trung Hiếu
i
Tóm tắt
Tái định danh người là một bài toán đầy thử thách nhằm truy xuất tất cả các
hình ảnh khớp với hình ảnh truy vấn trong một hệ thống camera quan sát. Do
những thay đổi đáng kể của góc nhìn và điều kiện môi trường, việc trích xuất
được các đặc trưng phân biệt là chìa khóa thành công của việc tái định danh
người. Trong luận văn này, tác giả đề xuất mạng POSNet, một phương pháp
dựa trên OSNet kết hợp với luồng học theo từng phần giúp mạng học tập trung
vào cả đặc trưng toàn cục và cục bộ. Một nhánh của mô hình POSNet tập trung
vào việc trích xuất các đặc trưng trên toàn bộ ảnh, trong khi nhánh kia dành
cho việc trích xuất đặc trưng của từng phần trong bức ảnh. Luồng học cục bộ
sử dụng chiến lược phân vùng đều nhau và gom lại thành một vector đặc trưng
trong quá trình học phân lớp. Luồng còn lại tận dụng OSNet để tạo ra vector
đặc trưng toàn cục. Hai luồng kết hợp lại thành một vector đặc trưng duy nhất
dùng để đánh giá mô hình. POSNet đạt được kết quả tích cực trên tập dữ liệu
CHUK03 khi so sánh với các công trình nghiên cứu trong vài năm qua.
ii
Abstract
Person Re-Identification is a challenging task that retrieves all instances of a
query image across a closed circuit television (CCTV). Due to the various extreme changes of view, learning diverse features is key to the success of person
re-identification. In this work, the author introduces the POSNet, a method
based on OSNet with part-based stream that pushes the network to focus on
learning both global and local features. One branch of the proposed POSNet is
for global feature representation, while the other is for local feature representation. The local branch uses a uniform partition strategy for part-level feature
resolution but yields only a single identity-prediction loss. The global branch
utilizes the OSNet to produce global feature vector, which is combined with local feature vector to reach higher performance. POSNet achieves positive results
on CHUK03 dataset when compared with the related researches over the past
few years.
iii
Lời cam đoan
Tôi là Vũ Trung Hiếu học viên cao học khoa Khoa Học và Kĩ Thuật Máy
Tính, Đại học Bách Khoa TP. HCM, MSHV 1970215. Tôi xin cam đoan rằng
luận văn thạc sĩ "Tái định danh đối tượng cho tập camera quan sát" là kết quả
tìm hiểu, nghiên cứu độc lập của chính bản thân. Tôi xin cam đoan:
1. Luận văn được thực hiện cho mục đích tìm hiểu và nghiên cứu ở bậc cao
học
2. Các công trình, bài báo tham khảo để xây dựng nên luận văn này đều được
trích dẫn, tham khảo. Tất cả các tài liệu được trích dẫn và có tính kế thừa
từ các tạp chí và các công trình nghiên cứu đã được công bố
3. Những công cụ, phần mềm cho quá trình thực hiện luận văn đều là phần
mềm mã nguồn mở
4. Hình ảnh và số liệu được trích dẫn nguồn tham khảo rõ ràng
5. Kết quả nghiên cứu được trình bày trung thực dựa trên số liệu thực tế khi
chạy chương trình
TP. Hồ Chí Minh, Ngày 13 Tháng 05 Năm 2021
Học viên
Vũ Trung Hiếu
iv
Mục lục
1 Giới thiệu
1.1 Mở đầu . . . . . . . . . . . . . . . . . . . .
1.2 Ý nghĩa đề tài . . . . . . . . . . . . . . . . .
1.3 Tình hình nghiên cứu . . . . . . . . . . . . .
1.4 Mục tiêu, phạm vi và đối tượng nghiên cứu .
1.4.1 Mục tiêu . . . . . . . . . . . . . . . .
1.4.2 Phạm vi nghiên cứu . . . . . . . . .
1.4.3 Đối tượng nghiên cứu . . . . . . . . .
1.5 Bố cục của luận văn . . . . . . . . . . . . .
2 Cơ
2.1
2.2
2.3
2.4
sở lý thuyết
Mạng neuron nhân tạo . . . . . . . .
Gradient descent và lan truyền ngược
Kiến trúc mạng học sâu tích chập . .
Một số lớp tính toán trong CNN . . .
2.4.1 Lớp Pooling . . . . . . . . . .
2.4.2 Lớp BactchNorm . . . . . . .
2.4.3 Lớp BNNeck . . . . . . . . . .
2.5 Chiến lược huấn luyện mạng học sâu
2.5.1 Học theo epoch . . . . . . . .
2.5.2 Học theo episode . . . . . . .
2.6 Các độ đo thường gặp . . . . . . . .
2.6.1 Độ chính xác . . . . . . . . .
2.6.2 Precision và Recall . . . . . .
2.7 Các hàm mất mát . . . . . . . . . . .
2.7.1 Triplet loss . . . . . . . . . .
2.7.2 Center loss . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
1
2
3
4
4
5
5
5
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
6
6
7
9
10
10
11
12
14
14
15
16
16
16
17
17
19
3 Các hướng tiếp cận và công trình liên quan
3.1 Bài nghiên cứu Spatial-Temporal Person Re-identification . . . . . . . .
3.2 Bài nghiên cứu Beyond Part Models: Person Retrieval with Refined Part
Pooling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
v
20
20
23
MỤC LỤC
3.3
3.4
3.5
Bài nghiên cứu Omni-Scale Feature Learning . . . . . . . . . . . . . . .
Bài nghiên cứu Relation-Aware Global Attention . . . . . . . . . . . . .
Bài nghiên cứu Salience-Guided Cascaded Suppression Network . . . .
4 Phương pháp đề xuất
4.1 Phương pháp và thí
4.2 Phương pháp và thí
4.3 Phương pháp và thí
4.4 Phương pháp và thí
26
29
30
.
.
.
.
32
32
33
34
35
.
.
.
.
.
.
.
.
.
.
37
37
37
38
39
41
41
41
45
50
53
6 Kết Luận
6.1 Tổng kết kết quả . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.2 Hướng nghiên cứu tiếp theo . . . . . . . . . . . . . . . . . . . . . . . .
56
56
57
Tài liệu tham khảo
58
A Bảng đối chiếu thuật ngữ Anh - Việt
61
nghiệm
nghiệm
nghiệm
nghiệm
1
2
3
4
.
.
.
.
.
.
.
.
.
.
.
.
5 Kết quả thực nghiệm
5.1 Thu thập và tiền xử lý dữ liệu . . .
5.1.1 Dữ liệu . . . . . . . . . . . .
5.1.2 Tiền xử lý dữ liệu . . . . . .
5.2 Độ đo đánh giá kết quả nghiên cứu
5.3 Môi trường thực hiện . . . . . . . .
5.4 Kết quả thí nghiệm . . . . . . . . .
5.4.1 Thí nghiệm 1 . . . . . . . .
5.4.2 Thí nghiệm 2 . . . . . . . .
5.4.3 Thí nghiệm 3 . . . . . . . .
5.4.4 Thí nghiệm 4 . . . . . . . .
vi
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Danh sách hình vẽ
1.1
Một số hướng nghiên cứu tiêu biểu . . . . . . . . . . . . . . . . . . . .
2.1
2.2
2.3
2.4
2.5
2.6
2.7
2.8
2.9
Sơ đồ tính toán một nút neuron
Sơ đồ tính toán hai nút neuron
Ví dụ mình hoạ cho tích chập .
Mô tả trực quan lớp pooling . .
ID loss kết hợp triplet loss . . .
So sánh ảnh hưởng của các hàm
Sơ đồ BNNeck . . . . . . . . . .
Ý tưởng triplet learning . . . .
Quá trình triplet learning . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
7
8
10
10
12
13
13
18
18
3.1
3.2
3.3
3.4
3.5
3.6
3.7
3.8
3.9
3.10
3.11
3.12
3.13
Mô hình st-ReID [2] . . . . . . . . . . . . . . . . . . . . . . .
Mô hình mạng PCB [3] . . . . . . . . . . . . . . . . . . . . . .
Trực quan hoá cách hoạt động RPP [3] . . . . . . . . . . . . .
Mô hình PCB kết hợp với RPP [3] . . . . . . . . . . . . . . .
Bộ 3 hình cần tìm, hình đúng, hình sai [4] . . . . . . . . . . .
Cách kết hợp các đặc trưng đồng nhất [4] . . . . . . . . . . . .
Khối tích chập cơ bản (a) và khối tích chập nhẹ (b) [4] . . . .
Baseline bottleneck (a) OMNI bottleneck (b) [4] . . . . . . . .
Mô hình của OSNet [4] . . . . . . . . . . . . . . . . . . . . . .
Cách học tập trung theo hướng cục bộ, toàn cục và kết hợp [5]
Khối RGA [5] . . . . . . . . . . . . . . . . . . . . . . . . . . .
Mô hình mạng SCSN [6] . . . . . . . . . . . . . . . . . . . . .
Mô hình khối SFE (Salient Feature Extraction) [6] . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
21
24
25
25
26
27
27
28
28
29
30
31
31
4.1
4.2
4.3
4.4
Kiến
Kiến
Kiến
Kiến
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
32
34
35
36
5.1
5.2
Một số hình ảnh trong tập CUHK03 . . . . . . . . . . . . . . . . . . .
Một số hình ảnh trong tập Market-1501 . . . . . . . . . . . . . . . . .
38
38
trúc
trúc
trúc
trúc
mạng
mạng
mạng
mạng
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
losses [1] .
. . . . . .
. . . . . .
. . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
PCB [2] với OSNet backbone
Global + Part-based OSNet .
POSNet . . . . . . . . . . . .
POSNet + BNNeck . . . . . .
vii
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3
DANH SÁCH HÌNH VẼ
5.3
5.4
5.5
5.6
5.7
5.8
5.9
5.10
5.11
5.12
5.13
5.14
5.15
5.16
Độ lớn của Center, Triplet và ID loss . . . . . . . . . . .
Độ chính xác theo epoch của part-based OSNet (4 phần)
Heatmap của các mô hình Part-based OSNet . . . . . . .
Truy vấn hình ảnh của của mô hình Part-based OSNet .
Loss của Global + Part-based OSNet . . . . . . . . . . .
Độ chính xác theo epoch của Global + Part-based OSNet
Heatmap của Global + Part-based OSNet . . . . . . . .
So sánh heatmap giữa thí nghiệm 1 và 2 . . . . . . . . .
Truy vấn hình ảnh của mô hình Global + Part OSNet .
Loss của POSNet . . . . . . . . . . . . . . . . . . . . . .
Độ chính xác theo epoch của POSNet . . . . . . . . . . .
Heatmap của POSNet . . . . . . . . . . . . . . . . . . .
So sánh heatmap giữa thí nghiệm 1, 2, và 3 . . . . . . .
Truy vấn hình ảnh của mô hình POSNet . . . . . . . . .
viii
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
(4 phần)
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
42
43
43
45
46
47
48
48
49
50
51
51
52
53
Danh sách bảng
5.1
5.2
5.3
5.4
5.5
Độ chính xác của các thí nghiệm liên quan đến part-based OSNet
Độ chính xác giữa thí nghiệm part-base và kết hợp global . . . . .
Độ chính xác mô hình Part-base, Global + Part-based, POSNet .
So sánh độ chính xác giữa các mô hình trong thiết kế thí nghiệm .
So sánh độ chính xác với các mô hình liên quan . . . . . . . . . .
ix
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
44
48
52
54
55
Chương 1
Giới thiệu
1.1
Mở đầu
Trong hệ thống camera quan sát, tái định danh đối tượng nói chung và con
người nói riêng là một trong những nhu cần căn bản và cần thiết. Với những đặc
tính hoặc hình ảnh cho trước của một đối tượng hay con người, mục tiêu của
việc tái định danh này là nhận diện và truy xuất chính xác đối tượng trong tập
dữ liệu mà camera ghi lại được. Ứng dụng của tái định danh một người trong
thực tế là rất hữu ích, ví dụ như tìm kiếm đứa trẻ đi lạc trong một trung tâm
thương mại, hay công an đang theo dấu một nghi phạm thông qua hình ảnh từ
camera an ninh đường phố... Bằng cách quan sát tất cả các camera một cách
thủ công, ta có thể tìm kiếm được đối tượng cần nhận diện. Tuy nhiên, việc làm
thủ công tốn rất nhiều công sức và thời gian đặc biệt là trong bối cảnh hệ thống
thông tin và giám sát ngày càng bùng nổ. Vấn đề đặt ra là xây dựng được một
giải thuật và hệ thống có thể tự động nhận diện để tìm kiếm một cách chính xác
hoặc thu hẹp phạm vi tìm kiếm một đối tượng tập dữ liệu của hệ thống camera.
Tái định danh người, cũng giống như tái định danh một đối tượng, có hai
thách thức chính. Thứ nhất, những hình ảnh của cùng một định danh đôi khi có
sự thay đổi khá rộng. Việc này có thể xuất phát từ việc góc quay của các camera
khác nhau khiến một số vật thể không xuất hiện, tư thế của người thay đổi lúc
di chuyển hoặc thậm chí đối tượng thay đổi cả trang phục. Thứ hai, sự khác
1
CHƯƠNG 1. GIỚI THIỆU
nhau giữa một số đối tượng là không rõ ràng ví dụ như những người có hình
thể giống nhau, trang phục của mọi người giống nhau. Để giải quyết hai vấn đề
này, giải thuật cần học được những đặc trưng có khả năng phân biệt tốt giữa
các định danh. Những đặc trưng này được ánh xạ trên một không gian nhiều
chiều mà ở đó độ đo khoảng cách thể hiện trực tiếp độ tương đồng giữa hai đối
tượng. Đây cũng là phương pháp phổ biến mà các nghiên cứu gần đây theo đuổi.
Ngoài ra, những thách thức của bài toán để có thể ứng dụng thành công trong
thực tế có thể kể đến là:
• Điều kiện ánh sáng phụ thuộc vào thời điểm trong ngày, thời tiết cũng như
nhiều yếu tố khác. Mỗi đối tượng dưới các nguồn sáng khác nhau có thể có
các chi tiết màu khác nhau.
• Vấn đề về góc quay cao thấp, góc xoay, khoảng cách tới đối tượng và hướng
nhìn đối tượng sẽ làm cho một đối tượng có những hình ảnh đa dạng. Thêm
vào đó, tùy vào vị trí đặt camera, đối tượng có thể bị che khuất bởi vật cản.
• Một đối tượng có thể xuất hiện với nhiều trang phục khác nhau. Yếu tố này
là rất khó để giải quyết khi đặc điểm ngoại hình của đối tượng đã thay đổi
nhưng hệ thống vẫn cần nhận diện được sự thay đổi đó.
• Gắn nhãn dữ liệu là vấn đề không chỉ trong tái định danh, mà còn cho các
bài toán về học có giám sát nói chung. Với một hệ thống camera lớn, việc
gắn nhãn cho từng định danh thủ công tốn nhiều thời gian và công sức.
1.2
Ý nghĩa đề tài
Về ý nghĩa khoa học, tái định danh người là một bài toán con trong lớp các
bài toán về trích xuất đặc trưng. Vì vậy, việc nghiên cứu và giải quyết bài toán
sẽ góp phần phát triển thêm những hướng đi và ý tưởng cho một chuỗi các bài
toán liên quan đến nhận diện, gom cụm, so trùng, hệ thống gợi ý... Mặc dù đối
tượng cụ thể của bài toán là con người nhưng phương pháp nghiên cứu có thể
hữu dụng cho cả định danh những vật thể khác như phương tiện giao thông,
khuôn mặt...
2
CHƯƠNG 1. GIỚI THIỆU
Về ý nghĩa thực tiễn, nhận dạng người đóng một vai trò quan trọng trong
cuộc sống hiện đại. Nó giúp tiết kiệm thời gian tìm kiếm một đối tượng trong
một ngữ cảnh hẹp như toà nhà, trung tâm thương mại, quảng trường... Tái định
danh người còn có thể áp dụng cho phạm vi rộng lớn hơn với hàng chục, hàng
trăm camera quan sát nhằm theo dấu vị trí mà một người đã đi qua. Những
điều này hỗ trợ tốt cho việc tìm kiếm người thất lạc, duy trì an ninh, truy bắt
tội phạm, theo dõi đường dây phạm pháp...
1.3
Tình hình nghiên cứu
Hiện nay đã có những nghiên cứu liên quan đến tái định danh người và cách
tiếp cận của những nghiên cứu này là rất đa dạng. Hình 1.1 thể hiện một số
hướng nghiên cứu mà tác giả đã khảo sát. Một số nhóm nhà nghiên cứu tập
trung khai phá thông tin về không gian và thời gian trong tập dữ liệu, ví dụ
như st-ReID [2], spatiotemporal model [7]. Trong đó, st-ReID đạt được kết quả
chính xác đứng đầu trong tập dữ liệu Market-1501. Ngoài việc trích xuất đặc
trưng của đối tượng, đặc điểm của hướng đi này là dùng thông tin về không thời
gian để giới hạn phạm vi tìm kiếm. Đây như là một bộ lọc những người không
liên quan trong một thời điểm và vị trí cụ thể để tránh nhận dạng nhầm khi các
đối tượng có nhiều nét tương đồng. Việc sử dụng thêm cả thông tin không thời
gian giúp tăng độ chính xác nhưng lại cần một lượng lớn dữ liệu để huấn luyện
và chỉ áp dụng được cho một ngữ cảnh cụ thể.
Hình 1.1: Một số hướng nghiên cứu tiêu biểu
Thời gian gần đây, hướng tiếp cận huấn luyện tập trung (attention) đang được
nhiều nhà nghiên cứu theo đuổi, ví dụ như RGA [5], SCSN [6], MHN [8], ABD
[9]. Giải pháp này có thể hướng mô hình học tập trung vào những đặc trưng
3
CHƯƠNG 1. GIỚI THIỆU
nổi bật một cách tự động và đem lại hiệu quả tốt, tuy nhiên mô hình lại có rất
nhiều thông số cần phải học làm ảnh hưởng đến tốc độ tính toán và có thể học
quá khớp (overfitting). Bên cạnh huấn luyện tập trung, huấn luyện nhiều luồng
cũng là một hướng đi mang lại hiệu quả, như OSNet [4], MGN [10], MLFN [11],
Pyramid [12]. Một trong những hướng đi khác nữa là khai thác thông tin về dáng
người để học được những đặc trưng mang tính phân biệt hơn, ví dụ như PCB
kết hợp RPP [3], PAFs [13]. Thông thường, cách tiếp cận sẽ dựa trên việc ước
lượng hình dáng của con người để từ đó hướng mô hình học tập trung vào cấu
trúc ước lượng được. Điều này đem lại kết quả tốt cho những tập dữ liệu có góc
nhìn ngang nhưng trong thực tế thì hầu hết các camera có góc nhìn hướng xuống.
Nhìn chung, các kết quả đạt được của các hướng nghiên cứu là rất tích cực.
Một số mô hình thay thế Resnet50 trở thành nền tảng (baseline) cho các mô
hình về sau như OSNet, PCB. Trong đó OSNet là một mạng có hiệu quả cao và
có ít thông số cần phải học. Một số mô hình học tập trung (attention) được sửa
lại từ Resnet50 đạt kết quả rất tốt trên một tập dữ liệu nhưng thông số học còn
khá nhiều và có thể sẽ gặp hiện tượng học quá khớp nếu ứng dụng trên thực tế.
Điều này mở ra một ý tưởng là kết hợp cách học tập trung với một mô hình nền
tảng có ít thông số hơn Resnet50 để đạt hiệu suất tương tự, tránh tình trạng
học quá khớp và tính toán nhanh hơn.
1.4
Mục tiêu, phạm vi và đối tượng nghiên
cứu
1.4.1
Mục tiêu
Mục tiêu của Luận văn Tốt nghiệp là khảo sát và đánh giá các nghiên cứu
mới về bài toán tái định danh người để từ đó thay đổi, cải tiến, thử nghiệm và
đưa ra các kết quả. Kết quả này cần đạt được độ tìm kiếm chính xác tốt hơn
mô hình gốc. Từ đó, cung cấp những hướng đi và nhận xét cho chủ đề tái định
danh này.
4
CHƯƠNG 1. GIỚI THIỆU
1.4.2
Phạm vi nghiên cứu
Phạm vi nghiên cứu của Luận văn là tái định danh người đi bộ trong ngữ
cảnh được ghi hình dưới nhiều camera. Giả định rằng góc quay của các camera
này là không trùng lắp. Điều kiện ánh sáng, góc quay, và độ cao của các camera
này là có thể khác nhau.
1.4.3
Đối tượng nghiên cứu
Đối tượng nghiên cứu của Luận văn là các cách tiếp cận, các mạng học máy,
học sâu theo những hướng như học tập trung (attention), học với ít thông số,
tự động làm giàu dữ liệu... để giải quyết bài toán tái định danh người trong tập
camera quan sát.
1.5
Bố cục của luận văn
Chương 1: Giới thiệu: Tổng quan về nội dung, mục tiêu và cấu trúc luận văn.
Chương 2: Cơ sở lý thuyết: Kiến thức nền tảng có liên quan đến đề tài.
Chương 3: Các hướng tiếp cận và công trình liên quan.
Chương 4: Phương pháp thí nghiệm: Trình bày các mô hình và thí nghiệm.
Chương 5: Kết quả thực nghiệm: So sánh và đánh giá những thay đổi của
các thí nghiệm.
Chương 6: Kết luận: Tổng kết kết quả đúc kết được trong quá trình nghiên
cứu và hướng nghiên cứu tiếp theo trong tương lai.
5
Chương 2
Cơ sở lý thuyết
Trong những năm trở lại đây, mạng học sâu (deep neural networks) đang trở
thành một hướng đi lớn cho việc giải quyết các bài toán về trí thông minh nhân
tạo nói chung và các bài toán xử lý ảnh nói riêng. Các mô hình tính toán với độ
phức tạp cao trước đây không hiện thực hoá được nay lại trở nên dễ dàng ứng
dụng với sự phát triển mạnh mẽ của các thiết bị phần cứng. Deep learning đang
dần thống trị các lĩnh vực từ thị giác máy tính, xử lý ngôn ngữ tự nhiên hay
khoa học dữ liệu. Mạng học sâu cũng được ứng dụng trong bài toán tái định
danh với nhiều công trình nổi tiếng gần đây như tại [2], [3], [5], [7], ...
2.1
Mạng neuron nhân tạo
Mạng neuron nhân tạo là một đồ thị tính toán gồm các neuron là các nút
tính toán được liên kết với nhau. Mỗi neuron bao gồm nhiều tín hiệu đầu vào
và một tín hiệu đầu ra. Đầu ra được lấy tổ hợp tuyến tính của các dữ liệu đầu
vào, sau đó sẽ qua một hàm kích hoạt phi tuyến. Một neuron được biểu diễn
như hình sau:
6
CHƯƠNG 2. CƠ SỞ LÝ THUYẾT
Hình 2.1: Sơ đồ tính toán một nút neuron
Hàm kích hoạt có tác dụng phi tuyến hóa đầu ra của neuron. Một số hàm
kích hoạt tiêu biểu là Sigmoid, T anh, ReLU , ... Hàm kích hoạt phải thỏa mãn
các tính chất: (1) là hàm đồng biến (đạo hàm không âm) trên không gian số
thực để giữ được đặc tính so sánh của dữ liệu đầu vào và (2) có đạo hàm trên
toàn bộ không gian số thực để phục vụ cho việc tối ưu bằng gradient descent.
Các trọng số của neuron sẽ được điều chỉnh trong quá trình học sao cho hợp
lý nhất. Với mỗi nút neuron, khả năng biểu diễn tính toán có thể nhỏ nhưng
liên kết nhiều nút lại với nhau sẽ giúp tăng khả năng biểu diễn chung của toàn
mạng. Từ đó, mạng neuron có khả năng biểu diễn mọi hàm số phức tạp.
2.2
Gradient descent và lan truyền ngược
Mục tiêu của gradient descent là điều chỉnh bộ tham số w để tối thiểu hóa
hàm mục tiêu L. Ý tưởng chính của phương pháp là thay đổi w một lượng tỉ lệ
nghịch với đạo hàm của L.
w ←w−α×
∂L
∂w
(2.1)
Ở công thức trên thì α là một hằng số, gọi là hệ số học (learning rate) thể
hiện cho mức độ thay đổi trong việc cập nhật trọng số sau mỗi bước.
7
CHƯƠNG 2. CƠ SỞ LÝ THUYẾT
Hình 2.2: Sơ đồ tính toán hai nút neuron
Đối với mô hình như 2.2, khi áp dụng gradient descent để tinh chỉnh mạng
nhằm tối thiểu hóa hàm mục tiêu, ta cần tính toán được các giá trị đạo hàm
của hàm mục tiêu theo từng bộ tham số bao gồm:
∂L
∂w2
∂L
∂w1
=
=
∂L
∂y
∂L
∂y
×
×
∂y
∂w2
∂y
∂o1
×
∂o1
∂w1
(2.2)
(2.3)
Với những hệ tính toán nhiều lớp, cần phải có cách để tính đạo hàm của hàm
mục tiêu trên từng tham số cần tối ưu. Lan truyền ngược đã được được áp dụng
để giải quyết vấn đề này trong quá trình học:
1. Bước lan truyền thuận: Dữ liệu được đưa vào mạng, tính toán và cho ra kết
quả. Các dữ kiện cần thiết cho bước tính đạo hàm sẽ được lưu lại để phục
vụ tính toán.
2. Bước lan truyền ngược: đạo hàm của hàm mục tiêu trên từng tham số trong
mạng sẽ được tính toán bằng công thức đạo hàm của hàm hợp (chain-rule).
Sở dĩ gọi bước này là lan truyền ngược, vì đạo hàm của một nút lớp trước
sẽ được tính toán dựa trên đạo hàm đã tính của các nút phía sau gần hàm
mục tiêu hơn.
3. Bước cập nhật: Từng tham số trong mạng sẽ được cập nhật theo công thức
đã trình bày ở 2.1
8
- Xem thêm -