BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
NGUYỄN THÚY BÌNH
TÁI ĐỊNH DANH
TRONG HỆ THỐNG CAMERA GIÁM SÁT TỰ ĐỘNG
Ngành: Kỹ thuật điện tử
Mã số: 9520203
TÓM TẮT LUẬN ÁN TIẾN SĨ
KỸ THUẬT ĐIỆN TỬ
Hà Nội −2020
Công trình này được hoàn thành tại:
Trường Đại học Bách Khoa Hà Nội
Người hướng dẫn khoa học:
1. PGS.TS. Phạm Ngọc Nam
2. PGS.TS. Lê Thị Lan
Phản biện 1: PGS.TS Trần Đức Tân
Phản biện 2: PGS.TS Lê Nhật Thăng
Phản biện 3: PGS.TS Ngô Quốc Tạo
Luận án được bảo vệ trước Hội đồng đánh giá luận án tiến sĩ
cấp Trường họp tại Trường Đại học Bách khoa Hà Nội:
Vào hồi giờ......., ngày...... tháng...... năm
Có thể tìm hiểu luận án tại thư viện:
1. Thư viện Tạ Quang Bửu - Trường ĐHBK Hà Nội
2. Thư viện Quốc gia Việt Nam
GIỚI THIỆU
Động lực nghiên cứu
Sự phát triển của các kỹ thuật xử lý ảnh, nhận dạng cho phép xây dựng các hệ thống
phân tích tự động nội dung của video. Các hệ thống này thường chia thành bốn bước chính:
phát hiện, theo vết, tái định danh và nhận dạng. Trong đó tái định danh được định nghĩa là
bài toán kết nối ảnh/chuỗi ảnh của một người khi người đó di chuyển trong vùng giám sát
của camera này đến camera khác [7]. Mặc dù đã đạt được những thành công nhất định, tái
định danh vẫn chưa được triển khai rộng rãi trong thực tế do độ chính xác chưa cao. Tùy vào
số ảnh sử dụng cho biểu diễn người, tái định danh có thể chia thành tái định danh dựa trên
1 thể hiện (single-shot) và tái định danh dựa trên nhiều thể hiện (multi-shot).
Biểu diễn toán học của bài toán tái định danh
Cho một người truy vấn Qi và N người trong tập tìm kiếm Gj , trong đó j = 1, N .
n o
(l)
Qi = qi , l = 1, ni
n o
(k)
Gj = gj
, k = 1, mj
(1)
ni và mj là số ảnh tương ứng của người Qi và Gj . Danh tính của người cần truy vấn Qi được
xác định như sau [26]:
j ∗ = arg min d (Qi , Gj ) ,
(2)
j
trong đó d (Qi , Gj ) được định nghĩa là khoảng cách giữa hai người Qi và Gj . Cũng có thể sử
dụng độ đo tương tự giữa hai người thay cho việc tính khoảng cách. Khi đó danh tính của
người cần truy vấn được xác định:
j ∗ = arg max Sim (Qi , Gj ) ,
j
(3)
Thách thức
Tái định danh người trong mạng camera giám sát có nhiều thách thức. Trong đó, ba
thách thức chính là (1) sự thay đổi lớn về diện mạo bề ngoài của người khi người đó được
quan sát trong các điều kiện khác như về ánh sáng, góc quan sát và tư thế (2) Một số lượng
lớn các ảnh được dùng để biểu diễn một người; (3) Chất lượng của bước phát hiện và theo
vết tự động ảnh hưởng đến hiệu năng của tái định danh.
Mục tiêu
Luận án có ba mục tiêu chính như sau:
1
• Xây dựng phương pháp biểu diễn hiệu quả cho bài toán tái định danh dựa trên nhiều thể
hiện (multi-shot). Mục tiêu đầu tiên của luận án đó là tìm ra một giải pháp nhằm giảm
chi phí tính toán và dung lượng bộ nhớ cần cho việc lưu trữ dữ liệu nhưng vẫn đảm bảo
độ chính xác trong bài toán tái định danh .
• Nâng cao độ chính xác tái định danh. Nâng cao độ chính xác là một trong những mục
tiêu quan trọng nhất của các nghiên cứu về tái định danh. Do đó, mục tiêu thứ hai của
luận án đó là nâng cao độ chính xác tái định danh dựa trên các chiến lược kết hợp các
đặc trưng khác nhau nhằm khai thác được ưu điểm của từng đặc trưng.
• Tích hợp và đánh giá ảnh hưởng của phát hiện và theo vết lên hiệu năng của một hệ
thống tái định danh. Một hệ thống giám sát thực tế bao gồm ba khâu chính: phát hiện
người, theo vết và tái định danh. Tuy nhiên, các nghiên cứu hiện nay thường dựa trên
kết quả của phát hiện và theo vết thủ công. Khi triển khai một hệ thống thực tế, chất
lượng của phát hiện và theo vết sẽ ảnh hưởng đến hiệu năng của tái định danh. Với mục
tiêu hướng đến triển khai kết quả nghiên cứu trên thực tế, luận án thực hiện tích hợp
và đánh giá định lượng về ảnh hưởng của phát hiện và theo vết lên tái định danh.
Giới hạn và phạm vi nghiên cứu
Đối tượng của luận án là tái định danh có giám sát bao gồm cả tái định danh dựa trên
một thể hiện và nhiều thể hiện. Các nghiên cứu trong luận án dựa trên các ràng buộc sau:
• Dữ liệu hình ảnh và video được thu trong điều kiện ánh sáng ban ngày.
• Tái định danh được thực hiện trong khoảng thời gian ngắn, diện mạo bề ngoài và quần
áo của mỗi người sẽ không thay đổi. Trong phạm vi của luận án không xét đến trường
hợp những người trong cơ sở dữ liệu mặc đồng phục.
• Tái định danh trong trường hợp cơ sở dữ liệu khép kín (close-set), mỗi người xuất hiện
ít nhất trong trường quan sát của hai camera khác nhau.
Đóng góp
Luận án bao gồm hai đóng góp chính như sau:
• Đóng góp 1: Đề xuất một phương pháp hiệu quả cho bài toán tái định danh dựa trên
nhiều thể hiện. Phương pháp được đề xuất gồm bốn bước chính: lựa chọn khung hình
đại diện, trích chọn đặc trưng, tổng hợp đặc trưng và đối sánh. Trong đề xuất này, thay
bằng việc sử dụng toàn bộ khung hình, một số khung hình đại diện được lựa chọn để
biểu diễn người. Hai chiến lược được đề xuất đó là sử dụng các khung hình trong một
chu kỳ bước chân hoặc bốn khung hình đại diện. Giảm số lượng khung hình biểu diễn
người, chi phí tính toán cũng như dung lượng bộ nhớ cần thiết cho việc lưu trữ dữ liệu
giảm đáng kể nhưng vẫn đảm bảo độ chính xác tái định danh.
• Đóng góp 2: Mỗi đặc trưng có hiệu quả riêng trong biểu diễn người, nhằm khai thác
ưu điểm cũng như hạn chế nhược điểm của từng đặc trưng, luận án đề xuất một số chiến
2
lược kết hợp cho bài toán tái định danh dựa trên nhiều thể hiện và các thử nghiệm được
thực hiện trên cả hai ngữ cảnh của bài toán tái định danh. Ngoài việc gắn các trọng
số bằng nhau cho mỗi đặc trưng, đóng góp này cũng đề cập tới trọng số thích nghi với
người cần truy vấn.
Cấu trúc của luận án
Bên cạnh phần Giới thiệu và Kết luận, luận án gồm bốn chương chính. Chương 1 đánh
giá và tổng hợp các nghiên cứu trong và ngoài nước hiện nay nhằm có cái nhìn tổng quan về
tái định danh một cách toàn diện. Chương 2 đề xuất một phương pháp hiệu quả cho bài toán
tái định danh dựa trên nhiều thể hiện, khắc phục những khó khăn: chi phí tính toán lớn, yêu
cầu dung lượng bộ nhớ lưu trữ lớn. Chương 3 giới thiệu một số chiến lược kết hợp đặc trưng
cho bài toán tái định danh, các thử nghiệm được thực hiện trên cả hai ngữ cảnh của bài toán
tái định danh. Chương 4 trình bày về một hệ thống tái định danh hoàn toàn tự động bao gồm
các ba khâu chính: phát hiện người, theo vết và tái định danh. Ảnh hưởng của khâu phát hiện
và phân đoạn ảnh tới chất lượng của tái định danh cũng được đề cập tới trong luận án này.
CHƯƠNG 1
CÁC NGHIÊN CỨU LIÊN QUAN
1.1
1.1.1
Cơ sở dữ liệu và độ đo đánh giá
Cơ sở dữ liệu
Nhằm đánh giá hiệu quả của một phương pháp đề xuất, luận án này sử dụng năm cơ
sở dữ liệu benchmark bao gồm: VIPeR, CAVIAR4REID, RAiD, PRID-2011 và iLIDS-VID .
Trong số năm cơ sở dữ liệu này, CAVIAR4REID và RAID được sử dụng trong ngữ cảnh thứ
nhất của bài toán, ba cơ sở dữ liệu còn lại được sử dụng trong ngữ cảnh thứ hai. Bảng 1.1
đưa ra một số đặc điểm của các cơ sở dữ liệu dùng trong luận án.
Bảng 1.1 Một số cơ sở dữ liệu được sử dụng trong luận án.
Datasets
VIPeR
CAVIAR4REID
RAiD
PRID-2011
iLIDS-VID
1.1.2
Time
2007
2011
2014
2011
2016
#ID
632
72
43
934
300
#Cam
2
2
4
2
2
#Images
1,264
1,220
6,920
24,541
42,495
Label
hand
hand
hand
hand
hand
Full frames
+
Resolution
128x48
vary
128x64
128x65
vary
Single-shot
X
X
Multiple-shot
X
X
X
X
Setting
2
1
1
2
2
Độ đo đánh giá
Đường cong CMC (Cumulative Matching Characteristic) thường được sử dụng để đánh
giá hiệu năng của một phương pháp trong bài toán tái định danh [23]. Giá trị của đường cong
CMC tại mỗi xếp hạng là tỷ số giữa đối sánh đúng và tổng số người cần truy vấn.
1.2
Trích chọn đặc trưng
Thông thường, để biểu diễn một người, các thông tin liên quan đến sinh trắc học (mắt,
mống mắt, dáng đi) và vẻ bề ngoài được khai thác. Tuy nhiên, trong bài toán tái định danh,
3
hình ảnh hay videos thường được thu bởi camera có độ phân giải thấp, rất khó để trích chọn
thông tin về mống mắt hay mắt của con người. Do đó, đa số các nghiên cứu về bài toán tái
định danh hiện nay dựa trên những thông tin về diện mạo bề ngoài của một người (màu sắc,
kết cấu của trang phục,...) [12]. Các đặc trưng được phân chia thành hai loại cơ bản: đặc trưng
tự thiết kế và đặc trưng học sâu.
1.3
Học khoảng cách
Mục tiêu chính của học khoảng cách đó là tìm ra một độ đo phù hợp và hiệu quả cho
quá trình đối sánh: tối thiểu hóa khoảng cách của các đối tượng cùng phân lớp và tối đa hóa
khoảng cách của các đối tượng thuộc các phân lớp khác nhau. Học khoảng cách có thể được
hiểu là học một không gian con mà các vector được chiếu lên không gian con đó thỏa mãn
điều kiện đã đề cập ở trên.
1.4
Chiến lược kết hợp cho bài toán tái định danh
Chiến lược kết hợp đặc trưng được phân chia thành hai nhóm chính: Kết hợp ở mức đặc
trưng (kết hợp sớm) và ở mức điểm số (kết hợp muộn). Trong chiến lược kết hợp sớm, các
vector đặc trưng được kết nối với nhau để sinh ra một vector cuối cùng có số chiều lớn hơn
để biểu diễn ảnh. Các chiến lược kết hợp muộn kết hợp các điểm số/độ tương tự có được sau
quá trình đối sánh ứng với mỗi đặc trưng theo một hàm toán học nào đó.
1.5
Lựa chọn các khung hình đại diện
Một vấn đề đặt ra khi giải quyết bài toán tái định danh dựa trên nhiều thể hiện đó là
lựa chọn khung hình nào để biểu diễn một người. Lựa chọn toàn bộ các khung hình sẽ tạo nên
một áp lực không hề nhỏ đến quá trình tính toán và lưu trữ dữ liệu. Một số nghiên cứu đề
xuất chỉ sử dụng một số khung hình đại diện để biểu diễn người, giúp giảm chi phí tính toán,
dung lượng bộ nhớ lưu trữ nhưng vẫn đảm bảo độ chính xác tái định danh.
1.6
Hệ thống tái định danh tự động hoàn toàn
Một hệ thống định danh tự động hoàn toàn gồm ba khâu chính: phát hiện người, theo
vết và tái định danh. Tuy nhiên, có rất ít các nghiên cứu đề cập đến việc xây dựng một hệ
thống hoàn chỉnh, đánh giá và phân tích ảnh hưởng của hai khâu phát hiện người và theo vết
lên độ chính xác của khâu tái định danh.
CHƯƠNG 2
TÁI ĐỊNH DANH DỰA TRÊN NHIỀU THỂ HIỆN
THÔNG QUA LỰA CHỌN KHUNG HÌNH ĐẠI DIỆN VÀ
TỔNG HỢP ĐẶC TRƯNG
2.1
Giới thiệu
Nội dung của chương này đề cập tới một phương pháp hiệu quả cho bài toán tái định
danh trên dựa nhiều thể hiện thông qua việc lựa chọn khung hình đại diện và tổng hợp đặc
4
trưng. Mục tiêu của phương pháp đề xuất này là loại bỏ thông tin dư thừa và tăng tốc độ
tính toán.
2.2
2.2.1
Phương pháp đề xuất
Tổng quan của phương pháp
Hình 2.1 mô tả phương pháp đề xuất cho bài toán tái định danh dựa trên nhiều thể
Gallery
sequences
Temporal
pooling layer
Extract
walking cycles
Min-pooling
Image-level
features
Average-pooling
Person matching
Extract 4 key
frames
Max-pooling
Representative
frames selection
A probe
sequence
ID person
Extract
walking cycles
Min-pooling
Image-level
features
Average-pooling
Extract 4 key
frames
Max-pooling
Temporal
pooling layer
Hình 2.1 Phương pháp đề xuất bao gồm bốn khâu chính: lựa chọn khung hình đại diện, trích
chọn đặc trưng, tổng hợp đặc trưng và đối sánh.
hiện, gồm bốn bước chính: lựa chọn khung hình đại diện, trích chọn đặc trưng mức ảnh, tổng
hợp đặc trưng và đối sánh. Mục tiêu của bước đầu tiên là lựa chọn các khung hình đại diện
để biểu diễn một người. Ba chiến lược được đề cập tới: bốn khung hình đại diện, các khung
hình trong một chu kỳ bước chân và toàn bộ các khung hình. Đặc trưng Gaussian of Gaussian
(GOG) [18] được trích chọn trên các khung hình đại diện này và được tổng hợp để sinh ra
vector đặc trưng duy nhất. Kỹ thuật học khoảng cách Cross-view Quadratic Discriminative
Analysis (XQDA) [14]được đề xuất sử dụng trong bước đối sánh với mục tiêu xếp hạng những
người trong cơ sở dữ liệu tìm kiếm và xác định danh tính của một người cần truy vấn. Phương
pháp đề xuất được mô tả chi tiết trong hai thuật toán: thuật toán 2.1 được thực hiện trong
pha huấn luyện, trong khi đó thuật toán 2.2 được thực hiện trong pha kiểm tra.
2.2.2 Lựa chọn khung hình đại diện
Trước hết, một chu kỳ bước chân được lựa chọn từ tập hợp các chu kỳ bước chân của một
người trong quá trình di chuyển của người đó dựa trên năng lượng chuyển động Flow Engery
Profile (FEP)[22]. Tiếp theo, bốn khung hình đại diện được trích ra từ chu kỳ đó. Bốn khung
hình đại diện được lựa chọn dựa vào giá trị cực tiểu, cực đại của FEP và hai khung hình tương
ứng với giá trị trung bình của mức năng lượng này. Để lựa chọn chính xác các khung hình đại
diện, tín hiệu FEP được đưa qua bộ lọc Gaussian để loại bỏ nhiễu.
5
Algorithm 2.1: Algorithm for training phase (Off-line process).
Input: Image sequences on cross-view cameras: X = {Xi } , i = 1, Ntr ;
Z = {Zj } , j = 1, Ntr . Ntr is the number of persons used for training.
Output: Model parameters: W, M
Step 1: Select representative frames for each person
Sub-step 1.1: Extract walking cycles for each pedestrian
for i ←
h 1, Ntr ndo
oi
(c)
Xi
(ci,1 )
= xi
(ci,2 )
, xi
(ci,lc )
, ...xi
= Cycle − extraction (Xi )
for j ←
oi
h 1, Ntrndo
(c )
(c ) (c )
(c)
= Cycle − extraction (Zj )
Zj = zj j,1 , zj j,2 , ...zj j,lc
Sub-step 1.2: Extract four key frames from a random walking cycle
for i ←
do
h 1, Ntr n
oi
(k)
(k )
(k )
(k )
(k )
(c)
Xi = xi 1 , xi 2 , xi 3 , xi 4
= Keyframe − extraction Xi
for j ←
oi
h 1, Ntrndo
(k)
(k1 ) (k2 ) (k3 ) (k4 )
= Keyframe
Zj = zj , zj , zj , zj
−
extraction
(c)
Zj
Step 2: Compute feature vectors at image-level
for i ← 1, Ntr do
for li ← 1, len(i) do
fili = Feature− extraction (xlii )
for j ← 1, Ntr do
for lj ← 1, len(j) do
l
l
fj j = Feature− extraction (zjj )
/* len(i) and len(j) are length of the image sequences of Xi and Zj . */
Step 3: Compute the final feature for person representation
for i ← 1, Ntr do
Fif inal = Temporal_pooling fili , pool_ choice
for j ← 1, Ntr do
Fjf inal = Temporal_pooling
n o
l
fj j , pool_ choice
Step 4: Compute the sub-space projection matrix and learned kernel metric based
on XQDA algorithm
FX = Fifinal
FZ = Fjfinal
[W, M ] = XQDA (FX , FZ )
2.2.3
Trích chọn đặc trưng mức ảnh
Trong số các đặc trưng được đề xuất cho bài toán tái định danh, bộ mô tả GOG [18] được
đánh giá là một trong số những bộ mô tả hiệu quả nhất. Bộ mô tả GOG vượt trội không chỉ
so với các đặc trưng tự thiết kế mà còn tốt hơn cả một số đặc trưng học sâu. Ngoài ra, đặc
trưng GOG được trích chọn trên bốn không gian màu khác nhau (RGB, Lab, HSV và nRnG),
sau đó các vector đặc trưng này được ghép với nhau để tạo nên vector đặc trưng cuối cùng để
biểu diễn người.
6
Algorithm 2.2: Algorithm for test phase (On-line process).
Input: A query person: Qi
A gallery of persons G = {Gj } , j = 1, Nts . (Nts is the number of person in
the gallery set.)
Parameters of the trained model: W, M
Output: A ranked list of gallery persons corresponding to a given query person
Step 1: Select representative frames for each person
Sub-step
cycles for each pedestrian
h
n1.1: Extract walkingoi
(ci,lc )
(ci,1 ) (ci,2 )
(c)
Qi = qi , qi , ...qi
= Cycle − extraction (Qi )
for j ←
h 1, Ntsndo
oi
(c )
(g ) (g )
(c)
= Cycle − extraction (Gj )
Gj = gj j,1 , gj j,2 , ...gj j,lc
Sub-step
1.2: Extract four keyoi
frames from a random walking
cycle
frames
h
n
(c)
(k)
(k1 ) (k2 ) (k3 ) (k4 )
= Keyframe − extraction Qi
Qi = qi , qi , qi , qi
for j ←
oi
h 1, Ntsndo
(k)
(k1 ) (k2 ) (k3 ) (k4 )
= Keyframe
Gj = gj , gj , gj , gj
−
extraction
(c)
Gj
Step 2: Compute feature vectors at image-level
for li ← 1, len(i) do
fili = Feature− extraction (qili )
for j ← 1, Nts do
for lj ← 1, len(j) do
l
l
fj j = Feature− extraction (gjj )
/* len(i) and len(j) are length of the image sequences of Qi and Gj in
one of three cases: all frames, cycle, and four key frames.
*/
Step 3: Compute the final feature
for
person representation
Fif inal = Temporal_pooling fili , pool_ choice
for j ← 1, Ntr do
n o
Fjf inal = Temporal_pooling
l
fj j , pool_ choice
Step 4: Calculate distance between each person in gallery and the query person
for j ← 1, Nts do
d(Qi , Gj ) = distance(Fif inal , Fjf inal , W, M )
Step 5: Rank gallery persons in ascending order of distance between each of gallery
person to the query person
(1)
(2)
(N
[Ri , Ri , ...Ri ts )] = ranked_list (d(Qi , Gj ))
2.2.4
Tổng hợp đặc trưng
Mục tiêu của việc tổng hợp đặc trưng là (1) giúp quá trình so sánh/đối sánh giữa hai đối
tượng trở nên đơn giản hơn và (2) giảm thời gian tính toán cũng như bộ nhớ cần cung cấp
cho việc lưu trữ dữ liệu. Trong nghiên cứu này, ba chiến lược được đề xuất: cực tiểu, cực đại
và trung bình.
7
2.2.5
Đối sánh
XQDA được mở rộng từ thuật toán Bayesian face và Keep It Simple and Straightforward
MEtric(KISSME) [11], trong đó, bài toán phân đa lớp được chuyển về bài toán phân lớp nhị
phân: các cặp ảnh/chuỗi ảnh có cùng của một người hay không? Điểm nổi bật của kỹ thuật
XQDA đó là học đồng thời khoảng cách và các dữ liệu được thu thập từ các trường quan sát
của các camera khác nhau.
2.3
Các kết quả thử nghiệm
Các thử nghiệm được thực hiện trên hai cơ sở dữ liệu dùng chung benchmark: PRID-2011
và iLIDS-VID để chứng minh hiệu quả của phương pháp đề xuất.
2.3.1 Đánh giá về lựa chọn khung hình đại diện và tổng hợp đặc trưng
Trong phần này, các thử nghiệm được thực hiện trong ba trường hợp: bốn khung hình
100
9 0
90
Matching rates (%)
1 0 0
M a tc h in g r a te s ( % )
8 0
7 0
6 0
9 0 .5 6 %
7 9 .1 0 %
7 7 .1 9 %
5 0
P R ID _ a ll fr a m e s
P R ID _ w a lk in g c y c le
P R ID _ 4 k e y fra m e s
80
70
60
50
41.09% iLIDS_4 key frames
40
44.14% iLIDS_walking cycle
70.13% iLIDS_all frames
30
4 0
5
1 0
1 5
5
2 0
R a n k
10
15
20
Rank
(a)
(b)
Hình 2.2 Đánh giá hiệu năng của đặc trưng GOG trên cơ sở dữ liệu a) PRID-2011 và b)
iLIDS-VID với ba chiến lược lựa chọn khung hình đại diện.
đại diện, các khung hình trong một chu kỳ bước chân và tất cả các khung hình. Mỗi trường
hợp này được đánh giá (1) trên bốn không gian màu (RGB, Lab, HSV, và nRnG) và kết hợp
của các không gian màu này và (2) ba chiến lược tổng hợp đặc trưng. Các kết quả đạt được
chỉ ra rằng đa số kết quả tốt nhất khi áp dụng chiến lược tổng hợp đặc trưng dựa vào giá trị
trung bình trên cả hai tập dữ liệu huấn luyện và kiểm tra. Trong trường hợp ghép nối các
vector trên tất cả bốn không gian màu, độ chính xác tại xếp hạng đầu tiên (rank-1) cho kết
quả tốt nhất trên cơ sở dữ liệu PRID-2011 là: 77.19%, 79.10%, and 90.56% tương ứng với các
trường hợp bốn khung hình đại diện, một chu kỳ bước chân và tất cả các khung hình. Kết
luận này cũng đúng khi làm việc trên cơ sở dữ liệu iLIDS-VID. Các kết quả này được biểu
diễn bởi các đường cong CMC trên hình 3. Độ chính xác tại xếp hạng thứ 1 khi sử dụng các
khung hình trong một chu kỳ chỉ tăng 1.91%, nhưng tăng đến 12.47% khi sử dụng toàn bộ các
khung hình. Trong trường hợp với cơ sở dữ liệu iLIDS-VID, các giá trị đó tương ứng là 3.05%
và 20.58%. Tuy nhiên, các kết quả tại xếp hạng thứ 20 với các chiến lược này tương đối cao
và không khác nhau nhiều. Điều này mở ra một hy vọng khi triển khai giải pháp này trong
8
một hệ thống tìm kiếm thực tế, khi danh sách tìm kiếm từ hàng trăm/hàng nghìn người được
rút gọn còn 20 người.
2.3.2 Đánh giá sự cân bằng giữa độ chính xác và thời gian tính toán
Bảng 2.1 so sánh hiệu năng của ba chiến lược lựa chọn khung hình đại diện trên các khía
cạnh: độ chính xác tái định danh, thời gian tính toán, và dung lượng bộ nhớ cần cho việc lưu
trữ dữ liệu đối với cơ sở dữ liệu PRID-2011. Các giá trị trong Bảng 2.1 được tính toán trên
một lần thử nghiệm ngẫu nhiên trên cơ sở dữ liệu PRID-2011. Số lượng ảnh trung bình của
mỗi người trên camera A và camera B là khoảng 100, và mỗi chu kỳ bước chân có khoảng
trung bình 13 khung hình. Các thử nghiệm được thực hiện trên máy tính có thông số như
sau: Intel(R) Core(TM) i5-4440 CPU @ 3.10GHz, 16GB RAM. Về lưu trữ dữ liệu, mỗi ảnh
có kích thước 128 × 64 điểm ảnh với độ sâu 24-bit sẽ chiếm 24KB (128 × 64 × 24 = 196, 608
bits =24 KB). Do đó,dung lượng bộ nhớ cần để lưu trữ dữ liệu là 96KB, 312KB, và 2,400KB
ứng với trường hợp sử dụng bốn khung hình đại diện, một chu kỳ bước chân và tất cả các
khung hình. Khi sử dụng các khung hình trong một chu kỳ bước chân thì độ chính xác tại
xếp hạng thứ nhất tăng xấp xỉ 2% so với khi chỉ sử dụng bốn khung hình đại diện, tuy nhiên,
thời gian tính toán gần gấp đôi. Sử dụng toàn bộ khung hình của một người cho phép đạt
được độ chính xác tại xếp hạng thứ nhất là 90.56%, tuy nhiên, trường hợp này yêu cầu thời
gian tính toán và dung lượng bộ nhớ lớn hơn nhiều so với trường hợp chỉ sử dụng bốn khung
hình đại diện. Ngoài ra, tại các thứ hạng cao hơn, độ chính xác giữa các chiến lược lựa chọn
khung hình chênh lệch nhau không đáng kể. Từ đó cho phép NCS đưa ra gợi ý cho việc lựa
chọn các khung hình đại diện. Đối với một cơ sở dữ liệu nhiều thách thức và trong một ứng
dụng mà yêu cầu kết quả trả về phải đúng trong những xếp hạng đầu tiên thì nên sử dụng
toàn bộ khung hình trong biểu diễn người. Chiến lược này là một lựa chọn phù hợp nếu khả
năng tính toán của máy tính mạnh. Trong trường hợp ngược lại, nếu kết quả trả về không
yêu cầu phải là các xếp hạng đầu tiên thì chỉ cần sử dụng bốn khung hình đại diện hoặc các
khung hình trong một chu kỳ bước chân.
Bảng 2.1 So sánh 3 chiến lược lựa chọn các khung hình đại diện trên khía cạnh độ chính xác
tại xếp hạng thứ nhất, thời gian tính toán và dung lượng bộ nhớ cần cung cấp đối với cơ sở dữ
liệu PRID-2011.
Methods
Four key frames
Walking cycle
All frames
2.3.3
Accuracy at
rank-1
77.19
79.10
90.56
Frame
selection
7.500
7.500
0.000
Computational time for each person (s)
Feature
Person
Feature pooling
Total time
extraction
matching
3.960
0.024
0.004
11.488
12.868
0.084
0.004
20.452
98.988
1.931
0.004
100.919
Memory
96 KB
312 KB
2,400 KB
So sánh với các nghiên cứu liên quan
Bảng 2.2 so sánh kết quả đạt được của phương pháp đề xuất với các nghiên cứu hiện nay,
hai kết quả tốt nhất được in đậm. Trên cơ sở dữ liệu PRID-2011, phương pháp đề xuất vượt
9
Bảng 2.2 So sánh giữa phương pháp đề xuất với các nghiên cứu hiện nay trên cơ sở dữ liệu
PRID-2011 và iLIDS-VID. Hai kết quả tốt nhất được in đậm.
Datasets
Matching rates (%)
AMOC+EpicFlow, TCSVT 2018
Two-stream MR, TII 2018
RNN, CVPR 2016
DFCP, CVPR 2017
RFA-Net (LBP-Color), ECCV 2016
CAR, TCSVT 2017
HOG3D + DVR, TPAMI 2016
STFV3D + KISSME, ICCV 2015
TAPR, ICIP 2016
Four key frames
Proposed method A walking cycle
All frames
Rank=1
83.7
78.7
70.0
51.6
53.6
83.3
40.0
64.1
68.6
77.2
79.1
90.5
PRID 2011
Rank=5 Rank=20
98.3
100
95.2
99.2
90.0
97.0
83.1
95.5
82.9
97.9
93.3
96.7
71.7
92.2
87.3
92.0
94.4
98.9
94.7
99.4
95.0
99.4
98.4
100
Rank=1
68.7
59.4
58.0
34.5
41.6
60.2
39.5
44.3
55.0
41.1
44.1
70.1
iLIDS-VID
Rank=5 Rank=20
94.3
99.3
89.8
99.1
84.0
96.0
63.3
84.4
69.7
89.2
85.1
94.2
61.1
81.0
71.7
91.7
87.5
97.2
69.5
90.4
71.7
90.6
92.7
99.1
trội hơn tất các phương pháp được đề cập ở đây, thậm chí khi so sánh với các phương pháp
dựa trên các mạng học sâu. Đối với cơ sở dữ liệu nhiều thách thức và có sự che khuất lớn như
iLIDS-VID, phương pháp đề xuất vẫn đạt được kết quả cao tại xếp hạng thứ nhất, với các
xếp hạng cao hơn thì kết quả đạt được thấp hơn so với hai phương pháp [15, 24]. Tuy nhiên
hai phương pháp này đều yêu cầu chi phí tính toán lớn, khả năng tính toán vượt trội của máy
tính khi khai thác thông tin cả về diện mạo và chuyển động của người đi bộ. Ngoài ra khi so
sánh với các phương pháp cùng theo hướng tiếp cận trích chọn chu kỳ bước chân [22, 16, 6],
chúng ta có thể đưa ra một số nhận xét sau. Các kết quả đạt được trong phương pháp của
Wang và cộng sự [22] thấp hơn nhiều so với phương pháp được đề xuất, thậm chí chỉ sử dụng
bốn khung hình đại diện trên cả hai cơ sở dữ liệu PRID-2011 và iLIDS-VID. Các kết quả đạt
được trong hai phương pháp [16, 6] trên cơ sở dữ liệu PRID-2011 thấp hơn so với phương
pháp đề xuất khi dùng bốn khung hình đại diện, và tương đương với kết quả khi sử dụng các
khung hình trong một chu kỳ bước chân trên cơ sở dữ liệu iLIDS-VID. Một so sánh nữa giữa
phương pháp đề xuất và các phương pháp được đề xuất trong [5, 8, 9], các phương pháp này
đều tập trung vào việc lựa chọn khung hình đại diện dựa trên việc phân cụm (clustering).
Trong [5], bộ mô tả HOG được đề xuất sử dụng để biểu diễn ảnh, từ đó tính toán độ tương
tự giữa hai ảnh liên tiếp. Trên cơ sở đó, chuỗi ảnh được phân đoạn dựa trên các điểm cực tiểu
cục bộ của độ tương tự và các khung hình đại diện được lựa chọn là các khung hình trung
tâm của mỗi cụm. Tuy nhiên, việc sử dụng HOG được trích chọn trên toàn bộ khung hình
sẽ không có tính bền vững bằng việc tính toán FEP trên nửa dưới của khung hình. Với các
nghiên cứu của Hassen và cộng sự [8, 9], các tác giả đề xuất sử dụng bộ mô tả Hiệp phương
sai để biểu diễn ảnh và thuật toán Mean-shift để phân cụm, từ đó xác định các khung hình
đại diện. Cả hai bước này đều yêu cầu chi phí tính toán cao, dung lượng bộ nhớ cần để lưu
trữ dữ liệu lớn, và sẽ càng trở nên thách thức lớn khi làm việc trên cơ sở dữ liệu lớn.
2.4
Kết luận và hướng nghiên cứu tiếp theo
Chương này đề xuất một phương pháp hiệu quả cho bài toán tái định danh dựa trên
nhiều thể hiện với hai đóng góp chính. Thứ nhất, NCS đề xuất các chiến lược lựa chọn khung
10
hình đại diện và tổng hợp đặc trưn nhằm giảm thời gian tính toán cũng như dung lượng bộ
nhờ cần để lưu trữ dữ liệu. Các đánh giá định lượng được thực hiện trên hai cơ sở dữ liệu dùng
chung PRID-2011 và iLIDS-VID. Thứ hai, NCS đưa ra các khuyến nghị về việc sử dụng các
chiến lược lựa chọn khung hình đại diện cũng như tổng hợp đặc trưng. Trong hướng nghiên
cứu tiếp theo, phương pháp đề xuất sẽ được mở rộng và thử nghiệm trên các cơ sở dữ liệu
lớn, nhiều thách thức hơn. Kết quả chính của chương này được công bố tại công trình nghiên
cứu số 7.
CHƯƠNG 3
NÂNG CAO HIỆU NĂNG TÁI ĐỊNH DANH DỰA TRÊN
KẾT HỢP CÁC ĐẶC TRƯNG
3.1
Giới thiệu
Chương này trình bày nội dung liên quan đến chiến lược kết hợp đặc trưng nhằm nâng
cao độ chính xác tái định danh. Cả hai loại đặc trưng tự thiết kế và đặc trưng học sâu được
sử dụng trong việc biểu diễn ảnh. Đối với đặc trưng tự thiết kế, bộ mô tả GOG [18] và KDES
[1] được sử dụng, đối với đặc trưng học sâu, hai trong số mạng nơ-ron tích chập mạnh nhất
hiện nay là GoogLeNet và ResNet được khai thác. Ngoài ra, nhằm đánh giá vai trò của mỗi
đặc trưng, các trọng số được gắn cho các đặc trưng có thể bằng nhau hoặc thích nghi với từng
người truy vấn. Các thử nghiệm được thực hiện trên cả hai ngữ cảnh của bài toán tái định
danh.
Multiple images
(Gallery)
Feature
extraction
ID1
ID2
Extracting
GOG feature
Extracting
KDES feature
ID3
Early fusion
Training
SVM
Extracting
CNN feature
Training phase
Model
A query image
(probe)
Feature
extraction
Extracting
GOG feature
Extracting
KDES feature
Early fusion
SVM
Prediction
Product-rulebased late
fusion
Query-adaptive
late fusion
Extracting
CNN feature
Matching
and
ranking
ID
person
Testing phase
Hình 3.1 Phương pháp đề xuất cho bài toán tái định danh dựa trên ảnh-đa ảnh.
11
3.2
Chiến lược kết hợp đặc trưng cho ngữ cảnh thứ nhất
Tái định danh dựa trên nhiều thể hiện có thể được phân loại thành hai trường hợp:
ảnh-đa ảnh (single-versus-multi, SvsM) hay đa ảnh-đa ảnh (multi-versus-multi MvsM). Hướng
tiếp cận ảnh-đa ảnh được coi là một trường hợp đặc biệt của bài toán tái định danh dựa trên
nhiều thể hiện, trong đó mỗi người chỉ có duy nhất một ảnh trong tập truy vấn nhưng có
nhiều ảnh trên tập tìm kiếm. Hướng tiếp cận này phản ánh một tình huống trong thực tế khi
tìm kiếm một kẻ tình nghi hoặc tội phạm mà chỉ có duy nhất một hình ảnh của người đó.
3.2.1 Tái định danh dựa trên ảnh-đa ảnh
3.2.1.1 Phương pháp đề xuất
Hình 3.1 mô tả phương pháp được đề xuất cho bài toán tái định danh dựa trên ảnh-đa
ảnh. Trong phương pháp này, tái định danh được định nghĩa như một bài toán tìm kiếm thông
tin trong đó mô hình về vẻ bề ngoài của mỗi người đã được học từ các ảnh trong tập tìm kiếm
và danh tính của người cần truy vấn được xác định dựa trên xác suất thuộc vào từng mô hình
của ảnh truy vấn của người đó.
3.2.1.2 Chiến lược kết hợp đặc trưng
Kết hợp sớm: Các vector tương ứng với từng loại đặc trưng được ghép nối với nhau
để tạo nên một vector đặc trưng có số chiều lớn hơn.
Kết hợp muộn: Kết hợp muộn là kết hợp ở mức điểm số, trong đó các danh sách xếp
hạng ứng với từng đặc trưng được kết hợp với nhau để đưa ra danh sách xếp hạng cuối cùng.
Các trọng số được gán cho các đặc trưng có thể bằng nhau hoặc có thể học thích nghi với
người cần truy vấn. Các trọng số thích nghi được Zheng và cộng sự giới thiệu lần đầu tiên
vào năm 2015 [25], tuy nhiên nhóm tác giả mới chỉ triển khai cho bài toán tái định danh dựa
trên một thể hiện và trong luận án này, chiến lược kết hợp này được mở rộng cho bài toán tái
định danh dựa trên nhiều thể hiện.
Gọi Sim(q, Gj )prod−equal−weight , Sim(q, Gj )prod−adaptive−weight , và Sim(q, Gj )(m) lần lượt là
độ tương tự giữa ảnh truy vấn q và một người Gj trong tập tìm kiếm trong trường hợp trọng
số bằng nhau, trọng số thích nghi, và ứng với đặc trưng thứ m. - Quy tắc nhân với trọng số
bằng nhau:
M
Y
Sim(q, Gj )prod−equal−weight =
Sim(m) (q, Gj ) .
(3.1)
m=1
- Quy tắc nhân với trọng số thích nghi:
Sim(q, Gj )prod−adaptive−weight =
M
Y
ωq(m)
Sim(m) (q, Gj )
,
(3.2)
m=1
(m)
trong đó ωq là trọng số ứng với đặc trưng thứ m đối với ảnh truy vấn q và Sim(m) (q, Gj ) là
xác suất mà ảnh truy vấn q thuộc vào mô hình của người Gj .
12
3.2.2
Tái định danh dựa trên đa ảnh-đa ảnh
Bài toán tái định danh dựa trên đa ảnh-đa ảnh được định nghĩa như một hàm kết hợp
của các khâu tái định danh dựa trên ảnh-đa ảnh. Hình 3.2 mô tả phương pháp để xuất cho bài
toán tái định danh dựa trên đa ảnh-đa ảnh. Trong phương pháp này không yêu cầu sự ràng
buộc về thời gian giữa các ảnh của cùng một người. Độ đo tương tự giữa một người trong tập
truy vấn và một người trong tập tìm kiếm được định nghĩa như sau:
Sim(Qi , Gj ) =
mi
Y
Sim(qil , Gj ),
(3.3)
l=1
trong đó, Sim(qil , Gj ) đã được xác định trong phần trước (tái định danh dựa trên ảnh-đa ảnh).
Query images
(probe)
Image_1
Image-images person
re-identification
Image_2
Image-images person
re-identification
Image_n
Image-images person
re-identification
Ranked list_1
Ranked list_2
Late fusion
based on
Product rule
Matching and
ranking
ID
person
Ranked list_n
Hình 3.2 Phương pháp đề xuất cho tái định danh dựa trên đa ảnh-đa ảnh không yêu cầu sự
liên kết về thời gian.
3.2.3
Kết quả thử nghiệm trong ngữ cảnh thứ nhất
Trong thử nghiệm này, hai cơ sở dữ liệu: CAVIAR4REID và RAiD được sử dụng nhằm
đánh giá hiệu năng của phương pháp đề xuất cho bài toán tái định danh trong cả hai trường
hợp: dựa trên ảnh-đa ảnh và đa ảnh-đa ảnh. Cơ sở dữ liệu CAVIAR4REID được thiết lập với
hai trường hợp. Trong trường hợp A, mỗi người sẽ có 5 ảnh trong mỗi tập truy vấn và 5 ảnh
trong tập tìm kiếm. Ngược lại, trong trường hợp B, mỗi người sẽ có 5 ảnh trong tập truy vấn
và số ảnh còn lại của người đó được đưa vào tập tìm kiếm.
3.2.3.1 Tái định danh dựa trên ảnh-đa ảnh
Thử nghiệm đầu tiên đánh giá hiệu quả của đặc trưng GOG so với các đặc trưng KDES
và CNN. Quan sát hình 3.3, mặc dù là một đặc trưng tự thiết kế nhưng kết quả đạt được
khi sử dụng đặc trưng GOG hoàn toàn có thể cạnh tranh với đặc trưng học sâu CNN. Thử
nghiệm thứ hai nhằm đánh giá hiệu quả của các sơ đồ kết hợp khi kết hợp hai hoặc ba đặc
trưng khác nhau. Các kết quả đạt được được chỉ ra như trên hình 3.4. Với việc kết hợp các
đặc trưng, tỷ lệ đối sánh đúng tại xếp hạng thứ nhất tăng từ 2% đến 5% so với trong trường
hợp chỉ sử dụng một đặc trưng hoặc KDES hoặc CNN.
3.2.3.2 Tái định danh dựa trên đa ảnh-đa ảnh
Hình 3.5 biểu diễn các đường cong CMC khi sử dụng từng loại đặc trưng cho bài toán
tái định danh dựa trên đa ảnh-đa ảnh trong trường hợp A của cơ sở dữ liệu CAVIAR4REID.
13
1 0 0
1 0 0
1 0 0
9 0
9 0
7 0
6 0
6 7 .4 7 %
6 5 .5 0 %
6 2 .6 4 %
5 0
G O G + S V M
K D E S + S V M
C N N + S V M
M a tc h in g r a te s ( % )
8 0
M a tc h in g r a te s ( % )
M a tc h in g r a te s ( % )
9 0
8 0
7 0
8 2 .8 3 %
8 1 .1 9 %
8 2 .8 9 %
6 0
4 0
8 0
7 0
G O G + S V M
K D E S + S V M
C N N + S V M
1 0
1 5
G O G + S V M
K D E S + S V M
C N N + S V M
5 0
5 0
5
8 4 .8 6 %
8 1 .6 0 %
8 4 .7 9 %
6 0
2 0
5
1 0
R a n k
1 5
5
2 0
1 0
(a)
1 5
2 0
R a n k
R a n k
(b)
(c)
Hình 3.3 Đánh giá hiệu năng của ba đặc trưng (GOG, KDES, CNN) với 10 lần thử nghiệm
trên các cơ sở dữ liệu (a) CAVIAR4REID-trường hợp A (b) CAVIAR4REID-trường hợp B (c)
RAiD trong trường hợp ảnh-đa ảnh.
(c a s e A )
9 0
9 0
8 0
8 0
7 0
6 0
5 0
3 7 .6
6 7 .3
7 0 .6
7 0 .6
7 2 .5
7 3 .5
7 3 .6
4 0
3 0
5
9 %
1 %
4 %
1 %
0 %
8 %
1 %
S D A L
E a r ly P ro d u
Q u e ry
E a r ly P ro d u
Q u e ry
1 0
F
fu s io
c t-ru
-a d a
fu s io
c t-ru
-a d a
n (K
le ( K
p tiv e
n (G
le ( G
p tiv e
D E
D E
(K
O G
O G
(G
S + C N N
S + C N N
D E S + C
+ K D E S
+ K D E S
O G + K D
C M C - C A V IA R 4 R E ID S v s M
1 0 0
)
6 0
4 9 .9
8 6 .9
8 8 .6
8 8 .1
8 8 .1
9 0 .3
8 9 .8
5 0
)
N N )
N N )
+ C N N )
1 5
4 0
7 %
7 %
1 %
7 %
7 %
3 %
3 %
S D A L
E a r ly P ro d u
Q u e ry
E a r ly P ro d u
Q u e ry
F
fu s io
c t-ru
-a d a
fu s io
c t-ru
-a d a
n
le
p
n
(K D E
(K D E
tiv e ( K
(G O G
le ( G O G
p tiv e ( G
S + C N N
S + C N N
D E S + C
+ K D E S
+ K D E S
O G + K D
)
)
N N
+ C
+ C
E S
C M C - R A iD S v s M
1 0 0
7 0
)
N N
+ C
+ C
E S
(c a s e B )
M a tc h in g r a te ( % )
C M C - C A V IA R 4 R E ID S v s M
M a tc h in g r a te ( % )
M a tc h in g r a te ( % )
1 0 0
)
8 0
6 0
5 9 .6
8 6 .8
8 7 .6
8 7 .2
8 9 .2
8 8 .4
8 8 .9
N N )
N N )
+ C N N )
3 %
5 %
3 %
7 %
9 %
6 %
8 %
S D A L F
E a r ly - fu s io n
P r o d u c t- r u le
Q u e ry -a d a p
E a r ly - fu s io n
P r o d u c t- r u le
L a te - fu s io n
(K D E S + C N N )
(K D E S + C N N )
tiv e ( G O G + K D E
(G O G + K D E S +
(G O G + K D E S +
(G O G + K D E S + C
S +
C N
C N
N N
C N N )
N )
N )
)
3 0
5
2 0
R a n k
1 0
1 5
5
2 0
(a)
1 0
1 5
2 0
R a n k
R a n k
(b)
(c)
Hình 3.4 Đánh giá hiệu năng của ba chiến lược kết hợp khi sử dụng hai hoặc ba đặc trưng
với 10 lần thử nghiệm ngẫu nhiên trên các cơ sở dữ liệu (a) CAVIAR4REID-trường hợp A (b)
CAVIAR4REID-trường hợp B (c) RAiD trong trường hợp ảnh-đa ảnh .
1 0 0
C M C - C A V IA R 4 R E ID M v s M
(c a s e A )
9 5
M a tc h in g r a te ( % )
9 0
8 5
8 0
7 5
7 0
6 5
6 7 .5 0 %
9 1 .5 3 %
S D A L F
M v s M G
9 1 .3 9 %
M v s M
K D E S + S V M
8 8 .0 6 %
M v s M
C N N + S V M
9 4 .4 4 %
M v s M
E a r ly - f u s io n
9 3 .8 9 %
M v s M
P r o d u c t- r u le
9 4 .3 1 %
M v s M
Q u e r y - a d a p t iv e
6 0
5
1 0
1 5
O G + S V M
2 0
R a n k
Hình 3.5 Đường cong CMC ứng với tái định danh dựa trên đa ảnh-đa ảnh trong trường hợp
A của cơ sở dữ liệu CAVIAR4REID.
Độ chính xác tại xếp hạng thứ nhất lần lượt là 91.53%, 91.39% and 88.06% khi sử dụng GOG,
KDES, và CNN. Ngoài ra, ba chiến lược kết hợp vẫn tỏ ra hiệu quả trong trường hợp này, độ
14
chính xác tại xếp hạng thứ nhất xấp xỉ bằng 94%. Bảng 3.1 tổng hợp tỷ lệ đối sánh đúng ứng
với trường hợp B của cơ sở dữ liệu CAVIAR4REID và RAiD. Bảng này đã chỉ ra những kết
quả rất ấn tượng với độ chính xác tại xếp hạng thứ nhất lên đến 100%. Chúng ta có thể thấy
được một kết quả rất tốt tại xếp hạng thứ 5 thậm chí là xếp hạng thứ nhất trên cơ sở dữ liệu
RAiD.
Bảng 3.1 Tỷ lệ đối sánh đúng trong trường hợp đa ảnh-đa ảnh trong a) trường hợp B của
CAVIAR và b) RAiD.
Methods
SDALF[4]
M vsMGOG+SV M
M vsMKDES+SV M
M vsMCN N +SV M
M vsMEarly−f usion
M vsMP roduct−rule
M vsMQuery−adaptive
Rank=1
81.67
98.89
98.75
98.47
99.72
99.58
99.72
Rank=5
96.11
100.00
99.86
99.72
100.00
99.86
100.00
Rank=10
98.06
100.00
100.00
99.86
100.00
99.86
100.00
Rank=20
98.89
100.00
100.00
99.86
100.00
99.86
100.00
Methods
SDALF[4]
M vsMGOG+SV M
M vsMKDES+SV M
M vsMCN N +SV M
M vsMEarly−f usion
M vsMP roduct−rule
M vsMQuery−Adaptive
Rank=1
86.05
100.00
99.07
99.30
99.77
98.37
99.77
Rank=5
93.02
100.00
99.07
99.30
99.77
98.37
99.77
Rank=10
95.35
100.00
99.07
99.30
99.77
98.60
99.77
Rank=20
100.00
100.00
99.30
99.30
99.77
98.60
100.00
Bảng 3.2 So sánh kết quả đạt được tại xếp hạng thứ nhất của một số nghiên cứu liên quan
(*) được hiểu là kết quả có được bằng cách áp dụng các chiến lược đã được đề xuất trước đó
với 10 lần thử nghiệm ngẫu nhiên trên cơ sở dữ liệu CAVIAR4REID trong trường hợp A.
Methods
SDALF
KDES
LSTM
WSC
ISR
DDLM
The proposed method
Image-to-images
(N=5)
37.69
65.50
45.60
80.10
73.61
Images-to-images
(N=5)
67.50
91.39(*)
86.39(*)
61.10
90.10
92.30
94.44
Bảng 3.2 tổng kết tỷ lệ đối sánh đúng tại xếp hạng thứ nhất của phương pháp được đề
xuất trong chương này với các nghiên cứu mới nhất hiện nay cho cả hai trường hợp tái định
danh dựa trên ảnh-đa ảnh và đa ảnh-đa ảnh trên cơ sở dữ liệu CAVIAR4REID trường hợp A.
3.3
3.3.1
Chiến lược kết hợp với trường hợp ngữ cảnh thứ hai
Phương pháp đề xuất
Hình 3.6 mô tả phương pháp được đề xuất cho bài toán tái định danh dựa trên nhiều thể
hiện với việc tích hợp thêm mô-đun kết hợp các đặc trưng vào sơ đồ đã được đề xuất trong
Chương 2. Phương pháp này gồm năm bước chính: lựa chọn khung hình đại diện, trích chọn
đặc trưng ở mức ảnh và mức chuỗi, học khoảng cách, kết hợp muộn thích nghi, đối sánh và
xếp hạng. Ngoài ra, hai chiến lược kết hợp dựa trên toán tử nhân và cộng được xem xét trong
nghiên cứu này và vai trò của từng đặc trưng được đánh giá thông qua trọng số gắn cho nó.
3.3.2
Kết quả thử nghiệm
Các kết quả đạt được với các chiến lược được đề xuất được chỉ ra trên hình 3.7 và 3.8
ứng với từng trường hợp trên cơ sở dữ liệu PRID-2011 và iLIDS-VID. Một số kết luận được
đưa ra như sau. Thứ nhất, mặc dù GOG và ResNet là hai trong số những đặc trưng hiệu quả
cho bài toán tái định danh nhưng sự kết hợp hai đặc trưng này vẫn mang đến một kết quả
15
Image-level
features
Gallery
sequences
Extract
walking cycles
Extract 4 key
frames
Extracting GOG
features
Extracting
ResNet features
Sequencelevel features
A probe
sequence
Metric learning
Extract
walking cycles
ID person
Extract 4 key
frames
Query-adaptive
late fusion
Matching and
ranking
ID person
Extracting GOG
features
Extracting
ResNet features
Sequencelevel features
Image-level
features
1 0 0
1 0 0
9 5
9 5
9 5
9 0
9 0
9 0
8 5
8 0
7 5
7 0
7 7 .1
6 9 .4
8 2 .8
8 2 .0
6 5
9 %
4 %
4 %
4 %
G O G
R e s N e t
P r o d u c t- r u le a d a p tiv e w e ig h ts
S u m - r u le a d a p tiv e w e ig h ts
8 5
8 0
7 5
7 0
7 9 .1
7 1 .3
8 4 .5
8 2 .6
6 5
6 0
M a tc h in g r a te ( % )
1 0 0
M a tc h in g r a te ( % )
M a tc h in g r a te ( % )
Hình 3.6 Phương pháp đề xuất cho bài toán tái định danh dựa trên nhiều thể hiện với việc
kết hợp kỹ thuật học khoảng cách trong sơ đồ kết hợp đặc trưng.
0 %
6 %
7 %
5 %
G O G
R e s N e t
P r o d u c t- r u le a d a p tiv e w e ig h ts
S u m - r u le a d a p tiv e w e ig h ts
1 0
1 5
2 0
8 0
7 5
9 0 .5
8 0 .5
9 1 .4
8 9 .8
7 0
6 5
6 0
5
8 5
6 %
6 %
6 %
9 %
G O G
R e s N e t
P r o d u c t- r u le a d a p tiv e w e ig h ts
S u m - r u le a d a p tiv e w e ig h ts
6 0
5
1 0
R a n k
1 5
2 0
5
1 0
R a n k
1 5
2 0
R a n k
(a) Using four key frames for each(b) Using frames within a walking(c) Using all frames for each person
person
cycle
1 0 0
1 0 0
9 0
9 0
9 0
8 0
8 0
8 0
7 0
6 0
5 0
4 0
4 1 .0
4 9 .1
5 7 .4
6 2 .2
9 %
1 %
6 %
1 %
G O G
R e s N e t
P r o d u c t- r u le a d a p tiv e w e ig h ts
S u m - r u le a d a p tiv e w e ig h ts
7 0
6 0
5 0
4 4 .1
5 0 .7
6 0 .6
6 4 .3
4 0
3 0
M a tc h in g r a te ( % )
1 0 0
M a tc h in g r a te ( % )
M a tc h in g r a te ( % )
Hình 3.7 Tỷ lệ đối sánh đúng với các chiến lược kết hợp khác nhau trên cơ sở dữ liệu PRID2011 khi sử dụng a) bốn khung hình đại diện b) các khung hình trong một chu kỳ bước chân
c) tất cả các khung hình
4 %
0 %
1 %
8 %
G O G
R e s N e t
P r o d u c t- r u le a d a p tiv e w e ig h ts
S u m - r u le a d a p tiv e w e ig h ts
1 0
R a n k
1 5
2 0
6 0
5 0
7 0 .1
6 7 .6
8 0 .7
8 1 .8
4 0
3 %
7 %
3 %
0 %
G O G
R e s N e t
P r o d u c t- r u le a d a p tiv e w e ig h ts
S u m - r u le a d a p tiv e w e ig h ts
3 0
3 0
5
7 0
5
1 0
R a n k
1 5
2 0
5
1 0
1 5
2 0
R a n k
(a) Using four key frames for each(b) Using frames within a walking(c) Using all frames for each person
person
cycle
Hình 3.8 Tỷ lệ đối sánh đúng với các chiến lược kết hợp khác nhau trên cơ sở dữ liệu iLIDSVID khi sử dụng a) bốn khung hình đại diện b) các khung hình trong một chu kỳ bước chân c)
tất cả các khung hình
16
tốt hơn. Với cơ sở dữ liệu PRID-2011, độ chính xác tại xếp hạng thứ nhất tăng 5.65%, 5.47%,
và 0.9% ứng với các trường hợp sử dụng bốn khung hình đại diện, các khung hình trong một
chu kỳ bước chân và tất cả các khung hình. Với cơ sở dữ liệu iLIDS-VID, độ chính xác tại xếp
hạng thứ nhất tăng lần lượt 13.1%, 13.68%, và 14.13% khi áp dụng các chiến lược lựa chọn
khung hình đại diện khác nhau. Có thể thấy đặc trưng ResNet lại tỏ hiệu quả với cơ sở dữ liệu
nhiều thách thức như iLIDS-VID, do ResNet với cấu trúc học sâu có thể học được sự phức
tạp của nền và trích chọn được những thông tin hữu ích cho quá trình biểu diễn ảnh. Bảng 3.3
Bảng 3.3 So sánh giữa phương pháp đề xuất với các nghiên cứu liên quan mới nhất hiện nay
trên hai cơ sở dữ liệu PRID-2011 và iLIDS-VID. Hai kết quả tốt nhất được in đậm.
Methods
Matching rate (%)
TAPR, ICIP 2016
AMOC+EpicFlow, TCSVT 2018
Two-stream MR, TII 2018
RNN, CVPR 2016
HOG3D + DVR, TPAMI 2016
STFV3D + KISSME, ICCV 2015
CAR, TCSVT 2017
DFCP, CVPR 2017
CRF, CVPR 2017
CFFM, SPIC 2020
Four key frames
GOG+XQDA, Chapter 2 A walking cycle
All frames
Four key frames
Proposed method
A walking cycle
(Product-rule-based)
All frames
Four key frames
Proposed method
A walking cycle
(Sum-rule-based)
All frames
Rank=1
68.6
83.7
78.7
70.0
40.0
64.1
83.3
51.6
77.0
93.3
77.2
79.1
90.6
82.8
84.6
91.5
82.0
82.7
89.9
PRID-2011
Rank=5 Rank=20
94.4
98.9
98.3
100
95.2
99.2
90.0
97.0
71.7
92.2
87.3
92.0
93.3
96.7
83.1
95.5
93.0
98.0
95.5
100.0
94.7
99.4
95.0
99.4
98.4
100.0
96.2
99.7
96.8
99.7
99.0
100.0
96.0
99.7
96.2
99.7
98.8
100.0
Rank=1
55.0
68.7
59.4
58.0
39.5
44.3
60.2
34.5
61.0
82.0
41.1
44.1
70.1
57.5
60.6
80.7
62.2
64.4
81.8
iLIDS-VID
Rank=5 Rank=20
87.5
97.2
94.3
99.3
89.8
99.1
84.0
96.0
61.1
81.0
71.7
91.7
85.1
94.2
63.3
84.4
85.0
97.0
95.3
100.0
69.5
90.4
71.7
90.8
92.7
99.1
83.1
95.6
84.8
96.2
96.7
99.6
85.4
96.3
86.5
96.5
96.1
99.6
so sánh với các kết quả đạt được của phương pháp đề xuất với một số nghiên cứu mới nhất
hiện nay. So sánh với kết quả đạt được ở Chương 2, độ chính xác tại thứ hạng thứ nhất trong
trường hợp sử dụng toàn bộ khung hình của một người là xấp xỉ, nhưng trong hai trường hợp
còn lại thì độ chính xác tăng đến 5.7% và 21.1% tương ứng trên cơ sở dữ liệu PRID-2011 và
iLIDS-VID. Trong nghiên cứu của Liu và cộng sự, đặc trưng tự thiết kế LOMO và đặc trưng
học sâu PCN (PCA-based Neural Network) được kết hợp với nhau nhằm khai thác ưu điểm
của mỗi đặc trưng. Tuy nhiên, trong nghiên cứu này chưa thấy rõ được vai trò của từng đặc
trưng. Trong nghiên cứu của Chen và cộng sự [2], hai cấu trúc mạng học sâu CNN và RNN
được sử dụng để trích chọn các thông tin về không gian và thời gian. Kết quả đạt được tại
xếp hạng thứ nhất trên cơ sở dữ liệu PRID-2011 và iLIDS-VID là 77.0% và 61.0%, thấp hơn
kết quả của phương pháp đề xuất khi chỉ sử dụng bốn khung hình đại diện (82.0% và 62.6%).
Kế thừa các kết quả đạt được trong [2], nhóm nghiên cứu này đã xem xét vai trò của mỗi
ảnh trong một chuỗi là khác nhau thông qua cấu trúc mạng Attention. Mặc dù sử dụng nhiều
mạng học sâu với độ phức tạp tính toán cao, thời gian tính toán lớn nhưng độ chính xác tại
xếp hạng thứ nhất của phương pháp này chỉ cao hơn phương pháp đề xuất trong Chương này
là 1.8% và 0.2% trên cơ sở dữ liệu PRID-2011 và iLIDS-VID.
17
3.4
Kết luận
Chương này đã đề xuất một số chiến lược kết hợp cho cả hai ngữ cảnh của bài toán tái
định danh. Trong ngữ cảnh thứ nhất, bài toán tái định danh được định nghĩa như một bài
toán tìm kiếm thông tin. Các kết quả đạt được đã chứng minh được tính ưu việt của phương
pháp và không yêu cầu sự ràng buộc về mặt thời gian giữa các khung hình của cùng một
người. Đối với ngữ cảnh thứ hai, đưa ra phương pháp mới là sự kết hợp giữa học khoảng cách
vào sơ đồ kết hợp đặc trưng. Những kết quả chính trong chương này được công bố trong công
trình thứ 5 và thứ 6 của tác giả.
CHƯƠNG 4
ĐÁNH GIÁ ĐỊNH LƯỢNG MỘT KẾT NỐI ĐẦY ĐỦ
CỦA HỆ THỐNG TÁI ĐỊNH DANH
4.1
Giới thiệu
Một hệ thống giám sát thực tế gồm ba bước cơ bản: phát hiện người, theo vết và tái
định danh. Tuy nhiên, đa phần các nghiên cứu về tái định danh hiện nay đều làm việc trên
các vùng không gian chứa đối tượng được phát hiện một cách thủ công, các vùng không gian
này bao sát người. Khi đó, tái định danh được thực hiện với chất lượng đầu vào là hoàn hảo.
Tuy nhiên, khi các bước phát hiện người và theo vết được thực hiện tự động sẽ mang đến
một số thách thức cho bài toán tái định danh, ví dụ: vùng không gian được khoanh chỉ chứa
một phần cơ thể người, hoặc có sự che khuất lớn trong khâu phát hiện hoặc sự chuyển đổi
danh tính (ID Switch) do sự xuất hiện/biến mất của một người, một tracklet của một người
bị phân tách thành nhiều tracklet con xảy ra trong quá trình theo vết. Mục đích của chương
này là đánh giá hiệu năng một kết nối đầy đủ của hệ thống tái định danh. Do hạn chế về mặt
thời gian, nên trong luận án này NCS chỉ đánh giá sự ảnh hưởng của khâu phát hiện và phân
đoạn tự động tới chất lượng của tái định danh.
4.2
Hệ thống tái định danh hoàn toàn tự động
Một hệ thống giám sát hoàn toàn tự động được mô tả như trên Hình 4.1 gồm các bước:
phát hiện người, phân đoạn, theo vết và tái định danh. Trong thực tế, các bước phát hiện và
phân đoạn ảnh thường được tích hợp với nhau. Các vùng không gian chứa người (bounding
boxes) được sinh ra trong bước phát hiện người tự động, sau đó, kỹ thuật phân đoạn ảnh thực
hiện loại bỏ nền nhằm giảm nhiễu cho quá trình tái định danh. Các vùng không gian tương
ứng của một người trong cùng một trường quan sát của camera được kết nối với nhau thông
qua các kỹ thuật theo vết. Cuối cùng, tái định danh thực hiện nhiệm vụ liên kết các vùng
không gian đó của cùng một người trên các trường quan sát của các camera khác nhau.
18
- Xem thêm -