BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐỒNG NAI
BÁO CÁO TỔNG KẾT
ĐỀ TÀI NGHIÊN CỨU KHOA HỌC CẤP TRƯỜNG
ƯỚC LƯỢNG SỐ NGƯỜI TRONG ĐÁM ĐÔNG SỬ
DỤNG MẠNG NƠ-RON TÍCH CHẬP
Mã số: TR:2020-01/KCN
Chủ nhiệm đề tài: ThS. Đỗ Phúc Thịnh
Đồng Nai, 03/2021
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐỒNG NAI
BÁO CÁO TỔNG KẾT
ĐỀ TÀI NGHIÊN CỨU KHOA HỌC CẤP TRƯỜNG
ƯỚC LƯỢNG SỐ NGƯỜI TRONG ĐÁM ĐÔNG SỬ
DỤNG MẠNG NƠ-RON TÍCH CHẬP
Mã số: TR:2020-01/KCN
Chủ nhiệm đề tài
(ký, họ tên)
ThS. Đỗ Phúc Thịnh
Đồng Nai, 03/2021
DANH SÁCH NHỮNG THÀNH VIÊN THAM GIA NGHIÊN CỨU ĐỀ TÀI
STT
Họ và tên thành viên
Đơn vị chủ trì
1
Đỗ Phúc Thịnh
Khoa Công nghệ
2
Trần Văn Ninh
Khoa Công nghệ
3
Quách Thị Bích Nhường
Khoa Công nghệ
4
Võ Thị Kiều Oanh
Khoa Công nghệ
5
Phạm Minh Sang
Khoa Công nghệ
6
Trần Thị Thanh Huyền
Khoa Công nghệ
7
Lê Phạm Công Hiếu
Khoa Công nghệ
MỤC LỤC
MỤC LỤC ........................................................................................................................ 1
DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT ............................................................ 4
DANH MỤC CÁC BẢNG............................................................................................... 5
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ .......................................................................... 6
THÔNG TIN KẾT QUẢ NGHIÊN CỨU ĐỀ TÀI NGHIÊN CỨU KHOA HỌC CẤP
TRƯỜNG ......................................................................................................................... 7
Chương 1.
Giới Thiệu ................................................................................................ 8
Tổng quan ........................................................................................................... 8
Động lực nghiên cứu .......................................................................................... 9
1.2.1.
Tính khoa học ........................................................................................... 9
1.2.2.
Tính ứng dụng .......................................................................................... 9
Mục tiêu của đề tài.............................................................................................. 9
Phát biểu bài toán ............................................................................................... 9
Phạm vi bài toán ............................................................................................... 10
Mô tả chung về hệ thống .................................................................................. 10
Đóng góp của đề tài .......................................................................................... 11
Cấu trúc đề tài ................................................................................................... 11
Chương 2.
Cơ Sở Lý Thuyết Và Các Công Trình Nghiên Cứu Liên Quan ............. 12
Một số cơ sở lý thuyết ...................................................................................... 12
2.1.1.
Phân phối chuẩn ..................................................................................... 12
1
2.1.2.
Mạng Nơ-ron tích chập (Convolutional Neural Network – CNN) ........ 13
Các phương pháp giải quyết hiện có ................................................................ 13
2.2.1.
Các phương pháp dựa trên phát hiện đối tượng ..................................... 13
2.2.2.
Các phương pháp dựa trên hồi quy ........................................................ 14
2.2.3.
Các phương pháp dựa trên ước lượng mật độ ........................................ 14
Các công trình nghiên cứu liên quan ................................................................ 14
Hướng tiếp cận của đề tài ................................................................................. 16
Chương 3.
Hệ Thống Ước Lượng Đám Đông ......................................................... 18
Giới thiệu .......................................................................................................... 18
Mô hình phân lớp Human Classifier ................................................................ 18
Ước lượng số người trong đám đông ............................................................... 20
3.3.1.
Xây dựng bản đồ mật độ xác thực .......................................................... 21
3.3.2.
Mô hình ước lượng số người trong đám đông ....................................... 22
Chương 4.
Thực Nghiệm Và Đánh Giá .................................................................... 25
Giới thiệu .......................................................................................................... 25
Các bộ dữ liệu chuẩn để thực nghiệm .............................................................. 25
4.2.1.
Bộ dữ liệu UCF_CC_50 ......................................................................... 25
4.2.2.
Bộ dữ liệu ShanghaiTech ....................................................................... 25
Phương pháp đánh giá ...................................................................................... 26
Cài đặt chương trình ứng dụng demo ............................................................... 27
4.4.1.
Môi trường và ngôn ngữ cài đặt ............................................................. 27
2
4.4.2.
Giao diện chương trình ........................................................................... 27
4.4.3.
Tạo dữ liệu để huấn luyện và kiểm thử mô hình .................................... 28
4.4.4.
Huấn luyện mô hình trên giao diện console ........................................... 29
Kết quả thực nghiệm ......................................................................................... 29
4.5.1.
Tập dữ liệu UCF_CC_50 ....................................................................... 29
4.5.2.
Tập dữ liệu ShanghaiTech ...................................................................... 31
Chương 5.
Kết Luận ................................................................................................. 33
Kết luận............................................................................................................. 33
Hướng phát triển ............................................................................................... 33
TÀI LIỆU THAM KHẢO.............................................................................................. 34
3
DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT
STT
Ký hiệu viết tắt
Nội dung viết tắt
1
CCTV
closed-circuit television
2
CNN
Convolutional Neural Network
3
conv
Convolutional
4
ReLU
Rectified Linear Unit
5
CCNN
Couting Convolutional Neural Network
6
MCNN
Multi-column Convolutional Neural Network
7
Switch-CNN
Switching Convolutional Neural Network
8
GAP
global average pool
9
CVPR
Computer Vision and Pattern Recognition
4
DANH MỤC CÁC BẢNG
Bảng 4.1. Kết quả đánh giá trên tập dữ liệu UCF_CC_50 so sánh với các phương pháp
hiện có ............................................................................................................................ 30
Bảng 4.2. Kết quả đánh giá bằng độ đo MRE trên tập dữ liệu ShanghaiTech Part A so
sánh với các phương pháp .............................................................................................. 31
Bảng 4.3. Kết quả đánh giá trên tập dữ liệu ShanghaiTech so sánh với các phương pháp
hiện có ............................................................................................................................ 31
5
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ
Hình 1.1. Mô hình chung của hệ thống ước lượng số người giai đoạn ngoại tuyến và trực
tuyến. .............................................................................................................................. 10
Hình 1.2. Kết quả khi tạo bản đồ mật độ và ước tính số người. .................................... 10
Hình 2.1. Một số dạng phân phối dữ liệu. ...................................................................... 12
Hình 2.2. Kiến trúc CNN cơ bản. ................................................................................... 13
Hình 3.1. Kiến trúc của mô hình Human Classifier. ...................................................... 19
Hình 3.2. Kiến trúc của hệ thống giai đoạn trực tuyến. ................................................. 23
Hình 4.1. Một số mẫu trong bộ dữ liệu UCF_CC_50. ................................................... 25
Hình 4.2. Một số mẫu trong bộ dữ liệu ShanghaiTech. ................................................. 26
Hình 4.3. Giao diện của chương trình. ........................................................................... 28
Hình 4.4. Giao diện hệ thống khi ước tính số người trong đám đông. .......................... 28
Hình 4.5. Dòng a) Mẫu từ tập dữ liệu UCF_CC_50; b) Bản đồ mật độ xác thực; c) Bản
đồ mật độ ước tính không dùng Human Classifier; d) Bản đồ mật độ ước tính dùng
Human Classifier. ........................................................................................................... 30
6
THÔNG TIN KẾT QUẢ NGHIÊN CỨU ĐỀ TÀI NGHIÊN CỨU KHOA
HỌC CẤP TRƯỜNG
(dùng cho Báo cáo tổng kết đề tài)
1. Thông tin chung:
- Tên đề tài: Ước lượng số người trong đám đông sử dụng mạng nơ-ron tích chập
- Mã số: TR:2020-01/KCN
- Chủ nhiệm đề tài: ThS. Đỗ Phúc Thịnh
Điện thoại: 0847088880
Email:
[email protected]
- Đơn vị quản lý về chuyên môn (Khoa, Tổ bộ môn): Khoa Công nghệ
- Thời gian thực hiện: Tháng 07/2020 đến tháng 03/2021
2. Mục tiêu: Nghiên cứu mô hình mạng nơ-ron tích chập, sử dụng được mô hình này để
áp dụng nó cho bài toán cụ thể là ước lượng số người trong đám đông.
3. Nội dung chính:
- Nghiên cứu về mạng nơ-ron tích chập
- Nghiên cứu về bài toán ước lượng số người trong đám đông
- Áp dụng mạng nơ-ron tích chập cho bài toán ước lượng số người trong đám đông
4. Kết quả chính đạt được
- Nghiên cứu, tổng hợp các tài liệu liên quan đến đề tài
- Phân tích điểm mạnh, điểm yếu của các đề tài nghiên cứu liên quan
- Phân tích và thiết kế hệ thống
- Thực nghiệm mô hình
- Rà soát, chỉnh sửa nội dung, hoàn thiện định dạng, đóng gói
7
Chương 1. Giới Thiệu
Tổng quan
Hiện nay đang diễn ra cuộc cách mạng công nghệ lần thứ tư, tức là có sự liên kết
giữa vạn vật (Internet Of Things) thông qua các thiết bị máy móc cũng như các giải pháp
công nghệ về trí tuệ nhân tạo. Trong cuộc cách mạng đó, người ta có nhu cầu xây dựng
các thành phố thông minh (Smart City) với hệ thống giám sát bằng các camera giám sát
CCTV, điều này có nghĩa là chúng có khả năng thông qua các thiết bị và phần mềm với
cốt lõi chính là trí tuệ nhân tạo để giúp tự động giám sát, quản lý sự vật cũng như con
người. Trong đó, công đoạn xử lý các camera giám sát là công đoạn rất quan trọng vì nó
liên quan đến việc quản lý các hoạt động của người. Hiện nay, có nhiều tác vụ tự động
giám sát như nhận dạng bảng số xe, phát hiện người vi phạm lỗi luật giao thông… và tác
vụ phân tích thống kê như ước lượng mật độ, đếm số đối tượng… Mặt khác, với sự bùng
nổ của dữ liệu hiện nay, các nhà nghiên cứu có nhu cầu khảo sát trên loại dữ liệu có mật
độ cao như xe cộ, động vật, tế bào… một trong số đó là đám đông. Vì thế, các nhu cầu
giám sát những đối tượng riêng lẻ đã phát triển lên giám sát cả một đám đông, vì thế các
giải pháp trước đây từng áp dụng cho cảnh có mật độ người thưa thớt thì đã không còn
phù hợp.
Ngày nay, các thành phố ngày càng được xây dựng nhiều lên, làm cho mật độ dân
cư ngày càng đông. Mặt khác nhiều sự kiện thể thao, mít tinh, biểu tình… cũng được tổ
chức. Song song với đó thì tình hình bất ổn về an ninh cũng tiến triển rất phức tạp, đặc
biệt là các tổ chức khủng bố luôn nhắm đến đám đông làm cho thiệt hại vô cùng to lớn.
Vì thế, cần cải tiến các camera giám sát thông minh hơn để giúp con người làm chủ cũng
như tránh hoặc ít nhất là giải quyết kịp thời được hiện trạng này.
8
Động lực nghiên cứu
1.2.1. Tính khoa học
Đám đông không chỉ là tổng các thành phần, vì vậy khi áp dụng các giải pháp trên
từng phần cho đám đông sẽ không đem lại hiệu suất cao. Mặt khác, giám sát đám đông
vẫn còn nhiều thách thức như bị che khuất, ánh sáng phân bố không đồng đều, độ giãn…
Vì thế cộng đồng cần phải nỗ lực hơn nữa để khảo sát riêng biệt cho bài toán này, cải
tiến các giải pháp cũ cũng như đề xuất những giải pháp mới.
Bài toán này còn có thể được mở rộng cho các dữ liệu có mật độ cao như xe cộ,
động vật, tế bào…
1.2.2. Tính ứng dụng
Ngày nay, camera giám sát được gắn ở khắp mọi nơi. Tuy nhiên, hầu hết các
videos từ các camera này thường chỉ được lưu trữ để tìm kiếm. Khi sự cố xảy ra thì sẽ
tốn chi phí và thời gian để điều tra. Vì thế việc tự động giám sát đám đông từ các camera
này là cần thiết để có thể phát hiện hay cảnh báo sớm để phòng tránh các sự cố đáng tiếc.
Việc ước lượng mật độ đám còn được ứng dụng cho các siêu thị, rạp chiếu phim...
Khi biết được sự phân bố của người mua hàng, người quản lý có thể bố trí thời gian đóng
mở cửa, điều phối nhân viên cho phù hợp.
Mục tiêu của đề tài
Đề tài đặt mục tiêu đề xuất được một phương pháp cải tiến để có thể ước lượng
mật độ và đếm số lượng người trong đám đông.
Phát biểu bài toán
Đầu vào: Ảnh I là cảnh đám đông bất kì.
Đầu ra: Bản đồ mật độ D của ảnh I và ước lượng số người N có trong ảnh I.
9
Phạm vi bài toán
Trong phạm vi đề tài này học viên chỉ nghiên cứu trên đám đông với các đối
tượng là người.
Tập dữ liệu được sử dụng để thử nghiệm và đánh giá là UCF_CC_50 và
ShanghaiTech Part A, B.
Mô tả chung về hệ thống
Giai đoạn ngoại tuyến:
A. Tạo bản đồ mật
Huấn luyện để
độ xác thực
lấy bộ trọng số
B. Xây dựng bản
Bản đồ mật độ
đồ mật độ
cuối cùng
Tập dữ liệu mẫu
Ước lượng số người
Giai đoạn trực tuyến:
Ảnh đám đông
bất kì
Bản đồ mật độ
Ước lượng số người
Hình 1.1. Mô hình chung của hệ thống ước lượng số người giai đoạn ngoại tuyến
và trực tuyến.
Hình 1.2. Kết quả khi tạo bản đồ mật độ và ước tính số người.
10
Đóng góp của đề tài
Với sự phát triển của Học sâu (Deep learning) thì việc áp dụng CNN vào bài toán
này là rất khả quan, tuy nhiên với những phương pháp hiện tại, họ ước tính số người
ngay cả trong những vùng không có người. Vì vậy học viên đề xuất sử dụng thêm một
bộ phân lớp có người hay không có người để tiền phân loại những vùng không có người.
Học viên cũng khắc phục nhược điểm của hai phương pháp M-CNN và SwitchCNN để tạo ra phương pháp tốt hơn trong các môi trường có mật độ người vừa và đông.
Cấu trúc đề tài
Đề tài được trình bày trong 5 chương như sau:
-
Chương 1: Trình bảy tổng quan về đề tài của đề tài, phát biểu bài toán, động lực,
các thách thức và đóng góp của đề tài.
-
Chương 2: Trình bày chi tiết về bài toán, cơ sở lý thuyết quan trọng và một số
nghiên cứu liên quan đến dề tài của đề tài.
-
Chương 3: Mô tả chi tiết về hệ thống và các cải tiến so với các cách tiếp cận
trước đó.
-
Chương 4: Cài đặt hệ thống, thử nghiệm và đánh giá trên các bộ dữ liệu chuẩn.
-
Chương 5: Kết luận và hướng phát triển.
11
Chương 2. Cơ Sở Lý Thuyết Và Các Công Trình Nghiên Cứu Liên Quan
Một số cơ sở lý thuyết
2.1.1. Phân phối chuẩn
Dữ liệu có thể được phân phối theo nhiều cách như trải về bên phải, trải về bên
trái phải hoặc không đồng đều. Nhưng trong đa số trường hợp, dữ liệu có xu hướng tập
trung quanh một giá trị trung tâm (0). Phân phối này được gọi là phân phối chuẩn.
Phân phối chuẩn hay còn được gọi là phân phối Gauss là một trong những phân
phối quan trọng nhất và được ứng dụng rất rộng rãi trong thực tế. Giống như các phân
phối khác, phân phối chuẩn được định nghĩa dựa vào hàm mật độ xác suất:
với
là giá trị trung bình,
f x
1
√2
là độ lệch chuẩn,
là phương sai.
Hình 2.1. Một số dạng phân phối dữ liệu.1
1
https://www.mathsisfun.com/data/standard-normal-distribution.html
12
2.1.2. Mạng Nơ-ron tích chập (Convolutional Neural Network – CNN)
Mạng Nơ-ron tích chập rất giống với mạng Nơ-ron thông thường, chúng được tạo
thành từ các nơ-ron có trọng số, bias và hàm mất mát (ví dụ: SVM, Softmax…) trên tầng
kết nối đầy đủ (fully connected) cuối cùng. Kiến trúc CNN được tạo thành từ các tầng
cơ bản như sau:
Hình 2.2. Kiến trúc CNN cơ bản.2
Để huấn luyện cho mạng, tức là cập nhật bộ trọng số của các bộ lọc cũng như của
tầng FC, ta sử dụng thuật toán lan truyền ngược như gradient descent.
Các phương pháp giải quyết hiện có
Hiện nay có nhiều cách tiếp cận để giải quyết việc ước lượng và đếm số người
trong đám đông. Có thể chia thành như sau:
-
Các phương pháp dựa trên phát hiện đối tượng (Detection-based)
-
Các phương pháp dựa trên hồi quy (Regression-based)
-
Các phương pháp dựa trên ước lượng mật độ (Density estimation-based)
2.2.1. Các phương pháp dựa trên phát hiện đối tượng
Hầu hết các phương pháp này tập trung vào việc phát hiện đối tượng bằng cách
dùng cửa sổ trượt để phát hiện người trong ảnh hay video và dùng thông tin này để đếm
2
https://en.wikipedia.org/wiki/Convolutional_neural_network
13
số người. Nhược điểm của phương pháp này là khi mật độ người càng đông thì hiệu quả
của nó càng thấp.
2.2.2. Các phương pháp dựa trên hồi quy
Các phương pháp này gồm 2 phần: rút trích các đặc trưng từ ảnh và xây dựng một
mô hình hồi quy để ánh xạ các đặc trưng này với kết quả đếm được. Các phương pháp
này tránh được việc giải quyết bài toán khó là việc phát hiện đối tượng. Tuy nhiên lại bỏ
qua thông tin về không gian trong ảnh như là vị trí người có trong ảnh.
2.2.3. Các phương pháp dựa trên ước lượng mật độ
Các phương pháp dựa trên hồi quy tuy tránh được các thách thức về che khuất tuy
nhiên lại bỏ qua thông tin về không gian mà chỉ ước lượng ra số đếm. Vì vậy, việc đếm
số người trong đám đông chuyển sang hướng mới là đếm số người dựa trên ước lượng
mật độ. Bản chất của phương pháp này là hàm mật độ xác suất và số đếm được tính bằng
cách lấy tích phân hàm mật độ này trên khoảng xác định. Phương pháp này có ưu điểm
tránh được bài toán khó là phát hiện và định vị đối tượng trong ảnh và chú yếu dựa vào
việc ước tính bản đồ mật độ (density map). Để hiểu đơn giản thì bản đồ mật độ là một
mảng 2 chiều và tổng các giá trị trong mảng này chính là số đếm.
Trong phạm vi đề tài này, học viên chỉ tập trung theo hướng sử dụng phương pháp
dựa trên ước lượng mật độ.
Các công trình nghiên cứu liên quan
Bài toán đếm đối tượng ở đây là ước lượng số lượng đối tượng ở trong ảnh hay
video. Tác giả Lempitsky [9] đã đề xuất một phương pháp xây dựng một hàm mật độ F
(density function) từ ảnh I. Thì số đối tượng có trong ảnh sẽ được ước lượng bằng cách
lấy tích phân trên toàn bộ ảnh. Gần đây, do sự thành công của mạng Nơ-ron tích chập
(CNN) trong nhiều ứng dụng của ngành Thị giác máy tính. Nhiều công trình dựa trên
CNN cho bài toán đếm người trong đám đông được phát triển.
14
Tác giả Wang [25] là một trong những người đầu tiên áp dụng CNN vào bài toán
ước lượng số người trong đám đông với nền tảng là phương pháp dựa trên hồi quy. Tác
giả chọn mạng AlexNet [8] làm cơ sở để xây dựng mô hình mạng của mình, tầng kết nối
đầy đủ cuối cùng của mạng AlexNet được thay thế bằng 1 nơ-ron để ước lượng số đếm.
Họ cũng mở rộng thêm các mẫu âm bằng cách thêm vào những mẫu không có người và
đặt số người cho mẫu này là 0. Mục đích của việc làm này là để giảm sự sai lệch khi gặp
các đối tượng khác như nhà cửa, cây cối, mây…
Tác giả Zhang [26] cho rằng cách xây dựng bản đồ mật độ của Lempitsky [9] chỉ
phù hợp với các đối tượng tròn như tế bào hay vi khuẩn. Cách làm này có thể không tối
khi áp dụng cho đám đông do tầm nhìn của camera thường bị nghiêng. Để giải quyết vấn
đề này, tác giả đề xuất áp dụng Gaussian kernel cho cả phần đầu và phần thân thể. Tác
giả cũng chỉ ra rằng các cách tiếp cận trước hiệu năng sẽ giảm khi áp dụng cho các ảnh
mới khác với tập dữ liệu huấn luyện. Để giái quyết vấn đề này, tác giả đào tạo mô hình
mạng của họ bằng cách huấn luyện luân phiên 2 tác vụ: đếm và ước lượng mật độ. Khi
gặp các ảnh mới (không nằm trong tập huấn luyện và tập kiểm thử) thì sẽ tìm kiếm các
mẫu trong tập huấn luyện có phối cảnh (perspective) tương tự với ảnh này. Điều này làm
cho mô hình mạng có thể thích nghi với các cảnh mới mà không cần thêm thông tin vị
trí các đầu người có trong ảnh. Tuy nhiên, tác giả Boominathan [2] lại cho rằng việc làm
này khá tốn thời gian so với hiệu quả mà nó mang lại.
Tác giả Zhang [27] đã đề xuất một kiến trúc đa cột (multi-column) để xử lý các
ảnh đầu vào. Phương pháp được sử dụng tạo ra một mạng gồm 3 cột, mỗi cột sẽ các bộ
lọc với kích thước khác nhau (lớn, vừa, nhỏ) (Hình 2.6). Tuy nhiên khác với cách tiếp
cận trước là cố định giá trị trong nhân Gaussian (Gaussian kernel), tác giả chỉ ra mối
liên quan giữa kích thước đầu người và khoảng cách với các đầu người bên cạnh. Tức là
khoảng cách giữa các đầu người được đánh dấu càng gần thì có thể đầu người đó nhỏ.
Vì thế, họ dùng 2 phương pháp để chọn tham số σ là kernel cố định (fixed kernel) và
15
kernel thích ứng hình học (geometry-adapter kernel) để xây dựng bản đồ mật độ xác
thực. Dựa vào thực nghiệm, khi bộ dữ liệu ảnh có mật độ vừa thì tác giả dùng σ cố định
còn khi bộ dữ liệu có mật độ đông thì dùng σ thích ứng. Tác giả cũng tạo ra một bộ dữ
liệu mới gọi là ShanghaiTech gồm 1198 hình ảnh và 330000 đầu người đã được đánh
dấu.
Tác giả Sam [19] đã đề xuất một cách cải tiến phương pháp của tác giả Zhang
[27] bằng cách xây dựng một kiến trúc Switch dựa trên mô hình CNN để lựa chọn cột
CNN nào phù hợp với ảnh đầu vào thay vì dùng cả 3 cột CNN như phương pháp của
Zhang (Hình 2.8). Kiến trúc Switch dựa trên mô hình VGG-16 nhưng loại bỏ 3 tầng kết
nối đầy đủ và thay bằng tầng GAP, 1 tầng kết nối đầy đủ với ít nút hơn và 1 tầng kết nối
đầy đủ với 3 nút đầu ra để phân loại thành 3 lớp tương ứng với các kiến trúc R1, R2, R3.
Tác giả Kasmani [7] tiếp cận theo hướng phát hiện khuôn mặt để ước lượng kích
thước đầu trong ảnh, sau đó sử dụng Logic mờ cho kích thước đầu người có trong ảnh
(Ví dụ một số luật mờ mà tác giả sử dụng: Đầu người lớn mà nằm ở phía dưới của ảnh
có nghĩa là ảnh này có mật độ thưa, ngược lại nếu đầu người nhỏ mà nằm ở phía trên của
ảnh có nghĩa là ảnh này có mật độ đông) để chọn ra các tham số như kích thước patch
ảnh hay giá trị của tham số σ (dùng cho nhân Gaussian) thích hợp cho từng ảnh. Cách
tiếp cận này cũng tương tự như cách tiếp cận của tác giả Sam [19] nhưng thay vì dùng
nhiều cột CNN thì chỉ dùng 1 kiến trúc CCNN của tác giả Orono [14].
Thực chất các công trình trong giai đoạn huấn luyện là học các thông số tối ưu
của mạng. Thường thì các công trình dựa trên hàm mất mát về số đếm hoặc hàm mất mát
về bản đồ mật độ. Để xác định số người, nếu đầu ra của mạng có ước tính bản đồ mật
độ, người ta sẽ lấy tổng các giá trị của bản đồ mật độ, nếu đầu ra của mạng chỉ là 1 nút
số đếm thì số người chính là giá trị của nút này [25].
Hướng tiếp cận của đề tài
16
Giai đoạn huấn luyện (giai đoạn ngoại tuyến):
Hướng tiếp cận của đề tài bao gồm các công đoạn:
-
Xây dựng bộ phân lớp để tiền phân loại ảnh có người hay không có người. Nếu
không có người thì con số ước tính sẽ là 0.
-
Xây dựng bản đồ mật độ xác thực để làm dữ liệu cho việc huấn luyện mô hình.
-
Xây dựng mô hình ước tính bản đồ mật độ.
Giai đoạn kiểm tra thực nghiệm (giai đoạn trực tuyến): Ảnh mới được đưa vào
mô hình sẽ được xử lý như hình 3.7. Đầu ra của mạng sẽ là bản đồ mật độ và từ đó sẽ
tính được số đếm của nó.
17