BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÀ RỊA-VŨNG TÀU
HUỲNH THỊ HỒNG NGUYÊN
NGHIÊN CỨU VÀ ỨNG DỤNG
DEEP LEARNING TRONG VIỆC PHÁT HIỆN
TỤ TẬP ĐÔNG NGƯỜI TRÁI PHÉP
LUẬN VĂN THẠC SĨ
CÔNG NGHỆ THÔNG TIN
Bà Rịa - Vũng Tàu, tháng 4 năm 2021
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÀ RỊA-VŨNG TÀU
HUỲNH THỊ HỒNG NGUYÊN
NGHIÊN CỨU VÀ ỨNG DỤNG
DEEP LEARNING TRONG VIỆC PHÁT HIỆN
TỤ TẬP ĐÔNG NGƯỜI TRÁI PHÉP
Chuyên ngành: Công nghệ thông tin
Mã số: 8480201
LUẬN VĂN THẠC SĨ
CÔNG NGHỆ THÔNG TIN
NGƯỜI HƯỚNG DẪN KHOA HỌC:
TS. BÙI THỊ THU TRANG
Bà Rịa - Vũng Tàu, tháng 4 năm 2021
i
LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi. Các số liệu, kết
quả nêu trong Luận văn là trung thực và chưa từng được ai công bố trong bất kỳ công
trình nào khác.
Tôi xin cam đoan rằng mọi sự giúp đỡ cho việc thực hiện Luận văn này
đã được cảm ơn và các thông tin trích dẫn trong Luận văn đã được chỉ rõ nguồn gốc.
Học viên thực hiện luận văn
(Ký và ghi rõ họ tên)
Huỳnh Thị Hồng Nguyên
ii
LỜI CÁM ƠN
Thật vinh dự, hạnh phúc và may mắn khi là thành viên của lớp Cao học Công
nghệ thông tin đầu tiên được Trường Đại học Bà Rịa – Vũng Tàu tổ chức tại Tỉnh
nhà. Trong suốt quá trình học tập, rèn luyện tôi luôn nhận được sự nhiệt tình giảng
dạy, sự giúp đỡ hết sức quý báu từ Quý thầy cô đứng lớp cũng như các cán bộ quản
lý của Viện Đào tạo quốc tế và Sau Đại học; đặc biệt là sự hướng dẫn tận tình của
giảng viên - tiến sĩ Bùi Thị Thu Trang, người đã giúp tôi hoàn thành Luận văn để
kết thúc khóa học này.
Tôi cũng xin gửi lời cảm ơn đến tất cả các anh/ chị/ em lớp MIT18K1 đã cùng
tôi đồng hành, chia sẻ những kinh nghiệm quý báu qua các buổi học, động viên giúp
tôi vượt qua những khó khăn, thử thách mặc dù có sự tác động của đại dịch Covid19
làm ảnh hưởng ít nhiều đến tâm lý và gián đoạn thời gian học tập, nghiên cứu.
Tôi xin chân thành cảm ơn Ban Giám đốc cùng toàn thể viên chức và người lao
động của Trung tâm Công nghệ thông tin và Truyền thông tỉnh Bà Rịa – Vũng Tàu
đã tạo mọi điều kiện, khuyến khích tôi tham gia khóa học, hỗ trợ tối đa để tôi có cơ
hội mở mang tầm nhìn, nâng cao năng lực bản thân, hoàn thiện các kĩ năng mà tôi
còn thiếu sót.
Lời cảm ơn sau cùng, cho phép tôi gửi đến gia đình thân yêu của mình. Chính
sự thông cảm, sẻ chia, khích lệ của người thân là hành trang giúp tôi bền bỉ vượt qua
những thách thức, chông gai suốt chặng đường gần 3 năm đầy cam go có lúc tưởng
chừng như phải dừng bước. Cám ơn mẹ, người đã trao cho tôi niềm tin, tiếp sức ngọn
lửa nhiệt huyết, khơi gợi sự tự tin để tôi mạnh dạn tiến lên phía trước, khẳng định giá
trị và sức mạnh nội tại còn tiềm ẩn trong tôi.
Xin trân trọng cảm ơn!
Học viên
Huỳnh Thị Hồng Nguyên
iii
MỤC LỤC
LỜI CAM ĐOAN ...................................................................................................... i
LỜI CÁM ƠN ........................................................................................................... ii
MỤC LỤC ................................................................................................................ iii
DANH MỤC CÁC TỪ VIẾT TẮT ..........................................................................v
DANH MỤC CÔNG THỨC................................................................................... vi
DANH MỤC CÁC HÌNH ..................................................................................... viii
MỞ ĐẦU ....................................................................................................................1
Chương 1.
TỔNG QUAN VỀ NHÓM NGƯỜI, ĐÁM ĐÔNG TRONG XỬ
LÝ ẢNH – PHƯƠNG PHÁP PHÁT HIỆN HÀNH VI TỤ TẬP TRONG
NHÓM NGƯỜI .......................................................................................................10
Chương 2.
TỔNG QUAN CÁC PHƯƠNG PHÁP, THUẬT TOÁN NHẬN
DẠNG ĐỐI TƯỢNG ..............................................................................................18
iv
Chương 3.
MÔ HÌNH PHÁT HIỆN NGƯỜI SỬ DỤNG YOLOV4 .............43
Chương 4.
KẾT QUẢ THỰC NGHIỆM VÀ NHẬN XÉT ............................54
KẾT LUẬN VÀ KHUYẾN NGHỊ .........................................................................91
DANH MỤC TÀI LIỆU THAM KHẢO ...............................................................93
v
DANH MỤC CÁC TỪ VIẾT TẮT
STT
Chữ viết tắt
1
AP
2
CPU
3
CNN
Chữ viết đầy đủ
Average Precision
Độ chính xác trung bình
Central Processing Unit
Bộ xử lý trung tâm
Convolutional
Neural
Network
Conference on Computer
4
CVPR
Ý nghĩa
Vision
and
Pattern
Recognition
5
GPU
Graphics Processing Unit
6
RGB
Red Green Blue
7
SSP
Social Signal Processing
8
SVM
Support Vector Machine
9
YOLO
You Only Look Once
Mạng nơ rơ tích chập
Hội nghị về Thị giác máy
tính và Nhận dạng mẫu
Bộ xử lý đồ họa chuyên
dụng
Kênh màu RGB trong xử lý
ảnh
Xử lý tín hiệu tương tác
trong xã hội
Máy véc-tơ hỗ trợ
Thuật toán deep learning
YOLO
vi
DANH MỤC CÔNG THỨC
(2.1) ...........................................................................................................................19
(2.2) ...........................................................................................................................19
(2.3) ...........................................................................................................................21
(2.4) ...........................................................................................................................21
(2.5) ...........................................................................................................................22
(2.6) ...........................................................................................................................22
(2.7) ...........................................................................................................................25
(2.8) ...........................................................................................................................25
(2.9) ...........................................................................................................................25
(2.10) .........................................................................................................................26
(2.11) .........................................................................................................................26
(2.12) .........................................................................................................................28
(2.13) .........................................................................................................................31
(2.14) .........................................................................................................................31
(2.15) .........................................................................................................................32
(2.16) .........................................................................................................................33
(2.17) .........................................................................................................................34
(2.18) .........................................................................................................................34
(2.19) .........................................................................................................................34
(2.20) .........................................................................................................................35
(2.21) .........................................................................................................................35
(2.22) .........................................................................................................................35
(2.23) .........................................................................................................................35
(2.24) .........................................................................................................................35
(2.25) .........................................................................................................................36
(2.26) .........................................................................................................................36
(2.27) .........................................................................................................................36
vii
(2.28) .........................................................................................................................36
(2.29) .........................................................................................................................37
(2.30) .........................................................................................................................37
(2.31) .........................................................................................................................37
(2.32) .........................................................................................................................38
(2.33) .........................................................................................................................38
(2.34) .........................................................................................................................38
(2.35) .........................................................................................................................38
(3.1) ...........................................................................................................................48
(3.2) ...........................................................................................................................48
(3.3) ...........................................................................................................................50
viii
DANH MỤC CÁC HÌNH
Hình 1. Vị trí đặt Camera tại Trung tâm Công nghệ thông tin và Truyền thông tỉnh
Bà Rịa – Vũng Tàu ......................................................................................6
Hình 1.1. Hình ảnh có sự hiện diện của nhóm người: đang trò chuyện (a), đang đi
bộ (b), đang xếp hàng (c) [5] .....................................................................11
Hình 1.2. Hình ảnh đám đông (Web Dataset: Abnormal/Normal Crowd activities
[Mehran CVPR ‘09] [5] .............................................................................11
Hình 1.3. Unfocused interaction – tương tác không tập trung: (a) xếp hàng tính tiền
ở cửa hàng; (b) xem lịch trình máy bay/ tàu điện; (c) ăn tại căn tin [5] ....12
Hình 1.4. Nhóm người đang xem tivi (common –focused ) [5] ...............................13
Hình 1.5. Jointly focused interaction – tương tác tập trung mang ý nghĩa cụ thể (a)
Cùng chơi trò chơi; (b) Trò chuyện nhóm; (c) Đánh nhau [5] ..................13
Hình 1.6. Minh hoạ khái niệm SSP (xử lý tín hiệu tương tác xã hội) [5] .................14
Hình 1.7. Minh hoạ nhóm người với số lượng ít có tương tác không tập trung [5] .14
Hình 1.8. Minh hoạ nhóm người có tương tác tập trung mang tính chung chung [5]
....................................................................................................................15
Hình 1.9. Minh hoạ nhóm người có tương tác tập trung mang ý nghĩa cụ thể [5] ...16
Hình 1.10. Minh hoạ tập trung đông người với số lượng lớn có tương tác không tập
trung [5] .....................................................................................................16
Hình 2.1. Các bước thực hiện nhằm trích xuất đặc trưng và nhận dạng đối tượng [6]
....................................................................................................................20
Hình 2.2. Ảnh dữ liệu đầu vào được cắt ra từ ảnh lớn [7] ........................................20
Hình 2.3. Bộ lọc Sobel được áp dụng trong thuật toán HOG [7] .............................21
Hình 2.4. Độ lớn gradient theo trục 𝑥 (a); độ lớn gradient theo trục 𝑦 (b); cường độ
gradient (c) [7] ...........................................................................................22
Hình 2.5. Hình được chia thành ô cục bộ 8×8 pixel (hình được phóng to gấp 4 lần
thực tế để dễ quan sát) [7] ..........................................................................23
ix
Hình 2.6. Phần ảnh nhỏ 8×8 pixel và các mũi tên biểu diễn gradient của phần ảnh
này (b); Cường độ gradient và phương gradient của cùng 1 phần ảnh 8×8
pixel (c) ......................................................................................................24
Hình 2.7. Cung tròn minh họa 9 bin bình chọn cho việc thống kê Histogram .........25
Hình 2.8. Minh họa cách bình chọn phương gradient...............................................26
Hình 2.9. Biểu đồ Histogram [7] ...............................................................................27
Hình 2.10. Minh họa chuẩn hóa biểu đồ véc-tơ histogram theo block 2×2 [7] ........28
Hình 2.11. Minh họa biểu diễn phân phối HOG trên hình ảnh [7] ...........................29
Hình 2.12. Biểu diễn đường nét khuôn mặt với phương và độ lớn gradient [8] .......30
Hình 2.13. Siêu phẳng phân chia 2 lớp chưa tối ưu (a); Siêu phẳng phân chia 2 lớp
đã tối ưu (margin của 2 lớp bằng nhau và lớn nhất) (b) [11] .....................32
Hình 2.14. Minh họa bài toán SVM trong không gian 2 chiều .................................33
Hình 2.15. Các điểm khoanh tròn là các điểm gần mặt phân chia hyperlane nhất [11]
....................................................................................................................34
Hình 2.16. Lược đồ mô hình kết hợp HOG và SVM để phát hiện đối tượng áp dụng
thực nghiệm ...............................................................................................39
Hình 2.17. Mô hình so sánh hiệu suất giữa YOLOv4 và các bộ phát hiện đối tượng
tiên tiến khác ..............................................................................................41
Hình 3.1. Mô hình hệ thống dự kiến .........................................................................43
Hình 3.2. Mô hình tổng quát của YOLO dùng phát hiện đối tượng [20] .................44
Hình 3.3. Mô phỏng cách thức hoạt động của mô hình ............................................44
Hình 3.4. Hình minh họa mỗi ô lưới phát hiện 1 đối tượng [31] ..............................45
Hình 3.5. Minh họa mỗi ô lưới tạo số lượng cố định các khung giới hạn dự đoán cho
đối tượng [31] ............................................................................................45
Hình 3.6. YOLO bỏ lỡ một số đối tượng vì khoảng cách quá gần [31] ...................46
Hình 3.7. YOLO sử dụng S×S dự đoán với B boundary boxes (khung giới hạn) [31]
....................................................................................................................47
Hình 3.8. Hình minh họa kiến trúc của mô hình YOLO [20] ...................................47
x
Hình 3.9. Minh họa khung giới hạn cho mỗi ô và kết quả dự đoán cuối cùng [25]
[31] .............................................................................................................48
Hình 3.10. Kết quả phát hiện nhóm người bằng cách kiểm tra bounding box giao
nhau [32] ....................................................................................................52
Hình 3.11. Hình ảnh demo phát hiện các đối tượng người có cự li gần nhau trong
một phạm vi [33]........................................................................................53
Hình 3.12. Hình ảnh demo phát hiện các đối tượng người có cự li gần nhau trong
ứng dụng cảnh báo giãn cách xã hội do Covid 19 [34] .............................53
Hình 4.1. Tổng quát các bước giải bài toán deep learning .......................................54
Hình 4.2. Khởi tạo Google Colab Notebook.............................................................55
Hình 4.3. Notebook của Google Colaboratory .........................................................56
Hình 4.4. Thực thi câu lệnh command line trên Notebook của Google Colab .........56
Hình 4.5. Thay đổi thông tin trong chức năng “Runtime” của Notebook ................57
Hình 4.6. Cập nhật giá trị thanh “GPU” trong Notebook settings ............................57
Hình 4.7. Kiểm tra cấu hình GPU trên Google Colab ..............................................58
Hình 4.8. Gắn kết ổ đĩa từ Google Colab vào Google Drive ....................................58
Hình 4.9. Thực hiện gắn kết ổ đĩa với Google Drive ................................................59
Hình 4.10. Token xác thực được cấp để gắn kết ổ đĩa với Google Drive .................59
Hình 4.11. File chứa các đoạn video thu thập dữ liệu từ camera đặt tại Trung tâm
Công nghệ thông tin và Truyền thông tỉnh Bà Rịa – Vũng Tàu ................60
Hình 4.12. Công cụ AVC chuyển đổi file video từ định dạng “*.dav” sang định
dạng “*.mp4” .............................................................................................60
Hình 4.13. Kết quả sau khi sử dụng công cụ AVC để chuyển file video sang định
dạng “*.mp4” .............................................................................................61
Hình 4.14. Công cụ “Free Video to JPG Converter” để trích xuất file hình ảnh từ
file video ....................................................................................................61
Hình 4.15. Kết quả trích xuất file hình ảnh từ file video ..........................................62
Hình 4.16. Sử dụng công cụ LabelImg để gán nhãn đối tượng ................................62
xi
Hình 4.17. Kết quả sau khi gán nhãn đối tượng bằng công cụ LabelImg để thu được
dữ liệu huấn luyện cho mô hình Yolov4....................................................63
Hình 4.18. Thư mục “data” chứa dữ liệu huấn luyện gồm hình ảnh và file lưu thông
tin gán nhãn đối tượng. ..............................................................................63
Hình 4.19. Thực hiện gắn kết ổ đĩa Google Colab và Google Drive ........................65
Hình 4.20. Thực hiện tải mã nguồn darknet để huấn luyện YOLOv4 ......................65
Hình 4.21. Mã nguồn darknet được tải và lưu thành công trên Google Drive .........66
Hình 4.22. Thực hiện giải nén file data.zip ...............................................................66
Hình 4.23. Tạo file chứa tên class đối tượng muốn huấn luyện ...............................67
Hình 4.24. Đoạn code tạo 2 file train.txt và val.txt ...................................................67
Hình 4.25. Hai file train.txt và val.txt được tạo ra trong thư mục darknet ...............68
Hình 4.26. Tạo file yolo.data trong thư mục darknet ................................................68
Hình 4.27. Biên dịch mã nguồn darknet bằng lệnh make .........................................69
Hình 4.28. Tải file weights đã được huấn luyện sẵn .................................................69
Hình 4.29. Dòng lệnh thực hiện huấn luyện mô hình ...............................................70
Hình 4.30. Các file weights được sinh ra khi huấn luyện mô hình YOLOv4 ...........70
Hình 4.31. Màn hình hiển thị thông tin log phần kết thúc quá trình huấn luyện ......71
Hình 4.32. Biểu đồ quá trình huấn luyện ..................................................................72
Hình 4.33. Bộ dataset dùng để huấn luyện mô hình YOLOv4 .................................73
Hình 4.34. Cập nhật file “.darknet/src/image.c” in log trên Notebook .....................74
Hình 4.35. Cập nhật file “.darknet/src/image.c” in thông tin trên file hình ảnh kết
quả ..............................................................................................................74
Hình 4.36. Dòng lệnh Python trên Google Colab để gọi hàm make cập nhật mô hình
darknet........................................................................................................75
Hình 4.37. Dòng lệnh Python phát hiện đối tượng người trong file ảnh sử dụng mô
hình YOLOv4 ............................................................................................76
Hình 4.38. Dòng lệnh Python phát hiện đối tượng người trong file video dùng mô
hình YOLOv4 ............................................................................................76
xii
Hình 4.39. Hình ảnh chụp kết quả hiển thị log ghi nhận quá trình phát hiện đối
tượng người trên từng frame hình của video thực nghiệm ........................77
Hình 4.40. Hình ảnh cắt ra từ file video (*.avi) kết quả phát hiện đối tượng người. 77
Hình 4.41. Kết quả phát hiện đối tượng người có độ tin cậy tối đa (1 đối tượng
người) – không có cảnh báo tụ tập đông người .........................................78
Hình 4.42. Kết quả phát hiện đối tượng người có độ tin cậy tối đa (2 đối tượng
người) – không có cảnh báo tụ tập đông người .........................................79
Hình 4.43. Kết quả phát hiện đối tượng người với độ tin cậy cao – Hiển thị cảnh báo
tụ tập đông người .......................................................................................80
Hình 4.44. Kết quả phát hiện đối tượng người với độ tin cậy không đạt mức tối đa
do người bị che khuất 1 phần do vật hoặc người khác – Cảnh báo tụ tập
đông người. ................................................................................................81
Hình 4.45. Kết quả phát hiện đối tượng người với độ tin cậy không cao do hình
người đứng sát xe máy và bị che khuất 1 phần – Cảnh báo tụ tập đông
người ..........................................................................................................82
Hình 4.46. Kết quả phát hiện đối tượng người với độ tin cậy không cao do người bị
che khuất 1 phần – Cảnh báo tụ tập đông người .......................................83
Hình 4.47. Kết quả phát hiện đối tượng với độ tin cậy không cao do thiếu sáng .....84
Hình 4.48. Kết quả phát hiện sai đối tượng người do khi thực hiện gán nhãn người
có lẫn hình ảnh xe máy do người ngồi trên xe máy ...................................85
Hình 4.49. Chỉ phát hiện được 1 đối tượng người mặc dù có 2 người ngồi cạnh nhau
trên xe máy.................................................................................................86
Hình 4.50. Hình ảnh có độ tin cậy không cao do người bị che khuất một phần và
chất lượng hình ảnh kém............................................................................87
Hình 4.51. Đối tượng phát hiện có độ tin cậy không cao do bị che khuất một phần,
không thể phát hiện đối tượng phía sau hàng rào chắn .............................88
Hình 4.52. Không phát hiện được người ở xa camera đối với hình ảnh chụp trên
đường phố được sưu tầm trên mạng ..........................................................89
xiii
Hình 4.53. Phát hiện đối tượng không chính xác (phát hiện hình nộm nhân vật bé
trai là đối tượng người), không thể phát hiện đối tượng người ở xa camera,
hình ảnh chất lượng kém............................................................................90
1
MỞ ĐẦU
1. Lý do chọn đề tài
Ngày nay, cùng với hạ tầng kỹ thuật hiện đại, công nghệ vượt bậc, phát triển đô
thị là động lực cơ bản cho phát triển kinh tế - xã hội của quốc gia và các vùng miền
trên cả nước; các trung tâm đô thị đã và đang là những trung tâm của các hoạt động
kinh tế xã hội, đồng thời cũng là trung tâm của hoạt động đổi mới sáng tạo, giáo dục,
nghiên cứu khoa học công nghệ, sản xuất, thương mại và hội nhập quốc tế; việc xây
dựng đô thị thông minh là yêu cầu tất yếu nhằm đáp ứng nhu cầu hưởng thụ môi
trường sống tiện ích, thân thiện và an toàn của người dân - theo như lời của Thứ
trưởng Bộ Thông tin và Truyền thông Nguyễn Thành Hưng tại Hội thảo Xây dựng
đô thị thông minh trong tiến trình chuyển đổi số quốc gia diễn ra chiều ngày 2 tháng
10 năm 2019 tại Hà Nội [1]. Tại tỉnh Bà Rịa – Vũng Tàu, vấn đề xây dựng đô thị
thông minh cũng rất được quan tâm và đã được Hội đồng nhân dân tỉnh thông qua tại
nghị quyết số 112/NQ-HĐND ngày 13 tháng 12 năm 2019 về “Đề án phát triển đô
thị thông minh tỉnh Bà Rịa – Vũng Tàu giai đoạn 2020 – 2022, định hướng đến năm
2025, tầm nhìn đến năm 2030”. Tại cuộc họp ngày 04 tháng 06 năm 2020, kế hoạch
triển khai Đề án phát triển đô thị thông minh tỉnh Bà Rịa – Vũng Tàu cũng đã được
Ủy ban nhân dân tỉnh thông qua [2]. Trong số 12 nhiệm vụ, dự án theo Nghị quyết
112/NQ-HĐND nêu trên, vấn đề xây dựng, triển khai các dịch vụ, tiện ích thông minh
phục vụ quản lý giao thông và đảm bảo an ninh trật tự cũng rất được quan tâm và
đưa vào nghị quyết lần này.
Một quốc gia muốn phát triển kinh tế và ngày càng giàu, mạnh thì trước tiên
tình hình chính trị, an ninh, trật tự, an toàn xã hội trong quốc gia đó phải được đảm
bảo và duy trì ổn định. Đây là một điều cực kì khó khăn, ngoài việc có các chính sách,
pháp luật nghiêm minh, chặt chẽ thì việc thực thi các chính sách, pháp luật đó đòi hỏi
chi phí về nguồn nhân lực, trí lực, vật lực không hề nhỏ.
2
Để giữ gìn trật tự công cộng, góp phần đảm bảo quyền tự do dân chủ của công
dân theo quy định của pháp luật, “nghị định số 38/2005/NĐ-CP ngày 18 tháng 3 năm
2005 quy định một số biện pháp đảm bảo trật tự công cộng” [3] và “thông tư số
09/2005/TT-BCA ngày 05 tháng 9 năm 2005 Hướng dẫn thi hành một số điều của
nghị định số 38/2005/NĐ-CP” [4] ra đời.
Tại Mục 2 của Thông tư số 09/2005/TT-BCA về Các hành vi bị nghiêm cấm
theo Điều 5 Nghị định số 38/2005/NĐ-CP có quy định rõ:
Tập trung đông người trái với quy định của pháp luật ở nơi công cộng, trước
trụ sở cơ quan, tổ chức hoặc tại khu vực đang diễn ra các hội nghị quốc tế, kỳ họp
Quốc hội, Hội đồng nhân dân, các hoạt động chính trị quan trọng của Đảng, Nhà
nước và các tổ chức chính trị xã hội (mục 2.3 của Thông tư số 09/2005/TT-BCA).
Tiến hành các hoạt động tập trung đông người ở nơi công cộng theo quy định
của Nghị định số 38 và hướng dẫn tại Thông tư này mà không được phép của Ủy ban
nhân dân có thẩm quyền (mục 2.4 của Thông tư số 09/2005/TT-BCA).
Không chấp hành các quy định về khu vực cấm, khu vực bảo vệ và sự hướng
dẫn của người có trách nhiệm giải quyết vụ việc có liên quan; cản trở, chống người
thi hành công vụ; có hành vi xâm phạm tính mạng, sức khoẻ, danh dự, nhân phẩm
của người khác, xâm phạm tài sản của Nhà nước, tổ chức và cá nhân hoặc có hành vi
quá khích khác như: la hét, chửi bới, đập phá; lăng mạ, đe dọa hành hung người khác
(mục 2.8 của Thông tư số 09/2005/TT-BCA).
Và cũng theo hướng dẫn quy định tại mục 4 của Thông tư số 09/2005/TT-BCA
Quy định về hoạt động tập trung đông người ở nơi công cộng: “Hoạt động tập trung
đông người ở nơi công cộng theo quy định của Nghị định số 38 và hướng dẫn tại
Thông tư này là những trường hợp tổ chức tập trung từ 5 người trở lên tại các khu
vực, địa điểm phục vụ chung cho mọi người như vỉa hè, lòng đường, quảng trường,
cơ sở kinh tế, văn hóa, nơi sinh hoạt cộng đồng; tại khu vực trụ sở cơ quan nhà nước,
tổ chức chính trị - xã hội hoặc tại những nơi công cộng khác nhằm mục đích đưa ra
yêu cầu hoặc kiến nghị về những vấn đề có liên quan đến quyền và lợi ích hợp pháp
3
của cá nhân, gia đình, tổ chức hoặc nhằm đưa ra những yêu cầu, kiến nghị về những
vấn đề có liên quan chung đến đời sống chính trị - xã hội, đến quyền và lợi ích hợp
pháp của tổ chức, cá nhân khác.”
Thông tư nêu trên cũng quy định Nguyên tắc xử lý vi phạm pháp luật về bảo
đảm trật tự công cộng tại Mục 3 “Mọi hành vi vi phạm quy định của pháp luật về
bảo đảm trật tự công cộng đều phải được phát hiện kịp thời và xử lý nghiêm minh
theo đúng quy định của pháp luật”.
Nhằm đảm bảo an ninh, trật tự, an toàn xã hội nói chung và an ninh, an toàn tại
các trụ sở cơ quan, tổ chức hoặc tại khu vực đang diễn ra các hội nghị quốc tế, kỳ họp
Quốc hội, Hội đồng nhân dân, các hoạt động chính trị quan trọng của Đảng, Nhà
nước, tổ chức chính trị xã hội nói riêng; Nhà nước và Chính quyền địa phương các
cấp đã bố trí các lực lượng công an, quân đội, dân quân tự vệ canh gác, chốt chặn tại
các địa điểm trọng yếu. Tuy nhiên trước tình hình xã hội ngày càng phức tạp như hiện
nay việc đảm bảo được trật tự, an toàn, ổn định tuyệt đối cho các khu vực thiết yếu
đặt ra thách thức vô cùng to lớn đối với các lực lượng kể trên.
Lấy ví dụ đơn cử như Trung tâm Hành chính – Chính trị tỉnh Bà Rịa – Vũng
Tàu hiện toạ lạc tại phường Phước Trung (Thành phố Bà Rịa) trên khu đất rộng
khoảng 20 héc-ta được đưa vào hoạt động từ tháng 4 năm 2012; Trung tâm Hành
chính – Chính trị này gồm có 4 mặt tiếp giáp với 4 con đường khác nhau là Bạch
Đằng, Phạm Văn Đồng, Trường Chinh và Nguyễn Tất Thành. Tại mỗi góc đường đều
có các biển “Khu vực cấm tập trung đông người”. Tuy nhiên hiện tại chỉ có 2 chốt
canh gác 24/24 do lực lượng công an đảm nhận tại cổng đường Bạch Đằng, đường
Phạm Văn Đồng và 1 chốt canh do lực lượng bảo vệ của Trung tâm Hành chính –
Chính trị đảm nhận tại cổng đường Trường Chinh. Tại vị trí các cổng có chốt canh
gác đều có gắn camera quan sát, nhưng các camera này chỉ mới có chức năng phục
vụ mục đích quan sát, thu thập dữ liệu phục vụ tra cứu chứ chưa ứng dụng công nghệ
nhằm phục vụ mục đích phát hiện kịp thời các tình huống vi phạm an ninh trật tự an
4
toàn của Trung tâm Hành chính - Chính trị Tỉnh cụ thể là tình huống tập trung đông
người trái phép.
2. Mục đích nghiên cứu
Ngày nay, với sự phát triển thần tốc của công nghệ trong thời đại nền công
nghiệp lần thứ tư, các máy móc, thiết bị, máy tính ngày càng hiện đại, việc lưu trữ dữ
liệu lớn (big data) cũng như khai thác dữ liệu trở nên dễ dàng hơn bao giờ hết. Ứng
dụng công nghệ deep learning trong xử lý hình ảnh camera nhằm đảm bảo phát hiện
kịp thời các trường hợp vi phạm về an ninh, trật tự, an toàn xã hội cụ thể là việc phát
hiện tụ tập đông người trái phép xung quanh các khu vực cấm hoàn toàn có thể thực
hiện được.
Nếu được đưa vào thực tiễn, đây thực sự là một giải pháp thiết thực góp phần
duy trì và đảm bảo tính kịp thời trong công tác giữ gìn an ninh, trật tự, an toàn tại các
khu vực cấm. Ứng dụng Công nghệ thông tin trong việc phát hiện tụ tập đông người
trái phép và cảnh báo tức thì giúp các lực lượng đảm bảo an ninh, trật tự nhanh chóng
và có kế hoạch ứng phó hiệu quả với các tình huống vi phạm, góp phần ngăn chặn và
dập tắt ngay khi có dấu hiệu bất thường tại các khu vực này.
3. Đối tượng và phạm vi nghiên cứu
3.1. Đối tượng nghiên cứu:
Các vấn đề liên quan đến phát hiện đối tượng người (human detection) dùng
deep learning;
Các vấn đề liên quan đến mô hình deep learning YOLO (You Only Look
Once);
Các vấn đề liên quan đến mô hình kết hợp HOG (Histogram of Oriented
Gradients) và SVM (Support Vector Machine);
5
3.2. Phạm vi nghiên cứu:
Với mục tiêu tổng quát là nghiên cứu và lựa chọn mô hình hiệu quả (gọn nhẹ,
nhanh chóng, có độ chính xác cao) để phát hiện và cảnh báo khi hình ảnh có dấu hiệu
đông người tụ tập qua camera quan sát, tác giả đặt ra các mục tiêu cụ thể như sau:
Nghiên cứu tổng quan lý thuyết về tụ tập đông người (nhóm người, đám
đông, cách tiếp cận khái niệm tập trung đông người trong thị giác máy tính, phương
pháp phát hiện nhóm người, đám đông trong thị giác máy tính);
Lựa chọn cách tiếp cận, giới hạn, phương pháp thực hiện đề tài phù hợp với
khả năng nghiên cứu của bản thân: giới hạn của đề tài đặt ra là nghiên cứu để tìm ra
phương pháp hiệu quả nhằm phát hiện nhóm người theo hướng phát hiện đối tượng
(object detection), đếm số người trong một vùng ảnh, không đi sâu vào nghiên cứu
về phương pháp phát hiện đám đông, cũng như mô hình phân tích hành vi của nhóm
người, đám đông – Social Signal Processing;
Nghiên cứu cơ sở lý thuyết của mô hình deep learning YOLOv4 để phát hiện
đối tượng người và đếm số người trong một vùng ảnh;
Nghiên cứu cơ sở lý thuyết của mô hình kết hợp HOG và SVM để phát hiện
đối tượng người và đếm số người trong một vùng ảnh;
Lựa chọn mô hình hiệu quả nhằm ứng dụng vào việc phát hiện dấu hiệu tập
trung đông người trên ảnh tĩnh từ camera quan sát.
Dữ liệu được xử lý là hình ảnh tĩnh được trích xuất từ camera của Trung tâm
Công nghệ thông tin và Truyền thông tỉnh Bà Rịa – Vũng Tàu, đặt tại cổng phụ, khu
vực để xe dành cho nhân viên. Camera này có thân hình trụ tròn, được gắn lên tường
hướng nhìn chếch xuống một góc từ 50 đến 70 độ, ghi nhận ở một khoảng cách không
quá xa (Hình 1), có thể thấy được toàn thân của đối tượng người trong ảnh. Ảnh chụp
được ghi lại trong điều kiện ánh sáng bình thường (trời không mưa to, không bị ngược
sáng, không bị sương mù dày đặc).
- Xem thêm -