Đăng ký Đăng nhập
Trang chủ Ước lượng số người trong đám đông sử dụng mạng nơ ron tích chập...

Tài liệu Ước lượng số người trong đám đông sử dụng mạng nơ ron tích chập

.PDF
39
1
140

Mô tả:

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐỒNG NAI BÁO CÁO TỔNG KẾT ĐỀ TÀI NGHIÊN CỨU KHOA HỌC CẤP TRƯỜNG ƯỚC LƯỢNG SỐ NGƯỜI TRONG ĐÁM ĐÔNG SỬ DỤNG MẠNG NƠ-RON TÍCH CHẬP Mã số: TR:2020-01/KCN Chủ nhiệm đề tài: ThS. Đỗ Phúc Thịnh Đồng Nai, 03/2021 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐỒNG NAI BÁO CÁO TỔNG KẾT ĐỀ TÀI NGHIÊN CỨU KHOA HỌC CẤP TRƯỜNG ƯỚC LƯỢNG SỐ NGƯỜI TRONG ĐÁM ĐÔNG SỬ DỤNG MẠNG NƠ-RON TÍCH CHẬP Mã số: TR:2020-01/KCN Chủ nhiệm đề tài (ký, họ tên) ThS. Đỗ Phúc Thịnh Đồng Nai, 03/2021 DANH SÁCH NHỮNG THÀNH VIÊN THAM GIA NGHIÊN CỨU ĐỀ TÀI STT Họ và tên thành viên Đơn vị chủ trì 1 Đỗ Phúc Thịnh Khoa Công nghệ 2 Trần Văn Ninh Khoa Công nghệ 3 Quách Thị Bích Nhường Khoa Công nghệ 4 Võ Thị Kiều Oanh Khoa Công nghệ 5 Phạm Minh Sang Khoa Công nghệ 6 Trần Thị Thanh Huyền Khoa Công nghệ 7 Lê Phạm Công Hiếu Khoa Công nghệ MỤC LỤC MỤC LỤC ........................................................................................................................ 1 DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT ............................................................ 4 DANH MỤC CÁC BẢNG............................................................................................... 5 DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ .......................................................................... 6 THÔNG TIN KẾT QUẢ NGHIÊN CỨU ĐỀ TÀI NGHIÊN CỨU KHOA HỌC CẤP TRƯỜNG ......................................................................................................................... 7 Chương 1. Giới Thiệu ................................................................................................ 8 Tổng quan ........................................................................................................... 8 Động lực nghiên cứu .......................................................................................... 9 1.2.1. Tính khoa học ........................................................................................... 9 1.2.2. Tính ứng dụng .......................................................................................... 9 Mục tiêu của đề tài.............................................................................................. 9 Phát biểu bài toán ............................................................................................... 9 Phạm vi bài toán ............................................................................................... 10 Mô tả chung về hệ thống .................................................................................. 10 Đóng góp của đề tài .......................................................................................... 11 Cấu trúc đề tài ................................................................................................... 11 Chương 2. Cơ Sở Lý Thuyết Và Các Công Trình Nghiên Cứu Liên Quan ............. 12 Một số cơ sở lý thuyết ...................................................................................... 12 2.1.1. Phân phối chuẩn ..................................................................................... 12 1 2.1.2. Mạng Nơ-ron tích chập (Convolutional Neural Network – CNN) ........ 13 Các phương pháp giải quyết hiện có ................................................................ 13 2.2.1. Các phương pháp dựa trên phát hiện đối tượng ..................................... 13 2.2.2. Các phương pháp dựa trên hồi quy ........................................................ 14 2.2.3. Các phương pháp dựa trên ước lượng mật độ ........................................ 14 Các công trình nghiên cứu liên quan ................................................................ 14 Hướng tiếp cận của đề tài ................................................................................. 16 Chương 3. Hệ Thống Ước Lượng Đám Đông ......................................................... 18 Giới thiệu .......................................................................................................... 18 Mô hình phân lớp Human Classifier ................................................................ 18 Ước lượng số người trong đám đông ............................................................... 20 3.3.1. Xây dựng bản đồ mật độ xác thực .......................................................... 21 3.3.2. Mô hình ước lượng số người trong đám đông ....................................... 22 Chương 4. Thực Nghiệm Và Đánh Giá .................................................................... 25 Giới thiệu .......................................................................................................... 25 Các bộ dữ liệu chuẩn để thực nghiệm .............................................................. 25 4.2.1. Bộ dữ liệu UCF_CC_50 ......................................................................... 25 4.2.2. Bộ dữ liệu ShanghaiTech ....................................................................... 25 Phương pháp đánh giá ...................................................................................... 26 Cài đặt chương trình ứng dụng demo ............................................................... 27 4.4.1. Môi trường và ngôn ngữ cài đặt ............................................................. 27 2 4.4.2. Giao diện chương trình ........................................................................... 27 4.4.3. Tạo dữ liệu để huấn luyện và kiểm thử mô hình .................................... 28 4.4.4. Huấn luyện mô hình trên giao diện console ........................................... 29 Kết quả thực nghiệm ......................................................................................... 29 4.5.1. Tập dữ liệu UCF_CC_50 ....................................................................... 29 4.5.2. Tập dữ liệu ShanghaiTech ...................................................................... 31 Chương 5. Kết Luận ................................................................................................. 33 Kết luận............................................................................................................. 33 Hướng phát triển ............................................................................................... 33 TÀI LIỆU THAM KHẢO.............................................................................................. 34 3 DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT STT Ký hiệu viết tắt Nội dung viết tắt 1 CCTV closed-circuit television 2 CNN Convolutional Neural Network 3 conv Convolutional 4 ReLU Rectified Linear Unit 5 CCNN Couting Convolutional Neural Network 6 MCNN Multi-column Convolutional Neural Network 7 Switch-CNN Switching Convolutional Neural Network 8 GAP global average pool 9 CVPR Computer Vision and Pattern Recognition 4 DANH MỤC CÁC BẢNG Bảng 4.1. Kết quả đánh giá trên tập dữ liệu UCF_CC_50 so sánh với các phương pháp hiện có ............................................................................................................................ 30 Bảng 4.2. Kết quả đánh giá bằng độ đo MRE trên tập dữ liệu ShanghaiTech Part A so sánh với các phương pháp .............................................................................................. 31 Bảng 4.3. Kết quả đánh giá trên tập dữ liệu ShanghaiTech so sánh với các phương pháp hiện có ............................................................................................................................ 31 5 DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Hình 1.1. Mô hình chung của hệ thống ước lượng số người giai đoạn ngoại tuyến và trực tuyến. .............................................................................................................................. 10 Hình 1.2. Kết quả khi tạo bản đồ mật độ và ước tính số người. .................................... 10 Hình 2.1. Một số dạng phân phối dữ liệu. ...................................................................... 12 Hình 2.2. Kiến trúc CNN cơ bản. ................................................................................... 13 Hình 3.1. Kiến trúc của mô hình Human Classifier. ...................................................... 19 Hình 3.2. Kiến trúc của hệ thống giai đoạn trực tuyến. ................................................. 23 Hình 4.1. Một số mẫu trong bộ dữ liệu UCF_CC_50. ................................................... 25 Hình 4.2. Một số mẫu trong bộ dữ liệu ShanghaiTech. ................................................. 26 Hình 4.3. Giao diện của chương trình. ........................................................................... 28 Hình 4.4. Giao diện hệ thống khi ước tính số người trong đám đông. .......................... 28 Hình 4.5. Dòng a) Mẫu từ tập dữ liệu UCF_CC_50; b) Bản đồ mật độ xác thực; c) Bản đồ mật độ ước tính không dùng Human Classifier; d) Bản đồ mật độ ước tính dùng Human Classifier. ........................................................................................................... 30 6 THÔNG TIN KẾT QUẢ NGHIÊN CỨU ĐỀ TÀI NGHIÊN CỨU KHOA HỌC CẤP TRƯỜNG (dùng cho Báo cáo tổng kết đề tài) 1. Thông tin chung: - Tên đề tài: Ước lượng số người trong đám đông sử dụng mạng nơ-ron tích chập - Mã số: TR:2020-01/KCN - Chủ nhiệm đề tài: ThS. Đỗ Phúc Thịnh Điện thoại: 0847088880 Email: [email protected] - Đơn vị quản lý về chuyên môn (Khoa, Tổ bộ môn): Khoa Công nghệ - Thời gian thực hiện: Tháng 07/2020 đến tháng 03/2021 2. Mục tiêu: Nghiên cứu mô hình mạng nơ-ron tích chập, sử dụng được mô hình này để áp dụng nó cho bài toán cụ thể là ước lượng số người trong đám đông. 3. Nội dung chính: - Nghiên cứu về mạng nơ-ron tích chập - Nghiên cứu về bài toán ước lượng số người trong đám đông - Áp dụng mạng nơ-ron tích chập cho bài toán ước lượng số người trong đám đông 4. Kết quả chính đạt được - Nghiên cứu, tổng hợp các tài liệu liên quan đến đề tài - Phân tích điểm mạnh, điểm yếu của các đề tài nghiên cứu liên quan - Phân tích và thiết kế hệ thống - Thực nghiệm mô hình - Rà soát, chỉnh sửa nội dung, hoàn thiện định dạng, đóng gói 7 Chương 1. Giới Thiệu Tổng quan Hiện nay đang diễn ra cuộc cách mạng công nghệ lần thứ tư, tức là có sự liên kết giữa vạn vật (Internet Of Things) thông qua các thiết bị máy móc cũng như các giải pháp công nghệ về trí tuệ nhân tạo. Trong cuộc cách mạng đó, người ta có nhu cầu xây dựng các thành phố thông minh (Smart City) với hệ thống giám sát bằng các camera giám sát CCTV, điều này có nghĩa là chúng có khả năng thông qua các thiết bị và phần mềm với cốt lõi chính là trí tuệ nhân tạo để giúp tự động giám sát, quản lý sự vật cũng như con người. Trong đó, công đoạn xử lý các camera giám sát là công đoạn rất quan trọng vì nó liên quan đến việc quản lý các hoạt động của người. Hiện nay, có nhiều tác vụ tự động giám sát như nhận dạng bảng số xe, phát hiện người vi phạm lỗi luật giao thông… và tác vụ phân tích thống kê như ước lượng mật độ, đếm số đối tượng… Mặt khác, với sự bùng nổ của dữ liệu hiện nay, các nhà nghiên cứu có nhu cầu khảo sát trên loại dữ liệu có mật độ cao như xe cộ, động vật, tế bào… một trong số đó là đám đông. Vì thế, các nhu cầu giám sát những đối tượng riêng lẻ đã phát triển lên giám sát cả một đám đông, vì thế các giải pháp trước đây từng áp dụng cho cảnh có mật độ người thưa thớt thì đã không còn phù hợp. Ngày nay, các thành phố ngày càng được xây dựng nhiều lên, làm cho mật độ dân cư ngày càng đông. Mặt khác nhiều sự kiện thể thao, mít tinh, biểu tình… cũng được tổ chức. Song song với đó thì tình hình bất ổn về an ninh cũng tiến triển rất phức tạp, đặc biệt là các tổ chức khủng bố luôn nhắm đến đám đông làm cho thiệt hại vô cùng to lớn. Vì thế, cần cải tiến các camera giám sát thông minh hơn để giúp con người làm chủ cũng như tránh hoặc ít nhất là giải quyết kịp thời được hiện trạng này. 8 Động lực nghiên cứu 1.2.1. Tính khoa học Đám đông không chỉ là tổng các thành phần, vì vậy khi áp dụng các giải pháp trên từng phần cho đám đông sẽ không đem lại hiệu suất cao. Mặt khác, giám sát đám đông vẫn còn nhiều thách thức như bị che khuất, ánh sáng phân bố không đồng đều, độ giãn… Vì thế cộng đồng cần phải nỗ lực hơn nữa để khảo sát riêng biệt cho bài toán này, cải tiến các giải pháp cũ cũng như đề xuất những giải pháp mới. Bài toán này còn có thể được mở rộng cho các dữ liệu có mật độ cao như xe cộ, động vật, tế bào… 1.2.2. Tính ứng dụng Ngày nay, camera giám sát được gắn ở khắp mọi nơi. Tuy nhiên, hầu hết các videos từ các camera này thường chỉ được lưu trữ để tìm kiếm. Khi sự cố xảy ra thì sẽ tốn chi phí và thời gian để điều tra. Vì thế việc tự động giám sát đám đông từ các camera này là cần thiết để có thể phát hiện hay cảnh báo sớm để phòng tránh các sự cố đáng tiếc. Việc ước lượng mật độ đám còn được ứng dụng cho các siêu thị, rạp chiếu phim... Khi biết được sự phân bố của người mua hàng, người quản lý có thể bố trí thời gian đóng mở cửa, điều phối nhân viên cho phù hợp. Mục tiêu của đề tài Đề tài đặt mục tiêu đề xuất được một phương pháp cải tiến để có thể ước lượng mật độ và đếm số lượng người trong đám đông. Phát biểu bài toán Đầu vào: Ảnh I là cảnh đám đông bất kì. Đầu ra: Bản đồ mật độ D của ảnh I và ước lượng số người N có trong ảnh I. 9 Phạm vi bài toán Trong phạm vi đề tài này học viên chỉ nghiên cứu trên đám đông với các đối tượng là người. Tập dữ liệu được sử dụng để thử nghiệm và đánh giá là UCF_CC_50 và ShanghaiTech Part A, B. Mô tả chung về hệ thống Giai đoạn ngoại tuyến: A. Tạo bản đồ mật Huấn luyện để độ xác thực lấy bộ trọng số B. Xây dựng bản Bản đồ mật độ đồ mật độ cuối cùng Tập dữ liệu mẫu Ước lượng số người Giai đoạn trực tuyến: Ảnh đám đông bất kì Bản đồ mật độ Ước lượng số người Hình 1.1. Mô hình chung của hệ thống ước lượng số người giai đoạn ngoại tuyến và trực tuyến. Hình 1.2. Kết quả khi tạo bản đồ mật độ và ước tính số người. 10 Đóng góp của đề tài Với sự phát triển của Học sâu (Deep learning) thì việc áp dụng CNN vào bài toán này là rất khả quan, tuy nhiên với những phương pháp hiện tại, họ ước tính số người ngay cả trong những vùng không có người. Vì vậy học viên đề xuất sử dụng thêm một bộ phân lớp có người hay không có người để tiền phân loại những vùng không có người. Học viên cũng khắc phục nhược điểm của hai phương pháp M-CNN và SwitchCNN để tạo ra phương pháp tốt hơn trong các môi trường có mật độ người vừa và đông. Cấu trúc đề tài Đề tài được trình bày trong 5 chương như sau: - Chương 1: Trình bảy tổng quan về đề tài của đề tài, phát biểu bài toán, động lực, các thách thức và đóng góp của đề tài. - Chương 2: Trình bày chi tiết về bài toán, cơ sở lý thuyết quan trọng và một số nghiên cứu liên quan đến dề tài của đề tài. - Chương 3: Mô tả chi tiết về hệ thống và các cải tiến so với các cách tiếp cận trước đó. - Chương 4: Cài đặt hệ thống, thử nghiệm và đánh giá trên các bộ dữ liệu chuẩn. - Chương 5: Kết luận và hướng phát triển. 11 Chương 2. Cơ Sở Lý Thuyết Và Các Công Trình Nghiên Cứu Liên Quan Một số cơ sở lý thuyết 2.1.1. Phân phối chuẩn Dữ liệu có thể được phân phối theo nhiều cách như trải về bên phải, trải về bên trái phải hoặc không đồng đều. Nhưng trong đa số trường hợp, dữ liệu có xu hướng tập trung quanh một giá trị trung tâm (0). Phân phối này được gọi là phân phối chuẩn. Phân phối chuẩn hay còn được gọi là phân phối Gauss là một trong những phân phối quan trọng nhất và được ứng dụng rất rộng rãi trong thực tế. Giống như các phân phối khác, phân phối chuẩn được định nghĩa dựa vào hàm mật độ xác suất: với là giá trị trung bình, f x 1 √2 là độ lệch chuẩn, là phương sai. Hình 2.1. Một số dạng phân phối dữ liệu.1 1 https://www.mathsisfun.com/data/standard-normal-distribution.html 12 2.1.2. Mạng Nơ-ron tích chập (Convolutional Neural Network – CNN) Mạng Nơ-ron tích chập rất giống với mạng Nơ-ron thông thường, chúng được tạo thành từ các nơ-ron có trọng số, bias và hàm mất mát (ví dụ: SVM, Softmax…) trên tầng kết nối đầy đủ (fully connected) cuối cùng. Kiến trúc CNN được tạo thành từ các tầng cơ bản như sau: Hình 2.2. Kiến trúc CNN cơ bản.2 Để huấn luyện cho mạng, tức là cập nhật bộ trọng số của các bộ lọc cũng như của tầng FC, ta sử dụng thuật toán lan truyền ngược như gradient descent. Các phương pháp giải quyết hiện có Hiện nay có nhiều cách tiếp cận để giải quyết việc ước lượng và đếm số người trong đám đông. Có thể chia thành như sau: - Các phương pháp dựa trên phát hiện đối tượng (Detection-based) - Các phương pháp dựa trên hồi quy (Regression-based) - Các phương pháp dựa trên ước lượng mật độ (Density estimation-based) 2.2.1. Các phương pháp dựa trên phát hiện đối tượng Hầu hết các phương pháp này tập trung vào việc phát hiện đối tượng bằng cách dùng cửa sổ trượt để phát hiện người trong ảnh hay video và dùng thông tin này để đếm 2 https://en.wikipedia.org/wiki/Convolutional_neural_network 13 số người. Nhược điểm của phương pháp này là khi mật độ người càng đông thì hiệu quả của nó càng thấp. 2.2.2. Các phương pháp dựa trên hồi quy Các phương pháp này gồm 2 phần: rút trích các đặc trưng từ ảnh và xây dựng một mô hình hồi quy để ánh xạ các đặc trưng này với kết quả đếm được. Các phương pháp này tránh được việc giải quyết bài toán khó là việc phát hiện đối tượng. Tuy nhiên lại bỏ qua thông tin về không gian trong ảnh như là vị trí người có trong ảnh. 2.2.3. Các phương pháp dựa trên ước lượng mật độ Các phương pháp dựa trên hồi quy tuy tránh được các thách thức về che khuất tuy nhiên lại bỏ qua thông tin về không gian mà chỉ ước lượng ra số đếm. Vì vậy, việc đếm số người trong đám đông chuyển sang hướng mới là đếm số người dựa trên ước lượng mật độ. Bản chất của phương pháp này là hàm mật độ xác suất và số đếm được tính bằng cách lấy tích phân hàm mật độ này trên khoảng xác định. Phương pháp này có ưu điểm tránh được bài toán khó là phát hiện và định vị đối tượng trong ảnh và chú yếu dựa vào việc ước tính bản đồ mật độ (density map). Để hiểu đơn giản thì bản đồ mật độ là một mảng 2 chiều và tổng các giá trị trong mảng này chính là số đếm. Trong phạm vi đề tài này, học viên chỉ tập trung theo hướng sử dụng phương pháp dựa trên ước lượng mật độ. Các công trình nghiên cứu liên quan Bài toán đếm đối tượng ở đây là ước lượng số lượng đối tượng ở trong ảnh hay video. Tác giả Lempitsky [9] đã đề xuất một phương pháp xây dựng một hàm mật độ F (density function) từ ảnh I. Thì số đối tượng có trong ảnh sẽ được ước lượng bằng cách lấy tích phân trên toàn bộ ảnh. Gần đây, do sự thành công của mạng Nơ-ron tích chập (CNN) trong nhiều ứng dụng của ngành Thị giác máy tính. Nhiều công trình dựa trên CNN cho bài toán đếm người trong đám đông được phát triển. 14 Tác giả Wang [25] là một trong những người đầu tiên áp dụng CNN vào bài toán ước lượng số người trong đám đông với nền tảng là phương pháp dựa trên hồi quy. Tác giả chọn mạng AlexNet [8] làm cơ sở để xây dựng mô hình mạng của mình, tầng kết nối đầy đủ cuối cùng của mạng AlexNet được thay thế bằng 1 nơ-ron để ước lượng số đếm. Họ cũng mở rộng thêm các mẫu âm bằng cách thêm vào những mẫu không có người và đặt số người cho mẫu này là 0. Mục đích của việc làm này là để giảm sự sai lệch khi gặp các đối tượng khác như nhà cửa, cây cối, mây… Tác giả Zhang [26] cho rằng cách xây dựng bản đồ mật độ của Lempitsky [9] chỉ phù hợp với các đối tượng tròn như tế bào hay vi khuẩn. Cách làm này có thể không tối khi áp dụng cho đám đông do tầm nhìn của camera thường bị nghiêng. Để giải quyết vấn đề này, tác giả đề xuất áp dụng Gaussian kernel cho cả phần đầu và phần thân thể. Tác giả cũng chỉ ra rằng các cách tiếp cận trước hiệu năng sẽ giảm khi áp dụng cho các ảnh mới khác với tập dữ liệu huấn luyện. Để giái quyết vấn đề này, tác giả đào tạo mô hình mạng của họ bằng cách huấn luyện luân phiên 2 tác vụ: đếm và ước lượng mật độ. Khi gặp các ảnh mới (không nằm trong tập huấn luyện và tập kiểm thử) thì sẽ tìm kiếm các mẫu trong tập huấn luyện có phối cảnh (perspective) tương tự với ảnh này. Điều này làm cho mô hình mạng có thể thích nghi với các cảnh mới mà không cần thêm thông tin vị trí các đầu người có trong ảnh. Tuy nhiên, tác giả Boominathan [2] lại cho rằng việc làm này khá tốn thời gian so với hiệu quả mà nó mang lại. Tác giả Zhang [27] đã đề xuất một kiến trúc đa cột (multi-column) để xử lý các ảnh đầu vào. Phương pháp được sử dụng tạo ra một mạng gồm 3 cột, mỗi cột sẽ các bộ lọc với kích thước khác nhau (lớn, vừa, nhỏ) (Hình 2.6). Tuy nhiên khác với cách tiếp cận trước là cố định giá trị  trong nhân Gaussian (Gaussian kernel), tác giả chỉ ra mối liên quan giữa kích thước đầu người và khoảng cách với các đầu người bên cạnh. Tức là khoảng cách giữa các đầu người được đánh dấu càng gần thì có thể đầu người đó nhỏ. Vì thế, họ dùng 2 phương pháp để chọn tham số σ là kernel cố định (fixed kernel) và 15 kernel thích ứng hình học (geometry-adapter kernel) để xây dựng bản đồ mật độ xác thực. Dựa vào thực nghiệm, khi bộ dữ liệu ảnh có mật độ vừa thì tác giả dùng σ cố định còn khi bộ dữ liệu có mật độ đông thì dùng σ thích ứng. Tác giả cũng tạo ra một bộ dữ liệu mới gọi là ShanghaiTech gồm 1198 hình ảnh và 330000 đầu người đã được đánh dấu. Tác giả Sam [19] đã đề xuất một cách cải tiến phương pháp của tác giả Zhang [27] bằng cách xây dựng một kiến trúc Switch dựa trên mô hình CNN để lựa chọn cột CNN nào phù hợp với ảnh đầu vào thay vì dùng cả 3 cột CNN như phương pháp của Zhang (Hình 2.8). Kiến trúc Switch dựa trên mô hình VGG-16 nhưng loại bỏ 3 tầng kết nối đầy đủ và thay bằng tầng GAP, 1 tầng kết nối đầy đủ với ít nút hơn và 1 tầng kết nối đầy đủ với 3 nút đầu ra để phân loại thành 3 lớp tương ứng với các kiến trúc R1, R2, R3. Tác giả Kasmani [7] tiếp cận theo hướng phát hiện khuôn mặt để ước lượng kích thước đầu trong ảnh, sau đó sử dụng Logic mờ cho kích thước đầu người có trong ảnh (Ví dụ một số luật mờ mà tác giả sử dụng: Đầu người lớn mà nằm ở phía dưới của ảnh có nghĩa là ảnh này có mật độ thưa, ngược lại nếu đầu người nhỏ mà nằm ở phía trên của ảnh có nghĩa là ảnh này có mật độ đông) để chọn ra các tham số như kích thước patch ảnh hay giá trị của tham số σ (dùng cho nhân Gaussian) thích hợp cho từng ảnh. Cách tiếp cận này cũng tương tự như cách tiếp cận của tác giả Sam [19] nhưng thay vì dùng nhiều cột CNN thì chỉ dùng 1 kiến trúc CCNN của tác giả Orono [14]. Thực chất các công trình trong giai đoạn huấn luyện là học các thông số tối ưu của mạng. Thường thì các công trình dựa trên hàm mất mát về số đếm hoặc hàm mất mát về bản đồ mật độ. Để xác định số người, nếu đầu ra của mạng có ước tính bản đồ mật độ, người ta sẽ lấy tổng các giá trị của bản đồ mật độ, nếu đầu ra của mạng chỉ là 1 nút số đếm thì số người chính là giá trị của nút này [25]. Hướng tiếp cận của đề tài 16 Giai đoạn huấn luyện (giai đoạn ngoại tuyến): Hướng tiếp cận của đề tài bao gồm các công đoạn: - Xây dựng bộ phân lớp để tiền phân loại ảnh có người hay không có người. Nếu không có người thì con số ước tính sẽ là 0. - Xây dựng bản đồ mật độ xác thực để làm dữ liệu cho việc huấn luyện mô hình. - Xây dựng mô hình ước tính bản đồ mật độ. Giai đoạn kiểm tra thực nghiệm (giai đoạn trực tuyến): Ảnh mới được đưa vào mô hình sẽ được xử lý như hình 3.7. Đầu ra của mạng sẽ là bản đồ mật độ và từ đó sẽ tính được số đếm của nó. 17
- Xem thêm -

Tài liệu liên quan