Đăng ký Đăng nhập
Trang chủ ứng dụng thuật toán nhận dạng khuôn mặt phục vụ công việc điểm danh lớp học ở tr...

Tài liệu ứng dụng thuật toán nhận dạng khuôn mặt phục vụ công việc điểm danh lớp học ở trường thpt đồng hới

.PDF
74
28
142

Mô tả:

TRANG TÓM TẮT LUẬN VĂN ỨNG DỤNG THUẬT TOÁN NHẬN DẠNG KHUÔN MẶT PHỤC VỤ CÔNG VIỆC ĐIỂM DANH LỚP HỌC Ở TRƯỜNG THPT ĐỒNG HỚI Học viên: Bùi Hữu Đức Mã số: 8480101 - Khóa: K34.KMT.QB Chuyên ngành: Khoa học máy tính Trường Đại học Bách khoa – Đại học Đà Nẵng Tóm tắt: Hiện nay, có nhiều phương pháp tự động nhận dạng danh tính người được sử dụng như phân tích dấu vân tay, nhận dạng sinh trắc học thông qua nhận diện tròng mắt hay các nghiên cứu trong lĩnh vực thị giác máy tính như phân tích dáng đi, nhận dạng khuôn mặt. Trong luận văn này trình bày cở sở lý thuyết về xữ lý ảnh và một số kỹ thuật nhận dạng khuôn mặt và đề xuất giải pháp thực nghiệm nhận dạng khuôn mặt để phục vụ cho bài toán điểm danh lớp học. Quá trình xử lý bao gồm các bước: Bước 1: Xây dựng dữ liệu. Bước 2: Trích xuất đặc trưng. Bước 3: Huấn luyện dữ liệu đặc trưng và thu được mô hình dữ liệu đã phân lớp. Bước 4: Tiến hành nhận dạng để đưa ra kết luận. Từ khóa – Nhận dạng danh tính, thị giác máy tính, nhận dạng khuôn mặt, trích xuất đặc trưng. APPLICATION OF FACIAL RECOGNITION ALGORITHM FOR CLASS ATTENDANCE AT DONG HOI HIGH SCHOOL Student: Bui Huu Duc Major: Computer Science Code: 8480101 Course: K34.KMT.QB Polytechnic University – Da Nang University Abstract: At present, there are many methods of automatic identification of users such as fingerprint analysis, biometric identification through iris recognition or studies in the field of computer vision such as gait analysis, facial recognition. This thesis presents theoretical background on image processing and some facial recognition techniques and suggests a facial recognition solution to apply to class attendance problems. The process consists of the following steps: Step 1: Building the data. Step 2: Extracting the feature. Step 3: Training the featured data and acquire the layered data model. Step 4: Conducting the identification to make the conclusion. Keywords - Identity recognition, computer vision, facial recognition, feature extraction. MỤC LỤC TRANG BÌA LỜI CAM ĐOAN MỤC LỤC TRANG TÓM TẮT LUẬN VĂN DANH MỤC CAC TỪ VIẾT TẮT DANH MỤC CÁC BẢNG DANH MỤC CÁC HÌNH MỞ ĐẦU ......................................................................................................................... 1 1. Lý do chọn đề tài .................................................................................................. 1 2. Mục đích và ý nghĩa của đề tài ............................................................................. 1 3. Các nghiên cứu liên quan đến đề tài ..................................................................... 2 4. Mục tiêu, nhiệm vụ nghiên cứu ............................................................................ 2 5. Phạm vi của đề tài ................................................................................................. 3 6. Phương pháp nghiên cứu ...................................................................................... 3 CHƯƠNG 1. TỔNG QUAN VỀ XỬ LÝ ẢNH .............................................................. 5 1.1. Cơ bản về xử lý ảnh .............................................................................................. 5 1.1.1. Tổng quan về xử lý ảnh .................................................................................. 5 1.1.2. Các thành phần trong hệ thống xử lý ảnh ...................................................... 5 1.1.3. Một số phép biến đổi ảnh ............................................................................... 6 1.2. Một số phương pháp tiền xử lý ảnh .................................................................... 10 1.2.1. Phép tích chập .............................................................................................. 10 1.2.2. Kỹ thuật lọc ảnh thông dụng ........................................................................ 11 1.2.3. Biến đổi hình thái học .................................................................................. 12 1.3. Phương pháp phát hiện biên ............................................................................... 14 1.3.1. Tổng quan về xử lý biên............................................................................... 14 1.3.2. Một số phương pháp phát hiện biên ............................................................. 15 1.4. Phương pháp phân vùng ảnh............................................................................... 17 1.4.1. Tổng quan về phân vùng ảnh ....................................................................... 17 1.4.2. Phân vùng dựa vào ngưỡng .......................................................................... 18 1.4.3. Phân vùng bằng kỹ thuật Otsu ..................................................................... 20 1.4.4. Phân vùng bằng kỹ thuật k-means ............................................................... 22 CHƯƠNG 2. MỘT SỐ KỸ THUẬT NHẬN DẠNG MẶT NGƯỜI ........................... 25 2.1. Trích xuất và biểu diễn đặc trưng ảnh ................................................................ 25 2.2. Đặc trưng Haar-like và ứng dụng trong phát hiện mặt người............................. 25 2.2.1. Mô tả đặc trưng Haar ................................................................................... 25 2.2.2. Trích xuất đặc trưng Haar ............................................................................ 26 2.3. Bộ mô tả đặc trưng HOG trong nhận dạng người .............................................. 27 2.3.1. Mô tả đặc trưng HOG .................................................................................. 27 2.3.2. Quá trình trích rút đặc trưng HOG ............................................................... 28 2.4. Kỹ thuật học máy trong phát hiện và nhận dạng khuôn mặt .............................. 33 2.4.1. Kỹ thuật Boosting trong phát hiện khuôn mặt ............................................. 33 2.4.2. Kỹ thuật SVM trong nhận dạng khuôn mặt ................................................. 35 2.5. Kỹ thuật trượt window trong nhận dạng ............................................................. 37 CHƯƠNG 3. ĐỀ XUẤT GIẢI PHÁP VÀ THỰC NGHIỆM ....................................... 40 3.1. Bài toán nhận dạng mặt người ............................................................................ 40 3.2. Đề xuất mô hình nhận dạng danh tính người qua khuôn mặt ............................. 40 3.3. Thực nghiệm trên một số cơ sở dữ liệu .............................................................. 41 3.3.1. Thực nghiệm trên dữ liệu Staffhome ........................................................... 41 3.3.2. Thực nghiệm trên dữ liệu AT&T_faces ....................................................... 44 3.3.3. Thực nghiệm trên dữ liệu tự tạo ................................................................... 45 3.4. Một số ví dụ minh họa thực nghiệm nhận dạng danh tính người ....................... 49 3.4.1. Nhận dạng trên tập dữ liệu AT&T ............................................................... 49 3.4.2. Nhận dạng trên tập dữ liệu Staffhome ......................................................... 51 3.4.3. Nhận dạng trên tập dữ liệu tự tạo ................................................................. 52 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN .................................................................... 55 TÀI LIỆU THAM KHẢO ............................................................................................. 56 Q ẾT Đ NH GIAO ĐỀ TÀI LUẬN VĂN THẠC SĨ (BẢN SAO) BẢN SAO KẾT LUẬN CỦA HỘI ĐỒNG, BẢN SAO NHẬN XÉT CỦA CÁC PHẢN BIỆN. DANH MỤC CÁC CHỮ VIẾT TẮT ANN Artificial Neural Network GPU Graphics Rrocessing Unit HOF Histograms of Optical Flow HOG Histograms of Oriented Gradients MLNN Multi Layer Neural Network NN Neural Network SVM Support Vetor Machines SIFT Scale invariant feature transform DANH MỤC CÁC BẢNG Bảng 3.1. Kết quả thực nghiệm trên dữ liệu Staffhome ................................................ 43 Bảng 3.2. Kết quả thực nghiệm trên dữ liệu AT&T ...................................................... 45 Bảng 3.3. Thứ tự và tên các học sinh được sử dụng trong thực nghiệm ....................... 46 Bảng 3.4. Số lượng các mẫu khuôn mặt dùng cho huấn luyện và đánh giá .................. 47 Bảng 3.5. Kết quả thực nghiệm trên dữ liệu AT&T ...................................................... 48 DANH MỤC CÁC HÌNH Hình 1.1. Sơ đồ tổng quát hệ thống xử lý ảnh ................................................................. 6 Hình 1.2. Biến đổi ảnh (a) sơ đồ tổng quát (b) biến đổi ảnh bằng Hough ...................... 7 Hình 1.3. ược đồ ảnh đa mức xám ................................................................................ 7 Hình 1.4. Điều chỉnh độ sáng của ảnh màu HSV ............................................................ 8 Hình 1. . Cân bằng lược đồ: (a) ảnh gốc, (b) ảnh sau cân bằng. .................................... 9 Hình 1.6. ọc ảnh bằng kỹ thuật tích chập .................................................................... 10 Hình 1. . ọc Gaussian ................................................................................................. 12 Hình 1. . Ví dụ các phần tử cấu trúc đơn giản ............................................................. 13 Hình 1. . àm mỏng vùng bằng phép toán co ảnh ....................................................... 13 Hình 1.1 . àm đậm vùng bằng phép toán giãn ảnh. .................................................... 14 Hình 1.11. Trích chọn cạnh bằng phương pháp Sobel .................................................. 15 Hình 1.12. Trích chọn cạnh bằng phương pháp Prewitt ................................................ 16 Hình 1.13. ết quả trích xuất cạnh dùng thuật toán Canny .......................................... 17 Hình 1.14. Kết quả phân ngưỡng với giá trị ngưỡng Th=80. ........................................ 19 Hình 1.1 . Xác định ngưỡng phân đoạn bằng lược đồ ảnh ........................................... 20 Hình 1.16. Phân đoạn ảnh bằng Otsu ............................................................................ 22 Hình 1.1 . Minh họa phân cụm bằng k-means.............................................................. 23 Hình 1.1 . Phân đoạn ảnh bằng k-means ...................................................................... 24 Hình 2.1. Các mẫu đặc trưng cơ bản của Haar. ............................................................. 26 Hình 2.2. Tính nhanh tổng giá trị pixel trong vùng chữ nhật bất kỳ . ........................... 27 Hình 2.3. Quá trình trích xuất đặc trưng HOG .............................................................. 28 Hình 2.4. Tính hướng và độ lớn gradient ...................................................................... 29 Hình 2. . Tính gradient ảnh ........................................................................................... 30 Hình 2.6. Chia hướng theo các bin của lược đồ hướng gradient ................................... 30 Hình 2. . Sơ đồ tổng quan về trích rút đặc trưng HOG. ............................................... 32 Hình 2. . Đặc trưng HOG được trích xuất từ khuôn mặt .............................................. 33 Hình 2. .Có vô số đường thẳng có thể phân chia tuyến tính, tuy nhiên với đường phân chia H , đã có một điểm bị phân loại nhầm. ........................................... 35 Hình 2.1 . hông thể phân chia các lớp dữ liệu một cách tuyến tính.Ánh xạ dữ liệu trong không gian ban đầu vào một không gian mới nhiều chiều hơn. .... 35 Hình 2.11. Việc phân tách dữ liệu trở nên dễ dàng hơn trong không gian mới. ........... 36 Hình 2.12.Các siêu phẳng phân chia tập mẫu thành hai lớp và support vector trong SVM. ........................................................................................................ 36 Hình 2.13. Trượt window được sử dụng trên ảnh nhiều mức tỷ lệ ............................... 37 Hình 2.14.Nhận dạng bằng phương pháp trượt window trên nhiều mức tỷ lệ ............. 38 Hình 2.1 .Gom cụm các nhận dạng cùng một đối tượng .............................................. 39 Hình 3.1. Mô hình tổng quát hệ thống nhận dạng danh tính người .............................. 41 Hình 3.2. Một số mẫu ảnh của bộ dữ liệu staffhome .................................................... 42 Hình 3.3. Ma trận chéo tỷ lệ nhận dạng giữa người trong dữ liệu Staffhome.......... 43 Hình 3.4. Một số mẫu khuôn mặt của 4 người của dữ liệu ATT_faces ...................... 44 Hình 3. . Ma trận chéo tỷ lệ nhận dạng giữa 4 người trong dữ liệu AT&T. .............. 45 Hình 3.6. Một số mẫu ảnh của 30 học sinh bộ dữ liệu Student1 tự tạo ........................ 47 Hình 3. . Ma trận chéo tỷ lệ nhận dạng giữa 30 học sinh và 1 nhóm đối tượng khác của dữ liệu ảnh tự chụp. ........................................................................... 49 Hình 3. . Minh họa nhận dạng trên tập dữ liệu AT&T. ................................................ 50 Hình 3. . Minh họa nhận dạng trên tập dữ liệu Staffhome. .......................................... 52 Hình 3.1 . ết quả nhận dạng dùng mô hình huấn luyện trên dữ liệu tự tạo từ học sinh lớp 11A .................................................................................................... 54 1 MỞ ĐẦU 1. Lý do chọn đề tài Hiện nay, trong công tác quản lý tại các trường THPT, ngoài việc dành thời gian cho việc giảng dạy những giáo viên còn kiêm nhiệm nhiều công việc khác như chủ nhiệm lớp. Với khoảng thời gian đó, việc kiểm soát sự tham gia lớp học của các học sinh là một điều khó khăn. Một trong những yếu tố quyết định trong việc nâng cao chất lượng giáo dục là học sinh tham gia các lớp học thường xuyên. Theo phương pháp quản lý truyền thống, giáo viên sử dụng sổ điểm danh để theo dõi tính chuyên cần của học sinh trước mỗi tiết dạy. Việc này lãng phí một khoảng thời gian đáng kể. Hơn nữa, nó có thể trở nên phức tạp hơn nhiều nếu giáo viên phải quản lí với các lớp có quá nhiều học sinh. Tham gia lớp học một cách thường xuyên là một việc rất quan trọng và bắt buộc trong tất cả lớp học nói riêng và nhà trường nói chung đề kiểm tra tính chuyên cần của mỗi học sinh. Mỗi giáo viên đều có phương pháp riêng trong lĩnh vực này. Một số giáo viên đang sử dụng phương pháp thủ công bằng cách sử dụng sổ điểm danh hoặc sử dụng các phần mềm máy tính khác. Tuy nhiên, việc sử dụng công nghệ trong công việc này còn rất hạn chế và khá mới mẻ. Hiện nay, có một số phương pháp tự động có thể sử dụng được: Ví dụ phân tích dấu vân tay hay nhận dạng sinh trắc học thông qua nhận diện tròng mắt[18]. Tuy nhiên các phương pháp này gây lãng phí thời gian bởi vì học sinh phải xếp hàng để thực hiện thao tác trên thiết bị quét. hi nói đến trường học, hệ thống theo dõi giám sát là một sự trợ giúp tuyệt vời cho giáo viên và phụ huynh học sinh. Phụ huynh không bao giờ thiếu thông tin của con mình trong lớp nếu trường học đang sử dụng một hệ thống theo dõi chuyên môn. Với hệ thống quản lý và giám sát trực tiếp, thông tin có thể dễ dàng in ra hoặc một bản mềm và được lưu trữ trên hệ thống một cách chính xác và an toàn. Để giảm bớt áp lực công việc và thời gian cho giáo viên trong công tác quản lý học sinh, chúng tôi chọn đề tài “Ứng dụng thuật toán nhận dạng khuôn mặt phục vụ công việc điểm danh lớp học ở trường THPT Đồng Hới” 2. Mục đích và ý nghĩa của đề tài - Mục đích Nghiên cứu lý thuyết, xây dựng một chương trình thực nghiệm mô phỏng để nhận dạng khuôn mặt và kiểm tra được số học sinh tham gia lớp học. Điều này sẽ giúp nhà trường quản lý tính chuyên cần của học sinh, tiết kiệm được vật chất, thời gian của giáo viên. - Ý nghĩa khoa học và thực tiễn đề tài Về khoa học: Tìm hiểu, nghiên cứu các tài liệu đã được công bố về xử lý ảnh[14]; các thành phần trong hệ thống xử lý ảnh[15,16,17]; Một số phép biến đổi hình ảnh[17]; Một số kỹ thuật nhận dạng mặt người[6,7,8,9,14]… 2 Áp dụng kiến thức tìm hiểu được để thực hiện thiết kế chương trình nhận diện khuôn mặt và danh tính học sinh trong lớp học phục vụ cho bài toán điểm danh lớp học. Về thực tiễn: Mô phỏng thành công phương pháp nhận dạng hình ảnh để ứng dụng vào việc quản lý học sinh ở nhà trường. 3. Các nghiên cứu liên quan đến đề tài 3.1. Các nghiên cứu trong nước iên quan đến đề tài nhận dạng khuôn mặt, năm 2 1 có một nhóm sinh viên Trường ĐH Bách khoa Hà Nội, ĐH Ngoại thương và ĐH inh tế quốc dân đã nghiên cứu đề xuất nhận dạng khuôn mặt để giải quyết các vấn đề phát hiện khuôn mặt trong một bức ảnh, từ đó đưa ra các nhận định về độ tuổi, giới tính, cảm xúc; xác thực khuôn mặt để kiểm tra xem 2 khuôn mặt trong 2 bức ảnh có phải là một người hay không1. 3.2. Các nghiên cứu ngoài nước Hiện nay trên thế giới đã có một số hệ thống tự động xác định hoặc nhận dạng một người nào đó từ một bức hình ảnh kỹ thuật số hoặc một khung hình video từ một nguồn video. Một trong những cách để thực hiện điều này là so sánh các đặc điểm khuôn mặt chọn trước từ hình ảnh và một cơ sở dữ liệu về khuôn mặt. Các hệ thống này thường được sử dụng trong các hệ thống an ninh và có thể được so sánh với các dạng sinh trắc học khác như các hệ thống nhận dạng vân tay hay tròng mắt2. Trong những ứng dụng chuyên biệt, các hệ thống này đã đạt được độ chính xác cao và đã được ứng dụng thực tế như các hệ thống định danh bằng ảnh võng mạc, phân tích DNA, nhận dạng vân tay hoặc các loại thông tin quan trắc khác. Tuy nhiên, trong các ứng dụng giám sát công cộng còn nhiều hạn chế ví dụ việc phát hiện danh tính của một người trong đám đông nơi công cộng sân bay, bến tàu. Như vậy, có thể phân loại theo hướng ứng dụng khác nhau: (1) có sự bắt buộc người định danh chủ động trong thu nhận thông tin; (2) chủ thể cần nhận dạng được thu nhận thông tin theo hình thức bị động ví dụ hệ thống giám sát an ninh, phát hiện tội phạm trong đám đông. Đối với loại thứ nhất, thông tin võng mạc, vân tay,... chỉ được thu nhận nếu bắt buộc chủ thể phải sử dụng hệ thống để lấy thông tin. Tuy nhiên, có những bài toán giám sát yêu cầu hệ thống phải chủ động và tự động hoàn toàn trong thu nhận dữ liệu thì việc thông tin võng mạc, vân tay không thể thực hiện được. Do đó, các ứng dụng này, thông tin về khuôn mặt, hình dáng người là những dữ liệu cần thiết để định danh. Giống như con người, bộ não người có thể nhận dạng được tên của một người nếu họ đã từng biết hoặc hình dáng đi quen đã từng biết. Trong nghiên cứu này, chúng tôi kỳ vọng có thể nhận dạng định danh ra một số lượng lớn danh tính thông qua khuôn mặt bằng cách cung cấp một lượng dữ liệu ảnh đã được phân loại theo định danh cho máy nhận dạng để huấn luyện. 4. Mục tiêu, nhiệm vụ nghiên cứu 1 http://vietnamnet.vn/vn/giao-duc/guong-mat-tre/he-thong-nhan-dang-khuon-mat-bkface-418248.html http://www.animetrics.com/technology/frapplications.html http://www.hrsid.com/company/technology/face-recognition 2 3 4.1. Mục tiêu nghiên cứu Trong đề tài này, tôi sẽ trình bày các bước cơ bản để phân tích nhận dạng hình ảnh mà cụ thể ở đây là nhận dạng khuôn mặt trên cơ sở lý thuyết. Sau đó, đi sau nghiên cứu để có thể nhận dạng và điểm danh một lớp học thông qua video, ảnh. Kết quả và hướng phát triển của đề tài là một chương trình đơn giản kiểm tra tính chuyên cần của học sinh tham gia lớp học 4.2. Nhiệm vụ nghiên cứu Để hoàn thành những mục tiêu đã đặt ra, nhiệm vụ của đề tài là: + Về lý thuyết - Tìm hiểu lý thuyết về xử lý ảnh, kỹ thuật nhận dạng hình ảnh, nhận dạng khuôn mặt, các thuật toán cơ bản về nhận dạng khuôn mặt và định danh. - Nghiên cứu xử lý hình ảnh và các thư viện hỗ trợ để có thể thực hiện demo việc nhận dạng khuôn mặt và định danh. + Về thực tiễn - Tạo cở sở dữ liệu ảnh nguồn từ thực tế bằng cách chụp hình các học sinh ở trường THPT Đồng Hới để làm bộ dữ liệu cho việc nhận dạng khuôn mặt; - Ứng dụng các thư viện mã nguồn viết chương trình đơn giản với đầu vào là ảnh chụp hoặc video học sinh tham gia lớp học, kết quả là nhận dạng danh tính học sinh trong ngày học đó. 5. Phạm vi của đề tài Nghiên cứu về các phương pháp đã được đề xuất để nhận dạng hình ảnh, đặc biệt là nhận dạng khuôn mặt trên thế giới theo những bài báo và nghiên cứu khoa học. Nghiên cứu, khảo sát tình hình áp dụng công nghệ của trường THPT trong công tác quản lý học sinh. 6. Phương pháp nghiên cứu Phương pháp nghiên cứu lý thuyết Nghiên cứu cơ sở lý thuyết về trí tuệ nhân tạo và các kỹ thuật nhận dạng và xử lý ảnh Đọc, nghiên cứu, phân tích, tổng hợp từ những tài liệu, bài báo và những nghiên cứu khoa học liên quan đã được công bố ở Việt Nam và trên thế giới. Phân tích đánh giá hệ thống nhận dạng, phát hiện mặt người, nhận dạng định danh tính, sử dụng kỹ thuật trích xuất, biểu diễn đặc trưng và các mô hình nhận dạng để nhận dạng phát hiện ra danh tính người. Phương pháp nghiên cứu thực nghiệm Cài đặt, thực nghiệm giải pháp kỹ thuật biểu diễn đặc trưng, máy phân trí tuệ nhân tạo trong phân tích, biểu diễn dữ liệu và phân loại nhận dạng khuôn mặt. 4 Đánh giá tính hiệu quả của giải pháp ứng dụng kỹ thuật trí tuệ nhân tạo với các cách tiếp cận khác về nhận dạng mặt người, nhận xét đánh giá về giải pháp tìm hiểu và đề xuất ứng dụng. Cài đặt thử nghiệm và đánh giá các cải tiến thuật toán nhận dạng mặt người bằng kỹ thuật HOG, SVM,…. 5 CHƯƠNG 1. TỔNG QUAN VỀ XỬ LÝ ẢNH 1.1. Cơ bản về xử lý ảnh 1.1.1. Tổng quan về xử lý ảnh Các phương pháp xử lý ảnh được bắt đầu từ các ứng dụng nhằm nâng cao chất lượng ảnh như nâng cao độ sáng hay độ phân giải của hình ảnh,... bằng các phương pháp phân tích được nghiên cứu trong giai đoạn thiết bị phần cứng bị hạn chế. Càng về sau, nhờ sự phát triển của máy tính đã tạo điều kiện hơn nữa cho việc thực hiện các thuật toán xử lý ảnh. Ứng dụng xử lý ảnh ngày càng được mở rộng sang nhiều lĩnh vực như điều khiển tự động, kỹ thuật y sinh, giao thông thông minh, giám sát an ninh,...Xử lý hình ảnh được thực hiện trên hầu hết các thiết bị có màn hình hiển thị như camera kỹ thuật số, điện thoại thông minh, ti vi thông minh, máy tính xách tay[14]. Xử lý ảnh là một ngành khoa học mới so với nhiều ngành khoa học khác nhưng tốc độ phát triển của nó rất nhanh. Nó được đưa vào giảng dạy ở bậc đại học trong nước ta thời gian vài chục năm gần đây. à môn học liên quan đến nhiều lĩnh vực và cần nhiều kiến thức cơ sở khác. Đầu tiên phải kể đến xử lý tín hiệu số là một môn học hết sức cơ bản cho xử lý tín hiệu chung, các khái niệm về tích chập, các biến đổi Fourier, biến đổi aplace, các bộ lọc hữu hạn… Thứ hai, các công cụ toán như Đại số tuyến tính, xác suất, thống kê. Một số kiến thức cần thiết như Trí tuệ nhân tạo, Mạng nơ ron nhân tạo cũng được đề cập trong quá trình phân tích và nhận dạng ảnh. Nhiều phương pháp xử lý ảnh được tiến hành từ các ứng dụng chính: nâng cao chất lượng và phân tích ảnh. Ứng dụng đầu tiên được biết đến là nâng cao chất lượng ảnh báo được truyền qua cáp từ Luân Đôn đến New York từ những năm 1 2 . Vấn đề nâng cao chất lượng ảnh có liên quan tới phân bố mức sáng và độ phân giải của ảnh. Việc nâng cao chất lượng ảnh được phát triển vào khoảng những năm 1 . Điều này có thể giải thích được vì sau thế chiến thứ hai, máy tính phát triển nhanh tạo điều kiện cho quá trình xử lý ảnh số thuận lợi. Năm 1 64, máy tính đã có khả năng xử lý và nâng cao chất lượng ảnh từ mặt trăng và vệ tinh Ranger 7 của Mỹ bao gồm: làm nổi đường biên, lưu ảnh. Từ năm 1 64 đến nay, các phương tiện xử lý, nâng cao chất lượng, nhận dạng ảnh phát triển không ngừng[14]. Các phương pháp tri thức nhân tạo như mạng nơ ron nhân tạo, các thuật toán xử lý hiện đại và cải tiến, các công cụ nén ảnh ngày càng được áp dụng rộng rãi và thu nhiều kết quả khả quan. Để dễ tưởng tượng, xét các bước cần thiết trong xử lý ảnh, đầu tiên, ảnh tự nhiên từ thế giới ngoài được thu nhận qua các thiết bị thu (như Camera, máy chụp ảnh). 1.1.2. Các thành phần trong hệ thống xử lý ảnh Một hệ thống xử lý ảnh thường bao gồm các thành phần chính như thiết bị phần cứng (máy ảnh) để chụp hình và lưu trữ dữ liệu, các công cụ phần mềm phục vụ xử lý và giải quyết yêu cầu của chức năng hệ thống đề ra[15]. Trong lĩnh vực khoa học máy tính, hệ thống xử lý ảnh là đối tượng nghiên cứu liên quan đến kỹ thuật thị giác máy (computer vision), là quá trình biến đổi từ một ảnh ban đầu được thu nhận từ thiết bị sang một không gian mới sao cho làm nổi bật đặc tính dữ liệu, thuận lợi cho quá trình xử lý thông tin và nâng cao độ chính xác[16]. Một hệ thống xử lý ảnh thường gồm một số thành phần chính sau[17]: 6 Thu nhận hình ảnh Tiền xử lý Trích chọn đặc trưng Phân loại, nhận dạng mẫu Ra quyết định Biểu diễn tri thức nh 1.1. Sơ đồ tổng quát hệ thống xử lý ảnh[17] Thu nhận ảnh là việc hình ảnh về thế giới thực được thu nhận và chuyển qua tín hiệu ảnh rời rạc thông qua máy ảnh kỹ thuật số hoặc các thiết bị thu hình ảnh khác. Tiền xử lý là bước xử lý trên ảnh đầu vào nhằm khử nhiễu, làm nổi bật một số tính chất của ảnh nhằm nâng cao chất lượng các bước xử lý sau. Trích chọn đặc trưng là quá trình biến đổi dữ liệu ảnh đầu vào thành tập các đặc trưng. Các đặc trưng thường có đặc tính phân biệt cao của mẫu đầu vào giúp cho việc phân biệt mẫu dữ liệu ảnh dễ dàng hơn nhằm nâng cao chất lượng phân loại mẫu so với xử lý dữ liệu thô trên giá trị pixel ảnh. Việc trích chọn đặc trưng cũng có thể làm giảm kích thước thể hiện thông tin trong ảnh trong khi dữ liệu về đặc trưng ảnh có tính phân biệt cao. Phân loại, nhận dạng mẫu là quá trình xử lý dữ liệu bằng các kỹ thuật, phương pháp phân tích đặc trưng để phân loại mẫu về các nhóm có một số tính chất chung. Các phương pháp phân loại, nhận dạng mẫu thường liên quan đến kỹ thuật học máy, bao gồm cả học có giám sát và học không có giám sát. Biểu diễn tri thức là bước thể hiện mức cao của biểu diễn dữ liệu, các mẫu dữ liệu sau khi phân loại, nhận dạng được biểu diễn dưới dạng tri thức giúp hệ thống có khả năng “hiểu biết” ngữ nghĩa của nó theo từng kiểu ứng dụng khác nhau trong hệ thống trí tuệ nhân tạo và hệ thống thông minh. Ra quyết định là bước cuối cùng của một hệ thống trong lĩnh vực hệ thống thông minh. Các mẫu được biểu diễn dưới dạng tri thức và được suy luận ngữ nghĩa để đưa ra các quyết định thực hiện một nhiệm vụ nào đó. Ví dụ trong hệ thống robot di chuyển tự động, khi phát hiện chướng ngại vật, robot sẽ tự động ra quyết định tìm kiếm đường đi mới và di chuyển theo đường đi khả thi. 1.1.3. Một số phép biến đổi ảnh Biến đổi ảnh là việc áp dụng phương pháp nào đó để biến đổi ảnh đầu vào I và thu được kết quả đầu ra I' theo mong muốn[17]. I ảnh đầu vào f(I) biến đổi ảnh (a) I' ảnh đầu ra 7 Hough transform (b) nh 1.2. Biến đổi ảnh (a) sơ đồ tổng quát (b) biến đổi ảnh bằng Hough[17] Trong lĩnh vực xử lý ảnh, đối tượng dữ liệu ảnh có số phần tử điểm ảnh lớn, cần sử dụng tính toán nhiều (độ phức tạp tính toán cao) dẫn đến yêu cầu dung lượng bộ nhớ lớn cho lưu trữ ngoài và lưu trữ tạm thời trong quá trình xử lý đồng thời thời gian tính toán lâu. Việc sử dụng các phương pháp xử lý dữ liệu truyền thống cho đối tượng dữ liệu ảnh khó khả thi với độ chính xác cao và thời gian tính toán lớn. Do vậy, người ta thường sử dụng các phép toán tương đương hoặc biến đổi từ miền dữ liệu này sang miền dữ liệu khác nhằm giúp xử lý, tính toán dễ dàng hơn. Sau khi ảnh được biến đổi và thực hiện xử lý tính toán xong, dữ liệu đầu ra sẽ được biến đổi ngược để đưa về miền xác định ban đầu. 1.1.3.1. Lược đồ ảnh ược đồ ảnh (histogram) là một đồ thị biểu diễn tần số xuất hiện của cường độ sáng điểm ảnh theo các mức. Nói cách khác lược đồ Histogram của một hình ảnh biểu diễn lược đồ về sự phân bố các mức cường độ xám của một bức ảnh. Ví dụ: Cho ảnh đa mức xám đầu vào có kích thước là 64 ×4 pixels. Như vậy, số lượng điểm ảnh 640×480 bằng 3 .2 điểm ảnh. Với ảnh đa mức xám 8bit thì các điểm ảnh có giá trị nằm trong khoảng từ đến 2 . ược đồ ảnh là kết quả của việc thực hiện thống kê có bao nhiêu điểm ảnh có giá trị 0 từ 3 .2 điểm ảnh đã cho, tương tự thống kê số lượng điểm ảnh có giá trị bằng 1, thực hiện lặp lại cho các giá trị cường độ sáng bằng 2,…2 . Như vậy, tổng các điểm ảnh phân phối theo các cường độ sáng từ đến 255 này bằng 3 .2 . ược đồ có thể tính theo từng giá trị hoặc có thể tính trong các khoảng giá trị[17]. nh 1.3. Lược đồ ảnh đa mức xám[17] 8 1.1.3.2. Điều chỉnh mức sáng Mức sáng của ảnh là thuộc tính quan trọng, được dùng để biểu diễn giá trị độ sáng của điểm ảnh. Mức sáng liên quan đến mức độ sáng tối của ảnh. Điểm ảnh có mức sáng càng thấp (càng tối) thì giá trị điểm ảnh đó càng nhỏ (tối nhất là ) và ngược lại ảnh càng sáng thì giá trị điểm ảnh càng lớn. Điều chỉnh mức sáng (brightness adjustment) là một kỹ thuật khá cơ bản và đơn giản trong lĩnh vực xử lý ảnh. Ví dụ thay đổi mức sáng ảnh tại mỗi pixel theo công thức I'(x,y)= I(x,y)+b, với b là hệ số điều chỉnh mức sáng, nếu b>0 thì thực hiện tăng mức sáng của điểm ảnh (làm cho ảnh sáng hơn), ngược lại b<0 thì thực hiện giảm độ sáng của điểm ảnh (làm cho ảnh trở nên tối hơn). Đối với ảnh màu trong hệ không gian màu RGB, việc thay đổi mức sáng có thể thực hiện thay đổi trên từng kênh màu R-G-B. Đối với hệ không gian màu HSV thì V là thành phần biểu diễn mức sáng, việc thay đổi mức sáng tương ứng với thay đổi thành phần V tương ứng[17]. (a) (b) nh 1.4. Điều chỉnh độ sáng của ảnh màu HSV[17] 1.1.3.3. Điều chỉnh độ tương phản Thuộc tính về mức sáng tạo ra ảnh sáng hoặc tối, trong khi đó độ tương phản (contrast adjustment) của ảnh tạo ra độ “dễ nhìn” (tương phản giữa các đối tượng) của mỗi ảnh. Độ tương phản được hiểu là mức độ chênh lệch về độ sáng giữa các đối tượng lân cận nhau, hoặc với các vùng ảnh nền trong ảnh. Nếu mức độ chênh lệch về độ sáng của đối tượng với vùng nền càng thấp thì ta nói ảnh đó có độ tương phản thấp và ngược lại độ chênh lệch càng cao có nghĩa là độ tương phản ảnh càng cao. Một ảnh có độ tương phản thấp thì khi quan sát thấy ảnh ít có sự sắc nét giữa các thành phần sáng-tối (đen- trắng) với nhau. Ví dụ hình minh họa các ảnh có độ tương phản thấp với các giá trị cường độ sáng phân bố tập trung ở khoảng giữa của dải cường độ sáng [0, 255]. Khi ảnh được điều chỉnh độ tương phản cao hơn với các giá trị cường độ sáng phân phối tương đối đều trong khoảng [0, 255], thì ảnh sáng rõ nét hơn với các vùng sáng tối[17]. 9 1.1.3.4. Cân bằng lược đồ ảnh Kỹ thuật cân bằng lược đồ ảnh (Histogram equalization) thường được sử dụng để tăng cường độ tương phản ảnh. Ví dụ ảnh có lược đồ đa mức xám có giá trị điểm ảnh không phân bố đều trong khoảng [0-255] mà chỉ tập trung trong một khoảng ngắn nào đó thì nhiều khả năng ảnh có độ tương phản thấp. Mục tiêu của cân bằng lược đồ ảnh là giúp biến đổi một ảnh có mức độ tương phản thấp thành ảnh có mức độ tương phản cao hơn bằng cách giãn đều giá trị cường độ sáng của các điểm ảnh phân bố trên vùng giá trị rộng hơn mà vẫn giữ được nội dung chính của bức ảnh. Phương pháp cân bằng lược đồ ảnh có ưu điểm là đơn giản, tính toán dễ dàng, đồng thời cho phép phục hồi lại trạng thái ảnh ban đầu khi cần thiết. Tuy nhiên, hạn chế quan trọng của nó là dễ dàng làm tăng cường nhiễu trong ảnh, đồng thời làm giảm các chi tiết quan trọng của hình ảnh[17]. (a) (b) nh 1.5. Cân bằng lược đồ: (a) ảnh gốc, (b) ảnh sau cân bằng[17]. + Phương pháp cân bằng toàn cục là công việc điều chỉnh, làm cân bằng lại sự phân bố các giá trị độ sáng điểm ảnh. Kỹ thuật cân bằng toàn cục được sử dụng trong việc xử lý ảnh từ vệ tinh, chụp X-quang, ảnh đo nhiệt bức xạ,… Thuật toán 1. Duyệt toàn bộ ảnh, tính xem ứng với mỗi bước sáng k có bao nhiêu điểm ảnh và lưu vào mảng hist[k] (k = 0,…, 255) 2. Duyệt mảng hist[k] và tạo mảng mới SumHist[k] lưu trữ tổng số điểm ảnh có giá trị mức sáng từ 0 đến k. 3. Duyệt toàn bộ ảnh, thay thế mức sáng k của các điểm ảnh tương ứng bằng mức sáng mới m với m = (255/w*h) * SumHist [k]. Với w và h là chiều dài và chiều rộng của ảnh đầu vào. + Phương pháp cân bằng cục bộ là quan tâm đến từng phần của ảnh thay vì thực hiện cân bằng trên toàn bộ bức ảnh. Cách tiếp cận cân bằng cục bộ giúp giải quyết vấn đề trong ảnh có các vùng quá tối hoặc quá sáng được cân bằng tốt hơn. Một trong những giới hạn chính của phương pháp cân bằng cục bộ là phải thực hiện lặp đi lặp lại 10 việc tính toán trên các phân vùng nhỏ nên dẫn đến thời gian tính toán rất lớn, không phù hợp xử lý thời gian thực. Người ta thường tích hợp xử lý trên thiết bị chuyên dụng như mạch tích hợp dùng cấu trúc mảng phần tử logic lập trình được (Fieldprogrammable gate array - FPGA). 1.2. Một số phương pháp tiền xử lý ảnh 1.2.1. Phép tích chập Tích chập (Convolution) là kỹ thuật cơ bản và quan trọng, có nhiều ứng dụng trong xử lý ảnh. Tích chập được sử dụng nhiều trong các phép toán trên ảnh như đạo hàm ảnh, làm trơn ảnh, trích xuất cạnh và gần đây tích chập còn được các mạng neural học sâu tích chập. Trong toán học, tích chập là phép toán tuyến tính. Phép tích chập thường được ký hiệu phép nhân tròn là . Tích chập thực hiện việc tính toán dựa vào hai hàm đã có f và k, với f(x, y) được gọi là hàm ảnh và k(x, y) được gọi là nhân lọc (kernel) hay mặt nạ (mask) có kích thước m×n (kích thước này thường nhỏ hơn nhiều kích thước ảnh). Phép toán tích chập được thực hiện theo công thức[17]. m /2 k ( x, y) n /2 f ( x, y) k (u, v) f ( x u, y v) u m /2 v 1.1 n /2 Ma trận mặt nạ k trong tích chập ảnh được dịch chuyển theo từng điểm ảnh và áp lên ảnh để thực hiện tính tích chập cho từng vị trí trên ảnh mới. Vị trí điểm gốc của mặt nạ được lấy làm chuẩn khi tích chập được gọi là điểm neo (anchor point) của mặt nạ tích chập. Điểm neo sẽ xác định vị trí khớp giữa mặt nạ tích chập với vị trí trên ảnh đầu vào để tích chập. Thông thường điểm neo được chọn là tâm của mặt nạ lọc. Giá trị mỗi phần tử trên mặt nạ được xem như hệ số tổ hợp với lần lượt giá trị độ xám của từng điểm ảnh trong vùng tương ứng với mặt nạ. Phép tích chập được hình dung là việc thực hiện dịch chuyển mặt nạ lần lượt qua tất cả các vị trí trên ảnh, bắt đầu từ góc trên-trái đến dưới-phải của ảnh. Quá trình dịch chuyển điểm neo được đặt tương ứng tại điểm ảnh đang xét và tiến hành tính tích chập. Ở mỗi lần dịch chuyển, thực hiện tính toán kết quả tích chập mới cho điểm ảnh đang xét bằng công thức tích chập như trên. Ví dụ sử dụng tích chập để thực hiện lọc nhiều theo phương pháp lọc trung bình, với kích thước mặt nạ 5×5. a) Ảnh grayscale b) Ảnh được làm mờ bằng tích chập nh 1.6. Lọc ảnh bằng kỹ thuật tích chập[17] 11 1.2.2. Kỹ thuật lọc ảnh thông dụng 1.2.2.1. Lọc trung bình Lọc trung bình là kỹ thuật lọc tuyến tính. Lọc trung bình hoạt động như một bộ lọc thông thấp. Thuật toán lọc trung bình được mô tả tóm tắt như sau: Sử dụng một cửa sổ lọc (filter kernel) có kích thước n×n, thực hiện tính toán tích chập với ảnh đầu vào để thu được ảnh lọc. Tại mỗi vị trí điểm ảnh, lấy giá trị các điểm ảnh (từ ảnh đầu vào) trong vùng n×n tại vị trí của cửa sổ lọc dịch chuyển hiện tại, tiến hành tích chập với giá trị tương ứng của bộ lọc. Hay nói cách khác, giá trị các điểm ảnh của ảnh mới sau khi lọc là giá trị trung bình của tất cả các điểm ảnh trong vùng lân cận n×n của nó trong cửa sổ lọc với kích thước n×n. Ví dụ sử dụng cửa ma trận lọc kích thước 3×3, đọc ảnh được lưu trữ trong máy tính vào rồi thực hiện lọc trung bình, hiển thị ảnh trước khi lọc và sau khi lọc[17]. k 1 1 1 1 1 1 1 9 1 1 1 1.2 1.2.2.2. Lọc Sobel Phương pháp lọc Sobel (Sobel filter) được dùng khá phổ biến để phát hiện cạnh các đối tượng trong ảnh. Khác với lọc trung bình, phương pháp lọc Sobel sử dụng mặt nạ với giá trị của các phần tử được phân phối theo quy tắc do Irwin Sobel đề xuất năm 1968 [1]. Hai mặt nạ lọc Sobel kx và ky theo hai hướng x và y tương ứng được xác định như sau: kx 1 0 1 2 0 2 và k y 1 0 1 1 0 1 2 0 2 1 0 1 1.3 Ngoài ra, kỹ thuật lọc Sobel còn có thể được sử dụng để tính xấp xỉ đạo hàm rời rạc tương ứng trong các kỹ thuật xử lý gradient ảnh. 1.2.2.3. Lọc trung vị Lọc trung vị (median filter) là kĩ thuật lọc phi tuyến được dùng để khử nhiễu khá hiệu quả đối với các loại nhiễu đốm (speckle noise) và nhiễu muối tiêu (salt-pepper noise). Thuật toán lọc trung vị được tóm tắt như sau: Sử dụng một cửa sổ lọc n×n quét qua lần lượt từng điểm ảnh của ảnh đầu vào. Giá trị mỗi điểm ảnh mới được xác định bằng cách lấy giá trị phần tử trung vị từ tập điểm ảnh lân cận tương ứng trong vùng n×n của ảnh gốc. Để lấy giá trị trung vị, các giá trị trong vùng n×n được sắp xếp theo thứ tự (tăng dần/ giảm dần). Lấy điểm ảnh nằm chính giữa (phần tử trung vị median) từ dãy giá trị đã sắp xếp ở trên gán cho giá trị điểm ảnh đang xét của ảnh đầu ra sau khi lọc. 1.2.2.4. Lọc Gaussian Phương pháp lọc Gaussian (Gaussian filter) là kỹ thuật làm trơn ảnh được sử dụng phổ biến trong tiền xử lý ảnh. Phương pháp này thực hiện tích chập ảnh ban đầu với một cửa sổ lọc kích thước n×n, giá trị các phần tử trong cửa sổ lọc được xác định theo phân bố Gaus (phân bố chuẩn Gaussian). 12 nh 1.7. Lọc Gaussian[17] 1.2.3. Biến đổi hình thái học 1.2.3.1. Tổng quan về hình thái học Ảnh nhị phân có thể chứa thông tin không đầy đủ, đặc biệt các vùng ảnh nhị phân là kết quả của những bộ lọc theo ngưỡng đơn giản, kết quả có thể bị méo hoặc nhiễu. Xử lý hình thái học đối với ảnh nhằm mục đích khử nhiễu và khôi phục những khuyết thiếu trong quá trình lọc phân đoạn ảnh nhằm làm cho kết quả thu được có chất lượng tốt hơn bằng cách thực hiện các phép biến đổi về hình thức và cấu trúc hình ảnh. Như vậy, biến đổi hình thái học trong xử lý ảnh là một tập hợp các phương pháp phi tuyến tính liên quan đến hình dáng và sắc thái của đối tượng[2]. Các biến đổi hình thái chỉ thực hiện trên giá trị điểm ảnh nhị phân, tuy nhiên nó có thể mở rộng để áp dụng cho ảnh đa mức xám. Các kỹ thuật hình thái học trong xử lý ảnh dùng các mẫu hình dáng nhỏ được gọi là phần tử cấu trúc. Các phép toán (có thể gọi là toán tử) hình thái thường được xây dựng từ hai phép toán cơ bản là phép toán co (Erosion) và phép giãn (Dilation). Đối với ảnh nhị phân, phần tử cấu trúc là một mẫu có kích thước nhỏ, giá trị phần tử gồm 0 và 1. Hay nói cách khác, phần tử cấu trúc là một ảnh nhị phân nhỏ, có thể là một ma trận gồm các pixel mà mỗi phần tử của nó có giá trị bằng 0 hoặc 1. Trong đó, các giá trị phần tử bằng 0 được bỏ qua trong tính toán và chỉ thực hiện trên các phần tử có giá trị 1. Phần tử cấu trúc ảnh nhị phân được thể hiện như sau: S(i,j) [0, 1] 1.4 Một toán tử hình thái trên ảnh nhị phân tạo ra một ảnh nhị phân mới với pixel có giá trị khác 0 nếu và chỉ nếu việc kiểm tra thành công tại vị trí đang xét trên ảnh đầu vào. Một số hình dạng của phần tử cấu trúc thường được sử dụng trên ảnh nhị phân gồm hình dạng đường theo chiều ngang và dọc, hình vuông, hình ellipse,.... Các chiều của ma trận xác định kích thước của phần tử cấu trúc và đồng thời cũng xác định kích thước vùng lân cận trong quá trình xử lý hình thái học. Mẫu bố trí các số 1 và các số 0 xác định hình dạng của phần tử cấu trúc. Điểm gốc của phần tử cấu trúc thường được xác định tại một trong các phần tử của ma trận phần tử cấu trúc, mặc dù tổng quát về mặt lý thuyết, nó có thể nằm ngoài phần tử cấu trúc. 13 nh 1.8. Ví dụ các phần tử cấu trúc đơn giản [2] Đối với ảnh đa mức xám, phần tử cấu trúc là cấu trúc không phẳng. Phần tử cấu trúc sử dụng các giá trị 0 và 1 để xác định phạm vi cấu trúc trong mặt phẳng x, mặt phẳng y và thêm giá trị độ cao để xác định chiều thứ ba. Như vậy, cấu trúc phần tử không phẳng gồm hai phần: + Phần thứ nhất: Một mảng hai chiều gồm các p h ầ n t ử c ó giá trị 0 và 1. Trong đó giá trị bằng 1 xác định lân cận có hiệu lực của phần tử cấu trúc. + Phần thứ hai: Một mảng hai chiều có kích thước bằng kích thước mảng hai chiều ở phần thứ nhất nhưng chứa các giá trị số thực thể hiện độ cao của phần tử cấu trúc. 1.2.3.2. Các phép co – giãn ảnh + Phép co ảnh erosion: Phép toán phát biểu trong trường hợp tổng quát với E là không gian Euclid và A là ảnh nhị phân thuộc E, toán tử Erosion trên ảnh nhị phân A và phần tử cấu trúc B ký hiệu là ! , được định nghĩa theo biểu thức tổ hợp như sau: A ! B {z E | Bz A} 1.5 Toán tử Erosion trên ảnh nhị phân của tập hợp A với phần tử cấu trúc B là tập hợp các điểm z (z nằm ở điểm trung tâm phần tử cấu trúc B) sao cho Bz là tập con của A. Ví dụ thực hiện phép Erosion với phần tử cấu trúc hình vuông để co hình dạng đối tượng trong ảnh bằng cách loại bỏ đi các pixel từ cả hai bên biên ở phía trong và phía ngoài của vùng đối tượng. Các vùng phía trong (holes) và khoảng trống (gaps) giữa các vùng khác nhau sẽ trở nên to hơn và các chi tiết nhỏ sẽ bị loại bỏ. Thực hiện phép co Erosion được minh họa như hình sau với phần tử cấu trúc vuông 3×3, kết quả thu được là các vùng đối tượng được làm mảnh theo cả hai phía: nh 1.9. Làm mỏng vùng bằng phép toán co ảnh [2]
- Xem thêm -

Tài liệu liên quan