Đăng ký Đăng nhập
Trang chủ Nhận dạng tự động ảnh tài liệu tiếng việt...

Tài liệu Nhận dạng tự động ảnh tài liệu tiếng việt

.PDF
75
23
112

Mô tả:

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN Hoàng Văn Đức NHẬN DẠNG TỰ ĐỘNG ẢNH TÀI LIỆU TIẾNG VIỆT LUẬN VĂN THẠC SĨ KHOA HỌC Hà Nội – 2021 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN Hoàng Văn Đức NHẬN DẠNG TỰ ĐỘNG ẢNH TÀI LIỆU TIẾNG VIỆT Chuyên ngành: Khoa học dữ liệu Mã số: 8904468.01QTD LUẬN VĂN THẠC SĨ KHOA HỌC NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. Đỗ Thanh Hà Hà Nội – 2021 LỜI CẢM ƠN Đầu tiên, tôi xin bày tỏ lời cảm ơn chân thành và sâu sắc đến TS. Đỗ Thanh Hà, người đã dành nhiều thời gian và tâm huyết hướng dẫn tôi trong quá trình lựa chọn hướng tiếp cận và thực hiện đề tài, điều đó đã hỗ trợ tôi rất nhiều trong việc hoàn thành bản luận văn này. Tôi cũng gửi lời cảm ơn trân trọng tới các cán bộ Nhà trường, Khoa Toán - Cơ - Tin học đã tạo mọi điều kiện thuận lợi nhất cho tôi trong suốt quá trình học tập và nghiên cứu. Đồng thời, tôi cũng muốn gửi lời cảm ơn chân thành đến các cán bộ, giảng viên và anh chị học viên lớp Khoa học dữ liệu niên khóa 2018-2020 đã động viên, hỗ trợ, giúp đỡ tôi rất nhiều trong quá trình học tập cũng như trong thời gian thực hiện luận văn. Với sự cố gắng của bản thân cùng sự giúp đỡ hiệu quả của giảng viên hướng dẫn, các thầy, cô và anh chị học viên, luận văn của tôi đã được hoàn thành, đạt được mục tiêu về thời gian và kết quả mà tôi đã đề ra. Tuy nhiên, do một số hạn chế về kiến thức chuyên môn cũng như kinh nghiệm thực tiễn trong lĩnh vực khoa học dữ liệu chưa nhiều nên nội dung của luận văn khó tránh được một số thiếu sót. Với sự cầu thị và mong muốn được học hỏi, tôi rất mong nhận được các góp ý, phản biện của quý thầy, cô và các anh chị học viên để tôi có thể tích lũy thêm kiến thức và áp dụng được nhiều hơn trong công việc. Tôi xin chân thành cảm ơn! Học viên thực hiện Hoàng Văn Đức i MỤC LỤC MỤC LỤC ii DANH MỤC BẢNG BIỂU iv DANH MỤC HÌNH VẼ v Danh mục ký hiệu toán học viii Danh mục thuật ngữ và từ viết tắt ix Giới thiệu bài toán 1 1 Mô hình nhiễu và các phương pháp khử nhiễu ảnh 4 1.1 Các mô hình nhiễu trên ảnh tài liệu 1.1.1 Mô hình nhiễu Gaussian . . . . . 1.1.2 Mô hình nhiễu Impulse . . . . . 1.1.3 Mô hình nhiễu Kanungo . . . . . 1.1.4 Mô hình nhiễu Noise Spread . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 . 5 . 7 . 9 . 11 1.2 Các phương pháp khử nhiễu . . . . . . . . . . . . . . . . . . . . . . 12 1.2.1 Cửa sổ trượt và tích chập . . . . . . . . . . . . . . . . . . . . . . 12 1.2.2 Phương pháp lọc truyền thống . . . . . . . . . . . . . . . . . . . 15 2 Phương pháp nhận dạng ảnh tài liệu 2.1 Cơ sở lý thuyết . . . . . . . . . . . . . 2.1.1 Phép toán hình thái . . . . . . . . . 2.1.2 Các phép toán hình thái phổ biến . 2.1.3 Toán tử Sobel . . . . . . . . . . . . 25 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 25 27 30 2.2 Một số hệ thống nhận dạng . . . . . . . . . . . . . . . . . . . . . . . 31 2.2.1 Google Docs OCR . . . . . . . . . . . . . . . . . . . . . . . . . . 32 2.2.2 Tesseract . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 ii 2.2.3 ABBYY FineReader . . . . . . . . . . . . . . . . . . . . . . . . . . 34 2.2.4 VnDOCR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 2.2.5 VietOCR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 2.3 Phương pháp sử dụng trong luận văn 2.3.1 Khoanh vùng từ . . . . . . . . . . 2.3.2 Khoanh vùng ký tự . . . . . . . . . 2.3.3 Mạng neural tích chập . . . . . . . 2.3.4 Nhận dạng ảnh ký tự . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 Kết quả thực nghiệm 36 36 39 40 50 52 3.1 Dữ liệu thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 3.2 Quá trình thực nghiệm . . . . . . 3.2.1 Môi trường, công cụ lập trình 3.2.2 Tham số mô hình . . . . . . . 3.2.3 Độ đo . . . . . . . . . . . . . . 3.2.4 Huấn luyện mô hình . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 55 56 57 58 3.3 Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 3.4 Kết luận và hướng phát triển . . . . . . . . . . . . . . . . . . . . . . 60 Tài liệu tham khảo 61 iii DANH MỤC BẢNG BIỂU 1 3 4 Danh mục ký hiệu toán học . . . . . . . . . . . . . . . . . . . . . . viii Danh mục thuật ngữ . . . . . . . . . . . . . . . . . . . . . . . . . . x Danh mục từ viết tắt . . . . . . . . . . . . . . . . . . . . . . . . . . x 3.1 Mô tả bộ dữ liệu thực nghiệm . . . . . . . . . . . . . . . . . . . . . 53 3.2 Danh mục tham số mô hình . . . . . . . . . . . . . . . . . . . . . . 56 3.3 Kết quả thực nghiệm trên mô hình và một số công cụ OCR khác . 59 iv DANH MỤC HÌNH VẼ 1 Các bước nhận dạng ảnh văn bản . . . . . . . . . . . . . . . . . . 1.1 1.2 Ví dụ minh họa về ảnh bị nhiễu . . . . . . . . . . . . . . . . . . Hàm phân bố và đồ thị biểu diễn mô hình nhiễu Gaussian, trong đó: (a) Hàm phân bố nhiễu Gaussian; (b) Đồ thị biểu diễn phân bố nhiễu Gaussian . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3 Ví dụ minh họa về nhiễu Gaussian, trong đó: (a) Ảnh gốc, (b) Ảnh nhiễu, (c) Histogram của ảnh gốc, (d) Histogram của ảnh nhiễu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.4 Hàm phân bố và đồ thị biểu diễn mô hình nhiễu Impulse, trong đó: (a) Hàm phân bố nhiễu Impulse; (b) Đồ thị biểu diễn phân bố nhiễu Impulse . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.5 Ví dụ minh họa về nhiễu Impulse, trong đó: (a) Ảnh gốc, (b) Ảnh nhiễu, (c) Histogram của ảnh gốc, (d) Histogram của ảnh nhiễu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.6 Ví dụ minh họa về nhiễu Kanungo [35], trong đó: (a) Ảnh gốc, (b) - (g) là 6 mức độ nhiễu Kanungo được sắp xếp theo chiều tăng dần . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.7 Minh họa về cửa sổ trượt . . . . . . . . . . . . . . . . . . . . . . 1.8 Ví dụ về tính tích chập . . . . . . . . . . . . . . . . . . . . . . . . 1.9 Ví dụ minh họa về ARM, trong đó: (a) Ảnh gốc, (b) Ảnh nhiễu, (c) Ảnh kết quả, (d) Histogram của ảnh gốc, (e) Histogram của ảnh nhiễu, (f) Histogram của ảnh kết quả . . . . . . . . . . . . . 1.10 Ví dụ minh họa về GEM, trong đó: (a) Ảnh gốc, (b) Ảnh nhiễu, (c) Ảnh kết quả (d) Histogram của ảnh gốc, (e) Histogram của ảnh nhiễu, (f) Histogram của ảnh kết quả . . . . . . . . . . . . . v 2 . 4 . 6 . 7 . 8 . 9 . 10 . 13 . 14 . 17 . 18 1.11 Ví dụ minh họa về COM, trong đó: (a) Ảnh gốc, (b) Ảnh nhiễu, (c) Ảnh kết quả, (d) Histogram của ảnh gốc, (e) Histogram của ảnh nhiễu, (f) Histogram của ảnh kết quả . . . . . . . . . . . . . 1.12 Minh họa bộ lọc thống kê thứ tự . . . . . . . . . . . . . . . . . . 1.13 Ví dụ minh họa về MEF, trong đó: (a) Ảnh gốc, (b) Ảnh nhiễu, (c) Ảnh kết quả, (d) Histogram của ảnh gốc, (e) Histogram của ảnh nhiễu, (f) Histogram của ảnh kết quả . . . . . . . . . . . . . 1.14 Ví dụ minh họa về MAX, trong đó: (a) Ảnh gốc, (b) Ảnh nhiễu, (c) Ảnh kết quả, (d) Histogram của ảnh gốc, (e) Histogram của ảnh nhiễu, (f) Histogram của ảnh kết quả . . . . . . . . . . . . . 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 2.10 2.11 2.12 2.13 2.14 2.15 2.16 2.17 2.18 2.19 2.20 2.21 . 20 . 21 . 22 . 24 Ví dụ minh họa về hình dạng của phần tử cấu trúc . . . . . . . . Ví dụ minh họa về phép giãn nở . . . . . . . . . . . . . . . . . . . Ví dụ minh họa về phép co . . . . . . . . . . . . . . . . . . . . . . Ví dụ minh họa về phép mở . . . . . . . . . . . . . . . . . . . . . Ví dụ minh họa về phép đóng . . . . . . . . . . . . . . . . . . . . Ví dụ minh họa về toán tử Sobel . . . . . . . . . . . . . . . . . . . Minh họa về OCR . . . . . . . . . . . . . . . . . . . . . . . . . . . Minh họa về quá trình xử lý ảnh tài liệu của Google Docs OCR . Các bước OCR với Tesseract . . . . . . . . . . . . . . . . . . . . . Giao diện công cụ ABBYY FineReader (phiên bản 12) . . . . . . . Giao diện công cụ VietOCR . . . . . . . . . . . . . . . . . . . . . . Kết quả thực nghiệm phép toán Sobel trên ảnh tài liệu, trong đó: (a) là ảnh gốc, (b) là ảnh kết quả . . . . . . . . . . . . . . . . . Kết quả thực nghiệm phép đóng trên ảnh tài liệu, trong đó: (a) là ảnh đã phát hiện biên, (b) là ảnh kết quả . . . . . . . . . . . . . Kết quả biến đổi ký tự qua toán tử Sobel và phép đóng hình thái Kết quả thực nghiệm khoanh vùng từ, trong đó: (a) là ảnh đã thực hiện liên thông nét chữ, (b) là ảnh kết quả . . . . . . . . . . Kết quả thực nghiệm khoanh vùng ký tự, trong đó: (a) Ảnh gốc, (b) Áp dụng phép đóng, (c) Khoanh vùng . . . . . . . . . . . . . Kết quả thực nghiệm cắt ký tự . . . . . . . . . . . . . . . . . . . . Kiến trúc mạng CNN[10] . . . . . . . . . . . . . . . . . . . . . . . Minh họa về ma trận lọc phát hiện biên[10] . . . . . . . . . . . . . Minh họa về bước nhảy[10] . . . . . . . . . . . . . . . . . . . . . . Minh họa về đường viền[10] . . . . . . . . . . . . . . . . . . . . . vi 26 27 28 29 30 31 32 33 33 34 35 37 38 38 39 40 40 42 44 44 45 2.22 Minh họa về các bước tính tại tầng tích chập[10] . . . . . . . . . 2.23 Một số hàm kích hoạt phổ biến, trong đó: (a) Sigmoid, (b) ReLU, (c) Tanh . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.24 Ví dụ minh họa về phép lấy mẫu cực đại[10] . . . . . . . . . . . 2.25 Ví dụ minh họa về lớp liên kết đầy đủ[10] . . . . . . . . . . . . 3.1 3.2 3.3 3.4 3.5 . 46 . 48 . 49 . 50 Danh sách phân lớp ký tự . . . . . . . . . . . . . . . . . . . . . . . Một phần bộ dữ liệu học được luận văn xây dựng . . . . . . . . . Một ảnh văn bản trong bộ dữ liệu kiểm định [24] . . . . . . . . . Đồ thị biểu diễn quá trình huấn luyện mô hình nhận dạng ký tự Đồ thị so sánh kết quả thực nghiệm giữa các phương pháp . . . vii 54 54 55 58 59 DANH MỤC KÝ HIỆU TOÁN HỌC Ký hiệu Nghĩa tiếng Việt (r, c) Tọa độ vị trí điểm ảnh I Ảnh ban đầu J Ảnh đầu ra η (r, c) Hàm nhiễu H Cửa sổ/Ma trận trượt z Mức xám của ảnh p(z) Hàm mật độ xác suất của mức xám T[ I ] Phép biến đổi tuyến tính của ảnh I I⊗ H Phép tích chập giữa ảnh I và cửa sổ trượt H I⊕ H Phép giãn giữa ảnh I và phần tử cấu trúc H I H Phép co giữa ảnh I và phần tử cấu trúc H I◦H Phép mở giữa ảnh I và phần tử cấu trúc H I•H Phép đóng giữa ảnh I và phần tử cấu trúc H X Ma trận thông tin k Số lượng ma trận lọc Wi Ma trận lọc thứ i Si Bước nhảy áp dụng với ma trận lọc thứ i P Kích thước đường viền thêm vào ảnh Bảng 1: Danh mục ký hiệu toán học viii DANH MỤC THUẬT NGỮ VÀ TỪ VIẾT TẮT Thuật ngữ Nghĩa tiếng Việt Activation function Hàm kích hoạt Adaptive thresholding Kỹ thuật phân ngưỡng động Artificial Intelligence Trí tuệ nhân tạo Convolution Tích chập Convolution Layer Lớp tích chập Convolutional Neural Network Mạng thần kinh tích chập Computer vision Thị giác máy tính Closing Phép đóng ảnh Dilation Phép giãn ảnh Erosion Phép co ảnh Fully connected Liên kết đầy đủ Feature map Ma trận đầu ra Histogram Biểu đồ phân phối tần suất Kernel Cửa sổ trượt (hay còn được gọi là ma trận lọc) Mathematic morphology Phép toán hình thái học Max pooling phép lấy mẫu cực đại Machine learning Học máy Neural Tế bào thần kinh Nonlinear Layer Lớp phi tuyến Loss function Hàm tổn thất Pooling Layer Lớp tổng hợp ix Padding Đường viền Pattern recognition Nhận dạng mẫu Pixel Điểm ảnh Receptive field Vùng tiếp nhận Scan Quét ảnh Structuring element Phần tử cấu trúc Stride Bước nhảy Overfitting Mô hình quá khớp dữ liệu Opening Phép mở ảnh Bảng 3: Danh mục thuật ngữ Từ viết tắt Tên đầy đủ tiếng Anh Nghĩa tiếng Việt ARM Arithmetic Mean Filter Bộ lọc trung bình số học CNN Convolutional Neural Network Mạng neural tích chập COM Contraharmonic Mean Filter Bộ lọc trung bình tương phản GEM Geometric Mean Filter Bộ lọc trung bình hình học MAF Max Filter Bộ lọc trung vị lớn nhất MEF Median Filter Bộ lọc trung vị MIF Min Filter Bộ lọc trung vị nhỏ nhất NS Noise Spread Nhiễu lan truyền OCR Optical Character Recognition Nhận dạng ký tự quang học PSF Point Spread Function Hàm lan truyền điểm ReLU Rectified Linear Units Đơn vị tùy chỉnh tuyến tính Bảng 4: Danh mục từ viết tắt x GIỚI THIỆU BÀI TOÁN Đặt vấn đề Theo truyền thống, việc truyền tải và lưu trữ thông tin được thực hiện thông qua các tài liệu giấy. Tuy nhiên, ngày nay các tài liệu được soạn thảo, xử lý bằng máy tính và các thiết bị điện tử ngày càng nhiều. Mặc dù vậy, các tài liệu vẫn được in ra để đọc, công bố và lưu trữ. Trước đây, việc thực hiện văn phòng không giấy tờ, tức là thay thế hoàn toàn các tài liệu giấy bằng các tài liệu điện tử diễn ra khá phổ biến. Tuy nhiên, việc thay thế này thực sự khó khả thi trong thực tế và một hướng tiếp cận khác đã được đề xuất là làm thế nào có thể tích hợp xử lý song song giữa tài liệu dạng điện tử và tài liệu giấy tờ một cách hiệu quả. Một giải pháp cho vấn đề này là xây dựng hệ thống máy tính có thể xử lý các tài liệu giấy như các dạng tài liệu số hóa khác và khi đó tài liệu giấy có thể đọc được bởi cả máy tính và con người [2]. Số hóa tài liệu là quá trình chuyển đổi các thông tin được lưu trữ thủ công trên giấy sang định dạng kỹ thuật số mà máy tính có thể hiểu được. Trong bối cảnh các hệ thống thông tin được áp dụng ngày càng nhiều trong cuộc sống đòi hỏi các văn bản, tài liệu cần được số hóa để có thể xử lý, lưu trữ, gửi nhận trên máy tính. Từ đó, các thông tin đã được số hóa này có thể được dùng làm đầu vào cho các hệ thống thông tin hay các mô hình học máy. Trong các loại ảnh thì ảnh tài liệu đòi hỏi cần xử lý ở phạm vi rất nhỏ, đối tượng xử lý là từng ký tự, sau đó mới ghép lại thành từ, câu có nghĩa, nhất là với tài liệu tiếng Việt vốn chứa thêm các dấu câu có thể bị mờ trong quá trình thu thập. Tài liệu khi được lưu trữ dạng giấy tờ truyền thống trong quá trình bảo quản sẽ bị phai màu, ố vàng theo thời gian. Mặt khác, trong quá trình quét ảnh (scan) có thể gây đổ bóng, nhòe, nhiễu trên ảnh đầu ra làm giảm chất lượng của ảnh, gây khó khăn cho quá trình xử lý ảnh sau này. Do 1 đó, trước tiên luận văn tập trung tìm hiểu một số thuật toán lọc ảnh để loại nhiễu, tăng cường ảnh, làm rõ các ký tự, tăng hiệu quả nhận dạng. Tiếp theo đó, các phương pháp khoanh vùng, phân đoạn ký tự trên ảnh cũng như nhận dạng và ghép nối các ký tự lại thành từ, thành câu hoàn chỉnh sẽ lần lượt được được luận văn trình bày. Quá trình nhận dạng ảnh tài liệu chứa đầy đủ các giai đoạn của quá trình xử lý ảnh điển hình như bước tiền xử lý (chuẩn hóa, lọc nhiễu, v.v); khoanh vùng, phân đoạn ký tự và nhận dạng. Do đó, phạm vi cũng như nội dung của luận văn "Nhận dạng ảnh tài liệu tiếng Việt" có đủ cả tính lý thuyết và tính ứng dụng trong thực tiễn. Mục tiêu Mục tiêu của luận văn là sử dụng các phương pháp lọc nhiễu ảnh, khoanh vùng cùng mô hình nhận dạng ký tự để chuyển các ảnh tài liệu sang văn bản dạng số mà các máy tính có thể xử lý, lưu trữ được. Từ đó, tạo nguồn dữ liệu đầu vào cho các hệ thống phân tích, khai thác dữ liệu như: dự báo, thống kê, học máy, v.v. Để thực hiện được mục tiêu này, quy trình thực hiện đối với việc nhận dạng ảnh tài liệu do luận văn đề xuất được thể hiện ở hình 1 sau đây. Hình 1: Các bước nhận dạng ảnh văn bản Trong phạm vi của luận văn, các phương pháp giúp lọc, trích xuất và nhận dạng ký tự trong ảnh tài liệu lần lượt được đề xuất và tiến hành thực nghiệm. Đầu tiên, một số vấn đề về cơ sở lý thuyết cần thiết để thực hiện luận văn sẽ được giới thiệu. Đó là các mô hình và phương pháp khử nhiễu, từ đó việc kiểm soát và mô hình hóa nhiễu cũng như làm sao loại bỏ được nhiễu đó trong ảnh cũng sẽ được làm rõ. Tiếp theo, lý thuyết về phép toán hình thái và 2 toán tử Sobel được giới thiệu như là một phương pháp hiệu quả để phát hiện đường biên của nét chữ từ đó giúp khoanh vùng ký tự. Ở vấn đề cuối cùng được luận văn đề cập, một số công cụ nhận dạng được giới thiệu và phương pháp được sử dụng trong luận văn cũng được trình bày sau đó. Về kết quả đánh giá thuật toán, bằng cách thực nghiệm trên cơ sở dữ liệu các ảnh tài liệu tiếng Việt được thu thập gồm 200 ảnh tài liệu, bao gồm cả ảnh chứa nhiều loại nhiễu khác nhau đã cho thấy rằng phương pháp được đề xuất giúp khoanh vùng và nhận dạng ảnh tài liệu một cách hiệu quả. 3 CHƯƠNG 1: MÔ HÌNH NHIỄU VÀ CÁC PHƯƠNG PHÁP KHỬ NHIỄU ẢNH Nhiễu là tập các biến thể cường độ hình ảnh xuất hiện một cách ngẫu nhiên và thể hiện dưới dạng các hạt có độ tương phản khác biệt phân bố không đều [42]. Nhiễu có thể sinh ra tại thời điểm chụp hoặc trong quá trình truyền tải, v.v. Khi đó, các điểm ảnh nhiễu hiển thị giá trị cường độ bị sai khác so với giá trị thực nhận từ đối tượng. Các nguyên nhân chính gây ra nhiễu trên ảnh là: i) Cảm biến hình ảnh có thể bị ảnh hưởng bởi các điều kiện môi trường như ánh sáng, nhiệt độ trong quá trình thu nhận hình ảnh; ii) Nhiễu kênh truyền; iii) Các hạt bụi xuất hiện trên màn hình máy quét [42]. Hình 1.1 minh họa một ảnh tài liệu bị nhiễu do quá trình quét từ tài liệu giấy gây ra. Hình 1.1: Ví dụ minh họa về ảnh bị nhiễu Khử nhiễu là quá trình giảm hoặc loại bỏ nhiễu khỏi ảnh. Các thuật toán khử nhiễu thực hiện điều này bằng cách làm mịn hình ảnh. Tuy nhiên, điều này có thể làm mất đi các chi tiết có độ tương phản thấp, kích thước nhỏ trong ảnh [23]. Hiệu suất của nhiều kỹ thuật nhận dạng vốn phụ thuộc vào việc xác định chính xác loại nhiễu có trong ảnh. Hầu hết các phương pháp lọc nhiễu đều giả định trên ảnh chứa nhiễu Gaussian. Một ví dụ trong số đó là phương 4 pháp lọc trung bình [23], phương pháp này lọc khá tốt trong nhiều trường hợp. Tuy nhiên, lọc trung bình phụ thuộc nhiều vào loại nhiễu và phương pháp này cũng làm mờ các đường nét trong ảnh đi khá nhiều. Ngoài ra, các bộ lọc này sẽ hiệu quả khi biết trước loại nhiễu chứa trong ảnh. Đây là điều rất khó trong thực tế do các ảnh thường chứa nhiều loại nhiễu khác nhau từ quá trình thu thập, truyền gửi đến lưu trữ thường được thực hiện trên nhiều thiết bị khác nhau [23]. Để khắc phục nhược điểm này, một số phương pháp khác đã được nghiên cứu, phát triển như phương pháp lọc trung vị có trọng số [22], phương pháp trung vị linh động [31], v.v. Ở chương này, một số cơ sở lý thuyết phục vụ cho quá trình tiền xử lý ảnh tài liệu sẽ lần lượt được giới thiệu. Đầu tiên, luận văn sẽ trình bày một số mô hình tạo nhiễu thường gặp trên ảnh nói chung và ảnh tài liệu nói riêng. Tiếp theo, các kỹ thuật khử nhiễu trên ảnh tài liệu sẽ được đề cập, đó là một số phương pháp khử nhiễu sử dụng bộ lọc trên miền không gian như lọc trung bình và lọc trung vị. 1.1. Các mô hình nhiễu trên ảnh tài liệu Một ảnh nhiễu J bao gồm ảnh gốc I và nhiễu η. Điều này được mô tả trong phương trình 1.1 với (r, c) là tọa độ vị trí điểm ảnh: J(r, c) = I(r, c) + η (r, c) (1.1) Hiệu suất của hầu hết các kỹ thuật nhận dạng phụ thuộc nhiều vào lượng nhiễu có trong ảnh. Do đó, khử nhiễu ảnh là bước cần thiết, giúp nâng cao chất lượng hình ảnh trước khi áp dụng bất kỳ phương pháp xử lý nào tiếp theo [35]. Bởi vậy, đã có nhiều nghiên cứu đã được thực hiện về vấn đề này [23, 15, 35, 38]. Trong phạm vi nghiên cứu, luận văn sẽ giới thiệu về một số mô hình tạo nhiễu thường gặp trong thực tế, bao gồm các mô mình Gaussian [43], Impulse [15], Kanungo [19] và Noise Spread [38]. 1.1.1. Mô hình nhiễu Gaussian Nhiễu Gaussian (được đặt theo tên của nhà khoa học người Đức Johann C. F. Gauss [43]) là nhiễu có hàm mật độ xác suất của phân phối chuẩn hay còn gọi là phân phối Gaussian. Đây là loại nhiễu xuất hiện khá nhiều trong thực tế. Nhiễu Gaussian xảy ra do bản chất rời rạc của bức xạ (hệ thống ghi ảnh bằng 5 cách đếm số lượng tử ảnh sáng) [43]. Nhiễu này là nhiễu cộng, có tính độc lập và được phân bố đều trên ảnh. Điều này có nghĩa là giá trị của một điểm ảnh trên ảnh nhiễu là tổng của giá trị trên ảnh gốc tại cộng với giá trị nhiễu từ phân phối Gaussian tại vị trí tương ứng. 2 1 − (z−z̄2) 2σ p(z) = √ e σ 2π (b) (a) Hình 1.2: Hàm phân bố và đồ thị biểu diễn mô hình nhiễu Gaussian, trong đó: (a) Hàm phân bố nhiễu Gaussian; (b) Đồ thị biểu diễn phân bố nhiễu Gaussian Hình 1.2a mô tả phân bố nhiễu có xác suất theo phân phối Gaussian với z là mức xám, z̄ là giá trị trung bình và σ là độ lệch chuẩn. Trong khi đó, đồ thị ở hình 1.2b biểu diễn phân bố nhiễu Gauss với giá trị trung bình z̄ = 0, phương sai σ = 0.1 và mức xám z có giá trị từ 0 đến 255. 6 (a) (b) (c) (d) Hình 1.3: Ví dụ minh họa về nhiễu Gaussian, trong đó: (a) Ảnh gốc, (b) Ảnh nhiễu, (c) Histogram của ảnh gốc, (d) Histogram của ảnh nhiễu Trên đây là một ví dụ minh họa về nhiễu Gaussian trên ảnh tài liệu đen trắng với 1.3a là ảnh gốc và 1.3b là ảnh nhiễu. Trong khi ảnh gốc có histogram (hình 1.3c) với phân bố chỉ trên hai mức xám 0 và 255 tương ứng với phần chữ viết (có màu đen) và phần nền tài liệu (có màu trắng) thì ảnh nhiễu có histogram phân bố trên nhiều thang màu lân cận mức xám 255 do có thêm các mức xám của các điểm ảnh nhiễu (tại hình 1.3d). 1.1.2. Mô hình nhiễu Impulse Một loại nhiễu khác cũng khá phổ biến trong thực tế là nhiễu Impulse (hay còn được gọi là nhiễu xung). Nhiễu xung làm xuất hiện các chấm đen, trắng trên toàn bộ ảnh. Trong đó, các chấm trắng được gọi là nhiễu muối (nhiễu salt) còn các chấm đen được gọi là nhiễu tiêu (nhiễu pepper). Nhiễu này có thể sinh ra bởi nhiều lý do khác nhau, chẳng hạn như do lỗi truyền tín hiệu, lỗi bộ nhớ.v.v. Nhiễu xung thường gây đột biến tại một số điểm ảnh, xuất hiện sự khác biệt lớn về cường độ với các điểm ảnh lân cận. Các điểm ảnh nhiễu sẽ 7 luân phiên mang giá trị lớn nhất hoặc nhỏ nhất trên thang màu (trong trường hợp của ảnh tài liệu sẽ là các điểm màu trắng và đen) [15].    pa ,    p(z) = pb ,     0 z=a z=b (b) (a) Hình 1.4: Hàm phân bố và đồ thị biểu diễn mô hình nhiễu Impulse, trong đó: (a) Hàm phân bố nhiễu Impulse; (b) Đồ thị biểu diễn phân bố nhiễu Impulse Phương trình trong hình 1.4a, phân phối của nhiễu impulse được thể hiện, với z là mức xám, a, b là các mức xám mà điểm ảnh bị nhiễu sẽ nhận. Nếu b > a, mức xám b xuất hiện là nhiễu muối, a là nhiễu tiêu. Nếu a > b thì ngược lại, a là nhiễu muối, b là nhiễu tiêu. Đồ thị ở hình 1.4b biểu diễn mô hình nhiễu trong trường hợp b > a trên đồ thị với phân phối xác suất rời rạc. Minh họa về nhiễu tiêu trên ảnh tài liệu được thể hiện ở hình 1.5 (do ảnh tài liệu thường có nền màu trắng nên ở các ví dụ ở các phần sau đây, luận văn sẽ tiến hành thực nghiệm lọc trên nhiễu tiêu - có màu đen, để có thể hiển thị rõ ràng hơn). Mức xám 255 (thể hiện của màu nền trắng trên ảnh tài liệu) đã giảm đáng kể (thể hiện ở phần màu đỏ với hơn 100,000 điểm ảnh) ở histogram của ảnh nhiễu (hình 1.5d) so với histogram của ảnh gốc (hình 1.5c) do đã xuất hiện thêm các chấm nhiễu tiêu (có mức xám 0) trong ảnh nhiễu (hình 1.5b). 8
- Xem thêm -

Tài liệu liên quan