Đăng ký Đăng nhập
Trang chủ Nghiên cứu phương pháp phân tích cấu trúc ảnh màu, ứng dụng trong nhận dạng chứn...

Tài liệu Nghiên cứu phương pháp phân tích cấu trúc ảnh màu, ứng dụng trong nhận dạng chứng minh nhân dân

.PDF
82
268
129

Mô tả:

ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG ------------ ------------ ĐOÀN DUY THƢỜNG NGHIÊN CỨU PHƢƠNG PHÁP PHÂN TÍCH CẤU TRÚC ẢNH MÀU, ỨNG DỤNG TRONG NHẬN DẠNG CHỨNG MINH NHÂN DÂN LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH THÁI NGUYÊN- 2014 Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG ------------ ------------ ĐOÀN DUY THƢỜNG NGHIÊN CỨU PHƢƠNG PHÁP PHÂN TÍCH CẤU TRÚC ẢNH MÀU, ỨNG DỤNG TRONG NHẬN DẠNG CHỨNG MINH NHÂN DÂN Chuyên ngành : Mã số: Khoa học máy tính 60 48 01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH NGƢỜI HƢỚNG DẪN KHOA HỌC: TS. Nguyễn Thị Thanh Tân THÁI NGUYÊN - 2014 Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ i LỜI CAM ĐOAN Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi và hoàn thành dƣới sự hƣớng dẫn khoa học của TS. Nguyễn Thị Thanh Tân. Nếu có gì vi phạm tôi xin hoàn toàn chịu trách nhiệm. Học viên thực hiện luận văn Đoàn Duy Thƣờng Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ ii LỜI CẢM ƠN Tôi xin gửi lời cảm ơn chân thành nhất tới TS. Nguyễn Thị Thanh Tân vì đã có những chỉ dẫn, động viên quý báu trong suốt quá trình thực hiện luận văn của tôi. Đồng thời tôi xin chân thành cảm ơn các thầy cô giáo trong Ban giám hiệu, phòng Đào tạo, các thầy cô giáo của trƣờng Đại học Công nghệ Thông tin và Truyền thông - Đại học Thái Nguyên cùng các thầy cô giáo trong Viện Công nghệ Thông Tin - Viện Hàn lâm Khoa học Việt Nam đã quan tâm, tạo điều kiện thuận lợi, nhiệt tình giảng dạy và hƣớng dẫn tôi trong suốt quá trình học tập và hoàn thiện luận văn. Cuối cùng tôi xin cảm ơn mọi sự giúp đỡ từ ngƣời thân, đồng nghiệp những ngƣời đã luôn ủng hộ, hỗ trợ tôi trong suốt quá trình thực hiện luận văn của mình. Mặc dù đã có nhiều cố gắng, tuy nhiên luận văn của tôi không thể tránh khỏi những thiếu sót, do đó tôi rất mong nhận đƣợc những ý kiến đánh giá, bổ sung để tôi có thể hoàn thiện luận văn của mình./. Thái Nguyên, ngày tháng Tác giả năm 2014 Đoàn Duy Thƣờng Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ iii MỤC LỤC LỜI CAM ĐOAN .............................................................................................. i LỜI CẢM ƠN .................................................................................................. ii MỤC LỤC ........................................................................................................ iii DANH MỤC CÁC THUẬT NGỮ VIẾT TẮT ............................................... vi DANH MỤC BẢNG BIỂU ............................................................................. ix DANH MỤC THUẬT TOÁN .......................................................................... x PHẦN MỞ ĐẦU ............................................................................................... 1 1. Đặt vấn đề .................................................................................................. 1 2. Mục tiêu của luận văn ................................................................................ 2 3. Tính cấp thiết của luận văn. ....................................................................... 2 4. Bố cục của luận văn. .................................................................................. 3 CHƢƠNG 1: TỔNG QUAN VỀ NHẬN DẠNG VĂN BẢN VÀ BÀI TOÁN PHÂN TÍCH CẤU TRÚC ................................................................................ 4 1.1. Tổng quan về nhận dạng văn bản ........................................................... 5 1.2. Bài toán phân tích cấu trúc trang ............................................................ 7 1.2.1 Giới thiệu chung ................................................................................ 7 1.2.2. Một số kỹ thuật tiền xử lý trong phân tích cấu trúc trang ảnh........ 10 1.2.2.1. Nhị phân ảnh ............................................................................. 10 1.2.2.2. Căn chỉnh độ nghiêng trang ảnh ............................................... 13 1.2.2.3. Lọc nhiễu .................................................................................. 14 1.2.2.4. Tách nền.................................................................................... 16 1.2.2.5. Các toán tử hình thái ................................................................. 16 Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ iv 1.2.3. Một số hƣớng tiếp cận trong phân tích cấu trúc trang văn bản ...... 19 1.3. Kết luận ................................................................................................. 20 CHƢƠNG 2: MỘT SỐ KỸ THUẬT PHÂN TÍCH CẤU TRÚC, ỨNG DỤNG TRONG PHÁT HIỆN VÀ BÓC TÁCH CÁC TRƢỜNG THÔNG TIN TRÊN ẢNH TÀI LIỆU .............................................................................................. 21 2.1. Kỹ thuật X-Y Cut .................................................................................. 21 2.2. Kỹ thuật Smearing ................................................................................ 23 2.3. Kỹ thuật Whitespace ............................................................................. 26 2.4. Kỹ thuật Docstrum ................................................................................ 27 2.5. Kỹ thuật dựa trên lƣợc đồ Voronoi ....................................................... 29 2.6. Kỹ thuật phát hiện các ràng buộc trên dòng văn bản............................ 32 2.7. Kỹ thuật phân tích cấu trúc ảnh tài liệu ................................................ 33 2.7.1. Đặc trƣng của ảnh tài liệu cần nhận dạng ....................................... 33 2.7.2. Phát hiện trƣờng số trong ảnh ......................................................... 35 2.7.2.1. Xác định vùng có thể là trƣờng số của ảnh .............................. 36 2.7.2.2. Tìm và tách trƣờng số ............................................................... 37 2.7.2.3. Phân đoạn vùng số .................................................................... 38 2.7.3. Phân tích cấu trúc bảng .................................................................. 40 2.7.4. Tách các trƣờng thông tin còn lại ................................................... 42 2.7.4.1. Tách các đối tƣợng thuộc mỗi dòng ......................................... 44 2.7.4.2. Xóa tiêu đề ................................................................................ 45 2.7.4.3. Lấy lại các ký tự bị mất ............................................................ 47 2.8. Kết luận ................................................................................................. 48 Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ v CHƢƠNG 3: CHƢƠNG TRÌNH ỨNG DỤNG ............................................. 50 3.1. Mô tả bài toán ....................................................................................... 50 3.2. Phân tích, cài đặt chƣơng trình thử nghiệm .......................................... 51 3.2.1. Tiền xử lý ảnh mặt trƣớc CMND ................................................... 54 3.2.2. Tiền xử lý ảnh mặt sau CMND...................................................... 62 3.2.3. Các độ đo đánh giá hiệu quả của phƣơng pháp .............................. 63 3.2.4. Dữ liệu thử nghiệm ......................................................................... 64 3.3. Kết quả thực nghiệm ............................................................................. 65 3.4. Kết luận ................................................................................................. 66 PHẦN KẾT LUẬN ......................................................................................... 68 DANH MỤC TÀI LIỆU THAM KHẢO ........................................................ 69 Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ vi DANH MỤC CÁC THUẬT NGỮ VIẾT TẮT OCR Optical Character Recognition CMND Chứng minh nhân dân RLSA The run-length smearing algorithm Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ vii DANH MỤC HÌNH VẼ Hình 1. 1. Thu nhận ảnh tài liệu ........................................................................ 5 Hình 1. 2. Quy trình chung của một hệ thống OCR ......................................... 6 Hình 1. 3. Một số tài liệu có cấu trúc phức tạp.................................................. 7 Hình 1.4. Quy trình phân tích cấu trúc trang ảnh .............................................. 8 Hình 1. 5. b- Cấu trúc vật lý; c,d - Cấu trúc logic của một tài liệu............... 10 Hình 1.6. Phần tử cấu trúc 3 3 ....................................................................... 17 Hình 1.7. Phép giãn ảnh với phần tử cấu trúc 3x3 .......................................... 18 Hình 1.8. Phép co ảnh với phần tử cấu trúc 3x3 ............................................. 18 Hình 2. 1. a) Ảnh gốc b) Kết quả thực hiện của thuật toán X-Y Cut ....... 23 Hình 2. 2. Kết quả thực hiện của kỹ thuật Smearing ...................................... 25 Hình 2. 3. Tài liệu ảnh trƣớc khi xử lý Tài liệu ảnh sau khi đƣợc xử lý ...... 27 Hình 2. 4. Xác định các thành phần liên thông, trọng tâm của các dòng ....... 28 Hình 2. 5. Sơ đồ Voronoi ................................................................................ 30 Hình 2. 6. Kết quả thực hiện của kỹ thuật sử dụng lƣợc đồ Voronoi ............. 30 Hình 2. 7. Mẫu “Giấy Chứng minh nhân dân” ............................................... 34 Hình 2. 8. Xác định vùng Số CMND .............................................................. 37 Hình 2. 9. Phân đoạn vùng số Chứng minh Nhân dân .................................... 39 Hình 2. 10. Xác định cấu trúc bảng................................................................. 42 Hình 2. 11. Mặt nạ dòng mặt trƣớc ................................................................. 44 Hình 3. 1. Quy trình nhận dạng thông tin trên CMND ................................... 50 Hình 3. 2. Quy trình thực hiện của chƣơng trình thử nghiệm......................... 51 Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ viii Hình 3. 3. Tiền xử lý ảnh mặt trƣớc CMND ................................................... 55 Hình 3. 4. Nhị phân ảnh CMND ..................................................................... 60 Hình 3. 5. Phƣơng pháp tia quay..................................................................... 61 Hình 3. 6. Ảnh CMND .................................................................................... 65 Hình 3. 7. Một số trƣờng hợp khó phát hiện ................................................... 66 Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ ix DANH MỤC BẢNG BIỂU Bảng 1. 1. Bảng mã 4 màu .............................................................................. 11 Bảng 2. 1. Thông tin mặt trƣớc CMND .......................................................... 34 Bảng 3.1. Kết quả thực nghiệm....................................................................... 66 Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ x DANH MỤC THUẬT TOÁN Thuật toán 1. 1. Thuật toán chỉnh độ nghiêng ................................................ 13 Thuật toán 1. 2. Thuật toán xoay ảnh .............................................................. 13 Thuật toán 2. 1. Thuật toán X-Y Cut cải tiến.................................................. 22 Thuật toán 2. 2: Thuật toán RLSA .................................................................. 24 Thuật toán 2. 3. Thuật toán Whitespace.......................................................... 26 Thuật toán 2. 4: Thuật toán Dostrum .............................................................. 27 Thuật toán 2. 5. Thuật toán phân tích cấu trúc dựa trên lƣợc đồ Voronoi ...... 31 Thuật toán 2. 6. Xác định các vùng có thể là Trƣờng Số CMND .................. 36 Thuật toán 2. 7. Tìm và tách trƣờng Số CMND ............................................. 38 Thuật toán 2. 8. Phân đoạn vùng Số CMND .................................................. 39 Thuật toán 2. 9. Ƣớc lƣợng bề dày đƣờng lƣợn sóng ..................................... 40 Thuật toán 2. 10. Xác định các đƣờng kẻ ngang trong bảng .......................... 41 Thuật toán 2. 11. Tách các ký tự thuộc mỗi dòng........................................... 45 Thuật toán 2. 12. Xoá phần tiêu đề ................................................................. 47 Thuật toán 3. 1. Thuật toán nhị phân ảnh Otsu................................................ 56 Thuật toán 3. 2. Thuật toán nhị phân ảnh Niblack .......................................... 58 Thuật toán 3. 3. Thuật toán Sử dụng tia quay để xác định góc nghiêng ......... 61 Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 1 PHẦN MỞ ĐẦU 1. Đặt vấn đề Nhận dạng mẫu là một ngành khoa học của học máy (hay trí tuệ nhân tạo) nhằm phân loại dữ liệu (các mẫu) vào một số lớp[13]. Mẫu có thể là bất kỳ thực thể nào cần đƣợc nhận ra, ví dụ: chữ in, chữ viết tay, vân tay, khuôn mặt, tiếng nói, hình dạng… Cùng với sự phát triển của khoa học kỹ thuật, các ứng dụng của nhận dạng mẫu ngày càng đƣợc mở rộng, từ việc tự động hoá một số quy trình trong sản xuất công nghiệp cho đến dự báo thời tiết, dự báo cháy rừng hay là một phần quan trọng trong các hệ thống máy tính thông minh… Một trong những ứng dụng phổ biến của nhận dạng mẫu hiện nay là phân tích và nhận dạng ảnh tài liệu (có nguồn gốc từ hệ thống nhận dạng ký tự quang học), nhằm số hoá các trang tài liệu giấy nhƣ sách, báo, tạp chí… Cho đến nay, bài toán phân tích và nhận dạng ảnh tài liệu đã đƣợc giải quyết gần nhƣ trọn vẹn và cũng đã có những sản phẩm thƣơng mại, nhƣ VnDOCR của Viện công nghệ thông tin hay FineReader của hãng ABBYY… Bên cạnh lớp bài toán phân tích và nhận dạng ảnh tài liệu một cách tổng quát ở trên còn có lớp bài toán riêng biệt cho từng ngành, từng lĩnh vực cụ thể, nhƣ: phân tích và nhận dạng bảng biểu, phiếu điều tra, mẫu điền thông tin, danh thiếp, hộ chiếu,… Đối với lớp bài toán này thì việc phân tích cấu trúc của ảnh tài liệu là đặc biệt quan trọng, bởi vì nó sẽ quyết định đến việc tách và nhận dạng chính xác các trƣờng thông tin cần thiết cho từng ứng dụng cụ thể. Trên thế giới đã có nhiều sản phẩm phần mềm phân tích và nhận dạng ảnh thẻ chứa thông tin cá nhân (nhƣ hộ chiếu, danh thiếp…) và đƣợc ứng dụng trong nhiều lĩnh vực, nhƣ: làm thủ tục hải quan, các giao dịch ở các cửa Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 2 hàng, khách sạn… Ở Việt Nam loại thẻ chứa thông tin cá nhân đƣợc sử dụng nhiều nhất là Giấy chứng minh nhân dân (CMND). Do thông tin trên các CMND đƣợc in thủ công từ các phôi có sẵn nên đôi khi định dạng không chuẩn, các dòng chữ và các ký tự trên đó có thể xiên, vẹo, thậm chí dính/chồng vào nhau. Bên cạnh đó, các CMND có thể bị mờ, ố theo thời gian. Đây là những yếu tố gây khó khăn và làm giảm chất lƣợng của một hệ thống nhận dạng đồng thời cũng là một trong số những nguyên do chính mà cho đến hiện nay các sản phẩm nhận dạng CMND chƣa đáp ứng đƣợc nhu cầu tự động hóa công việc nhập liệu thông tin trên CMND trong các hoạt động giao dịch hàng ngày. Quy trình giải quyết bài toán nhận dạng thông tin trên CMNDbao gồm 2 công đoạn chính. Công đoạn thứ nhất tập trung vào việc phân tích cấu trúc, xác định và bóc tách các trƣờng thông tin cần nhận dạng trên CMND. Công đoạn thứ hai là nhận dạng các vùng thông tin đã đƣợc bóc tách. Luận văn tập trung nghiên cứu, giải quyết các vấn đề liên quan đến công đoạn thứ nhất trong bài toán nhận dạng thông tin trên CMND. 2. Mục tiêu của luận văn Tìm hiểu một số kỹ thuật phân tích trang tài liệu (phân vùng, phân đoạn,…) nói chung vàảnh CMND nói riêng nhằm phát hiện và bóc tách các trƣờng thông tin cần nhận dạng trên CMND. Cài đặt thử nghiệm, kiểm chứng lại kết quả mà luận văn đã nghiên cứu và từ kết quả nghiên cứu có một sự chuẩn bị kiến thức đầy đủ cho bƣớc nghiên cứu tiếp theo. 3. Tính cấp thiết của luận văn. Giải quyết đƣợc vấn đề về học thuật: Đề tài sẽ mang ý nghĩa cung cấp về mặt lý thuyết để làm rõ về các phƣơng pháp phân tích ảnh CMND. Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 3 Đáp ứng đƣợc yêu cầu của thực tiễn: từ các lý thuyết đã đƣợc nghiên cứu, từ đó liên hệ và gắn vào thực tiễn để có thể áp dụng vào việc phân tích ảnh CMND trong thực tế. 4. Bố cục của luận văn. Các nội dung trình bày trong luận văn đƣợc chia thành 3 chƣơng. Chƣơng 1 giới thiệu các vấn đề tổng quan nhận dạng văn bản và bài toán phân tích cấu trúc trang ảnh tài liệu. Chƣơng 2 tập trung vào các kỹ thuật phân tích cấu trúc, ứng dụng trong phát hiện và bóc tách các trƣờng thông tin cần nhận dạng trên ảnh tài liệu (ảnh CMND).Chƣơng 3 trình bày quá trình phân tích, thiết kế và cài đặt chƣơng trình thử nghiệm nhằm đánh giá hiệu quả của phƣơng pháp trên các tập dữ liệu ảnh CMND đầu vào đƣợc thu thập từ thực tế. Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 4 CHƢƠNG 1: TỔNG QUAN VỀ NHẬN DẠNG VĂN BẢN VÀ BÀI TOÁN PHÂN TÍCH CẤU TRÚC Ngày nay, việc sử dụng máy tính để lƣu trữ tài liệu không còn là vấn đề mới mẻ và cần phải chứng minh tính an toàn, thuận tiện của nó. Tuy nhiên việc sử dụng giấy để lƣu trữ tài liệu trong một số mục đích vẫn chƣa thể thay thế đƣợc nhƣ sách báo, công văn... Hơn nữa, lƣợng tài liệu đƣợc tạo ra từ nhiều năm trƣớc vẫn còn rất nhiều mà không thể bỏ đi đƣợc vì tính quan trọng của chúng. Chúng ta mong muốn có thể điện tử hóa hàng tỉ trang tài liệu đó và cất chúng chỉ trong một thiết bị lƣu trữ với kích thƣớc bằng một cuốn sách nhỏ, tìm kiếm các thông tin mà chỉ cần tốn vài giây với một lần gõ phím Enter. Vậy giải pháp là gì? Thông thƣờng ngƣời ta sẽ phải thuê ngƣời cùng với việc tốn hàng tháng, hàng năm mới có thể nhập vào máy tính đƣợc hết lƣợng tài liệu đó. Hiện nay chúng ta đã có các máy Scan với tốc độ cao, công nghệ xử lý của máy tính ngày càng siêu việt với tốc độ tính toán vƣợt cả tốc độ ánh sáng, vậy tại sao chúng ta không quét toàn bộ các trang tài liệu vào và chuyển chúng thành văn bản một cách tự động? Bằng cách đó, tốc độ và tính chính xác sẽ tăng hàng trăm lần trong khi chi phí lại rất nhỏ. Vấn đề là khi quét vào máy tính chúng ta không thu đƣợc ngay các dòng văn bản từ các trang tài liệu đó để có thể soạn thảo, sửa chữa và tìm kiếm nhƣ làm trên Office. Tất cả những gì thu đƣợc chỉ là các tấm ảnh của các trang văn bản, máy tính lại đối xử công bằng với mọi điểm ảnh, máy tính không có “mắt” nhƣ chúng ta để biết đâu là điểm ảnh của chữ, đâu là điểm ảnh của đối tƣợng đồ họa. Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 5 Một giải pháp đƣợc đặt ra đó là xây dựng các hệ thống nhận dạng văn bản trong tấm ảnh chứa cả chữ và đối tƣợng đồ họa cần tách và chuyển chúng thành trang văn bản để từ đó có thể mở và soạn thảođƣợc trên các chƣơng trình soạn thảo văn bản. 1.1. Tổng quan vềnhận dạng văn bản Hiện nay, máy tính đang phát triển mạnh mẽ, tốc độ xử lý không ngừng đƣợc nâng lên. Cùng với nó là sự ra đời của các phần mềm thông minh đã làm cho máy tính ngày một gần gũi với con ngƣời hơn. Một trong những ứng dụng thành công của lĩnh vực nhận dạng mẫu là nhận dạng chữ in (nhận dạng ký tự quang học OCR -Optical Character Recognition). Nhận dạng chữ là quá trình chuyển đổi từ dạng hình ảnh của một hay nhiều trang ảnh chứa các thông tin văn bản thành tệp văn bản thực sự có thể soạn thảo đƣợc trên máy tính.OCR có rất nhiều ứng dụng hữu ích trong cuộc sống nhƣ:Sắp xếp thƣ tíndựa vào việc nhận dạng mã bƣu chính (Zipcode) hay địa chỉ gửi tới, tự động thu thập dữ liệu từ các mẫu đơn/báo biểu hay từ các hồ sơ lao động, tự động kiểm tra, xác nhận chữ ký trong ngân hàng, tự động xử lý các hóa đơn hay các yêu cầu thanh toán, nhập liệu tự động, kiểm tra thông tin trên passport… Hình 1. 1. Thu nhận ảnh tài liệu Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 6 Trang ảnh tài liệu đƣợc đề cập ở đây là các file ảnh số hoá thu đƣợc bằng cách quét các trang tài liệu dùng máy scanner, máy ảnh số, hay nhận từ một máy fax, file ảnh này đƣợc lƣu trữ trong máy tính (Hình 1. 1). Ảnh tài liệu có nhiều loại: ảnh đen trắng, ảnh màu, ảnh đa cấp xám với các phần mở rộng nhƣ TIF, BMP, PCX… và ảnh tài liệu đƣợc đƣa ra trong luận văn này là ảnh đa cấp xám. Quy trình chung của một hệ thống nhận dạng văn bản đƣợc thể hiện cụ thể trên Hình 1. 2. Ảnh tài liệu cần nhận dạng trƣớc tiên sẽ đƣợc tiền xử lý nhằm tăng cƣờng chất lƣợng, căn chỉnh độ nghiêng, nắnchỉnh hình ảnh. Sau đó sẽ tiến hành phân tích nhằm xác định cấu trúc trang tài liệu đồng thời xác định đƣợc các vùng thông tin cần nhận dạng trên ảnh đầu vào. Bƣớc tiếp theo sẽ tiến hành nhận dạng các vùng thông tin văn bản đã đƣợc xác định. Bƣớc hậu xử lý cuối cùng sẽ thực hiện các thao tác kiểm lỗi chính tả và địnhdạng lại cấu trúc trang văn bản. Hình 1. 2. Quy trình chung của một hệ thống OCR Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 7 Từ quy trình của hệ thống nhận dạng trênHình 1. 2 cho thấy bƣớc phân tích cấu trúc trang tài liệu, bóc tách các vùng văn bản để nhận dạng có ảnh hƣởng rất lớn tới chất lƣợng của một hệ thống nhận dạng. 1.2. Bài toán phân tích cấu trúc trang 1.2.1 Giới thiệu chung Ảnh tài liệu chứa rất nhiều loại vùng thông tin khác nhau nhƣ các block, lines, words, figures, tables và background. Ta có thể gọi các vùng này theo chức năng của nó trong tài liệu hoặc gán cho nó các nhãn logic nhƣ sentences, titles, captions, address (xem Hình 1. 3). Hình 1. 3. Một số tài liệu có cấu trúc phức tạp Quá trình phân tích cấu trúc ảnh thực chất là quá trình tách một tài liệu thành các vùng theo một tiêu chuẩn hay mối quan hệ lẫn nhau nào đấy. Công việc này đƣợc thực hiện qua nhiều bƣớc nhƣ tiền xử lý, tách vùng, lặp cấu trúc tài liệu… Một số loại tài liệu nhƣ báo, tạp chí, sách quảng cáo, chúng có cấu trúc và bố cục rất phức tạp và khôngcó một Form chung nào cả. Với con ngƣời để có thể đọc hiểu đƣợc một trang tài liệu còn cần thêm nhiều kiến thức bổ sung nhƣ ngôn ngữ, hoàn cảnh, các luật ngầm định, vì thế việc tự động Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 8 phân tích các trang tài liệu một cách tổng quát là một việc rất khó khăn thậm chí là không khả thi ngay cả với các hệ thống phân tích tài liệu tiên tiến nhất. Các bƣớc xử lý chính trong quy trình phân tích cấu trúc trang ảnh đƣợc thể hiện cụ thể trênHình 1.4. Trong đó, từ trang ảnh đầu vào trƣớc tiên sẽ đƣợc tiền xử lý nhằm loại bỏ nhiễu, căn chỉnh độ nghiêng, tách nềntrang ảnh,v.v.Sau đó sẽ tiến hành phân tích bố cục và cấu trúc trang ảnh nhằm xác định các vùng thông tin khác nhau trên trang ảnh đầu vào (các vùng văn bản, tiêu đề, ảnh, bảng biểu,…). Các vùng văn bản sẽ tiếp tục đƣợc phân đoạn thành các thành phần nhỏ hơn, chẳng hạn nhƣ dòng, từ hoặc ký tự để phục vụ cho bƣớc nhận dạng sau này. Việc đánh giá hiệu quả của các thuật toán phân tích trang đƣợc tiến hành dựa trên các file ground truth (chứa thông tin chi tiết của các vùng thông tin cần xác định) cho trƣớc. Hình 1.4. Quy trình phân tích cấu trúc trang ảnh Cấu trúc tài liệu thu đƣợc từ việc liên tiếp chia nhỏ nội dung của tài liệu thành các phần đơn vị nhỏ (tức là không thể phân chia đƣợc nữa) và chúng đƣợc gọi là các đối tƣợng cơ sở (basic objects). Còn tất cả các đối tƣợng khác đƣợc gọi là các đối tƣợng hỗn hợp.Hai loại cấu trúc của tài liệu đƣợc quan tâm ở đây đó là cấu trúc vật lý (hay bố cục vật lý) và cấu trúc logic mô tả mối quan hệ logic giữa các vùng đối tƣợng trong tài liệu. Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
- Xem thêm -

Tài liệu liên quan