Đăng ký Đăng nhập
Trang chủ Luận văn thạc sĩ nhận dạng chữ viết và phân tích trang tài liệu...

Tài liệu Luận văn thạc sĩ nhận dạng chữ viết và phân tích trang tài liệu

.PDF
105
224
141

Mô tả:

Luận văn tốt nghiệp cao học Học viên: Nguyễn Văn Huy Mục lục Mục lục ........................................................................................................................ i Danh mục các hình ảnh .............................................................................................. iv MỞ ĐẦU .................................................................................................................... 1 I. Đặt vấn đề ........................................................................................................ 1 II. Nội dung nghiên cứu ....................................................................................... 2 III. Bố cục của luận văn ....................................................................................... 4 Chƣơng I. TỔNG QUAN VỀ NHẬN DẠNG CHỮ VIẾT ........................................... 5 VÀ PHÂN TÍCH TRANG TÀI LIỆU ......................................................................... 5 I.1. Ảnh tài liệu và nhận dạng ảnh tài liệu ............................................................ 5 I.1.1. Tổng quan về ảnh tài liệu ........................................................................ 5 I.1.2. Nhận dạng tài liệu và vai trò của phân tích ảnh tài liệu ........................... 6 I.2. Cấu trúc của ảnh tài liệu ................................................................................ 7 I.2.1. Cấu trúc vật lý ........................................................................................ 8 I.2.2. Cấu trúc logic ....................................................................................... 10 I.3. Quá trình phân tích tài liệu .......................................................................... 10 I.3.1. Tiền xử lý(preprocessing): .................................................................... 11 I.3.2. Phân tích cấu trúc vật lý ........................................................................ 12 I.3.3. Phân tích cấu trúc logic ......................................................................... 13 I.4. Một số hệ thống phân tích tài liệu hiện nay.................................................. 14 I.4.1. VnDOCR .............................................................................................. 14 I.4.2. OminiPage ............................................................................................ 18 I.4.3. Finereader ............................................................................................. 20 I.5. Kết luận ....................................................................................................... 22 Chƣơng II: CÁC PHƢƠNG PHÁP TIẾP CẬN ......................................................... 23 ĐỂ PHÂN TÍCH TRANG TÀI LIỆU ........................................................................ 23 II.1. Các phƣơng pháp phân tích định dạng trang tài liệu ................................... 23 II.1.1. Top-down ............................................................................................ 23 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên i http://www.lrc-tnu.edu.vn GVHD: PGS. TS. Ngô Quốc Tạo Luận văn tốt nghiệp cao học Học viên: Nguyễn Văn Huy II.1.2. Bottom-up ........................................................................................... 30 II.1.3. Phƣơng pháp Tách và Nối thích nghi (Adaptive Split – and – Merge) . 32 II.1.4. Fractal Signature (FS).......................................................................... 34 II.2. Lựa chọn giải pháp ..................................................................................... 38 II.3. Thiết kế hệ thống........................................................................................ 39 II.3.1. Sơ đồ khối ........................................................................................... 39 II.3.2. Ảnh đầu vào ........................................................................................ 39 II.3.3. Module Tiền xử lý ............................................................................... 40 II.3.4. Phân tích sử dụng giả pháp Fractal Signature ...................................... 41 II.4. Kết luận ..................................................................................................... 45 Chƣơng III: XÂY DỰNG CHƢƠNG TRÌNH THỬ NGHIỆM .................................. 46 III.1. Yêu cầu hệ thống ..................................................................................... 46 III.2. Thiết kế chƣơng trình ................................................................................ 46 III.2.1. Cấu trúc dữ liệu.................................................................................. 46 III.2.2. Module chuẩn hóa ảnh ....................................................................... 48 III.2.3. Module giao diện chính ...................................................................... 51 III.2.4. Module phân tích Top-down (TD)...................................................... 52 III.2.5. Module phân tích Fractal Signature .................................................... 55 III.2.6. Module lọc và làm trơn nhiễu ............................................................. 57 III.2.7. Module mô phỏng thuật toán FS ........................................................ 58 III.2.8. Các hàm chức năng chính của image processing tool trong matlab sử dụng trong chƣơng trình ................................................................................ 60 III.3. Kết luận và đánh giá kết quả ..................................................................... 62 Kết luận ..................................................................................................................... 83 TÀI LIỆU THAM KHẢO ......................................................................................... 84 Phục Lục ................................................................................................................... 85 A. Mã nguồn đầy đủ của chƣơng trình ............................................................... 85 A.1. Danh mục các chƣơng trình con trong chƣơng trình ............................... 85 A.2. Sơ khối liên kết giữa các thủ tục trong chƣơng trình............................... 86 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên ii http://www.lrc-tnu.edu.vn GVHD: PGS. TS. Ngô Quốc Tạo Luận văn tốt nghiệp cao học Học viên: Nguyễn Văn Huy A.3. Mã nguồn các module ............................................................................ 86 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên iii http://www.lrc-tnu.edu.vn GVHD: PGS. TS. Ngô Quốc Tạo Luận văn tốt nghiệp cao học Học viên: Nguyễn Văn Huy Danh mục các hình ảnh Hình 1: Sơ đồ tổng quan quá trình tạo ảnh tài liệu ................................................... 5 Hình 2: Ví dụ ảnh tài liệu ........................................................................................ 6 Hình 3: Sơ đồ OCR cơ bản ...................................................................................... 7 Hình 4: b-Cấu trúc vật lý: c,d-Cấu trúc logic của một tài liệu[4] .............................. 9 Hình 5: Ví dụ loại tài liệu có bố cục phức tap ........................................................ 10 Hình 6: Sơ đồ nguyên lý hệ thống xử lý tài liệu[6] ................................................ 11 Hình 7: a - Ảnh gốc b - Ảnh sau khi tách nền ........................................................ 12 Hình 8: Ví dụ một ảnh tài liệu bị nghiêng một góc 5 độ ......................................... 13 Hình 9: Ví dụ một cây mô tả cấu trúc logic của một trang tài liệu[5] ..................... 14 Hình 10: VnDOCR và một ví dụ nhận dạng .......................................................... 15 Hình 11: Ảnh mẫu có cấu trúc vật lý phức tạp ....................................................... 16 Hình 12: Kết quả ra hai vùng ảnh với ảnh mẫu 11 ................................................. 16 Hình 13: Mẫu ảnh có cấu trúc vật lý phức tạp, nhƣng các khối bao bởi hình chữ nhật .............................................................................................................................. 17 Hình 14: Kết quả phân tích với ảnh 13................................................................... 18 Hình 15: Đầu ra phân vùng chỉ có 1 vùng văn bản ................................................. 19 Hình 16: Đầu ra có vùng chứa cả ảnh và text ......................................................... 19 Hình 17: Với ảnh 13 đạt hiệu quả 90% .................................................................. 20 Hình 18 Với ảnh I-15 hiệu quả đạt 100%............................................................... 21 Hình 19: Với mẫu phức tạp hơn Finereader cho kết quả 95% ................................ 22 Hình 20: Kết quả chiếu nghiêng theo phƣơng ngang và phƣơng thẳng đứng của một trang tài liệu .......................................................................................................... 24 Hình 21: Phân tách cột dựa vào phép chiếu nghiêng theo phƣơng ngang ............... 25 Hình 22: Phép chiếu nghiêng theo phƣơng ngang để phân đoạn ký tự hoặc từ ....... 26 Hình 23: Lƣợc đồ chiếu ngang của một dòng chữ nghiêng - rất khó phân đoạn ký tự .............................................................................................................................. 27 Hình 24: Lƣợc đồ chiếu đứng của trang tài liệu bị nghiêng .................................... 28 Hình 25: Lƣợc đồ chiếu đứng của một bài báo....................................................... 29 Hình 26: Phƣơng pháp Dostrum cho phân tích định dạng trang từ dƣới lên. (a) Một phần của nội dung văn bản gốc. (b) Các thành phần lân cận gần nhất đƣợc xác định. Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên iv http://www.lrc-tnu.edu.vn GVHD: PGS. TS. Ngô Quốc Tạo Luận văn tốt nghiệp cao học Học viên: Nguyễn Văn Huy (c) Các hình chữ nhật tối thiểu tạo nên nhóm láng giềng gần nhất từ đó xác định đƣợc dòng văn bản. ............................................................................................... 31 Hình 27: Mô tả thuật toán Tách và Nối thích nghi ................................................. 33 Hình 28: Mô tả thuật toán FS................................................................................. 35 Hình 29: Sơ đồ khối hệ thống phân tích tài liệu trong phạm vi đề tài ..................... 39 Hình 30: Ví dụ một bolck chuyển sang dạng bề mặt trong không gian 3D ............. 41 Hình 31: Ví dụ chuyển ảnh chữ "c" sang dạng bề mặt trong không gian 3D ......... 41 Hình 32: (a) Ảnh một tài liệu gốc, (b) kết quả sau khi áp dụng FS ......................... 44 Hình 33: Giao diện chính....................................................................................... 51 Hình 34: Kết quả phân tích của top-down trên tài liệu có cấu trúc đơn giản ........... 63 Hình 35: Kết quả phân tích của top-down trên tài liệu có cấu trúc bảng ................. 65 Hình 36: : Kết quả phân tích của top-down trên tài liệu thuần văn bản................... 67 Hình 37: : Kết quả phân tích của top-down trên tài liệu có cấu trúc phức tạp (trang tạp trí).................................................................................................................... 69 Hình 38 : Kết quả phân tích của top-down trên một tờ quảng cáo .......................... 71 Hình 39: Kết quả phân tích của top-down trên tài liệu có cấu trúc phức tạp ........... 73 Hình 40: Kết quả phân tích của top-down trên tài liệu bị nghiêng......................... 75 Hình 41: Kết quả phân tích của FS trên tài liệu bị nghiêng .................................... 77 Hình 42: Kết quả phân tích của FS trên tài có cấu trúc phức tạp ............................ 79 Hình 43: Kết quả phân tích của FS trên một trang quảng cáo ................................. 81 Hình 44: Kết quả phân tích của FS trên tài liệu đơn giản ....................................... 82 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên v http://www.lrc-tnu.edu.vn GVHD: PGS. TS. Ngô Quốc Tạo Luận văn tốt nghiệp cao học Học viên: Nguyễn Văn Huy MỞ ĐẦU I. Đặt vấn đề Ngày nay việc sử dụng máy tính để lƣu trữ tài liệu không còn là vấn đề mới mẻ và cần phải chứng minh tính an toàn, thuận tiện của nó. Tuy nhiên việc sử dụng giấy để lƣu trữ tài liệu trong một số mục đích vẫn không thể thay thế đƣợc (nhƣ báo, sách, công văn,…). Hơn nữa lƣợng tài liệu đƣợc tạo ra từ nhiều năm trƣớc vẫn còn rất nhiều mà không thể bỏ đi đƣợc vì tính quan trọng của chúng. Chúng ta mong muốn có thể điện tử hóa hàng tỉ trang tài liệu đó và cất chúng chỉ trong một ổ cứng kích thƣớc bằng một cuốn sách nhỏ, tìm kiếm thông tin mà chỉ cần tốn vài giây với một cái gõ phím Enter. Giải pháp là gì? Thông thƣờng ngƣời ta sẽ phải thuê ngƣời cùng với việc tốn hàng tháng, hàng năm mới có thể nhập vào máy tính đƣợc hết lƣợng tài liệu đó. Hiện nay chúng ta đã có các máy Scan với tốc độ cao, công nghệ xử lý của máy tính ngày càng siêu việt với tốc độ tính toán vƣợt cả tốc độ ánh sáng, vậy tại sao chúng ta không quét toàn bộ các trang tài liệu vào và chuyển chúng thành văn bản một cách tự động? Bằng cách đó tốc độ và tính chính xác sẽ tăng hàng trăm lần trong khi chi phí lại là cực tiểu. Vấn đề là khi quét vào máy tính chúng ta không thu đƣợc ngay các dòng văn bản từ các trang tài liệu kia, để có thể soạn thảo, sửa chữa và tìm kiếm nhƣ làm trên Office. Tất cả những gì thu đƣợc chỉ là các tấm ảnh của các trang văn bản, máy tính lại đối xử công bằng nhƣ nhau với mọi điểm ảnh, máy tính không có “mắt” nhƣ chúng ta để biết đâu là điểm ảnh của chữ, đâu là điểm ảnh của đối tƣợng đồ họa. Một giải pháp đƣợc nghĩ đến ngay đó là đó là xây dựng các hệ thống nhận dạng chữ, trong tấm ảnh chứa cả chữ và đối tƣợng đồ họa cần tách và chuyển thành dạng trang văn bản, từ đó có thể mở và soạn thảo đƣợc trên các trình soạn thảo văn bản. Một cách tổng quát thì cách thức làm việc của một hệ thống nhận dạng chữ nhƣ sau[5]: 1. Chụp ảnh các trang tài liệu trên giấy và lƣu lại trong máy tính dƣới dạng hình ảnh. Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên 1 http://www.lrc-tnu.edu.vn GVHD: PGS. TS. Ngô Quốc Tạo Luận văn tốt nghiệp cao học Học viên: Nguyễn Văn Huy 2. Sử dụng một chƣơng trình xử lý ảnh để phân tích hình ảnh sau khi quét, đọc đƣợc ký tự trên hình ảnh đó và ghi lại vào máy tính theo cách mà máy tính quản lý đƣợc thông tin dữ liệu đó. a. Bƣớc 1 là phân tích cấu trúc của ảnh tài liệu, từ đó xác định đâu là phần chứa chữ, đâu là phần chứa cả ảnh lẫn ký tự và đâu chỉ chứa hình ảnh. Bƣớc này thực sự quan trọng cho bƣớc nhận dạng. Bởi nó định vị chính xác cho việc áp dụng các thuật toán nhận dạng lên vùng đã xác định tính chất, nếu bƣớc này chính xác trƣớc tiên nó hạn chế thời gian cho việc nhận dạng, sau là tăng ngữ nghĩa bổ sung cho việc nhận dạng. b. Bƣớc 2 nhận dạng ký tự dựa vào các tính chất của ký tự, ví dụ nhƣ sắp xếp theo dòng, khoảng cách giữa 2 từ lớn hơn khoảng cách giữa 2 ký tự, dùng trí tuệ nhân tạo để dự đoán các ký tự kề nhau phải nhƣ thế nào, các từ trong câu phải nhƣ thế nào để câu có nghĩa. Từ đó có nội dung đúng để lƣu trữ, quản lý…. Trong thực tế không phải quá trình nhận dạng nào cũng chỉ trải qua hai bƣớc nhƣ trên, bởi vì có rất nhiều tham số ảnh hƣởng đến kết quả của các chƣơng trình nhận dạng, nhƣ nhiễu, Font chữ, kích thƣớc chữ, kiểu chữ nghiêng, đậm, gạch dƣới. Ngoài ra các dòng chữ cũng có thể trộn lẫn với các đối tƣợng đồ họa, vì thế trƣớc khi nhận dạng chữ, một số thao tác tiền xử lý sẽ đƣợc tác động lên ảnh nhƣ, lọc nhiễu, chỉnh góc nghiêng và đặc biệt quan trọng là phân tích trang tài liệu để xác định cấu trúc của trang văn bản đồng thời tách biệt hai thành phần là chữ và các đối tƣợng đồ họa (phi chữ). II. Nội dung nghiên cứu 1. Mục tiêu nghiên cứu chính của đề tài  Tìm hiểu cấu trúc trang tài liệu (cấu trúc vật lý, logic)?  Tìm hiểu một số kỹ thuật phân tích trang tài liệu (phân vùng, phân đoạn,…)  Cài đặt thử nghiệm một giải pháp phân tích có hiệu quả cao so với các phƣơng pháp truyền thống nhƣ top-down hay bottom-up trên ảnh vào là ảnh đa cấp xám có cấu trúc phức tạp.  Từ kết quả nghiên cứu có một sự chuẩn bị kiến thức đẩy đủ cho bƣớc nghiên cứu tiếp theo là nhận dạng ký tự quang. Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên 2 http://www.lrc-tnu.edu.vn GVHD: PGS. TS. Ngô Quốc Tạo Luận văn tốt nghiệp cao học Học viên: Nguyễn Văn Huy 2. Ý nghĩa khoa học của đề tài  Giải quyết đƣợc vấn đề về học thuật: đề tài sẽ mang ý nghĩa cung cấp về mặt lý thuyết để làm rõ về các phƣơng pháp phân tích trang tài liệu.  Đáp ứng đƣợc yêu cầu của thực tiễn: từ các lý thuyết đã đƣợc nghiên cứu, từ đó liên hệ và gắn vào thực tiễn để có thể áp dụng vào các lĩnh vực nhƣ: Lƣu trữ thƣ viện, điện tử hóa văn phòng, nhận dạng và xử lý ảnh, … 3. Nhiệm vụ nghiên cứu Mục đích của luận văn đề cập đƣợc đến hai phần:  Phần lý thuyết: Nắm rõ và trình bày những cơ sở lý thuyết liên quan đến cấu trúc trang tài liệu, một số kỹ thuật phân tích trang tài liệu, từ đó có để có thể xác định tính quan trọng của bƣớc này trong nhận dạng ký tự, đồng thời hiểu các công việc kế tiếp cần làm trong bƣớc nhận dạng ký tự.  Phần phát triển ứng dụng: Áp dụng các thuật toán đã trình bày ở phần lý thuyết từ đó lựa chọn một giải pháp tối ƣu và cài đặt thử nghiệm chƣơng trình phân tích trang tài liệu. 4. Phƣơng pháp nghiên cứu  Tìm kiếm, tham khảo, tổng hợp tài liệu từ các nguồn khác nhau để xây dựng phần lý thuyết cho luận văn.  Sử dụng các kỹ thuật đƣợc áp dụng phân tích trang tài liệu để làm rõ bản chất của các vấn đề đƣợc đƣa ra trong phần lý thuyết.  Xây dựng chƣơng trình Demo. 5. Phạm vi nghiên cứu Bài toán nhận dạng và xử lý ảnh tài liệu đã đƣợc phát triển với nhiều thành tựu trong thực tế, có rất nhiều thuật toán tối ƣu đã đƣợc các nhà khoa học đề nghị. Tuy nhiên có thể nói chƣa có một chƣơng trình nào có thể “đọc” một ảnh văn bản nhƣ con ngƣời, vì thực tế có rất nhiều kiểu trang văn bản khác nhau, khác nhau về cấu trúc trình bày, ngôn ngữ, kiểu font, chữ viết tay,… Đây thực sự là một bài toán lớn, chính vì thế trong phạm vi của luận văn chỉ tìm hiểu một số kỹ thuật phân tích trang văn bản tiêu biểu với mục đích để so sánh và một thuật toán mới chƣa đƣợc đƣa ra ở các đề tài trƣớc. Cuối cùng, dựa vào đó để xây dựng Demo cho một ứng dụng. Các kết quả nghiên cứu dự kiến cần đạt đƣợc: Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên 3 http://www.lrc-tnu.edu.vn GVHD: PGS. TS. Ngô Quốc Tạo Luận văn tốt nghiệp cao học Học viên: Nguyễn Văn Huy  Tìm hiểu tài liệu liên quan đến lĩnh vực quan tâm để nắm bắt đƣợc bản chất vấn đề đặt ra.  Báo cáo lý thuyết  Chƣơng trình Demo. III. Bố cục của luận văn Nội dung của luận văn đƣợc trình bày trong ba chƣơng với nội dung chính sau. Chƣơng 1: Trình bày các khái niệm và mô hình tổng quát của hệ thống nhận dạng chữ viết, cùng với một số phần mềm nhận dạng tiêu biểu hiện nay. Chƣơng 2: Trình bày một số phƣơng pháp phân tích trang tài liệu, từ đó đánh giá ƣu nhƣợc điểm để lựa chọn phƣơng pháp Fractal Signature cho chƣơng trình thử nghiệm. Trình bày về thiết kế cho chƣơng trình demo. Chƣơng 3: Trình bày chi tiết về việc cài đặt chƣơng trình cũng nhƣ các thủ tục sử dụng trong chƣơng trình với phƣơng pháp phân tích Fractal Signature và ảnh đầu vào là ảnh đa cấp xám có độ phức tạp cao. Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên 4 http://www.lrc-tnu.edu.vn GVHD: PGS. TS. Ngô Quốc Tạo Luận văn tốt nghiệp cao học Học viên: Nguyễn Văn Huy Chƣơng I. TỔNG QUAN VỀ NHẬN DẠNG CHỮ VIẾT VÀ PHÂN TÍCH TRANG TÀI LIỆU Chƣơng này đƣa ra các khái niệm về đối tƣợng làm việc của đề tài là ảnh tài liệu, khái niệm về cấu trúc vật lý và cấu trúc logic. Giới thiệu các khâu trong một hệ thống nhận dạng chữ viết hoàn chỉnh. Đồng thời đƣa ra một số phần mềm nhận dạng của Việt Nam và Thế giới cùng với các mẫu kết quả phân tích của nó nhàm mục đích so sánh và xác định phạm vi cho đề tài. I.1. Ảnh tài liệu và nhận dạng ảnh tài liệu I.1.1. Tổng quan về ảnh tài liệu Trang ảnh tài liệu đƣợc đề cập ở đây là các file ảnh số hoá thu đƣợc bằng cách quét các trang tài liệu dùng máy scanner, máy ảnh số, hay nhận từ một máy fax (Hình 1), file ảnh này đƣợc lƣu giữ trong máy tính. Ảnh tài liệu có nhiều loại: ảnh đen trắng, ảnh màu, ảnh đa cấp xám với các phần mở rộng nhƣ TIF, BMP, PCX, …(Hình 2) và ảnh tài liệu đƣợc đƣa ra trong luận văn này là ảnh đa cấp xám. Ảnh số Tài liệu Thiết bị thu nhận ảnh Anh số tài liệu Hình 1: Sơ đồ tổng quan quá trình tạo ảnh tài liệu Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên 5 http://www.lrc-tnu.edu.vn GVHD: PGS. TS. Ngô Quốc Tạo Luận văn tốt nghiệp cao học Học viên: Nguyễn Văn Huy Hình 2: Ví dụ ảnh tài liệu I.1.2. Nhận dạng tài liệu và vai trò của phân tích ảnh tài liệu Ngày nay, máy tính đang phát triển mạnh mẽ, tốc độ xử lý không ngừng đƣợc nâng lên. Cùng với nó là sự ra đời của các phần mềm thông minh đã khiến máy tính ngày một gần gũi với con ngƣời hơn. Một trong các khả năng tuyệt vời của con ngƣời mà các nhà khoa học máy tính muốn đạt đƣợc đó là khả năng nhận dạng và lĩnh vực nhận dạng thu đƣợc nhiều thành công nhất là nhận dạng ký tự quang OCR–Optical Character Recognition. OCR có thể đƣợc hiểu là quá trình chuyển đổi tài liệu dƣới dạng file ảnh số hoá (là dạng chỉ có ngƣời đọc đƣợc) thành tài liệu dƣới dạng file văn bản (là tài liệu mà cả ngƣời và máy đều có thể đọc đƣợc). OCR có rất nhiều ứng dụng hữu ích trong cuộc sống nhƣ: - Sắp xếp thƣ tín, dựa vào việc nhận dạng mã bƣu chính (Zipcode) hay địa chỉ gửi tới. - Tự động thu thập dữ liệu từ các mẫu đơn/báo biểu hay từ các hồ sơ lao động. - Hệ thống tự động kiểm tra trong ngân hàng (tự động xác nhận chữ ký) - Tự động xử lý các hóa đơn hay các yêu cầu thanh toán - Hệ thống tự động đọc và kiểm tra passport - Tự động phục hồi và copy tài liệu từ các ảnh quét. - Máy đọc cho những ngƣời khiếm thính - Các ứng dụng Datamining - … Sơ đồ một hệ thống OCR cơ bản ở Hình 3. Trong đó: Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên 6 http://www.lrc-tnu.edu.vn GVHD: PGS. TS. Ngô Quốc Tạo Luận văn tốt nghiệp cao học Học viên: Nguyễn Văn Huy - Scanner: Thiết bị quét ảnh - OCR hardware/software: o Document analysis: Phân tích tài liệu o Character recognition: Nhận dạng ký tự o Contexttual processor: Xử lý văn cảnh - Output interface: Đầu ra  Nhƣ vậy vai trò chính của khâu phân tích ảnh tài liệu là việc phân đoạn trang, tách vùng văn bản ra khỏi nền và đồ họa tạo mẫu chuẩn cho khâu nhận dạng. Rõ dàng là kết quả của khâu phân tích này ảnh hƣởng rất lớn đến hiệu của của khâu nhận dạng nếu sử dụng mẫu hay các chuỗi văn bản đầu ra của nó. Hình 3: Sơ đồ OCR cơ bản I.2. Cấu trúc của ảnh tài liệu Một khái niệm mấu chốt trong xử lý tài liệu đó là cấu trúc của tài liệu. Cấu trúc tài liệu thu đƣợc từ việc liên tiếp chia nhỏ nội dung của tài liệu thành các phần nhỏ đơn vị (tức không thể phân chia đƣợc nữa) và chúng đƣợc gọi là các đối tƣợng cơ sở (basic objects). Còn tất cả các đối tƣợng khác đƣợc gọi là các đối tƣợng hỗn hợp. Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên 7 http://www.lrc-tnu.edu.vn GVHD: PGS. TS. Ngô Quốc Tạo Luận văn tốt nghiệp cao học Học viên: Nguyễn Văn Huy Có hai loại cấu trúc của tài liệu đƣợc quan tâm ở đây đó là cấu trúc vật lý (hay bố cục vật lý) và cấu trúc logic mô tả mối quan hệ logic giữa các vùng đối tƣợng trong tài liệu. I.2.1. Cấu trúc vật lý Bố cục vật lý của một tài liệu mô tả vị trí và các đƣờng danh giới giữa các vùng có nội dung khác nhau trong một trang tài liệu[6]. Quá trình phân tích bố cục tài liệu là thực hiện việc tách từ một trang tài liệu ban đầu thành các vùng có nội dung cơ sở nhƣ hình ảnh nền, vùng văn bản,… Để mô tả bố cục vật lý của tài liệu ngƣời ta sử dụng một cấu trúc hình học với mỗi đối tƣợng trong cấu trúc là một phần tử chỉ chứa nội dung đồng nhất. Các kiểu đối tƣợng hình học đƣợc định nghĩa nhƣ sau[4]:  Block là đối tƣợng cơ sở tƣơng ứng với một vùng hình chữ nhật chứa một phần nội dụng của tài liệu.  Frame một đối tƣợng hỗn hợp tƣơng ứng với một hình chữ nhật bao gồm một hoặc nhiều block hoặc bao gồm các frame.  Page là đối tƣợng hình học hoặc hỗn hợp các thành phần cơ sở tƣơng ứng với một vùng hình chữ nhật, nếu là đối tƣợng hỗn hợp nó chứa một hoặc nhiều block, một hoặc nhiều frame.  Page set (tập trang) là một tập của một hoặc nhiều page.  Điểm gốc của cấu trúc (hay nút gốc) là một đối tƣợng ở mức cao nhất trong sơ đồ phân cấp của cấu trúc hình học tài liệu. Hình 4(b) cho ví dụ một cấu trúc hình học mô tả bố cục vật lý của trang tài liệu tƣơng ứng. Các thuật toán phân tích bố cục tài liệu có thể đƣợc chia làm ba loại chính dựa theo phƣơng pháp thực hiện của nó. - Bottom-up: Ý tƣởng chính của các thuật toán loại này là bắt đầu từ những phần tử nhỏ nhất (nhƣ từ các pixel hay các phần tử liên thông) sau đó liên tục nhóm chúng lại thành các vùng lớn hơn. - Top-down: Thuật toán này bắt đầu từ vùng lớn nhất chứa cả trang tài liệu sau đó liên tục phân chia thành các vùng nhỏ hơn. - Các thuật toán không theo thứ bậc: nhƣ Fractal Signature, Adaptive splitand-merge … Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên 8 http://www.lrc-tnu.edu.vn GVHD: PGS. TS. Ngô Quốc Tạo Luận văn tốt nghiệp cao học Học viên: Nguyễn Văn Huy Hình 4: b-Cấu trúc vật lý: c,d-Cấu trúc logic của một tài liệu[4] Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 9 GVHD: PGS. TS. Ngô Quốc Tạo Luận văn tốt nghiệp cao học Học viên: Nguyễn Văn Huy I.2.2. Cấu trúc logic Ngoài bố cục vật lý, các trang tài liệu còn chứa đựng nhiều thông tin về ngữ cảnh và nội dung nhƣ các tiêu đề, đoạn văn, đề mục, …và mỗi vùng nội dung này lại đƣợc gán các nhãn logic hay nhãn theo chức năng tƣơng ứng, khác biệt hoàn toàn với các nhãn trong bố cục vật lý. Hầu hết các tài liệu đều có một quy tắc đọc để có thể hiểu hết nội dung của tài liệu. Với một số ngôn ngữ đặc biệt nhƣ tiếng Trung, tiếng Ả rập lại có quy cách đọc khác biệt (nhƣ đọc từ phải qua trái, trên xuống). Tập hợp tất cả các yếu tố logic và chức năng trong một tài liệu và mối quan hệ giữa chúng đƣợc gọi là cấu trúc logic của tài liệu[6]. Thông thƣờng pha phân tích cấu trúc logic của tài liệu đƣợc thực hiện trên kết quả của bƣớc phân tích bố cục vật lý. Tuy nhiên với một số loại tài liệu phức tạp, thì pha phân tích bố cục vật lý lại cần thêm một số thông tin logic liên quan đến các vùng để có thể phân đoạn một cách chính xác. Hình 4(c,d) mô tả một ví dụ cấu trúc logic của tài liệu. I.3. Quá trình phân tích tài liệu Ảnh tài liệu chứa rất nhiều loại vùng thông tin khác nhau nhƣ các block, lines, words, figures, tables và background. Ta có thể gọi các vùng này theo chức năng của nó trong tài liệu hoặc gán cho nó các nhãn logic nhƣ sentences, titles, captions, address,… Quá trình phân tích tài liệu là thực hiện việc tách một tài liệu thành các vùng theo một tiêu chuẩn hay mối quan hệ lẫn nhau nào đấy. Công việc này đƣợc thực hiện qua nhiều bƣớc nhƣ tiền xử lý, tách vùng, lặp cấu trúc tài liệu,… Một số loại tài liệu nhƣ báo, tạp chí, sách quảng cáo, chúng có cấu trúc và bố cục rất phức tạp và không có một form chung nào cả (Hình 5). Với con ngƣời để có thể đọc hiểu đƣợc một trang tài liệu còn cần thêm nhiều kiến thức bổ sung nhƣ ngôn ngữ, hoàn cảnh, các luật ngầm định, vì thế việc tự động phân tích các trang tài liệu một cách tổng quát là một việc rất khó khăn thậm chí là không khả thi ngay cả với các hệ thống phân tích tài liệu tiên tiến nhất[6]. Hình 5: Ví dụ loại tài liệu có bố cục phức tap Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên 10 http://www.lrc-tnu.edu.vn GVHD: PGS. TS. Ngô Quốc Tạo Luận văn tốt nghiệp cao học Học viên: Nguyễn Văn Huy Sơ đồ nguyên lý của một hệ thống tự động phân tích tài liệu nhƣ sau: Hình 6: Sơ đồ nguyên lý hệ thống xử lý tài liệu[6] I.3.1. Tiền xử lý(preprocessing): Hầu hết các ảnh tài liệu đều có nhiễu do quá trình thu nhận ảnh gây ra (môi trƣờng, chất lƣợng máy quét), vì thế trong quá trình xây dựng các thuật toán phân tích cần loại bỏ các nhiễu này và công việc này thƣờng đƣợc tiến hành trƣớc khi bắt đầu phân tích bố cục hay cấu trúc và gọi là Tiền xử lý. Nhiệm vụ chính của bƣớc này là loại bỏ nhiễu, tách nền ra khỏi nội dung, phát hiện và xoay góc nghiêng,…  Lọc nhiễu(noise removal): Nhiễu luôn là một vấn đề trong hầu hết các bài toán đọc hiểu tài liệu. Nhiễu sinh ra không chỉ do quá trình scan ảnh mà còn bao gồm cả các nhiễu trắng gây ra từ chính sensor hay các mạch thu nhận trong các máy thu nhận ảnh số. Nhiễu có thể đƣợc loại bớt sử dụng một số các kỹ thuật nhƣ lọc trung bình, lọc trung vị, lọc thông thấp,…  Tách nền (Background separation): Đây là một vấn đề rất quan trọng ảnh hƣởng trực tiếp đến hiệu quả của các thuật toán phân tích tài liệu. Nếu đối với các loại tài liệu có nền đồng nhất màu trắng hoặc đen thì việc tách có thể thực hiện đơn giản bằng phép phân ngƣỡng, tuy nhiên trong thực tế rất nhiều ảnh tài liệu có nền rất phức tạp nhƣ ảnh hay đồ họa (Hình 7) thì việc xác định các pixell nào thực sự thuộc về “phần nổi” là một công việc khó khăn. Ta có thể tách nền bằng một số kỹ thuật nhƣ sau: - Gán mỗi điểm ảnh vào “phần nổi” hay phần nền dựa theo một tiêu chí nào đấy (nhƣ ngƣỡng mức xám, …) Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên 11 http://www.lrc-tnu.edu.vn GVHD: PGS. TS. Ngô Quốc Tạo Luận văn tốt nghiệp cao học Học viên: Nguyễn Văn Huy - Dựa theo độ đo xác suất xuất hiện của mỗi điểm ảnh mà phân lớp nó vào nền hay phần nổi - Dựa vào các pixel liên thông kết hợp với mạng noron để phân tách. Hình 7: a - Ảnh gốc b - Ảnh sau khi tách nền  Xác định góc nghiêng: Do quá trình thu nhận ảnh (nhƣ đặt lệch tài liệu khi scan,…) ảnh tài liệu thu đƣợc rất có thể bị nghiêng, tức trục của các dòng văn bản không song song với trục ngang (Hình 8). Việc xác định đƣợc góc nghiêng và xoay lại tài liệu là một khâu rất quan trọng ảnh hƣởng đến hiệu quả trong một số thuật toán phân tích. Ví dụ nhƣ các thuật toán dựa theo biểu đồ sau phép chiếu nghiêng để tiến hành phân tích thì sẽ hoàn toàn thất bại nếu văn bản bị nghiêng. Tuy nhiên việc có thể tự động ƣớc lƣợng đƣợc chính xác góc nghiêng của ảnh tài liệu là một bài toán khó. Có nhiều kỹ thuật để có thể xác định đƣợc góc nghiêng của tài liệu, điểm chung trong hầu hết các thuật toán là xác định góc nghiêng bằng việc xác định hƣớng của các dòng văn bản dựa vào vị trí một số ký tự trong tài liệu. I.3.2. Phân tích cấu trúc vật lý Phân tích tài liệu đƣợc định nghĩa là quá trình xác định cấu trúc vật lý của một tài liệu. Trong khâu này thì từ một ảnh tài liệu đầu vào sẽ đƣợc chia thành một số khối (block) chứa các nội dung thành phần của tài liệu nhƣ các dòng văn bản, tiêu đề, đồ họa,... cùng với có hoặc không các tri thức biết trƣớc về định dạng của nó[6]. Có một số phƣơng pháp phân tích và đƣợc phân ra làm hai loại nhƣ sau:  Các phƣơng thức có thứ bậc: Trong quá trình chia tài liệu thành các block chúng ta quan tâm đến mối quan hệ về mặt hình học giữa các block. Có ba phƣơng pháp thuộc loại này là: o Phân tích top-down (trên xuống) o Phân tích buttom-up (dƣới lên) Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên 12 http://www.lrc-tnu.edu.vn GVHD: PGS. TS. Ngô Quốc Tạo Luận văn tốt nghiệp cao học Học viên: Nguyễn Văn Huy o Phân tích kiểu Adaptive split-and-merge (tách và nối thích nghi)  Các phƣơng pháp không có thứ bậc: Trong quá trình chia tài liệu thành các khối chúng ta không quan tâm đến mối quan hệ hình học giữa các block. Hình 8: Ví dụ một ảnh tài liệu bị nghiêng một góc 5 độ I.3.3. Phân tích cấu trúc logic Từ kết quả của pha phân tích cấu trúc vật lý, phân tích cấu trúc logic sẽ đi xác định mối quan hệ logic giữa các vùng đã đƣợc gắn nhãn nhƣ tiêu đề, văn bản, đề mục, hearder,… Bƣớc này là cơ sở cho việc nhận dạng ký tự. - Việc xác định đƣợc vị trí chính xác của mỗi vùng trong cấu trúc logic sẽ tăng thêm thông tin cho quá trình nhận dạng nhƣ thông tin về ngữ cảnh, đoán nhận đƣợc kiểu font và kích thƣớc chữ nếu biết nó thuộc vùng tiêu đề, đề mục hay trong đoạn văn,… (Hình 9) Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên 13 http://www.lrc-tnu.edu.vn GVHD: PGS. TS. Ngô Quốc Tạo Luận văn tốt nghiệp cao học Học viên: Nguyễn Văn Huy document(page) article(page) article(page) abstract sub-title sub-title sub-title paragraphs paragraphs paragraphs Hình 9: Ví dụ một cây mô tả cấu trúc logic của một trang tài liệu[5] I.4. Một số hệ thống phân tích tài liệu hiện nay I.4.1. VnDOCR Vndocr phần mềm nhận dạng tiếng Việt là một sản phẩm của Viện công Nghệ thông tin. VnDOCR thu thập thông tin nhờ quá trình quét các loại sách báo thông qua máy quét thành các tệp ảnh và chuyển đổi thành các tệp có định dạng *.doc, *.xls, *.txt, *.rtf,... có thể đọc và chỉnh sửa đƣợc trên các phần mềm soạn thảo văn bản thông dụng nhƣ Office, Wordpad,… (Hình 10) Môi trƣờng  PC với hệ điều hành Windows 9x, ME, 2000, XP, NT,… Tiện ích: Bộ gõ chữ Việt, bộ font ABC, VNI, Unicode,... Thông tin đƣa vào  Quét trực tiếp các loại sách báo, văn bản qua máy quét (Scanner).  Đọc và xử lý hơn 30 dạng tệp tin ảnh phổ dụng nhất nhƣ PCX, BMP, TIF, GIF, JPG, ...  Có thể nhận dạng trực tiếp tài liệu quét qua Scanner không cần lƣu trữ dƣới dạng tệp ảnh trung gian. Các trang tài liệu có thể đƣợc quét và lƣu trữ dƣới dạng tệp tin nhiều trang. Các chức năng chính: Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên 14 http://www.lrc-tnu.edu.vn GVHD: PGS. TS. Ngô Quốc Tạo Luận văn tốt nghiệp cao học Học viên: Nguyễn Văn Huy - Phân tích cấu trúc vật lý của tài liệu và đƣa ra cấu trúc phần vùng - Phân tích và nhận dạng chữ đầu ra là text có thể copy hay lƣu trữ và soạn thảo lại đƣợc. Hình 10: VnDOCR và một ví dụ nhận dạng1 Một số hạn chế: Tính đến phiên bản 4.0 - VnDOCR chỉ làm việc với ảnh đen trắng - Với các ảnh có cấu trúc vật lý phức tạp VnDOCR cho kết quả phân tích với hiệu quả chƣa cao (Hinh 11, 12) Thí nghiệm 1: - 1 Với ảnh đầu vào nhƣ sau: Nguồn từ www.vndocr.com Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên 15 http://www.lrc-tnu.edu.vn GVHD: PGS. TS. Ngô Quốc Tạo
- Xem thêm -

Tài liệu liên quan

Tài liệu xem nhiều nhất