Tài liệu Phương pháp phát hiện bảng trong tài liệu tổng hợp

  • Số trang: 75 |
  • Loại file: PDF |
  • Lượt xem: 87 |
  • Lượt tải: 0
nhattuvisu

Đã đăng 27125 tài liệu

Mô tả:

ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG ------------ ------------ Nguyễn Cảnh Ân PHƢƠNG PHÁP PHÁT HIỆN BẢNG TRONG TÀI LIỆU TỔNG HỢP LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN THÁI NGUYÊN- 2014 Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG ------------ ------------ Nguyễn Cảnh Ân PHƢƠNG PHÁP PHÁT HIỆN BẢNG TRONG TÀI LIỆU TỔNG HỢP Chuyên ngành : Mã số: Khoa học máy tính 60 48 01 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS.TS Ngô Quốc Tạo THÁI NGUYÊN- 2014 Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ MỤC LỤC DANH MỤC CÁC HÌNH VẼ.............................................................................. i LỜI CẢM ƠN .................................................................................................... iii MỞ ĐẦU .............................................................................................................. 1 CHƢƠNG 1: HỆ PHÂN TÍCH TRANG TÀI LIỆU ẢNH VÀ BÀI TOÁN PHÁT HIỆN BẢNG……………………………………………………………4 1.1. Giới thiệu chung hệ phân tích trang tài liệu và bài toán phát hiện bảng…...4 1.1.1. Quá trình thu nhận ảnh ............................................................................. 7 1.1.2. Các bước xử lý điểm ảnh ......................................................................... 8 1.1.2.1. Phương pháp nhị phân........................................................................ 8 1.1.2.2. Giảm nhiễu ....................................................................................... 10 1.1.2.3. Phân đoạn ......................................................................................... 11 1.1.2.4. Làm mảnh và xác định vùng ............................................................ 11 1.1.2.5. Mã hóa CC và véctơ hóa .................................................................. 13 1.1.3. Phân tích các đặc trưng của tài liệu ảnh ................................................. 14 1.1.4. Phân tích các đối tượng văn bản trong tài liệu ....................................... 15 1.1.4.1. Ước lượng độ nghiêng của văn bản ................................................. 15 1.1.4.2. Phân tích sơ đồ trình bày của trang tài liệu ...................................... 17 1.1.5. Nhận dạng ký tự quang học (OCR)........................................................ 19 1.1.5.1. Trích chọn đặc trưng ........................................................................ 21 1.1.5.2. Phân loại ........................................................................................... 22 1.1.5.3. Nhận dạng ký tự dựa trên ngữ cảnh ................................................. 25 1.2. Bài toán phát hiện bảng ................................................................................ 26 1.2.1. Mô tả bài toán ...................................................................................... 27 Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 1.2.2. Một số hướng tiếp cận ......................................................................... 29 1.3. Kết luận chương ........................................................................................... 30 CHƢƠNG 2: PHÂN TÍCH BẢNG DỰA TRÊN T-RECS ......................... 32 2.1. Phương pháp phát hiện bảng trong tài liệu ảnh............................................ 32 2.2. Giới thiệu thuật toán T-Recs ........................................................................ 38 2.2.1. Các bước khởi tạo và phân đoạn của thuật toán ................................... 41 2.2.2. Trường hợp xác định sai cột của thuật toán .......................................... 43 2.2.3. Cải tiến một số bước của thuật toán ..................................................... 44 2.2.4. Những ưu điểm của thuật toán .............................................................. 48 2.2.5. Những mặt hạn chế của thuật toán khởi tạo .......................................... 49 2.3. Xử lý khối sau khi phân đoạn .................................................................... 51 2.3.1. Trộn các khối phân đoạn sai.................................................................. 51 2.3.2. Phân tách các cột bị trộn vào một khối ................................................. 52 2.3.3. Nhóm các từ bị phân tách ...................................................................... 55 2.4. Phân tích khối ............................................................................................... 56 2.5. Phát hiện cấu trúc các cột, hàng ................................................................... 57 2.6. Kết luận chương ........................................................................................... 58 CHƢƠNG 3: CHƢƠNG TRÌNH DEMO CỦA THUẬT TOÁN ................. 59 3.1. Giới thiệu chung ........................................................................................... 59 3.2. Mô tả chương trình ....................................................................................... 60 3.3. Một số kết quả thử nghiệm........................................................................... 61 KẾT LUẬN ........................................................................................................ 63 DANH MỤC CÁC TÀI LIỆU THAM KHẢO ............................................... 66 Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ i DANH MỤC CÁC HÌNH VẼ Hình 1.1 Sơ đồ khối của việc xử lý tài liệu Hình 1.2 Các bước xử lý cho một hệ phân tích tài liệu, đi kèm sơ đồ là một thí dụ với các kết quả thu được từ từng bước Hình 1.3 Phương pháp nhị phân ảnh. (a) Histogram của ảnh đa cấp xám nguyên bản. Trục ngang biểu diễn các giá trị ngưỡng được chọn. Ảnh sau khi được nhị phân: (b) sử dụng ngưỡng thấp, (c) ngưỡng hợp lý, (d) ngưỡng quá cao Hình 1.4 Ảnh nguyên bản bên trái và ảnh sau khi làm mảnh bên phải. (a) Ký tự “m”. (b) Một sơ đồ. (c) Vân tay…………………… Hình 1.5 Cửa sổ 3x3 điểm ảnh với điểm ảnh X nằm ở tâm. Các giá trị số biểu diễn cho hướng mà một điểm láng giềng của X thuộc: 0 (hướng tây), 1(tây - bắc), 2(bắc), 3(đông - bắc), 4(đông), 5(đông – nam), 6(nam), 7(tây – nam) Hình 1.6 Văn bản bị nghiêng khi quét Hình 1.7 Biểu đồ Histogram của phép chiếu ngang và dọc của ảnh (a) và (b) Hình 1.8 Kết quả phân tích cấu trúc và chức năng các khối Hình 1.9 Để phân tách và nhận dạng hai số 4,2 có các nét nối liền nhau như trên dễ gây nhầm lẫn Hình 1.10 Các ký tự viết bằng tay sẽ rất dễ nhầm lẫn……………………….. Hình 1.11 Các cấu trúc đặc trưng nét, tính lõm, lỗ hổng, các điểm cắt ngang và kết thúc có thể được sử dụng làm các chiều của không gian đặc trưng để phân loại ký tự Hình 1.12 Các đặc trưng của ảnh ký tự được trích ra Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ ii Hình 1.13 Một số nhầm lẫn giữa bảng và đối tượng khác Hình 1.14 Khái niệm các thành phần trong bảng Hình 2.1 Một số lỗi phổ biến của các thuật toán phát hiện cấu trúc bảng Hình 2.2 Thuật toán phát hiện bảng dựa Tab-stop Hình 2.3 Các từ láng giềng của từ “consist” theo chiều dọc Hình 2.4 Thuật toán phân đoạn khởi tạo đối với một đoạn văn bản Hình 2.5 Trường hợp thuật toán nhận dạng sai cột Hình 2.6 Trường hợp giữa các dòng của một cột trong bảng có ô trắng Hình 2.7 Mô tả kết quả thuật toán đã được điều chỉnh nhận dạng khối Hình 2.8 Kết quả nhận dạng các cột từ hình 2.5 Hình 2.9 Mô tả quá trình phân khối của văn bản trong các cột có khoảng cách rất hẹp Hình 2.10 Trường hợp một ô của bảng chiếm nhiều dòng dữ liệu Hình 2.11 Những mặt hạn chế của thuật toán Hình 2.12 Trộn hai khối bị phân tách Hình 2.13 (a):Tách các cột nhỏ trong cột lớn;(b):Trộn các khối nhỏ vào khối lớn Hình 2.14 Trộn các từ bị tách nhờ vào các đoạn thẳng canh lề Hình 2.15 (a) Phân tích khối loại 1 thành cấu trúc các ô của bảng ; (b) Ô khối loại 2 được phân tich nhờ vào ô khối loại 1 Hình 2.16 Tách các khối loại 2 thành các hàng trong bảng Hình 3.1 Giao diện chương trình thử nghiệm Hình 3.2 Kết quả nhận dạng khối của chương trình Hình 3.3 Trường hợp nhận dạng có môi trường bảng Hình 3.4 Nhận dạng ra các cột, các khối văn bản Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ iii LỜI CẢM ƠN Trong suốt thời gian làm luận văn vừa qua, dưới sự giúp đỡ và chỉ bảo nhiệt tình của PGS.TS Ngô Quốc Tạo – Viện Công nghệ Thông tin – Viện Khoa học và công nghệ Việt Nam, luận văn của em đã được hoàn thành. Mặc dù bản thân đã cố gắng không ngừng cùng với sự tận tâm của thầy hướng dẫn song do thời gian và khả năng cũng còn nhiều hạn chế nên luận văn cũng không tránh khỏi những thiếu sót trong quá trình làm. Để hoàn thành xong luận văn này, em xin bày tỏ lòng biết ơn sâu sắc tới PGS.TS Ngô Quốc Tạo – người thầy đã tận tình hướng dẫn em trong quá trình tìm hiểu, xây dựng và phát triển luận văn này. Em xin chân thành cảm ơn các thầy cô giáo trong Ban giám hiệu, phòng Đào tạo, các thầy cô giáo của trường Đại học Công nghệ Thông tin và Truyền thông – Đại học Thái Nguyên cùng các thầy cô giáo trong Viện Công nghệ Thông Tin – Viện Khoa học và Công nghệ Việt Nam đã quan tâm, tạo điều kiện thuận lợi, nhiệt tình giảng dạy và hướng dẫn em trong suốt hai năm học qua. Và cuối cùng tôi xin gửi lời cảm ơn đến gia đình, cơ quan và toàn thể học viên lớp K11I Ninh Bình đã quan tâm, động viên và giúp đỡ tôi trong suốt hai năm học vừa qua. Cuối cùng em rất mong nhận được sự chỉ dẫn, góp ý của các thầy cô giáo để luận văn của em được hoàn thiện hơn. Em xin trân trọng cảm ơn ! Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 1 MỞ ĐẦU Trong những năm gần đây, các thiết bị phần cứng máy tính phục vụ cho công việc lưu trữ và xử lý hình ảnh đã phát triển vượt bậc cả về dung lượng lẫn tốc độ xử lý. Đồng thời, giá cả của các thiết bị này cũng đã giảm đến mức con người trên toàn thế giới dễ dàng sở hữu những thiết bị liên quan đến việc phân tích và xử lý hình ảnh. học máy tính. Các loại tài liệu lưu trữ trên giấy và xử lý theo các cách thức cũ không theo kịp tốc độ phát triển của công nghệ. Những công việc ngày nay liên quan đến các loại tài liệu không chỉ là các tài liệu chữ chỉ để lưu trữ mà tài liệu bao gồm nhiều thành phần như các bảng biểu, ảnh…với số lượng khổng lồ tài liệu và xử lý những nhiệm vụ phức tạp trên máy tính ngày càng nhiều. Những công việc văn phòng hàng ngày đều liên quan đến tài liệu, một tài liệu không chỉ đơn giản được lưu trữ mà nó cần phải được xử lý để có khả năng thay đổi, soạn thảo, chỉnh sửa và trích chọn các thông tin quan trọng. Vì thế các hệ phân tích tài liệu ra đời, mục đích của chúng là giúp biểu diễn thông tin trong các tài liệu ảnh, tài liệu giấy được đưa vào từ máy quét dưới dạng có cấu trúc. Lĩnh vực xử lý ảnh là một công việc có nhiều ứng dụng trong cuộc sống, theo đó, một số nước phát triển trên thế giới như Nhật Bản, Trung Quốc, Pháp, Mỹ, Canada đã không ngừng nghiên cứu phát triển công nghệ phần mềm liên quan đến ngành nhận dạng và xử lý hình ảnh để khai thác triệt để lợi thế của sức mạnh phần cứng hiện có. Cùng với sự phát triển công nghệ tri thức và nhận dạng trên thế giới, Việt Nam ta cũng đang từng bước đầu tư và phát triển ngành nhận dạng và xử lý ảnh. Điển hình là sự phát triển và ứng dụng mạnh mẽ của Viện Khoa học công nghệ Việt Nam – Viện Công nghệ Thông tin Việt Nam. Tại Viện Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 2 đã có nhiều tác giả nghiên cứu và cải tiến một số thuật toán quan trọng liên quan đến việc nhận dạng và phân tách các đối tượng khác nhau trong ảnh tài liệu. Từ đó đưa ra được một số phần mềm ứng dụng thiết thực trong cuộc sống. Điển hình là sản phẩm phần mềm Hệ nhận dạng quang học OCR, hay hệ nhận dạng các chuỗi văn bản, bảng biểu VnDOCR. Nhiều thuật toán ra đời và từng bước phát triển đã phục vụ đắc lực cho việc đưa ra các ứng dụng khả thi vào cuộc sống cũng như góp phần xây dựng và bổ sung kho tri thức khoa học công nghệ của thế giới. Điển hình về thuật toán nhận dạng đối tượng trong ảnh tài liệu là thuật toán nhận dạng bảng theo phương pháp tiếp cận dưới lên (bottom-up) được đề xuất bởi tác giả Thomas G.Kieninger được đặt tên là T-Recs. Phát hiện bảng và ảnh trong tài liệu ảnh là những bài toán khó và phức tạp. Trước đây các hệ phân tích tài liệu ảnh chỉ tập trung vào nhận dạng các chuỗi ký tự, phân đoạn các khối văn bản. Ngày nay tài liệu không chỉ đơn thuần là văn bản mà nó còn bao gồm hỗn hợp những đối tượng các chuỗi ký tự, ảnh, các hình vẽ, sơ đồ, các bảng biểu .v.v.. Một số yếu tố cấu thành nên bảng biểu (structure of table) đó là các ô (cells), các dòng (rows) và các cột (columns). Phát hiện bảng là bài toán phát hiện ra các cột, các dòng, các ô của bảng biểu. Việc phân tích cấu trúc của ảnh tài liệu có vai trò quan trọng rằng khi máy tính định hình được cấu trúc của ảnh thì sẽ giúp ích cho việc phục vụ mang tính chất đầu cuối cho những công đoạn xử lý khác, cũng như kết hợp xử lý tự động các dữ liệu thu thập được. Do đó, khi đã phát hiện được một đối tượng (văn bản hay hình ảnh) thì việc phát hiện luôn cả cấu trúc chứa đựng và liên quan với đối tượng đó là thật sự cần thiết. Một trong những cấu trúc quan trọng phổ biến thường được sử dụng mà trong luận văn quan tâm đề cập đến đó là việc phát hiện bảng biểu (detect table) trong ảnh tài liệu Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 3 Trong phạm vi một đề tài luận văn thạc sĩ với chủ đề “Phƣơng pháp phát hiện bảng trong tài liệu tổng hợp” tôi sẽ tìm hiểu một số phương pháp, kỹ thuật phát hiện bảng trong tài liệu tổng hợp, đưa ra giải pháp cải tiến thuật toán, hướng phát triển của thuật toán, xây dựng chương trình thử nghiệm. Bố cục của luận văn ngoài phần mở đầu và phần kết luận bao gồm 3 chương. Chương 1 trình bày ngắn gọn cấu trúc chung của một hệ phân tích tài liệu ảnh, bao gồm các thành phần chính như: lấy dữ liệu, xử lý điểm ảnh, trích chọn đặc trưng... và giới thiệu bài toán phát hiện bảng Chương 2 đưa ra một thuật toán phát hiện bảng theo phương pháp tiếp cận dưới – lên (bottom – up). Thuật toán được đề xuất bởi Thomas G .Kieninger (1998) được đặt tên là T-Recs. Tuy nhiên để phát hiện được chính xác các cấu trúc bảng thì thuật toán còn nhiều hạn chế. Luận văn sẽ chỉ ra trường hợp thuật toán phát hiện sai và đưa ra giải pháp nâng cao độ chính xác khi phát hiện. Cuối cùng chương 3 trình bày chương trình thử nghiệm: Nhận dạng bảng theo cấu trúc dùng để nhận dạng bảng trong trang tài liệu tổng hợp. Phần kết luận nêu tóm tắt lại các vấn đề được đưa ra trong luận văn và đưa ra những vấn đề còn tồn tại để nâng cao tính hiệu quả của những thuật toán. Các hướng giải quyết và nghiên cứu trong tương lai đối với những phương pháp này cũng sẽ được đưa ra. Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 4 CHƢƠNG 1: HỆ PHÂN TÍCH TRANG TÀI LIỆU ẢNH VÀ BÀI TOÁN PHÁT HIỆN BẢNG 1.1. Giới thiệu chung một hệ phân tích trang tài liệu và bài toán phát hiện bảng Ảnh tài liệu sau khi được quét và lưu trữ trong máy tính dưới dạng các tệp dữ liệu ảnh, chúng bao gồm các điểm ảnh (pixels) và mô hình giống như lưới các điểm ảnh. Một vấn đề đặt ra cho chúng ta là trích chọn ra các thông tin đặc trưng để máy tính có thể nhận biết được các dữ liệu này. Đây chính là nhiệm vụ của một hệ phân tích trang tài liệu. Đó chính là một tập hợp các thuật toán và các kỹ thuật để có thể phát hiện ra các đối tượng văn bản, đối tượng ảnh trong ảnh tài liệu và có khả năng trích chọn ra các thông tin người dùng mong muốn. Một trong những công nghệ được áp dụng để nhận dạng văn bản là công nghệ nhận dạng ký tự bằng quang học (Optical Character Recognition – OCR). Phần mềm này có khả năng nhận dạng ký tự trên nền định dạng ảnh tài liệu và chuyển sản phẩm nhận dạng sang kiểu tập tin văn bản có khả năng soạn thảo và tìm kiếm nội dung của tài liệu. Như vậy, mục đích của hệ phân tích tài liệu là phát hiện ra được các đối tượng khác nhau trong ảnh tài liệu như các đối tượng văn bản, hình ảnh… và đưa ra được các thông tin người dùng mong muốn để phục vụ cho các mục đích nghiên cứu, ứng dụng khác nhau. Và đặc biệt, trong phạm vi nghiên cứu của luận văn này đi sâu về việc phát hiện bảng (detect table) trong ảnh tài liệu. Trong các loại văn bản, tài liệu thì đối tượng bảng là thành phần quan trọng trong một trang tài liệu tổng hợp, do đó trước hết việc phân tích sơ đồ trình bày, Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 5 cấu trúc trang là rất cần thiết để phục vụ cho việc xác định đối tượng bảng biểu. Một trang tài liệu tổng hợp thông thường gồm có hai loại đối tượng chính là văn bản và hình ảnh, trên cơ sở các công nghệ nhận dạng hiện nay thì một hệ phân tích trang tài liệu sẽ thực hiện hai nhiệm vụ chính sau. Nhiệm vụ thứ nhất là xử lý các đối tượng văn bản như ký tự, chuỗi ký tự, các từ. Nhiệm vụ thứ hai là xử lý các đối tượng hình ảnh được tạo ra từ các hình vẽ, đường kẻ, biểu đồ, các lôgô công ty…Sau khi thực hiện thành công hai nhiệm vụ chính trên thì hệ phân tích trang tài liệu sẽ trích chọn ra các thông tin cần thiết đã phát hiện được và được lưu lại dưới dạng định dạng tài liệu khác như Word,Html… Ta có thể đưa ra sơ đồ khối liệt kê quá trình xử lý ảnh tài liệu như sau: Xử lý tài liệu Xử lý văn bản Nhận dạng ký tự quang học OCR Văn bản Phân tích sơ đồ trình bày Xác định độ nghiêng, dòng văn bản, các khối văn bản, đoạn văn bản Xử lý đối tượng ảnh Xử lý đường kẻ Đường thẳng, đường cong, góc Xử lý vùng và biểu tượng Vùng được tô Hình 1.1: Sơ đồ khối của việc xử lý tài liệu. Nguồn: Gorman(2009) Trên thực tế chúng ta thấy việc thiết kế và ứng dụng được một hệ phân tích tài liệu ảnh rất cần thiết, nó giúp chúng ta giải quyết nhiều vấn đề khi mà số lượng dữ liệu lớn. Chúng ta có thể xem một số ví dụ cụ thể dưới đây để thấy được sự cần thiết của việc phân tích trang tài liệu. Thứ nhất, thực tế khi ta làm Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 6 các công việc văn phòng thì hầu hết các tài liệu văn bản được tạo ra từ máy tính nhưng các máy tính có thể được cài đặt các phần mềm khác nhau, do đó có thể định dạng của chúng là không tương thích với nhau và kích thước cũng khác nhau. Khi đó sẽ cần có một hệ phân tích tài liệu ảnh có khả năng lựa chọn được một số thông tin cần thiết để có khả năng chuyển đổi giữa các định dạng trên máy tính khác nhau. Trường hợp thứ hai là tại các doanh nghiệp sản xuất lớn với hàng ngàn công nhân thì việc chấm công theo cách thông thường sẽ rất khó khăn. Tuy nhiên, việc này được khắc phục nhằm đem lại sự tiện lợi, chính xác và nhanh chóng bằng cách sử dụng máy chấm công bằng vân tay tích hợp công nghệ xử lý và so sánh dấu vân tay bảo đảm được công tác chấm công giờ làm không cần sự theo dõi trực tiếp của con người. Trong đó máy chấm công bằng vân tay ứng dụng hệ phân tích ảnh tài liệu. Ngày nay, Công nghệ OCR có khả năng nhận dạng văn bản chính xác đến hơn 90%, các tài liệu lưu trữ trong thư viện, các tài liệu kỹ thuật sẽ được chuyển đổi thành các tài liệu điện tử trên máy tính để thuận tiện hơn trong việc lưu trữ, chỉnh sửa, biên tập lại. Tuy nhiên tài liệu giấy cho đến nay vẫn được sử dụng rộng rãi vì phù hợp với mọi đối tượng, dễ thao tác, phổ biến vì tính trực quan. Do đó, vấn đề ở đây là chúng ta phải sử dụng công nghệ kết hợp các thuật toán để tích hợp các dữ liệu dưới dạng ảnh để đưa vào xử lý trong máy tính. Sau khi có dữ liệu, máy tính phải thực hiện các bước xử lý cơ bản như xử lý điểm ảnh, phân tích các thành phần đặc trưng để phát hiện đối tượng văn bản và đối tượng ảnh. Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 7 Trang tài liệu Lấy dữ liệu 107 điểm ảnh 7500 hình bao ký tự, mỗi ký tự Xử lý điểm ảnh có kích thước 15x20 điểm ảnh 500 đường kẻ và đường cong với độ dài từ 20 đến 2000 điểm ảnh Phân tích đặc trưng 7500x10 đặc trưng của ký tự Phân tích và nhận dạng đối tượng ảnh 1500x10 ký tự, 10 đoạn văn bản, 1 tiêu đề chính và 2 tiêu đề phụ Mô tả tài liệu 1000 vùng ảnh được tô với kích thước từ 20x20 đến 200x200 điểm ảnh 500x5 đặc trưng của đường thẳng và đường cong 10x5 đặc trưng vùng Phân tích và nhận dạng văn bản Hai sơ đồ và 1 ảnh lô gô của công ty,.v.v.. Hình 1.2: Các bước xử lý cho một hệ phân tích tài liệu, đi kèm sơ đồ là một thí dụ với các kết quả thu được từ từng bước. Nguồn: Gorman(2009) 1.1.1. Quá trình thu nhận ảnh Thông thường ảnh được thu thập bằng cách quét quang học thông qua máy quét hoặc bằng cách sao chép hình ảnh, những đoạn phim kỹ thuật số từ máy chụp hoặc máy quay phim rồi được lưu trữ vào máy tính dưới dạng một tập tin ảnh gồm có các yếu tố hình ảnh, hoặc điểm ảnh, đó là “nguyên liệu” đầu vào để phân tích ảnh tài liệu sau này. Giá trị điểm ảnh có thể là 0 và 1 trong ảnh nhị phân, 0 đến 255 trong ảnh đa cấp xám và ảnh màu với 3 giá trị R, G, B từ 0 đến 255. Thí dụ, với một trang Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 8 ảnh tài liệu có kích thước 30x40 cm và có 140 điểm ảnh trong 1 centimet thì tạo được ảnh với 4200x5600 điểm ảnh. Do đó có thể thấy rằng một tài liệu ảnh chỉ bao gồm các dữ liệu thô (giá trị các điểm ảnh) và chúng sẽ được sử dụng những kỹ thuật phân tích thích hợp để lấy ra được các thông tin cần thiết. 1.1.2. Các bƣớc xử lý điểm ảnh Sau khi đã thu thập được ảnh, người ta sẽ tiến hành quá trình xử lý điểm ảnh để làm cơ sở cho các quá trình phân tích và nhận dạng về sau. Cụ thể, thường thực hiện các công việc như chọn ngưỡng để chuyển ảnh đa cấp xám, ảnh màu về dạng ảnh nhị phân hay các thành phần trong ảnh tài liệu không cần quan tâm đến có thể được loại trừ bằng việc giảm nhiễu (noise reduction) và một số bước còn lại là phân đoạn, dò biên để xác định các vùng, các đặc trưng và đối tượng phù hợp. Sau khi đã thực hiện các công đoạn vừa rồi, thì người ta thường nén các dữ liệu bằng các phương pháp mã hóa chuỗi (chain coding) và biểu diễn ở dạng vectơ. 1.1.2.1. Phƣơng pháp nhị phân Đối với ảnh tài liệu dạng đa cấp xám có thông tin vốn là nhị phân như văn bản hoặc hình ảnh thì mục tiêu là phải chọn được một ngưỡng để tách thông tin nền và thông tin ảnh thành hai phần riêng biệt. Công việc này chính là để chọn được một ngưỡng thích hợp để tách thông tin ảnh tài liệu thành hai phần như vậy không phải là việc dễ dàng và sẽ càng khó khăn hơn đối với chúng ta khi gặp phải những thông tin ảnh mà độ tương phản giữa giá trị điểm ảnh nền và giá trị điểm ảnh văn bản là thấp. Khi đường nét của văn bản quá mỏng hoặc khi quét ảnh tài liệu không đủ cường độ sáng thích hợp thì cũng gây ra những khó khăn trong quá trình tìm ngưỡng. Vì vậy, người ta đã áp dụng nhiều phương pháp tách ngưỡng để khắc phục khó khăn trên. Trong đó phương pháp tách ngưỡng tự động thường được áp dụng. Cụ thể, giá trị ngưỡng α trong kỹ thuật Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 9 tách ngưỡng thường cho bởi người sử dụng. Kỹ thuật tìm, tách ngưỡng tự động nhằm tìm ra ngưỡng α một cách tự động dựa vào histogram theo nguyên lý trong vật lý là vật thể tách làm hai phần nếu tổng độ lệch trong từng phần là tối thiểu (Đỗ Năng Toàn-2008). Hình 1.3: Mô phỏng phương pháp nhị phân ảnh. (a): Biểu đồ Histogram của ảnh đa cấp xám ban đầu. (b): ngưỡng thấp. (c): ngưỡng phù hợp. (c): ngưỡng cao. Nguồn: Gorman (2009). Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 10 1.1.2.2. Giảm nhiễu Xuất hiện các điểm nhiễu trong tài liệu ảnh là do nhiều nguyên nhân bao gồm sự thoái hoá theo thời gian, sự sao chép, quá trình quét tài liệu từ máy quét.. Các nhiễu làm giảm hoặc nhiều khi làm mất khả năng biểu lộ thông tin của đối tượng chính trong ảnh. Có nhiều loại nhiễu như nhiễu cộng, nhiễu nhân, nhiễu xung. Với mỗi loại nhiễu cần có các bộ lọc thích hợp. Với nhiễu cộng và nhiễu nhân ta dùng các bộ lọc thông thấp, trung bình, và lọc đồng hình. Sở dĩ như vậy vì bản chất của nhiễu là thường tương ứng với tần số cao và cơ sở lý thuyết của các bộ lọc là chỉ cho những tín hiệu nào đó thông qua. Nhiễu có thể coi như sự đột biến của một điểm ảnh so với các điểm lân cận. Một số kỹ thuật xử lý ảnh sẽ được áp dụng để loại bỏ nhiễu. Sau khi được nhị phân hoá, tài liệu ảnh sẽ được lọc để giảm nhiễu. Nhiễu muối và nhiễu hạt tiêu (Salt and Pepper noise) là những loại nhiễu phổ biến nhất có trong các tài liệu kém chất lượng. Chúng xuất hiện như những điểm ảnh khác biệt so với vùng xung quanh, chẳng hạn các điểm ảnh nhiễu ON (điểm mang thông tin ảnh) trong vùng nền OFF (điểm mang thông tin nền) hay ngược lại các điểm ảnh OFF trong vùng nền ON và các cạnh gồ ghề của ký tự hay các đối tượng ảnh. Các phép toán hình thái thường được sử dụng để loại bỏ nhiễu. Hai phép toán hình thái cơ bản là giãn ảnh (Dilation) và co ảnh (Erosion). Co ảnh là phương pháp làm giảm kích cỡ của vùng ON. Giãn ảnh là phương pháp ngược lại với co ảnh, trong đó những điểm đơn ON thì tăng thêm. Các phép toán này thường được kết hợp với nhau nhiều lần và áp dụng tuần tự co ảnh và giãn ảnh nhiều lần. Một trong những phương pháp kết hợp đó được gọi là phép toán OPENING, sử dụng cùng một số lần co ảnh và giãn ảnh. Kết quả của phép toán OPENING là vùng biên của đối tượng nhẵn hơn, vùng eo nhỏ bị đứt và các vùng điểm nhiễu nhỏ được loại bỏ. Phép toán đối xứng của OPENING là CLOSING. Nó thực hiện giãn ảnh cùng một số lần với co ảnh. Kết quả thu được của phép Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 11 toán CLOSING đó là vùng biên nhẵn hơn, loại bỏ các lỗ hổng (holes) nhỏ trong đối tượng và nối liền các kẽ hở ngắn giữa các đối tượng. 1.1.2.3. Phân đoạn Để phục vụ cho các bước xử lý ảnh tài liệu về sau, một trong những công đoạn khá quan trọng là phải tiến hành phân đoạn các đặc tính cơ bản có chứa trong hình ảnh thu nhận được. Cụ thể, việc phân đoạn được tiến hành với hai tiến trình chính. Thứ nhất là tách riêng biệt giữa các lớp của ảnh tài liệu, gồm lớp hình ảnh và lớp văn bản đối với trường hợp dữ liệu đầu vào có chứa cả hình ảnh và văn bản. Thứ hai là tiếp tục thực hiện các tiến trình phân tích trên các lớp vừa được tách ra. Với lớp hình ảnh thì phân định rõ các đối tượng hình vẽ, đường kẻ, biểu tượng cũng như các loại hình ảnh khác. Còn đối với lớp văn bản thì tiến hành xác định các ký tự, từ, đoạn văn, chia cột văn bản,…Một số hướng tiếp cận phương pháp phân khúc các đặc tính ảnh như dựa trên không gian đặc trưng, không gian ảnh hoặc là dựa trên mô hình vật lý. Tiếp đến là văn bản sẽ được tách thành các đoạn, các cột, các chuỗi, còn hình ảnh thì được tách thành các biểu tượng, đường kẻ và các đối tượng ảnh khác. Như vậy, tài liệu ảnh sau khi được thực hiện phân khúc sẽ quản lý được các đối tượng rất nhỏ như các phần cơ bản của ảnh. 1.1.2.4. Làm mảnh và xác định vùng Làm mảnh ảnh là một thao tác xử lý trong đó đối tượng ảnh được biểu diễn như những đường trục trung tâm hay còn gọi là lấy xương của đối tượng ảnh. Đây là kỹ thuật làm giảm bớt các điểm ảnh lân cận có cùng bản chất nhưng vẫn bảo đảm tính liên kết và liên thông của mỗi đối tượng ảnh. Xương được coi như là hình dạng cơ bản của một đối tượng, người ta có thể lấy lại được các thông tin về hình dạng nguyên bản của một đối tượng thông qua xương của nó. Việc tìm được xương của đối tượng ảnh sẽ giúp chúng ta giảm bớt tốn kém vì không cần thiết phải lưu trữ những thông tin không quan trọng trong quá trình Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 12 xử lý sau này, cũng như có thể đồng bộ hóa việc lưu trữ các đối tượng ảnh tương tự nhau ví dụ như những đoạn thẳng có thể vẽ với độ dày mỏng khác nhau nhưng khi lưu trữ và biểu diễn thì các đoạn này là giống nhau nhờ vào việc biểu diễn xương của chúng. Hình 1.4 biểu diễn ảnh nguyên bản bên trái và xương tương ứng của chúng phía bên phải. Đã có nhiều thuật toán được phát triển trong việc tìm xương nhằm từng bước khắc phục việc mất mát thông tin trong quá trình thực hiện. Người ta chia thành hai loại thuật toán tìm xương là tìm xương dựa trên làm mảnh (thinning) và tìm xương không dựa trên làm mảnh. Thuật toán làm mảnh là quá trình lặp duyệt và kiểm tra tất cả các điểm thuộc đối tượng. Trong mỗi lần lặp tất cả các điểm của đối tượng sẽ được kiểm tra: Nếu chúng thỏa mãn điều kiện xóa nào đó tuỳ thuộc vào mỗi thuật toán thì nó sẽ bị xóa đi. Quá trình được lặp lại cho đến khi không còn điểm biên nào được xóa. Đối tượng được bóc dần lớp biên cho đến khi nào bị thu mảnh lại chỉ còn các điểm biên. Người ta thường sử dụng thuật toán làm mảnh song song và thuật toán làm mảnh tuần tự. Nếu tìm xương không dựa trên làm mảnh thì để tách được xương của đối tượng, người ta sử dụng đường biên của đối tượng nhờ vào trục trung vị thông qua hai bước cơ bản: Bước thứ nhất là tính khoảng cách từ mỗi điểm ảnh của đối tượng đến điểm biên gần nhất và cần phải tính toán khoảng cách tới tất cả các điểm biên của ảnh. Bước thứ hai, khoảng cách ảnh đã được tính toán và các điểm ảnh có giá trị lớn nhất được xem là nằm trên xương của đối tượng (Đỗ Năng Toàn-2008). Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 13 Hình 1.4: Ảnh nguyên bản bên trái và ảnh sau khi làm mảnh bên phải. (a) Ký tự “m”. (b) Một sơ đồ. (c) Vân tay. Nguồn: Gorman (2009). 1.1.2.5. Mã hóa CC và véctơ hóa Khi đã phát hiện được xương hoặc biên của đối tượng ảnh thì ta có thể biểu diễn ảnh theo một trong hai cách này. Nhưng đối tượng ảnh còn có thể được biểu diễn hiệu quả hơn bằng cách lưu trữ các điểm ảnh theo các giá trị ON và OFF, trong đó giá trị ON thể hiện giá trị của mỗi điểm ảnh và OFF biểu diễn giá trị điểm nền. Một trong những phương pháp lưu ảnh hiệu quả đó là lưu dưới dạng mã xích CC (Chain Code – Freeman 1974), trong đó các điểm có giá trị ON được biểu diễn thông qua tập các điểm láng giềng đi theo một hướng quy định. Thay vì phải lưu trữ vị trí của điểm ảnh có giá trị ON chúng ta sẽ lưu trữ hướng của các điểm láng giềng. Các điểm láng giềng của một điểm x là tất cả các điểm nằm liền kề với x thuộc ma trận 3 x 3 với điểm x là tâm. Có hai ưu điểm khi biểu Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
- Xem thêm -