Đăng ký Đăng nhập
Trang chủ Nâng cao chất lượng hệ thống nhập dữ liệu tự động theo FORM...

Tài liệu Nâng cao chất lượng hệ thống nhập dữ liệu tự động theo FORM

.PDF
68
60135
171

Mô tả:

1 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ =======   ====== Nguyễn Quang NÂNG CAO CHẤT LƢỢNG HỆ THỐNG NHẬP DỮ LIỆU TỰ ĐỘNG THEO FORM LUẬN VĂN THẠC SĨ Hà Nội - 2010 2 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ =======   ====== NGUYỄN QUANG NÂNG CAO CHẤT LƢỢNG HỆ THỐNG NHẬP DỮ LIỆU TỰ ĐỘNG THEO FORM Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã số: 60 48 05 LUẬN VĂN THẠC SĨ Ngƣời hƣớng dẫn khoa học: PGS. TS Đỗ Năng Toàn Hà Nội - 2010 5 MỤC LỤC LỜI CAM ĐOAN ............................................................................................................. 3 LỜI CẢM ƠN .................................................................................................................. 4 PHẦN MỞ ĐẦU .............................................................................................................. 7 CHƢƠNG 1 : KHÁI QUÁT VỀ XỬ LÝ ẢNH VÀ FORM TÀI LIỆU ........................... 10 1.1. KHÁI QUÁT VỀ XỬ LÝ ẢNH .................................................................................... 10 1.1.1. Xử lý ảnh là gì ............................................................................................................ 10 1.1.2. Các vấn đề cơ bản trong xử lý ảnh .............................................................................. 12 1.1.2.1. Picture Element: phần tử ảnh ............................................................................... 13 1.1.2.2. Grey level: mức xám ............................................................................................ 13 1.1.2.3. Quan hệ giữa các điểm ảnh .................................................................................. 14 1.2. BIỂU DIỄN FORM TÀI LIỆU ...................................................................................... 17 1.2.1. Các mô hình biểu diễn ảnh.......................................................................................... 17 1.2.1.1. Mô hình Raster ..................................................................................................... 17 1.2.1.2. Mô hình Vector..................................................................................................... 18 1.2.2. Các phƣơng pháp biểu diễn ảnh .................................................................................. 18 1.2.2.1. Biểu diễn mã loạt dài (Run – Length code) ........................................................... 19 1.2.2.2. Biểu diễn mã xích (Chain Code) ........................................................................... 19 1.2.2.3. Biểu diễn mã tứ phân (Quad Tree Code) ............................................................... 20 1.2.3. Biểu diễn Form tài liệu ............................................................................................... 21 1.2.3.1. Cấu trúc vật lý ...................................................................................................... 22 1.2.3.1. Cấu trúc logic ....................................................................................................... 23 CHƢƠNG 2 : MỘT SỐ KỸ THUẬT NÂNG CAO CHẤT LƢỢNG HỆ THỐNG NHẬP DỮ LIỆU TỰ ĐỘNG THEO FORM .............................................................................. 25 2.1 KHỬ NHIỄU ................................................................................................................. 25 2.1.1. Nhiễu ảnh ................................................................................................................... 25 2.1.2. Khử nhiễu ................................................................................................................... 26 2.1.2.1. Lọc tuyến tính (Linear Filter) ................................................................................ 26 2.1.2.1.1. Lọc trung bình không gian.......................................................................................... 26 2.1.2.1.2. Lọc thông thấp (Spacial Low- Pass Filter) .................................................................. 28 2.1.2.1.3. Lọc đồng hình (Homomorphic filter) .......................................................................... 30 2.1.2.2. Lọc phi tuyến (NonLinear Filter) .......................................................................... 30 2.1.2.2.1. Lọc trung vị (Median filter) ........................................................................................ 31 2.1.2.2.2. Lọc ngoài (Outlier filter) ............................................................................................ 32 2.1.2.2.3. Bộ lọc giữ biên (Kuwahara filter) ............................................................................... 33 2.1.2.3. Mặt nạ gờ sai phân và làm nhăn (Unharp Masking and Crispering) ....................... 33 6 2.1.2.4. Lọc thông thấp, thông cao và lọc dải thông ........................................................... 34 2.2 PHÁT HIỆN VÀ HIỆU CHỈNH GÓC NGHIÊNG ......................................................... 36 2.2.1. Biến đổi Hough .......................................................................................................... 37 2.2.1.1. Biến đổi Hough cho đƣờng thẳng ......................................................................... 37 2.2.1.2. Biến đổi Hough cho đƣờng thẳng trong toạ độ cực ............................................... 39 2.2.1.3. Áp dụng biến đổi Hough trong phát hiện và hiệu chỉnh góc nghiêng văn bản ....... 40 2.2.2. Phép chiếu nghiêng (Projection Profiles) .................................................................... 43 2.2.2.1. Giới thiệu về phép chiếu nghiêng ......................................................................... 43 2.2.2.2. Áp dụng phép chiếu nghiêng trong việc phát hiện và hiệu chỉnh góc nghiêng văn bản .................................................................................................................................... 46 2.2.3. Phƣơng pháp láng giềng gần nhất (Nearest Neighbor)................................................. 47 2.2.3.1. Một số định nghĩa ................................................................................................ 48 2.2.3.2. Thuật toán phát hiện góc nghiêng dựa trên phƣơng pháp láng giềng gần nhất....... 51 2.2.4. Biến đổi Morphology.................................................................................................. 52 2.2.4.1. Tiền xử lý ............................................................................................................ 52 2.2.4.2. Ƣớc lƣợng thô...................................................................................................... 52 2.2.4.3. Áp dụng các phép biến đổi Morphology............................................................... 55 2.2.4.4. Ƣớc lƣợng tinh .................................................................................................... 60 CHƢƠNG 3 : CHƢƠNG TRÌNH THỬ NGHIỆM ......................................................... 63 3.1. BÀI TOÁN.................................................................................................................... 63 3.2. CHƢƠNG TRÌNH THỬ NGHIỆM ............................................................................... 63 PHẦN KẾT LUẬN......................................................................................................... 67 TÀI LIỆU THAM KHẢO............................................................................................... 69 7 PHẦN MỞ ĐẦU Ngày nay, với sự thịnh hành của máy tính và sự phát triển của xã hội, số lƣợng những tài liệu lƣu trữ trên giấy đã tăng lên đáng kể. Hàng tỷ tỷ những trang giấy đƣợc tạo ra mỗi năm dƣới nhiều hình thức khác nhau nhƣ sách báo, tạp chí, bản tin, văn bản, thƣ từ, biểu mẫu, bảng ghi nhớ, … trên khắp thế giới, và việc sử dụng giấy để lƣu trữ tài liệu trong một số mục đích vẫn không thể thay thế đƣợc (nhƣ sách báo, công văn, văn bản pháp luật…). Trong số những tài liệu này, có rất nhiều thông tin cần phải đƣợc lƣu trữ vào máy tính để xử lý, chẳng hạn nhƣ các phiếu điều tra của các nhà sản xuất muốn điều tra thị hiếu và mức tiêu thụ sản phẩm, các nhà hoạch định chính sách muốn có những cuộc điều tra để xây dựng những chính sách phù hợp với thực tế, các kỳ thi trắc nghiệm ... trên giấ y , hoặc các tờ kê khai thuế mà doanh nghiệp phải nộp cho cơ quan thuế, hải quan, và rất nhiều lý do khác. Các tài liệu giấy có thể đƣợc số hoá và lƣu trữ trong máy tính bằng máy quét, máy fax, nhƣng làm thế nào để chuyển từ tài liệu giấy thành dạng máy có thể hiểu và xử lý đƣợc? Câu hỏi đó đã khiến các chuyên gia trong lĩnh vực Công nghệ thông tin phải đầu tƣ, nghiên cứu. Cách thủ công nhất đó là nhập lại nội dung của văn bản thông qua bàn phím và tất nhiên, đó là công việc đòi hỏi tốn rất nhiều công sức, thời gian và nhân lực, thậm chí không thể thực hiện đƣợc với một số lƣợng cực lớn những tài liệu giấy. Hiện nay chúng ta đã có các máy Scan với tốc độ cao, công nghệ xử lý của máy tính ngày càng siêu việt với tốc độ tính toán cao, vậy tại sao chúng ta không quét toàn bộ các trang tài liệu vào và chuyển chúng thành văn bản một cách tự động? Vấn đề ở đây là khi quét vào máy tính chúng ta không thu đƣợc ngay các dòng văn bản từ các trang tài liệu kia để có thể soạn thảo, sửa chữa và tìm kiếm nhƣ làm trên Office. Tất cả những gì thu đƣợc chỉ là các tấm ảnh của các trang văn bản, máy tính lại đối xử công bằng nhƣ nhau với mọi điểm ảnh, máy tính không có “mắt” nhƣ chúng ta để biết đâu là điểm ảnh của chữ, đâu là điểm ảnh của đối tƣợng đồ họa. Một giải pháp có thể đáp ứng đƣợc những yêu cầu đó là xây dựng một hệ thống nhận dạng quang học (OCR - Optical Character Recognition system), ở đó, 8 mỗi văn bản sẽ đƣợc scan bằng máy scaner thành một file ảnh, hệ thống OCR sẽ phân tích file ảnh đó để nhận biết nội dung của tài liệu đó là gì (xem hình 0.1): Hình 0.1: Hệ thống OCR Một cách tổng quát thì cách thức làm việc của một hệ thống nhận dạng chữ nhƣ sau: 1. Chụp ảnh, scan các trang tài liệu trên giấy và lƣu lại trong máy tính dƣới dạng hình ảnh. 2. Sử dụng một chƣơng trình xử lý ảnh để phân tích hình ảnh sau khi quét, đọc đƣợc ký tự trên hình ảnh đó và ghi lại vào máy tính theo cách mà máy tính quản lý đƣợc thông tin đó. a. Bƣớc 1 là phân tích cấu trúc của ảnh tài liệu, từ đó xác định đâu là phần chứa chữ, đâu là phần chứa cả ảnh lẫn ký tự và đâu chỉ chứa hình ảnh. Bƣớc này thực sự quan trọng cho bƣớc nhận dạng. Bởi nó định vị chính xác cho việc áp dụng các thuật toán nhận dạng lên vùng đã xác định tính chất. b. Bƣớc 2 nhận dạng ký tự dựa vào các tính chất của ký tự, ví dụ nhƣ sắp xếp theo dòng, khoảng cách giữa 2 từ lớn hơn khoảng cách giữa 2 ký tự, dùng trí tuệ nhân tạo để dự đoán các ký tự kề nhau phải nhƣ thế nào, các từ trong câu phải nhƣ thế nào để câu có nghĩa. Từ đó có nội dung đúng để lƣu trữ, quản lý…. Hệ thống nhập liệu tự động OCR là bài toán ngày càng thu hút nhiều sự chú ý vì khả năng áp dụng rộng rãi vào thực tế và những hiệu quả mà nó mang lại, có thể kể đến một số ứng dụng nhƣ: - Sắp xếp thƣ tín, dựa vào việc nhận dạng mã bƣu chính (Zipcode) hay địa chỉ gửi tới. 9 - Tự động thu thập dữ liệu từ các mẫu đơn/báo biểu hay từ các hồ sơ lao động. - Hệ thống tự động kiểm tra trong ngân hàng (tự động xác nhận chữ ký) - Tự động xử lý các hóa đơn hay các yêu cầu thanh toán - Hệ thống tự động đọc và kiểm tra passport - Tự động phục hồi và copy tài liệu từ các ảnh quét. - Máy đọc cho những ngƣời khiếm thính - Các ứng dụng Datamining -… Kỹ thuật nhập liệu tự động liên quan chặt chẽ với đồ hoạ, nhận dạng và thuật xử lý ảnh. Sự phát triển nhanh chóng của công nghệ thông tin trên cả hai lĩnh vực phần cứng và phần mềm đã cho phép kỹ thuật nhập liệu tự động phát triển theo nhiều phƣơng hƣớng khác nhau và đã đạt đƣợc những thành công nhất định. Tuy vậy trong thực tế, việc hiện thực một hệ thống OCR để có thể đƣa ra đƣợc những kết quả chính xác một cách tự động, không cần bất cứ một sự chỉnh sửa nào là một vấn đề vô cùng khó khăn. Những vấn đề thƣờng gặp phải trong quá trình thu nhận đó là: nhiễu, độ lệch, độ dịch chuyển, xoay, biến dạng v.v.. của phiếu điều tra, cũng nhƣ vấn đề tách đƣợc các đối tƣợng hình học đƣợc dùng để đánh dấu trong phiếu. Xuất phát từ thực tế đó, luận văn nhằm nghiên cứu một số kỹ thuật xử lý ảnh giúp nâng cao chất lƣợng ảnh Form đầu vào nhằm nâng cao chất lƣợng các hệ thống nhận dạng Form mẫu. Đây là một việc làm có ý nghĩa khoa học và ý nghĩa thực tiễn trong hoàn cảnh của Việt Nam. Luận văn đƣợc trình bày 3 chƣơng nhƣ sau: Chƣơng 1 trình bày tổng quan về xử lý ảnh, các phƣơng pháp biểu diễn ảnh, biểu diễn Form tài liệu. Chƣơng 2 trình bày một số kỹ thuật phát hiện và hiệu chỉnh góc nghiêng ảnh văn bản, độ dịch chuyển, khử nhiễu, … Chƣơng 3 cài đặt chƣơng trình thử nghiệm phát hiện góc nghiêng văn bản và chỉnh lại văn bản nhờ các kỹ thuật tìm hiểu đƣợc, qua đó giúp nâng cao chất lƣợng ảnh form dữ liệu đầu vào cho các hệ thống nhận dạng Form mẫu 10 Chƣơng 1 : KHÁI QUÁT VỀ XỬ LÝ ẢNH VÀ FORM TÀI LIỆU 1.1. KHÁI QUÁT VỀ XỬ LÝ ẢNH 1.1.1. Xử lý ảnh là gì Xử lý ảnh là một lĩnh vực mang tính khoa học và công nghệ. Nó là một ngành khoa học mới mẻ so với nhiều ngành khoa học khác nhƣng tốc độ phát triển của nó rất nhanh, kích thích các trung tâm nghiên cứu, ứng dụng, đặc biệt là máy tính chuyên dụng riêng cho nó. Quá trình xử lý ảnh đƣợc xem nhƣ là quá trình thao tác ảnh đầu vào nhằm cho ra kết quả mong muốn. Kết quả đầu ra của một quá trình xử lý ảnh có thể là một ảnh “tốt hơn” hoặc một kết luận. Hình 1.1: Quá trình xử lý ảnh Để dễ tƣởng tƣợng, xét các bƣớc cần thiết trong xử lý ảnh. Đầu tiên, ảnh tự nhiên từ thế giới ngoài đƣợc thu nhận qua các thiết bị thu (nhƣ Camera, máy chụp ảnh, máy scanner). Trƣớc đây, ảnh thu qua Camera là các ảnh tƣơng tự (loại Camera ống kiểu CCIR). Gần đây, với sự phát triển của công nghệ, ảnh màu hoặc đen trắng đƣợc lấy ra từ Camera, sau đó nó đƣợc chuyển trực tiếp thành ảnh số tạo thuận lợi cho xử lý tiếp theo. (Máy ảnh số hiện nay là một thí dụ gần gũi). Mặt khác, ảnh cũng có thể tiếp nhận từ vệ tinh; có thể quét từ ảnh chụp bằng máy quét ảnh. Hình 1.2 dƣới đây mô tả các bƣớc cơ bản trong xử lý ảnh. 11 Hình 1.1: Các bƣớc cơ bản trong xử lý ảnh Sơ đồ này bao gồm các thành phần sau: a) Phần thu nhận ảnh (Image Acquisition) Ảnh có thể nhận qua camera màu hoặc đen trắng. Thƣờng ảnh nhận qua camera là ảnh tƣơng tự (loại camera ống chuẩn CCIR với tần số 1/25, mỗi ảnh 25 dòng), cũng có loại camera đã số hoá (nhƣ loại CCD – Change Coupled Device) là loại photodiot tạo cƣờng độ sáng tại mỗi điểm ảnh. Camera thƣờng dùng là loại quét dòng, ảnh tạo ra có dạng hai chiều. Chất lƣợng một ảnh thu nhận đƣợc phụ thuộc vào thiết bị thu, vào môi trƣờng (ánh sáng, phong cảnh) b) Tiền xử lý (Image Processing) Sau bộ thu nhận, ảnh có thể nhiễu độ tƣơng phản thấp nên cần đƣa vào bộ tiền xử lý để nâng cao chất lƣợng. Chức năng chính của bộ tiền xử lý là lọc nhiễu, nâng độ tƣơng phản, nổi biên, làm trơn biên ảnh, khuyếch đại ảnh… để làm ảnh rõ hơn, nét hơn. c) Phân đoạn (Segmentation) hay phân vùng ảnh Phân vùng ảnh là tách một ảnh đầu vào thành các vùng thành phần để biểu diễn phân tích, nhận dạng ảnh. Ví dụ: để nhận dạng chữ (hoặc mã vạch) trên phong bì thƣ cho mục đích phân loại bƣu phẩm, cần chia các câu, chữ về địa chỉ hoặc tên ngƣời thành các từ, các chữ, các số (hoặc các vạch) riêng biệt để nhận dạng. Đây là phần phức tạp khó khăn nhất trong xử lý ảnh và cũng dễ gây lỗi, làm mất độ chính xác của ảnh. Kết quả nhận dạng ảnh phụ thuộc rất nhiều vào công đoạn này. d) Biểu diễn ảnh (Image Representation) 12 Đầu ra ảnh sau phân đoạn chứa các điểm ảnh của vùng ảnh (ảnh đã phân đoạn) cộng với mã liên kết với các vùng lận cận. Việc biến đổi các số liệu này thành dạng thích hợp là cần thiết cho xử lý tiếp theo bằng máy tính. Việc chọn các tính chất để thể hiện ảnh gọi là trích chọn đặc trƣng (Feature Selection) gắn với việc tách các đặc tính của ảnh dƣới dạng các thông tin định lƣợng hoặc làm cơ sở để phân biệt lớp đối tƣợng này với đối tƣợng khác trong phạm vi ảnh nhận đƣợc. Ví dụ: trong nhận dạng ký tự trên phong bì thƣ, chúng ta miêu tả các đặc trƣng của từng ký tự giúp phân biệt ký tự này với ký tự khác. e) Nhận dạng và nội suy ảnh (Image Recognition and Interpretation) Nhận dạng ảnh là quá trình xác định ảnh. Quá trình này thƣờng thu đƣợc bằng cách so sánh với mẫu chuẩn đã đƣợc học (hoặc lƣu) từ trƣớc. Nội suy là phán đoán theo ý nghĩa trên cơ sở nhận dạng. Ví dụ: một loạt chữ số và nét gạch ngang trên phong bì thƣ có thể đƣợc nội suy thành mã điện thoại. Có nhiều cách phân loai ảnh khác nhau về ảnh. Theo lý thuyết về nhận dạng, các mô hình toán học về ảnh đƣợc phân theo hai loại nhận dạng ảnh cơ bản: - Nhận dạng theo tham số. - Nhận dạng theo cấu trúc. Một số đối tƣợng nhận dạng khá phổ biến hiện nay đang đƣợc áp dụng trong khoa học và công nghệ là: nhận dạng ký tự (chữ in, chữ viết tay, chữ ký điện tử), nhận dạng văn bản (Text), nhận dạng vân tay, nhận dạng mã vạch, nhận dạng mặt ngƣời… f) Cơ sở tri thức (Knowledge Base) Nhƣ đã nói ở trên, ảnh là một đối tƣợng khá phức tạp về đƣờng nét, độ sáng tối, dung lƣợng điểm ảnh, môi trƣờng để thu ảnh phong phú kéo theo nhiễu. Trong nhiều khâu xử lý và phân tích ảnh ngoài việc đơn giản hóa các phƣơng pháp toán học đảm bảo tiện lợi cho xử lý, ngƣời ta mong muốn bắt chƣớc quy trình tiếp nhận và xử lý ảnh theo cách của con ngƣời. Trong các bƣớc xử lý đó, nhiều khâu hiện nay đã xử lý theo các phƣơng pháp trí tuệ con ngƣời. Vì vậy, ở đây các cơ sở tri thức đƣợc phát huy. 1.1.2. Các vấn đề cơ bản trong xử lý ảnh 13 Nhƣ đã đề cập trong phần trƣớc, chúng ta đã thấy đƣợc một cách khái quát các vấn đề chính trong xử lý ảnh. Để hiểu chi tiết hơn, trƣớc tiên ta xem xét hai khái niệm (thuật ngữ) thƣờng dùng trong xử lý ảnh đó là Picture Element (phần tử ảnh) và grey level (mức xám). 1.1.2.1. Picture Element: phần tử ảnh Ảnh trong thực tế là một ảnh liên tục về không gian và về giá trị độ sáng. Để có thể xử lý ảnh bằng máy tính cần thiết phải tiến hành số hoá ảnh. Số hoá ảnh là sự biến đổi gần đúng một ảnh liên tục thành một tập điểm phù hợp với ảnh thật về vị trí (không gian) và độ sáng (mức xám). Khoảng cách giữa các điểm ảnh đó đƣợc thiết lập sao cho mắt ngƣời không phân biệt đƣợc ranh giới giữa chúng. Mỗi một điểm nhƣ vậy gọi là điểm ảnh (PEL: Picture Element) hay gọi tắt là Pixel (điểm ảnh). Trong khuôn khổ ảnh hai chiều, mỗi pixel ứng với cặp tọa độ (x, y). Theo định nghĩa Pixel, khoảng cách giữa các điểm ảnh phải đƣợc chọn sao cho mắt ngƣời vẫn thấy đƣợc sự liên tục của ảnh. Việc lựa chọn khoảng cách thích hợp tạo nên một mật độ phân bổ, đó chính là độ phân giải và đƣợc phân bố theo trục x và y trong không gian hai chiều. Ví dụ: Độ phân giải của ảnh trên màn hình CGA (Color Graphic Adaptor) là một lƣới điểm theo chiều ngang màn hình: 320 điểm chiều dọc * 200 điểm ảnh (320*200). Rõ ràng, cùng màn hình CGA 12" ta nhận thấy mịn hơn màn hình CGA 17" độ phân giải 320*200. Lý do: cùng một mật độ (độ phân giải) nhƣng diện tích màn hình rộng hơn thì độ mịn (liên tục của các điểm) kém hơn. Nhƣ vậy, một ảnh là một tập hợp các điểm ảnh. Khi đƣợc số hoá, nó thƣờng đƣợc biểu diễn bởi bảng hai chiều I(n,p): n dòng và p cột. Ta nói ảnh gồm n x p pixels. Ngƣời ta thƣờng kí hiệu I(x,y) để chỉ một pixel. Thƣờng giá trị của n chọn bằng p và bằng 256. 1.1.2.2. Grey level: mức xám Mức xám là kết quả sự mã hoá tƣơng ứng một cƣờng độ sáng của mỗi điểm ảnh với một giá trị số - kết quả của quá trình lƣợng hoá. Các thang giá trị mức xám thƣờng dùng là 16, 32 hay 64 mức. Mã hoá 256 mức là phổ dụng nhất do lý do kỹ thuật máy tính dùng 1 byte (8 bít) để biểu diễn mức xám. Mức xám dùng 1 byte biểu diễn: 28=256 mức, tức là từ 0 đến 255) 14 Lƣợc đồ xám: là một hàm rời rạc cung cấp tần suất xuất hiện của mỗi mức xám: h(sk) = nk trong đó: sk là mức xám thứ k nk là số các điểm ảnh có cùng mức xám thứ k n là tổng số các điểm ảnh Biểu diễn lƣợc đồ xám:  Trục tung biểu diễn số điểm ảnh cho một mức xám (hoặc tỷ lệ số điểm ảnh có cùng mức xám trên tổng số điểm ảnh)  Trục hoàng biểu diễn các mức xám Ví dụ: Hình 1.2: Ví dụ lƣợc đồ xám Ảnh đen trắng: là ảnh có hai màu đen, trắng (không chứa màu khác) với mức xám ở các điểm ảnh có thể khác nhau. Ảnh nhị phân: ảnh chỉ có 2 mức đen trắng phân biệt tức dùng 1 bit mô tả 2 1 mức khác nhau, hay nói cách khác: mỗi điểm ảnh của ảnh nhị phân chỉ có thể là 0 hoặc 1. Ảnh màu: trong khuôn khổ lý thuyết ba màu (Red, Blue, Green) để tạo nên thế giới màu, ngƣời ta thƣờng dùng 3 byte để mô tả mức màu, khi đó các giá trị màu: 28*3=224≈ 16,7 triệu màu. Nhƣ vậy từ những lý thuyết trên có thể nói ảnh số là tập hợp các điểm ảnh với mức xám phù hợp dùng để mô tả ảnh gần với ảnh thật 1.1.2.3. Quan hệ giữa các điểm ảnh 15 Một ảnh số giả sử đƣợc biểu diễn bằng hàm f(x, y). Tập con các điểm ảnh là S; cặp điểm ảnh có quan hệ với nhau ký hiệu là p, q. Chúng ta nêu một số các khái niệm sau: a) Các lân cận của điểm ảnh (Image Neighbors) Giả sử có điểm ảnh p tại toạ độ (x, y). p có 4 điểm lân cận gần nhất theo chiều đứng và ngang (có thể coi nhƣ lân cận 4 hƣớng chính: Đông, Tây, Nam, Bắc). {(x-1, y); (x, y-1); (x, y+1); (x+1, y)} = N4(p) trong đó: số 1 là giá trị logic; N4(p) tập 4 điểm lân cận của p Hình 1.4: Lân cận các điểm ảnh của toạ độ (x,y) Các lân cận chéo: Các điểm lân cận chéo NP(p) (Có thể coi lân cận chéo la 4 hƣớng: Đông-Nam, Đông-Bắc, Tây-Nam, Tây-Bắc) Np(p) = { (x+1, y+1); (x+1, y-1); (x-1, y+1); (x-1, y-1)} Tập kết hợp: N8(p) = N4(p) + NP(p) là tập hợp 8 lân cận của điểm ảnh p. Chú ý: Nếu (x, y) nằm ở biên (mép) ảnh; một số điểm sẽ nằm ngoài ảnh. b) Các mối liên kết điểm ảnh Các mối liên kết đƣợc sử dụng để xác định giới hạn (Boundaries) của đối tƣợng vật thể hoặc xác định vùng trong một ảnh. Một liên kết đƣợc đặc trƣng bởi tính liền kề giữa các điểm và mức xám của chúng. Giả sử V là tập các giá trị mức xám. Một ảnh có các giá trị cƣờng độ sáng từ thang mức xám từ 32 đến 64 đƣợc mô tả nhƣ sau : V={32, 33, … , 63, 64}. Có 3 loại liên kết. 16 * Liên kết 4: Hai điểm ảnh p và q đƣợc nói là liên kết 4 với các giá trị cƣờng độ sáng V nếu q nằm trong một các lân cận của p, tức q thuộc N4(p) * Liên kết 8: Hai điểm ảnh p và q nằm trong một các lân cận 8 của p, tức q thuộc N8(p) * Liên kết m (liên kết hỗn hợp): Hai điểm ảnh p và q với các giá trị cƣờng độ sáng V đƣợc nói là liên kết m nếu. - q thuộc N4(p) hoặc - q thuộc NP(p) c) Đo khoảng cách giữa các điểm ảnh. Định nghĩa: Khoảng cách D(p, q) giữa hai điểm ảnh p toạ độ (x, y), q toạ độ (s, t) là hàm khoảng cách (Distance) hoặc Metric nếu: - D(p,q) ≥ 0 (Với D(p,q)=0 nếu và chỉ nếu p=q) - D(p,q) = D(q,p) - D(p,z) ≤ D(p,q) + D(q,z); z là một điểm ảnh khác. Khoảng cách Euclide: Khoảng cách Euclide giữa hai điểm ảnh p(x, y) và q(s, t) đƣợc định nghĩa nhƣ sau: De(p, q) = [(x - s)2 + (y - t)2]1/2 Khoảng cách khối: Khoảng cách D4(p, q) đƣợc gọi là khoảng cách khối đồ thị (City-Block Distance) và đƣợc xác định nhƣ sau: D4(p,q) = | x - s | + | y - t | Giá trị khoảng cách giữa các điểm ảnh r: giá trị bán kính r giữa điểm ảnh từ tâm điểm ảnh đến tâm điểm ảnh q khác. Ví dụ: Màn hình CGA 12” (12”*2,54cm = 30,48cm=304,8mm) độ phân giải 320*200; tỷ lệ 4/3 (Chiều dài/Chiều rộng). Theo định lý Pitago về tam giác vuông, đƣờng chéo sẽ lấy tỷ lệ 5 phần (5/4/3: đƣờng chéo/chiều dài/chiều rộng màn hình); khi đó độ dài thật là (305/244/183) chiều rộng màn hình 183mm ứng với màn hình CGA 200 điểm ảnh theo chiều dọc. Nhƣ vậy, khoảng cách điểm ảnh lân cận của CGA 12” là ≈ 1mm. Khoảng cách D8(p, q) còn gọi là khoảng cách bàn cờ (Chess-Board Distance) giữa điểm ảnh p, q đƣợc xác định nhƣ sau: D8(p,q) = max (| x-s | , | y-t |) 17 1.2. BIỂU DIỄN FORM TÀI LIỆU Sau bƣớc số hóa, ảnh sẽ đƣợc lƣu trữ hay chuyển sang giai đoạn phân tích. Trƣớc khi đề cập đến vấn đề lƣu trữ ảnh, cần xem xét ảnh sẽ đƣợc biểu diễn ra sao trong bộ nhớ máy tính. 1.2.1. Các mô hình biểu diễn ảnh 1.2.1.1. Mô hình Raster Đây là cách biểu diễn ảnh thông dụng nhất hiện nay, ảnh đƣợc biểu diễn dƣới dạng ma trận các điểm (điểm ảnh). Thƣờng thu nhận qua các thiết bị nhƣ camera, scanner. Tuỳ theo yêu cầu thực thế mà mỗi điểm ảnh đƣợc biểu diễn qua 1 hay nhiều bít Mô hình Raster thuận lợi cho hiển thị và in ấn. Ngày nay công nghệ phần cứng cung cấp những thiết bị thu nhận ảnh Raster phù hợp với tốc độ nhanh và chất lƣợng cao cho cả đầu vào và đầu ra. Một thuận lợi cho việc hiển thị trong môi trƣờng Windows là Microsoft đƣa ra khuôn dạng ảnh DIB (Device Independent Bitmap) làm trung gian. Hình 2.4 thể hình quy trình chung để hiển thị ảnh Raster thông qua DIB Hình 1.5: Quá trình hiển thị, chỉnh sửa và lƣu trữ ảnh thông qua DIB Một trong những hƣớng nghiên cứu cơ bản trên mô hình biểu diễn này là kỹ thuật nén ảnh, các kỹ thuật nén ảnh lại chia ra theo 2 khuynh hƣớng là nén bảo toàn và không bảo toàn thông tin, nén bảo toàn có khả năng phục hồi hoàn toàn dữ liệu ban đầu còn nếu không bảo toàn chỉ có khả năng phục hồi độ sai số cho phép nào đó. Theo cách tiếp cận này ngƣời ta đã đề ra nhiều quy cách khác nhau nhƣ BMP, TIF, GIF, PCX… 18 Hiện nay trên thế giới có trên 50 khuôn dạng ảnh thông dụng bao gồm cả trong đó các kỹ thuật nén có khả năng phục hồi dữ liệu 100% và nén có khả năng phục hồi với độ sai số nhận đƣợc. 1.2.1.2. Mô hình Vector Biểu diễn ảnh ngoài mục đích tiết kiệm không gian lƣu trữ dễ dàng cho hiển thị và in ấn còn đảm bảo dễ dàng trong lựa chọn sao chép di chuyển tìm kiếm… Theo những yêu cầu này kỹ thuật biểu diễn vector tỏ ra ƣu việt hơn. Trong mô hình vector ngƣời ta sử dụng hƣớng giữa các vector của điểm ảnh lân cận để mã hoá và tái tạo hình ảnh ban đầu ảnh vector đƣợc thu nhận trực tiếp từ các thiết bị số hoá nhƣ Digital hoặc đƣợc chuyển đổi từ ảnh Raster thông qua các chƣơng trình số hoá Công nghệ phần cứng cung cấp những thiết bị xử lý với tốc độ nhanh và chất lƣợng cho cả đầu vào và ra nhƣng lại chỉ hỗ trợ cho ảnh Raster. Do vậy, những nghiên cứu về biểu diễn vectơ đều tập trung từ chuyển đổi từ ảnh Raster. Hình 1.6: Sự chuyển đổi giữa các mô hình biểu diễn ảnh 1.2.2. Các phƣơng pháp biểu diễn ảnh Việc lƣu trữ thông tin ảnh trong bộ nhớ có ảnh hƣởng rất lớn đến việc hiển thị, in ấn và xử lý ảnh đƣợc xem nhƣ là 1 tập hợp các điểm với cùng kích thƣớc, nếu sử dụng càng nhiều điểm ảnh thì bức ảnh càng đẹp, càng mịn và càng thể hiện rõ hơn chi tiết của ảnh. Ảnh nếu lƣu trữ ảnh trực tiếp từ các ảnh thô, đòi hỏi dung lƣợng bộ nhớ cực lớn và không hiệu quả theo quan điểm ứng dụng và công nghệ. Quá trình lƣu trữ ảnh nhằm 2 mục đích: • Tiết kiệm bộ nhớ • Giảm thời gian xử lý Thông thƣờng, các ảnh thô đó đƣợc đặc tả (biểu diễn) lại (hay đơn giản là mã hoá) theo các đặc điểm của ảnh đƣợc gọi là các đặc trƣng ảnh (Image Features) nhƣ: biên ảnh (Boundary), vùng ảnh (Region). Một số phƣơng pháp biểu diễn thƣờng dùng: 19 • Biểu diễn bằng mã chạy (Run-Length Code) • Biểu diễn bằng mã xích (Chaine -Code) • Biểu diễn bằng mã tứ phân (Quad-Tree Code) 1.2.2.1. Biểu diễn mã loạt dài (Run – Length code) Phƣơng pháp này hay dùng để biểu diễn cho vùng ảnh hay ảnh nhị phân. Một vùng ảnh R có thể biểu diễn đơn giản nhờ một ma trận nhị phân: Trong đó: U(m, n) là hàm mô tả mức xám ảnh tại tọa độ (m, n). Với cách biểu diễn trên, một vùng ảnh hay ảnh nhị phân đƣợc xem nhƣ chuỗi 0 hay 1 đan xen. Các chuỗi này đƣợc gọi là mạch (run). Giả sử chúng ta mô tả ảnh nhị phân của một vùng ảnh đƣợc thể hiện theo toạ độ (x, y) theo các chiều và đặc tả chỉ đối với giá trị “1” khi đó dạng mô tả có thể là: (x, y)r; trong đó (x, y) là toạ độ, r là số lƣợng các bit có giá trị “1” liên tục theo chiều ngang hoặc dọc. Theo phƣơng pháp này, mỗi mạch sẽ đƣợc biểu diễn bởi địa chỉ bắt đầu của mạch và chiều dài mạch theo dạng {, chiều dài}. Ví dụ: Hình 1.7: Ảnh nhị phân và các biểu diễn mã loạt dài tƣơng ứng 1.2.2.2. Biểu diễn mã xích (Chain Code) Mã xích thƣờng đƣợc dùng để biểu diễn biên của ảnh. Thay vì lƣu trữ toàn bộ ảnh, ngƣời ta lƣu trữ lại dãy các điểm biên của ảnh theo hƣớng số. Theo phƣơng pháp này, các vectơ nối 2 điểm biên liên tục đƣợc mã hóa. Khi đó ảnh đƣợc biểu diễn qua 1 điểm ảnh bắt đầu cùng với chuỗi các từ mã. Điều này đƣợc minh họa trong hình dƣới đây: 20 r Hình 1.8: Minh hoạ mã xích 1.2.2.3. Biểu diễn mã tứ phân (Quad Tree Code) Theo phƣơng pháp mã tứ phân, một vùng ảnh coi nhƣ bao kín một hình chứ nhật. Vùng này đƣợc chia làm 4 vùng con (Quadrant). Nếu một vùng con gồm toàn điểm đen (1) hay toàn điểm trắng (0) thì không cần chia tiếp. Trong trƣờng hợp ngƣợc lại, vùng con gồm cả điểm đen và trắng gọi là vùng không đồng nhất, ta tiếp tục chia thành 4 vùng con tiếp và kiểm tra tính đồng nhất của các vùng con đó. Quá trình chia dừng lại khi mỗi vùng con chỉ chứa thuần nhất điểm đen hoặc điểm 21 trắng. Quá trình đó tạo thành một cây chia theo bốn phần gọi là cây tứ phân. Nhƣ vậy, cây biểu diễn ảnh gồm một chuỗi các ký hiệu b (black), w (white) và g (grey) kèm theo ký hiệu mã hóa 4 vùng con. Biểu diễn theo phƣơng pháp này ƣu việt hơn so với các phƣơng pháp trên, nhất là so với mã loạt dài. Tuy nhiên, để tính toán số đo các hình nhƣ chu vi, mô men là tƣơng đối khó khăn. 1.2.3. Biểu diễn Form tài liệu Form tài liệu là các file ảnh số hoá thu đƣợc bằng cách quét các trang tài liệu dùng máy scanner, máy ảnh số, hay nhận từ một máy fax (Hình 1.9) Hình 1.9: Tổng quan quá trình tạo ảnh tài liệu Form tài liệu chứa rất nhiều loại vùng thông tin khác nhau nhƣ các block, lines, words, figures, tables và background. Ta có thể gọi các vùng này theo chức năng của nó trong tài liệu hoặc gán cho nó các nhãn logic nhƣ sentences, titles, 22 captions, address,… Để biểu diễn đƣợc Form tài liệu, ảnh tài liệu cần đƣợc tách vùng văn bản ra khỏi nền và đồ họa để có thể đƣa vào hệ thống xử lý, đó là quá trình chia nhỏ ảnh văn bản thành các khối thuần nhất, có nghĩa là, các khối này chỉ chứa một loại thông tin, hoặc là text, hoặc là ảnh, hoặc là bảng… Rõ ràng độ chính xác của quá trình này ảnh hƣởng rất lớn đến hiệu quả của của khâu nhận dạng nếu sử dụng mẫu hay các chuỗi văn bản đầu ra của nó Một khái niệm mấu chốt trong biểu diễn form tài liệu đó là cấu trúc của tài liệu. Cấu trúc tài liệu thu đƣợc từ việc liên tiếp chia nhỏ nội dung của tài liệu thành các phần nhỏ đơn vị (tức không thể phân chia đƣợc nữa) và chúng đƣợc gọi là các đối tƣợng cơ sở (basic objects). Còn tất cả các đối tƣợng khác đƣợc gọi là các đối tƣợng hỗn hợp. Có hai loại cấu trúc của tài liệu đƣợc quan tâm ở đây đó là cấu trúc vật lý (hay bố cục vật lý) và cấu trúc logic mô tả mối quan hệ logic giữa các vùng đối tƣợng trong form tài liệu. 1.2.3.1. Cấu trúc vật lý Cấu trúc vật lý của một form tài liệu mô tả vị trí và các đƣờng ranh giới giữa các vùng có nội dung khác nhau trong một trang tài liệu. Quá trình phân tích bố cục tài liệu là thực hiện việc tách từ một trang tài liệu ban đầu thành các vùng có nội dung cơ sở nhƣ hình ảnh nền, vùng văn bản,… Để mô tả cấu trúc vật lý của tài liệu ngƣời ta sử dụng một cấu trúc hình học với mỗi đối tƣợng trong cấu trúc là một phần tử chỉ chứa nội dung đồng nhất. Các kiểu đối tƣợng hình học đƣợc định nghĩa nhƣ sau: + Block là đối tƣợng cơ sở tƣơng ứng với một vùng hình chữ nhật chứa một phần nội dụng của tài liệu. + Frame một đối tƣợng hỗn hợp tƣơng ứng với một hình chữ nhật bao gồm một hoặc nhiều block hoặc bao gồm các frame. + Page là đối tƣợng hình học hoặc hỗn hợp các thành phần cơ sở tƣơng ứng với một vùng hình chữ nhật, nếu là đối tƣợng hỗn hợp nó chứa một hoặc nhiều block, một hoặc nhiều frame. + Page set (tập trang) là một tập của một hoặc nhiều page. + Điểm gốc của cấu trúc (hay nút gốc) là một đối tƣợng ở mức cao nhất trong sơ đồ phân cấp của cấu trúc hình học tài liệu. Hình 1.10 cho ví dụ một cấu trúc hình học mô tả bố cục vật lý của trang tài liệu tƣơng ứng.
- Xem thêm -

Tài liệu liên quan