ĐẠI HỌC THÁI NGUYÊN
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
------------ ------------
ĐOÀN DUY THƢỜNG
NGHIÊN CỨU PHƢƠNG PHÁP PHÂN TÍCH CẤU TRÚC ẢNH MÀU,
ỨNG DỤNG TRONG NHẬN DẠNG CHỨNG MINH NHÂN DÂN
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
THÁI NGUYÊN- 2014
Số hóa bởi Trung tâm Học liệu
http://www.lrc-tnu.edu.vn/
ĐẠI HỌC THÁI NGUYÊN
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
------------ ------------
ĐOÀN DUY THƢỜNG
NGHIÊN CỨU PHƢƠNG PHÁP PHÂN TÍCH CẤU TRÚC ẢNH MÀU,
ỨNG DỤNG TRONG NHẬN DẠNG CHỨNG MINH NHÂN DÂN
Chuyên ngành :
Mã số:
Khoa học máy tính
60 48 01
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
NGƢỜI HƢỚNG DẪN KHOA HỌC: TS. Nguyễn Thị Thanh Tân
THÁI NGUYÊN - 2014
Số hóa bởi Trung tâm Học liệu
http://www.lrc-tnu.edu.vn/
i
LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi và hoàn
thành dƣới sự hƣớng dẫn khoa học của TS. Nguyễn Thị Thanh Tân.
Nếu có gì vi phạm tôi xin hoàn toàn chịu trách nhiệm.
Học viên thực hiện luận văn
Đoàn Duy Thƣờng
Số hóa bởi Trung tâm Học liệu
http://www.lrc-tnu.edu.vn/
ii
LỜI CẢM ƠN
Tôi xin gửi lời cảm ơn chân thành nhất tới TS. Nguyễn Thị Thanh Tân vì
đã có những chỉ dẫn, động viên quý báu trong suốt quá trình thực hiện luận
văn của tôi. Đồng thời tôi xin chân thành cảm ơn các thầy cô giáo trong Ban
giám hiệu, phòng Đào tạo, các thầy cô giáo của trƣờng Đại học Công nghệ
Thông tin và Truyền thông - Đại học Thái Nguyên cùng các thầy cô giáo
trong Viện Công nghệ Thông Tin - Viện Hàn lâm Khoa học Việt Nam đã
quan tâm, tạo điều kiện thuận lợi, nhiệt tình giảng dạy và hƣớng dẫn tôi trong
suốt quá trình học tập và hoàn thiện luận văn.
Cuối cùng tôi xin cảm ơn mọi sự giúp đỡ từ ngƣời thân, đồng nghiệp
những ngƣời đã luôn ủng hộ, hỗ trợ tôi trong suốt quá trình thực hiện luận văn
của mình.
Mặc dù đã có nhiều cố gắng, tuy nhiên luận văn của tôi không thể tránh
khỏi những thiếu sót, do đó tôi rất mong nhận đƣợc những ý kiến đánh giá, bổ
sung để tôi có thể hoàn thiện luận văn của mình./.
Thái Nguyên, ngày tháng
Tác giả
năm 2014
Đoàn Duy Thƣờng
Số hóa bởi Trung tâm Học liệu
http://www.lrc-tnu.edu.vn/
iii
MỤC LỤC
LỜI CAM ĐOAN .............................................................................................. i
LỜI CẢM ƠN .................................................................................................. ii
MỤC LỤC ........................................................................................................ iii
DANH MỤC CÁC THUẬT NGỮ VIẾT TẮT ............................................... vi
DANH MỤC BẢNG BIỂU ............................................................................. ix
DANH MỤC THUẬT TOÁN .......................................................................... x
PHẦN MỞ ĐẦU ............................................................................................... 1
1. Đặt vấn đề .................................................................................................. 1
2. Mục tiêu của luận văn ................................................................................ 2
3. Tính cấp thiết của luận văn. ....................................................................... 2
4. Bố cục của luận văn. .................................................................................. 3
CHƢƠNG 1: TỔNG QUAN VỀ NHẬN DẠNG VĂN BẢN VÀ BÀI TOÁN
PHÂN TÍCH CẤU TRÚC ................................................................................ 4
1.1. Tổng quan về nhận dạng văn bản ........................................................... 5
1.2. Bài toán phân tích cấu trúc trang ............................................................ 7
1.2.1 Giới thiệu chung ................................................................................ 7
1.2.2. Một số kỹ thuật tiền xử lý trong phân tích cấu trúc trang ảnh........ 10
1.2.2.1. Nhị phân ảnh ............................................................................. 10
1.2.2.2. Căn chỉnh độ nghiêng trang ảnh ............................................... 13
1.2.2.3. Lọc nhiễu .................................................................................. 14
1.2.2.4. Tách nền.................................................................................... 16
1.2.2.5. Các toán tử hình thái ................................................................. 16
Số hóa bởi Trung tâm Học liệu
http://www.lrc-tnu.edu.vn/
iv
1.2.3. Một số hƣớng tiếp cận trong phân tích cấu trúc trang văn bản ...... 19
1.3. Kết luận ................................................................................................. 20
CHƢƠNG 2: MỘT SỐ KỸ THUẬT PHÂN TÍCH CẤU TRÚC, ỨNG DỤNG
TRONG PHÁT HIỆN VÀ BÓC TÁCH CÁC TRƢỜNG THÔNG TIN TRÊN
ẢNH TÀI LIỆU .............................................................................................. 21
2.1. Kỹ thuật X-Y Cut .................................................................................. 21
2.2. Kỹ thuật Smearing ................................................................................ 23
2.3. Kỹ thuật Whitespace ............................................................................. 26
2.4. Kỹ thuật Docstrum ................................................................................ 27
2.5. Kỹ thuật dựa trên lƣợc đồ Voronoi ....................................................... 29
2.6. Kỹ thuật phát hiện các ràng buộc trên dòng văn bản............................ 32
2.7. Kỹ thuật phân tích cấu trúc ảnh tài liệu ................................................ 33
2.7.1. Đặc trƣng của ảnh tài liệu cần nhận dạng ....................................... 33
2.7.2. Phát hiện trƣờng số trong ảnh ......................................................... 35
2.7.2.1. Xác định vùng có thể là trƣờng số của ảnh .............................. 36
2.7.2.2. Tìm và tách trƣờng số ............................................................... 37
2.7.2.3. Phân đoạn vùng số .................................................................... 38
2.7.3. Phân tích cấu trúc bảng .................................................................. 40
2.7.4. Tách các trƣờng thông tin còn lại ................................................... 42
2.7.4.1. Tách các đối tƣợng thuộc mỗi dòng ......................................... 44
2.7.4.2. Xóa tiêu đề ................................................................................ 45
2.7.4.3. Lấy lại các ký tự bị mất ............................................................ 47
2.8. Kết luận ................................................................................................. 48
Số hóa bởi Trung tâm Học liệu
http://www.lrc-tnu.edu.vn/
v
CHƢƠNG 3: CHƢƠNG TRÌNH ỨNG DỤNG ............................................. 50
3.1. Mô tả bài toán ....................................................................................... 50
3.2. Phân tích, cài đặt chƣơng trình thử nghiệm .......................................... 51
3.2.1. Tiền xử lý ảnh mặt trƣớc CMND ................................................... 54
3.2.2. Tiền xử lý ảnh mặt sau CMND...................................................... 62
3.2.3. Các độ đo đánh giá hiệu quả của phƣơng pháp .............................. 63
3.2.4. Dữ liệu thử nghiệm ......................................................................... 64
3.3. Kết quả thực nghiệm ............................................................................. 65
3.4. Kết luận ................................................................................................. 66
PHẦN KẾT LUẬN ......................................................................................... 68
DANH MỤC TÀI LIỆU THAM KHẢO ........................................................ 69
Số hóa bởi Trung tâm Học liệu
http://www.lrc-tnu.edu.vn/
vi
DANH MỤC CÁC THUẬT NGỮ VIẾT TẮT
OCR
Optical Character Recognition
CMND
Chứng minh nhân dân
RLSA
The run-length smearing algorithm
Số hóa bởi Trung tâm Học liệu
http://www.lrc-tnu.edu.vn/
vii
DANH MỤC HÌNH VẼ
Hình 1. 1. Thu nhận ảnh tài liệu ........................................................................ 5
Hình 1. 2. Quy trình chung của một hệ thống OCR ......................................... 6
Hình 1. 3. Một số tài liệu có cấu trúc phức tạp.................................................. 7
Hình 1.4. Quy trình phân tích cấu trúc trang ảnh .............................................. 8
Hình 1. 5. b- Cấu trúc vật lý; c,d - Cấu trúc logic của một tài liệu............... 10
Hình 1.6. Phần tử cấu trúc 3 3 ....................................................................... 17
Hình 1.7. Phép giãn ảnh với phần tử cấu trúc 3x3 .......................................... 18
Hình 1.8. Phép co ảnh với phần tử cấu trúc 3x3 ............................................. 18
Hình 2. 1. a) Ảnh gốc
b) Kết quả thực hiện của thuật toán X-Y Cut ....... 23
Hình 2. 2. Kết quả thực hiện của kỹ thuật Smearing ...................................... 25
Hình 2. 3. Tài liệu ảnh trƣớc khi xử lý Tài liệu ảnh sau khi đƣợc xử lý ...... 27
Hình 2. 4. Xác định các thành phần liên thông, trọng tâm của các dòng ....... 28
Hình 2. 5. Sơ đồ Voronoi ................................................................................ 30
Hình 2. 6. Kết quả thực hiện của kỹ thuật sử dụng lƣợc đồ Voronoi ............. 30
Hình 2. 7. Mẫu “Giấy Chứng minh nhân dân” ............................................... 34
Hình 2. 8. Xác định vùng Số CMND .............................................................. 37
Hình 2. 9. Phân đoạn vùng số Chứng minh Nhân dân .................................... 39
Hình 2. 10. Xác định cấu trúc bảng................................................................. 42
Hình 2. 11. Mặt nạ dòng mặt trƣớc ................................................................. 44
Hình 3. 1. Quy trình nhận dạng thông tin trên CMND ................................... 50
Hình 3. 2. Quy trình thực hiện của chƣơng trình thử nghiệm......................... 51
Số hóa bởi Trung tâm Học liệu
http://www.lrc-tnu.edu.vn/
viii
Hình 3. 3. Tiền xử lý ảnh mặt trƣớc CMND ................................................... 55
Hình 3. 4. Nhị phân ảnh CMND ..................................................................... 60
Hình 3. 5. Phƣơng pháp tia quay..................................................................... 61
Hình 3. 6. Ảnh CMND .................................................................................... 65
Hình 3. 7. Một số trƣờng hợp khó phát hiện ................................................... 66
Số hóa bởi Trung tâm Học liệu
http://www.lrc-tnu.edu.vn/
ix
DANH MỤC BẢNG BIỂU
Bảng 1. 1. Bảng mã 4 màu .............................................................................. 11
Bảng 2. 1. Thông tin mặt trƣớc CMND .......................................................... 34
Bảng 3.1. Kết quả thực nghiệm....................................................................... 66
Số hóa bởi Trung tâm Học liệu
http://www.lrc-tnu.edu.vn/
x
DANH MỤC THUẬT TOÁN
Thuật toán 1. 1. Thuật toán chỉnh độ nghiêng ................................................ 13
Thuật toán 1. 2. Thuật toán xoay ảnh .............................................................. 13
Thuật toán 2. 1. Thuật toán X-Y Cut cải tiến.................................................. 22
Thuật toán 2. 2: Thuật toán RLSA .................................................................. 24
Thuật toán 2. 3. Thuật toán Whitespace.......................................................... 26
Thuật toán 2. 4: Thuật toán Dostrum .............................................................. 27
Thuật toán 2. 5. Thuật toán phân tích cấu trúc dựa trên lƣợc đồ Voronoi ...... 31
Thuật toán 2. 6. Xác định các vùng có thể là Trƣờng Số CMND .................. 36
Thuật toán 2. 7. Tìm và tách trƣờng Số CMND ............................................. 38
Thuật toán 2. 8. Phân đoạn vùng Số CMND .................................................. 39
Thuật toán 2. 9. Ƣớc lƣợng bề dày đƣờng lƣợn sóng ..................................... 40
Thuật toán 2. 10. Xác định các đƣờng kẻ ngang trong bảng .......................... 41
Thuật toán 2. 11. Tách các ký tự thuộc mỗi dòng........................................... 45
Thuật toán 2. 12. Xoá phần tiêu đề ................................................................. 47
Thuật toán 3. 1. Thuật toán nhị phân ảnh Otsu................................................ 56
Thuật toán 3. 2. Thuật toán nhị phân ảnh Niblack .......................................... 58
Thuật toán 3. 3. Thuật toán Sử dụng tia quay để xác định góc nghiêng ......... 61
Số hóa bởi Trung tâm Học liệu
http://www.lrc-tnu.edu.vn/
1
PHẦN MỞ ĐẦU
1. Đặt vấn đề
Nhận dạng mẫu là một ngành khoa học của học máy (hay trí tuệ nhân
tạo) nhằm phân loại dữ liệu (các mẫu) vào một số lớp[13]. Mẫu có thể là bất
kỳ thực thể nào cần đƣợc nhận ra, ví dụ: chữ in, chữ viết tay, vân tay, khuôn
mặt, tiếng nói, hình dạng… Cùng với sự phát triển của khoa học kỹ thuật,
các ứng dụng của nhận dạng mẫu ngày càng đƣợc mở rộng, từ việc tự động
hoá một số quy trình trong sản xuất công nghiệp cho đến dự báo thời tiết, dự
báo cháy rừng hay là một phần quan trọng trong các hệ thống máy tính
thông minh…
Một trong những ứng dụng phổ biến của nhận dạng mẫu hiện nay là
phân tích và nhận dạng ảnh tài liệu (có nguồn gốc từ hệ thống nhận dạng ký
tự quang học), nhằm số hoá các trang tài liệu giấy nhƣ sách, báo, tạp chí…
Cho đến nay, bài toán phân tích và nhận dạng ảnh tài liệu đã đƣợc giải quyết
gần nhƣ trọn vẹn và cũng đã có những sản phẩm thƣơng mại, nhƣ VnDOCR
của Viện công nghệ thông tin hay FineReader của hãng ABBYY…
Bên cạnh lớp bài toán phân tích và nhận dạng ảnh tài liệu một cách
tổng quát ở trên còn có lớp bài toán riêng biệt cho từng ngành, từng lĩnh vực
cụ thể, nhƣ: phân tích và nhận dạng bảng biểu, phiếu điều tra, mẫu điền
thông tin, danh thiếp, hộ chiếu,… Đối với lớp bài toán này thì việc phân tích
cấu trúc của ảnh tài liệu là đặc biệt quan trọng, bởi vì nó sẽ quyết định đến
việc tách và nhận dạng chính xác các trƣờng thông tin cần thiết cho từng ứng
dụng cụ thể.
Trên thế giới đã có nhiều sản phẩm phần mềm phân tích và nhận dạng
ảnh thẻ chứa thông tin cá nhân (nhƣ hộ chiếu, danh thiếp…) và đƣợc ứng
dụng trong nhiều lĩnh vực, nhƣ: làm thủ tục hải quan, các giao dịch ở các cửa
Số hóa bởi Trung tâm Học liệu
http://www.lrc-tnu.edu.vn/
2
hàng, khách sạn… Ở Việt Nam loại thẻ chứa thông tin cá nhân đƣợc sử dụng
nhiều nhất là Giấy chứng minh nhân dân (CMND). Do thông tin trên các
CMND đƣợc in thủ công từ các phôi có sẵn nên đôi khi định dạng không
chuẩn, các dòng chữ và các ký tự trên đó có thể xiên, vẹo, thậm chí
dính/chồng vào nhau. Bên cạnh đó, các CMND có thể bị mờ, ố theo thời gian.
Đây là những yếu tố gây khó khăn và làm giảm chất lƣợng của một hệ thống
nhận dạng đồng thời cũng là một trong số những nguyên do chính mà cho đến
hiện nay các sản phẩm nhận dạng CMND chƣa đáp ứng đƣợc nhu cầu tự động
hóa công việc nhập liệu thông tin trên CMND trong các hoạt động giao dịch
hàng ngày. Quy trình giải quyết bài toán nhận dạng thông tin trên CMNDbao
gồm 2 công đoạn chính. Công đoạn thứ nhất tập trung vào việc phân tích cấu
trúc, xác định và bóc tách các trƣờng thông tin cần nhận dạng trên CMND.
Công đoạn thứ hai là nhận dạng các vùng thông tin đã đƣợc bóc tách. Luận
văn tập trung nghiên cứu, giải quyết các vấn đề liên quan đến công đoạn thứ
nhất trong bài toán nhận dạng thông tin trên CMND.
2. Mục tiêu của luận văn
Tìm hiểu một số kỹ thuật phân tích trang tài liệu (phân vùng,
phân đoạn,…) nói chung vàảnh CMND nói riêng nhằm phát hiện và bóc tách
các trƣờng thông tin cần nhận dạng trên CMND. Cài đặt thử nghiệm, kiểm
chứng lại kết quả mà luận văn đã nghiên cứu và từ kết quả nghiên cứu có
một sự chuẩn bị kiến thức đầy đủ cho bƣớc nghiên cứu tiếp theo.
3. Tính cấp thiết của luận văn.
Giải quyết đƣợc vấn đề về học thuật: Đề tài sẽ mang ý nghĩa cung cấp về
mặt lý thuyết để làm rõ về các phƣơng pháp phân tích ảnh CMND.
Số hóa bởi Trung tâm Học liệu
http://www.lrc-tnu.edu.vn/
3
Đáp ứng đƣợc yêu cầu của thực tiễn: từ các lý thuyết đã đƣợc nghiên
cứu, từ đó liên hệ và gắn vào thực tiễn để có thể áp dụng vào việc
phân tích ảnh CMND trong thực tế.
4. Bố cục của luận văn.
Các nội dung trình bày trong luận văn đƣợc chia thành 3 chƣơng.
Chƣơng 1 giới thiệu các vấn đề tổng quan nhận dạng văn bản và bài toán
phân tích cấu trúc trang ảnh tài liệu. Chƣơng 2 tập trung vào các kỹ thuật
phân tích cấu trúc, ứng dụng trong phát hiện và bóc tách các trƣờng thông tin
cần nhận dạng trên ảnh tài liệu (ảnh CMND).Chƣơng 3 trình bày quá trình
phân tích, thiết kế và cài đặt chƣơng trình thử nghiệm nhằm đánh giá hiệu quả
của phƣơng pháp trên các tập dữ liệu ảnh CMND đầu vào đƣợc thu thập từ
thực tế.
Số hóa bởi Trung tâm Học liệu
http://www.lrc-tnu.edu.vn/
4
CHƢƠNG 1: TỔNG QUAN VỀ NHẬN DẠNG VĂN BẢN VÀ
BÀI TOÁN PHÂN TÍCH CẤU TRÚC
Ngày nay, việc sử dụng máy tính để lƣu trữ tài liệu không còn là vấn đề
mới mẻ và cần phải chứng minh tính an toàn, thuận tiện của nó. Tuy nhiên
việc sử dụng giấy để lƣu trữ tài liệu trong một số mục đích vẫn chƣa thể thay
thế đƣợc nhƣ sách báo, công văn... Hơn nữa, lƣợng tài liệu đƣợc tạo ra từ
nhiều năm trƣớc vẫn còn rất nhiều mà không thể bỏ đi đƣợc vì tính quan
trọng của chúng.
Chúng ta mong muốn có thể điện tử hóa hàng tỉ trang tài liệu đó và cất
chúng chỉ trong một thiết bị lƣu trữ với kích thƣớc bằng một cuốn sách nhỏ,
tìm kiếm các thông tin mà chỉ cần tốn vài giây với một lần gõ phím Enter.
Vậy giải pháp là gì?
Thông thƣờng ngƣời ta sẽ phải thuê ngƣời cùng với việc tốn hàng tháng,
hàng năm mới có thể nhập vào máy tính đƣợc hết lƣợng tài liệu đó. Hiện nay
chúng ta đã có các máy Scan với tốc độ cao, công nghệ xử lý của máy tính
ngày càng siêu việt với tốc độ tính toán vƣợt cả tốc độ ánh sáng, vậy tại sao
chúng ta không quét toàn bộ các trang tài liệu vào và chuyển chúng thành văn
bản một cách tự động?
Bằng cách đó, tốc độ và tính chính xác sẽ tăng hàng trăm lần trong khi
chi phí lại rất nhỏ. Vấn đề là khi quét vào máy tính chúng ta không thu đƣợc
ngay các dòng văn bản từ các trang tài liệu đó để có thể soạn thảo, sửa chữa
và tìm kiếm nhƣ làm trên Office. Tất cả những gì thu đƣợc chỉ là các tấm ảnh
của các trang văn bản, máy tính lại đối xử công bằng với mọi điểm ảnh, máy
tính không có “mắt” nhƣ chúng ta để biết đâu là điểm ảnh của chữ, đâu là
điểm ảnh của đối tƣợng đồ họa.
Số hóa bởi Trung tâm Học liệu
http://www.lrc-tnu.edu.vn/
5
Một giải pháp đƣợc đặt ra đó là xây dựng các hệ thống nhận dạng văn
bản trong tấm ảnh chứa cả chữ và đối tƣợng đồ họa cần tách và chuyển chúng
thành trang văn bản để từ đó có thể mở và soạn thảođƣợc trên các chƣơng
trình soạn thảo văn bản.
1.1. Tổng quan vềnhận dạng văn bản
Hiện nay, máy tính đang phát triển mạnh mẽ, tốc độ xử lý không
ngừng đƣợc nâng lên. Cùng với nó là sự ra đời của các phần mềm thông
minh đã làm cho máy tính ngày một gần gũi với con ngƣời hơn. Một trong
những ứng dụng thành công của lĩnh vực nhận dạng mẫu là nhận dạng chữ
in (nhận dạng ký tự quang học OCR -Optical Character Recognition). Nhận
dạng chữ là quá trình chuyển đổi từ dạng hình ảnh của một hay nhiều trang
ảnh chứa các thông tin văn bản thành tệp văn bản thực sự có thể soạn thảo
đƣợc trên máy tính.OCR có rất nhiều ứng dụng hữu ích trong cuộc sống
nhƣ:Sắp xếp thƣ tíndựa vào việc nhận dạng mã bƣu chính (Zipcode) hay
địa chỉ gửi tới, tự động thu thập dữ liệu từ các mẫu đơn/báo biểu hay từ các
hồ sơ lao động, tự động kiểm tra, xác nhận chữ ký trong ngân hàng, tự
động xử lý các hóa đơn hay các yêu cầu thanh toán, nhập liệu tự động,
kiểm tra thông tin trên passport…
Hình 1. 1. Thu nhận ảnh tài liệu
Số hóa bởi Trung tâm Học liệu
http://www.lrc-tnu.edu.vn/
6
Trang ảnh tài liệu đƣợc đề cập ở đây là các file ảnh số hoá thu đƣợc bằng
cách quét các trang tài liệu dùng máy scanner, máy ảnh số, hay nhận từ một
máy fax, file ảnh này đƣợc lƣu trữ trong máy tính (Hình 1. 1). Ảnh tài liệu có
nhiều loại: ảnh đen trắng, ảnh màu, ảnh đa cấp xám với các phần mở rộng nhƣ
TIF, BMP, PCX… và ảnh tài liệu đƣợc đƣa ra trong luận văn này là ảnh đa
cấp xám.
Quy trình chung của một hệ thống nhận dạng văn bản đƣợc thể hiện cụ
thể trên Hình 1. 2. Ảnh tài liệu cần nhận dạng trƣớc tiên sẽ đƣợc tiền xử lý
nhằm tăng cƣờng chất lƣợng, căn chỉnh độ nghiêng, nắnchỉnh hình ảnh. Sau
đó sẽ tiến hành phân tích nhằm xác định cấu trúc trang tài liệu đồng thời xác
định đƣợc các vùng thông tin cần nhận dạng trên ảnh đầu vào. Bƣớc tiếp theo
sẽ tiến hành nhận dạng các vùng thông tin văn bản đã đƣợc xác định. Bƣớc
hậu xử lý cuối cùng sẽ thực hiện các thao tác kiểm lỗi chính tả và địnhdạng lại
cấu trúc trang văn bản.
Hình 1. 2. Quy trình chung của một hệ thống OCR
Số hóa bởi Trung tâm Học liệu
http://www.lrc-tnu.edu.vn/
7
Từ quy trình của hệ thống nhận dạng trênHình 1. 2 cho thấy bƣớc phân
tích cấu trúc trang tài liệu, bóc tách các vùng văn bản để nhận dạng có ảnh
hƣởng rất lớn tới chất lƣợng của một hệ thống nhận dạng.
1.2. Bài toán phân tích cấu trúc trang
1.2.1 Giới thiệu chung
Ảnh tài liệu chứa rất nhiều loại vùng thông tin khác nhau nhƣ các block,
lines, words, figures, tables và background. Ta có thể gọi các vùng này theo
chức năng của nó trong tài liệu hoặc gán cho nó các nhãn logic nhƣ sentences,
titles, captions, address (xem Hình 1. 3).
Hình 1. 3. Một số tài liệu có cấu trúc phức tạp
Quá trình phân tích cấu trúc ảnh thực chất là quá trình tách một tài liệu
thành các vùng theo một tiêu chuẩn hay mối quan hệ lẫn nhau nào đấy. Công
việc này đƣợc thực hiện qua nhiều bƣớc nhƣ tiền xử lý, tách vùng, lặp cấu
trúc tài liệu… Một số loại tài liệu nhƣ báo, tạp chí, sách quảng cáo, chúng có
cấu trúc và bố cục rất phức tạp và khôngcó một Form chung nào cả. Với con
ngƣời để có thể đọc hiểu đƣợc một trang tài liệu còn cần thêm nhiều kiến thức
bổ sung nhƣ ngôn ngữ, hoàn cảnh, các luật ngầm định, vì thế việc tự động
Số hóa bởi Trung tâm Học liệu
http://www.lrc-tnu.edu.vn/
8
phân tích các trang tài liệu một cách tổng quát là một việc rất khó khăn thậm
chí là không khả thi ngay cả với các hệ thống phân tích tài liệu tiên tiến nhất.
Các bƣớc xử lý chính trong quy trình phân tích cấu trúc trang ảnh đƣợc
thể hiện cụ thể trênHình 1.4. Trong đó, từ trang ảnh đầu vào trƣớc tiên sẽ
đƣợc tiền xử lý nhằm loại bỏ nhiễu, căn chỉnh độ nghiêng, tách nềntrang
ảnh,v.v.Sau đó sẽ tiến hành phân tích bố cục và cấu trúc trang ảnh nhằm xác
định các vùng thông tin khác nhau trên trang ảnh đầu vào (các vùng văn bản,
tiêu đề, ảnh, bảng biểu,…). Các vùng văn bản sẽ tiếp tục đƣợc phân đoạn
thành các thành phần nhỏ hơn, chẳng hạn nhƣ dòng, từ hoặc ký tự để phục vụ
cho bƣớc nhận dạng sau này. Việc đánh giá hiệu quả của các thuật toán phân
tích trang đƣợc tiến hành dựa trên các file ground truth (chứa thông tin chi tiết
của các vùng thông tin cần xác định) cho trƣớc.
Hình 1.4. Quy trình phân tích cấu trúc trang ảnh
Cấu trúc tài liệu thu đƣợc từ việc liên tiếp chia nhỏ nội dung của tài liệu
thành các phần đơn vị nhỏ (tức là không thể phân chia đƣợc nữa) và chúng
đƣợc gọi là các đối tƣợng cơ sở (basic objects). Còn tất cả các đối tƣợng khác
đƣợc gọi là các đối tƣợng hỗn hợp.Hai loại cấu trúc của tài liệu đƣợc quan
tâm ở đây đó là cấu trúc vật lý (hay bố cục vật lý) và cấu trúc logic mô tả mối
quan hệ logic giữa các vùng đối tƣợng trong tài liệu.
Số hóa bởi Trung tâm Học liệu
http://www.lrc-tnu.edu.vn/
- Xem thêm -