MỤC LỤC
TRANG BÌA
LỜI CAM ĐOAN
MỤC LỤC
TRANG TOM TẮT LUẬN VAN
DANH MỤC CAC TỪ VIẾT TẮT
DANH MỤC CAC HÌNH
MỞ ĐẦU ......................................................................................................................... 1
1. Lý do chọn đề tài ..................................................................................................... 1
2. Mục đích nghiên cứu ............................................................................................... 1
3. Ý nghĩa khoa học và thực tiễn của đề tài ................................................................ 1
4. Mục tiêu và nhiệm vụ .............................................................................................. 1
5. Bố cục của luận văn ................................................................................................ 2
CHƢƠNG 1. CÁC PHƢƠNG PHÁP NHẬN DẠNG .................................................... 3
1.1. Học máy ............................................................................................................... 3
1.1.1. Khái niệm ................................................................................................... 3
1.1.2. Các phƣơng pháp học máy ......................................................................... 3
1.2. Các phƣơng pháp nhận dạng ................................................................................ 5
1.2.1. Máy véc-tơ hỗ trợ (SVM) .......................................................................... 5
1.2.2. Phƣơng pháp tiếp cận cấu trúc.................................................................... 7
1.2.3. Mô hình Markov ẩn (HMM – Hidden Markov Model) ............................. 8
1.2.4. Đối sánh mẫu ............................................................................................ 10
1.2.5. Mạng nơ ron ............................................................................................. 11
1.2.6. Nhận dạng ký tự quang học – OCR ......................................................... 13
1.3. Thách thức đối với hệ thống nhận dạng ............................................................. 15
1.4. Kết chƣơng ......................................................................................................... 16
CHƢƠNG 2. XÂY DỰNG ỨNG DỤNG PHÂN LOẠI VĂN BẢN TẠI TỈNH ĐOÀN
QUẢNG NGÃI .............................................................................................................. 17
2.1. Xây dựng hệ thống ............................................................................................. 17
2.1.1. Giới thiệu bài toán .................................................................................... 17
2.1.2. Phƣơng pháp đề xuất ................................................................................ 17
2.2. Quy trình xử lý nhận dạng ................................................................................. 18
2.2.1. Tiền xử lý .................................................................................................. 18
2.2.2. Khối tách chữ ........................................................................................... 19
2.2.3. Trích chọn đặc trƣng................................................................................. 20
2.2.4. Huấn luyện và nhận dạng ......................................................................... 20
2.2.5. Hậu xử lý .................................................................................................. 20
2.3. Bố cục văn bản thực tế tại Tỉnh Đoàn Quảng Ngãi ........................................... 20
2.4. Tổng quan về hệ thống văn bản tại Tỉnh đoàn ................................................... 22
2.4.1. Thể loại Công văn..................................................................................... 23
2.4.2. Thể loại Kế hoạch ..................................................................................... 23
2.4.3. Thể loại Báo cáo ....................................................................................... 24
2.4.4. Thể loại Chƣơng trình .............................................................................. 24
2.4.5. Thể loại Đề án........................................................................................... 25
2.4.6. Thể loại Giấy mời ..................................................................................... 25
2.4.7. Thể loại Hƣớng dẫn .................................................................................. 25
2.4.8. Thể loại Kết luận ...................................................................................... 26
2.4.9. Thể loại Quyết định .................................................................................. 26
2.4.10. Thể loại Thông báo ................................................................................. 27
2.4.11. Thể loại Thông tri ................................................................................... 27
CHƢƠNG 3. TRIỂN KHAI HỆ THỐNG VÀ ĐÁNH GIÁ KẾT QUẢ ....................... 28
3.1. Chức năng chƣơng trình ..................................................................................... 28
3.1.1. Nhận văn bản đầu vào .............................................................................. 28
3.1.2. Tiền xử lý .................................................................................................. 29
3.1.3. Huấn luyện Nhận dạng ............................................................................. 29
3.1.4. Hậu xử lý .................................................................................................. 31
3.1.5. Hiển thị và lƣu trữ..................................................................................... 32
3.2. Môi trƣờng thực nghiệm .................................................................................... 32
3.2.1. Dữ liệu sử dụng ........................................................................................ 32
3.2.2. Giao diện chƣơng trình ............................................................................. 33
3.3. Đánh giá về kết quả ............................................................................................ 38
3.3.1. Về cài đặt .................................................................................................. 38
3.3.2. Về thực nghiệm......................................................................................... 38
KẾT LUẬN ................................................................................................................... 40
TÀI LIỆU THAM KHẢO
QUYẾT ĐỊNH GIAO ĐỀ TÀI LUẬN VĂN THẠC S (BẢO SAO
BẢN SAO KẾT LUẬN CỦA HỘI ĐỒNG, BẢN SAO NHẬN XÉT CỦA CÁC
PHẢN BIỆN.
TRANG TÓM TẮT LUẬN VĂN
XÂY DỰNG HỆ THỐNG PHÂN LOẠI TÀI LIỆU TẠI
TỈNH ĐOÀN QUẢNG NGÃI
Học viên: Nguyễn Phúc Hậu;
Chuyên ngành: Khoa học máy tính.
Mã số: 8480101
Khóa: K33-QNG; Trƣờng Đại học Bách khoa - ĐHĐN
Tóm tắt - Trong thời đại ngày nay, với sự phát triển vƣợt bật của công nghệ thông tin
và ứng dụng của nó trong đời sống - kinh tế - xã hội, lƣợng dữ liệu thu thập đƣợc ngày
càng nhiều theo thời gian, làm xuất hiện ngày càng nhiều các hệ thống cơ sở dữ liệu có
kích thƣớc lớn với nhu cầu cấp thiết khi muốn truy xuất dữ liệu.
Từ khối dữ liệu đã có sẵn tại cơ quan Tỉnh đoàn Quảng Ngãi, các kỹ thuật trong dạy
máy học có thể dùng để lƣu trữ dữ liệu, trích xuất những thông tin hữu ích khi cần
thiết. Qua tìm hiểu những chức năng của dạy máy học, luận văn tập trung vào nghiên
cứu kỹ thuật dạy máy học dựa trên hệ thống nhận dạng ký tự quang học OCR. Hiểu
đƣợc các thuật toán hiệu quả từ nhận dạng ký tự quang học nắm đƣợc những điểm
chính cần quan tâm giải quyết để phân loại văn bản tại cơ quan Tỉnh đoàn Quảng
Ngãi. Phần mềm đƣợc xây dựng trên nền ứng dụng, thuận tiện cho ngƣời sử dụng
không có chuyên môn công nghệ thông tin ở cơ quan Tỉnh đoàn Quảng Ngãi.
Từ khóa – Hệ thống phân loại, phân loại văn bản, phân loại tài liệu, nhận dạng ký tự,
OCR.
CONSTRUCTION OF CLASSIFICATION OF DOCUMENTS SYSTEM IN
QUANG NGAI PROVINCIAL GROUP
Summary - Nowadays, with the rapid development of information technology and its
application in the socio-economic life, the amount of collected data involving with the
appearance of a lot of the large database systems with the need of data accessing is
increasing day by day.
From the available data of Quang Ngai Provincial Youth Union, the techniques of
machine learning can be used to store the data, to extract useful information. By studying
the functions of machine learning, this thesis focuses on the research of machine learning
ktechniques based on the OCR - Optical Character Recognition system. The aim of
understanding the effective algorithms from the Optical Character Recognition possesses
and the main points to solve is to classify documents at Quang Ngai Provincial Youth
Union. The software is convenient for its users who do not have much knowledge of
information technology at Quang Ngai Provincial Youth Union.
Keywords - Classification system, text classification, document classification,
character recognition, OCR.
DANH MỤC CÁC TỪ VIẾT TẮT
SVM
Support Vector Machines
SV
Support Vector
HMM
Hidden Markov Model
VLSI
Very-large-scale-intergrated
OCR
Optical Character Recognition
PDA
thiết bị nhập cho những thiết bị hỗ trợ cá nhân
ICR
Intelligent Character Recognition
CV
Công văn
CVLT
Công văn liên tịch
KH
Kế hoạch
KHPH
Kế hoạch phối hợp
DANH MỤC CÁC HÌNH
Hình 1.1: Mô hình máy véc-tơ hỗ trợ ......................................................................... 6
Hình 1.2: Mô hình Markov ẩn ................................................................................... 9
Hình 1.3: Biểu đồ chuyển tiếp trạng thái mô hình Markov ....................................... 9
Hình 2.1: Quy trình xử lý của một ứng dụng nhận dạng ký tự quang học ............... 18
Hình 2.2: Ví dụ về các vùng văn bản tại Tỉnh đoàn Quảng Ngãi ............................ 22
Hình 2.3: Thể loại công văn ..................................................................................... 23
Hình 2.4: Thể loại Kế hoạch..................................................................................... 23
Hình 2.5: Thể loại Kế hoạch phối hợp ..................................................................... 24
Hình 2.6: Thể loại văn bản Báo cáo ......................................................................... 24
Hình 2.7: Thể loại văn bản Chƣơng trình ................................................................. 24
Hình 2.8: Thể loại văn bản Đề án ............................................................................ 25
Hình 2.9: Thể loại văn bản Giấy mời ....................................................................... 25
Hình 2.10: Thể loại văn bản Hƣớng dẫn .................................................................. 26
Hình 2.11: Thể loại văn bản Kết luận....................................................................... 26
Hình 2.13: Thể loại văn bản Thông báo .................................................................. 27
Hình 2.14: Thể loại văn bản Thông tri ..................................................................... 27
Hình 3.1: Chức năng chính trong chƣơng trình........................................................ 28
Hình 3.2: Văn bản thô chƣa nhận dạng và phân loại................................................ 29
Hình 3.3: Sơ đồ khối quá trình nhận dạng văn bản .................................................. 30
Hình 3.4: Văn bản sau khi đƣợc nhận dang và phân loại theo từng mục ................. 32
Hình 3.5: Giao diện chƣơng trình ............................................................................. 33
Hình 3.6: Khởi tạo mã văn bản tại cơ quan .............................................................. 34
Hình 3.7: Lƣu mã và đƣờng dẫn lƣu văn bản sau khi trỏ thành công ...................... 34
Hình 3.8: Dạy máy học mã liên quan ....................................................................... 35
Hình 3.9: Hệ thống thông báo đã tồn tại liên kết ..................................................... 36
Hình 3.10: Chức năng Testing – kiểm tra đơn văn bản ............................................ 37
Hình 3.11: Chức năng Scanning ............................................................................... 37
Hình 3.12: Hiển thị các thiết bị Scan trên hệ thống máy tính ................................. 38
Hình 3.13: Tỉ lệ nhận dạng ...................................................................................... 39
1
MỞ ĐẦU
1. Lý do chọn đề tài
- Việc phân loại các tài liệu có ký hiệu để lƣu trữ, khai thác các thông tin đó
trên hệ thống máy tính là một bài toán đang đƣợc đặt ra. Trên thực tế, cách duy nhất để
sử dụng thông tin ký hiệu và phân loại thì phải gõ lại văn bản trên bàn phím để có thể
thêm nó vào hệ thống máy tính hay sử dụng làm đầu vào. Và với mong muốn tìm hiểu
về lĩnh vực nhận dạng kí tự quang học (Optical character recognition – OCR và đóng
góp thêm vào kho ứng dụng về nhận dạng một hệ thống nhận dạng thiết thực, hữu ích.
- Vì vậy trong luận văn sẽ tập trung tìm hiểu các kỹ thuật, các công nghệ cần
thiết để xây dựng hệ thống ―Phân loại văn bản tại Tỉnh đoàn Quảng Ngãi‖
- Nội dung luận văn gồm phần mở đầu, 3 chƣơng nội dung, phần kết luận, tài
liệu tham khảo.
Chƣơng 1: Các phƣơng pháp nhận dạng
Chƣơng 2: Xây dựng ứng dụng phân loại văn bản tại Tỉnh Đoàn Quảng Ngãi
Chƣơng 3: Triển khai hệ thống và đánh giá kết quả
2. Mục đích nghiên cứu
- Nghiên cứu lý thuyết nhận dạng, xử lý ảnh.
- Hệ thống OCR
- Công nghệ mã nguồn mở Tesseract OCR
- Tạo ra một ứng dụng nhận dạng ký hiệu văn bản dựa trên mã nguồn mở
Tesseract OCR.
3. Ý nghĩa khoa học và thực tiễn của đề tài
3.1. Ý nghĩa khoa học
- Nghiên cứu lý thuyết nhận dạng và xử lý ảnh dựa trên mã nguồn mở Tesseract
OCR và hệ thống OCR.
3.2. Ý nghĩa thực tiễn
- Đề xuất giải pháp góp phần tăng hiệu quả việc quản lý văn bản tại cơ quan
Tỉnh đoàn Quảng Ngãi
4. Mục tiêu và nhiệm vụ
4.1. Mục tiêu
- Hỗ trợ cán bộ văn thƣ trong việc sao lƣu văn bản, quản lý văn bản phát hành
và văn bản đến.
- Tự động hóa việc lƣu trữ để giúp cán bộ văn thƣ dễ dàng tìm kiếm văn bản khi
cần.
2
4.2 Nhiệm vụ
- Tìm hiểu tổng quan về các phƣơng pháp dạy máy học
- Nghiên cứu lý thuyết nhận dạng, xử lý ảnh.
- Tạo ra một ứng dụng nhận dạng ký hiệu văn bản rời rạc dựa trên mạng noron
và mã nguồn mở Tesseract OCR.
- Xây dựng chƣơng trình, cài đặt, kiểm thử và đánh giá.
5. Bố cục của luận văn
Cấu trúc của luận văn đƣợc trình bày bao gồm các phần chính sau:
MỞ ĐẦU: Giới thiệu sơ bộ về lý do chọn đề tài, mục đích nghiên cứu, đối
tƣợng và phạm vi nghiên cứu, phƣơng pháp nghiên cứu, ý nghĩa khoa học và thực tiễn
của đề tài.
CHƢƠNG 1: CÁC PHƢƠNG PHÁP NHẬN DẠNG
Giới thiệu tổng quan các phƣơng pháp nhận dạng văn bản đã đƣợc áp dụng
trong các hệ thống nhận dạng từ trƣớc đến nay.
CHƢƠNG 2: XÂY DỰNG ỨNG DỤNG PHÂN LOẠI VĂN BẢN TẠI TỈNH
ĐOÀN QUẢNG NGÃI
Trong chƣơng này tác giả đề xuất phƣơng pháp xây dựng hệ thống phân loại
văn bản tại Tỉnh Đoàn Quảng Ngãi và trình bày các khối chức năng của phƣơng pháp
nhận dạng văn bản theo từng loại tại cơ quan.
CHƢƠNG 3: TRIỂN KHAI HỆ THỐNG VÀ ĐÁNH GIÁ KẾT QUẢ
Trong chƣơng này, tác giả xin đƣợc trình bày hệ thống nhận dạng văn bản tại cơ
quan Tỉnh Đoàn Quảng Ngãi và xây dựng quá trình thực nghiệm và đánh giá kết quả.
3
CHƯƠNG 1
CÁC PHƯƠNG PHÁP NHẬN DẠNG
1.1. Học máy
1.1.1. Khái niệm
Học máy [1] là một lĩnh vực của trí tuệ nhân tạo liên quan đến việc phát triển
các kĩ thuật cho phép các máy tính có thể "học". Cụ thể hơn, học máy là một phƣơng
pháp để tạo ra các chƣơng trình máy tính bằng việc phân tích các tập dữ liệu.
Học máy có liên quan lớn đến thống kê, vì cả hai lĩnh vực đều nghiên cứu việc
phân tích dữ liệu, nhƣng khác với thống kê, học máy tập trung vào sự phức tạp của các
giải thuật trong việc thực thi tính toán. Nhiều bài toán suy luận đƣợc xếp vào loại bài
toán khó, vì thế một phần của học máy là nghiên cứu sự phát triển các giải thuật suy
luận xấp xỉ mà có thể xử lý đƣợc.
Học máy có tính ứng dụng rất cao bao gồm máy truy tìm dữ liệu, chẩn đoán y
khoa, phát hiện thẻ tín dụng giả, phân tích thị trƣờng chứng khoán, phân loại các chuỗi
DNA, nhận dạng tiếng nói và chữ viết, dịch tự động, chơi trò chơi và cử động rô-bốt.
1.1.2. Các phương pháp học máy
1.1.2.1. Học không giám sát
Học không giám sát (Unsupervised Learning là một phƣơng pháp nhằm tìm ra
một mô hình mà phù hợp với các tập dữ liệu quan sát. Nó khác biệt với học có giám
sát ở chỗ là đầu ra đúng tƣơng ứng cho mỗi đầu vào là không biết trƣớc. Trong học
không có giám sát, đầu vào là một tập dữ liệu đƣợc thu thập. Học không có giám sát
thƣờng đối xử với các đối tƣợng đầu vào nhƣ là một tập các biến ngẫu nhiên. Sau đó,
một mô hình mật độ kết hợp sẽ đƣợc xây dựng cho tập dữ liệu đó. Học không giám sát
cũng hữu ích cho việc nén dữ liệu: về cơ bản, mọi giải thuật nén dữ liệu hoặc là dựa
vào một phân bố xác suất trên một tập đầu vào một cách tƣờng minh hay không tƣờng
minh.
Có rất nhiều thuật toán học không giám sát đƣợc ra đời và phát triển nhằm giải
quyết bài toán phân cụm phục vụ khai thác hiệu quả nguồn dữ liệu chƣa gán nhãn
nhiều và rất đa dạng. Việc lựa chọn sử dụng thuật toán nào tuỳ thuộc vào dữ liệu và
mục đích của từng bài toán. Trong đó các thuật toán thƣờng đƣợc sử dụng nhƣ:
Kmean, HAC (Hierarchial Agglomerative Clustering), SOM (Self-Organizing Map),
DBSCAN…
4
1.1.2.2. Học có giám sát
Học có giám sát (Supervised Learning là một kĩ thuật của ngành học máy để
xây dựng một hàm từ dữ liệu huấn luyện. Dữ liệu huấn luyện bao gồm các cặp gồm
đối tƣợng đầu vào (thƣờng dạng vec-tơ , và đầu ra mong muốn. Đầu ra của một hàm
có thể là một giá trị liên tục (gọi là hồi qui , hay có thể là dự đoán một nhãn phân loại
cho một đối tƣợng đầu vào (gọi là phân loại .
Học có giám sát có thể dự đoán giá trị của hàm cho một đối tƣợng bất kì là đầu
vào hợp lệ, sau khi đã xem xét một số ví dụ huấn luyện (nghĩa là, các cặp đầu vào và
đầu ra tƣơng ứng .
Một số thuật toán thƣờng đƣợc lựa chọn khi xây dựng bộ phân lớp gồm có:
Máy vector hỗ trợ (Support Vector Machine – SVM , hạt nhân phân tích biệt thức, K
láng giềng gần nhất (K Nearest Neighbours – KNN , tiếp cận xác suất thống kê (Naive
Bayes – NB , cây quyết định (Decision Tree – DT , mạng nơron (Neural Network –
Nnet , Vector trọng tâm (Centroid–base vector , tuyến tính bình phƣơng nhỏ nhất
(Linear Least Square Fit – LLSF).
1.1.2.3. Học bán giám sát
Theo Xiaojin Zhu, khái niệm học bán giám sát [2] đƣợc đƣa ra năm 1970 khi
bài toán đánh giá quy tắc Linear Discrimination Fisher cùng với dữ liệu chƣa gán nhãn
đƣợc nhiều sự quan tâm của các nhà khoa học trên thế giới.
Trong khoa học máy tính, học bán giám sát là một phƣơng thức của ngành học
máy sử dụng cả dữ liệu gán nhãn và chƣa gán nhãn, nhiều nghiên cứu của ngành học
máy có thể tìm ra đƣợc dữ liệu chƣa gán nhãn khi sử dụng với một số lƣợng nhỏ dữ
liệu gán nhãn[3]. Công việc thu đƣợc kết quả của dữ liệu gán nhãn thƣờng đòi hỏi ở
trình độ tƣ duy và khả năng của con ngƣời, công việc này tốn nhiều thời gian và chi
phí, do vậy dữ liệu gán nhãn thƣờng rất hiếm và đắt, trong khi dữ liệu chƣa gán nhãn
thì lại rất phong phú. Trong trƣờng hợp đó, chúng ta có thể sử dụng học bán giám sát
để thi hành các công việc ở quy mô lớn.
Học bán giám sát bao gồm dữ liệu gán nhãn và chƣa gán nhãn. Học bán giám
sát có thể đƣợc áp dụng vào việc phân lớp và phân cụm. Mục tiêu của học bán giám
sát là huấn luyện tập phân lớp tốt hơn học có giám sát từ dữ liệu gán nhãn và chƣa gán
nhãn.
Nhƣ vậy, có thể nói học bán giám sát là phƣơng pháp học có giám sát kết hợp
với việc tận dụng các dữ liệu chƣa gán nhãn. Trong phần bổ sung thêm vào cho dữ liệu
gán nhãn, thuật toán cung cấp một vài thông tin giám sát, việc này không cần thiết cho
5
tất cả các mẫu huấn luyện. Thông thƣờng thông tin này sẽ đƣợc kết hợp với một vài
mẫu cho trƣớc.
Một số thuật toán thƣờng đƣợc sử dụng gồm có: thuật toán Cực đại kỳ vọng
(EM - Expectation Maximization , SVM truyền dẫn (TSVM - Transductive Support
Vector Machine), Self-training, Co-training và các phƣơng pháp dựa trên đồ thị
(graphbased).
Việc lựa chọn thuật toán nào dựa trên một số định hƣớng: nếu các
lớp dữ liệu có tính phân cụm cao thì nên dùng EM với mô hình hỗn hợp sinh; nếu đã
sử dụng SVM thì mở rộng thành TSVM; khi khó nâng cấp mô hình học có giám sát đã
có, thì nên dùng self-training; nếu các đặc trƣng của dữ liệu phân chia tự nhiên thành
hai phần riêng rẽ thì nên dùng Co-training; còn nếu hai mẫu dữ liệu có đặc trƣng tƣơng
tự nhau hƣớng tới một lớp thì sử dụng phƣơng pháp dựa trên đồ thị.
1.1.2.4. Học tăng cường
Học tăng cƣờng [4] là phƣơng pháp máy tính đƣa ra quyết định hành động
(action và nhận kết quả phản hồi (response/reward từ môi trƣờng (environment . Sau
đó máy tính tìm cách chỉnh sửa cách ra quyết định hành động của mình. Các thuật toán
học tăng cƣờng đƣợc chia thành hai loại chính đó là: Học dựa trên mô hình và học
không có mô hình. Đại điện cho kiểu học dựa trên mô hình phải kể đến phƣơng pháp
quy hoạch động (Dynamic Programming DP , đại diện cho kiểu học không có mô hình
là phƣơng pháp Monte Carlo và phƣơng pháp TD (Temporal Difference).
1.2. Các phƣơng pháp nhận dạng
1.2.1. Máy véc-tơ hỗ trợ (SVM)
Máy vectơ hỗ trợ [22] (SVM – viết tắt tên tiếng Anh support vector machine là
một khái niệm trong thống kê và khoa học máy tính cho một tập hợp các phƣơng pháp
học có giám sát liên quan đến nhau để phân loại và phân tích hồi quy. SVM dạng
chuẩn nhận dữ liệu vào và phân loại chúng vào hai lớp khác nhau. Do đó SVM là một
thuật toán phân loại nhị phân. Với một bộ các ví dụ luyện tập thuộc hai thể loại cho
trƣớc, thuật toán luyện tập SVM xây dựng một mô hình SVM để phân loại các ví dụ
khác vào hai thể loại đó. Một mô hình SVM là một cách biểu diễn các điểm trong
không gian và lựa chọn ranh giới giữa hai thể loại sao cho khoảng cách từ các ví dụ
luyện tập tới ranh giới là xa nhất có thể. Các ví dụ mới cũng đƣợc biểu diễn trong cùng
một không gian và đƣợc thuật toán dự đoán thuộc một trong hai thể loại tùy vào ví dụ
đó nằm ở phía nào của ranh giới.
6
Hình 1.1: Mô hình máy véc-tơ hỗ trợ
Một máy vectơ hỗ trợ xây dựng một siêu phẳng hoặc một tập hợp các siêu
phẳng trong một không gian nhiều chiều hoặc vô hạn chiều, có thể đƣợc sử dụng cho
phân loại, hồi quy, hoặc các nhiệm vụ khác. Một cách trực giác, để phân loại tốt nhất
thì các siêu phẳng nằm ở càng xa các điểm dữ liệu của tất cả các lớp (gọi là hàm lề
càng tốt, vì nói chung lề càng lớn thì sai số tổng quát hóa của thuật toán phân loại càng
bé.
Trong nhiều trƣờng hợp, không thể phân chia các lớp dữ liệu một cách tuyến
tính trong một không gian ban đầu đƣợc dùng để mô tả một vấn đề. Vì vậy, nhiều khi
cần phải ánh xạ các điểm dữ liệu trong không gian ban đầu vào một không gian mới
nhiều chiều hơn, để việc phân tách chúng trở nên dễ dàng hơn trong không gian mới.
Để việc tính toán đƣợc hiệu quả, ánh xạ sử dụng trong thuật toán SVM chỉ đòi hỏi tích
vô hƣớng của các vectơ dữ liệu trong không gian mới có thể đƣợc tính dễ dàng từ các
tọa độ trong không gian cũ. Tích vô hƣớng này đƣợc xác định bằng một hàm hạt nhân
K(x,y) phù hợp. Một siêu phẳng trong không gian mới đƣợc định nghĩa là tập hợp các
điểm có tích vô hƣớng với một vectơ cố định trong không gian đó là một hằng số.
Vectơ xác định một siêu phẳng sử dụng trong SVM là một tổ hợp tuyến tính của các
vectơ dữ liệu luyện tập trong không gian mới với các hệ số αi. Với siêu phẳng lựa
chọn nhƣ trên, các điểm x trong không gian đặc trƣng đƣợc ánh xạ vào một siêu mặt
phẳng là các điểm thỏa mãn:
7
∑
(
)
Ghi chú rằng nếu K(x,y nhận giá trị ngày càng nhỏ khi y xa dần khỏi x thì mỗi
số hạng của tổng trên đƣợc dùng để đo độ tƣơng tự giữa x với điểm xi tƣơng ứng trong
dữ liệu luyện tập. Nhƣ vậy, tác dụng của tổng trên chính là so sánh khoảng cách giữa
điểm cần dự đoán với các điểm dữ liệu đã biết. Lƣu ý là tập hợp các điểm x đƣợc ánh
xạ vào một siêu phẳng có thể có độ phức tạp tùy ý trong không gian ban đầu, nên có
thể phân tách các tập hợp thậm chí không lồi trong không gian ban đầu.
Ưu điểm của SVM
- Cho kết quả nhận dạng với độ chính xác cao
- Bài toán huấn luyện SVM thực chất là bài toán quy hoạch toàn phƣơng trên
một tập lồi, do đó SVM luôn có nghiệm toàn cục và duy nhất, đây chính là điểm khác
biệt rõ nhất giữa SVM so với phƣơng pháp mạng Neural, vì mạng Neural vốn tồn tại
nhiều điểm cực trị địa phƣơng.
Nhược điểm của SVM
- Hạn chế lớn nhất của SVM là tốc độ phân lớp rất chậm, tùy thuộc vào số
lƣợng các véc tơ hỗ trợ.
- Giai đoạn huấn luyện SVM đòi hỏi bộ nhớ rất lớn, do đó các bài toán huấn
luyện với số lƣợng mẫu lớn sẽ gặp trở ngại trong vấn đề lƣu trữ. Hiệu quả phân lớp
của SVM phụ thuộc vào hai yếu tố: giải bài toán quy hoạc toàn phƣơng và lựa chọn
hàm nhân.
1.2.2. Phương pháp tiếp cận cấu trúc
Cách tiếp cận của phƣơng pháp này dựa vào việc mô tả đối tƣợng nhờ một số
khái niệm biểu diễn đối tƣợng cơ sở trong ngôn ngữ tự nhiên. Để mô tả đối tƣợng
ngƣời ta dùng một số dạng nguyên thủy nhƣ đoạn thẳng, cung,… Mỗi đối tƣợng đƣợc
mô tả nhƣ một sự kết hợp của các dạng nguyên thủy.
Các quy tắc kết hợp các dạng nguyên thủy đƣợc xây dựng giống nhƣ việc
nghiên cứu văn phạm trong một ngôn ngữ, do đó quá trình quyết định nhận dạng là
quá trình phân tích cú pháp[5,6]. Phƣơng pháp này đặt vấn đề để giải quyết bài toán
nhận dạng chữ tổng quát. Tuy vậy, cho đến nay còn nhiều vấn đề liên quan đến hệ
nhận dạng cú pháp chƣa đƣợc giải quyết độc lập và xây dụng đƣợc các thuật toán phổ
dụng. Hiện nay, nhận dạng theo cấu trúc phổ biến là trích trọn các đặc trung của mẫu
học, phân hoạch bảng ký tự dựa trên các đặc trƣng này, sau đó ảnh cần nhận dạng sẽ
đƣợc trích chọn đặc trƣng, sau đó so sánh bảng phân hoạch để tìm ra ký tự có các đặc
trƣng phù hợp.
8
Các phƣơng pháp cấu trúc áp dụng cho các bài toán nhận dạng chữ đƣợc phát
triển theo hai hƣớng sau:
1.2.2.1. Phương pháp đồ thị (Graphical Methods)
Các đơn vị chữ viết đƣợc mô tả bởi các cây hoặc các đồ thị. Các dạng nguyên
thủy của ký tự (các nét đƣợc lựa chọn bởi một hƣớng tiếp cận cấu trúc. Đối với mỗi
lớp, một đồ thị hoặc cây đƣợc thành lập trong giai đoạn huấn luyện để mô tả các nét,
các ký tự hoặc các từ. Giai đoạn nhận dạng gán một đồ thị chƣa biết vào một trong các
lớp bằng cách sử dụng một độ đo để so sánh các đặc điểm giống nhau giữa các đồ thị.
1.2.2.2. Phương pháp ngữ pháp (Grammatical Methods)
Giữa thập niên 1960, các nhà nghiên cứu bắt đầu xét các luật của ngôn ngữ học
để phân tích tiếng nói và chữ viết. Sau đó, các luật đa dạng của chính tả, từ vựng và
ngôn ngữ học đã đƣợc áp dụng cho các chiến lƣợc nhận dạng. Phƣơng pháp ngữ pháp
khởi tạo một số luật sinh để hình thành các ký tự từ một tập các công thức ngữ pháp
nguyên thủy. Các luật sinh này có thể kết nối bất kỳ kiểu đặc trƣng thống kê và đặc
trƣng hình thái nào dƣới một số cú pháp hoặc các luật ngữ nghĩa[5,6,7]. Giống nhƣ lý
thuyết ngôn ngữ, các luật sinh cho phép mô tả các cấu trúc câu có thể chấp nhận đƣợc
các trích chọn thông tin theo ngữ cảnh về chữ viết bằng cách sử dụng các kiêu ngữ
pháp khác nhau[8].
Trong phƣơng pháp này, việc huấn luyện đƣợc thực hiện bằng cách mô tả mỗi
ký tự bằng một văn phạm Gi. Còn trong pha nhận dạng thì chuỗi, cây hoặc đồ thị của
một đơn vị viết bất kỳ (ký tự, từ hoặc câu đƣợc phân tích để quyết định văn phạm của
mẫu đó thuộc lớp nào. Các phƣơng pháp ngữ pháo hầu hết đƣợc sử dụng trong giai
đoạn hậu xử lý để sửa các lỗi mà khối nhận dạng đã thực hiện sai[9,10].
1.2.3. Mô hình Markov ẩn (HMM – Hidden Markov Model)
Mô hình Markov ẩn [23] (tiếng Anh là Hidden Markov Model - HMM) là mô
hình thống kê trong đó hệ thống đƣợc mô hình hóa đƣợc cho là một quá trình
Markov với các tham số không biết trƣớc và nhiệm vụ là xác định các tham số ẩn từ
các tham số quan sát đƣợc, dựa trên sự thừa nhận này. Các tham số của mô hình đƣợc
rút ra sau đó có thể sử dụng để thực hiện các phân tích kế tiếp, ví dụ cho các ứng
dụng nhận dạng mẫu.
Trong một mô hình Markov điển hình, trạng thái đƣợc quan sát trực tiếp bởi
ngƣời quan sát, và vì vậy các xác suất chuyển tiếp trạng thái là các tham số duy
nhất. Mô hình Markov ẩn thêm vào các đầu ra: mỗi trạng thái có xác suất phân bổ
9
trên các biểu hiện đầu ra có thể. Vì vậy, nhìn vào dãy của các biểu hiện đƣợc sinh ra
bởi HMM không trực tiếp chỉ ra dãy các trạng thái.
Đây là một mô hình toán thống kê có ứng dụng rộng rãi trong Tin sinh học.
𝑎12
𝑎23
X3
X2
X1
𝑎21
b1
b3
b2
y2
y1
y3
Các chuyển tiếp trạng thái trong mô hình Markov ẩn
Hình 1.2: Mô hình Markov ẩn
- x — Các trạng thái trong mô hình Markov
- a — Các xác suất chuyển tiếp
- b — Các xác suất đầu ra
- y — Các dữ liệu quan sát
Sự tiến hóa của mô hình Markov
Biểu đồ trên đây làm nổi bật các chuyển tiếp trạng thái của mô hình Markov ẩn.
Nó cũng có ích để biểu diễn rõ ràng sự tiến hóa của mô hình theo thời gian, với các
trạng thái tại các thời điểm khác nhau t1 và t2 đƣợc biểu diễn bằng các tham biến khác
nhau, x(t1) và x(t2).
…
x(t-1)
y(t-1)
x(t)
y(t)
x(t+1)
…
y(t+1)
Hình 1.3: Biểu đồ chuyển tiếp trạng thái mô hình Markov
Trong biểu đồ này, nó đƣợc hiểu rằng thời gian chia cắt ra (x(t), y(t mở rộng
tới các thời gian trƣớc và sau đó nhƣ một sự cần thiết. Thông thƣờng lát cắt sớm nhất
là thời gian t=0 hay t=1.
10
Sử dụng các mô hình Markov
Có ba vấn đề cơ bản để giải quyết bằng HMM:
Cung cấp cho mô hình các tham số, tính xác suất của dãy đầu ra cụ thể. Giải
bằng thuật toán tiến trƣớc (thuật toán tham lam).
Cung cấp cho mô hình các tham số, tìm dãy các trạng thái (ẩn có khả năng lớn
nhất mà có thể sinh ra dãy đầu ra đã cung cấp. Giải bằng thuật toán Viterbi.
Cung cấp dãy đầu ra, tìm tập hợp có khả năng nhất của chuyển tiếp trạng thái và
các xác suất đầu ra. Giải bằng thuật toán Baum-Welch.
Các ứng dụng
Sự nhận biết lời nói hay sự nhận biết ký tự quang học.
Quy trình ngôn ngữ tự nhiên.
Tin sinh học và hệ gen học:
Dự đoán các vùng mang mã (khung đọc mở trên một trình từ gene.
Xác định các họ gene hoặc họ protein liên quan.
Mô phỏng cấu trúc không gian của protein từ trình tự amino acid.
và còn nhiều nữa...
1.2.4. Đối sánh mẫu
Kỹ thuật nhận dạng chữ đơn giản nhất dựa trên cơ sở đối sánh các nguyên mẫu
(prototype với nhau để nhận dạng ký tự hoặc từ. Nói chung, toán tử đối sánh xác định
mức độ giống nhau giữa hai véc tơ (nhóm các điểm, hình dạng, độ cong... trong một
không gian đặc trƣng. Các kỹ thuật đối sánh có thể nghiên cứu theo ba hƣớng sau:
Đối sánh trực tiếp: Một ký tự đầu vào là ảnh đa cấp xám hoặc ảnh nhị phân
đƣợc so sánh trực tiếp với một tập mẫu chuẩn đã đƣợc lƣu trữ. Việc so sánh dựa theo
một độ đo về sự tƣơng đồng nào đó (chẳng hạn nhƣ độ đo Euclide để nhận dạng. Các
kỹ thuật đối sánh này có thể đơn giản nhƣ việc so sánh một – một hoặc phức tạp hơn
nhƣ cây quyết định[11,12]. Mặc dù phƣơng pháp đối sánh trực tiếp đơn giản và có một
cơ sở toán học vững chắc nhƣng kết quả nhận dạng của nó cũng rất nhạy cảm với
nhiễu.
Các mẫu biến dạng và đối sánh mềm: Một phƣơng pháp đối sánh khác là sử
dụng các mẫu biến dạng, trong đó một phép biến dạng ảnh đƣợc dùng để đối sánh một
ảnh chƣa biết với một cơ sở dữ liệu ảnh đã biết[13].
Ý tƣởng cơ bản của đối sánh mềm là đối sánh một cách tối ƣu mẫu chƣa biết
với tất cả các mẫu có thể mà các mẫu này có thế kéo giãn ra hoặc co lại. Chỉ một
không gian đặc trung đƣợc thành lập, các véc tơ chƣa biết đƣợc đối sánh bằng cách sử
dụng quy hoạch động và một hàm biến dạng[14,15].
11
Đối sánh giảm nhẹ: Đây là một kỹ thuật đối sánh ảnh ở mức độ tƣợng trƣng, kỹ
thuật này sử dụng hình dáng đặc trƣng cơ bản của ảnh ký tự. Thứ nhất, các vùng đối
sánh đã đƣợc nhận biết. Sau đó, trên cơ sở với các vùng đối sánh này. Công việc này
đòi hỏi một kỹ thuật tìm kiếm trong một không guan đa chiều để tìm cực đại toàn cục
của số hàm[16].
Các kỹ thuật đối sánh mẫu chỉ áp dụng với nhận dạng chữ in, còn đối với chữ
viết tay thì các kỹ thuật này tỏ ra kém hiệu quả.
1.2.5. Mạng nơ ron
Một mạng nơ ron đƣợc định nghĩa nhƣ một cấu trúc tính toán bao gồm nhiều bộ
xử lý ―nơ ron‖ đƣợc kết nối song song chằng chịt với nhau. Do bản chất song song của
các nơ ron nên nó có thể thực hiện các tính toán với tốc độ cao hơn so với các kỹ thuật
phân lớp khác. Một mạng nơ ron chƣa nhiều nút, đầu ra của một nút đƣợc sử dụng cho
một nút khác ở trong mạng và hàm quyết định cuối cùng phụ thuộc vào sự tƣơng tác
phức tạp giữa các nút. Mặc dù nguyên lý khác nhau, nhƣng hầu hết các kiến trúc mạng
nơ ron đều tƣơng đƣơng với các phƣơng pháp nhận dạng mẫu thống kê[17,18].
Các kiến trúc mạng nơ ron có thể đƣợc phân tành hai nhóm chính: mạng truyền
thẳng và mạng lan truyền ngƣợc. Trong các hệ thống nhận dạng chữ, các mạng nơ ron
sử dụng phổ biến nhất là mạng perceptron đa lớp thuộc nhóm mạng truyền thẳng và
mạng SOM (Self Origanizing Map của Kohonen thuộc nhóm mạng lan truyền ngƣợc.
Mạng perceptron đa lớp đƣợc đề xuất bởi Rosenblatt [19] đƣợc nhiều tác giả sử
dụng trong hệ thống nhận dạng. Hầu hết các nghiên cứu phát triển nhận dạng chữ viết
hiện nay đều tập trung vào mạng SOM [20]. SOM kết hợp trích chọn đặc trƣng và
nhận dạng trên một tập lớn các ký tự huấn luyện. Mạng này chứng tỏ rằng nó tƣơng
đƣơng với thuật toán phân cụm k-means.
1.2.5.1. Đặc trưng của mạng nơ ron[21].
1.2.5.1.1. Tính phi tuyến
Một nơ ron có thể tính toán một cách tuyến tính hay phi tuyến. Một mạng nơ
ron, cấu thành bởi sự kết nối các nơ ron phi tuyến thì tự nó sẽ có tính phi tuyến. Hơn
nữa, điều đặc biệt là tính phi tuyến này đƣợc phân tán trên toàn mạng. Tính phi tuyến
là một thuộc tính rất quan trọng, nhất là khi các cơ chế vật lý sinh ra các tín hiệu đầu
vào (ví dụ tín hiệu tiếng nói vốn là phi tuyến.
1.2.5.1.2. Tính chất tương ướng đầu vào đầu ra.
Mặc dù khái niệm ―học‖ hay ―huấn luyện‖ chƣa đƣợc bàn đến nhƣng để hiểu
đƣợc mối quan hệ đầu vào-đầu ra của mạng nơ ron, chúng ta sẽ đề cập sơ qua về khái
12
niệm này. Một mô hình học phổ biến đƣợc gọi là học với một ngƣời dạy hay học có
giám sát liên quan đến việc thay đổi các trọng số liên kết của mạng nơ ron bằng việc
áp dụng một tập hợp các mẫu tích luỹ hay các ví dụ tích luỹ. Mỗi một ví dụ bao gồm
một tín hiệu đầu vào và một đầu ra mong muốn tƣơng ứng. Mạng nơ ron nhận một ví
dụ lấy một cách ngẫu nhiên từ tập hợp nói trên tại đầu vào của nó, và các trọng số liên
kết của mạng đƣợc biến đổi sao cho có thể cực tiểu hoá sự sai khác giữa đầu ra mong
muốn và đầu ra thực sự của mạng theo một tiêu chuẩn thống kê thích hợp. Sự tích luỹ
của mạng đƣợc lặp lại với nhiều ví dụ trong tập hợp cho tới khi mạng đạt tới một trạng
thái ổn định mà ở đó không có một sự thay đổi đáng kể nào của các trọng số liên kết.
Các ví dụ tích luỹ đƣợc áp dụng trƣớc có thể đƣợc áp dụng lại trong thời gian của
phiên tích luỹ nhƣng theo một thứ tự khác. Nhƣ vậy mạng nơ ron học từ các ví dụ
bằng cách xây dựng nên một tƣơng ứng đầu vào-đầu ra cho vấn đề cần giải quyết.
1.2.5.1.3. Tính chất thích nghi.
Các mạng nơ ron có một khả năng mặc định là biến đổi các trọng số liên kết tuỳ
theo sự thay đổi của môi trƣờng xung quanh. Đặc biệt, một mạng nơ ron đã đƣợc tích
luỹ để hoạt động trong một môi trƣờng xác định có thể đƣợc tích luỹ lại một cách dễ
dàng khi có những thay đổi nhỏ của các điều kiện môi trƣờng hoạt động.
1.2.5.1.4. Tính chất đưa ra lời giải có bằng chứng.
Trong ngữ cảnh phân loại mẫu, một mạng nơ ron có thể đƣợc thiết kế để đƣa ra
thông tin không chỉ về mẫu đƣợc phân loại, mà còn về sự tin cậy của quyết định đã
đƣợc thực hiện. Thông tin này có thể đƣợc sử dụng để loại bỏ các mẫu mơ hồ hay
nhập nhằng.
1.2.5.1.5. Tính chất chấp nhận sai xót.
Một mạng nơ ron, đƣợc cài đặt dƣới dạng phần cứng, vốn có khả năng chấp
nhận lỗi, hay khả năng tính toán thô, với ý nghĩa là tính năng của nó chỉ thoái hoá khi
có những điều kiện hoạt động bất lợi. Ví dụ, nếu một nơ ron hay các liên kết kết nối
của nó bị hỏng, việc nhận dạng lại một mẫu đƣợc lƣu trữ sẽ suy giảm về chất lƣợng.
1.2.5.1.6. Khả năng cài đặt VLSI(Very-large-scale-intergrated).
Bản chất song song đồ sộ của một mạng nơ ron làm cho nó rất nhanh trong tính
toán đối với một số công việc. Đặc tính này cũng tạo ra cho một mạng nơ ron khả năng
phù hợp cho việc cài đặt sử dụng kỹ thuật Very-large-scale-intergrated (VLSI . Kỹ
thuật này cho phép xây dựng những mạch cứng tính toán song song quy mô lớn. Chính
vì vậy mà ƣu điểm nổi bật của VLSI là mang lại những phƣơng tiện hữu hiệu để có thể
xử lý đƣợc những hành vi có độ phức tạp cao.
13
1.2.5.1.7. Tính chất đồng dạng trong phân tích và thiết kế.
Về cơ bản, các mạng nơ ron có tính chất chung nhƣ là các bộ xử lý thông tin.
Chúng ta nêu ra điều này với cùng ý nghĩa cho tất cả các lĩnh vực có liên quan tới việc
ứng dụng mạng nơ ron. Đặc tính này thể hiện ở một số điểm nhƣ sau:
Các nơ ron, dƣới dạng này hoặc dạng khác, biểu diễn một thành phần chung cho
tất cả các mạng nơ ron.
Tính thống nhất này đem lại khả năng chia sẻ các lý thuyết và các thuật toán
học trong nhiều ứng dụng khác nhau của mạng nơ ron.
Các mạng tổ hợp (modular có thể đƣợc xây dựng thông qua một sự tích hợp
các mô hình khác nhau.
Với thuật toán đơn giản nhƣng rất hiệu quả, cùng với thành công của mô hình
này trong các ứng dụng thực tiễn, mạng nơ ron hiện đang là một trong các hƣớng
nghiên cứu của lĩnh vực học máy. Mạng nơ ron tỏ ra phù hợp với các bài toán đối
sánh, phân loại mãu, xấp xỉ hàm, tối ƣu hóa, lƣợng tử hóa véc tơ và phân hoạch không
gian dữ liệu, trong khi các phƣơng pháp truyền thống không đủ khả năng giải quyết
các vấn đề nêu trên một cách hiệu quả. Đặc biệt trong các hệ thống nhận dạng sử dụng
mạng nơ ron đã đạt đƣợc tỉ lệ nhận dạng khá chính xác, có thể so sánh với các phƣơng
pháp nhận dạng cấu trúc, thống kê,…
1.2.6. Nhận dạng ký tự quang học – OCR
Nhận dạng ký tự quang học [24] (tiếng anh: Optical Character Recognition, viết
tắt là OCR , là loại phần mềm máy tính đƣợc tạo ra để chuyển các hình ảnh của chữ
viết tay hoặc chữ đánh máy (thƣờng đƣợc quét bằng máy scanner thành các văn bản
tài liệu. OCR đƣợc hình thành từ một lĩnh vực nghiên cứu về nhận dạng mẫu, trí tuệ
nhân tạo và machine vision. Mặc dù công việc nghiên cứu học thuật vẫn tiếp tục, một
phần công việc của OCR đã chuyển sang ứng dụng trong thực tế với các kỹ thuật đã
đƣợc chứng minh.
Nhận dạng ký tự quang học (dùng các kỹ thuật quang học chẳng hạn nhƣ gƣơng
và ống kính và nhận dạng ký tự số (sử dụng máy quét và các thuật toán máy tính lúc
đầu đƣợc xem xét nhƣ hai lĩnh vực khác nhau. Bởi vì chỉ có rất ít các ứng dụng tồn tại
với các kỹ thuật quang học thực sự, bởi vậy thuật ngữ Nhận dạng ký tự quang
học đƣợc mở rộng và bao gồm luôn ý nghĩa nhận dạng ký tự số.
Đầu tiên hệ thống nhận dạng yêu cầu phải đƣợc huấn luyện với các mẫu của các
ký tự cụ thể. Các hệ thống "thông minh" với độ chính xác nhận dạng cao đối với hầu
hết các phông chữ hiện nay đã trở nên phổ biến. Một số hệ thống còn có khả năng tái
14
tạo lại các định dạng của tài liệu gần giống với bản gốc bao gồm: hình ảnh, các cột,
bảng biểu, các thành phần không phải là văn bản
Hiện nay, với chữ Việt, phần mềm nhận dạng chữ Việt in VnDOCR 4.0 có khả
năng nhận dạng trực tiếp các loại tài liệu đƣợc quét qua máy quét, không cần lƣu trữ
dƣới dạng tệp ảnh trung gian. Các trang tài liệu có thể đƣợc quét và lƣu trữ dƣới dạng
tệp tin nhiều trang. Kết quả nhận dạng đƣợc lƣu trữ sang định dạng của Microsoft
Word, Excel... phục vụ rất tốt nhu cầu số hóa dữ liệu.
Ngoài ra, còn có một dự án OCR Tiếng Việt có tên VietOCR, đƣợc phát triển
dựa trên nền tảng mã nguồn mở tesseract-ocr do Google tài trợ. VietOCR có khả năng
nhận dạng chữ Việt rất tốt. Đây là một chƣơng trình nguồn mở Java/.NET, hỗ trợ nhận
dạng cho các dạng ảnh PDF, TIFF, JPEG, GIF, PNG, và BMP.
ABBYY - một hãng công nghệ hàng đầu trên thế giới về lĩnh vực Nhận dạng ký
tự quang học đã tiến hành nghiên cứu và triển khai công nghệ nhận dạng Tiếng Việt
vào tháng 4 năm 2009. Với công nghệ này độ chính xác trong việc nhận dạng tài liệu
chữ in Tiếng Việt lên tới hơn 99% (cứ nhận dạng 100 ký tự thì có chƣa đến 1 ký tự
sai . Công nghệ của ABBYY chấp nhận hầu hết các định dạng ảnh đầu vào nhƣ: PDF,
TIFF, JPEG, GIF, PNG, BMP, PCX, DCX, DjVu... Kết quả nhận dạng đƣợc lƣu trữ
dƣới các định dạng MS Word, MS Excel, HTML, TXT, XML, PDF, PDF 2 lớp, trong
đó định dạng PDF 2 lớp là một định dạng hoàn hảo cho việc lƣu trữ và khai thác tài
liệu. Với định dạng này, ngƣời đọc có thể đọc trung thực ảnh gốc nhờ lớp ảnh bên trên,
các công cụ tìm kiếm có thể tìm kiểm toàn văn trên văn bản nhờ lớp text nhận dạng
đƣợc bên dƣới.
Sự nhận dạng chính xác ký tự Latin đánh máy đƣợc xem là vấn đề đã đƣợc giải
quyết. Tỷ lệ chính xác thực tế đạt tới 99%, mặc dù một số ứng dụng đòi hỏi tỷ lệ chính
xác cao hơn nữa cần phải con ngƣời kiểm tra lại lỗi.
Việc nhận dạng chữ in bằng tay, chữ thảo bằng tay, và thậm chí những phiên
bản đánh máy đƣợc in ra của vài chữ (đặc biệt là những chữ có số chữ cái lớn , vẫn
còn là một đề tài của các nghiên cứu.
Các hệ thống nhận dạng ký tự viết tay đã đạt đƣợc những thành công lớn về mặt
thƣơng mại trong những năm gần đây. Trong số đó là thiết bị nhập cho những thiết bị
hỗ trợ cá nhân (PDA nhƣ những phần mềm chạy trên Palm OS . hãng Apple Newton
đi tiên phong trong công nghệ này. Những giải thuật sử dụng trong những thiết bị này
sử dụng những ƣu điểm rằng thứ tự, tốc độ, và hƣớng của những đoạn dòng đơn lẻ đã
đƣợc biết trƣớc. Tƣơng tự, ngƣời dùng có thể đƣợc yêu cầu sử dụng chỉ một vài loại
kiểu chữ nhất định. Những phƣơng pháp này không thể dùng đƣợc trong phần mềm
scan tài liệu giấy, do đó sự nhận dạng chính xác văn bản in bằng tay vẫn là một vấn đề
15
lớn đang đƣợc bỏ ngỏ. Với mức chính xác từ 80% đến 90%, những ký tự in bằng tay
sạch sẽ có thể đƣợc nhận ra, nhƣng độ chính xác đó vẫn tạo ra hàng tá lỗi mỗi trang,
khiến cho công nghệ đó chỉ hiệu quả trong vài trƣờng hợp nào đó. Sự đa dạng của
OCR hiện nay đƣợc biết đến trong công nghiệp là ICR, (Intelligent Character
Recognition - Nhận dạng ký tự thông minh .
Nhận dạng chữ viết tay là một lĩnh vực nghiên cứu sôi nổi, với tỷ lệ nhận dạng
thậm chí còn thấp hơn cả văn bản in bằng tay. Tỷ lệ nhận dạng cao hơn của những bản
viết tay chung chung hầu nhƣ là không thể nếu không sử dụng thông tin về ngữ pháp
và văn cảnh. Ví dụ nhƣ, nhận dạng cả một chữ từ một cuốn từ điển thì dễ hơn là việc
cố gắng lấy ra những ký tự rời rạc từ đoạn đó. Đọc dòng Tổng cộng của một tờ
séc (luôn luôn đƣợc viết bằng số là một ví dụ trong đó sử dụng những từ điển nhỏ hơn
có thể tăng tỷ lệ nhận dạng rất nhiều. Kiến thức về ngữ pháp của một ngôn ngữ đƣợc
scan cũng có thể giúp xác định một từ có thể là động từ hay danh từ, ví dụ nhƣ vậy, sẽ
cho phép độ chính xác cao hơn. Hình dạng của chữ viết tay bản thân nó đã không chứa
đủ thông tin về để nhận dạng chính xác (hơn 98% tất cả những đoạn chữ viết tay.
Một vấn đề khó khăn của máy tính và con ngƣời đó là những bản lƣu của những
lễ thánh và đám cƣới của những nhà thờ cũ chỉ toàn chứa tên. Những trang đó có thể bị
hƣ hại do thời gian, nƣớc hay lửa và những tên trên đó có thể đã lỗi thời hoặc chứa
những chính tả hiếm gặp. Lĩnh vực nghiên cứu khác là tiếp cận hợp tác, ở đó máy tính
hỗ trợ con ngƣời và ngƣợc lại. Kỹ thuật xử lý hình ảnh của máy tính có thể hỗ trợ con
ngƣời trong việc đọc những văn bản cực kỳ khó đọc nhƣ Bản viết trên da cừu của
Archimede hay những Cuộn giấy da lấy từ vùng biển chết.
Ngày nay, các hệ thống nhận dạng thỏa mãn độ chính xác nhận dạng cao đối
với hầu hết các phông chữ tiêu chuẩn nhƣ Unicode. Một số hệ thống còn có khả năng
tái tạo lại các định dạng của tài liệu gần giống với bản gốc bao gồm hình ảnh, các cột,
bảng biểu, các thành phần không phải là văn bản.
1.3. Thách thức đối với hệ thống nhận dạng
Hệ thống nhận dạng phân loại văn bản là một ứng dụng máy tính tự nhận dạng
tài liệu nào đó có sẵn trong máy tính và đƣợc ngƣời dùng chọn để nhận dạng và phân
loại. Một trong những cách để thực hiện điều này là so sánh các đặc điểm nhận dạng
tại phân vùng chọn trƣớc từ hình ảnh và một cơ sở dữ liệu về các loại văn bản.
Có nhiều phƣơng pháp nhận dạng khác nhau để phân loại và nhận dạng đƣợc
văn bản hoặc chữ viết tay. Các điều kiện khác mà nhận dạng và phân loại văn bản
không làm việc tốt bao gồm thiếu ánh sáng, mờ, nhèo nát và các hình ảnh độ phân giải
thấp.
- Xem thêm -