Tài liệu Xây dựng hệ thống phân loại tài liệu tại tỉnh đoàn quảng ngãi

.PDF

thanhphoquetoi Báo vi phạm

Tải xuống 84

Mô tả:

MỤC LỤC TRANG BÌA LỜI CAM ĐOAN MỤC LỤC TRANG TOM TẮT LUẬN VAN DANH MỤC CAC TỪ VIẾT TẮT DANH MỤC CAC HÌNH MỞ ĐẦU ......................................................................................................................... 1 1. Lý do chọn đề tài ..................................................................................................... 1 2. Mục đích nghiên cứu ............................................................................................... 1 3. Ý nghĩa khoa học và thực tiễn của đề tài ................................................................ 1 4. Mục tiêu và nhiệm vụ .............................................................................................. 1 5. Bố cục của luận văn ................................................................................................ 2 CHƢƠNG 1. CÁC PHƢƠNG PHÁP NHẬN DẠNG .................................................... 3 1.1. Học máy ............................................................................................................... 3 1.1.1. Khái niệm ................................................................................................... 3 1.1.2. Các phƣơng pháp học máy ......................................................................... 3 1.2. Các phƣơng pháp nhận dạng ................................................................................ 5 1.2.1. Máy véc-tơ hỗ trợ (SVM) .......................................................................... 5 1.2.2. Phƣơng pháp tiếp cận cấu trúc.................................................................... 7 1.2.3. Mô hình Markov ẩn (HMM – Hidden Markov Model) ............................. 8 1.2.4. Đối sánh mẫu ............................................................................................ 10 1.2.5. Mạng nơ ron ............................................................................................. 11 1.2.6. Nhận dạng ký tự quang học – OCR ......................................................... 13 1.3. Thách thức đối với hệ thống nhận dạng ............................................................. 15 1.4. Kết chƣơng ......................................................................................................... 16 CHƢƠNG 2. XÂY DỰNG ỨNG DỤNG PHÂN LOẠI VĂN BẢN TẠI TỈNH ĐOÀN QUẢNG NGÃI .............................................................................................................. 17 2.1. Xây dựng hệ thống ............................................................................................. 17 2.1.1. Giới thiệu bài toán .................................................................................... 17 2.1.2. Phƣơng pháp đề xuất ................................................................................ 17 2.2. Quy trình xử lý nhận dạng ................................................................................. 18 2.2.1. Tiền xử lý .................................................................................................. 18 2.2.2. Khối tách chữ ........................................................................................... 19 2.2.3. Trích chọn đặc trƣng................................................................................. 20 2.2.4. Huấn luyện và nhận dạng ......................................................................... 20 2.2.5. Hậu xử lý .................................................................................................. 20 2.3. Bố cục văn bản thực tế tại Tỉnh Đoàn Quảng Ngãi ........................................... 20 2.4. Tổng quan về hệ thống văn bản tại Tỉnh đoàn ................................................... 22 2.4.1. Thể loại Công văn..................................................................................... 23 2.4.2. Thể loại Kế hoạch ..................................................................................... 23 2.4.3. Thể loại Báo cáo ....................................................................................... 24 2.4.4. Thể loại Chƣơng trình .............................................................................. 24 2.4.5. Thể loại Đề án........................................................................................... 25 2.4.6. Thể loại Giấy mời ..................................................................................... 25 2.4.7. Thể loại Hƣớng dẫn .................................................................................. 25 2.4.8. Thể loại Kết luận ...................................................................................... 26 2.4.9. Thể loại Quyết định .................................................................................. 26 2.4.10. Thể loại Thông báo ................................................................................. 27 2.4.11. Thể loại Thông tri ................................................................................... 27 CHƢƠNG 3. TRIỂN KHAI HỆ THỐNG VÀ ĐÁNH GIÁ KẾT QUẢ ....................... 28 3.1. Chức năng chƣơng trình ..................................................................................... 28 3.1.1. Nhận văn bản đầu vào .............................................................................. 28 3.1.2. Tiền xử lý .................................................................................................. 29 3.1.3. Huấn luyện Nhận dạng ............................................................................. 29 3.1.4. Hậu xử lý .................................................................................................. 31 3.1.5. Hiển thị và lƣu trữ..................................................................................... 32 3.2. Môi trƣờng thực nghiệm .................................................................................... 32 3.2.1. Dữ liệu sử dụng ........................................................................................ 32 3.2.2. Giao diện chƣơng trình ............................................................................. 33 3.3. Đánh giá về kết quả ............................................................................................ 38 3.3.1. Về cài đặt .................................................................................................. 38 3.3.2. Về thực nghiệm......................................................................................... 38 KẾT LUẬN ................................................................................................................... 40 TÀI LIỆU THAM KHẢO QUYẾT ĐỊNH GIAO ĐỀ TÀI LUẬN VĂN THẠC S (BẢO SAO BẢN SAO KẾT LUẬN CỦA HỘI ĐỒNG, BẢN SAO NHẬN XÉT CỦA CÁC PHẢN BIỆN. TRANG TÓM TẮT LUẬN VĂN XÂY DỰNG HỆ THỐNG PHÂN LOẠI TÀI LIỆU TẠI TỈNH ĐOÀN QUẢNG NGÃI Học viên: Nguyễn Phúc Hậu; Chuyên ngành: Khoa học máy tính. Mã số: 8480101 Khóa: K33-QNG; Trƣờng Đại học Bách khoa - ĐHĐN Tóm tắt - Trong thời đại ngày nay, với sự phát triển vƣợt bật của công nghệ thông tin và ứng dụng của nó trong đời sống - kinh tế - xã hội, lƣợng dữ liệu thu thập đƣợc ngày càng nhiều theo thời gian, làm xuất hiện ngày càng nhiều các hệ thống cơ sở dữ liệu có kích thƣớc lớn với nhu cầu cấp thiết khi muốn truy xuất dữ liệu. Từ khối dữ liệu đã có sẵn tại cơ quan Tỉnh đoàn Quảng Ngãi, các kỹ thuật trong dạy máy học có thể dùng để lƣu trữ dữ liệu, trích xuất những thông tin hữu ích khi cần thiết. Qua tìm hiểu những chức năng của dạy máy học, luận văn tập trung vào nghiên cứu kỹ thuật dạy máy học dựa trên hệ thống nhận dạng ký tự quang học OCR. Hiểu đƣợc các thuật toán hiệu quả từ nhận dạng ký tự quang học nắm đƣợc những điểm chính cần quan tâm giải quyết để phân loại văn bản tại cơ quan Tỉnh đoàn Quảng Ngãi. Phần mềm đƣợc xây dựng trên nền ứng dụng, thuận tiện cho ngƣời sử dụng không có chuyên môn công nghệ thông tin ở cơ quan Tỉnh đoàn Quảng Ngãi. Từ khóa – Hệ thống phân loại, phân loại văn bản, phân loại tài liệu, nhận dạng ký tự, OCR. CONSTRUCTION OF CLASSIFICATION OF DOCUMENTS SYSTEM IN QUANG NGAI PROVINCIAL GROUP Summary - Nowadays, with the rapid development of information technology and its application in the socio-economic life, the amount of collected data involving with the appearance of a lot of the large database systems with the need of data accessing is increasing day by day. From the available data of Quang Ngai Provincial Youth Union, the techniques of machine learning can be used to store the data, to extract useful information. By studying the functions of machine learning, this thesis focuses on the research of machine learning ktechniques based on the OCR - Optical Character Recognition system. The aim of understanding the effective algorithms from the Optical Character Recognition possesses and the main points to solve is to classify documents at Quang Ngai Provincial Youth Union. The software is convenient for its users who do not have much knowledge of information technology at Quang Ngai Provincial Youth Union. Keywords - Classification system, text classification, document classification, character recognition, OCR. DANH MỤC CÁC TỪ VIẾT TẮT SVM Support Vector Machines SV Support Vector HMM Hidden Markov Model VLSI Very-large-scale-intergrated OCR Optical Character Recognition PDA thiết bị nhập cho những thiết bị hỗ trợ cá nhân ICR Intelligent Character Recognition CV Công văn CVLT Công văn liên tịch KH Kế hoạch KHPH Kế hoạch phối hợp DANH MỤC CÁC HÌNH Hình 1.1: Mô hình máy véc-tơ hỗ trợ ......................................................................... 6 Hình 1.2: Mô hình Markov ẩn ................................................................................... 9 Hình 1.3: Biểu đồ chuyển tiếp trạng thái mô hình Markov ....................................... 9 Hình 2.1: Quy trình xử lý của một ứng dụng nhận dạng ký tự quang học ............... 18 Hình 2.2: Ví dụ về các vùng văn bản tại Tỉnh đoàn Quảng Ngãi ............................ 22 Hình 2.3: Thể loại công văn ..................................................................................... 23 Hình 2.4: Thể loại Kế hoạch..................................................................................... 23 Hình 2.5: Thể loại Kế hoạch phối hợp ..................................................................... 24 Hình 2.6: Thể loại văn bản Báo cáo ......................................................................... 24 Hình 2.7: Thể loại văn bản Chƣơng trình ................................................................. 24 Hình 2.8: Thể loại văn bản Đề án ............................................................................ 25 Hình 2.9: Thể loại văn bản Giấy mời ....................................................................... 25 Hình 2.10: Thể loại văn bản Hƣớng dẫn .................................................................. 26 Hình 2.11: Thể loại văn bản Kết luận....................................................................... 26 Hình 2.13: Thể loại văn bản Thông báo .................................................................. 27 Hình 2.14: Thể loại văn bản Thông tri ..................................................................... 27 Hình 3.1: Chức năng chính trong chƣơng trình........................................................ 28 Hình 3.2: Văn bản thô chƣa nhận dạng và phân loại................................................ 29 Hình 3.3: Sơ đồ khối quá trình nhận dạng văn bản .................................................. 30 Hình 3.4: Văn bản sau khi đƣợc nhận dang và phân loại theo từng mục ................. 32 Hình 3.5: Giao diện chƣơng trình ............................................................................. 33 Hình 3.6: Khởi tạo mã văn bản tại cơ quan .............................................................. 34 Hình 3.7: Lƣu mã và đƣờng dẫn lƣu văn bản sau khi trỏ thành công ...................... 34 Hình 3.8: Dạy máy học mã liên quan ....................................................................... 35 Hình 3.9: Hệ thống thông báo đã tồn tại liên kết ..................................................... 36 Hình 3.10: Chức năng Testing – kiểm tra đơn văn bản ............................................ 37 Hình 3.11: Chức năng Scanning ............................................................................... 37 Hình 3.12: Hiển thị các thiết bị Scan trên hệ thống máy tính ................................. 38 Hình 3.13: Tỉ lệ nhận dạng ...................................................................................... 39 1 MỞ ĐẦU 1. Lý do chọn đề tài - Việc phân loại các tài liệu có ký hiệu để lƣu trữ, khai thác các thông tin đó trên hệ thống máy tính là một bài toán đang đƣợc đặt ra. Trên thực tế, cách duy nhất để sử dụng thông tin ký hiệu và phân loại thì phải gõ lại văn bản trên bàn phím để có thể thêm nó vào hệ thống máy tính hay sử dụng làm đầu vào. Và với mong muốn tìm hiểu về lĩnh vực nhận dạng kí tự quang học (Optical character recognition – OCR và đóng góp thêm vào kho ứng dụng về nhận dạng một hệ thống nhận dạng thiết thực, hữu ích. - Vì vậy trong luận văn sẽ tập trung tìm hiểu các kỹ thuật, các công nghệ cần thiết để xây dựng hệ thống ―Phân loại văn bản tại Tỉnh đoàn Quảng Ngãi‖ - Nội dung luận văn gồm phần mở đầu, 3 chƣơng nội dung, phần kết luận, tài liệu tham khảo. Chƣơng 1: Các phƣơng pháp nhận dạng Chƣơng 2: Xây dựng ứng dụng phân loại văn bản tại Tỉnh Đoàn Quảng Ngãi Chƣơng 3: Triển khai hệ thống và đánh giá kết quả 2. Mục đích nghiên cứu - Nghiên cứu lý thuyết nhận dạng, xử lý ảnh. - Hệ thống OCR - Công nghệ mã nguồn mở Tesseract OCR - Tạo ra một ứng dụng nhận dạng ký hiệu văn bản dựa trên mã nguồn mở Tesseract OCR. 3. Ý nghĩa khoa học và thực tiễn của đề tài 3.1. Ý nghĩa khoa học - Nghiên cứu lý thuyết nhận dạng và xử lý ảnh dựa trên mã nguồn mở Tesseract OCR và hệ thống OCR. 3.2. Ý nghĩa thực tiễn - Đề xuất giải pháp góp phần tăng hiệu quả việc quản lý văn bản tại cơ quan Tỉnh đoàn Quảng Ngãi 4. Mục tiêu và nhiệm vụ 4.1. Mục tiêu - Hỗ trợ cán bộ văn thƣ trong việc sao lƣu văn bản, quản lý văn bản phát hành và văn bản đến. - Tự động hóa việc lƣu trữ để giúp cán bộ văn thƣ dễ dàng tìm kiếm văn bản khi cần. 2 4.2 Nhiệm vụ - Tìm hiểu tổng quan về các phƣơng pháp dạy máy học - Nghiên cứu lý thuyết nhận dạng, xử lý ảnh. - Tạo ra một ứng dụng nhận dạng ký hiệu văn bản rời rạc dựa trên mạng noron và mã nguồn mở Tesseract OCR. - Xây dựng chƣơng trình, cài đặt, kiểm thử và đánh giá. 5. Bố cục của luận văn Cấu trúc của luận văn đƣợc trình bày bao gồm các phần chính sau: MỞ ĐẦU: Giới thiệu sơ bộ về lý do chọn đề tài, mục đích nghiên cứu, đối tƣợng và phạm vi nghiên cứu, phƣơng pháp nghiên cứu, ý nghĩa khoa học và thực tiễn của đề tài. CHƢƠNG 1: CÁC PHƢƠNG PHÁP NHẬN DẠNG Giới thiệu tổng quan các phƣơng pháp nhận dạng văn bản đã đƣợc áp dụng trong các hệ thống nhận dạng từ trƣớc đến nay. CHƢƠNG 2: XÂY DỰNG ỨNG DỤNG PHÂN LOẠI VĂN BẢN TẠI TỈNH ĐOÀN QUẢNG NGÃI Trong chƣơng này tác giả đề xuất phƣơng pháp xây dựng hệ thống phân loại văn bản tại Tỉnh Đoàn Quảng Ngãi và trình bày các khối chức năng của phƣơng pháp nhận dạng văn bản theo từng loại tại cơ quan. CHƢƠNG 3: TRIỂN KHAI HỆ THỐNG VÀ ĐÁNH GIÁ KẾT QUẢ Trong chƣơng này, tác giả xin đƣợc trình bày hệ thống nhận dạng văn bản tại cơ quan Tỉnh Đoàn Quảng Ngãi và xây dựng quá trình thực nghiệm và đánh giá kết quả. 3 CHƯƠNG 1 CÁC PHƯƠNG PHÁP NHẬN DẠNG 1.1. Học máy 1.1.1. Khái niệm Học máy [1] là một lĩnh vực của trí tuệ nhân tạo liên quan đến việc phát triển các kĩ thuật cho phép các máy tính có thể "học". Cụ thể hơn, học máy là một phƣơng pháp để tạo ra các chƣơng trình máy tính bằng việc phân tích các tập dữ liệu. Học máy có liên quan lớn đến thống kê, vì cả hai lĩnh vực đều nghiên cứu việc phân tích dữ liệu, nhƣng khác với thống kê, học máy tập trung vào sự phức tạp của các giải thuật trong việc thực thi tính toán. Nhiều bài toán suy luận đƣợc xếp vào loại bài toán khó, vì thế một phần của học máy là nghiên cứu sự phát triển các giải thuật suy luận xấp xỉ mà có thể xử lý đƣợc. Học máy có tính ứng dụng rất cao bao gồm máy truy tìm dữ liệu, chẩn đoán y khoa, phát hiện thẻ tín dụng giả, phân tích thị trƣờng chứng khoán, phân loại các chuỗi DNA, nhận dạng tiếng nói và chữ viết, dịch tự động, chơi trò chơi và cử động rô-bốt. 1.1.2. Các phương pháp học máy 1.1.2.1. Học không giám sát Học không giám sát (Unsupervised Learning là một phƣơng pháp nhằm tìm ra một mô hình mà phù hợp với các tập dữ liệu quan sát. Nó khác biệt với học có giám sát ở chỗ là đầu ra đúng tƣơng ứng cho mỗi đầu vào là không biết trƣớc. Trong học không có giám sát, đầu vào là một tập dữ liệu đƣợc thu thập. Học không có giám sát thƣờng đối xử với các đối tƣợng đầu vào nhƣ là một tập các biến ngẫu nhiên. Sau đó, một mô hình mật độ kết hợp sẽ đƣợc xây dựng cho tập dữ liệu đó. Học không giám sát cũng hữu ích cho việc nén dữ liệu: về cơ bản, mọi giải thuật nén dữ liệu hoặc là dựa vào một phân bố xác suất trên một tập đầu vào một cách tƣờng minh hay không tƣờng minh. Có rất nhiều thuật toán học không giám sát đƣợc ra đời và phát triển nhằm giải quyết bài toán phân cụm phục vụ khai thác hiệu quả nguồn dữ liệu chƣa gán nhãn nhiều và rất đa dạng. Việc lựa chọn sử dụng thuật toán nào tuỳ thuộc vào dữ liệu và mục đích của từng bài toán. Trong đó các thuật toán thƣờng đƣợc sử dụng nhƣ: Kmean, HAC (Hierarchial Agglomerative Clustering), SOM (Self-Organizing Map), DBSCAN… 4 1.1.2.2. Học có giám sát Học có giám sát (Supervised Learning là một kĩ thuật của ngành học máy để xây dựng một hàm từ dữ liệu huấn luyện. Dữ liệu huấn luyện bao gồm các cặp gồm đối tƣợng đầu vào (thƣờng dạng vec-tơ , và đầu ra mong muốn. Đầu ra của một hàm có thể là một giá trị liên tục (gọi là hồi qui , hay có thể là dự đoán một nhãn phân loại cho một đối tƣợng đầu vào (gọi là phân loại . Học có giám sát có thể dự đoán giá trị của hàm cho một đối tƣợng bất kì là đầu vào hợp lệ, sau khi đã xem xét một số ví dụ huấn luyện (nghĩa là, các cặp đầu vào và đầu ra tƣơng ứng . Một số thuật toán thƣờng đƣợc lựa chọn khi xây dựng bộ phân lớp gồm có: Máy vector hỗ trợ (Support Vector Machine – SVM , hạt nhân phân tích biệt thức, K láng giềng gần nhất (K Nearest Neighbours – KNN , tiếp cận xác suất thống kê (Naive Bayes – NB , cây quyết định (Decision Tree – DT , mạng nơron (Neural Network – Nnet , Vector trọng tâm (Centroid–base vector , tuyến tính bình phƣơng nhỏ nhất (Linear Least Square Fit – LLSF). 1.1.2.3. Học bán giám sát Theo Xiaojin Zhu, khái niệm học bán giám sát [2] đƣợc đƣa ra năm 1970 khi bài toán đánh giá quy tắc Linear Discrimination Fisher cùng với dữ liệu chƣa gán nhãn đƣợc nhiều sự quan tâm của các nhà khoa học trên thế giới. Trong khoa học máy tính, học bán giám sát là một phƣơng thức của ngành học máy sử dụng cả dữ liệu gán nhãn và chƣa gán nhãn, nhiều nghiên cứu của ngành học máy có thể tìm ra đƣợc dữ liệu chƣa gán nhãn khi sử dụng với một số lƣợng nhỏ dữ liệu gán nhãn[3]. Công việc thu đƣợc kết quả của dữ liệu gán nhãn thƣờng đòi hỏi ở trình độ tƣ duy và khả năng của con ngƣời, công việc này tốn nhiều thời gian và chi phí, do vậy dữ liệu gán nhãn thƣờng rất hiếm và đắt, trong khi dữ liệu chƣa gán nhãn thì lại rất phong phú. Trong trƣờng hợp đó, chúng ta có thể sử dụng học bán giám sát để thi hành các công việc ở quy mô lớn. Học bán giám sát bao gồm dữ liệu gán nhãn và chƣa gán nhãn. Học bán giám sát có thể đƣợc áp dụng vào việc phân lớp và phân cụm. Mục tiêu của học bán giám sát là huấn luyện tập phân lớp tốt hơn học có giám sát từ dữ liệu gán nhãn và chƣa gán nhãn. Nhƣ vậy, có thể nói học bán giám sát là phƣơng pháp học có giám sát kết hợp với việc tận dụng các dữ liệu chƣa gán nhãn. Trong phần bổ sung thêm vào cho dữ liệu gán nhãn, thuật toán cung cấp một vài thông tin giám sát, việc này không cần thiết cho 5 tất cả các mẫu huấn luyện. Thông thƣờng thông tin này sẽ đƣợc kết hợp với một vài mẫu cho trƣớc. Một số thuật toán thƣờng đƣợc sử dụng gồm có: thuật toán Cực đại kỳ vọng (EM - Expectation Maximization , SVM truyền dẫn (TSVM - Transductive Support Vector Machine), Self-training, Co-training và các phƣơng pháp dựa trên đồ thị (graphbased). Việc lựa chọn thuật toán nào dựa trên một số định hƣớng: nếu các lớp dữ liệu có tính phân cụm cao thì nên dùng EM với mô hình hỗn hợp sinh; nếu đã sử dụng SVM thì mở rộng thành TSVM; khi khó nâng cấp mô hình học có giám sát đã có, thì nên dùng self-training; nếu các đặc trƣng của dữ liệu phân chia tự nhiên thành hai phần riêng rẽ thì nên dùng Co-training; còn nếu hai mẫu dữ liệu có đặc trƣng tƣơng tự nhau hƣớng tới một lớp thì sử dụng phƣơng pháp dựa trên đồ thị. 1.1.2.4. Học tăng cường Học tăng cƣờng [4] là phƣơng pháp máy tính đƣa ra quyết định hành động (action và nhận kết quả phản hồi (response/reward từ môi trƣờng (environment . Sau đó máy tính tìm cách chỉnh sửa cách ra quyết định hành động của mình. Các thuật toán học tăng cƣờng đƣợc chia thành hai loại chính đó là: Học dựa trên mô hình và học không có mô hình. Đại điện cho kiểu học dựa trên mô hình phải kể đến phƣơng pháp quy hoạch động (Dynamic Programming DP , đại diện cho kiểu học không có mô hình là phƣơng pháp Monte Carlo và phƣơng pháp TD (Temporal Difference). 1.2. Các phƣơng pháp nhận dạng 1.2.1. Máy véc-tơ hỗ trợ (SVM) Máy vectơ hỗ trợ [22] (SVM – viết tắt tên tiếng Anh support vector machine là một khái niệm trong thống kê và khoa học máy tính cho một tập hợp các phƣơng pháp học có giám sát liên quan đến nhau để phân loại và phân tích hồi quy. SVM dạng chuẩn nhận dữ liệu vào và phân loại chúng vào hai lớp khác nhau. Do đó SVM là một thuật toán phân loại nhị phân. Với một bộ các ví dụ luyện tập thuộc hai thể loại cho trƣớc, thuật toán luyện tập SVM xây dựng một mô hình SVM để phân loại các ví dụ khác vào hai thể loại đó. Một mô hình SVM là một cách biểu diễn các điểm trong không gian và lựa chọn ranh giới giữa hai thể loại sao cho khoảng cách từ các ví dụ luyện tập tới ranh giới là xa nhất có thể. Các ví dụ mới cũng đƣợc biểu diễn trong cùng một không gian và đƣợc thuật toán dự đoán thuộc một trong hai thể loại tùy vào ví dụ đó nằm ở phía nào của ranh giới. 6 Hình 1.1: Mô hình máy véc-tơ hỗ trợ Một máy vectơ hỗ trợ xây dựng một siêu phẳng hoặc một tập hợp các siêu phẳng trong một không gian nhiều chiều hoặc vô hạn chiều, có thể đƣợc sử dụng cho phân loại, hồi quy, hoặc các nhiệm vụ khác. Một cách trực giác, để phân loại tốt nhất thì các siêu phẳng nằm ở càng xa các điểm dữ liệu của tất cả các lớp (gọi là hàm lề càng tốt, vì nói chung lề càng lớn thì sai số tổng quát hóa của thuật toán phân loại càng bé. Trong nhiều trƣờng hợp, không thể phân chia các lớp dữ liệu một cách tuyến tính trong một không gian ban đầu đƣợc dùng để mô tả một vấn đề. Vì vậy, nhiều khi cần phải ánh xạ các điểm dữ liệu trong không gian ban đầu vào một không gian mới nhiều chiều hơn, để việc phân tách chúng trở nên dễ dàng hơn trong không gian mới. Để việc tính toán đƣợc hiệu quả, ánh xạ sử dụng trong thuật toán SVM chỉ đòi hỏi tích vô hƣớng của các vectơ dữ liệu trong không gian mới có thể đƣợc tính dễ dàng từ các tọa độ trong không gian cũ. Tích vô hƣớng này đƣợc xác định bằng một hàm hạt nhân K(x,y) phù hợp. Một siêu phẳng trong không gian mới đƣợc định nghĩa là tập hợp các điểm có tích vô hƣớng với một vectơ cố định trong không gian đó là một hằng số. Vectơ xác định một siêu phẳng sử dụng trong SVM là một tổ hợp tuyến tính của các vectơ dữ liệu luyện tập trong không gian mới với các hệ số αi. Với siêu phẳng lựa chọn nhƣ trên, các điểm x trong không gian đặc trƣng đƣợc ánh xạ vào một siêu mặt phẳng là các điểm thỏa mãn: 7 ∑ ( ) Ghi chú rằng nếu K(x,y nhận giá trị ngày càng nhỏ khi y xa dần khỏi x thì mỗi số hạng của tổng trên đƣợc dùng để đo độ tƣơng tự giữa x với điểm xi tƣơng ứng trong dữ liệu luyện tập. Nhƣ vậy, tác dụng của tổng trên chính là so sánh khoảng cách giữa điểm cần dự đoán với các điểm dữ liệu đã biết. Lƣu ý là tập hợp các điểm x đƣợc ánh xạ vào một siêu phẳng có thể có độ phức tạp tùy ý trong không gian ban đầu, nên có thể phân tách các tập hợp thậm chí không lồi trong không gian ban đầu. Ưu điểm của SVM - Cho kết quả nhận dạng với độ chính xác cao - Bài toán huấn luyện SVM thực chất là bài toán quy hoạch toàn phƣơng trên một tập lồi, do đó SVM luôn có nghiệm toàn cục và duy nhất, đây chính là điểm khác biệt rõ nhất giữa SVM so với phƣơng pháp mạng Neural, vì mạng Neural vốn tồn tại nhiều điểm cực trị địa phƣơng. Nhược điểm của SVM - Hạn chế lớn nhất của SVM là tốc độ phân lớp rất chậm, tùy thuộc vào số lƣợng các véc tơ hỗ trợ. - Giai đoạn huấn luyện SVM đòi hỏi bộ nhớ rất lớn, do đó các bài toán huấn luyện với số lƣợng mẫu lớn sẽ gặp trở ngại trong vấn đề lƣu trữ. Hiệu quả phân lớp của SVM phụ thuộc vào hai yếu tố: giải bài toán quy hoạc toàn phƣơng và lựa chọn hàm nhân. 1.2.2. Phương pháp tiếp cận cấu trúc Cách tiếp cận của phƣơng pháp này dựa vào việc mô tả đối tƣợng nhờ một số khái niệm biểu diễn đối tƣợng cơ sở trong ngôn ngữ tự nhiên. Để mô tả đối tƣợng ngƣời ta dùng một số dạng nguyên thủy nhƣ đoạn thẳng, cung,… Mỗi đối tƣợng đƣợc mô tả nhƣ một sự kết hợp của các dạng nguyên thủy. Các quy tắc kết hợp các dạng nguyên thủy đƣợc xây dựng giống nhƣ việc nghiên cứu văn phạm trong một ngôn ngữ, do đó quá trình quyết định nhận dạng là quá trình phân tích cú pháp[5,6]. Phƣơng pháp này đặt vấn đề để giải quyết bài toán nhận dạng chữ tổng quát. Tuy vậy, cho đến nay còn nhiều vấn đề liên quan đến hệ nhận dạng cú pháp chƣa đƣợc giải quyết độc lập và xây dụng đƣợc các thuật toán phổ dụng. Hiện nay, nhận dạng theo cấu trúc phổ biến là trích trọn các đặc trung của mẫu học, phân hoạch bảng ký tự dựa trên các đặc trƣng này, sau đó ảnh cần nhận dạng sẽ đƣợc trích chọn đặc trƣng, sau đó so sánh bảng phân hoạch để tìm ra ký tự có các đặc trƣng phù hợp. 8 Các phƣơng pháp cấu trúc áp dụng cho các bài toán nhận dạng chữ đƣợc phát triển theo hai hƣớng sau: 1.2.2.1. Phương pháp đồ thị (Graphical Methods) Các đơn vị chữ viết đƣợc mô tả bởi các cây hoặc các đồ thị. Các dạng nguyên thủy của ký tự (các nét đƣợc lựa chọn bởi một hƣớng tiếp cận cấu trúc. Đối với mỗi lớp, một đồ thị hoặc cây đƣợc thành lập trong giai đoạn huấn luyện để mô tả các nét, các ký tự hoặc các từ. Giai đoạn nhận dạng gán một đồ thị chƣa biết vào một trong các lớp bằng cách sử dụng một độ đo để so sánh các đặc điểm giống nhau giữa các đồ thị. 1.2.2.2. Phương pháp ngữ pháp (Grammatical Methods) Giữa thập niên 1960, các nhà nghiên cứu bắt đầu xét các luật của ngôn ngữ học để phân tích tiếng nói và chữ viết. Sau đó, các luật đa dạng của chính tả, từ vựng và ngôn ngữ học đã đƣợc áp dụng cho các chiến lƣợc nhận dạng. Phƣơng pháp ngữ pháp khởi tạo một số luật sinh để hình thành các ký tự từ một tập các công thức ngữ pháp nguyên thủy. Các luật sinh này có thể kết nối bất kỳ kiểu đặc trƣng thống kê và đặc trƣng hình thái nào dƣới một số cú pháp hoặc các luật ngữ nghĩa[5,6,7]. Giống nhƣ lý thuyết ngôn ngữ, các luật sinh cho phép mô tả các cấu trúc câu có thể chấp nhận đƣợc các trích chọn thông tin theo ngữ cảnh về chữ viết bằng cách sử dụng các kiêu ngữ pháp khác nhau[8]. Trong phƣơng pháp này, việc huấn luyện đƣợc thực hiện bằng cách mô tả mỗi ký tự bằng một văn phạm Gi. Còn trong pha nhận dạng thì chuỗi, cây hoặc đồ thị của một đơn vị viết bất kỳ (ký tự, từ hoặc câu đƣợc phân tích để quyết định văn phạm của mẫu đó thuộc lớp nào. Các phƣơng pháp ngữ pháo hầu hết đƣợc sử dụng trong giai đoạn hậu xử lý để sửa các lỗi mà khối nhận dạng đã thực hiện sai[9,10]. 1.2.3. Mô hình Markov ẩn (HMM – Hidden Markov Model) Mô hình Markov ẩn [23] (tiếng Anh là Hidden Markov Model - HMM) là mô hình thống kê trong đó hệ thống đƣợc mô hình hóa đƣợc cho là một quá trình Markov với các tham số không biết trƣớc và nhiệm vụ là xác định các tham số ẩn từ các tham số quan sát đƣợc, dựa trên sự thừa nhận này. Các tham số của mô hình đƣợc rút ra sau đó có thể sử dụng để thực hiện các phân tích kế tiếp, ví dụ cho các ứng dụng nhận dạng mẫu. Trong một mô hình Markov điển hình, trạng thái đƣợc quan sát trực tiếp bởi ngƣời quan sát, và vì vậy các xác suất chuyển tiếp trạng thái là các tham số duy nhất. Mô hình Markov ẩn thêm vào các đầu ra: mỗi trạng thái có xác suất phân bổ 9 trên các biểu hiện đầu ra có thể. Vì vậy, nhìn vào dãy của các biểu hiện đƣợc sinh ra bởi HMM không trực tiếp chỉ ra dãy các trạng thái. Đây là một mô hình toán thống kê có ứng dụng rộng rãi trong Tin sinh học. 𝑎12 𝑎23 X3 X2 X1 𝑎21 b1 b3 b2 y2 y1 y3 Các chuyển tiếp trạng thái trong mô hình Markov ẩn Hình 1.2: Mô hình Markov ẩn - x — Các trạng thái trong mô hình Markov - a — Các xác suất chuyển tiếp - b — Các xác suất đầu ra - y — Các dữ liệu quan sát Sự tiến hóa của mô hình Markov Biểu đồ trên đây làm nổi bật các chuyển tiếp trạng thái của mô hình Markov ẩn. Nó cũng có ích để biểu diễn rõ ràng sự tiến hóa của mô hình theo thời gian, với các trạng thái tại các thời điểm khác nhau t1 và t2 đƣợc biểu diễn bằng các tham biến khác nhau, x(t1) và x(t2). … x(t-1) y(t-1) x(t) y(t) x(t+1) … y(t+1) Hình 1.3: Biểu đồ chuyển tiếp trạng thái mô hình Markov Trong biểu đồ này, nó đƣợc hiểu rằng thời gian chia cắt ra (x(t), y(t mở rộng tới các thời gian trƣớc và sau đó nhƣ một sự cần thiết. Thông thƣờng lát cắt sớm nhất là thời gian t=0 hay t=1. 10 Sử dụng các mô hình Markov Có ba vấn đề cơ bản để giải quyết bằng HMM: Cung cấp cho mô hình các tham số, tính xác suất của dãy đầu ra cụ thể. Giải bằng thuật toán tiến trƣớc (thuật toán tham lam). Cung cấp cho mô hình các tham số, tìm dãy các trạng thái (ẩn có khả năng lớn nhất mà có thể sinh ra dãy đầu ra đã cung cấp. Giải bằng thuật toán Viterbi. Cung cấp dãy đầu ra, tìm tập hợp có khả năng nhất của chuyển tiếp trạng thái và các xác suất đầu ra. Giải bằng thuật toán Baum-Welch. Các ứng dụng Sự nhận biết lời nói hay sự nhận biết ký tự quang học. Quy trình ngôn ngữ tự nhiên. Tin sinh học và hệ gen học: Dự đoán các vùng mang mã (khung đọc mở trên một trình từ gene. Xác định các họ gene hoặc họ protein liên quan. Mô phỏng cấu trúc không gian của protein từ trình tự amino acid. và còn nhiều nữa... 1.2.4. Đối sánh mẫu Kỹ thuật nhận dạng chữ đơn giản nhất dựa trên cơ sở đối sánh các nguyên mẫu (prototype với nhau để nhận dạng ký tự hoặc từ. Nói chung, toán tử đối sánh xác định mức độ giống nhau giữa hai véc tơ (nhóm các điểm, hình dạng, độ cong... trong một không gian đặc trƣng. Các kỹ thuật đối sánh có thể nghiên cứu theo ba hƣớng sau: Đối sánh trực tiếp: Một ký tự đầu vào là ảnh đa cấp xám hoặc ảnh nhị phân đƣợc so sánh trực tiếp với một tập mẫu chuẩn đã đƣợc lƣu trữ. Việc so sánh dựa theo một độ đo về sự tƣơng đồng nào đó (chẳng hạn nhƣ độ đo Euclide để nhận dạng. Các kỹ thuật đối sánh này có thể đơn giản nhƣ việc so sánh một – một hoặc phức tạp hơn nhƣ cây quyết định[11,12]. Mặc dù phƣơng pháp đối sánh trực tiếp đơn giản và có một cơ sở toán học vững chắc nhƣng kết quả nhận dạng của nó cũng rất nhạy cảm với nhiễu. Các mẫu biến dạng và đối sánh mềm: Một phƣơng pháp đối sánh khác là sử dụng các mẫu biến dạng, trong đó một phép biến dạng ảnh đƣợc dùng để đối sánh một ảnh chƣa biết với một cơ sở dữ liệu ảnh đã biết[13]. Ý tƣởng cơ bản của đối sánh mềm là đối sánh một cách tối ƣu mẫu chƣa biết với tất cả các mẫu có thể mà các mẫu này có thế kéo giãn ra hoặc co lại. Chỉ một không gian đặc trung đƣợc thành lập, các véc tơ chƣa biết đƣợc đối sánh bằng cách sử dụng quy hoạch động và một hàm biến dạng[14,15]. 11 Đối sánh giảm nhẹ: Đây là một kỹ thuật đối sánh ảnh ở mức độ tƣợng trƣng, kỹ thuật này sử dụng hình dáng đặc trƣng cơ bản của ảnh ký tự. Thứ nhất, các vùng đối sánh đã đƣợc nhận biết. Sau đó, trên cơ sở với các vùng đối sánh này. Công việc này đòi hỏi một kỹ thuật tìm kiếm trong một không guan đa chiều để tìm cực đại toàn cục của số hàm[16]. Các kỹ thuật đối sánh mẫu chỉ áp dụng với nhận dạng chữ in, còn đối với chữ viết tay thì các kỹ thuật này tỏ ra kém hiệu quả. 1.2.5. Mạng nơ ron Một mạng nơ ron đƣợc định nghĩa nhƣ một cấu trúc tính toán bao gồm nhiều bộ xử lý ―nơ ron‖ đƣợc kết nối song song chằng chịt với nhau. Do bản chất song song của các nơ ron nên nó có thể thực hiện các tính toán với tốc độ cao hơn so với các kỹ thuật phân lớp khác. Một mạng nơ ron chƣa nhiều nút, đầu ra của một nút đƣợc sử dụng cho một nút khác ở trong mạng và hàm quyết định cuối cùng phụ thuộc vào sự tƣơng tác phức tạp giữa các nút. Mặc dù nguyên lý khác nhau, nhƣng hầu hết các kiến trúc mạng nơ ron đều tƣơng đƣơng với các phƣơng pháp nhận dạng mẫu thống kê[17,18]. Các kiến trúc mạng nơ ron có thể đƣợc phân tành hai nhóm chính: mạng truyền thẳng và mạng lan truyền ngƣợc. Trong các hệ thống nhận dạng chữ, các mạng nơ ron sử dụng phổ biến nhất là mạng perceptron đa lớp thuộc nhóm mạng truyền thẳng và mạng SOM (Self Origanizing Map của Kohonen thuộc nhóm mạng lan truyền ngƣợc. Mạng perceptron đa lớp đƣợc đề xuất bởi Rosenblatt [19] đƣợc nhiều tác giả sử dụng trong hệ thống nhận dạng. Hầu hết các nghiên cứu phát triển nhận dạng chữ viết hiện nay đều tập trung vào mạng SOM [20]. SOM kết hợp trích chọn đặc trƣng và nhận dạng trên một tập lớn các ký tự huấn luyện. Mạng này chứng tỏ rằng nó tƣơng đƣơng với thuật toán phân cụm k-means. 1.2.5.1. Đặc trưng của mạng nơ ron[21]. 1.2.5.1.1. Tính phi tuyến Một nơ ron có thể tính toán một cách tuyến tính hay phi tuyến. Một mạng nơ ron, cấu thành bởi sự kết nối các nơ ron phi tuyến thì tự nó sẽ có tính phi tuyến. Hơn nữa, điều đặc biệt là tính phi tuyến này đƣợc phân tán trên toàn mạng. Tính phi tuyến là một thuộc tính rất quan trọng, nhất là khi các cơ chế vật lý sinh ra các tín hiệu đầu vào (ví dụ tín hiệu tiếng nói vốn là phi tuyến. 1.2.5.1.2. Tính chất tương ướng đầu vào đầu ra. Mặc dù khái niệm ―học‖ hay ―huấn luyện‖ chƣa đƣợc bàn đến nhƣng để hiểu đƣợc mối quan hệ đầu vào-đầu ra của mạng nơ ron, chúng ta sẽ đề cập sơ qua về khái 12 niệm này. Một mô hình học phổ biến đƣợc gọi là học với một ngƣời dạy hay học có giám sát liên quan đến việc thay đổi các trọng số liên kết của mạng nơ ron bằng việc áp dụng một tập hợp các mẫu tích luỹ hay các ví dụ tích luỹ. Mỗi một ví dụ bao gồm một tín hiệu đầu vào và một đầu ra mong muốn tƣơng ứng. Mạng nơ ron nhận một ví dụ lấy một cách ngẫu nhiên từ tập hợp nói trên tại đầu vào của nó, và các trọng số liên kết của mạng đƣợc biến đổi sao cho có thể cực tiểu hoá sự sai khác giữa đầu ra mong muốn và đầu ra thực sự của mạng theo một tiêu chuẩn thống kê thích hợp. Sự tích luỹ của mạng đƣợc lặp lại với nhiều ví dụ trong tập hợp cho tới khi mạng đạt tới một trạng thái ổn định mà ở đó không có một sự thay đổi đáng kể nào của các trọng số liên kết. Các ví dụ tích luỹ đƣợc áp dụng trƣớc có thể đƣợc áp dụng lại trong thời gian của phiên tích luỹ nhƣng theo một thứ tự khác. Nhƣ vậy mạng nơ ron học từ các ví dụ bằng cách xây dựng nên một tƣơng ứng đầu vào-đầu ra cho vấn đề cần giải quyết. 1.2.5.1.3. Tính chất thích nghi. Các mạng nơ ron có một khả năng mặc định là biến đổi các trọng số liên kết tuỳ theo sự thay đổi của môi trƣờng xung quanh. Đặc biệt, một mạng nơ ron đã đƣợc tích luỹ để hoạt động trong một môi trƣờng xác định có thể đƣợc tích luỹ lại một cách dễ dàng khi có những thay đổi nhỏ của các điều kiện môi trƣờng hoạt động. 1.2.5.1.4. Tính chất đưa ra lời giải có bằng chứng. Trong ngữ cảnh phân loại mẫu, một mạng nơ ron có thể đƣợc thiết kế để đƣa ra thông tin không chỉ về mẫu đƣợc phân loại, mà còn về sự tin cậy của quyết định đã đƣợc thực hiện. Thông tin này có thể đƣợc sử dụng để loại bỏ các mẫu mơ hồ hay nhập nhằng. 1.2.5.1.5. Tính chất chấp nhận sai xót. Một mạng nơ ron, đƣợc cài đặt dƣới dạng phần cứng, vốn có khả năng chấp nhận lỗi, hay khả năng tính toán thô, với ý nghĩa là tính năng của nó chỉ thoái hoá khi có những điều kiện hoạt động bất lợi. Ví dụ, nếu một nơ ron hay các liên kết kết nối của nó bị hỏng, việc nhận dạng lại một mẫu đƣợc lƣu trữ sẽ suy giảm về chất lƣợng. 1.2.5.1.6. Khả năng cài đặt VLSI(Very-large-scale-intergrated). Bản chất song song đồ sộ của một mạng nơ ron làm cho nó rất nhanh trong tính toán đối với một số công việc. Đặc tính này cũng tạo ra cho một mạng nơ ron khả năng phù hợp cho việc cài đặt sử dụng kỹ thuật Very-large-scale-intergrated (VLSI . Kỹ thuật này cho phép xây dựng những mạch cứng tính toán song song quy mô lớn. Chính vì vậy mà ƣu điểm nổi bật của VLSI là mang lại những phƣơng tiện hữu hiệu để có thể xử lý đƣợc những hành vi có độ phức tạp cao. 13 1.2.5.1.7. Tính chất đồng dạng trong phân tích và thiết kế. Về cơ bản, các mạng nơ ron có tính chất chung nhƣ là các bộ xử lý thông tin. Chúng ta nêu ra điều này với cùng ý nghĩa cho tất cả các lĩnh vực có liên quan tới việc ứng dụng mạng nơ ron. Đặc tính này thể hiện ở một số điểm nhƣ sau: Các nơ ron, dƣới dạng này hoặc dạng khác, biểu diễn một thành phần chung cho tất cả các mạng nơ ron. Tính thống nhất này đem lại khả năng chia sẻ các lý thuyết và các thuật toán học trong nhiều ứng dụng khác nhau của mạng nơ ron. Các mạng tổ hợp (modular có thể đƣợc xây dựng thông qua một sự tích hợp các mô hình khác nhau. Với thuật toán đơn giản nhƣng rất hiệu quả, cùng với thành công của mô hình này trong các ứng dụng thực tiễn, mạng nơ ron hiện đang là một trong các hƣớng nghiên cứu của lĩnh vực học máy. Mạng nơ ron tỏ ra phù hợp với các bài toán đối sánh, phân loại mãu, xấp xỉ hàm, tối ƣu hóa, lƣợng tử hóa véc tơ và phân hoạch không gian dữ liệu, trong khi các phƣơng pháp truyền thống không đủ khả năng giải quyết các vấn đề nêu trên một cách hiệu quả. Đặc biệt trong các hệ thống nhận dạng sử dụng mạng nơ ron đã đạt đƣợc tỉ lệ nhận dạng khá chính xác, có thể so sánh với các phƣơng pháp nhận dạng cấu trúc, thống kê,… 1.2.6. Nhận dạng ký tự quang học – OCR Nhận dạng ký tự quang học [24] (tiếng anh: Optical Character Recognition, viết tắt là OCR , là loại phần mềm máy tính đƣợc tạo ra để chuyển các hình ảnh của chữ viết tay hoặc chữ đánh máy (thƣờng đƣợc quét bằng máy scanner thành các văn bản tài liệu. OCR đƣợc hình thành từ một lĩnh vực nghiên cứu về nhận dạng mẫu, trí tuệ nhân tạo và machine vision. Mặc dù công việc nghiên cứu học thuật vẫn tiếp tục, một phần công việc của OCR đã chuyển sang ứng dụng trong thực tế với các kỹ thuật đã đƣợc chứng minh. Nhận dạng ký tự quang học (dùng các kỹ thuật quang học chẳng hạn nhƣ gƣơng và ống kính và nhận dạng ký tự số (sử dụng máy quét và các thuật toán máy tính lúc đầu đƣợc xem xét nhƣ hai lĩnh vực khác nhau. Bởi vì chỉ có rất ít các ứng dụng tồn tại với các kỹ thuật quang học thực sự, bởi vậy thuật ngữ Nhận dạng ký tự quang học đƣợc mở rộng và bao gồm luôn ý nghĩa nhận dạng ký tự số. Đầu tiên hệ thống nhận dạng yêu cầu phải đƣợc huấn luyện với các mẫu của các ký tự cụ thể. Các hệ thống "thông minh" với độ chính xác nhận dạng cao đối với hầu hết các phông chữ hiện nay đã trở nên phổ biến. Một số hệ thống còn có khả năng tái 14 tạo lại các định dạng của tài liệu gần giống với bản gốc bao gồm: hình ảnh, các cột, bảng biểu, các thành phần không phải là văn bản Hiện nay, với chữ Việt, phần mềm nhận dạng chữ Việt in VnDOCR 4.0 có khả năng nhận dạng trực tiếp các loại tài liệu đƣợc quét qua máy quét, không cần lƣu trữ dƣới dạng tệp ảnh trung gian. Các trang tài liệu có thể đƣợc quét và lƣu trữ dƣới dạng tệp tin nhiều trang. Kết quả nhận dạng đƣợc lƣu trữ sang định dạng của Microsoft Word, Excel... phục vụ rất tốt nhu cầu số hóa dữ liệu. Ngoài ra, còn có một dự án OCR Tiếng Việt có tên VietOCR, đƣợc phát triển dựa trên nền tảng mã nguồn mở tesseract-ocr do Google tài trợ. VietOCR có khả năng nhận dạng chữ Việt rất tốt. Đây là một chƣơng trình nguồn mở Java/.NET, hỗ trợ nhận dạng cho các dạng ảnh PDF, TIFF, JPEG, GIF, PNG, và BMP. ABBYY - một hãng công nghệ hàng đầu trên thế giới về lĩnh vực Nhận dạng ký tự quang học đã tiến hành nghiên cứu và triển khai công nghệ nhận dạng Tiếng Việt vào tháng 4 năm 2009. Với công nghệ này độ chính xác trong việc nhận dạng tài liệu chữ in Tiếng Việt lên tới hơn 99% (cứ nhận dạng 100 ký tự thì có chƣa đến 1 ký tự sai . Công nghệ của ABBYY chấp nhận hầu hết các định dạng ảnh đầu vào nhƣ: PDF, TIFF, JPEG, GIF, PNG, BMP, PCX, DCX, DjVu... Kết quả nhận dạng đƣợc lƣu trữ dƣới các định dạng MS Word, MS Excel, HTML, TXT, XML, PDF, PDF 2 lớp, trong đó định dạng PDF 2 lớp là một định dạng hoàn hảo cho việc lƣu trữ và khai thác tài liệu. Với định dạng này, ngƣời đọc có thể đọc trung thực ảnh gốc nhờ lớp ảnh bên trên, các công cụ tìm kiếm có thể tìm kiểm toàn văn trên văn bản nhờ lớp text nhận dạng đƣợc bên dƣới. Sự nhận dạng chính xác ký tự Latin đánh máy đƣợc xem là vấn đề đã đƣợc giải quyết. Tỷ lệ chính xác thực tế đạt tới 99%, mặc dù một số ứng dụng đòi hỏi tỷ lệ chính xác cao hơn nữa cần phải con ngƣời kiểm tra lại lỗi. Việc nhận dạng chữ in bằng tay, chữ thảo bằng tay, và thậm chí những phiên bản đánh máy đƣợc in ra của vài chữ (đặc biệt là những chữ có số chữ cái lớn , vẫn còn là một đề tài của các nghiên cứu. Các hệ thống nhận dạng ký tự viết tay đã đạt đƣợc những thành công lớn về mặt thƣơng mại trong những năm gần đây. Trong số đó là thiết bị nhập cho những thiết bị hỗ trợ cá nhân (PDA nhƣ những phần mềm chạy trên Palm OS . hãng Apple Newton đi tiên phong trong công nghệ này. Những giải thuật sử dụng trong những thiết bị này sử dụng những ƣu điểm rằng thứ tự, tốc độ, và hƣớng của những đoạn dòng đơn lẻ đã đƣợc biết trƣớc. Tƣơng tự, ngƣời dùng có thể đƣợc yêu cầu sử dụng chỉ một vài loại kiểu chữ nhất định. Những phƣơng pháp này không thể dùng đƣợc trong phần mềm scan tài liệu giấy, do đó sự nhận dạng chính xác văn bản in bằng tay vẫn là một vấn đề 15 lớn đang đƣợc bỏ ngỏ. Với mức chính xác từ 80% đến 90%, những ký tự in bằng tay sạch sẽ có thể đƣợc nhận ra, nhƣng độ chính xác đó vẫn tạo ra hàng tá lỗi mỗi trang, khiến cho công nghệ đó chỉ hiệu quả trong vài trƣờng hợp nào đó. Sự đa dạng của OCR hiện nay đƣợc biết đến trong công nghiệp là ICR, (Intelligent Character Recognition - Nhận dạng ký tự thông minh . Nhận dạng chữ viết tay là một lĩnh vực nghiên cứu sôi nổi, với tỷ lệ nhận dạng thậm chí còn thấp hơn cả văn bản in bằng tay. Tỷ lệ nhận dạng cao hơn của những bản viết tay chung chung hầu nhƣ là không thể nếu không sử dụng thông tin về ngữ pháp và văn cảnh. Ví dụ nhƣ, nhận dạng cả một chữ từ một cuốn từ điển thì dễ hơn là việc cố gắng lấy ra những ký tự rời rạc từ đoạn đó. Đọc dòng Tổng cộng của một tờ séc (luôn luôn đƣợc viết bằng số là một ví dụ trong đó sử dụng những từ điển nhỏ hơn có thể tăng tỷ lệ nhận dạng rất nhiều. Kiến thức về ngữ pháp của một ngôn ngữ đƣợc scan cũng có thể giúp xác định một từ có thể là động từ hay danh từ, ví dụ nhƣ vậy, sẽ cho phép độ chính xác cao hơn. Hình dạng của chữ viết tay bản thân nó đã không chứa đủ thông tin về để nhận dạng chính xác (hơn 98% tất cả những đoạn chữ viết tay. Một vấn đề khó khăn của máy tính và con ngƣời đó là những bản lƣu của những lễ thánh và đám cƣới của những nhà thờ cũ chỉ toàn chứa tên. Những trang đó có thể bị hƣ hại do thời gian, nƣớc hay lửa và những tên trên đó có thể đã lỗi thời hoặc chứa những chính tả hiếm gặp. Lĩnh vực nghiên cứu khác là tiếp cận hợp tác, ở đó máy tính hỗ trợ con ngƣời và ngƣợc lại. Kỹ thuật xử lý hình ảnh của máy tính có thể hỗ trợ con ngƣời trong việc đọc những văn bản cực kỳ khó đọc nhƣ Bản viết trên da cừu của Archimede hay những Cuộn giấy da lấy từ vùng biển chết. Ngày nay, các hệ thống nhận dạng thỏa mãn độ chính xác nhận dạng cao đối với hầu hết các phông chữ tiêu chuẩn nhƣ Unicode. Một số hệ thống còn có khả năng tái tạo lại các định dạng của tài liệu gần giống với bản gốc bao gồm hình ảnh, các cột, bảng biểu, các thành phần không phải là văn bản. 1.3. Thách thức đối với hệ thống nhận dạng Hệ thống nhận dạng phân loại văn bản là một ứng dụng máy tính tự nhận dạng tài liệu nào đó có sẵn trong máy tính và đƣợc ngƣời dùng chọn để nhận dạng và phân loại. Một trong những cách để thực hiện điều này là so sánh các đặc điểm nhận dạng tại phân vùng chọn trƣớc từ hình ảnh và một cơ sở dữ liệu về các loại văn bản. Có nhiều phƣơng pháp nhận dạng khác nhau để phân loại và nhận dạng đƣợc văn bản hoặc chữ viết tay. Các điều kiện khác mà nhận dạng và phân loại văn bản không làm việc tốt bao gồm thiếu ánh sáng, mờ, nhèo nát và các hình ảnh độ phân giải thấp.

- Xem thêm -

Tài liệu Xây dựng hệ thống phân loại tài liệu tại tỉnh đoàn quảng ngãi

Tài liệu liên quan

Tài liệu vừa đăng

Tài liệu xem nhiều nhất