Tài liệu Các kỹ thuật xử lý ngôn ngữ trong số hóa văn bản tiếng việt của hệ thống fscanner

.PDF

444

114

nguyetha Báo vi phạm

Tải xuống 114

Mô tả:

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NINH THỊ THU HÀ CÁC KỸ THUẬT XỬ LÝ NGÔN NGỮ TRONG SỐ HÓA VĂN BẢN TIẾNG VIỆT CỦA HỆ THỐNG FSCANNER Ngành: Công nghệ thông tin Chuyên ngành: Kỹ thuật phần mềm Mã số: 60480103 LUẬN VĂN THẠC SĨ Hà Nội - 2014 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NINH THỊ THU HÀ CÁC KỸ THUẬT XỬ LÝ NGÔN NGỮ TRONG SỐ HÓA VĂN BẢN TIẾNG VIỆT CỦA HỆ THỐNG FSCANNER Ngành: Công nghệ thông tin Chuyên ngành: Công nghệ phần mềm Mã số: 60480103 LUẬN VĂN THẠC SĨ NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. LÊ QUANG MINH Hà Nội - 2014 LỜI CAM ĐOAN Tôi là Ninh Thị Thu Hà, học viên cao học K19, chuyên ngành Công nghệ phần mềm, khóa 2012-2014. Tôi xin cam đoan luận văn thạc sĩ “Các kỹ thuật xử lý ngôn ngữ trong số hóa văn bản tiếng Việt của hệ thống FSCANNER” là công trình nghiên cứu của riêng tôi cùng với sự hướng dẫn của TS. Lê Quang Minh. Các số liệu, kết quả nêu trong Luận văn là trung thực và chưa từng được ai công bố trong bất kỳ công trình nào khác. Tất cả những tham khảo từ các nghiên cứu liên quan đều được nêu nguồn gốc một cách rõ ràng từ danh mục tài liệu tham khảo của luận văn. Trong luận văn, không có việc sao chép tài liệu, công trình nghiên cứu của người khác mà không chỉ rõ về tài liệu tham khảo. Hà nội, ngày 28 tháng 10 năm 2014 Tác giả Ninh Thị Thu Hà LỜI CẢM ƠN Tôi xin gửi lời cảm ơn sâu sắc tới TS. Lê Quang Minh – Viện Công nghệ thông tin, Đại học Quốc gia Hà Nội, người thầy đã hướng dẫn, chỉ bảo tận tình cho tôi trong suốt quá trình nghiên cứu và hoàn thành luận văn tốt nghiệp. Tôi xin gửi lời cảm ơn chân thành tới các thầy cô đã và đang tham gia giảng dạy tại trường Đại học Công nghệ - Đại học Quốc gia Hà nội. Các thầy cô đã nhiệt tình giảng dạy và tạo mọi điều kiện thuận lợi cho tôi hoàn thành khóa học tại trường. Tôi xin bày tỏ lòng biết ơn tới tất cả bạn bè, đồng nghiệp và người thân đã động viên, giúp đỡ tôi trong suốt quá trình học tập và nghiên cứu, hoàn thành luận văn. Tôi xin được gửi lời cảm ơn đến các tác giả, nhóm tác giả của những giáo trình, những công trình khoa học và những bài báo khoa học mà tôi tham khảo để hoàn thiện luận văn này. Tác giả MỤC LỤC DANH MỤC CÁC TỪ VIẾT TẮT ........................................................................... 1 DANH MỤC BẢNG BIỂU ........................................................................................ 2 DANH MỤC HÌNH VẼ ............................................................................................. 4 MỞ ĐẦU .................................................................................................................... 6 CHƯƠNG 1. TỔNG QUAN VỀ BÀI TOÁN XỬ LÝ NGÔN NGỮ TRONG SỐ HÓA VĂN BẢN TIẾNG VIỆT ................................................................................. 9 1.1 Giới thiệu về xử lý ngôn ngữ tự nhiên ......................................................... 9 1.2 Giới thiệu một số công nghệ trong số hóa tài liệu ...................................... 10 1.2.1 Công nghệ nhận dạng tiếng Việt ......................................................... 10 1.2.2 Công nghệ soát lỗi chính tả tiếng Việt................................................. 11 1.2.3 Công nghệ tách bộ và lập chỉ mục....................................................... 12 1.3 Bài toán xử lý ngôn ngữ trong số hóa văn bản tiếng Việt ........................... 13 Tổng kết chương 1.................................................................................................. 15 CHƯƠNG 2. CÁC KỸ THUẬT XỬ LÝ NGÔN NGỮ TRONG SỐ HÓA VĂN BẢN .......................................................................................................................... 16 2.1. Một số kỹ thuật nhận dạng OCR................................................................ 16 2.1.1. Giới thiệu............................................................................................ 16 2.1.2. Kỹ thuật nhận dạng dựa trên mô hình máy vectơ hỗ trợ (SVM) .......... 18 2.1.3. Kỹ thuật nhận dạng dựa trên mô hình Markov ẩn (HMM) .................. 20 2.1.4. Kỹ thuật nhận dạng dựa trên mô hình mạng nơ ron (ANN) ................. 22 2.1.5. Cách tiếp cận nhận dạng OCR của FSCANNER ................................. 24 2.2. Kỹ thuật soát lỗi chính tả tiếng Việt dựa trên mô hình n-gram ................... 25 2.2.1. Giới thiệu bài toán soát lỗi chính tả tiếng Việt .................................... 25 2.2.2. Mô hình ngôn ngữ N-gram ................................................................. 27 2.2.3. Kỹ thuật soát lỗi dựa trên mô hình n-gram của hệ thống FSCANNER 29 2.3. Trích rút metadata ..................................................................................... 30 2.3.1. Giới thiệu về metadata và chuẩn Dublin Core ..................................... 30 2.3.2. Bài toán trích rút metadata .................................................................. 32 2.3.3. Đề xuất metadata cho văn bản được số hóa ......................................... 34 Tổng kết chương 2.................................................................................................. 45 CHƯƠNG 3. THỰC NGHIỆM, ĐÁNH GIÁ ......................................................... 46 3.1. Các bước thực hiện chương trình của hệ thống .......................................... 46 3.2. Xây dựng bộ dữ liệu thực nghiệm cho ảnh quét ......................................... 48 3.3. Tiến hành thực nghiệm .............................................................................. 49 3.3.1. Mục tiêu ............................................................................................. 49 3.3.2. Cách thực hiện .................................................................................... 49 3.4. Kết quả thực nghiệm ................................................................................. 50 3.5. Đánh giá kết quả........................................................................................ 52 Tổng kết chương 3.................................................................................................. 52 KẾT LUẬN .............................................................................................................. 53 TÀI LIỆU THAM KHẢO ....................................................................................... 54 1 DANH MỤC CÁC TỪ VIẾT TẮT STT Từ viết tắt Từ đầy đủ Tiếng Việt 1 ANN Artificial Neural Network Mạng nơ-ron nhân tạo 2 API Application Programming Interface Giao diện lập trình ứng dụng 3 DPI Dots Per Inch Số chấm trên 1 inch 4 HMM Hiden Markov Model Mô hình Markov ẩn 5 MLP Multi Layer Perceptron Mạng nhiều lớp truyền thẳng Perceptron 6 NLP Natural Language Processing Xử lý ngôn ngữ tự nhiên 7 OCR Optical Character Recognition Nhận dạng kí tự quang học 8 OVO One Versus One Một với một 9 OVR One Versus The Rest Một với phần còn lại 10 SVM Support Vector Machine Máy Véc tơ Hỗ trợ 2 DANH MỤC BẢNG BIỂU Bảng 1.1. So sánh một số phần mềm nhận dạng chữ in tiếng Việt Bảng 1.2. Một số phần mềm soát lỗi chính tả tiếng Việt và kết quả đánh giá độ nhận biết lỗi chính tả tiếng Việt đối với các phần mềm đó. Bảng 2.1. Tổng hợp kết quả nhận dạng OCR mô hình HMM, ANN, SVM với các đặc trưng khác nhau Bảng 2.2. Cấu trúc âm tiết 3 thành phần Bảng 2.3. Cấu trúc âm tiết 4 thành phần Bảng 2.4. Cấu trúc âm tiết 5 thành phần Bảng 2.5. Các thành phần âm tiết của cấu trúc âm tiết 4 thành phần Bảng 2.6. Một ví dụ trích rút metadata Bảng 2.7. 15 yếu tố của Dublin Core Metadata. Bảng 2.8. Đề xuất xây dựng các yếu tố metadata cho số hóa văn bản Bảng 2.9. Tiêu đề (Title) Bảng 2.10. Người tạo (Creator) Bảng 2.11. Ngày tháng (Date) Bảng 2.12. Nhà xuất bản (Publisher) Bảng 2.13. Mô tả (Description) Bảng 2.14. Định danh (Identifier) Bảng 2.15. Ngôn ngữ (Language) Bảng 2.16. Nguồn (Source) Bảng 2.17. Người cộng tác (Contributor) 3 Bảng 2.18. Chủ đề (Subject) Bảng 2.19. Phạm vi (Coverage) Bảng 2.20. Kiểu /Loại (Type) Bảng 2.21. Khổ mẫu (Format) Bảng 2.22. Liên kết (Relation) Bảng 2.23. Bản quyền (Right) Bảng 2.24. Cơ quan lưu trữ (Archive) Bảng 2.25. Phông lưu trữ (Archive fond) Bảng 2.26. Mục lục số (List number) Bảng 2.27. Hộp số (Folder number) Bảng 2.28. Hồ sơ số (Record number) Bảng 2.29. Tờ số (Page number) Bảng 2.30. Ngày số hóa (Digitizing date) Bảng 2.31. Người số hóa (Digitizing person) Bảng 2.32. Tổ chức số hóa (Digitizing organization) Bảng 2.33. Thiết bị số hóa (Digitizing equipment) Bảng 2.34. Bảng Cơ sở dữ liệu của 25 yếu tố metadata xây dựng cho văn bản được số hóa Bảng 3.1. Số từ nhận dạng đúng với các mức DPI khác nhau của ảnh quét Bảng 3.2. Số từ nhận dạng đúng với các góc xoay (lệch trái so với ảnh quét gốc) của ảnh quét Bảng 3.3. Số từ nhận dạng đúng với các góc xoay (lệch phải so với ảnh quét gốc) của ảnh quét 4 DANH MỤC HÌNH VẼ Hình 1.1. Một ví dụ kéo thả OCR trong sử dụng phần mềm Kodak Capture Pro Hình 1.2.a. Một phần ảnh văn bản Hình 1.2.b. Phần văn bản đã được nhận Hình 1.3.a. Phần văn bản đã được nhận Hình 1.3.b. Phần văn bản nhận dạng đã sửa lỗi chính tả tiếng Việt Hình 1.4. Một ví dụ về trích rút thông tin Hình 1.5. Sơ đồ hoạt động của việc số hóa văn bản tiếng Việt của hệ thống FSCANNER Hình 2.1. Sơ đồ tổng quát của một hệ thống nhận dạng OCR Hình 2.2.a. Các lớp phân tách tuyến tính. Hình 2.2.b. Siêu phẳng tối ưu và biên lề tương ứng, các vectơ hỗ trợ. Hình 2.3.a: Siêu phẳng phân tách 2 lớp (Liu, 2006) Hình 2.3.b: Siêu phẳng phân tách có lề cực đại (Liu, 2006) Hình 2.4. Lưới các chuỗi trạng thái, các tiến trình Markov với dãy quan sát O1, ..., OT. Hình 2.5. Mô hình một nơron nhân tạo Hình 2.6. Mạng MLP trong nhận dạng kí tự quang học. Hình 2.7. Mô hình Markov bậc 2 Hình 3.1. Giao diện chương trình FSCANNER Hình 3.2. Upload văn bản trong hệ thống FSCANNER Hình 3.3. Hệ thống FSCANNER đang nhận dạng OCR 1 file ảnh Hình 3.4. Hệ thống FSCANNER đã xử lý văn bản xong và kết quả trích rút metadata của văn bản đó. 5 Hình 3.5. Biểu đồ tỉ lệ % số từ nhận dạng đúng ở 7 mức DPI Hình 3.6. Biểu đồ tỉ lệ % số từ nhận dạng đúng ở các góc xoay lệch trái Hình 3.7. Biểu đồ tỉ lệ % số từ nhận dạng đúng ở các góc xoay lệch trái 6 MỞ ĐẦU 1. Tính cấp thiết Công tác lưu trữ có vai trò đặc biệt quan trọng đối với các lĩnh vực của đời sống xã hội bởi thông tin trong tài liệu lưu trữ là loại thông tin có độ tin cậy cao do nguồn gốc hình thành, do đặc trưng pháp lý của văn bản lưu trữ quy định. Ngày nay văn bản lưu trữ đang dần được số hóa – đó là nhu cầu cần thiết giúp giảm chi phí và tăng năng suất trong việc quản lý. Thực tế tại Việt Nam có rất nhiều tổ chức và doanh nghiệp đang phải lưu trữ một lượng lớn các loại văn bản tài liệu tiếng Việt (bản cứng) do đó có nhu cầu số hóa tài liệu, tức là chuyển các tài liệu bản cứng đó vào trong máy tính để lưu trữ, tìm kiếm, chỉnh sửa khi cần. Hiện nay chúng ta đã có các máy quét với tốc độ cao, có thể đáp ứng cho việc quét các tài liệu bản cứng thành file ảnh để lưu trữ lâu dài trên máy tính. Việc sử dụng máy quét sẽ tiết kiệm thời gian, chi phí gấp hàng trăm lần so với việc nhập bằng tay các tài liệu bản cứng vào máy tính. Tuy nhiên, nếu quét các tài liệu bản cứng thành các file ảnh để lưu trữ thì sẽ không thể chỉnh sửa các văn bản đó khi cần thiết, việc tìm kiếm từ khóa hay nội dung trong văn bản quét cũng không thể thực hiện được. Vì vậy, file ảnh thu được sau khi quét cần được nhận dạng để thu được file văn bản có thể chỉnh sửa được trên máy tính. Khi số lượng văn bản tài liệu rất lớn cần lưu trữ một cách thông minh để phục vụ cho việc tìm kiếm nhanh, độ chính xác của việc tìm kiếm sẽ phụ thuộc nhiều vào bước nhận dạng văn bản số hóa và bước trích rút metadata. Đã có những công cụ được phát triển để giải quyết vấn đề trên và mang lại kết quả rất khả quan. Tuy nhiên, nhằm nâng cao hiệu quả của công cụ này chúng ta cần có những cải tiến tốt hơn nữa, giúp cho độ chính xác trong công việc nhận dạng, tìm kiếm là tốt và nhanh hơn. Nhóm nghiên cứu của Viện Công nghệ thông tinĐại học Quốc gia Hà Nội đưa ra giải pháp là xây dựng hệ thống FSCANNER để số hóa văn bản tiếng Việt. 7 2. Mục tiêu của luận văn · Tổng quan về bài toán xử lý ngôn ngữ trong số hóa văn bản tiếng Việt, quy trình làm việc của hệ thống số hóa văn bản FSCANNER. · Tìm hiểu về các kỹ thuật nhận dạng OCR, kỹ thuật soát lỗi chính tả tiếng Việt, trích rút metadata trong số hóa văn bản tiếng Việt. · Nghiên cứu về các đặc trưng lưu trữ từ đó đề xuất xây dựng metadata cho văn bản được số hóa. 3. Nhiệm vụ nghiên cứu Mục đích của luận văn đề cập được đến hai phần: · Phần lý thuyết: Trình bày tổng quan về bài toán xử lý ngôn ngữ và sơ đồ hoạt động của việc số hóa văn bản của hệ thống FSCANNER. Sau đó trình bày về các kỹ thuật nhận dạng OCR, kỹ thuật sửa lỗi chính tả tiếng Việt dựa trên mô hình n-gram; Với bài toán trích rút metadata, tìm hiểu về metadata và chuẩn Dublin Core, nghiên cứu về các đặc trưng lưu trữ từ đó đề xuất xây dựng metadata cho văn bản được số hóa. · Phần phát triển ứng dụng: Thực nghiệm chọn ngưỡng góc xoay và chỉ số DPI thích hợp nâng cao chất lượng nhận dạng OCR. 4. Phạm vi nghiên cứu Hệ thống FSCANNER được nhóm nghiên cứu của Viện Công nghệ thông tin- Đại học Quốc Gia Hà Nội xây dựng với mục đích quản lý và tự động số hóa tài liệu. Đây thực sự là một bài toán lớn. Chính vì thế trong phạm vi của luận văn chỉ tìm hiểu về quy trình thực hiện của hệ thống, tìm hiểu về một số kỹ thuật nhận dạng OCR, kỹ thuật sửa lỗi chính tả tiếng Việt dựa trên mô hình ngôn ngữ n-gram của hệ thống, nghiên cứu về các đặc trưng lưu trữ và đề xuất xây dựng metadata cho văn bản được số hóa để phục vụ cho quá trình trích rút metadata. 5. Những đóng góp mới Đề xuất chọn ngưỡng góc xoay và chỉ số DPI thích hợp đối với ảnh đầu vào để nâng cao chất lượng nhận dạng OCR. 8 Đề xuất xây dựng metadata cho văn bản được số hóa, góp phần xác định các thuộc tính cần thiết của metadata cho việc xây dựng hệ thống FSCANNER. 6. Bố cục luận văn Ngoài phần mở đầu, kết luận và danh mục tài liệu tham khảo, luận văn gồm 3 chương như sau: Chương 1: Tổng quan về bài toán xử lý ngôn ngữ trong số hóa văn bản tiếng Việt. Nội dung giới thiệu về bài toán xử lý ngôn ngữ tự nhiên và sơ đồ hoạt động của việc số hóa văn bản tiếng Việt của hệ thống FSCANNER. Chương 2: Các kỹ thuật xử lý ngôn ngữ trong số hóa văn bản tiếng Việt Nội dung chương 2 gồm 3 phần: giới thiệu một số kỹ thuật nhận dạng OCR; kỹ thuật soát lỗi chính tả dựa trên mô hình ngôn ngữ n-gram; kỹ thuật trích rút metadata, trong đó đề xuất xây dựng metadata cho văn bản được số hóa. Chương 3: Thực nghiệm – đánh giá: Chạy chương trình với bộ dữ liệu thực nghiệm đưa ra để chọn ngưỡng chỉ số DPI và góc xoay thích hợp đối với ảnh quét đầu vào trước khi nhận dạng OCR, nhằm nâng cao hiệu quả nhận dạng. 9 CHƯƠNG 1. TỔNG QUAN VỀ BÀI TOÁN XỬ LÝ NGÔN NGỮ TRONG SỐ HÓA VĂN BẢN TIẾNG VIỆT 1.1 Giới thiệu về xử lý ngôn ngữ tự nhiên Xử lý ngôn ngữ tự nhiên (NLP – Natural Language Processing) là một lĩnh vực nghiên cứu nhằm giúp cho các hệ thống máy tính hiểu và xử lý được ngôn ngữ của con người (ngôn ngữ nói –viết). NLP là lĩnh vực thuộc ngành Khoa học máy tính, là một nhánh của Trí tuệ nhân tạo. Lĩnh vực xử lý ngôn ngữ tự nhiên ra đời đã lâu, trải qua nhiều nghiên cứu và ứng dụng, ngày nay được hiểu như là lĩnh vực giúp máy tính xử lý các vấn đề về ngôn ngữ tự nhiên để việc giao tiếp giữa người và máy tính thuận tiện và thân thiện hơn. Dưới đây là một số bài toán tiêu biểu của xử lý ngôn ngữ với các mức độ khác nhau về xử lý và sử dụng ngôn ngữ tự nhiên của con người [1]. · Nhận dạng tiếng nói: Từ tiếng nói của con người nhận biết và chuyển chúng thành dữ liệu văn bản tương ứng, ví dụ như tìm kiếm thông tin bằng tiếng nói (search voice),... · Tổng hợp tiếng nói: Từ dữ liệu văn bản, phân tích và chuyển thành tiếng người nói, ví dụ thay vì đọc nội dung trên web, nó tự đọc cho chúng ta,... · Nhận dạng chữ viết: Từ văn bản trên giấy, nhận biết từng chữ cái và chuyển chúng thành một tệp văn bản trên máy tính. Có hai kiểu nhận dạng: nhận dạng chữ in ví dụ như nhận dạng chữ trên sách giáo khoa rồi chuyển nó thành văn bản như định dạng *.doc lưu trên máy tính; và nhận dạng chữ viết tay ví dụ như nhận dạng chữ ký,... · Dịch tự động: Từ một tệp dữ liệu văn bản trong một ngôn ngữ (ví dụ tiếng Anh), máy tính dịch và chuyển thành một tệp văn bản trong một ngôn ngữ khác (ví dụ tiếng Việt). · Tóm tắt văn bản: Từ một văn bản dài máy tóm tắt thành một văn bản ngắn gọn với những nội dung cơ bản. · Tìm kiếm thông tin: Từ một nguồn rất nhiều tệp văn bản hay tiếng nói, tìm ra những tệp có nội dung liên quan đến một vấn đề ta cần biết, ví dụ điển hình như Google Search có thể tìm kiếm văn bản hay tiếng nói. 10 · Trích chọn thông tin: Từ một nguồn rất nhiều tệp văn bản hay tiếng nói, tìm ra một số đoạn bên trong một số tệp liên quan đến một vấn đề ta cần biết · Phát hiện tri thức và khai phá dữ liệu văn bản: Từ những nguồn rất nhiều văn bản thậm chí hầu như không có quan hệ với nhau tìm ra được những tri thức trước đấy chưa ai biết, đây là một vấn đề rất phức tạp và đang ở giai đoạn đầu nghiên cứu trên thế giới. 1.2 Giới thiệu một số công nghệ trong số hóa tài liệu 1.2.1 Công nghệ nhận dạng tiếng Việt Hiện nay trên thế giới cũng như Việt Nam đã có những sản phẩm nhận dạng tiếng Việt như ABBYY FineReader, VietOCR, VnDOCR… Trong đó sản phẩm tính phí là ABBYY FineReader và VnDOCR; còn VietOCR là phần mềm mã nguồn mở sử dụng công cụ Tesseract được phát triển tại công ty Google. Phần mềm VnDOCR là sản phẩm của Viện công nghệ thông tin dùng để nhận dạng chữ Việt in. Phần mềm này có từ phiên bản 1.0 và đến nay là phiên bản VnDOCR 4.0. Có thể download dùng thử tại trang web http://www.vndocr.com/home/Products.asp?ProductID=2 . Khi chạy phần mềm cho phép tiền xử lý ảnh đầu vào trước khi nhận dạng như xoay ảnh, chỉnh độ nghiêng, xóa nhiễu. Tuy nhiên bản dùng thử không cho phép lưu lại văn bản đã nhận dạng. VietOCR là một chương trình mã nguồn mở do người Việt phát triển. Chương trình sử dụng bộ nhận dạng Tesseract. Có khả năng nhận diện ký tự từ các loại dạng ảnh phổ thông. Độ chính xác nhận dạng tùy thuộc phần lớn vào chất lượng của ảnh quét. Vì đây phần mềm mã nguồn mở nên việc phát triển nó để nâng cao chất lượng nhận dạng là rất khả thi. Download phần mềm VietOCR tại trang web http://vietocr.sourceforge.net/usage_vi.html và chọn download. Sau đó cài đặt VietOCR theo hướng dẫn tại trang web http://vietocr.sourceforge.net/usage_vi.html FineReader là một sản phẩm OCR của ABBYY – một hãng công nghệ hàng đầu trên thế giới về lĩnh vực nhận dạng kí tự quang học; hãng này đã tiến hành nghiên cứu và triển khai công nghệ nhận dạng tiếng Việt vào tháng 4/2009. Với công nghệ này, độ chính xác trong việc nhận dạng chữ in tiếng Việt lên tới 11 99%. Tuy nhiên, sản phẩm này là sản phẩm thương mại hóa, tính phí cho mỗi trang scan. Hiện tại, FineReader đang ở phiên bản thứ 12. ABBYY FineReader là phần mềm mất phí, dùng thử có thể download ABBYY FineReader 12 tại trang web http://download.abbyy.com/finereader_pro , sau khi download xong, tiến hành cài đặt chương trình theo hướng dẫn có sẵn của chương trình. Bảng 1.1. So sánh một số phần mềm nhận dạng chữ in tiếng Việt VnDOCR Trang web http:// www.vndocr.com/ Đặc điểm Ưu điểm Hạn chế Là sản phẩm thương mại Có thể nhận dạng trực tiếp tài liệu từ máy quét. Tự động phân vùng nhận dạng. Là phần mềm của người Việt. Giá thành phù hợp. Nhận dạng tương đối tốt bảng biểu, giữ nguyên định dạng văn bản. Không nhận dạng được đầu vào là ảnh màu, ảnh định dạng PDF. Ảnh có cấu trúc phức tạp, kết quả nhận dạng chưa cao. Không nhận dạng được chữ cái to đầu đoạn (Drop Cap), chỉ số trên của các công thức toán học. VietOCR Trang web: http://vietocr.sourceforge.n et/ Là chương trình mã nguồn mở do người Việt phát triển. Việc phát triển phần mềm này để nâng cao chất lượng nhận dạng là rất khả thi. Miễn phí. Nhận dạng được ảnh đầu vào dạng PDF. Nhận dạng được các trang có nhiều loại font, kiểu font hoặc nền là ảnh màu. Không phân vùng được (chỉ nhận dạng được một vùng). Chất lượng nhận dạng chưa cao. Không nhận dạng được chữ cái to đầu đoạn, các công thức toán học, bảng biểu. ABBYY FineReader web: Trang http://finereader.abbyy.co m/ Là sản phẩm thương mại. Là phần mềm của Nga. Cho phép kết nối và nhận dạng trực tiếp ảnh từ Camera. Nhận dạng được nhiều định dạng ảnh đầu vào. Phân vùng đúng, giữ nguyên bố cục và định dạng ban đầu. Nhận dạng tốt bảng biểu, chữ to đầu đoạn, công thức toán học,... Giá thành cao. Là sản phẩm không phải của người Việt, có thể bị mất thông tin vì chúng ta không nắm được quy trình. 1.2.2 Công nghệ soát lỗi chính tả tiếng Việt Lỗi chính tả gồm hai loại là lỗi thực từ và lỗi phi từ. Hầu hết các phần mềm soát lỗi chính tả phát hiện được lỗi phi từ. Tuy nhiên lỗi thực từ tiếng Việt 12 rất khó phát hiện. Do đó những công ty sản xuất các sản phẩm này đã ngừng đầu tư phát triển. Vào tháng 6/2010, tại buổi họp báo [9] của Viện Công nghệ thông tin-Đại học Quốc gia Hà Nội đã công bố bản Báo cáo về tình hình chính tả trong văn bản tiếng Việt, đợt đánh giá tháng 6/2010. Trong đó các phần mềm soát lỗi và sửa lỗi chính tả trên thị trường có tỉ lệ soát lỗi như sau: BÚT ĐỎ 92,5%; CÚ MÈO 62,65%; VIETSPELL 62,76%. Trên cơ sở đó, chúng tôi giới thiệu một số phần mềm soát lỗi chính tả tiếng Việt [8] và kết quả đánh giá độ nhận biết lỗi chính tả tiếng Việt của một số phần mềm [7] thể hiện ở bảng 1.2 Bảng 1.2. Một số phần mềm soát lỗi chính tả tiếng Việt và kết quả đánh giá độ nhận biết lỗi chính tả tiếng Việt đối với các phần mềm đó. Sản phẩm Công Cụ Việt 1.4 Cọp Con 3.1 VCatSpell Kết quả đánh giá VIEGRID JSC - Đang phát triển. Thương mại, cho dùng thử. www.viegrid.com 92,5% Ths. Mai Tuấn Khôi và cộng sự - Ngừng phát triển Miễn phí, ngừng cung cấp www.chinhta.bacthangban.com 67,77% SOBIC - Ngừng phát triển Thương mại, ngừng cung cấp www.sobic.com.vn 62,65% - Ngừng phát triển. Thương mại, dùng thử hạn chế - Ngừng phát triển. Miễn phí, cho tải www.vietcatholic.net Cú Mèo Pro 2.0.2 VietSpell Tình trạng, tính chất, site Nhà phát triển Lưu Hà Xuyên Thông tấn xã Công giáo Việt Nam 62,76% 26,52% 1.2.3 Công nghệ tách bộ và lập chỉ mục Hiện tại có phần mềm Kodak Capture [20] là 1 phần mềm cho phép số hóa tài liệu và lập chỉ mục tách bộ tự động, tuy nhiên phần mềm làm việc không chính xác với các tài liệu tiếng Việt, việc lập chỉ mục cũng cần phải dựa vào các 13 form mẫu được tạo bởi người sử dụng (đánh dấu vị trí cần nhận dạng và lập chỉ mục). Sản phẩm chỉ làm việc với các biểu mẫu có cùng 1 dạng và có vị trí cần nhận dạng chính xác với vị trí đã đánh dấu. Kodak Capture cho phép người dùng chỉ định vùng OCR bằng thao tác kéo thả vùng cần nhận dạng (drag & drop OCR) để trích rút thông tin cần thiết hỗ trợ cho việc tạo chỉ mục. Dưới đây ở hình 1.1 là một ví dụ kéo thả vùng nhận dạng để trích rút thông tin. Hình 1.1. M ột ví dụ kéo thả OCR trong sử dụng phần mềm Kodak Capture Pro 1.3 Bài toán xử lý ngôn ngữ trong số hóa văn bản tiếng Việt Với một khối lượng khổng lồ các tài liệu văn bản giấy, máy quét có thể chuyển chúng thành các file ảnh văn bản lưu trữ được trong máy tính. Tuy nhiên, các file ảnh văn bản sau khi quét thì không thể chỉnh sửa được trên máy tính hay tìm kiếm theo từ khóa hay nội dung trong ảnh văn bản đó. Vì vậy, các ảnh văn bản thu được sau khi quét cần đươc nhận dạng thành thành văn bản có thể chỉnh sửa được (hình 1.2.a và hình 1.2.b). Hình 1.2.a. Một phần ảnh văn bản Trong cuộc tiếp trợ lý Tổng thống Mỹ T.Đai-nai-lơn tới trao thư của Tổng thống B.ô-ba-ma, Tổng thống Nga V.Pu-tin cho biết, sẽ nghiên cứu đề xuất của Mỹ về tăng cường đối thoại và hợp tác song phương. Ông Đai-nai-lơn trước đó đã hội đàm với Bộ trưởng Ngoại giao Nga X.La-vrốp. ■ Theo Tân Hoa xã, phát biểu ý kiến tại Viện Công nghệ Nhật Bản, Bộ trưởng Ngoại giao Mỹ G.Ke-ri nêu bốn nguyên tắc chính sách cua Mỹ nhằm giúp các nước khu vực châu Á - Thái Bình Dương đối phó các thách thức, gồm: tăng trưởng mạnh, công bằng, nhanh và hợp lý. ■ Tại cuộc hội thảo về kinh tế, Thủ tướng Trung Quốc Lý Khắc Cường nhấn mạnh tầm quan trọng của công tác dự báo chính sách kinh'tế, đồng thời kêu gọi tập trung chuyển đổi và cập nhật kinh tể thòng qua cải cách sâu rộng. (XEM TIẾP TRANG 7) Hình 1.2.b. Phần văn bản đã được nhận dạng Kết quả nhận dạng phụ thuộc rất nhiều vào chất lượng ảnh quét. Khi hệ thống không nhận dạng được một kí tự, sẽ gây ra một lỗi chính tả tiếng Việt ở đầu ra. Việc sửa lỗi chính tả tiếng Việt sau khi nhận dạng sẽ làm tăng độ chính xác nhận dạng (hình 1.3.a và hình1.3.b). 14 Trong cuộc tiếp trợ lý Tổng thống Mỹ T.Đai-nai-lơn tới trao thư của Tổng thống B.ô-ba-ma, Tổng thống Nga V.Pu-tin cho biết, sẽ nghiên cứu đề xuất của Mỹ về tăng cường đối thoại và hợp tác song phương. Ông Đai-nai-lơn trước đó đã hội đàm với Bộ trưởng Ngoại giao Nga X.La-vrốp. ■ Theo Tân Hoa xã, phát biểu ý kiến tại Viện Công nghệ Nhật Bản, Bộ trưởng Ngoại giao Mỹ G.Ke-ri nêu bốn nguyên tắc chính sách cua Mỹ nhằm giúp các nước khu vực châu Á - Thái Bình Dương đối phó các thách thức, gồm: tăng trưởng mạnh, công bằng, nhanh và hợp lý. ■ Tại cuộc hội thảo về kinh tế, Thủ tướng Trung Quốc Lý Khắc Cường nhấn mạnh tầm quan trọng của công tác dự báo chính sách kinh'tế, đồng thời kêu gọi tập trung chuyển đổi và cập nhật kinh tể thòng qua cải cách sâu rộng. (XEM TIẾP TRANG 7) Trong cuộc tiếp trợ lý Tổng thống Mỹ T.Đai-nai-lơn tới trao thư của Tổng thống B.ô-ba-ma, Tổng thống Nga V.Pu-tin cho biết, sẽ nghiên cứu đề xuất của Mỹ về tăng cường đối thoại và hợp tác song phương. Ông Đai-nai-lơn trước đó đã hội đàm với Bộ trưởng Ngoại giao Nga X.La-vrốp. ■ Theo Tân Hoa xã, phát biểu ý kiến tại Viện Công nghệ Nhật Bản, Bộ trưởng Ngoại giao Mỹ G.Ke-ri nêu bốn nguyên tắc chính sách của Mỹ nhằm giúp các nước khu vực châu Á - Thái Bình Dương đối phó các thách thức, gồm: tăng trưởng mạnh, công bằng, nhanh và hợp lý. ■ Tại cuộc hội thảo về kinh tế, Thủ tướng Trung Quốc Lý Khắc Cường nhấn mạnh tầm quan trọng của công tác dự báo chính sách kinh tế, đồng thời kêu gọi tập trung chuyển đổi và cập nhật kinh tế thông qua cải cách sâu rộng. (XEM TIẾP TRANG 7) Hình 1.3.a. Phần văn bản đã được nhận dạng Hình 1.3.b. Phần văn bản nhận dạng đã sửa lỗi chính tả tiếng Việt Với mỗi văn bản sau khi đã nhận dạng và sửa lỗi sẽ được trích rút thông tin theo mẫu phục vụ cho việc lưu trữ thông minh và hỗ trợ người dùng tìm kiếm tài liệu một cách dễ dàng. Ở hình 1.4 là một ví dụ về trích rút metadata. Cơ quan ban hành: Bộ Khoa học và Công nghệ Số hiệu: 3390/QĐ-BKHCN Ngày ban hành: 11/12/2012 Trích yếu nội dung: Quyết định về việc công bố thủ tục hành chính mới ban hành thuộc phạm vi chức năng quản lý của Bộ Khoa học và Công nghệ Tác giả: Thứ trưởng Trần Việt Thanh Hình 1.4. Một ví dụ về trích rút metadata Đã có những công cụ được phát triển để giải quyết bài toán số hóa văn bản và mang lại kết quả rất khả quan. Tuy nhiên để nâng cao hiệu quả của công cụ này chúng ta cần có những cải tiến tốt hơn nữa, giúp cho độ chính xác trong công việc nhận dạng, tìm kiếm là tốt và nhanh hơn. Giải pháp đưa ra là một quy trình (hình 1.6 ) gồm các bước sau: 1. Người dùng quét các văn bản từ máy Scan hoặc import các văn bản đã được quét từ trước. Kết quả của bước này là các văn bản được số hóa mức 1 dưới dạng các ảnh. 2. Hệ thống sẽ kích hoạt chương trình nhận dạng OCR thông qua các giao diện lập trình ứng dụng (API) để nhận dạng các văn bản dưới dạng ảnh và thu về văn bản ở dạng text.

- Xem thêm -

Tài liệu Các kỹ thuật xử lý ngôn ngữ trong số hóa văn bản tiếng việt của hệ thống fscanner

Tài liệu liên quan

Tài liệu vừa đăng

Tài liệu xem nhiều nhất