Nhận dạng chữ Nôm bằng máy véc - tơ hỗ trợ (SVM)

  • Số trang: 73 |
  • Loại file: PDF |
  • Lượt xem: 27 |
  • Lượt tải: 0
nhattuvisu

Đã đăng 26946 tài liệu

Mô tả:

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ TRẦN NGHI PHÚ NHẬN DẠNG CHỮ NÔM BẰNG MÁY VÉC-TƠ HỖ TRỢ (SVM) Ngành:Công nghệ thông tin Chuyên ngành:Công nghệ phần mềm Mã số:60 48 10 LUẬN VĂN THẠC SĨ Hà Nội – 2013 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ TRẦN NGHI PHÚ NHẬN DẠNG CHỮ NÔM BẰNG MÁY VÉC-TƠ HỖ TRỢ (SVM) Ngành: Công nghệ thông tin Chuyên ngành: Công nghệ phần mềm Mã số: 60 48 10 LUẬN VĂN THẠC SĨ NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS.TS NGUYỄN NGỌC BÌNH Hà Nội – 2013 MỤC LỤC MỞ ĐẦU .................................................................................................................... 1 Chƣơng 1. TỔNG QUAN CHỮ NÔM ..................................................................... 4 1.1. Lịch sử và một số đặc điểm của chữ Nôm ................................................................ 4 1.2. Cấu tạo chữ Nôm ........................................................................................................ 5 1.2.1. Chữ Nôm mượn nguyên dạng chữ Hán. ................................................................. 5 1.2.2. Chữ Nôm được tạo trên cơ sở kết hợp hai chữ Hán ............................................... 5 1.2.3. Chữ Nôm được tạo trên cơ sở kết hợp chữ Hán và chữ Nôm ................................. 6 1.3. Một số thống kê về chữ Nôm ..................................................................................... 7 Tổng kết chƣơng 1 ............................................................................................................ 10 Chƣơng 2. NHẬN DẠNG CHỮ NÔM ................................................................... 11 2.1. Nhận dạng ký tự quang học ...................................................................................... 11 2.2.1. CherryBlossom ...................................................................................................... 12 2.2.2. Tesseract ............................................................................................................... 13 2.3. Mô hình OCR chữ Trung Quốc ............................................................................... 16 2.3.2. Phân đoạn ............................................................................................................. 18 2.3.3. Chuẩn hóa ký tự .................................................................................................... 19 2.3.4. Nhận dạng ............................................................................................................. 19 2.3.5. Các kết quả đạt được và những vấn đề đặt ra ...................................................... 20 2.4. Bài toán nhận dạng chữ Nôm .................................................................................. 21 Tổng kết chƣơng 2 ............................................................................................................ 23 Chƣơng 3. MÁY VÉC-TƠ HỖ TRỢ (SVM) ......................................................... 24 3.1. Tổng quan về SVM .................................................................................................... 24 3.2. SVM tuyến tính .......................................................................................................... 24 3.2. Lề mềm ....................................................................................................................... 26 3.3. SVM phi tuyến ........................................................................................................... 26 3.4. SVM cho bài toán phân đa lớp ................................................................................. 28 Tổng kết chƣơng 3 ............................................................................................................ 30 Chƣơng 4. GIẢI THUẬT KSVM CHO NHẬN DẠNG CHỮ NÔM ................... 31 4.1. Giải thuật KSVM cho nhận dạng chữ Nôm ............................................................ 31 4.2. Phƣơng pháp trích chọn đặng trƣng trọng số vùng (Zoning) .............................. 32 4.3. Huấn luyện (trainning) ............................................................................................ 33 3.2.1. Xây dựng bộ nhận dạng OVOF .......................................................................... 34 3.2.2. Tạo mẫu đại diện ................................................................................................ 34 3.2.3. Phân cụm bằng K-Mean ..................................................................................... 35 4.4. Nhận dạng (Recognition) ......................................................................................... 36 Tổng kết chƣơng 4 ............................................................................................................ 37 Chƣơng 5. THỰC NGHIỆM, ĐÁNH GIÁ ............................................................ 38 5.1. Quy trình thực nghiệm .............................................................................................. 38 5.2. Xây dựng bộ dữ liệu thực nghiệm ............................................................................ 39 5.3. Tiến hành thực nghiệm ............................................................................................. 42 5.3.1. Mục tiêu ................................................................................................................. 42 5.3.2.Cách thực hiện ....................................................................................................... 43 5.4. Kết quả thực nghiệm ................................................................................................. 43 5.5. Đánh giá kết quả ........................................................................................................ 44 Tổng kết chƣơng 5 ............................................................................................................ 45 KẾT LUẬN .............................................................................................................. 46 TÀI LIỆU THAM KHẢO ...................................................................................... 48 PHỤ LỤC A ............................................................................................................. 50 PHỤ LỤC B ............................................................................................................. 62 DANH MỤC CÁC TỪ VIẾT TẮT Từ đầy đủ STT Từ viết tắt 1 ANN Artificial Neural Network Mạng nơ-ron nhân tạo 2 BMP Bitmap Định dạng ảnh bitmap 3 FC First Class Lớp thứ nhất 4 GIF Graphic Interface Format Định dạng giao diện đồ họa ISO International Organization for Standardization Tổ chức chuẩn hóa quốc tế JOCR Japanese Optical Character Recognition Nhận dạng ký tự quang học Nhật 7 k-NN K Nearest Neighbor K láng giềng gần nhất 8 KSVM 9 OCR 10 5 6 Tiếng Việt K-Mean & Support Vector Machine K cụm và máy véc-tơ hỗ trợ Optical Character Recognition Nhận dạng ký tự quang học OS Operating System Hệ điều hành 11 OVO One Versus One Một với một 12 OVR One Versus The Rest Một với phần còn lại Probability Distribution of Black Pixels Phân bố xác suất điểm đen 13 PD 14 PDA Personal Digital Asisstant Thiết bị số cá nhân 15 PDF Portable Document Format Định dạng tài liệu di động 16 PNG Portable Network Graphics Đồ họa mạng di động 17 SC Second Class Lớp thứ 2 18 SVM Support Vector Machine Máy véc-tơ hỗ trợ DANH MỤC BẢNG BIỂU Bảng 1.1. Một số hình thức chữ Nôm mượn nguyên dạng chữ Hán Bảng 1.2. Một số bộ thủ dùng trong chữ Nôm Bảng 1.3. Tỷ lệ chữ Nôm vay mượn qua các thời kỳ Bảng 2.1. Kết quả đánh giá độ chính xác của Tesseract tại UNLV 1995 Bảng 2.2. Kết quả so sánh khả năng nhận dạng giữa FineReader và Tesseract Bảng 3.1. So sánh độ chính xác một số phương pháp SVM đa lớp Bảng 5.1. Kết quả thực nghiệm KSVM với bộ dữ liệu NOM-DB0 DANH MỤC HÌNH VẼ Hình 1.1. Tỉ lệ tài liệu chữ Nôm trong các lĩnh vực. Hình 1.2. Phân bố tài liệu chữ Nôm theo các thời kỳ. Hình 2.1. Ứng dụng tự động chụp ảnh và dịch trên di động và bút chuyên dụng Hình 2.2. Framework nhận dạng chữ tượng hình của JOCR. Hình 2.3. Kiến trúc tổng quát của Tesseract. Hình 2.4. Các bước trong nhận dạng chữ Trung Quốc Hình 2.5. Quy trình nhận dạng đệ quy Hình 2.6. Quá trình phần đoạn tiếng Trung Quốc Hình 2.7. Sơ đồ các bước trong nhận dạng chữ Hán Hình 2.8. Sơ đồ tổng thể mô hình nhận dạng chữ Nôm đề xuất. Hình 2.9. Mô hình nhận dạng chữ Nôm trong luận văn Hình 3.1. Tìm siêu phẳng có lề cực đại Hình 3.2. Xác định lề, tham số phạt trong SVM Hình 3.3. Ánh xạ không gian đặc trưng 2 chiều sang 3 chiều. Hình 3.4. Khả năng phân lớp khi kết hợp SVM với hàm nhân Hình 3.5. Minh họa các bước nhận dạng bằng OVO Hình 4.1. Giải thuật trích chọn đặc trưng trọng số vùng (Zoning) Hình 4.2. Ảnh nhị phân của một ký tự tiếng Trung Quốc Hình 4.3. Số điểm đen theo lưới 3x3 Hình 4.4. Mật độ số điểm đen theo lưới 3x3 Hình 4.5. Lưu đồ huấn luyện trong giải thuật KSVM Hình 4.6. Lưu đồ thuật toán K-Mean Hình 4.7. Nhận dạng trong KSVM Hình 5.1. Quy trình tiến hành thực nghiệm Hình 5.2. Giao diện chính của chương trình thực nghiệm Hình 5.3. Bản số hóa và dịch nghĩa của một trong trong truyện Kiều Hình 5.4. Kết quả phân tích để thu dược mã chữ Nôm trong truyện kiều từ kho nomna.org Hình 5.5. Tách chữ Nôm từ ảnh. Hình 5.6. Một số mẫu chữ Nôm trong cơ sở dữ liệu NomDB0. MỞ ĐẦU 1. Tính cấp thiết Chữ Nôm là một di sản văn hoá minh chứng cho truyền thống văn hiến lâu dài của dân tộc Việt Nam. Nghiên cứu chữ Nôm góp phần khẳng định tự hào dân tộc, khám phá những nét văn hóa, lịch sử, khoa học đặc sắc qua từng thờ kỳ của dân tộc. Do đó việc phục hồi và phát triển chữ Nôm đang được xã hội ngày càng qua tâm qua nhiều hoạt động, công trình nghiên cứu ở nhiều phương diện ngôn ngữ học, lịch sử, văn hóa… Song nghiên cứu chữ Nôm vẫn đang còn nhiều nhiệm vụ khó khăn, một trong đó là nhiệm vụ của công nghệ thông tin xây dựng bộ nhận dạng ký tự quang học cho chữ Nôm hay Nôm-OCR. Với tất cả các chữ viết phổ biến trên thế giới,việc xây dựng OCR cho các chữ viết đó trở thành một trong những nhiệm vụ nghiên cứu quan trọng. Với những nỗ lực nghiên cứu đó đã mang lại những thành tựu to lớn, góp phần quan trọng làm chủ chữ viết của con người bằng khoa học công nghệ. Khi xây dựng thành công bộ OCR cho ngôn ngữ, rào cản để máy hiểu chữ viết đó được tháo bỏ bớt. Khi đó, ta hoàn toàn có thể xử lý ngôn ngữ, chữ viết hay sâu hơn là kho tri thức biểu thị bằng ngôn ngữ đó với tốc độ của máy, bằng những tiến bộ của khoa học máy tính. Xét về mặt công nghệ thông tin cũng như ngôn ngữ học, đó là được xem là những đóng góp khổng lồ. Thực trạng ngày nay, số người biết chữ Nôm ngày càng ít càng làm cho những tri thức chữ Nôm ngày càng mai một. Ngược lại chúng ta lại đang sở hữu những kho tàng tri thức khổng lồ về chữ Nôm về nhiều phương diện như sách, gia phả, ấn phong… và đặc biệt là một hệ thống đồ sộ các bia đá, câu đối trong các công trình di tích, là chứng cứ sống của lịch sử, là biểu tượng của văn hóa, lịch sử Việt với thế giới. Nếu không có một sự hỗ trợ mạnh mẽ của khoa học để khai thác kho tri thức Nôm khổng lồ này, chúng ta sẽ ngày càng mù chính chữ của dân tộc mình, và dần sau sẽ trở nên tan biến. Việc xây dựng được Nôm-OCR sẽ tạo điều kiện khai thác số tri thức Nôm khổng lồ, ứng dụng vào trong tìm hiểu các công trình, bia, câu đối cổ bằng các ứng dụng tích hợp trên các thiết bị di động máy tính, hay nói cách khác chúng ta có thể làm mọi thiết bị biết giải thích chữ Nôm và từ đó góp phần ý nghĩa trong khảo cổ, khám phá văn hóa, khám phá du lịch. 2. Tình hình nghiên cứu Nghiên cứu chữ Nôm đã được nhiều nhóm gần đây quan tâm cả về phương diện ngôn ngữ học và công nghệ thông tin. Một trong những thành tựu đầu tiên là việc hình thành các từ điển chữ Nôm, hình thành các kho chữ Nôm được số hóa, số hóa và giải mã nhiều tài liệu chữ Nôm như truyện Kiều của Hán Nôm Foundation. Tiếp tới, sau những nỗ lực trong thời gian dài, chữ Nôm đã được xác lập vị trí trong bộ ký tự thế giới Unicode và ISO 10646, trong đó có 5067 ký tự trùng hình với chữ Trung Quốc, 4232 chữ thuần Nôm và hiện đang đề nghị đưa vào thêm 2200. Kế tiếp bước đi đó, nhiều bộ font Nôm, bộ gõ chữ Nôm đã được xây dựng. Và một trong những bước đi tiếp của lộ trình trên là xây dựng OCR-Nôm, nhưng hiện tại vẫn chưa có kết quả nghiên cứu nào đề cập đến vấn đề trên, có thể do có những khó khăn nhất định và một trong những khó khăn thường gặp là vấn đề về dữ liệu để nghiên cứu. Các bộ OCR tượng hình như tiếng Trung, Nhật đã được nghiên cứu nhiều và đạt được những kết quả khả quan, được ứng dụng rộng rãi trong thực tế có thể kể đến sản phẩm nguồn mở Tesseract, KanjiPad - phần mềm nhận dạng chữ viết tay Nhật Bản, Readiris Pro 11 Corporate Edition - phần mềm nhận dạng chữ Trung Quốc đạt tới độ chính xác 98%, HWPen - phần mềm nhận dạng chữ viết tay Trung Quốc tích hợp trên iPhone và đặc biệt sản phẩm thương mại ABBY… đạt độ chính xác gần như tuyệt đối với ký tự in các ngôn ngữ. Nói tóm lại, các chủ đề liên quan đến chữ Nôm cũng như OCR đã được quan tâm và đạt nhiều thành quả cao, riêng lĩnh vực nghiên cứu kết hợp 2 yếu tố này vẫn là bài toán mở, cần những nghiên cứu mới. 3. Đối tƣợng và phạm vi nghiên cứu Chúng tôi tập trung nghiên cứu bài toàn nhận dạng chữ Nôm nhằm xây dựng bộ phần mềm nhận dạng chuyển đổi từ ảnh của một ký tự Nôm về mã Unicode của ký tự đó tiến hành tra cứu nghĩa căn cứ trên từ điển hoặc kết hợp với các hệ thống khác. Hệ thống OCR bao gồm nhiều thành phần như tiền xử lý, trích chọn đặc trưng, nhận dạng, hậu xử lý. Đề tài tập trung nghiên cứu bước trích chọn đặc trưng và nhận dạng. Với tập dữ liệu đầu vào để huấn luyện và nhận dạng là kho mẫu NOM-DB0 chứa 495 chữ Nôm, mỗi chữ 24 mẫu, mỗi chữ trên 1 ảnh đã được cắt bó sát. 4. Mục đích và nhiệm vụ nghiên cứu Đề tài tập trung nghiên bước trích chọn đặc trưng và nhận dạng trong sơ đồ hệ thống nhận dạng chữ Nôm tổng thể do LES-Nom xây dựng. Trong bước trích chọn đặc trưng chọn phương pháp trích chọn đặc trưng trọng số vùng (Zoning). Trong bước nhận dạng đề tài tìm hiểu kỹ thuật Máy véc-tơ hỗ trợ (SVM) và đưa mô hình ứng dụng SVM trong nhận dạng chữ Nôm từ đó đưa ra những đánh giá và đề xuất các hướng nghiên cứu cải tiến. 5. Những nội dung nghiên cứu Chúng tôi tìm hiểu tổng quan về chữ Nôm và bài toán nhận dạng chữ Nôm nhằm mục đích để xây dựng bộ nhận dạng Nôm-OCR. Để tiến hành các nghiên cứu đánh giá, nhóm tác giả cùng nghiên cứu về chữ Nôm trong LES-Nôm tiến hành xây dựng bộ dữ liệu mẫu NômDB0. Trên cơ sở những kết quả về nhận dạng đã áp dụng cho các bộ OCR khác, đặc biệt là OCR chữ tượng hình, luận văn tiến hành nghiên cứu, đề xuất thuật toán nhận dạng KSVM, tiến hành cài đặt thuật toán, tiến hành thực nghiệm đánh giá độ chính xác của KSVM. 6. Kết cấu luận văn Ngoài phần mở đầu, kết luận, phụ lục và danh mục tài liệu tham khảo, luận văn gồm 5 chương. Trong chương 1, chúng tôi tìm hiểu tổng quan chữ Nôm, trong đó tập trung các yếu tố liên quan đến nhận dạng như cấu trúc chữ Nôm, số lượng từ Nôm không có hình trong bộ chữ tượng hình khác. Tiếp đó, trong chương 2, những nội dung về bài toán nhận dạng chữ Nôm được nêu ra trên cơ sở tìm hiểu các OCR nói chung và OCR dành cho chữ tượng hình về phương diện kết quả đạt được, mô hình và các giải thuật cần được tiếp tục nghiên cứu. Trong chương 3, chúng tôi tập trung tìm hiểu ý tưởng của SVM và đi sâu làm rõ nội dung liên quan nhiều đến luận văn là áp dụng SVM cho bài toán phân đa lớp, vốn là một trong những chủ để đang được quan tâm nhiều, đặc biệt khi áp dụng cho chữ Nôm có số chữ lớn. Trên cơ sở những kiến thức có được từ 3 chương đầu, chương 4 trình bày giải thuật KSVM cho bài toán nhận dạng chữ Nôm do tác giả đề xuất. Để thực hiện đánh giá hiệu quả của KSVM, trong chương 5, chúng tôi đã trình bày các bước tiến hành xây dựng thực nghiệm và đánh giá KSVM. Do không được kế thừa từ kết quả nghiên cứu nào với chữ Nôm, nên luận văn tiến hành thực nghiệm từ bước đầu tiên là tự xây dựng kho cơ sở dữ liệu mẫu, đến phần mềm tách chữ, tiền xử lý cơ bản sau đó xây dựng kịch bản và tiến hành đánh giá. Chƣơng 1. TỔNG QUAN CHỮ NÔM 1.1. Lịch sử và một số đặc điểmcủa chữ Nôm Sau khi Việt Nam thoát khỏi ách đô hộ của Trung Quốc vào năm 939, chữ Nôm lần đầu tiên thành chữ quốc ngữ để diễn đạt tiếng Việt qua mẫu tự biểu ý. Hơn 1.000 năm sau đó, từ thế kỷ 10 cho đến thế kỷ 20, một phần lớn các tài liệu văn học, triết học, sử học, luật pháp, y khoa, tôn giáo và hành chính được viết bằng chữ Nôm. Suốt 24 năm (từ 1788 đến 1802) dưới triều đại nhà Tây Sơn, toàn bộ các văn kiện hành chính được viết bằng chữ Nôm. Nói cách khác, chữ Nôm là công cụ duy nhất hoàn toàn Việt Nam ghi lại lịch sử văn hoá của dân tộc trong khoảng 10 thế kỷ. Chữ Nôm là loại văn tự được người Việt sáng tạo ra trên cơ sở một loại văn tự khác, đó là chữ Hán, nhằm mục đích để ghi tiếng nói của người Việt.Chữ “Nôm‖có nghĩa là ―Nam‖, ý chỉ chữ của người Nam Việt. Trước khi chữ Nôm ra đời, chúng ta mượn chữ Hán để ghi lại âm tiếng Việt. Tiếng Hán chỉ có 4 thanh, tiếng việt có 6 thanh, do đó việc đơn thuần mượn chữ Hán không đủ để phản ánh hết các thanh của tiếng Việt. Ví dụ các âm như: eo, ăn, ươi, on… Do đó, yêu cầu tất yếu cần bổ sung một hệ thống chữ để đáp ứng các yêu cầu ghi âm trong các hoạt động thi cử, văn hóa, pháp luật, xã hội…. Mặc dù được phát triển trong thời gian dài đến tận thế kỷ XX, song chữ Nôm không hoạt động độc lập mà được sử dụng đồng thời với những kiểu văn tự khác có trong cộng đồng người Việt, đặc biệt là chữ Hán. Chữ Nôm hình thành trên cơ sở mượn chữ Hán, do đó mang trong mình những đặc điểm của chữ Hán và cũng có những đặc trưng riêng, có thể khái quát cơ bản những đặc điểm như sau: - Về mặt hình thức, chữ Nôm là một loại văn tự khối vuông tương tự như chữ Hán. Đây là loại văn tự mà mỗi chữ là một chỉnh thể vừa thể hiện và được phát âm như một âm tiết hoàn chỉnh, đồng thời bao giờ mỗi chữ như thế cũng có "nghĩa" xác định. Mặc dù về mặt hình thức, mỗi chữ khối vuông (chữ Hán, chữ Nôm) là một chỉnh thể hoàn chỉnh bao gồm nhiều nét kí hiệu được coi là kí hiệu gốc, trong đó có thể có những nét kí hiệu biểu âm, nhưng hầu như chúng chưa được nhiều người coi là loại chữ thuần tuý ghi âm. - Về mặt cấu trúc bên trong, khi phân tích loại chữ khối vuông này, người nghiên cứu vẫn có thể nhận ra rằng, về đại thể, mỗi một chữ thường có hai bộ phận hợp thành: bộ phận thể hiện ý nghĩa (còn gọi là nghĩa phù) và bộ phận thể hiện âm thanh (còn gọi là thanh phù). Chúng tôi nói về đại thể là vì trong thực tế không phải chữ Nôm nào cũng tuân thủ điều đó mà có những chữ chỉ có thanh phù hoặc chỉ có nghĩa phù.Và điều quan trọng là tính "cố định" của những yếu tố đó mang tính tương đối, nó phụ thuộc vào thời gian lịch sử, vào tính địa phương và đôi khi phụ thuộc vào cá nhân người sử dụng chữ viết. Một vài ví dụ sau đây cho thấy những đặc điểm cấu tạo ấy của chữ: Chữ máy ("máy móc") gồm có mộc (ý) + mãi (âm) may ("may vá") y (ý) mai (âm) sông ("sông ngòi") thuỷ (ý) long (âm) Vấn đề hoàn toàn rõ ràng rằng chữ Nôm là một loại văn tự được xây dựng trên cơ sở chữ Hán, thậm chí từ chất liệu (các yếu tố cấu tạo là nghĩa phù và âm phù) cho đến phương thức cấu tạo. Nhưng điều quan trọng đối với chúng ta là chất liệu Hán ở đây là chất liệu Hán Việt. Tính Hán Việt biểu hiện rõ nét nhất là âm đọc của thứ văn tự này là âm Hán Việt, hay nói một cách khác là âm đọc chữ Hán của người Việt chứ không phải âm đọc chữ Hán theo kiểu người Hán. Có lẽ chính nhờ đặc điểm quan trọng này mà chữ Nôm mới là thứ chữ ghi lại được tiếng nói của dân tộc ta ở vào thời kì tiếng Việt chưa có thứ chữ ghi âm. Như vậy, với những đặc điểm cơ bản như đã trình bày ở trên của chữ Nôm, chúng ta nhận thấy rõ ràng đó là một thứ chữ của người Việt dùng để biểu thị chuỗi lời nói của tiếng Việt trong giai đoạn trước đây. Để làm được điều đó, như rất nhiều công trình nghiên cứu về chữ Nôm đã xác nhận, nó cần phải có một điều kiện tiên quyết là cách đọc chữ Hán của người Việt mà chúng ta quen gọi là cách đọc Hán Việt (hay âm Hán Việt). Đặc điểm ngôn ngữ ấy đến lượt nó sẽ quy định thời điểm xuất hiện của chữ Nôm trong lịch sử tiếng Việt. 1.2. Cấu tạo chữ Nôm Hiện chưa có thống kê đầy đủ về các hình thức cấu tạo của chữ Nôm, trước đây có một số ý kiến cho rằng chữ Nôm là chữ bình dân nên không có quy tắc rõ ràng, chặt chẽ nhưng điều này không đúng sau nhiều nghiên cứu thống kê cho thấy chữ Nôm có quy tắc cấu tạo, hợp thành. Theo [27] thì chữ Nôm gồm 3 loại: Chữ Nôm mượn nguyên dạng chữ Hán, chữ Nôm được tạo trên cơ sở kết hợp hai chữ Hán, chữ Nôm được tạo trên cơ sở kết hợp một chữ Hán và một chữ Nôm. 1.2.1. Chữ Nôm mượn nguyên dạng chữ Hán. Trong nhóm này, xét về mặt hình thì một chữ Nôm tương tự một chữ Hán, song có thể chia thành nhiều nhóm con do có thể khác nhau về âm đọc hoặc ý nghĩa. Kết quả thể thống kê sơ bộ trong Bảng 1.1. Bảng 1.1. Một số hình thức chữ Nôm mượn nguyên dạng chữ Hán STT 1 2 3 Hình thức Đồng âm và đồng nghĩa với chữ Hán Đồng nghĩa nhưng khác âm theo nhiều mức độ: khác ít, khác nhiều và khác hẳn Đồng âm nhưng khác nghĩa Ví dụ 頭 đầu ; 袄 áo Chữ 外 có âm Hán Việt “ngoại” và âm Nôm “ngoài” Chữ 捲 quyển = cuốn, Nôm đọc cuốn Chữ 味 vị = mùi, Nôm đọc mùi Chữ 沒 một = mất, Nôm đọc một = số 1; 1.2.2. Chữ Nôm được tạo trên cơ sở kết hợp hai chữ Hán Theo nguyên tắc này, mỗi chữ Nôm gồm có hai thành tố: một thành tố chỉ ý nghĩa và một thành tố chỉ âm đọc, âm đọc phải thật đúng hay gần đúng chữ dùng để chỉ âm. - 𠀧 ba (số 3) = (phần chỉ âm 巴 (ba)) + (phần chỉ nghĩa 三 (tam = ba)); - ㈒ tay = (phần chỉ nghĩa 手 (thủ = tay)) + (phần chỉ âm 西 (tây)); - 嚂trăm (số 100) = (phần chỉ nghĩa 百(bách = trăm)) + (phần chỉ âm 林 (lâm)) - 𣎃tháng = nguyệt 月 (biểu ý) + thượng 尚 (biểu âm) - 眜mắt = mục 目 (biểu ý) + mạt 末 (biểu âm) - 𡗶trời= thượng 上 (biểu ý) + thiên 天 (biểu âm) - 𠄼năm (5) = ngũ (五 biểu ý) + nam (南 biểu âm) - 𢆥năm (năm tháng) = niên (年 biểu ý) + nam (南 biểu âm) Những ví dụ trên cho ta kết luận về vị trí của phần chỉ nghĩa thay đổi, không cố định có thể.Trong một số trường hợp người ta sử dụng phần chỉ nghĩa là một bộ thủ, các bộ thủ thường gặp trong cấu tạo chữ Nôm là: 亠﹐刂﹐イ﹐厂﹐广﹐氵, 忄﹐辶﹐土﹐寸﹐口﹐巾﹐山﹐犭﹐子﹐小﹐女﹐礻﹐灬﹐木﹐艹﹐日﹐月﹐牛﹐毛 ﹐片﹐牙﹐疒﹐瓦﹐石﹐衤﹐白﹐目﹐皮﹐田﹐米﹐耳﹐竹﹐舟﹐羽﹐雨﹐色﹐耒﹐ 糸﹐貝﹐走﹐足﹐車﹐角﹐酉﹐金﹐風﹐食﹐髟﹐馬﹐魚﹐赤. Bảng 1.2. Một số bộ thủ dùng trong chữ Nôm STT 1 Bộ thủ 人 hoặc 亻(nhân / nhơn ) Ví dụ 佈 = người tớ già 2 冫 (băng ) mát ಭ = hơi lành lạnh 3 口 (khẩu) 㗂 tiếng = âm thanh phát ra 4 女 nữ 媽 mợ = vợ của cậu 5 心 hoặc 忄tâm 慳 ghen = đố kỵ 6 扌hoặc 手 thủ = tay 扲 cầm = giữ bằng tay 7 日 nhật / nhựt 㡥 lúc = buổi, hồi, thời 8 木 mộc = cây 槾 mận 9 火 hoả = lửa 䤋cháy Qua các ví dụ trên ta cũng nhận thấy, vị trí bộ thủ thay đổi ở nhiều vị trí, lúc thì ở bên trái (như 呐, nói), ở trên (như 摊, nong).Và quy tắc kết hợp ý và thanh cũng nhiều trường hợp ngoại lệ là cả hai đều chỉ ý nghĩa. 1.2.3. Chữ Nôm được tạo trên cơ sở kết hợp chữ Hán và chữ Nôm Ví dụ như chữ “ 羆mành = màn để che” viết đúng là “ cân 巾(ý) + manh 萌 (âm)” nhưng phần chỉ ý bị bỏ sót chỉ còn có phần chỉ âm 萌. Tóm lại, chữ Nôm được tạo trên cơ sở chữ Hán, nhưng có nhiều sự thay đổi phù hợp để thể hiện âm và nghĩa. Do trong suốt quá trình hình thành và phát triển chưa có một lần nào được chuẩn hóa nên các hình thức thể hiện sự tạo chữ Nôm rất phong phú và đa dạng. Theo [6] thì theo tiến trình phát triển của lịch sử, càng vềsaucáctácphẩmviết bằngchữNômcàngcóxuthế tăng dầnloạichữ tự tạovà giảm dầnloạichữnômvay mượnchữHán. Dựavàothànhquảnghiên cứu củanhững người đitrước, Bộmôn Hán Nôm - Khoa VăntrườngĐại họcTổngHợp HàNội (nay là TrườngĐH Khoa học xã hội nhân văn quốc gia) đã đưara bảngthống kê, tỷlệ chữ Nôm vay mượn chữ Hán các thời kỳnhư Bảng 1.3. Bảng 1.3. Tỷ lệ chữ Nôm vay mượn qua các thời kỳ Thếkỷ XV 89,5% Thếkỷ XVIII 87% Thếkỷ XVIII-XIX 80% Nhằm bổ sung vào kết quả đánh giá những tác phẩm từ thế kỷ XV-XIX, các kết quả ở [6] cũng đưa ra nhận định về tỉ lệ chữ Nôm tự tạo trong thế kỷ XX trên cơ sở nghiên cứu tác phẩm nổi tiếng “ThanhHoáquanphong”.Kết quả thống kê trong tác phẩm trên, có khoảng55,7%chữNômvaymượnchữHán,còn44,3%là chữ Nômtựtạo. Như vậy, có thể thấy, càng về sau này sự sáng tạo ra các chữ Nôm mới hay xu thế sử dụng các chữ Nôm tự tạo gia tăng rất nhiều. Những số liệu cung cấp ở phần tiếp theo cũng sẽ làm rõ thêm những nhận xét này. 1.3. Một số thống kê về chữ Nôm Hiện nay số lượng đầu sách, các tư liệu chữ Nôm đến nay còn lưu giữ được gần 800 tên sách Nôm (Việt), có thể xen lẫn chữ Hán. Số tài liệu này chủ yếu lưu trữ tại Viện nghiên cứu Hán Nôm.Văn chương, Tâm linh, Y học đã chiếm 66% tổng số tên sách như minh họa trong Hình 1.1. Hình 1.1. Tỉ lệ tài liệu chữ Nôm trong các lĩnh vực. Xét về phân bố về mặt thời gian tài liệu nôm qua các niên đại của gần 800 tên sách, chỉ mới có khoảng 300 tên sách đã xác định được niên đại chính xác, phân bố niên đại như biểu đồ trong Hình 1.2. Hình 1.2. Phân bố tài liệu chữ Nôm theo các thời kỳ. Xét về mặt số lượng chữ Nôm, có nhiều thông tin xác định và chưa thống nhất với nhau, do có nhiều tài liệu vẫn chưa khai thác hết. Để xác định số lượng chữ chủ yếu căn cứ trên các từ điển, nhưng việc tạo ra các từ điển cũng có nhiều vấn đề chưa rõ ràng, nhiều từ điển không ghi rõ nguồn gốc văn bản do đó không thể kiểm chứng. Hiện nay, có khoảng 20 cuốn từ điển chữ Nôm, xuất hiện từ 1651-2009, trong đó có ghi nguồn văn bản (2 cuốn từ điển): Nguyễn Quang Hồng (2006) có trên12.000 chữ căn cứ trên 50 văn bản và Viện Việt học (Mĩ) biên soạn (2009) có trên10.000 chữ căn cứ trên 51 văn bản. Trên cơ sở kết hợp với nhiều nguồn tư liệu, các nhà nghiên cứu ước lượng về số lượng chữ Nôm như sau: - Số chữ sử dụng trong văn bản Nôm (Việt):25.000 - Số chữ Nôm (Việt) tự tạo, không trùng Hán: 10.000 Xét trên quan điểm nhận dạng, chữ Trung Quốc bao gồm xấp xỉ 50.000 ký tự, trong đó chỉ khoảng vài nghìn là thường được sử dụng. Chẳng hạn99,65% sử dụng là chỉ dùng 3775 ký tự phổ biến, 99,99% sử dụng là chỉ dùng 6763 ký tự và 99,999% sử dụng là chỉ dùng 8500 ký tự. Các câu được viết theo chiều ngang từ trái sang phải và từ trên xuống dưới giống như tiếng Anh được gọi là dạng đơn giản; hoặc viết theo chiều thẳng đứng, từ trên xuống dưới, các dòng từ phải sang trái được gọi là dạng truyền thống. Chữ Trung Quốc truyền thống ngày nay ít được sử dụng khi viết tay, ngoại trừ Đài Loan và Hồng Kông. Có rất nhiều nét trong ký tự Trung Quốc truyền thống, trung bình khoảng 16,03 nét trên một ký tự. Để giảm độ phức tạp, từ năm 1956 tới 1964, 2235 ký tự tiếng Trung đơn giản được xem xét để thay thế cho các ký tự truyền thống tương ứng. Trung bình số nét giảm xuống còn 10,3 nét trên một ký tự. Số lượng ký tự lớn, mỗi ký tự lại được tạo nên từ khoảng 500 thành phần con (gọi là radical) trong cách xác định vị trí và thứ tự viết. Thứ tự nét viết có thể được sử dụng trong các giải thuật nhận dạng trực tuyến, nhận dạng ngoại tuyến thực sự là thách thức do thông tin này không còn nữa. Do số lượng ký tự lớn, chiều dài của từ tiếng Trung thường ngắn bao gồm từ 2 đến 4 ký tự. Hơn nữa, các ký tự luôn được viết theo dạng „như in‟, không dính. Do đó việc tách từ thường dễ hơn trong các ngôn ngữ khác, tuy nhiên đôi khi rất khó để xác định hai radical thuộc về hai ký tự khác nhau hay thuộc về cùng một ký tự. Khó khăn lớn nhất vẫn là nhận dạng một số lượng lớn các ký tự và các nghiên cứu chính đều nhằm mục đích vượt qua khó khăn này. Hơn nữa sự thay đổi cách viết ở từng người cũng là một vấn đề. Nhiều phương pháp đã được phát triển cho nhận dạng các ký tự riêng lẻ. Các nghiên cứu khác về các đề tài như nhận dạng từ hoặc địa chỉ và sự khác biệt ngôn ngữ chẳng hạn như xác định xem một phần văn bản có chứa các ký tự đơn giản hay các ký tự truyền thống hay không. Công nghệ nhận dạng chữ Trung Quốc thường chia làm 3 công đoạn chính: xử lý tài liệu, nhận dạng ký tự và nhận dạng từ[20]. Những thành tựu và vấn đề đặt ra trong nghiên cứu chữ Nôm. Với sự dày công của nhiều nhóm nghiên cứu, việc nghiên cứu chữ Nôm đã đạt được nhiều kết quả đáng khích lệ song lộ trình để nhằm khôi phục, khai thác kho báu về chữ Nôm vẫn đặt ra nhiều vấn đề khó khăn. Theo [7]: “Để có được những kết quả như ngày hôm nay chúng ta thấy đối với chữ Nôm, chúng ta đã phải mất nhiều công sức và lao động, tiền bạc. Những đầu tư đó vào chữ Nôm không bao giờ phí hoài, trái lại nó đã thúc đẩy sự quan tâm của cả cộng đồng với vốn văn hoá chữ Nôm mà có thời đã từng bị coi là không còn giá trị sử dụng gì nữa.” Trên cơ sở tổng kết những kết quả đạt được, các tác giả trong [7] cũng đưa ra những thành quả chính trong nghiên cứu chữ Nôm đã đạt được: Về vấn đề mã hóa chữ Nôm tức đưa chữ Nôm vào bộ Font quốc tế để khẳng định sự tồn tại, phục vụ sử dụng và nghiên cứu chữ Nôm. Có thể nói đây là bước đi cực kỳ sáng suốt và cũng cực kỳ vất vả. Suốt 12 năm từ 1992-2004 các nhà nghiên cứu đã kiên trì theo đuổi các kì họp quốc tế để đấu tranh yêu cầu đưa chữ Nôm vào bộ kí tự thế giới Unicode và ISO 10646. Kết quả, đã có 5067 chữ trùng hình với chữ Trung Quốc-Nhật-Hàn Quốc trong mặt phẳng cơ sở BMP, 4232 chữ trong mặt phẳng 2 và hiện đang tiếp tục đề nghị đưa vào thêm 2200 chữ nữa. Như vậy, số chữ Nôm có nguồn gốc đã được đăng kí với tổ chức tiêu chuẩn thế giới là khoảng trên 11.000 chữ. Vấn đề phát triển font chữ Nôm trên máy tính đã hiện thực hóa. Thực tế trong sử dụng hiện nay trên các máy tính, mới chỉ có bộ phông Arial Unicode MS chứa khoảng hơn 5.000 chữ Nôm trùng hình chữ Hán. Viện Mojikyo tại Nhật Bản đã làm ra phông chữ truetype cho 9.299 chữ Nôm mà Việt Nam đã đề nghị với quốc tế. Công ti DynaLab Đài Loan có trụ sở tại Thượng Hải và Hồng Kông đã xây dựng bộ font DFSongLight_Vietnam2.ttf cũng cho 9.299 chữ Nôm này. Nhóm Đạo Uyển (Đỗ Quốc Bảo (Đức) và Thiền viện Viên Chiếu) đã phát triển bộ font HanNom (trên 30.000 chữ) có thể sử dụng trên mạng. Nhóm Nôm Nađã phát triển bộ phông đầy đủ True Type NomNaTongLight.ttf (trên 15.000 chữ). Đến năm 2000, trong phiên bản 11.1, tổng số chữ được lựa chọn và cấp mã Unicode là 70.205 chữ (trong đó có 9.229 chữ do Việt Nam đề nghị, nếu trừ đi số chữ trùng lặp thì có 4.232 chữ Nôm Việt tự tạo). Tổng số chữ trên nằm trong 2 tập Extension A và Extension B. Tập Extension C đang biên soạn sẽ có thêm khoảng 2.300 chữ Nôm tự tạo nữa (trong đó sẽ có gần 400 chữ Nôm Tày tự tạo). Vậy nếu tính cả 3 tập Extension A, B, C, thì tổng số mã Unicode dành cho chữ Nôm Việt (tự tạo) là khoảng 6150 chữ. Vấn đề về phần mềm hỗ trợ khai thác và sử dụng chữ Nôm đã phát triển phần mềm tra cứu chữ Nôm NLT được sử dụng rộng rãi trên mạng cả trong nước và trên thế giới. Các phần mềm gõ chữ Nôm và phần mềm từ điển đã được một số nhóm chuyên gia tin học trong nước phát triển: các nhóm của Phan Anh Dũng (Huế) [1]và Tống Phước Khải-Lê Anh Minh (TP Hồ Chí Minh)[4]. Về việc in ấn đã thực hiện việc in ấn chữ Nôm từ máy tính cho một số bộ từ điển chữ Nôm. Nhiều tác phẩm chữ Nôm đã và đang được in ấn trực tiếp từ máy tính và tra cứu trên mạng. Với những kết quả đã đạt được thể hiện một bước nhảy lớn trong việc nghiên cứu chữ Nôm. Có một vấn đề lớn đặt ra không chỉ đối với chữ Nôm mà với tất cả các chữ viết khác đó là vấn đề nhận dạng tự động trên máy vi tính. Việc nhận dạng tự động trên máy góp phần nhanh chóng giải mã các tài liệu, tiến hành số hóa phục vụ nghiên cứu và thực sự mang lại giá trị lớn trong văn hóa, du lịch, khảo cổ. Hiện số người biết thông thạo chữ Nôm rất hạn chế, ngược lại các tác phẩm chữ Nôm còn tồn lại rất nhiều, nhiều tác phẩm chưa được khai thác, dịch nghĩa. Tổng kết chƣơng 1 Chương một đã làm rõ một số vấn đề về nguồn gốc lịch sử, đặc điểm chữ Nôm, đặc trưng về mặt cấu tạo đề từ đó rút ra nhận định chữ Nôm hình thành trên cơ sở chữ Hán nhưng có nhiều thay đổi về cấu trúc và nghĩa, và sáng tạo ra nhiều chữ mới cho riêng mình. Từ đặc điểm này rút ra các nhận định quan trọng cho việc nghiên cứu bài toán nhận dạng chữ Nôm mà đề tài đang nghiên cứu: - Chữ Nôm có cấu tạo phức tạp hơn chữ Hán do nhiều từ được tạo trên cơ sở cấu tạo từ 2 từ chữ Hán. - Việc xây dựng bộ nhận dạng chữ Nôm là cần thiết, do nhiều hình mới của chữ Nôm không có trong kho hình của chữ Hán, và cấu tạo chữ Nôm xét tổng thể phức tạp hơn chữ Hán nên một số kỹ thuật có thể có hiệu quả tốt trên chữ Hán nhưng không hoàn áp dụng tốt cho chữ Nôm. Chƣơng 2. NHẬN DẠNG CHỮ NÔM 2.1. Nhận dạng ký tự quang học Nhận dạng ký tự quang học(OCR)là loại phần mềmmáy tínhcó chức năng chuyển các hình ảnh của chữ viết tay hoặc chữ đánh máy (thường được quét bằng máy scanner, chụp ảnh) thành các văn bản tài liệu. OCR được hình thành trên cơ sởcác lĩnh vực nghiên cứu về nhận dạng mẫu, trí tuệ nhận tạo. Lịch sử của OCR đã có từ hơn nửa thế kỷ, nó xuất hiện đầu tiên để giải quyết bài toán đọc mã số trong bưu điện, tiếp đó phát triển để tự động đọc các địa chỉ và thông tin trong các mẫu đơn, văn bản. OCR ban đầu ứng dụng mạnh trong các lĩnh vực như bưu điện sau đó đến ngân hàng bằng những máy chuyên dụng. Ngày nay, với sự phát triển mạnh mẽ, OCR trở nên phổ biến và là một phần mềm thông dụng chạy trên máy tính để bàn (Desktop). OCR không chỉ đơn giản đọc các số và một số chữ hạn chế, các khả năng của nó dần tiệm cận với thị giác con người về độ chính xác, sự thông minh và sẽ nhanh hơn nhờ năng lực xử lý tốc độ của của máy vi tính. Một xu hướng đã xuất hiện và sẽ phát triển mạnh trong thời gian tới là đưa OCR lên thiết bị di động, thiết bị đọc và dịch trực tiếp từ tài liệu như minh họa trong Hình 2.1 [20]. Hình 2.1. Ứng dụng tự động chụp ảnh và dịch trên di động và bút chuyên dụng Về nguyên tắc hoạt động, hệ thống nhận dạng phải được “học”tức được huấn luyện với các mẫu của các ký tự cụ thể. Ngày nay, với thành tựu trong nghiên cứu OCR, các hệ thống "thông minh" tích hợp với độ chính xác nhận dạng cao đối với hầu hết các phông đã trở nên phổ biến. Một số hệ thống không chỉ có khả năng nhận dạng 1 loại ký tự mà có khả năng phát hiện và nhận dạng nhiều loại ký tự khác nhau, thêm vào đó còn có khả năng tái tạo lại các định dạng của tài liệu gần giống với bản gốc bao gồm: cấu trúc, hình ảnh, các cột, bảng biểu, các thành phần không phải là văn bản. Hiện nay, với chữ Việt, phần mềm nhận dạng chữ Việt in VnDOCR cho kết quả nhận dạng với độ chính xác cao. Một dự án khác là VietOCR, được phát triển dựa trên nền tảng mã nguồn mở tesseract-ocr do Google tài trợ. VietOCR có khả năng nhận dạng chữ Việt rất tốt. Đây là một chương trình nguồn mở Java/.NET, hỗ trợ nhận dạng cho các dạng ảnh PDF, TIFF, JPEG, GIF, PNG… Bài toán nhận dạng chính xác ký tự Latin đánh máy được xem là vấn đề đã được giải quyết. Tỷ lệ chính xác thực tế đạt tới 99% và tỷ lệ chính xác cao hơn nữa cần phải có sự phối hợp của con người để kiểm tra lại lỗi. Nhưng việc nhận dạng chữ in bằng tay, chữ thảo bằng tay, và thậm chí những phiên bản đánh máy được in ra của một số chữ có số lượng lớn và cấu trúc phức tạp (tiếng Trung Quốc, Nhật) vẫn còn là một vấn đề lớn của các nghiên cứu. Trong thời gian gần đây, bài toán nhận dạng ký tự viết tay cũng đã đạt được những thành công lớn về mặt thương mại. Các ứng dụng này phát triển nhiều trênthiết bị hỗ trợ cá nhân (PDA) như các phần mềm chạy trên Palm OS, tiêu biểu cho lĩnh vực này phải kể đến hãngApple Newton. Lớp ứng dụng này yêu cầu những giải thuật có ưu điểm về tốc độ, tài nguyên tính toán và xử lý trong điều kiện ràng buộc hạn chế ví dụ như hạn chế loại chữ, số chữ hay trong điều kiện ánh sáng tốt, ít nhiễu… Tất nhiên khi so sánh với nhận diện ký tự in thì nhận dạng chữ chiết tay đang có những giới hạn khá xa về độ chính xác. Hiện tại, độ chính xác mới chỉ dừng lại ở mức khoảng 90%, những ký tự in bằng tay sạch sẽ có thể được nhận ra, nhưng độ chính xác đó vẫn tạo ra hàng tá lỗi mỗi trang, khiến cho công nghệ này hiện chỉ hiệu quả trong vài trường hợp nào đó. Sự đa dạng của OCR hiện nay được biết đến trong công nghiệp là ICR (Intelligent Character Recognition - Nhận dạng ký tự thông minh). 2.2. Một số công nghệ nhận dạng chữ tượnghình 2.2.1. CherryBlossom Mô hình nhận dạng chữ Nhật được phát triển đánh giá có chất lượng, hiệu quả với số lượng lớn. Đặc biệt, với công nghệ này, có thể áp dụng với chữ tiếng Hán, Hàn Quốc vẫn mang lại hiệu quả cao[10]. Trong mô hình này, tác giả sử dụng kết hợp một số phương pháp trích chọn đặc trưng và thuật toán nhận dạng theo nhiều lớp để tăng độ chính xác và tốc độ nhận dạng. Mô hình tổng quan được mô tả như Hình 2.2.
- Xem thêm -