Nghiên cứu phương pháp nhận dạng chữ Hán - Nôm dựa trên gốc từ

  • Số trang: 118 |
  • Loại file: PDF |
  • Lượt xem: 92 |
  • Lượt tải: 0
nguyetha

Đã đăng 7932 tài liệu

Mô tả:

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THANH BÌNH NGHIÊN CỨU PHƢƠNG PHÁP NHẬN DẠNG CHỮ HÁN - NÔM DỰA TRÊN GỐC TỪ Ngành: Công nghệ thông tin Chuyên ngành: Kỹ thuật phần mềm Mã số: 60480103 LUẬN VĂN THẠC SĨ Hà Nội – 2015 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THANH BÌNH NGHIÊN CỨU PHƢƠNG PHÁP NHẬN DẠNG CHỮ HÁN - NÔM DỰA TRÊN GỐC TỪ Ngành: Công nghệ thông tin Chuyên ngành: Kỹ thuật phần mềm Mã số: 60480103 LUẬN VĂN THẠC SĨ NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS.TS NGUYỄN NGỌC BÌNH Hà Nội – 2015 LỜI CAM ĐOAN Tên tôi là Nguyễn Thanh Bình, học viên cao học K19, chuyên ngành Kỹ thuật phần mềm, khoá 2012-2014. Tôi xin cam đoan luận văn thạc sĩ “Nghiên cứu phƣơng pháp nhận dạng chữ Hán - Nôm dựa trên gốc từ” là công trình nghiên cứu của riêng tôi. Các số liệu, kết quả nêu trong Luận văn là trung thực và chƣa từng đƣợc ai công bố trong bất kỳ công trình nào khác. Tất cả những tham khảo từ các nghiên cứu liên quan đều đƣợc nêu nguồn gốc một cách rõ ràng từ danh mục tài liệu tham khảo của luận văn. Trong luận văn, không có việc sao chép tài liệu, công trình nghiên cứu của ngƣời khác mà không chỉ rõ về tài liệu tham khảo. Hà Nội, ngày 02 tháng 7 năm 2015 Tác giả Nguyễn Thanh Bình LỜI CẢM ƠN Tôi xin gửi lời cảm ơn sâu sắc tới PGS. TS Nguyễn Ngọc Bình, đã định hƣớng cho tôi nội dung nghiên cứu rất thiết thực, có ý nghĩa lớn về khoa học cũng nhƣ văn hóa dân tộc, cũng nhƣ những ý tƣởng gợi mở trong nghiên cứu và sự hỗ trợ của thầy trong quá trình tìm và giải thích các công trình nghiên cứu về chữ tƣợng hình vốn rất hiếm và đƣợc viết bằng tiếng Trung, Nhật. Xin cảm ơn thầy hết lòng giúp đỡ, động viên và tạo mọi điều kiện thuận lợi cho tôi trong suố t quá trin ̀ h nghiên cứu và hoàn thành luâ ̣n văn tố t nghiê ̣p. Tôi xin gửi lời cảm ơn thân mến đến nhóm nghiên cứu LES-Nôm, đặc biệt là NCS Phạm Văn Hƣởng đã giúp đỡ tôi nhiều kiến thức và kinh nghiệm quý báu để tôi hoàn thành luận văn này. Tôi xin gửi lời cảm ơn tới thầy Nguyễn Đình Kế - Nguyên giảng viên trƣờng Đại học Ngoại ngữ - ĐHQGHN, cô Trân Minh Thùy – Giảng viên khoa ngoại ngữ trƣờng Cao đẳng Hải Dƣơng là những ngƣời đã giúp tôi hiểu thêm về chữ Nôm cũng nhƣ giúp tôi trong việc xây dựng bộ dữ liệu gốc từ của chữ Nôm Tôi xin đƣợc gửi lời cảm ơn đến các tác giả, nhóm tác giả của những giáo trình, những công trình khoa học và những bài báo khoa học mà tôi tham khảo để hoàn thiện luận văn này. Tác giả MỤC LỤC MỞ ĐẦU ............................................................................................................... 1 1. Tính cấp thiết................................................................................................. 1 2. Tình hình nghiên cứu .................................................................................... 1 3. Đối tƣợng và phạm vi nghiên cứu ................................................................. 2 4. Mục đích và nhiệm vụ nghiên cứu ................................................................ 2 5. Những nội dung nghiên cứu .......................................................................... 2 6. Kết cấu luận văn ............................................................................................ 3 Chƣơng 1: TỔNG QUAN VỀ CHỮ NÔM ........................................................... 4 1.1. Giới thiệu về chữ Nôm ............................................................................... 4 1.1.1. Lịch sử hình thành và phát triển.......................................................... 4 1.1.2. Cấu trúc chữ Nôm ............................................................................... 5 1.3. Tin học hóa và ứng dụng chữ Nôm ............................................................ 7 1.4. Xu hƣớng phát triển của chữ Nôm ............................................................. 9 1.4.1. Phổ cập đại trà chữ Nôm qua máy tính ............................................... 9 1.4.2. Phát triển phƣơng pháp luận làm việc mới với chữ Nôm dựa trên CNTT........................................................................................................... 10 1.4.3. Giải quyết vấn đề số hóa chữ Nôm ................................................... 10 1.4.4. Cách tiếp cận toàn diện tới nghiên cứu về chữ Nôm và tiếng Việt .. 11 TỔNG KẾT CHƢƠNG 1 .................................................................................... 11 Chƣơng 2. NHẬN DẠNG CHỮ NÔM ............................................................... 12 2.1. Nhận dạng ký tự quang học ..................................................................... 12 2.2. Bài toán nhận dạng chữ Nôm ................................................................... 14 2.3. Các phƣơng pháp nhận dạng chữ Nôm .................................................... 15 2.3.1. Nhận dạng sử dụng thƣ viện Tesseract ............................................. 15 2.3.2. Phƣơng pháp mạng Nơron ................................................................ 17 2.3.3. Phƣơng pháp Kmean, SVM .............................................................. 21 2.3.4. Phƣơng pháp nhận dạng dựa trên khoảng cách soạn thảo ................ 23 2.3.5. So sánh, đánh giá các phƣơng pháp .................................................. 27 TỔNG KẾT CHƢƠNG 2 .................................................................................... 28 Chƣơng 3. NHẬN DẠNG CHỮ NÔM BẰNG PHƢƠNG PHÁP GỐC TỪ ..... 30 3.1. Mô tả phƣơng pháp .................................................................................. 30 3.1.1. Ý tƣởng.............................................................................................. 30 3.1.2. Quy trình và các kỹ thuật sử dụng .................................................... 30 3.2. Lấy khung xƣơng ..................................................................................... 32 3.2.1. Lấy khung xƣơng theo phƣơng pháp Hit-or-Miss ................... 32 3.2.2. Hiệu chỉnh khung xƣơng .............................................................. 34 3.3. Nhận dạng gốc từ ..................................................................................... 36 3.3.1. Tách gốc từ ........................................................................................ 36 3.3.2. Cơ sở dữ liệu gốc từ .......................................................................... 45 3.3.3. Nhận dạng gốc từ .............................................................................. 48 3.3. Nhận dạng chữ Nôm dựa trên gốc từ ....................................................... 54 3.3.1. Tập đặc trƣng dựa trên gốc từ ........................................................... 54 3.3.2. Nhận dạng dựa trên so khớp gốc từ .................................................. 55 3.3.3. Nhận dạng dựa trên đặc trƣng gốc từ và mô hình Entropy cực đại .. 58 TỔNG KẾT CHƢƠNG 3 .................................................................................... 59 Chƣơng 4. THỰC NGHIỆM ............................................................................... 60 4.1. Mô hình thực nghiệm ............................................................................... 60 4.2. Xây dựng chƣơng trình thực nghiệm ....................................................... 61 4.3. Bộ dữ liệu thực nghiệm ............................................................................ 62 4.4. Kết quả thực nghiệm và đánh giá............................................................. 62 TỔNG KẾT CHƢƠNG 4 .................................................................................... 64 KẾT LUẬN ......................................................................................................... 65 DANH MỤC TÀI LIỆU THAM KHẢO ............................................................ 66 PHỤ LỤC A ........................................................................................................ 68 PHỤ LỤC B ........................................................................................................ 84 PHỤ LỤC C ........................................................................................................ 84 C.1. Chƣơng trình phân tích, nhận dạng và trích xuất đặc trƣng gốc từ......... 84 C.2. Chƣơng trình nhận dạng chữ Nôm theo gốc từ và MEM........................ 85 DANH MỤC CÁC TỪ VIẾT TẮT STT Từ viết tắt 1 FC First Class ISO International Organization for Tổ chức chuẩn hóa quốc tế Standardization 2 Từ đầy đủ Tiếng Việt Lớp thứ nhất K-Mean & Support Vector Machine K cụm và máy véc-tơ hỗ trợ OCR Optical Character Recognition Nhận dạng ký tự quang học 5 OS Operating System Hệ điều hành 6 OVO One Versus One Một với một 7 OVR One Versus The Rest Một với phần còn lại PD Probability Distribution of Black Pixels Phân bố xác suất điểm đen 9 PDA Personal Digital Asisstant Thiết bị số cá nhân 10 PDF Portable Document Format Định dạng tài liệu di động 11 SC Second Class Lớp thứ 2 12 SVM Support Vector Machine Máy véc-tơ hỗ trợ 3 4 8 KSVM DANH MỤC CÁC BẢNG BIỂU Bảng 2.1 Kết quả nhận dạng bằng phƣơng pháp mạng nơ-ron .......................... 20 Bảng 2.2. Kết quả thực nghiệm KSVM với bộ dữ liệu NOM-DB0 ................... 22 Bảng 2.3. Mô tả giá trị chuyển đổi giữa hai chữ Nôm ....................................... 25 Bảng 2.4. Kết quả thực nghiệm theo khoảng cách soạn thảo văn bản................ 26 Bảng 2.5. So sánh kết quả nhận dạng giữa các phƣơng pháp ............................. 28 Bảng 3.1 Cấu tạo gốc từ các ký tự chữ Nôm ...................................................... 30 Bảng 3.2. Ví dụ về các kiểu ký tự trong chữ Nôm.............................................. 38 Bảng 3.3. Thống kê gốc từ của các chữ Nôm trong Nom-DB0 .......................... 45 Bảng 3.4. Thông tin gốc từ đƣợc tạo ra từ Nom-DB0 ........................................ 46 Bảng 3.5. Ví dụ về thống kê các gốc từ theo vị trí.............................................. 47 Bảng 3.6. Bảng tra cứu nét và điểm .................................................................... 56 Bảng 4.1. Kết quả thực nghiệm ........................................................................... 63 Bảng 4.2. So sánh kết quả nhận dạng giữa các phƣơng pháp ............................. 63 DANH MỤC CÁC HÌNH VẼ Hình 1.1 Sơ đồ cấu trúc chữ Nôm của Dƣơng Quảng Hàm ................................. 5 Hình 1.2 Sơ đồ cấu trúc chữ Nôm của Đào Duy Anh........................................... 6 Hình 1.3. 9 kiểu đồ hình kiến trúc chữ Nôm......................................................... 6 Hình 2.1. Ứng dụng tự động chụp ảnh và dịch trên di động và bút chuyên dụng ............................................................................................................................. 12 Hình 2.2. Sơ đồ tổng thể mô hình nhận dạng chữ Nôm đề xuất. ........................ 14 Hình 2.3. Phạm vi nghiên cứu của luận văn ....................................................... 15 Hình 2.4. Kiến trúc tổng quát của Tesseract. ...................................................... 16 Hình 2.5. Kiế n trúc ma ̣ng nơ-ron ........................................................................ 17 Hình 2.6.Sơ đồ lấ y đă ̣c trƣng của ảnh chƣ̃ Nôm ................................................. 18 Hình 2.7. Lƣu đồ huấn luyện mạng nơ-ron ......................................................... 20 Hình 2.8. Nhận dạng trong KSVM ..................................................................... 22 Hình 3.1 Mô hình nhận dạng chữ Nôm dựa trên gốc từ ..................................... 31 Hình 3.2. Ví dụ khung xƣơng chữ Nôm ............................................................. 32 Hình 3.3. Minh họa phép biến đổi “Hit-or-Miss” ............................................... 33 Hình 3.4. Khung xƣơng của chữ Nôm ................................................................ 34 Hình 3.5. Ví dụ các nét của khung xƣơng chữ Nôm........................................... 35 Hình 3.6. Ví dụ về loại bỏ các nét thừa của khung xƣơng chữ Nôm ................. 35 Hình 3.7. Ví dụ về khung xƣơng loại bỏ nét ngắn sau khi xấp xỉ cạnh .............. 36 Hình 3.8. Quá trình tách gốc từ từ ký tự đơn ...................................................... 37 Hình 3.9. Các loại kiểu ký tự chữ Nôm .............................................................. 38 Hình 3.10. Đặc trƣng của ký tự kiểu 10 với thành phần ........................... 40 Hình 3.11. Đặc trƣng của kiểu ký tự kiểu 8 ........................................................ 40 Hình 3.12. Tách thành phần của ký tự dựa vào đƣờng cắt ................................. 42 Hình 3.13. Đƣờng cắt sau khi xác định khoảng cách theo chiều dọc hoặc chiều ngang ................................................................................................................... 42 Hình 3.13. Phân cụm nét cho ký tự kiểu trên-dƣới và trái-phải ......................... 44 Hình 3.14. Ví dụ về kết quả tách gốc từ.............................................................. 45 Hình 3.15. Cấu trúc cơ sở dữ liệu tri thức của gốc từ ......................................... 48 Hình 3.15. Nhận dạng gốc từ dựa trên mô hình Entropy cực đại ....................... 52 Hình 3.16. Biểu diễn đặc trƣng của gốc từ trong chữ Nôm ................................ 53 Hình 3.17. Ví dụ một số chữ Nôm đƣợc nhận dạng ........................................... 53 Hình 3.18. Kết quả tách gốc từ ........................................................................... 54 Hình 3.19. Các gốc từ có cùng số nét và số điểm giao ....................................... 55 Hình 3.20. Nhận dạng chữ Nôm dựa trên gốc từ ................................................ 56 Hình 3.21. Kết quả so sánh dựa vào vị trí và đặc điểm của gốc từ ..................... 58 Hình 3.22. Đặc trƣng gốc từ ................................................................................ 59 Hình 3.23. Đặc trƣng gốc từ kết hợp với tọa độ điểm ảnh.................................. 59 Hình 4.1. Quy trình tiến hành thực nghiệm ........................................................ 60 Hình 4.2. Giao diện chƣơng trình tạo gốc từ và lƣu đặc trƣng gốc từ ................ 62 Hình 4.3. Giao diện chƣơng trình huấn luyện ..................................................... 62 Hình C.1. Các thành phần chính trong chƣơng trình phân tách, nhận dạng và trích chọn đặc trƣng gốc từ.................................................................................. 84 Hình C.2. Minh họa mã nguồn hàm tìm gốc từ. ................................................. 85 Hình C.3. Các thành phần chính trong chƣơng trình nhận dạng chữ Nôm theo MEM và các đặc trƣng dựa trên gốc từ............................................................... 85 Hình C.4. Minh họa mã nguồn nhận dạng theo MEM và đặc trƣng gốc từ. ...... 86 1 MỞ ĐẦU 1. Tính cấp thiết Chữ Nôm là một di sản văn hoá minh chứng cho truyền thống văn hiến lâu dài của dân tộc Việt Nam. Nghiên cứu chữ Nôm góp phần khẳng định tự hào dân tộc, khám phá những nét văn hóa, lịch sử, khoa học đặc sắc qua từng thời kỳ của dân tộc. Do đó việc phục hồi và phát triển chữ Nôm đang đƣợc xã hội ngày càng qua tâm qua nhiều hoạt động, công trình nghiên cứu ở nhiều phƣơng diện ngôn ngữ học, lịch sử, văn hóa… Song nghiên cứu chữ Nôm vẫn đang còn nhiều nhiệm vụ khó khăn, một trong đó là nhiệm vụ của công nghệ thông tin - xây dựng bộ nhận dạng ký tự quang học cho chữ Nôm hay Nôm-OCR. Thực trạng ngày nay, số ngƣời biết chữ Nôm ngày càng ít càng làm cho những tri thức chữ Nôm ngày càng mai một. Ngƣợc lại chúng ta lại đang sở hữu những kho tàng tri thức khổng lồ về chữ Nôm về nhiều phƣơng diện nhƣ sách, gia phả, ấn phong… và đặc biệt là một hệ thống đồ sộ các bia đá, câu đối trong các công trình di tích, là chứng cứ sống của lịch sử, là biểu tƣợng của văn hóa, lịch sử Việt với thế giới. Nếu không có một sự hỗ trợ mạnh mẽ của khoa học để khai thác kho tri thức Nôm khổng lồ này, chúng ta sẽ ngày càng mù chính chữ của dân tộc mình, và dần sau sẽ trở nên tan biến. Việc xây dựng đƣợc NômOCR sẽ tạo điều kiện khai thác số tri thức Nôm khổng lồ, ứng dụng vào trong tìm hiểu các công trình, bia, câu đối cổ bằng các ứng dụng tích hợp trên các thiết bị di động máy tính, hay nói cách khác chúng ta có thể làm mọi thiết bị biết giải thích chữ Nôm và từ đó góp phần ý nghĩa trong khảo cổ, khám phá văn hóa, khám phá du lịch. 2. Tình hình nghiên cứu Nghiên cứu chữ Nôm đã đƣợc nhiều nhóm gần đây quan tâm cả về phƣơng diện ngôn ngữ học và công nghệ thông tin. Một trong những thành tựu đầu tiên là việc hình thành các từ điển chữ Nôm, hình thành các kho chữ Nôm đƣợc số hóa, số hóa và giải mã nhiều tài liệu chữ Nôm nhƣ truyện Kiều của Hán Nôm Foundation. Tiếp tới, sau những nỗ lực trong thời gian dài, chữ Nôm đã đƣợc xác lập vị trí trong bộ ký tự thế giới Unicode và ISO 10646, trong đó có 5067 ký tự trùng hình với chữ Trung Quốc, 4232 chữ thuần Nôm và hiện đang đề nghị đƣa vào thêm 2200 [4]. Kế tiếp bƣớc đi đó, nhiều bộ font Nôm, bộ gõ 2 chữ Nôm đã đƣợc xây dựng. Và một trong những bƣớc đi tiếp của lộ trình trên là xây dựng OCR-Nôm, nhƣng hiện tại vẫn chƣa có kết quả nghiên cứu nào đề cập đến vấn đề trên, có thể do có những khó khăn nhất định và một trong những khó khăn thƣờng gặp là vấn đề về dữ liệu để nghiên cứu. Các bộ OCR tƣợng hình nhƣ tiếng Trung, Nhật đã đƣợc nghiên cứu nhiều và đạt đƣợc những kết quả khả quan, đƣợc ứng dụng rộng rãi trong thực tế có thể kể đến sản phẩm nguồn mở Tesseract, KanjiPad - phần mềm nhận dạng chữ viết tay Nhật Bản, Readiris Pro 11 Corporate Edition - phần mềm nhận dạng chữ Trung Quốc đạt tới độ chính xác 98%, HWPen - phần mềm nhận dạng chữ viết tay Trung Quốc tích hợp trên iPhone và đặc biệt sản phẩm thƣơng mại ABBY… đạt độ chính xác gần nhƣ tuyệt đối với ký tự in các ngôn ngữ. Nói tóm lại, các chủ đề liên quan đến chữ Nôm cũng nhƣ OCR đã đƣợc quan tâm và đạt nhiều thành quả cao, riêng lĩnh vực nghiên cứu kết hợp 2 yếu tố này vẫn là bài toán mở, cần những nghiên cứu mới. 3. Đối tƣợng và phạm vi nghiên cứu Chúng tôi tập trung nghiên cứu bài toàn nhận dạng chữ Nôm nhằm xây dựng bộ phần mềm nhận dạng chuyển đổi từ ảnh của một ký tự Nôm về mã Unicode của ký tự đó tiến hành tra cứu nghĩa căn cứ trên từ điển hoặc kết hợp với các hệ thống khác. Hệ thống OCR bao gồm nhiều thành phần nhƣ tiền xử lý, trích chọn đặc trƣng, nhận dạng, hậu xử lý. Đề tài tập trung nghiên cứu bƣớc trích chọn đặc trƣng và nhận dạng theo phƣơng pháp gốc từ với tập dữ liệu là kho mẫu NOMDB0 chứa 495 chữ Nôm. 4. Mục đích và nhiệm vụ nghiên cứu Đề tài tập trung nghiên cứu bƣớc trích chọn đặc trƣng và nhận dạng trong sơ đồ hệ thống nhận dạng chữ Nôm tổng thể do LES-Nom xây dựng, sử dụng phƣơng pháp tách gốc từ (radical). 5. Những nội dung nghiên cứu Nghiên cứu cấu trúc chữ Nôm và các thành phần của nó để từ đó đƣa ra phƣơng pháp tách chữ, lấy khung xƣơng và tách các thành phần gốc từ trong chữ Nôm. Từ bộ dữ liệu Nom-DB0 thống kê các gốc từ và tạo cơ sở dữ liệu gốc từ RaNom-DB0. Đề xuất phƣơng pháp nhận dạng gốc từ bằng mô hình Entropy 3 cực đại. Trên cơ sở kết quả phân tích gốc từ đề xuất phƣơng pháp nhận dạng chữ Nôm dựa trên gốc từ. 6. Kết cấu luận văn Ngoài phần mở đầu, kết luận, phụ lục và danh mục tài liệu tham khảo, luận văn gồm 4 chƣơng. Trong chƣơng 1, chúng tôi tìm hiểu tổng quan chữ Nôm, trong đó tập trung các yếu tố liên quan đến nhận dạng trên cơ sở tách gốc từ nhƣ cấu trúc chữ Nôm, số lƣợng từ Nôm không có hình trong bộ chữ tƣợng hình khác. Trong chƣơng 2, gồm những nội dung về bài toán nhận dạng chữ tƣợng hình nói chung và bài toán nhận dạng chữ Nôm nói riêng, các phƣơng pháp nhận dạng chữ Nôm đã đƣợc nghiên cứu. Trong chƣơng 3, chúng tôi tập trung tìm hiểu, nghiên cứu phƣơng pháp tách gốc ký tự trong chữ tƣợng hình để từ đó áp dụng cho nhận dạng chữ Nôm. Để thực hiện đánh giá hiệu quả của phƣơng pháp nhận dạng chữ Nôm dựa trên gốc từ, trong chƣơng 4, chúng tôi đã trình bày các bƣớc tiến hành xây dựng thực nghiệm và đánh giá. 4 Chƣơng 1: TỔNG QUAN VỀ CHỮ NÔM 1.1. Giới thiệu về chữ Nôm 1.1.1. Lịch sử hình thành và phát triển Trong suốt hàng ngàn năm, kể từ đầu thời Bắc thuộc, chữ Hán đƣợc sử dụng ở Việt Nam nhƣ một văn tự chính thống. Ngƣời Hán ngày càng mở rộng quy mô sử dụng chữ Hán ở Giao Châu, lúc đầu trong cơ quan hành chính giữa một số ngƣời Hán và ngƣời Việt trong tầng lớp thống trị, sau mở rộng ra một số trƣờng học. Sau thời Sĩ Nhiếp, chữ Hán đƣợc khuyến khíc học tập trong mọi tầng lớp. Nhiều trí thức bình dân đã có thế dùng chữ Hán để ghi chép về địa chí, phong tục, hƣơng ƣớc các vùng. Cùng với tình hình này , việc ghi tên ngƣời, tên đất địa phƣơng cũng trở thành một nhu cầu. Đầu tiên ngƣời ta dùng chữ Hán để ghi tên Việt, nhƣng giữa cách đọc một âm tiết Hán với một âm tiết Việt lúc ấy có một khoảng cách nhất định, nên âm Hán chỉ có thể đọc na ná âm Việt. Nhƣ vậy giữa chữ Hán ghi âm Hán với chữ Hán ghi na ná âm Việt đã có sự khác nhau về chất, nó ghi lại hệ thống ngữ âm khác nhau, hai ngôn ngữ khác nhau. Lần đầu tiên, chữ Hán đã đƣợc dùng để ghi âm Việt và nhƣ vậy là đã xuất hiện những chữ Nôm ban đầu. Cùng với sự phát triển của nhu cầu ghi chép nền văn hóa Việt, chữ Nôm cũng ngày càng phát triển và tự hoàn thiện để việc ghi chép tiếng Việt đƣợc hữu hiệu hơn. Trải qua thời gian phát triển theo lịch sử khi kết thúc thời kỳ chịu ách đô hộ của Trung Quốc vào năm 939 chữ Nôm đã đƣợc lựa chọn trở thành chữ quốc ngữ nhƣ một tất yếu. Trong một thời gian dài khoảng 10 thế kỷ hầu hết các tài liệu trong các lĩnh vực văn học, triết học, sử học, luật pháp, y khoa, tôn giáo và hành chính đƣợc viết bằng chữ Nôm. Đặc biệt trong chiều đại nhà Tây Sơn (từ năm 1788 đến 1802) chữ Nôm đƣợc sử dụng trong toàn bộ văn kiện hành chính [7]. Từ thế kỷ 15 với Quốc âm thi tập của Nguyễn Trãi, kế đến thế kỷ 16 với Bạch Vân Am thi tập của Nguyễn Bỉnh Khiêm, chữ Nôm đã chứng tỏ có nhiều khả năng diễn tả không những tình cảm mà còn tƣ tƣởng của ngƣời Việt. Chỉ tính riêng ở lĩnh vực văn học, chữ Nôm đã có vai trò đặc biệt quan trọng trong việc tạo nên một nền văn học Việt nam rực rỡ xuyên suốt nhiều thế kỷ. Từ chữ 5 Nôm, nền văn học Việt nam sinh ra ba thể loại độc đáo của riêng Việt nam là Truyện thơ Nôm Lục Bát, Ngâm Khúc (song thất lục bát) và Hát Nói (trong ca trù). Sự sáng tạo đó đã để lại cho đời sau những di sản thơ Nôm vô giá. Từ thế kỷ 16 các giáo sỹ truyền giáo từ châu Âu đến Việt Nam để truyền giáo. Để thuận lợi cho việc truyền giáo họ đã sáng tạo ra một loại ngôn ngữ dựa trên chữ Latin nhƣng phát âm Việt. Đến Thế kỷ 19 khi pháp đô hộ Việt Nam, để thuận lợi cho việc cai trị, thực dân Pháp đã tuyên truyền khuyến khích sử dụng chữ quốc ngữ, từ đây chữ viết dựa theo chữ Latin mà ngày nay chúng ta gọi là chữ Quốc ngữ dần thay thế chữ Nôm. Thực tế là hiện nay, trên thế giới có chƣa đến 100 ngƣời đọc đƣợc chữ Nôm. Một phần to tát của lịch sử Việt Nam nhƣ thế nằm ngoài tầm tay của trên 90 triệu ngƣời nói tiếng Việt. 1.1.2. Cấu trúc chữ Nôm Xét về cấu trúc chữ Nôm thì có nhiều cấu trúc do nhiều nhà nghiên cứu chữ Nôm đƣa ra. Theo [1] có thể kể đến các sơ đồ cấu trúc chữ Nôm nhƣ sau: - Sơ đồ cấu trúc chữ Nôm của Dƣơng Quảng Hàm (1943) Hình 1.1 Sơ đồ cấu trúc chữ Nôm của Dương Quảng Hàm - Sơ đồ cấu trúc chữ Nôm của Đào Duy Anh 6 Hình 1.2 Sơ đồ cấu trúc chữ Nôm của Đào Duy Anh Xét theo kiến trúc chữ, theo [2] qua nghiên cứu chữ Nôm từ thế kỷ 17 đến đầu thế kỷ 20 nhà nghiên cứu Đặng Đức và Trần Xuân Ngọc Lan nhận thấy có 9 kiểu đồ án kiến trúc thƣờng gặp: Hình 1.3. 9 kiểu đồ hình kiến trúc chữ Nôm Ở đồ hình 1, chữ thuộc đồ hình này chỉ gồm một hình tố âm hoặc một hình tố nghĩa. Chữ thuộc đồ hình 2 gồm hai hình tố âm và nghĩa hợp lại, hình tố âm ở trên, hình tố nghĩa ở dƣới, hoặc ngƣợc lại hình tố âm ở dƣới hình tố nghĩa ở trên. Đây gọi là cấu trúc trên dƣới. Chữ thuộc đồ hình 3 gồm hai hình tố âm và nghĩa hợp thành, hình tố âm viết bên trái hình tố nghĩa hoặc ngƣợc lại. Đây gọi là cấu trúc phải trái. Chữ thuộc đồ hình 4 cũng gồm hai hình tố âm và nghĩa. 7 Hình tố âm bao bên trái bên trên và bên phải hình tố nghĩa hoặc ngƣợc lại hình tố nghĩa là hình tố bao. Gọi là cấu trúc bao trái bên phải. Chữ thuộc đồ hình 5 cũng là cấu trúc bao nhƣng ngƣợc hƣớng với đồ hình 4. Hình tố âm bao trái dƣới và phải hình tố nghĩa. Kiểu đồ hình này rất ít gặp. Chữ thuộc đồ hình 6 cũng là cấu trúc bao gồm hai hình tố âm và nghĩa. Hình tố âm bao bên trên, bên trái và bên dƣới hình tố nghĩa hoặc ngƣợc lại hình tố nghĩa là hình tố bao. Đây gọi là cấu trúc bao trên trái dƣới. Chữ thuộc đồ hình 7 gồm hai hình tố âm và nghĩa. Hình tố âm bao bên phải và bên trên hình tố nghĩa hoặc ngƣợc lại hình tố nghĩa bao bên phải và bên trên hình tố âm - gọi là kiểu cấu trúc bao phải trên. Chữ thuộc đồ hình 8 cũng gồm hai hình tố âm và nghĩa. Hình tố âm bao bên trái và bên dƣới hình tố nghĩa hoặc ngƣợc lại hình tố nghĩa bao hình tố âm gọi là cấu trúc bao trái dƣới. Chữ thuộc đồ hình 9 gồm hình tố âm và hình tố nghĩa. Hình tố âm bao bên trái và trên hình tố nghĩa, hoặc ngƣợc lại hình tố nghĩa bao hình tố âm. Đây gọi là cấu trúc bao trái trên. 1.3. Tin học hóa và ứng dụng chữ Nôm Có lẽ đối với không ít ngƣời thì chữ Nôm là thứ văn tự của quá khứ, và ngày nay chỉ cần đào tạo một số chuyên gia để tiếp xúc với nó, với các văn bản Hán Nôm do ngƣời xƣa để lại, là đủ rồi. Do đó, việc tin học hoá chữ Nôm phải chăng là cần thiết phải đặt ra? Câu hỏi này trên thực tế đã đƣợc nêu ra hơn mƣời năm trƣớc đây, và đến nay, đã có đƣợc những bƣớc đi ban đầu của nhiều chuyên gia trong lĩnh vực Hán Nôm và lĩnh vực Công nghệ Thông tin theo hƣớng khẳng định sự cần thiết của Tin học hoá chữ Nôm nhằm đáp ứng một loạt các nhu cầu mới trong đời sống xã hội ngày nay. Theo [3] có nhiều khía cạnh trong vấn đề tin học hoá và ứng dụng chữ Nôm qua công nghệ thông tin. Tại đây, tác giả chỉ xin đề cập đến một vài khía cạnh có liên quan mang tính chất nghiên cứu cơ bản thuộc lĩnh vực ngữ văn Hán Nôm mà thôi. (a) Bƣớc đi đầu tiên trong tiến trình tin học hoá chữ Nôm là phải xác lập kho chữ Nôm và thực hiện việc mã hoá chúng. Từ hơn mƣời năm qua, các chuyên gia ở Viện Nghiên cứu Hán Nôm cùng phối hợp với các chuyên gia tin học trong và ngoài nƣớc, đã thực hiện công việc này trong chƣơng trình chung của Nhóm công tác về chữ biểu ý (IRG - Ideographic Raporteur Group) thuộc tổ 8 chức ISO quốc tế. Đến cuối năm 2000, trong bảng tổng hợp kho chữ biểu ý của nhóm IRG đã có mặt 9229 chữ của Việt Nam [3], với mã quốc tế Unicode. Khi xác lập các danh sách chữ Nôm để cung cấp cho IRG, các chuyên gia Việt Nam đã tuân theo hai nguyên tắc cơ bản: Một là, tôn trọng thực trạng đa dạng của chữ Nôm thể hiện qua các văn bản khác nhau, chỉ bƣớc đầu thực hiện chuẩn hoá các nét bút và hình thể các thành tố của đơn vị chữ mà thôi. Hai là, ƣu tiên cung cấp những chữ Nôm "thuần Việt". Trong số những chữ Nôm thuần Việt, cũng có một số ngẫu nhiên trùng hình với chữ Hán và các hệ văn tự khác trong khu vực. Hiện nay còn có danh sách gồm 2286 chữ nữa (trong đó có cả chữ Nôm Tày) đang đƣợc đăng ký để cấp mã quốc tế [3]. Trong các tập chữ Nôm kể trên, vẫn có thể phát hiện một số ít trƣờng hợp có sự lầm lẫn về hình chữ và không ăn khớp giữa hình chữ với ký mã của chữ và cần đƣợc tiếp tục điều chỉnh. (b) Công việc tiếp theo là thực hiện việc nghiên cứu mối tƣơng quan giữa hình chữ và âm đọc, xác lập tƣơng đối đầy đủ quan hệ đối ứng giữa hai bên. Trên cơ sở đó mới có thể tạo ra các phần mềm chữ Nôm đƣợc cài đặt theo khoá âm đọc (qua chữ Quốc ngữ). Hiện nay Viện Nghiên cứu Hán Nôm cũng đang thực hiện chƣơng trình nghiên cứu đối chiếu này. (c) Để có thể vẽ phông chữ Nôm, cần xúc tiến việc nghiên cứu cấu trúc chữ Nôm theo các thành tố trực tiếp, đồng thời thực hiện chuẩn hoá các thành tố đó theo các phong cách viết chữ khác nhau. Từ đó xác lập sự tƣơng đồng và tƣơng dị giữa các thành tố về hình thể, về vị trí trong thể thức ô vuông của chữ Nôm. Nhóm Nôm Na thuộc Hội Bảo tồn Chữ Nôm (Hoa Kỳ) và một số nhóm khác ở Huế, Tp Hồ Chí Minh đã và đang thực hiện những chƣơng trình nghiên cứu này và thu đƣợc những kết quả khả quan. (d) Một trong những hƣớng ứng dụng các phần mềm chữ Nôm là làm chế bản và in lại các tác phẩm chữ Nôm của ngƣời xƣa để cung cấp cho độc giả ngày nay một loại hình văn bản mới của tác phẩm cũ - văn bản chữ Nôm in ấn điện tử. Giá trị thực sự của một ấn phẩm Nôm hiện đại nhƣ vậy trƣớc hết không phải là ở khía cạnh kỹ thuật, ở chỗ chữ Nôm in ra có đẹp không, mà ở tƣ cách văn bản học của ấn phẩm đã đƣợc xác định nhƣ thế nào. Đối với những tác phẩm có nhiều truyền bản, nhƣ Truyện Kiều chẳng hạn, thì đây là một vấn đề khá phức tạp. Những vấn đề văn bản học đặt ra ở đây về căn bản cũng nhƣ 9 những gì đã nói đến ở điểm (a) trên đây. Có thể tìm thấy một số nét tƣơng tự và khác biệt nào đó giữa hai chặng đƣờng làm nên các truyền bản Hán Nôm: từ các truyền bản chép tay đến các truyền bản khắc in, rồi từ các truyền bản khắc in (và có thể cả chép tay) đến các văn bản in ấn điện tử theo công nghệ thông tin hiện đại. Trong mọi trƣờng hợp đều không tránh khỏi vấn đề có thực hiện việc chuẩn hoá văn tự trong ấn phẩm mới hay không. 1.4. Xu hƣớng phát triển của chữ Nôm Theo [4] trên cơ sở những kết quả đã đạt đƣợc, chúng ta có thể chỉ ra một số xu hƣớng phát triển của chữ Nôm và để định hƣớng cho các hoạt động nghiên cứu, triển khai trong tƣơng lai. 1.4.1. Phổ cập đại trà chữ Nôm qua máy tính Chữ Nôm từ xƣa tới nay không phải là thứ chữ đƣợc phổ cập rộng rãi, lí do chính nằm ở chỗ nó khó học, phải nhớ nhiều, và cần có vốn chữ hán nào đó. Hiện nay, số ngƣời biết và có thể dạy đƣợc chữ Nôm ngày càng ít đi, nhƣng bù lại, công nghệ phát triển đã tạo khả năng có đƣợc các phƣơng pháp và công cụ có thể giúp cho mọi ngƣời học đƣợc chữ Nôm qua máy tính. Và giới trẻ rất nhanh nhẹn, tháo vát trong việc tiếp thu những tri thức, kĩ năng mới, cũng không thấy khó khăn gì khi cần học chữ Nôm trên máy tính. Do đó song song với quá trình phổ cập tin học, phổ cập máy tính trong cả nƣớc, việc tạo ra khả năng để các em nhỏ đƣợc tiếp xúc và học hỏi chữ Nôm trên máy tính sẽ tạo điều kiện làm cho chữ Nôm sống lại trong tâm trí các thế hệ trẻ. Việc đào tạo những thế hệ trẻ biết sử dụng chữ Nôm và CNTT trong thực tế là điều quan trọng và cần thiết. Và việc bảo tồn, duy trì vốn văn hoá chữ Nôm này ngay trong những ngƣời sống, những ngƣời trẻ, chính là cách thức bảo tồn hữu hiệu nhất và không mất đi đƣợc. Để thực hiện đƣợc tầm nhìn phổ biến đại trà này, ngoài những cố gắng về mặt công nghệ, những cố gắng phát triển phần mềm khai thác và xử lí chữ Nôm trên máy tính, cần thúc đẩy triển khai các ứng dụng CNTT liên quan tới thƣ viện và lĩnh vực bảo tồn di sản chữ Nôm. Khi xuất hiện thêm các nhu cầu triển khai ứng dụng cho chữ Nôm trên máy tính và mạng, thì đó sẽ lại là động lực thúc đẩy thêm nữa các nhà sản xuất phần mềm đƣa ra thị trƣờng các sản phẩm phần mềm xử lí tốt hơn cho các ứng dụng đặc thù chữ Nôm.
- Xem thêm -