ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ
NGUYỄN THANH BÌNH
NGHIÊN CỨU PHƢƠNG PHÁP
NHẬN DẠNG CHỮ HÁN - NÔM DỰA TRÊN GỐC TỪ
Ngành:
Công nghệ thông tin
Chuyên ngành: Kỹ thuật phần mềm
Mã số:
60480103
LUẬN VĂN THẠC SĨ
Hà Nội – 2015
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ
NGUYỄN THANH BÌNH
NGHIÊN CỨU PHƢƠNG PHÁP
NHẬN DẠNG CHỮ HÁN - NÔM DỰA TRÊN GỐC TỪ
Ngành:
Công nghệ thông tin
Chuyên ngành: Kỹ thuật phần mềm
Mã số:
60480103
LUẬN VĂN THẠC SĨ
NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS.TS NGUYỄN NGỌC BÌNH
Hà Nội – 2015
LỜI CAM ĐOAN
Tên tôi là Nguyễn Thanh Bình, học viên cao học K19, chuyên ngành Kỹ
thuật phần mềm, khoá 2012-2014. Tôi xin cam đoan luận văn thạc sĩ “Nghiên
cứu phƣơng pháp nhận dạng chữ Hán - Nôm dựa trên gốc từ” là công trình
nghiên cứu của riêng tôi. Các số liệu, kết quả nêu trong Luận văn là trung thực
và chƣa từng đƣợc ai công bố trong bất kỳ công trình nào khác.
Tất cả những tham khảo từ các nghiên cứu liên quan đều đƣợc nêu nguồn
gốc một cách rõ ràng từ danh mục tài liệu tham khảo của luận văn. Trong luận
văn, không có việc sao chép tài liệu, công trình nghiên cứu của ngƣời khác mà
không chỉ rõ về tài liệu tham khảo.
Hà Nội, ngày 02 tháng 7 năm 2015
Tác giả
Nguyễn Thanh Bình
LỜI CẢM ƠN
Tôi xin gửi lời cảm ơn sâu sắc tới PGS. TS Nguyễn Ngọc Bình, đã định
hƣớng cho tôi nội dung nghiên cứu rất thiết thực, có ý nghĩa lớn về khoa học
cũng nhƣ văn hóa dân tộc, cũng nhƣ những ý tƣởng gợi mở trong nghiên cứu và
sự hỗ trợ của thầy trong quá trình tìm và giải thích các công trình nghiên cứu về
chữ tƣợng hình vốn rất hiếm và đƣợc viết bằng tiếng Trung, Nhật. Xin cảm ơn
thầy hết lòng giúp đỡ, động viên và tạo mọi điều kiện thuận lợi cho tôi trong
suố t quá trin
̀ h nghiên cứu và hoàn thành luâ ̣n văn tố t nghiê ̣p.
Tôi xin gửi lời cảm ơn thân mến đến nhóm nghiên cứu LES-Nôm, đặc
biệt là NCS Phạm Văn Hƣởng đã giúp đỡ tôi nhiều kiến thức và kinh nghiệm
quý báu để tôi hoàn thành luận văn này.
Tôi xin gửi lời cảm ơn tới thầy Nguyễn Đình Kế - Nguyên giảng viên
trƣờng Đại học Ngoại ngữ - ĐHQGHN, cô Trân Minh Thùy – Giảng viên khoa
ngoại ngữ trƣờng Cao đẳng Hải Dƣơng là những ngƣời đã giúp tôi hiểu thêm về
chữ Nôm cũng nhƣ giúp tôi trong việc xây dựng bộ dữ liệu gốc từ của chữ Nôm
Tôi xin đƣợc gửi lời cảm ơn đến các tác giả, nhóm tác giả của những giáo
trình, những công trình khoa học và những bài báo khoa học mà tôi tham khảo
để hoàn thiện luận văn này.
Tác giả
MỤC LỤC
MỞ ĐẦU ............................................................................................................... 1
1. Tính cấp thiết................................................................................................. 1
2. Tình hình nghiên cứu .................................................................................... 1
3. Đối tƣợng và phạm vi nghiên cứu ................................................................. 2
4. Mục đích và nhiệm vụ nghiên cứu ................................................................ 2
5. Những nội dung nghiên cứu .......................................................................... 2
6. Kết cấu luận văn ............................................................................................ 3
Chƣơng 1: TỔNG QUAN VỀ CHỮ NÔM ........................................................... 4
1.1. Giới thiệu về chữ Nôm ............................................................................... 4
1.1.1. Lịch sử hình thành và phát triển.......................................................... 4
1.1.2. Cấu trúc chữ Nôm ............................................................................... 5
1.3. Tin học hóa và ứng dụng chữ Nôm ............................................................ 7
1.4. Xu hƣớng phát triển của chữ Nôm ............................................................. 9
1.4.1. Phổ cập đại trà chữ Nôm qua máy tính ............................................... 9
1.4.2. Phát triển phƣơng pháp luận làm việc mới với chữ Nôm dựa trên
CNTT........................................................................................................... 10
1.4.3. Giải quyết vấn đề số hóa chữ Nôm ................................................... 10
1.4.4. Cách tiếp cận toàn diện tới nghiên cứu về chữ Nôm và tiếng Việt .. 11
TỔNG KẾT CHƢƠNG 1 .................................................................................... 11
Chƣơng 2. NHẬN DẠNG CHỮ NÔM ............................................................... 12
2.1. Nhận dạng ký tự quang học ..................................................................... 12
2.2. Bài toán nhận dạng chữ Nôm ................................................................... 14
2.3. Các phƣơng pháp nhận dạng chữ Nôm .................................................... 15
2.3.1. Nhận dạng sử dụng thƣ viện Tesseract ............................................. 15
2.3.2. Phƣơng pháp mạng Nơron ................................................................ 17
2.3.3. Phƣơng pháp Kmean, SVM .............................................................. 21
2.3.4. Phƣơng pháp nhận dạng dựa trên khoảng cách soạn thảo ................ 23
2.3.5. So sánh, đánh giá các phƣơng pháp .................................................. 27
TỔNG KẾT CHƢƠNG 2 .................................................................................... 28
Chƣơng 3. NHẬN DẠNG CHỮ NÔM BẰNG PHƢƠNG PHÁP GỐC TỪ ..... 30
3.1. Mô tả phƣơng pháp .................................................................................. 30
3.1.1. Ý tƣởng.............................................................................................. 30
3.1.2. Quy trình và các kỹ thuật sử dụng .................................................... 30
3.2. Lấy khung xƣơng ..................................................................................... 32
3.2.1. Lấy khung xƣơng theo phƣơng pháp Hit-or-Miss ................... 32
3.2.2. Hiệu chỉnh khung xƣơng .............................................................. 34
3.3. Nhận dạng gốc từ ..................................................................................... 36
3.3.1. Tách gốc từ ........................................................................................ 36
3.3.2. Cơ sở dữ liệu gốc từ .......................................................................... 45
3.3.3. Nhận dạng gốc từ .............................................................................. 48
3.3. Nhận dạng chữ Nôm dựa trên gốc từ ....................................................... 54
3.3.1. Tập đặc trƣng dựa trên gốc từ ........................................................... 54
3.3.2. Nhận dạng dựa trên so khớp gốc từ .................................................. 55
3.3.3. Nhận dạng dựa trên đặc trƣng gốc từ và mô hình Entropy cực đại .. 58
TỔNG KẾT CHƢƠNG 3 .................................................................................... 59
Chƣơng 4. THỰC NGHIỆM ............................................................................... 60
4.1. Mô hình thực nghiệm ............................................................................... 60
4.2. Xây dựng chƣơng trình thực nghiệm ....................................................... 61
4.3. Bộ dữ liệu thực nghiệm ............................................................................ 62
4.4. Kết quả thực nghiệm và đánh giá............................................................. 62
TỔNG KẾT CHƢƠNG 4 .................................................................................... 64
KẾT LUẬN ......................................................................................................... 65
DANH MỤC TÀI LIỆU THAM KHẢO ............................................................ 66
PHỤ LỤC A ........................................................................................................ 68
PHỤ LỤC B ........................................................................................................ 84
PHỤ LỤC C ........................................................................................................ 84
C.1. Chƣơng trình phân tích, nhận dạng và trích xuất đặc trƣng gốc từ......... 84
C.2. Chƣơng trình nhận dạng chữ Nôm theo gốc từ và MEM........................ 85
DANH MỤC CÁC TỪ VIẾT TẮT
STT
Từ viết
tắt
1
FC
First Class
ISO
International Organization for Tổ chức chuẩn hóa quốc tế
Standardization
2
Từ đầy đủ
Tiếng Việt
Lớp thứ nhất
K-Mean & Support Vector
Machine
K cụm và máy véc-tơ hỗ
trợ
OCR
Optical Character
Recognition
Nhận dạng ký tự quang
học
5
OS
Operating System
Hệ điều hành
6
OVO
One Versus One
Một với một
7
OVR
One Versus The Rest
Một với phần còn lại
PD
Probability Distribution of
Black Pixels
Phân bố xác suất điểm đen
9
PDA
Personal Digital Asisstant
Thiết bị số cá nhân
10
PDF
Portable Document Format
Định dạng tài liệu di động
11
SC
Second Class
Lớp thứ 2
12
SVM
Support Vector Machine
Máy véc-tơ hỗ trợ
3
4
8
KSVM
DANH MỤC CÁC BẢNG BIỂU
Bảng 2.1 Kết quả nhận dạng bằng phƣơng pháp mạng nơ-ron .......................... 20
Bảng 2.2. Kết quả thực nghiệm KSVM với bộ dữ liệu NOM-DB0 ................... 22
Bảng 2.3. Mô tả giá trị chuyển đổi giữa hai chữ Nôm ....................................... 25
Bảng 2.4. Kết quả thực nghiệm theo khoảng cách soạn thảo văn bản................ 26
Bảng 2.5. So sánh kết quả nhận dạng giữa các phƣơng pháp ............................. 28
Bảng 3.1 Cấu tạo gốc từ các ký tự chữ Nôm ...................................................... 30
Bảng 3.2. Ví dụ về các kiểu ký tự trong chữ Nôm.............................................. 38
Bảng 3.3. Thống kê gốc từ của các chữ Nôm trong Nom-DB0 .......................... 45
Bảng 3.4. Thông tin gốc từ đƣợc tạo ra từ Nom-DB0 ........................................ 46
Bảng 3.5. Ví dụ về thống kê các gốc từ theo vị trí.............................................. 47
Bảng 3.6. Bảng tra cứu nét và điểm .................................................................... 56
Bảng 4.1. Kết quả thực nghiệm ........................................................................... 63
Bảng 4.2. So sánh kết quả nhận dạng giữa các phƣơng pháp ............................. 63
DANH MỤC CÁC HÌNH VẼ
Hình 1.1 Sơ đồ cấu trúc chữ Nôm của Dƣơng Quảng Hàm ................................. 5
Hình 1.2 Sơ đồ cấu trúc chữ Nôm của Đào Duy Anh........................................... 6
Hình 1.3. 9 kiểu đồ hình kiến trúc chữ Nôm......................................................... 6
Hình 2.1. Ứng dụng tự động chụp ảnh và dịch trên di động và bút chuyên dụng
............................................................................................................................. 12
Hình 2.2. Sơ đồ tổng thể mô hình nhận dạng chữ Nôm đề xuất. ........................ 14
Hình 2.3. Phạm vi nghiên cứu của luận văn ....................................................... 15
Hình 2.4. Kiến trúc tổng quát của Tesseract. ...................................................... 16
Hình 2.5. Kiế n trúc ma ̣ng nơ-ron ........................................................................ 17
Hình 2.6.Sơ đồ lấ y đă ̣c trƣng của ảnh chƣ̃ Nôm ................................................. 18
Hình 2.7. Lƣu đồ huấn luyện mạng nơ-ron ......................................................... 20
Hình 2.8. Nhận dạng trong KSVM ..................................................................... 22
Hình 3.1 Mô hình nhận dạng chữ Nôm dựa trên gốc từ ..................................... 31
Hình 3.2. Ví dụ khung xƣơng chữ Nôm ............................................................. 32
Hình 3.3. Minh họa phép biến đổi “Hit-or-Miss” ............................................... 33
Hình 3.4. Khung xƣơng của chữ Nôm ................................................................ 34
Hình 3.5. Ví dụ các nét của khung xƣơng chữ Nôm........................................... 35
Hình 3.6. Ví dụ về loại bỏ các nét thừa của khung xƣơng chữ Nôm ................. 35
Hình 3.7. Ví dụ về khung xƣơng loại bỏ nét ngắn sau khi xấp xỉ cạnh .............. 36
Hình 3.8. Quá trình tách gốc từ từ ký tự đơn ...................................................... 37
Hình 3.9. Các loại kiểu ký tự chữ Nôm .............................................................. 38
Hình 3.10. Đặc trƣng của ký tự kiểu 10 với thành phần
........................... 40
Hình 3.11. Đặc trƣng của kiểu ký tự kiểu 8 ........................................................ 40
Hình 3.12. Tách thành phần của ký tự dựa vào đƣờng cắt ................................. 42
Hình 3.13. Đƣờng cắt sau khi xác định khoảng cách theo chiều dọc hoặc chiều
ngang ................................................................................................................... 42
Hình 3.13. Phân cụm nét cho ký tự kiểu trên-dƣới và trái-phải ......................... 44
Hình 3.14. Ví dụ về kết quả tách gốc từ.............................................................. 45
Hình 3.15. Cấu trúc cơ sở dữ liệu tri thức của gốc từ ......................................... 48
Hình 3.15. Nhận dạng gốc từ dựa trên mô hình Entropy cực đại ....................... 52
Hình 3.16. Biểu diễn đặc trƣng của gốc từ trong chữ Nôm ................................ 53
Hình 3.17. Ví dụ một số chữ Nôm đƣợc nhận dạng ........................................... 53
Hình 3.18. Kết quả tách gốc từ ........................................................................... 54
Hình 3.19. Các gốc từ có cùng số nét và số điểm giao ....................................... 55
Hình 3.20. Nhận dạng chữ Nôm dựa trên gốc từ ................................................ 56
Hình 3.21. Kết quả so sánh dựa vào vị trí và đặc điểm của gốc từ ..................... 58
Hình 3.22. Đặc trƣng gốc từ ................................................................................ 59
Hình 3.23. Đặc trƣng gốc từ kết hợp với tọa độ điểm ảnh.................................. 59
Hình 4.1. Quy trình tiến hành thực nghiệm ........................................................ 60
Hình 4.2. Giao diện chƣơng trình tạo gốc từ và lƣu đặc trƣng gốc từ ................ 62
Hình 4.3. Giao diện chƣơng trình huấn luyện ..................................................... 62
Hình C.1. Các thành phần chính trong chƣơng trình phân tách, nhận dạng và
trích chọn đặc trƣng gốc từ.................................................................................. 84
Hình C.2. Minh họa mã nguồn hàm tìm gốc từ. ................................................. 85
Hình C.3. Các thành phần chính trong chƣơng trình nhận dạng chữ Nôm theo
MEM và các đặc trƣng dựa trên gốc từ............................................................... 85
Hình C.4. Minh họa mã nguồn nhận dạng theo MEM và đặc trƣng gốc từ. ...... 86
1
MỞ ĐẦU
1. Tính cấp thiết
Chữ Nôm là một di sản văn hoá minh chứng cho truyền thống văn hiến
lâu dài của dân tộc Việt Nam. Nghiên cứu chữ Nôm góp phần khẳng định tự hào
dân tộc, khám phá những nét văn hóa, lịch sử, khoa học đặc sắc qua từng thời kỳ
của dân tộc. Do đó việc phục hồi và phát triển chữ Nôm đang đƣợc xã hội ngày
càng qua tâm qua nhiều hoạt động, công trình nghiên cứu ở nhiều phƣơng diện
ngôn ngữ học, lịch sử, văn hóa… Song nghiên cứu chữ Nôm vẫn đang còn nhiều
nhiệm vụ khó khăn, một trong đó là nhiệm vụ của công nghệ thông tin - xây
dựng bộ nhận dạng ký tự quang học cho chữ Nôm hay Nôm-OCR.
Thực trạng ngày nay, số ngƣời biết chữ Nôm ngày càng ít càng làm cho
những tri thức chữ Nôm ngày càng mai một. Ngƣợc lại chúng ta lại đang sở hữu
những kho tàng tri thức khổng lồ về chữ Nôm về nhiều phƣơng diện nhƣ sách,
gia phả, ấn phong… và đặc biệt là một hệ thống đồ sộ các bia đá, câu đối trong
các công trình di tích, là chứng cứ sống của lịch sử, là biểu tƣợng của văn hóa,
lịch sử Việt với thế giới. Nếu không có một sự hỗ trợ mạnh mẽ của khoa học để
khai thác kho tri thức Nôm khổng lồ này, chúng ta sẽ ngày càng mù chính chữ
của dân tộc mình, và dần sau sẽ trở nên tan biến. Việc xây dựng đƣợc NômOCR sẽ tạo điều kiện khai thác số tri thức Nôm khổng lồ, ứng dụng vào trong
tìm hiểu các công trình, bia, câu đối cổ bằng các ứng dụng tích hợp trên các thiết
bị di động máy tính, hay nói cách khác chúng ta có thể làm mọi thiết bị biết giải
thích chữ Nôm và từ đó góp phần ý nghĩa trong khảo cổ, khám phá văn hóa,
khám phá du lịch.
2. Tình hình nghiên cứu
Nghiên cứu chữ Nôm đã đƣợc nhiều nhóm gần đây quan tâm cả về
phƣơng diện ngôn ngữ học và công nghệ thông tin. Một trong những thành tựu
đầu tiên là việc hình thành các từ điển chữ Nôm, hình thành các kho chữ Nôm
đƣợc số hóa, số hóa và giải mã nhiều tài liệu chữ Nôm nhƣ truyện Kiều của Hán
Nôm Foundation. Tiếp tới, sau những nỗ lực trong thời gian dài, chữ Nôm đã
đƣợc xác lập vị trí trong bộ ký tự thế giới Unicode và ISO 10646, trong đó có
5067 ký tự trùng hình với chữ Trung Quốc, 4232 chữ thuần Nôm và hiện đang
đề nghị đƣa vào thêm 2200 [4]. Kế tiếp bƣớc đi đó, nhiều bộ font Nôm, bộ gõ
2
chữ Nôm đã đƣợc xây dựng. Và một trong những bƣớc đi tiếp của lộ trình trên
là xây dựng OCR-Nôm, nhƣng hiện tại vẫn chƣa có kết quả nghiên cứu nào đề
cập đến vấn đề trên, có thể do có những khó khăn nhất định và một trong những
khó khăn thƣờng gặp là vấn đề về dữ liệu để nghiên cứu.
Các bộ OCR tƣợng hình nhƣ tiếng Trung, Nhật đã đƣợc nghiên cứu nhiều
và đạt đƣợc những kết quả khả quan, đƣợc ứng dụng rộng rãi trong thực tế có
thể kể đến sản phẩm nguồn mở Tesseract, KanjiPad - phần mềm nhận dạng chữ
viết tay Nhật Bản, Readiris Pro 11 Corporate Edition - phần mềm nhận dạng chữ
Trung Quốc đạt tới độ chính xác 98%, HWPen - phần mềm nhận dạng chữ viết
tay Trung Quốc tích hợp trên iPhone và đặc biệt sản phẩm thƣơng mại ABBY…
đạt độ chính xác gần nhƣ tuyệt đối với ký tự in các ngôn ngữ.
Nói tóm lại, các chủ đề liên quan đến chữ Nôm cũng nhƣ OCR đã đƣợc
quan tâm và đạt nhiều thành quả cao, riêng lĩnh vực nghiên cứu kết hợp 2 yếu tố
này vẫn là bài toán mở, cần những nghiên cứu mới.
3. Đối tƣợng và phạm vi nghiên cứu
Chúng tôi tập trung nghiên cứu bài toàn nhận dạng chữ Nôm nhằm xây
dựng bộ phần mềm nhận dạng chuyển đổi từ ảnh của một ký tự Nôm về mã
Unicode của ký tự đó tiến hành tra cứu nghĩa căn cứ trên từ điển hoặc kết hợp
với các hệ thống khác.
Hệ thống OCR bao gồm nhiều thành phần nhƣ tiền xử lý, trích chọn đặc
trƣng, nhận dạng, hậu xử lý. Đề tài tập trung nghiên cứu bƣớc trích chọn đặc
trƣng và nhận dạng theo phƣơng pháp gốc từ với tập dữ liệu là kho mẫu NOMDB0 chứa 495 chữ Nôm.
4. Mục đích và nhiệm vụ nghiên cứu
Đề tài tập trung nghiên cứu bƣớc trích chọn đặc trƣng và nhận dạng trong
sơ đồ hệ thống nhận dạng chữ Nôm tổng thể do LES-Nom xây dựng, sử dụng
phƣơng pháp tách gốc từ (radical).
5. Những nội dung nghiên cứu
Nghiên cứu cấu trúc chữ Nôm và các thành phần của nó để từ đó đƣa ra
phƣơng pháp tách chữ, lấy khung xƣơng và tách các thành phần gốc từ trong
chữ Nôm. Từ bộ dữ liệu Nom-DB0 thống kê các gốc từ và tạo cơ sở dữ liệu gốc
từ RaNom-DB0. Đề xuất phƣơng pháp nhận dạng gốc từ bằng mô hình Entropy
3
cực đại. Trên cơ sở kết quả phân tích gốc từ đề xuất phƣơng pháp nhận dạng chữ
Nôm dựa trên gốc từ.
6. Kết cấu luận văn
Ngoài phần mở đầu, kết luận, phụ lục và danh mục tài liệu tham khảo,
luận văn gồm 4 chƣơng. Trong chƣơng 1, chúng tôi tìm hiểu tổng quan chữ
Nôm, trong đó tập trung các yếu tố liên quan đến nhận dạng trên cơ sở tách gốc
từ nhƣ cấu trúc chữ Nôm, số lƣợng từ Nôm không có hình trong bộ chữ tƣợng
hình khác. Trong chƣơng 2, gồm những nội dung về bài toán nhận dạng chữ
tƣợng hình nói chung và bài toán nhận dạng chữ Nôm nói riêng, các phƣơng
pháp nhận dạng chữ Nôm đã đƣợc nghiên cứu. Trong chƣơng 3, chúng tôi tập
trung tìm hiểu, nghiên cứu phƣơng pháp tách gốc ký tự trong chữ tƣợng hình để
từ đó áp dụng cho nhận dạng chữ Nôm. Để thực hiện đánh giá hiệu quả của
phƣơng pháp nhận dạng chữ Nôm dựa trên gốc từ, trong chƣơng 4, chúng tôi đã
trình bày các bƣớc tiến hành xây dựng thực nghiệm và đánh giá.
4
Chƣơng 1: TỔNG QUAN VỀ CHỮ NÔM
1.1. Giới thiệu về chữ Nôm
1.1.1. Lịch sử hình thành và phát triển
Trong suốt hàng ngàn năm, kể từ đầu thời Bắc thuộc, chữ Hán đƣợc sử
dụng ở Việt Nam nhƣ một văn tự chính thống. Ngƣời Hán ngày càng mở rộng
quy mô sử dụng chữ Hán ở Giao Châu, lúc đầu trong cơ quan hành chính giữa
một số ngƣời Hán và ngƣời Việt trong tầng lớp thống trị, sau mở rộng ra một số
trƣờng học. Sau thời Sĩ Nhiếp, chữ Hán đƣợc khuyến khíc học tập trong mọi
tầng lớp. Nhiều trí thức bình dân đã có thế dùng chữ Hán để ghi chép về địa chí,
phong tục, hƣơng ƣớc các vùng. Cùng với tình hình này , việc ghi tên ngƣời, tên
đất địa phƣơng cũng trở thành một nhu cầu. Đầu tiên ngƣời ta dùng chữ Hán để
ghi tên Việt, nhƣng giữa cách đọc một âm tiết Hán với một âm tiết Việt lúc ấy
có một khoảng cách nhất định, nên âm Hán chỉ có thể đọc na ná âm Việt. Nhƣ
vậy giữa chữ Hán ghi âm Hán với chữ Hán ghi na ná âm Việt đã có sự khác
nhau về chất, nó ghi lại hệ thống ngữ âm khác nhau, hai ngôn ngữ khác nhau.
Lần đầu tiên, chữ Hán đã đƣợc dùng để ghi âm Việt và nhƣ vậy là đã xuất hiện
những chữ Nôm ban đầu. Cùng với sự phát triển của nhu cầu ghi chép nền văn
hóa Việt, chữ Nôm cũng ngày càng phát triển và tự hoàn thiện để việc ghi chép
tiếng Việt đƣợc hữu hiệu hơn.
Trải qua thời gian phát triển theo lịch sử khi kết thúc thời kỳ chịu ách đô
hộ của Trung Quốc vào năm 939 chữ Nôm đã đƣợc lựa chọn trở thành chữ quốc
ngữ nhƣ một tất yếu. Trong một thời gian dài khoảng 10 thế kỷ hầu hết các tài
liệu trong các lĩnh vực văn học, triết học, sử học, luật pháp, y khoa, tôn giáo và
hành chính đƣợc viết bằng chữ Nôm. Đặc biệt trong chiều đại nhà Tây Sơn (từ
năm 1788 đến 1802) chữ Nôm đƣợc sử dụng trong toàn bộ văn kiện hành chính
[7].
Từ thế kỷ 15 với Quốc âm thi tập của Nguyễn Trãi, kế đến thế kỷ 16 với
Bạch Vân Am thi tập của Nguyễn Bỉnh Khiêm, chữ Nôm đã chứng tỏ có nhiều
khả năng diễn tả không những tình cảm mà còn tƣ tƣởng của ngƣời Việt. Chỉ
tính riêng ở lĩnh vực văn học, chữ Nôm đã có vai trò đặc biệt quan trọng trong
việc tạo nên một nền văn học Việt nam rực rỡ xuyên suốt nhiều thế kỷ. Từ chữ
5
Nôm, nền văn học Việt nam sinh ra ba thể loại độc đáo của riêng Việt nam
là Truyện thơ Nôm Lục Bát, Ngâm Khúc (song thất lục bát) và Hát Nói (trong ca
trù). Sự sáng tạo đó đã để lại cho đời sau những di sản thơ Nôm vô giá.
Từ thế kỷ 16 các giáo sỹ truyền giáo từ châu Âu đến Việt Nam để truyền
giáo. Để thuận lợi cho việc truyền giáo họ đã sáng tạo ra một loại ngôn ngữ dựa
trên chữ Latin nhƣng phát âm Việt. Đến Thế kỷ 19 khi pháp đô hộ Việt Nam, để
thuận lợi cho việc cai trị, thực dân Pháp đã tuyên truyền khuyến khích sử dụng
chữ quốc ngữ, từ đây chữ viết dựa theo chữ Latin mà ngày nay chúng ta gọi là
chữ Quốc ngữ dần thay thế chữ Nôm. Thực tế là hiện nay, trên thế giới có chƣa
đến 100 ngƣời đọc đƣợc chữ Nôm. Một phần to tát của lịch sử Việt Nam nhƣ thế
nằm ngoài tầm tay của trên 90 triệu ngƣời nói tiếng Việt.
1.1.2. Cấu trúc chữ Nôm
Xét về cấu trúc chữ Nôm thì có nhiều cấu trúc do nhiều nhà nghiên cứu
chữ Nôm đƣa ra. Theo [1] có thể kể đến các sơ đồ cấu trúc chữ Nôm nhƣ sau:
- Sơ đồ cấu trúc chữ Nôm của Dƣơng Quảng Hàm (1943)
Hình 1.1 Sơ đồ cấu trúc chữ Nôm của Dương Quảng Hàm
- Sơ đồ cấu trúc chữ Nôm của Đào Duy Anh
6
Hình 1.2 Sơ đồ cấu trúc chữ Nôm của Đào Duy Anh
Xét theo kiến trúc chữ, theo [2] qua nghiên cứu chữ Nôm từ thế kỷ 17 đến
đầu thế kỷ 20 nhà nghiên cứu Đặng Đức và Trần Xuân Ngọc Lan nhận thấy có 9
kiểu đồ án kiến trúc thƣờng gặp:
Hình 1.3. 9 kiểu đồ hình kiến trúc chữ Nôm
Ở đồ hình 1, chữ thuộc đồ hình này chỉ gồm một hình tố âm hoặc một
hình tố nghĩa. Chữ thuộc đồ hình 2 gồm hai hình tố âm và nghĩa hợp lại, hình tố
âm ở trên, hình tố nghĩa ở dƣới, hoặc ngƣợc lại hình tố âm ở dƣới hình tố nghĩa
ở trên. Đây gọi là cấu trúc trên dƣới. Chữ thuộc đồ hình 3 gồm hai hình tố âm và
nghĩa hợp thành, hình tố âm viết bên trái hình tố nghĩa hoặc ngƣợc lại. Đây gọi
là cấu trúc phải trái. Chữ thuộc đồ hình 4 cũng gồm hai hình tố âm và nghĩa.
7
Hình tố âm bao bên trái bên trên và bên phải hình tố nghĩa hoặc ngƣợc lại hình
tố nghĩa là hình tố bao. Gọi là cấu trúc bao trái bên phải. Chữ thuộc đồ hình 5
cũng là cấu trúc bao nhƣng ngƣợc hƣớng với đồ hình 4. Hình tố âm bao trái dƣới
và phải hình tố nghĩa. Kiểu đồ hình này rất ít gặp. Chữ thuộc đồ hình 6 cũng là
cấu trúc bao gồm hai hình tố âm và nghĩa. Hình tố âm bao bên trên, bên trái và
bên dƣới hình tố nghĩa hoặc ngƣợc lại hình tố nghĩa là hình tố bao. Đây gọi là
cấu trúc bao trên trái dƣới. Chữ thuộc đồ hình 7 gồm hai hình tố âm và nghĩa.
Hình tố âm bao bên phải và bên trên hình tố nghĩa hoặc ngƣợc lại hình tố nghĩa
bao bên phải và bên trên hình tố âm - gọi là kiểu cấu trúc bao phải trên. Chữ
thuộc đồ hình 8 cũng gồm hai hình tố âm và nghĩa. Hình tố âm bao bên trái và
bên dƣới hình tố nghĩa hoặc ngƣợc lại hình tố nghĩa bao hình tố âm gọi là cấu
trúc bao trái dƣới. Chữ thuộc đồ hình 9 gồm hình tố âm và hình tố nghĩa. Hình
tố âm bao bên trái và trên hình tố nghĩa, hoặc ngƣợc lại hình tố nghĩa bao hình
tố âm. Đây gọi là cấu trúc bao trái trên.
1.3. Tin học hóa và ứng dụng chữ Nôm
Có lẽ đối với không ít ngƣời thì chữ Nôm là thứ văn tự của quá khứ, và
ngày nay chỉ cần đào tạo một số chuyên gia để tiếp xúc với nó, với các văn bản
Hán Nôm do ngƣời xƣa để lại, là đủ rồi. Do đó, việc tin học hoá chữ Nôm phải
chăng là cần thiết phải đặt ra? Câu hỏi này trên thực tế đã đƣợc nêu ra hơn mƣời
năm trƣớc đây, và đến nay, đã có đƣợc những bƣớc đi ban đầu của nhiều chuyên
gia trong lĩnh vực Hán Nôm và lĩnh vực Công nghệ Thông tin theo hƣớng khẳng
định sự cần thiết của Tin học hoá chữ Nôm nhằm đáp ứng một loạt các nhu cầu
mới trong đời sống xã hội ngày nay.
Theo [3] có nhiều khía cạnh trong vấn đề tin học hoá và ứng dụng chữ
Nôm qua công nghệ thông tin. Tại đây, tác giả chỉ xin đề cập đến một vài khía
cạnh có liên quan mang tính chất nghiên cứu cơ bản thuộc lĩnh vực ngữ văn Hán
Nôm mà thôi.
(a) Bƣớc đi đầu tiên trong tiến trình tin học hoá chữ Nôm là phải xác lập
kho chữ Nôm và thực hiện việc mã hoá chúng. Từ hơn mƣời năm qua, các
chuyên gia ở Viện Nghiên cứu Hán Nôm cùng phối hợp với các chuyên gia tin
học trong và ngoài nƣớc, đã thực hiện công việc này trong chƣơng trình chung
của Nhóm công tác về chữ biểu ý (IRG - Ideographic Raporteur Group) thuộc tổ
8
chức ISO quốc tế. Đến cuối năm 2000, trong bảng tổng hợp kho chữ biểu ý của
nhóm IRG đã có mặt 9229 chữ của Việt Nam [3], với mã quốc tế Unicode. Khi
xác lập các danh sách chữ Nôm để cung cấp cho IRG, các chuyên gia Việt Nam
đã tuân theo hai nguyên tắc cơ bản: Một là, tôn trọng thực trạng đa dạng của chữ
Nôm thể hiện qua các văn bản khác nhau, chỉ bƣớc đầu thực hiện chuẩn hoá các
nét bút và hình thể các thành tố của đơn vị chữ mà thôi. Hai là, ƣu tiên cung cấp
những chữ Nôm "thuần Việt". Trong số những chữ Nôm thuần Việt, cũng có
một số ngẫu nhiên trùng hình với chữ Hán và các hệ văn tự khác trong khu vực.
Hiện nay còn có danh sách gồm 2286 chữ nữa (trong đó có cả chữ Nôm Tày)
đang đƣợc đăng ký để cấp mã quốc tế [3]. Trong các tập chữ Nôm kể trên, vẫn
có thể phát hiện một số ít trƣờng hợp có sự lầm lẫn về hình chữ và không ăn
khớp giữa hình chữ với ký mã của chữ và cần đƣợc tiếp tục điều chỉnh.
(b) Công việc tiếp theo là thực hiện việc nghiên cứu mối tƣơng quan giữa
hình chữ và âm đọc, xác lập tƣơng đối đầy đủ quan hệ đối ứng giữa hai bên.
Trên cơ sở đó mới có thể tạo ra các phần mềm chữ Nôm đƣợc cài đặt theo khoá
âm đọc (qua chữ Quốc ngữ). Hiện nay Viện Nghiên cứu Hán Nôm cũng đang
thực hiện chƣơng trình nghiên cứu đối chiếu này.
(c) Để có thể vẽ phông chữ Nôm, cần xúc tiến việc nghiên cứu cấu trúc
chữ Nôm theo các thành tố trực tiếp, đồng thời thực hiện chuẩn hoá các thành tố
đó theo các phong cách viết chữ khác nhau. Từ đó xác lập sự tƣơng đồng và
tƣơng dị giữa các thành tố về hình thể, về vị trí trong thể thức ô vuông của chữ
Nôm. Nhóm Nôm Na thuộc Hội Bảo tồn Chữ Nôm (Hoa Kỳ) và một số nhóm
khác ở Huế, Tp Hồ Chí Minh đã và đang thực hiện những chƣơng trình nghiên
cứu này và thu đƣợc những kết quả khả quan.
(d) Một trong những hƣớng ứng dụng các phần mềm chữ Nôm là làm chế
bản và in lại các tác phẩm chữ Nôm của ngƣời xƣa để cung cấp cho độc giả
ngày nay một loại hình văn bản mới của tác phẩm cũ - văn bản chữ Nôm in ấn
điện tử. Giá trị thực sự của một ấn phẩm Nôm hiện đại nhƣ vậy trƣớc hết không
phải là ở khía cạnh kỹ thuật, ở chỗ chữ Nôm in ra có đẹp không, mà ở tƣ cách
văn bản học của ấn phẩm đã đƣợc xác định nhƣ thế nào. Đối với những tác
phẩm có nhiều truyền bản, nhƣ Truyện Kiều chẳng hạn, thì đây là một vấn đề
khá phức tạp. Những vấn đề văn bản học đặt ra ở đây về căn bản cũng nhƣ
9
những gì đã nói đến ở điểm (a) trên đây. Có thể tìm thấy một số nét tƣơng tự và
khác biệt nào đó giữa hai chặng đƣờng làm nên các truyền bản Hán Nôm: từ các
truyền bản chép tay đến các truyền bản khắc in, rồi từ các truyền bản khắc in (và
có thể cả chép tay) đến các văn bản in ấn điện tử theo công nghệ thông tin hiện
đại. Trong mọi trƣờng hợp đều không tránh khỏi vấn đề có thực hiện việc chuẩn
hoá văn tự trong ấn phẩm mới hay không.
1.4. Xu hƣớng phát triển của chữ Nôm
Theo [4] trên cơ sở những kết quả đã đạt đƣợc, chúng ta có thể chỉ ra một
số xu hƣớng phát triển của chữ Nôm và để định hƣớng cho các hoạt động nghiên
cứu, triển khai trong tƣơng lai.
1.4.1. Phổ cập đại trà chữ Nôm qua máy tính
Chữ Nôm từ xƣa tới nay không phải là thứ chữ đƣợc phổ cập rộng rãi, lí
do chính nằm ở chỗ nó khó học, phải nhớ nhiều, và cần có vốn chữ hán nào đó.
Hiện nay, số ngƣời biết và có thể dạy đƣợc chữ Nôm ngày càng ít đi, nhƣng bù
lại, công nghệ phát triển đã tạo khả năng có đƣợc các phƣơng pháp và công cụ
có thể giúp cho mọi ngƣời học đƣợc chữ Nôm qua máy tính. Và giới trẻ rất
nhanh nhẹn, tháo vát trong việc tiếp thu những tri thức, kĩ năng mới, cũng không
thấy khó khăn gì khi cần học chữ Nôm trên máy tính. Do đó song song với quá
trình phổ cập tin học, phổ cập máy tính trong cả nƣớc, việc tạo ra khả năng để
các em nhỏ đƣợc tiếp xúc và học hỏi chữ Nôm trên máy tính sẽ tạo điều kiện
làm cho chữ Nôm sống lại trong tâm trí các thế hệ trẻ. Việc đào tạo những thế hệ
trẻ biết sử dụng chữ Nôm và CNTT trong thực tế là điều quan trọng và cần thiết.
Và việc bảo tồn, duy trì vốn văn hoá chữ Nôm này ngay trong những ngƣời
sống, những ngƣời trẻ, chính là cách thức bảo tồn hữu hiệu nhất và không mất đi
đƣợc.
Để thực hiện đƣợc tầm nhìn phổ biến đại trà này, ngoài những cố gắng về
mặt công nghệ, những cố gắng phát triển phần mềm khai thác và xử lí chữ Nôm
trên máy tính, cần thúc đẩy triển khai các ứng dụng CNTT liên quan tới thƣ viện
và lĩnh vực bảo tồn di sản chữ Nôm. Khi xuất hiện thêm các nhu cầu triển khai
ứng dụng cho chữ Nôm trên máy tính và mạng, thì đó sẽ lại là động lực thúc đẩy
thêm nữa các nhà sản xuất phần mềm đƣa ra thị trƣờng các sản phẩm phần mềm
xử lí tốt hơn cho các ứng dụng đặc thù chữ Nôm.
- Xem thêm -