..
ĐẠI HỌC THÁI NGUYÊN
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
DƢƠNG THỊ HÀ
XỬ LÍ BÀI TOÁN THÊM DẤU CHO TIẾNG VIỆT
KHÔNG DẤU DỰA TRÊN NGHIÊN CỨU MÔ HÌNH
NGÔN NGỮ N_GRAM
CHUYÊN NGHÀNH: KHOA HỌC MÁY TÍNH
Học viên thực hiện: Dƣơng Thị Hà
Lớp: K9B
Giáo viên hƣớng dẫn: TS. Vũ Tất Thắng
2012
i
LỜI CAM ĐOAN
Tôi xin cam đoan, toàn bộ nội dung liên quan tới đề tài được trình bày
trong luận văn là bản thân tôi tự tìm hiểu và nghiên cứu, dưới sự hướng dẫn
khoa học của TS. Vũ Tất Thắng Viện công nghệ thông tin thuộc Viện Khoa
học và Công nghệ Việt Nam.
Các tài liệu, số liệu tham khảo được trích dẫn đầy đủ nguồn gốc.
Thái Nguyên, ngày 20 tháng 9 năm 2012
Học viên
Dương Thị Hà
ii
LỜI CẢM ƠN
Trước tiên, tôi xin gửi lời cảm ơn tới trường Đại học CNTT&TT – Đại học
Thái Nguyên đã tạo điều kiện và tổ chức khóa học này để tôi có thể có điều
kiện tiếp thu kiến thức mới và có thời gian để hoàn thành Luận văn Cao học
này.
Tôi xin được cảm ơn TS.Vũ Tất Thắng, người đã tận tình chỉ dẫn tôi trong
suốt quá trình xây dựng đề cương và hoàn thành luận văn.
Tôi xin chân thành cảm ơn các thày cô đã truyền đạt cho chúng tôi những
kiến thức quý báu trong quá trình học Cao học và làm Luận văn.
Tôi chân thành cảm ơn các bạn bè, anh chị em trong lớp cao học K9 đã
giúp đỡ, đóng góp ý kiến chia sẽ những kinh nghiệm học tập, nghiên cứu
trong suốt khóa học.
Cuối cùng tôi kính gửi thành quả này đến gia đình và người thân của tôi,
những người đã hết lòng chăm sóc, dạy bảo và động viên tôi để tôi có kết quả
ngày hôm nay.
Mặc dù tôi đã cố gắng hoàn thành Luận văn trong phạm vi và khả năng
cho phép nhưng chắc chắn không tránh khỏi những thiếu sót. Xin kính mong
nhận được sự cảm thông và tận tình chỉ bảo của quý Thầy Cô và các bạn.
Thái Nguyên, ngày 20 tháng 9 năm 2012
Học viên
Dương Thị Hà
iii
DANH MỤC HÌNH
Trang
Hình 3.1 Quy trình tách từ
36
Hình 3.2 Số lượng các cụm N-gram với âm tiết khi tăng kích thước dữ liệu 46
Hình 3.3 Số lượng các cụm N-gram với từ khi tăng kích thước dữ liệu
47
Hình 3.4 Lưu đồ thực hiện của mô hình đề xuất
53
Hình 3.5 Mô hình tổng quát
54
iv
DANH MỤC BẢNG
Trang
Bảng 3.1 Số lượng các cụm N-gram trong văn bản huấn luyện với âm tiết 46
Bảng 3.2 Số lượng các cụm N-gram trong văn bản huấn luyện với từ
47
Bảng 3.3 Độ hỗn loạn thông tin của các phương pháp làm mịn cho âm tiết 48
Bảng 3.4 Độ hỗn loạn thông tin của các phương pháp làm mịn cho từ
49
v
MỤC LỤC
Trang
LỜI CAM ĐOAN .......................................................................................... i
LỜI CẢM ƠN .............................................................................................. ii
DANH MỤC HÌNH ..................................................................................... iii
DANH MỤC BẢNG.................................................................................... iv
MỤC LỤC .................................................................................................... v
MỞ ĐẦU ....................................................................................................... 1
CHƯƠNG 1 TỔNG QUAN VỀ CÁC MÔ HÌNH NGÔN NGỮ VÀ CÁC
ỨNG DỤNG TRONG LĨNH VỰC XỬ LÍ NGÔN NGỮ TỰ NHIÊN .......... 5
1.1 MÔ HÌNH NGÔN NGỮ (LANGUAGE MODEL - LM). ..................... 5
1.2 MÔ HÌNH NGÔN NGỮ VĂN PHẠM. ................................................ 6
1.2.1 Từ vựng tiếng Việt.......................................................................... 6
1.2.2 Tiếng – đơn vị cấu tạo lên từ........................................................... 7
1.2.2.1 Khái niệm. ...................................................................... 7
1.2.2.2 Phân loại......................................................................... 7
1.2.2.3 Mô hình tiếng trong tiếng Việt và các thành tố của nó. ... 8
1.2.3 Cấu tạo từ. ...................................................................................... 9
1.2.3.1 Từ đơn............................................................................ 9
1.2.3.2 Từ ghép. ......................................................................... 9
1.2.3.3 Từ láy. ............................................................................ 9
1.3 CÁC MÔ HÌNH NGÔN NGỮ KHÁC DỰA TRÊN KHÁI NIỆM...... 11
1.4 MÔ HÌNH NGÔN NGỮ N-GRAM. ................................................... 12
1.4.1 Khái quát. ..................................................................................... 12
1.4.2 Công thức tính “xác suất thô”. ...................................................... 15
1.4.3 Những vấn đề khó khăn khi xây dựng mô hình ngôn ngữ N-gram.
.............................................................................................................. 16
1.4.3.1 Phân bố không đều. ...................................................... 16
1.4.3.2 Kích thước bộ nhớ của mô hình ngôn ngữ. ................... 16
CHƯƠNG 2MÔ HÌNH NGÔN NGỮ N-GRAM.......................................... 17
2.1 CÁC KĨ THUẬT LÀM MỊN HÓA SỰ PHÂN BỐ XÁC SUẤT
TRONG MÔ HÌNH N-GRAM ĐỂ TĂNG CHẤT CHẤT LƯỢNG CỦA
MÔ HÌNH................................................................................................. 17
2.1.1 Các thuật toán chiết khấu (Discounting). ...................................... 18
vi
2.1.1.1 Kĩ thuật làm mịn theo thuật toán Add-one. ................... 18
2.1.1.2 Kĩ thuật làm mịn theo thuật toán Witten-Bell. .............. 20
2.1.1.3 Kĩ thuật làm mịn theo thuật toán Good-Turing. ................................ 21
2.1.2 Kĩ thuật truy hồi (Back-0ff). ......................................................... 21
2.1.3 Kĩ thuật nội suy (Interpolation)..................................................... 23
2.1.4 Kĩ thuật làm mịn Kneser-Ney. ...................................................... 24
2.1.5 Kĩ thuật làm mịn Chen-Goodman. ................................................ 25
2.2 CÁC KĨ THUẬT LÀM GIẢM KÍCH THƯỚC MÔ HÌNH................. 26
2.2.1 Pruning (loại bỏ). .......................................................................... 26
2.2.1.1 Cắt bỏ (cut-off)............................................................. 27
2.2.1.2 Sự khác biệt trọng số (Weighted difference)................. 28
2.2.2 Đồng hóa (Quantization)............................................................... 29
2.2.3 Nén (Compression). ...................................................................... 30
2.3 CÁC ĐỘ ĐO ĐỂ ĐÁNH GIÁ CHẤT LƯỢNG CỦA MÔ HÌNH NGRAM...................................................................................................... 30
2.3.1 Entropy – Độ đo thông tin............................................................. 30
2.3.2 Perplexity – Độ hỗn loạn thông tin................................................ 32
2.3.3 Error rate – Tỉ lệ lỗi. ..................................................................... 32
CHƯƠNG 3XÂY DỰNG N-GRAM CHO TIẾNG VIỆT VÀ ỨNG DỤNG
TRONG BÀI TOÁN THÊM DẤU CHO TIẾNG VIỆT. .............................. 34
3.1 CÔNG CỤ XỬ LÍ MÔ HÌNH. ............................................................ 34
3.1.1 Bộ công cụ SRILM ....................................................................... 34
3.1.2 Bộ công cụ trợ giúp xây dựng tập văn bản huấn luyện .................. 34
3.2 CÔNG CỤ XỬ LÍ VĂN BẢN TIẾNG VIỆT. ..................................... 35
3.2.1 Công cụ tách từ cho tiếng Việt – vnTokenize................................ 35
3.2.2 Phương pháp tách câu, tách từ, gán nhãn từ loại và phân tích cú
pháp....................................................................................................... 37
3.2.2.1 Tách câu. ...................................................................... 37
3.2.2.2 Tách từ. ........................................................................ 40
3.2.2.3 Gán nhãn từ loại. .......................................................... 42
3.2.2.4 Phân tích cú pháp.......................................................... 44
3.3 DỮ LIỆU THỰC NGHIỆM................................................................ 45
3.3.1 Số lượng các cụm N-gram với tiếng Việt dựa trên âm tiết............. 46
3.3.2 Số lượng các cụm N-gram với tiếng Việt dựa trên từ. ................... 47
vii
3.4 ĐÁNH GIÁ CHẤT LƯỢNG N-GRAM CHO TIẾNG VIỆT TƯƠNG
ỨNG CÁC KĨ THUẬT TRONG CHƯƠNG 2.......................................... 48
3.4.1.Với âm tiết.................................................................................... 48
3.4.2.Với từ ........................................................................................... 49
3.5 N-GRAM VÀ ỨNG DỤNG ĐỂ THÊM DẤU CHO TIẾNG VIỆT
KHÔNG DẤU. ......................................................................................... 50
3.5.1. Bài toán thêm dấu tiếng Việt........................................................ 50
3.5.1.1. Phát biểu bài toán ........................................................ 50
3.5.1.2. Đặc điểm ..................................................................... 50
3.5.1.3. Hướng giải quyết: ........................................................ 51
3.5.2 Các hệ thống thêm dấu ứng dụng về N-gram đã có....................... 51
3.5.2.1 VietPad......................................................................... 51
3.5.2.2 VnMark – Mô hình thêm dấu tiếng Việt. ...................... 51
3.5.3 Đề xuất hệ thống........................................................................... 53
3.5.3.1 Mô hình........................................................................ 53
3.5.3.2. Mô hình huấn luyện..................................................... 60
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN CỦA ĐỀ TÀI ............................. 61
TÀI LIỆU THAM KHẢO ............................................................................ 63
1
MỞ ĐẦU
1. Lí do chọn đề tài
Ngôn ngữ tự nhiên là ngôn ngữ được con người sử dụng trong giao tiếp
hàng ngày, nó khác hẳn với ngôn ngữ nhân tạo (ngôn ngữ lập trình, ngôn ngữ
máy…). Việc làm cho máy tính hiểu được ngôn ngữ tự nhiên không phải dễ
dàng. Để hiểu đúng nội dung của một văn bản viết bằng ngôn ngữ tự nhiên,
trong quá trình đọc hay nghe thì thực tế là ta đã nhận thức được ngữ cảnh của
văn bản đó. Mặt khác, ngôn ngữ tự nhiên có các bộ luật, cấu trúc ngữ pháp
phong phú hơn nhiều so với các ngôn ngữ máy tính, để có thể xây dựng một
bộ luật về ngữ pháp, từ vựng…, thật hoàn chỉnh để máy có thể hiểu ngôn ngữ
tự nhiên là một việc rất tốn công sức và đòi hỏi người thực hiện phải có hiểu
biết sâu sắc về ngôn ngữ học.
Mô hình ngôn ngữ (Language Model – LM) có thể cho biết xác suất một
câu (hoặc cụm từ) thuộc một ngôn ngữ có xác suất sinh ra là bao nhiêu hay
nói cách khác thì LM phản ánh một phân bố xác suất của các từ, cụm từ trên
các tập văn bản.
Đòi hỏi tiên quyết, để máy tính xử lí ngôn ngữ tự nhiên chính là việc xây
dựng mô hình ngôn ngữ, mà ngày nay mô hình thống kê thường được sử dụng
bởi nó dựa trên các lí thuyết tường minh của xác suất thống kê để mô hình
hóa ngôn ngữ, và thường đạt được độ chính xác cao trong các hệ thống thực
tế. Xử lí ngôn ngữ tự nhiên dựa trên thống kê, không nhắm tới việc con người
xây dựng mô hình ngữ pháp mà lập chương trình cho máy tính có thể “học” ,
nhờ vào việc thống kê các từ và cụm từ có trong văn bản. Trong các mô hình
ngôn ngữ tiếng nói thì N-gram là một trong số những mô hình được sử dụng
rộng rãi nhất.
2
Mô hình ngôn ngữ là một bộ phận quan trọng của lĩnh vực xử lí ngôn ngữ
tự nhiên. Có nhiều lĩnh vực trong xử lí ngôn ngữ tự nhiên sử dụng LM như:
kiểm lỗi chính tả, phát sinh câu ngẫu nhiên, dịch máy hay phân đoạn từ…
Trên thế giới, đã có rất nhiều nước công bố nghiên cứu về LM áp dụng cho
ngôn ngữ của họ nhưng ở Việt Nam, việc nghiên cứu và xây dựng một LM
chuẩn cho tiếng Việt vẫn còn mới mẻ và gặp nhiều khó khăn.
Trong thực tế, sử dụng tiếng Việt không dấu đang trở thành thói quen
không tốt của nhiều người Việt Nam trên Internet. Vì để gõ tiếng Việt có dấu
đòi hỏi phải mất công sức, phải có font chữ, bộ gõ. Việc tự động thêm dấu và
phân tích các từ này là vấn đề cần thiết và thú vị.
Chính điều này đã thúc đẩy tôi lựa chọn và tập trung “Nghiên cứu mô
hình ngôn ngữ N-gram và ứng dụng thêm dấu cho tiếng Việt không dấu”,
để có thể tạo ra một trong những kết quả cơ bản nhất về xử lí ngôn ngữ nói
chung, và có ích cho việc xử lí ngôn ngữ tiếng Việt vốn vô cùng phong phú
của chúng ta nói riêng.
Ứng dụng của phương pháp thêm dấu là khá nhiều như: Thêm dấu cho các
mail; cho các quản trị web, các trang web yêu cầu viết tiếng Việt nhưng người
dùng không có sẵn bộ gõ; thêm dấu cho tin nhắn điện thoại…
2. Mục tiêu và nhiệm vụ
a) Mục tiêu: Do phạm vi bài toán khá lớn và thời gian làm luận văn là có
giới hạn nên mục tiêu nghiên cứu của luận văn tập trung ở các điểm sau:
Về học thuật:
Đề tài này tập trung vào việc ứng dụng một số phương pháp tách từ, tiếng,
phương pháp làm mịn trong mô hình ngôn ngữ N-gram nhằm tăng hiệu quả
thêm dấu cho tiếng Việt không dấu.
Về phát triển và triển khai ứng dụng:
Kết quả của đề tài sẽ ứng dụng trong việc hỗ trợ trong việc thêm dấu cho
tiếng Việt không dấu.
3
b) Nhiệm vụ:
- Nghiên cứu các vấn đề khi xây dựng mô hình ngôn ngữ N-gram.
- Nghiên cứu các phương pháp làm mịn trong mô hình ngôn ngữ N-gram.
- Nghiên cứu các kỹ thuật làm giảm kích thước dữ liệu.
3. Phương pháp nghiên cứu
- Tìm hiểu N-gram thông qua tài liệu.
- Tìm hiểu phương pháp xác định ngôn ngữ văn bản thực tế được các
chương trình thêm dấu tự động sử dụng.
- Đối sánh kết quả với các phương pháp thêm dấu tự động khác khi áp dụng
mô hình ngôn ngữ N-gram cho văn bản tiếng Việt không dấu.
Ngoài ra, luận văn còn sử dụng một số phương pháp tiếp cận hệ thống,
phương pháp chuyên gia và phương pháp thống kê và mô hình hóa.
4. Đối tượng và phạm vi nghiên cứu
- Đối tượng nghiên cứu: Nghiên cứu về mô hình ngôn ngữ N-gram, và các
kỹ thuật liên quan tới việc làm trơn hóa phân bố xác suất của mô hình.
- Phạm vi nghiên cứu: Nghiên cứu về mô hình ngôn ngữ N-gram, và ứng
dụng trong bài toán thêm dấu cho tiếng Việt không dấu sử dụng mô hình ngôn
ngữ N-gram.
5. Ý nghĩa khoa học của luận văn
a) Ý nghĩa khoa học:
- Trình bày các kiến thức toán học cơ bản về mô hình ngôn ngữ N-gram, lý
thuyết độ phức tạp của thuật toán.
- Trình bày các phương pháp làm mịn trong mô hình N-gram.
b) Ý nghĩa thực tiễn:
- Cài đặt hoàn chỉnh cho chương trình thêm dấu cho tiếng Việt không dấu.
- Đối sánh kết quả với các phần mềm tương tự đã có.
4
6. Bố cục của luận văn
Mở đầu
1. Lí do chọn đề tài.
2. Mục tiêu và nhiệm vụ.
3. Phương pháp nghiên cứu.
4. Đối tượng và phạm vi nghiên cứu.
5. Ý nghĩa khoa học của luận văn.
Chương 1: Tổng quan về các mô hình ngôn ngữ và các ứng dụng trong
lĩnh vực xử lí ngôn ngữ tự nhiên
1.1 Mô hình LM.
1.2 Mô hình ngôn ngữ văn phạm.
1.3 Các mô hình ngôn ngữ khác dựa trên khái niệm.
1.4 Mô hình ngôn ngữ N-gram.
Chương 2: Mô hình ngôn ngữ N-gram
2.1 Các kĩ thuật làm mịn hóa sự phân bố xác suất trong mô hình N-gram để
tăng chất lượng của mô hình.
2.2 Các kĩ thuật làm giảm kích thước mô hình.
2.3 Các độ đo để đánh giá chất lượng của mô hình N-gram.
Chương 3: Xây dựng N-gram cho tiếng Việt và ứng dụng trong bài toán
thêm dấu cho tiếng Việt không dấu
3.1 Công cụ xử lí mô hình.
3.2 Công cụ xử lí văn bản tiếng Việt.
3.3 Dữ liệu thực nghiệm.
3.4 Đánh giá chất lượng N-gram cho tiếng Việt tương ứng với kĩ thuật trong
chương 2.
3.5 N-gram và ứng dụng để thêm dấu cho tiếng Việt không dấu.
Kết luận và hướng phát triển của đề tài
5
CHƯƠNG 1
TỔNG QUAN VỀ CÁC MÔ HÌNH NGÔN NGỮ VÀ CÁC ỨNG
DỤNG TRONG LĨNH VỰC XỬ LÍ NGÔN NGỮ TỰ NHIÊN
Ngôn ngữ tự nhiên là ngôn ngữ được con người dùng trong các hoạt động
giao tiếp hàng ngày như nghe, nói, đọc, viết [13]. Con người có khả năng dễ
dàng hiểu và xử lí thông tin thực tế ấy nhưng để máy tính hiểu ngôn ngữ tự
nhiên thì không phải dễ. Khó khăn ấy là do, ngôn ngữ tự nhiên có những cấu
trúc cú pháp, những bộ luật phong phú hơn nhiều so với ngôn ngữ của máy
tính, ngoài ra muốn hiểu đúng nội dung giao tiếp còn phải nắm được ngữ cảnh
của nó. Vì vậy, để xây dựng một bộ từ vựng, cú pháp hoàn chỉnh, chính xác là
việc rất tốn công sức, đòi hỏi người thực hiện phải có hiểu biết sâu sắc về
ngôn ngữ học.
1.1 MÔ HÌNH NGÔN NGỮ (LANGUAGE MODEL - LM).
Mô hình ngôn ngữ là một phân bố xác suất trên các tập văn bản [2]. Hay
đơn giản, mô hình ngôn ngữ có thể cho biết xác suất của một câu (hoặc cụm
từ) của một ngôn ngữ là bao nhiêu.
Ví dụ 1.1: Áp dụng mô hình ngôn ngữ cho tiếng Việt:
P[“Hôm nay là thứ năm”] = 0.001.
P[“là năm hôm thứ nay”] = 0
Mô hình ngôn ngữ được áp dụng trong rất nhiều lĩnh vực của xử lí ngôn
ngữ tự nhiên như: kiểm lỗi chính tả, dịch máy hay phân đoạn từ… Chính vì
vậy, nghiên cứu mô hình ngôn ngữ chính là tiền đề để nghiên cứu các lĩnh
vực khác.
6
Mô hình ngôn ngữ có nhiều hướng tiếp cận nhưng chủ yếu được xây dựng
theo mô hình N-gram.
1.2 MÔ HÌNH NGÔN NGỮ VĂN PHẠM.
* Các cấp độ trong ngôn ngữ:
- Âm vị: Đơn vị âm thanh nhỏ nhất để cấu tạo nên ngôn ngữ và khu biệt về
mặt biểu hiện vật chất (âm thanh) của các đơn vị khác, ví dụ: k-a-d (card), b-ig (big).
- Hình vị: Đơn vị nhỏ nhất mang nghĩa (nghĩa ngữ pháp hay nghĩa từ vựng)
được cấu tạo bởi các âm vị, ví dụ: read-ing, book –s. Hình vị tiếng Việt có khi
gồm 1 tiếng nhưng cũng có khi gồm nhiều tiếng tạo thành. Ví dụ: lé đé, đủng
đỉnh…
- Từ: Đơn vị mang nghĩa độc lập, được cấu tạo bởi (các) hình vị, có chức
năng dịnh danh, ví dụ: I-am-read-ding -my-books. Từ gồm có 1 tiếng hoặc
một tổ hợp tiếng có ý nghĩa hoàn chỉnh.
- Ngữ: gồm 2 hay nhiều từ có quan hệ ngữ pháp hay ngữ nghĩa với nhau, ví
dụ: bức thư, mạng máy tính.
- Câu: gồm các từ/ngữ có quan hệ ngữ pháp hay ngữ nghĩa với nhau và có
chức năng cơ bản là thông báo, ví dụ: I am reading my books
- Văn bản: hệ thống các câu được liên kết với nhau về mặt hình thức, từ
ngữ, ngữ nghĩa và ngữ dụng
1.2.1 Từ vựng tiếng Việt.
Việc đưa ra chính xác định nghĩa thế nào là một từ thì không phải đơn
giản, đòi hỏi công sức của các nhà ngôn ngữ học. Chúng ta đưa ra một định
nghĩa sau về từ làm một ví dụ:
“Từ là đơn vị nhỏ nhất có nghĩa, có kết cấu vỏ ngữ âm bền vững, hoàn
chỉnh, có chức năng gọi tên, được vận dụng độc lập, tái hiện tự do trong lời
nói để tạo câu”[10].
7
Nhưng xét về góc độ ứng dụng thì ta có thể hiểu một cách đơn giản là
“từ được cấu tạo bởi một hoặc nhiều tiếng”.
1.2.2 Tiếng – đơn vị cấu tạo lên từ.
1.2.2.1 Khái niệm.
Tiếng là đơn vị cơ sở để cấu tạo nên từ tiếng Việt. Tiếng do một hay
nhiều âm phát ra cùng một lúc tạo thành. Tiếng có âm đầu, vần, thanh. Vần có
âm đệm, âm chính, âm cuối. Ví dụ: “Toàn” có phụ âm đầu T, âm đệm O, âm
chính A, âm cuối N và thanh huyền.
Trong các yếu tố tạo thành tiếng, âm chính và thanh lúc nào cũng có,
còn âm đầu, âm đệm và âm cuôi có thể vắng mặt. Ví dụ: à, ế, ở…
Về mặt hình thức thì tiếng là một đoạn phát âm của người nói, dù
chúng ta có phát âm chậm đến mấy thì ta cũng không thể tách tiếng ra thành
các đơn vị khác được. Tiếng được các nhà ngôn ngữ học gọi là âm tiết
(syllable).
Về mặt nội dung, tiếng là đơn vị nhỏ nhất có nội dung được thể hiện,
chí ít tiếng cũng có giá trị về mặt hình thái học (cấu tạo từ), đôi khi người ta
gọi tiếng là hình tiết (morphemosyllable), tức là âm tiết có giá trị về hình thái
học.
1.2.2.2 Phân loại.
Các tiếng là không giống nhau, xét về mặt ý nghĩa, chúng ta có thể chia
tiếng thành các nhóm sau:
Tiếng tự nó đã có ý nghĩa khái quát, thường được quy chiếu vào một
đối tượng, một khái niệm như: trời, đất, nước…
Tiếng tự thân nó không có ý nghĩa, chúng không quy chiếu vào đối
tượng, khái niệm nào. Chúng thường đi với một tiếng khác có nghĩa và
làm thay đổi sắc thái của tiếng đó, ví dụ như: (xanh) lè, (đường) xá, (rách)
bươm, (sợ) sệt …
8
Tiếng tự thân nó không có ý nghĩa nhưng lại đi với nhau để tạo thành
từ. Nhưng nếu tách rời tiếng này ra đứng riêng thì không có nghĩa, nhưng
ghép lại thì được từ có nghĩa. Ta gặp các từ mượn như: a-pa-tit, mì-chính,
gác-đơ-bu…
Trong tiếng Việt, thì nhóm đầu tiên chiếm đa số. Các tiếng thuộc hai
nhóm sau ít sử dụng, đặc biệt là nhóm thứ ba. Điều này chứng tỏ là khi nói,
người ta thường sử dụng các tiếng có nghĩa, hiếm khi lại nói ra toàn từ vô
nghĩa.
1.2.2.3 Mô hình tiếng trong tiếng Việt và các thành tố của nó.
Ta có thể biểu diễn cấu trúc của tiếng trong bảng sau: [11]
Thanh điệu
Âm đầu
Vần
Âm đệm
Âm chính
Âm cuối
Thanh điệu: Mỗi tiếng đều có 1 thanh điệu là một trong sáu loại sau:
sắc, hỏi, ngã, nặng, huyền và bằng. Chúng có tác dụng phân biệt tiếng về
cao độ. Ví dụ: “quác”, “quạc”...
Âm đầu: Có tác dụng mở đầu âm tiết như “mùa”, “hùa”, “hoa”,
“thoa”…
Âm đệm: Có tác dụng biến đổi âm sắc của âm tiết sau lúc mở đầu.
Ví dụ: “hòa”, “hà”…
Âm chính: Là hạt nhân và mang âm sắc chủ đạo của tiếng. Ví dụ:
“túy”, “túi”,…
Âm cuối: Có tác dụng kết thúc tiếng với các âm sắc khác nhau, do đó
có thể phân biệt các tiếng. Ví dụ: “nhàn”, “nhài”…
Cụm gồm âm đệm, âm chính, âm cuối gọi là vần. Ví dụ: vần “uay”,
“anh”…
Đây là 5 thành tố của tiếng mà bất cứ tiếng nào trong tiếng Việt đều có
cấu trúc như vậy (vần không phải là thành tố mà chỉ là cách gọi của nhóm 3
9
âm nói trên). Nhưng cũng có một số trường hợp một số âm trùng nhau, nhất là
với những tiếng chỉ có 3 kí tự trở xuống.
1.2.3 Cấu tạo từ.
Như đã nêu ở trên, từ trong tiếng Việt hoặc là bằng 1 tiếng hoặc là tổ
hợp của nhiều tiếng khác nhau để tạo ra các loại từ. Sau đây, trong giới hạn,
luận văn xin đề cập tới một số loại từ sau.
1.2.3.1 Từ đơn.
Từ đơn, hay còn gọi là từ đơn âm tiết, là các từ được cấu tạo từ 1 tiếng
duy nhất. Ví dụ: nước, nhà, hoa, lá…
1.2.3.2 Từ ghép.
Từ ghép là từ được cấu tạo từ 2 tiếng trở lên. Giữa các tiếng có mối
quan hệ về nghĩa với nhau. Do đó, ta có các loại từ ghép khác nhau:
Từ ghép đẳng lập: Các thành phần cấu tạo nên từ có quan hệ bình
đẳng về nghĩa. Ví dụ: thành công, xinh đẹp, bé nhỏ…
Từ ghép chính phụ: Các thành phần cấu tạo nên từ có mối quan hệ
phụ thuộc lẫn nhau về nghĩa. Ví dụ: xe máy, xúc xích, nhũng nhiễu…
1.2.3.3 Từ láy.
Một từ được coi là từ láy khi các yếu tố cấu tạo nên nó có thành phần
ngữ âm được lặp lại, nhưng vừa có lặp lại (gọi là điệp) vừa có biến đổi (gọi là
đối). Ví dụ: đo đỏ, man mát… Nếu một từ chỉ có lặp lại mà không có biến đổi
thì chỉ gọi là dạng láy của từ chứ hoàn toàn không được coi là từ láy. Ví dụ:
nhà nhà, ngành nghành…
Độ dài của từ láy là 2 tiếng hoặc 4 tiếng. Nhưng trong tiếng Việt láy 2
tiếng chiếm đa số, chúng chia thành các loại sau:
Láy hoàn toàn: Là cách láy mà tiếng sau lặp lại hoàn toàn tiếng trước.
Gọi là hoàn toàn nhưng thực ra các tiếng không trùng khít nhau mà có
những sai khác rất nhỏ mà ta có thể nhìn thấy được.
o Láy hoàn toàn đối nhau ở thanh điệu. Ví dụ: sừng sững, loang
loáng…
10
o Láy hoàn toàn đối nhau ở âm cuối. Ví dụ: khin khít, ăm ắp…
o Láy hoàn toàn đối nhau ở trọng âm, tức là 1 tiếng được nói dài
hơn, nhấn mạnh hơn so với tiếng kia. Ví dụ: ầm ầm, đùng đùng…
Láy bộ phận: Là cách láy mà chỉ có phần điệp ở phần âm đầu của
tiếng, hoặc điệp ở phần vần thì gọi là láy bộ phận. Căn cứ vào đó, ta có các
loại sau:
o Từ láy điệp ở âm đầu và đối ở vần: nhưng nhức, thơ thẩn…
o Từ láy điệp ở vần và đối ở âm đầu: hấp tấp, liểng xiểng…
Tóm lại, tiếng Việt được xếp vào loại hình đơn lập (isolate) hay còn gọi là
loại hình phi hình thái, không biến hình, đơn tiết với những đặc điểm chính
sau:
- Trong hoạt động ngôn ngữ, từ không biến đổi hình thái, ý nghĩa ngữ pháp
nằm ở ngoài từ. Ví dụ, tôi nhìn thấy anh ấy; anh ấy nhìn tôi.
- Phương pháp chủ yếu là trật tự từ và từ hư. Ví dụ, gạo xay và xay gạo.
- Tồn tại một loại đơn vị đặc biệt, đó là “hình tiết” mà vỏ ngữ âm trùng khít
với âm tiết, và đơn vị đó “cũng chính là hình vị tiếng Việt” hay còn gọi là
tiếng (theo tác giả Đinh Điền thì có khoảng 10.000 tiếng, nhưng theo khảo sát
của hội người mù Việt Nam khi làm chương trình sách nói thì chỉ có khoảng
3000 từ).
- Ranh giới từ không xác định mặc nhiên bằng khoảng trắng như các thứ
tiếng biến hình khác. Ví dụ: “học sinh học sinh học”. Điều này khiến cho việc
phân tích hình thái (tách từ) tiếng Việt trở nên khó khăn. Việc nhận ranh giới
từ là quan trọng làm tiền đề cho xử lí tiếp sau đó như: kiểm lỗi chính tả, gán
nhãn từ, thống kê tần suất từ…
- Tồn tại loại từ đặc biệt “từ chỉ loại” (classifier) hay còn gọi là phó danh từ
chỉ loại đi kèm với danh từ như: cái bàn, cuốn sách, bức thư…
- Về mặt âm học, các âm tiết tiếng Việt đều mang 1 trong 6 thanh điệu
(ngang, sắc, huyền, hỏi, ngã, nặng). Đây là âm vị siêu đoạn tính.
11
- Có hiện tượng láy trong từ tiếng Việt như: lấp lánh, lung linh… Ngoài ra,
còn có hiện tượng nói lái (do mối liên kết giữa phụ âm đầu và phần vần trong
âm tiết là lỏng lẻo) như: hiện đại hại điện…
- Ngoài ra, theo[1] tiếng Việt còn có một loại từ là từ Ngẫu hợp. Đây là
những từ mà người bản ngữ hiện nay không tìm thấy mối quan hệ gì về ngữ
âm hay ngữ nghĩa giữa các tiếng cấu tạo nên chúng. Ví dụ: bồ câu, bồ hòn,
cao su, hy sinh, kinh tế…
1.3 CÁC MÔ HÌNH NGÔN NGỮ KHÁC DỰA TRÊN KHÁI NIỆM.
Trên thực tế, mỗi một mô hình ngôn ngữ đều có chứa lượng lớn những
ngoại lệ. Thậm chí ngay cả khi người thiết kế tìm cách giải quyết hết các
ngoại lệ mà họ nghĩ đến thì vẫn tồn tại những trường hợp chỉ xuất hiện khi hệ
thống được đưa vào thực nghiệm. Hơn nữa, việc xây dựng một mô hình ngôn
ngữ dựa trên các luật là rất tốn công sức. Thông thường để xây dựng một hệ
thống như vậy đòi hỏi công sức vài tháng từ một lập trình viên với nhiều kinh
nghiệm về ngôn ngữ học. Thời gian này còn lớn hơn khi chúng ta chuyển
sang lĩnh vực khác hay sang ngôn ngữ khác.
Câu trả lời cho các giới hạn này là phải xây dựng một hệ thống bằng cách
nào đó có thể “tự học”, điều này sẽ giúp bớt sự tham gia của các chuyên gia
ngôn ngữ và làm tăng tính khả chuyển của hệ thống. Có nhiều phương pháp
học máy như mô hình Markov ẩn (Hidden Markov Models - HMM), mô hình
Markov cực đại hóa Entropy (Maximum Entropy Markov Models – MEMM)
và mô hình Conditional Random Field (CRF)…
* Mô hình Markov ẩn (HMM) được nghiên cứu cuối những năm 1960 và
đầu những năm 1970, cho đến nay nó được ứng dụng nhiều trong nhận dạng
tiếng nói, tin sinh học và xử lí ngôn ngữ tự nhiên. HMM là mô hình máy trạng
thái hữu hạn (Probabilistic finite state machine) với các tần số biểu diễn xác
suất chuyển trạng thái và xác suất sinh dữ liệu quan sát tại mỗi trạng thái.
12
Trong bài toán “Maximum Entropy Markov Models for Information
Extration and Segmentation”, Andrew McCallum đã đưa ra hai vấn đề mà các
mô hình HMM truyền thống nói riêng và các mô hình sinh (generative
models) nói chung gặp phải khi gán nhãn cho dữ liệu dạng chuỗi.
* Mô hình Markov cực đại hóa Entropy (MEMM): Mc Callum đã đưa ra
một mô hình Markov mới – mô hình MEMM như một đáp án cho những vấn
đề của mô hình Markov truyền thống. Mô hình MMEM quan niệm rằng các
quan sát đã được cho trước và chúng ta không cần quan tâm đến xác suất sinh
ra chúng, điều duy nhất cần quan tâm là xác suất chuyển trạng thái. So với mô
hình HMM, ở đây quan sát hiện tại không chỉ phụ thuộc vào trạng thái hiện
tại mà còn phụ thuộc vào trạng thái trước đó, điều đó có nghĩa là quan sát
hiện tại được gắn liền với các trạng thái riêng lẻ như mô hình HMM truyền
thống.
* CRF được giới thiệu lần đầu tiên vào đầu năm 2001 bởi Lafferty và
các đồng nghiệp. Giống như MMEM, CRF là mô hình dựa trên xác suất điều
kiện, nó có thể tích hợp được các thuộc tính đa dạng của chuỗi dữ liệu quan
sát nhằm hỗ trợ cho quá trình phân lớp. Tuy vậy, khác với MEMM, CRF là
đồ thị vô hướng. Điều này cho phép CRF có thể định nghĩa phân phối xác
suất của toàn bộ chuỗi trạng thái với điều kiện biết chuỗi trạng cho trước thay
vì phân phối trên mỗi trạng thái với điều kiện biết trạng thái trước đó và quan
sát hiện tại như các mô hình MEMM.
1.4 MÔ HÌNH NGÔN NGỮ N-GRAM.
1.4.1 Khái quát.
Mô hình ngôn ngữ thống kê cho phép gán (ước lượng) xác suất xuất hiện
của một chuỗi gồm m phần tử, thường là từ P(w1w2…wm), hay nói cách khác
- Xem thêm -