ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Lê Hoàng Quỳnh
SO SÁNH MỘT SỐ PHƯƠNG PHÁP HỌC MÁY
CHO BÀI TOÁN GÁN NHÃN TỪ LOẠI
TIẾNG VIỆT
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ thông tin
HÀ NỘI - 2009
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Lê Hoàng Quỳnh
SO SÁNH MỘT SỐ PHƯƠNG PHÁP HỌC MÁY
CHO BÀI TOÁN GÁN NHÃN TỪ LOẠI
TIẾNG VIỆT
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ thông tin
Cán bộ hướng dẫn: PGS.TS. Hà Quang Thụy
Cán bộ đồng hướng dẫn: ThS. Trần Thị Oanh
HÀ NỘI - 2009
LỜI CẢM ƠN
Trước tiên, tôi muốn bày tỏ lòng biết ơn sâu sắc nhất tới Phó Giáo sư Tiến sĩ Hà
Quang Thụy và Thạc Sĩ Trần Thị Oanh, những người đã tận tình chỉ bảo và hướng dẫn
tôi trong suốt quá trình thực hiện khoá luận tốt nghiệp.
Thấu hiểu nỗi vất vả cũng như sự tận tụy của những thầy cô giáo đã giảng dạy và
bồi dưỡng kiến thức cho tôi trong bốn năm qua, tôi xin gửi lời cảm ơn chân thành đến
các thầy cô, những kiến thức mà tôi nhận được không chỉ giúp tôi hoàn thành khóa
luận này mà còn là hành trang quan trọng giúp tôi vững bước trong tương lai.
Tôi cũng xin gửi lời cảm ơn tới các thầy cô, các anh chị và các bạn sinh viên
trong nhóm seminar “Khai phá dữ liệu”, phòng thí nghiệm Các hệ thống tích hợp
thông minh (SISLAB) – trường Đại học Công nghệ đã tạo một môi trường nghiên cứu
khoa học hiệu quả cũng như cho tôi những lời khuyên bổ ích về chuyên môn trong quá
trình nghiên cứu.
Bên cạnh đó, tập thể sinh viên lớp K50CA cũng đóng một vai trò không nhỏ giúp
tôi xây dựng, củng cố kiến thức và cùng với tôi vượt qua những khó khăn trong học
tập.
Và cuối cùng, nhưng vô cùng quan trọng, tôi xin bày tỏ lòng chân thành và biết
ơn vô hạn tới cha mẹ, anh chị cũng như các bạn bè thân thiết đã luôn ở bên cạnh, quan
tâm, động viên tôi trong suốt quá trình học tập và thực hiện khóa luận tốt nghiệp này.
Sinh viên
Lê Hoàng Quỳnh
i
TÓM TẮT
Gán nhãn từ loại (Part-of-Speech Tagging) là một trong hai bài toán nền tảng,
đóng vai trò quan trọng trong các hệ thống xử lý ngôn ngữ tự nhiên. Ở Việt Nam đã có
một số nghiên cứu về bài toán này, tuy nhiên kết quả đạt được vẫn còn ở mức khiêm
tốn so với nhiều ngôn ngữ khác. Việc tìm hiểu các phương pháp gán nhãn từ loại trong
tiếng Anh cho thấy hướng tiếp cận dựa theo phương pháp học máy cho kết quả tốt hơn
cả trong các phương pháp đã được công bố.
Nội dung khóa luận tập trung so sánh ba phương pháp học máy cho bài toán gán
nhãn từ loại tiếng Việt, đó là mô hình cực đại hóa Entropy (MEM- Jaynes, 1957); mô
hình miền ngẫu nhiên điều kiện (CRF- Laferty, 2001) và mô hình máy véc tơ hỗ trợ
(SVM- Vapnik & Chervonekis, 1995). Đây là ba phương pháp học máy đã được ứng
dụng thành công trong rất nhiều bài toán xử lý ngôn ngữ tự nhiên. Thực nghiệm áp
dụng ba mô hình học máy này được tiến hành trên cùng môi trường phần cứng và sử
dụng cùng một tập đặc trưng để đảm bảo tính khách quan. Kết quả thu được trên các
dữ liệu thực nghiệm cho thấy mô hình CRF có độ chính xác cao nhất và thời gian gán
nhãn tốt nhất, trong khi đó SVM và MEM có ưu thế hơn về thời gian huấn luyện. Kết
quả này khá tương đồng với kết quả của một vài nghiên cứu tương đương trong các
ngôn ngữ khác và đã khẳng định được tính khả thi của ba mô hình này cho tiếng Việt.
ii
Mục lục
MỞ ĐẦU.........................................................................................................................1
Chương 1. KHÁI QUÁT VỀ BÀI TOÁN GÁN NHÃN TỪ LOẠI...........................3
1.1. Khái niệm và vị trí của bài toán gán nhãn từ loại trong NLP ..............................3
1.1.1. Khái niệm về bài toán gán nhãn từ loại ........................................................3
1.1.2. Vị trí và ứng dụng của bài toán gán nhãn từ loại trong NLP........................4
1.2. Các khó khăn của bài toán gán nhãn từ loại.........................................................6
1.3. Tập nhãn từ loại....................................................................................................7
1.3.1. Nguyên tắc xây dựng tập nhãn từ loại và một số tập nhãn từ loại của các
ngôn ngữ trên thế giới.............................................................................................7
1.3.2. Một số tập nhãn từ loại hiện được đề xuất ở Việt Nam..............................10
Chương 2. CÁC HƯỚNG TIẾP CẬN BÀI TOÁN GÁN NHÃN TỪ LOẠI .........13
2.1. Gán nhãn bằng phương pháp dựa trên hệ luật ...................................................13
2.2. Các phương pháp dựa vào học máy ...................................................................15
2.3. Phương pháp lai..................................................................................................19
2.4. Các nghiên cứu liên quan tại Việt Nam .............................................................21
2.4.1. Các nghiên cứu dựa trên phương pháp hệ luật ...........................................21
2.4.2. Các nghiên cứu dựa trên phương pháp học máy ........................................22
2.4.3. Các nghiên cứu dựa trên phương pháp lai ..................................................22
Chương 3. BA MÔ HÌNH HỌC MÁY ÁP DỤNG CHO BÀI TOÁN GÁN NHÃN
TỪ LOẠI TIẾNG VIỆT .............................................................................................25
3.1. Mô hình cực đại hóa Entropy.............................................................................25
3.1.1. Khái niệm MEM .........................................................................................25
3.1.2. Nguyên lý cực đại hóa Entropy ..................................................................26
3.1.3. Mô hình xác suất.........................................................................................26
3.1.4. Hạn chế của mô hình MEM........................................................................27
3.2. Mô hình trường ngẫu nhiên điều kiện................................................................28
3.2.1. Khái niệm CRF ...........................................................................................28
iii
3.2.2. Hàm tiềm năng của các mô hình CRF ........................................................30
3.2.3. Thuật toán gán nhãn cho dữ liệu dạng chuỗi. .............................................31
3.2.4. Ước lượng tham số cho các mô hình CRF..................................................33
3.3. Mô hình máy véc tơ hỗ trợ.................................................................................33
3.3.1. Khái niệm và cơ sở của phương pháp SVM ...............................................33
3.3.2. Áp dụng phương pháp SVM cho bài toán gán nhãn từ loại .......................36
3.3.3. Huấn luyện SVM ........................................................................................37
Chương 4. THỰC NGHIỆM ÁP DỤNG BA MÔ HÌNH HỌC MÁY CHO BÀI
TOÁN GÁN NHÃN TỪ LOẠI TIẾNG VIỆT VÀ ĐÁNH GIÁ KẾT QUẢ ..........39
4.1. Mô tả thực nghiệm .............................................................................................39
4.1.1. Phần cứng....................................................................................................39
4.1.2. Phần mềm....................................................................................................39
4.1.3. Dữ liệu thực nghiệm và tập nhãn từ loại.....................................................40
4.2. Mô tả tập đặc trưng dựa trên mức từ và mức hình vị.........................................43
4.2.1. Các đặc trưng dựa vào thông tin từ vựng và thông tin từ loại ....................43
4.2.2. Mẫu ngữ cảnh dạng biểu thức chính quy....................................................45
4.3. Hệ thống gán nhãn từ loại cho tiếng Việt ..........................................................45
4.3.1. Gán nhãn từ loại dựa vào thông tin về từ....................................................47
4.3.2. Gán nhãn từ loại dựa vào thông tin hình vị ................................................47
4.4. Phương pháp thực nghiệm và các tham số đánh giá thực nghiệm.....................48
4.4.1. Phương pháp thực nghiệm ..........................................................................48
4.4.2. Các tham số đánh giá thực nghiệm.............................................................48
4.5. Kết quả thực nghiệm ..........................................................................................48
4.5.1. Kết quả của năm lần thực nghiệm ..............................................................48
4.5.2. Tổng hợp kết quả ........................................................................................51
4.5.3. Đánh giá và thảo luận .................................................................................53
KẾT LUẬN ..................................................................................................................55
iv
Danh mục hình vẽ
Hình 1. Các bước xử lý ngôn ngữ tự nhiên ............................................................4
Hình 2. Một số tập nhãn từ loại cho Tiếng Anh .....................................................8
Hình 3. Một số phương pháp giải quyết bài toán POS tagging cho tiếng Anh ....13
Hình 4. Đồ thị có hướng mô tả mô hình HMM....................................................17
Hình 5. Mô hình tổng quát của phương pháp lai ..................................................19
Hình 6. Mô hình TBL cho tiếng Việt ...................................................................24
Hình 7. Đồ thị vô hướng mô tả CRF ....................................................................29
Hình 8. Một bước trong thuật toán Viterbi cải tiến ..............................................32
Hình 9. Hai cách chia không gian véc tơ thành hai nửa riêng biệt.......................33
Hình 10. Mặt siêu phẳng tách các mẫu dương khỏi các mẫu âm. ........................34
Hình 11. Trường hợp không thể phân chia các mẫu âm và các mẫu dương bằng
một siêu phẳng tuyến tính.....................................................................................35
Hình 12. Biến đổi siêu phẳng không tuyến tính thành siêu phẳng tuyến tính sử
dụng hàm nhân......................................................................................................35
Hình 13. Hàm nhân Basis Radial..........................................................................37
Hình 14. Cửa sổ trượt với kích cỡ size=5 chuyển động dọc theo dữ liệu ............44
Hình 15. Một mô hình gán nhãn từ loại tiếng Việt...............................................46
Hình 16. Độ chính xác trung bình trong thực nghiệm với bộ dữ liệu thứ nhất ....52
Hình 17. Độ chính xác trung bình trong thực nghiệm với bộ dữ liệu thứ hai ......52
v
Danh mục bảng biểu
Bảng 1. Một số thuật ngữ Anh – Việt được sử dụng trong khóa luận................ viii
Bảng 2. Tổng kêt số nhãn có thể có của các từ trong tập từ vựng Brown..............7
Bảng 3. Tập nhãn từ loại Penn Treebank ...............................................................8
Bảng 4. Ví dụ về một số luật chuyển của TBL cho tiếng Anh.............................20
Bảng 6. Tập nhãn từ loại VnPOS cho tiếng Việt..................................................42
Bảng 7. Thông tin từ vựng và thông tin từ loại sử dụng cho việc lựa chọn đặc
trưng......................................................................................................................44
Bảng 8. Một số mẫu ngữ cảnh BTCQ xác định dữ liệu dạng số ..........................45
Bảng 9. Độ chính xác khi áp dụng mô hình MEM ở mức từ ...............................49
Bảng 10. Độ chính xác khi áp dụng mô hình MEM ở mức hình vị .....................49
Bảng 11. Độ chính xác khi áp dụng mô hình CRF ở mức từ ...............................50
Bảng 12. Độ chính xác khi áp dụng mô hình CRF ở mức hình vị .......................50
Bảng 13. Độ chính xác khi áp dụng mô hình SVM ở mức từ ..............................51
Bảng 14. Độ chính xác khi áp dụng mô hình SVM ở mức hình vị ......................51
vi
Một số thuật ngữ Anh – Việt
Bảng 1. Một số thuật ngữ Anh – Việt được sử dụng trong khóa luận
STT
Thuật ngữ Tiếng Anh
Viết tắt
Nghĩa tiếng Việt
1
Conditional Random Field
CRF
Miền ngẫu nhiên điều kiện
2
Hidden Markov Model
HMM
Mô hình Markov ẩn
3
Maximum Entropy Model
MEM,
MaxEnt
Mô hình cực đại hóa
Entropy
4
Natural Language Processing
NLP
Xử lý ngôn ngữ tự nhiên
5
Part of speech tagging
POS tagging
Gán nhãn từ loại
6
Regular expression
BTCQ
Biểu thức chính quy
7
Rule-based tagger
Bộ gán nhãn dựa trên luật
8
Transformation-Based Learning TBL
Phương pháp học dựa trên
chuyển đổi
vii
MỞ ĐẦU
Gán nhãn từ loại cho một văn bản tức là xác định từ loại chính xác cho các từ
trong văn bản đó. Đây là vấn đề rất quan trọng trong lĩnh vực xử lý ngôn ngữ tự nhiên,
là bước tiền xử lý của nhiều bài toán và một số hệ thống thông minh khác, tuy nhiên
các nghiên cứu về bài toán này ở Việt Nam vẫn còn ở giai đoạn ban đầu nên nhu cầu
về cả lý thuyết và ứng dụng đều còn rất lớn. Đối với các văn bản tiếng Việt, việc gán
nhãn từ loại gặp phải nhiều khó khăn, đặc biệt là bản thân việc phân loại từ tiếng Việt
cho đến nay vẫn là một vấn đề còn nhiều tranh cãi, chưa có một chuẩn mực thống
nhất. Ý thức được tầm quan trọng và nhu cầu thực tiễn cũng như những khó khăn của
bài toán gán nhãn từ loại, nghiên cứu trong khóa luận phục vụ đồng thời hai mục đích:
Thứ nhất, lựa chọn một tập đặc trưng phù hợp với tính chất của tiếng Việt và có thể sử
dụng cho các phương pháp học máy khác nhau. Thứ hai, áp dụng ba phương pháp học
máy cho kết quả khá tốt ở các ngôn ngữ khác vào bài toán gán nhãn từ loại tiếng Việt,
từ đó đưa ra nhận xét về kết quả, độ phù hợp của từng phương pháp với các ứng dụng
thực tế cũng như góp phần đánh giá chất lượng của tập đặc trưng đã xây dựng.
Thực nghiệm trên các văn bản tiếng Việt áp dụng ba mô hình học máy đều cho
kết quả khá khả quan, tùy vào các đặc trưng riêng của mỗi mô hình mà thời gian xử lý
cũng như độ chính xác có những chênh lệch nhất định. Các vấn đề được giải quyết
trong khóa luận sẽ đóng góp một phần hữu ích trong việc lựa chọn phương pháp thích
hợp giải quyết bài toán, để từ đó phục vụ cho việc tiến hành các nghiên cứu ở mức cao
hơn như phân tích cú pháp, dịch máy, tóm tắt văn bản …
Khóa luận được tổ chức thành bốn chương chính với nội dung cơ bản như
sau:
Chương 1: Khái quát về bài toán gán nhãn từ loại. Chương 1 đưa ra khái
niệm, vị trí và ứng dụng của bài toán gán nhãn từ loại trong xử lý ngôn ngữ tự nhiên.
Cùng với đó, việc phân tích các vấn đề cơ bản của bài toán và việc xây dựng tập nhãn
từ loại cũng là nội dung quan trọng mà chương này đề cập tới.
Chương 2: Các hướng tiếp cận bài toán gán nhãn từ loại. Trình bày một số
hướng tiếp cận nhằm giải quyết bài toán gán nhãn từ loại như phương pháp thủ công,
các phương pháp học máy mà đại diện tiêu biểu là HMM và các phương pháp lai. So
với hướng tiếp cận thủ công có nhược điểm là tốn kém về mặt thời gian, công sức và
không khả chuyển, các phương pháp học máy thường được đánh giá cao hơn. Chương
1
này cũng giới thiệu một số nghiên cứu có liên quan đến bài toán gán nhãn từ loại cho
tiếng Việt trong những năm gần đây.
Chương 3. Ba mô hình học máy áp dụng cho bài toán gán nhãn từ loại tiếng
Việt. Khóa luận lựa chọn ba phương pháp học máy điển hình đã cho kết quả khả quan
ở nhiều ngôn ngữ và có khả năng đạt kết quả tốt khi áp dụng cho tiếng Việt là MEM,
CRF và SVM. Chương 3 đặt nền tảng lý thuyết cho phần thực nghiệm của khóa luận.
Chương 4: Thực nghiệm áp dụng ba mô hình học máy cho bài toán gán
nhãn từ loại tiếng Việt và đánh giá kết quả. Chương này trình bày các công việc
thực nghiệm mà khóa luận đã tiến hành, bao gồm việc lựa chọn tập đặc trưng phù hợp
cho tiếng Việt và áp dụng ba mô hình học máy MEM, CRF và SVM để giải quyết bài
toán gán nhãn từ loại tiếng Việt. Từ kết quả đạt được, tiến hành đối chiếu, so sánh và
đưa ra một số nhận xét về ưu, nhược điểm của các mô hình cũng như độ phù hợp của
chúng đối với bài toán gán nhãn từ loại tiếng Việt.
Phần kết luận tóm lược các kết quả đã đạt được và đóng góp của khóa luận,
đồng thời định hướng một số hướng nghiên cứu tiếp theo trong thời gian sắp tới.
2
Chương 1. KHÁI QUÁT VỀ BÀI TOÁN GÁN NHÃN TỪ
LOẠI
Chương 1 giới thiệu về bài toán gán nhãn từ loại cùng với vai trò, ứng dụng của
nó trong các hệ thống xử lý ngôn ngữ tự nhiên. Cùng với đó, chương này cũng phân
tích những khó khăn mà bài toán gán nhãn từ loại cần phải giải quyết và vấn đề xây
dựng tập nhãn từ loại.
1.1. Khái niệm và vị trí của bài toán gán nhãn từ loại trong xử lý
ngôn ngữ tự nhiên
1.1.1. Khái niệm về bài toán gán nhãn từ loại
Mỗi từ trong một ngôn ngữ nói chung đôi khi có thể gắn với nhiều từ loại và việc
giải thích đúng nghĩa một từ phụ thuộc vào việc nó có được xác định đúng từ loại hay
không dựa trên ngữ cảnh cho trước. Công việc gán nhãn từ loại cho một văn bản là
xác định từ loại của mỗi từ trong phạm vi văn bản đó, tức là phân loại các từ
thành các lớp từ loại dựa trên thực tiễn hoạt động ngôn ngữ [2, 7]. Việc gán nhãn
từ loại thường được thể hiện bằng cách gán cho mỗi từ một “nhãn” có sẵn theo tập
nhãn cho trước.
Bài toán có thể được mô tả như sau:
Input: Một chuỗi các từ và tập nhãn từ loại (Ví dụ như chuỗi các từ “Book that
flight.” và tập nhãn từ loại Penn Treebank của tiếng Anh.)
Output: Một nhãn tốt nhất cho từng từ trong chuỗi từ đã được đưa ra (Ví dụ:,
đối với chuỗi từ “Book that flight.”, thì nhãn thích hợp tương ứng cho từng từ
sẽ là Book/VB that/DT flight/NN./.)
Quá trình gán nhãn từ loại thường được chia làm 3 bước [2, 3, 4]:
Giai đoạn tiền xử lý: Phân tách xâu ký tự thành chuỗi các từ. Giai đoạn này có
thể đơn giản hay phức tạp tuỳ theo ngôn ngữ và quan niệm về đơn vị từ vựng.
Chẳng hạn đối với tiếng Anh hay tiếng Pháp, việc phân tách từ phần lớn là dựa
vào các ký hiệu trắng. Tuy nhiên vẫn có những từ ghép hay những cụm từ gây
tranh cãi về cách xử lý. Trong khi đó với tiếng Việt thì dấu trắng càng không
phải là dấu hiệu để xác định ranh giới các đơn vị từ vựng do tần số xuất hiện từ
ghép rất cao.
3
Khởi tạo gán nhãn, tức là tìm cho mỗi từ tập tất cả các nhãn từ loại mà nó có
thể có. Tập nhãn này có thể thu được từ cơ sở dữ liệu từ điển hoặc kho ngữ liệu
đã gán nhãn bằng tay. Đối với một từ mới chưa xuất hiện trong cơ sở ngữ liệu
thì có thể dùng một nhãn ngầm định hoặc gắn cho nó tập tất cả các nhãn. Trong
các ngôn ngữ biến đổi hình thái người ta cũng dựa vào hình thái từ để đoán
nhận lớp từ loại tương ứng của từ đang xét.
Quyết định kết quả gán nhãn, đó là giai đoạn loại bỏ nhập nhằng, tức là lựa
chọn cho mỗi từ một nhãn phù hợp nhất với ngữ cảnh trong tập nhãn khởi tạo
nói trên. Có nhiều phương pháp để thực hiện việc này, trong đó người ta phân
biệt chủ yếu các phương pháp dựa vào quy tắc ngữ pháp (với đại diện nổi bật là
phương pháp Brill) và các phương pháp xác suất. Ngoài ra còn có các hệ thống
sử dụng mạng nơ-ron, các hệ thống lai sử dụng kết hợp tính toán xác suất và
ràng buộc ngữ pháp, gán nhãn nhiều tầng, …
1.1.2. Vị trí và ứng dụng của bài toán gán nhãn từ loại trong NLP
Morphology
Syntax
Semantics
Discourse
Pragmatics
Knowledge
Five man lif a piano / a chair?
Could you pass me the salt?
Yes or pass it?
Bill was about to be impeached, and he called his lawyer
ADDITIVE or RESULT?
bank
cottog bag
walks
rice flies
Untieable Knot
river or financial?
PART-WHOLE or PURPOSE?
Noun or Verb?
(NP (NN rice) (NNS files)) or
(S (NP (NN rice) (VP (VBZ files)))
(un)tieable or untie(able)?
Hình 1. Các bước xử lý ngôn ngữ tự nhiên
4
Gán nhãn từ loại là một công việc quan trọng và bắt buộc phải có đối với hầu hết
các ứng dụng xử lý ngôn ngữ tự nhiên. Nếu coi quá trình xử lý ngôn ngữ tự nhiên gồm
các bước: Tiền xử lý văn bản, phân tích hình thái, phân tích cú pháp và phân tích ngữ
nghĩa thì gán nhãn từ loại thuộc vào bước phân tích hình thái. Bước này có nhiệm vụ
phân tích câu thành một bảng các từ (hay cụm từ) riêng biệt, đồng thời kèm theo tất cả
các thông tin về từ đó, như là: Từ loại (part-of-speech), phạm trù ngữ pháp (category),
các biến cách của từ, tiền tố, hậu tố của từ (nếu có) [5, 9]. Hình 1 ở trên cho ta mô tả
trực quan về vị trí của bài toán gán nhãn từ loại trong xử lý ngôn ngữ tự nhiên.
Như vậy, gán nhãn từ loại là bước tiền xử lý quan trọng cho các phần tiếp theo
trong quá trình xử lý ngôn ngữ tự nhiên như phân tích cú pháp, phân tích ngữ nghĩa.
Có thể điểm qua một số ứng dụng tiêu biểu của bài toán gán nhãn từ loại như dưới đây
[14]:
Thành công của việc gán nhãn từ loại tiếng Việt sẽ là cơ sở cho việc giải quyết
các bài toán xử lý ngôn ngữ tự nhiên khác như tóm tắt văn bản, phân cụm, phân
loại văn bản …
Khi hệ thống văn bản đã được gán nhãn, hay nói cách khác là đã được chú thích
từ loại thì nó sẽ được ứng dụng rộng rãi trong các hệ thống tìm kiếm thông tin,
trong các ứng dụng tổng hợp tiếng nói, các hệ thống nhận dạng tiếng nói cũng
như trong các hệ thống dịch máy …
Một trong những ứng dụng thường được nhắc đến nhiều nhất của gán nhãn từ
loại là trong hệ thống dịch máy. Cho đến nay, sau hơn 50 năm phát triển, dịch
máy chứng tỏ là một ứng dụng vô cùng thiết thực, đồng thời cũng là một bài
toán khá hóc búa đặt ra cho các nhà khoa học trên toàn thế giới. Từ đầu thập
niên 1960, các nhà khoa học đã đúc kết lại ba chiến lược dịch máy cơ bản, đó là
dịch trực tiếp, dịch thông qua ngôn ngữ trung gian và dịch dựa trên chuyển đổi.
Và qua thực tế, chiến lược dịch dựa trên chuyển đổi đã khẳng định được tính
hiệu quả và tiềm năng của nó. Trong hệ dịch dựa trên sự chuyển đổi, khối
chuyển đổi cây cú pháp (cấu trúc) giữ một vai trò quan trọng, quyết định chất
lượng hệ dịch. Khối này phụ thuộc rất lớn vào sự chính xác của quá trình phân
tích ở bước trước, trong đó có bộ phận gán nhãn từ loại, giả sử như các từ trong
cây cú pháp bị gán nhãn từ loại sai dẫn đến cây cú pháp của câu cũng bị sai. Giả
sử như hệ thống tiến hành dịch câu sau đây từ tiếng Anh sang tiếng Việt: “Jet
planes fly about nine miles high”, nếu không có sự trợ giúp của công cụ gán
5
nhãn từ loại, hệ thống dịch máy chỉ dịch từ từ sang từ thì ta sẽ có được kết quả
tiếng Việt là “Phản lực các phi cơ bay khoảng chín dặm cao”
Jet
planes
fly about
nine miles high
Phản lực các phi cơ bay khoảng chín dặm cao
Trong khi đó, nếu các từ đã được gán nhãn từ loại một cách chính xác, ta sẽ có
khả năng cao nhận được một câu tiếng Việt hợp lý hơn rất nhiều: “Các phi cơ
phản lực bay cao khoảng chín dặm”
Jet
planes
fly about nine
miles high
Các phi cơ phản lực bay cao
khoảng chín
dặm
…
1.2. Các khó khăn của bài toán gán nhãn từ loại
Nếu mỗi từ chỉ có một nhãn từ loại và ta có thể xây dựng được một từ điển hữu
hạn các từ và nhãn tương ứng của nó thì chắc chắn có thể giải quyết được bài toán gán
nhãn từ loại với kết quả tối ưu. Tuy nhiên, trong thực tế một từ đôi khi có thể có nhiều
hơn một nhãn từ loại thích hợp, và ta cũng không thể kiểm soát được toàn bộ các từ có
thể xuất hiện trong văn bản, điều này dẫn đến hai vấn đề mà bài toán gán nhãn từ loại
phải đối mặt: Nhập nhằng từ loại và từ mới.
Vấn đề chủ yếu của bài toán gán nhãn từ loại thực chất là việc loại bỏ nhập
nhằng về từ loại, tức là khi một từ có nhiều từ loại, nhưng trong một ngữ cảnh cụ thể,
nó chỉ có thể có một từ loại đúng mà thôi [5, 18].
Ví dụ:
Trong câu “I can can a can”, bộ gán nhãn từ loại sẽ phải đánh dấu từ loại
như sau:
I/PRO can/AUX can/V a/DET can/N.
Trong hai câu sau đây, từ “race” được gán nhãn khác nhau:
- Secretariat/NNP is/VBZ expected/VBN to/TO race/VB tomorrow/NN
6
- People/NNS continue/VBP to/TO inquire/VB the/DT reason/NN for/IN the/DT
race/NN for/IN outer/JJ space/NN
Đây là một vấn đề rất phức tạp và tồn tại trong hầu như tất cả mọi ngôn ngữ mà
ta không thể tránh được, lấy ví dụ như trong tập từ vựng Brown và tập nhãn Brown
của nó trong tiếng Anh thì có 35340 từ không có nhập nhằng (tức là một từ chỉ có
đúng duy nhất một nhãn trong mọi trường hợp), và 4100 từ chứa nhập nhằng (tức là
một từ có thể có từ 2 đến 7 nhãn trong các ngữ cảnh khác nhau) – Kết quả này do
Derose tổng kết năm 1988 [18], chi tiết cho ở bảng 2 dưới đây:
Bảng 2. Tổng kêt số nhãn có thể có của một từ trong tập từ vựng Brown
Số nhãn
Số từ
1
2
3
4
5
6
7
35340
3760
264
61
12
2
1
Nhìn chung, các nhập nhằng từ loại thường được giải quyết bằng cách xét đến
ngữ cảnh mà từ đó xuất hiện, tuy nhiên trong một số trường hợp, ngay cả khi có thông
tin về ngữ cảnh mà một số từ vẫn còn tiềm tàng nhập nhằng về từ loại.
Một vấn đề khác mà bài toán gán nhãn từ loại cần phải xử lý là khi gặp những từ
mới mà bộ gán nhãn không thể giải quyết được bằng những cách thông thường. Trong
trường hợp này, thường thì hệ thống sẽ để nguyên và đánh dấu một từ loại đặc biệt để
chuyển sang phần xử lý tên riêng (proper name) hay từ mới (unknown word).
1.3. Tập nhãn từ loại
1.3.1. Nguyên tắc xây dựng tập nhãn từ loại và một số tập nhãn từ loại
của các ngôn ngữ trên thế giới
Từ loại là những lớp từ có cùng bản chất ngữ pháp, được phân chia theo ý nghĩa
khái quát, theo khả năng kết hợp với các từ ngữ khác trong ngữ lưu và thực hiện
những chức năng ngữ pháp nhất định ở trong câu [1]. Trong thực tế, các tập nhãn sử
dụng cho việc gán nhãn từ loại thường được xây dựng và phát triển từ các lớp cơ bản
là các lớp từ đóng (Closed word class, function word class, còn được gọi là các từ
chức năng, là một tập cố định và không thể mở rộng, các lớp này thường chỉ chứa một
số lượng ít các từ có liên quan. Ví dụ: Giới từ, mạo từ, đại từ, số đếm,...) và các lớp từ
mở (Open class, là các lớp từ có khả năng mở rộng bằng cách tạo thêm từ mới hoặc
“mượn” từ các ngôn ngữ khác. Có 4 lớp từ mở chính là danh từ - nouns, động từ verb, tính từ - adjective và một phần của phó từ - [adverb]). Thường thì một lớp từ sẽ
được chia thành nhiều từ loại theo các đặc tính riêng nào đó [21].
7
Chỉ xét riêng đối với Tiếng Anh, cho đến hiện nay đã có rất nhiều tập nhãn từ
loại khác nhau được xây dựng và sử dụng, hình 2 điểm qua một số tập nhãn từ loại đã
được xây dựng theo các mốc thời gian [7].
1960
1970
Brown Corplus
Created (EN-US)
1 Millions Words
1980
Brown
Corplus
1990
2000
LOB Corplus
Tagged
LOB Corplus
Created(EN-US)
1 Millions Words
POS Tagging
separated from
other NLP
British National
Corpus
(tagged by CLAWS)
Penn Treebank
Corpus
(WSJ, 4.5M)
Hình 2. Một số tập nhãn từ loại cho Tiếng Anh
Có thể kể đến một số tập nhãn từ loại điển hình như:
Brown corpus: 87 nhãn.
Penn Treebank: 45 nhãn. Các nhãn của tập nhãn từ loại Penn Treebank được
cho trong bảng 3 dưới đây.
Lancaster UCREL C5 (Dùng để gán nhãn BNC – British National Corpus): 61
nhãn.
Lancaster C7: 145 nhãn.
Bảng 3. Tập nhãn từ loại Penn Treebank
Nhãn
CC
CD
DT
EX
FW
IN
JJ
Ý nghĩa
Nhãn
Ý nghĩa
Coordinating conjunction
Cardinal number
Determiner
Existential there
Foreign word
Preposition/sub- conjunction
Adjective
SYM
TO
UH
VB
VBD
VBG
VBN
Symbol
“to”
Interjection
Verb, base form
Verb, past tense
Verb, gerund or present participle
Verb, past participle
8
Nhãn
Ý nghĩa
JJR
JJS
LS
MD
NN
NNS
NNP
NNPS
PDT
POS
PP
PP$
RB
RBR
RBS
Adjective, comparative
Adjective, superlative
List item marker
Modal
Noun, singular or mass
Noun, plural
Proper noun, singular
Proper noun, plural
Predeterminer
Possessive ending
Personal pronoun
Possessive pronoun
Adverb
Adverb, comparative
Adverb, superlative
RP
Particle
Nhãn
Ý nghĩa
VBP
VBZ
WTD
WP
WP$
WRB
$
#
“
”
(
)
,
.
Verb, non-3rd person singular
present
Verb, 3rd person singular present
Wh-determiner
Wh-pronoun
Possessive wh-pronoun
Wh-adverb
Dollar sign
Pound sign
Left quote
Right quote
Left parenthesis
Right parenthesis
Comma
Sentence-final punc
Mid-sentence punc
:
Đối với các ngôn ngữ khác trên thế giới, để phục vụ cho việc giải quyết bài toán
gán nhãn từ loại, nhiều tập nhãn từ loại với độ mịn khác nhau cũng đã được xây dựng
cho mỗi ngôn ngữ, ví dụ như tập nhãn Chinese Treebank gồm 33 nhãn và Uppen CTB
gồm 23 nhãn cho tiếng Trung Quốc, tập nhãn di SI-TAL gồm 15 nhãn và tập nhãn
Achim Stein Italian tagset gồm 37 nhãn của tiếng Ý [18], …
Như vậy, với mỗi ngôn ngữ thường đều có nhiều tập nhãn từ loại có thể sử dụng,
tuy nhiên, việc lựa chọn tập nhãn ảnh hướng rất lớn đến độ khó của bài toán gán nhãn
từ loại. Chọn tập nhãn lớn sẽ làm tăng độ khó nhưng tập nhãn nhỏ hơn có thể không
đủ đáp ứng cho một mục đích nhất định nào đó. Việc chọn tập nhãn nào sẽ tùy thuộc
vào từng ứng dụng cụ thể, nói cách khác là tùy thuộc vào số lượng thông tin mà ứng
dụng đó đòi hỏi. Như vậy, cần phải có một sự thoả hiệp để xây dựng được một bộ
nhãn từ loại không quá lớn và có chất lượng [2, 21], tức là cần phải có sự cân đối giữa:
Có được lượng thông tin rõ ràng hơn (Tức là phạm vi phân lớp từ loại nhỏ hơn,
chia thành nhiều từ loại hơn dựa trên nhiều yếu tố thể hiện sự khác biệt).
9
Có khả năng tiến hành thực hiện việc gán nhãn (Tức là số lượng các từ loại
càng ít càng dễ tiến hành).
1.3.2. Một số tập nhãn từ loại hiện được đề xuất ở Việt Nam
Đối với tiếng Việt, việc thiết kế một tập nhãn từ loại còn vấp phải một vấn đề
lớn, đó là ngay trong tiếng Việt thì vấn đề từ loại vẫn còn gây nhiều tranh cãi. Theo
Diệp Quang Ban [1], việc phân định từ loại phải dựa trên các tiêu chuẩn sau đây:
Tiêu chuẩn 1 - Ý nghĩa khái quát của từ. Các từ loại là những nhóm từ rất to
lớn về khối lượng mà mỗi nhóm có một đặc trưng phân loại: tính vật thể, phẩm
chất, hành động hoặc trạng thái … Ví dụ, những từ như: nhà, bàn, học sinh,
con, quyển, sự … được phân vào lớp danh từ, vì ý nghĩa từ vựng của chúng
được khái quát hóa và trừu tượng hóa thành ý nghĩa thực thể - ý nghĩa phạm
trù ngữ pháp của danh từ.
Tiêu chuẩn 2 - Khả năng kết hợp với các từ ngữ khác trong ngữ lưu. Với ý
nghĩa khái quát, các từ có thể có khả năng tham gia vào một kết hợp có nghĩa.
Ở mỗi vị trí của kết hợp có thể xuất hiện những từ có khả năng lần lượt thay thế
nhau, trong khi đó, ở các vị trí khác nhau trong kết hợp, các từ còn lại tạo ra
bối cảnh cho sự xuất hiện khả năng thay thế của những từ nói trên. Những từ
cùng xuất hiện trong cùng một bối cảnh, có khả năng thay thế nhau ở cùng một
vị trí, có tình chất thường xuyên, được tập hơn vào một lớp từ. Vận dụng vào
tiếng Việt, những từ; nhà, bàn, cát, đá … có thể xuất hiện và thay thế nhau
trong kết hợp kiểu: nhàn ày, bàn này, cát này, đá này … và được xếp vào lớp
danh từ. Chúng không thể xuất hiện và thay thế cho nhau trong kết hợp kiểu:
hãy ăn, hãy mua, ăn xong, mua xong … vốn là kiểu kết hợp của động từ.
Tiêu chuẩn 3 - Chức năng ngữ pháp. Tham gia vào cấu tạo câu, các từ có thể
đứng ở một hay một số vị trí nhất định trong câu, hoặc có thể thay thế nhau ở vị
trí đó, và cùng biểu thị một mối quan hệ về chức năng cú pháp với các thành
phần khác trong cấu tạo câu, có thể phân vào một từ loại. Ví dụ, các từ; nhà,
bàn, cát, đá … có thể đứng ở nhiều vị trí trong câu. Chúng có thể thay thế nhau
ở những vị trí đó, và có quan hệ về chức năng giống nhau với các thành phần
khác trong câu ở mỗi vị trí, nhưng thường ở vị trí chủ ngữ trong quan hệ với vị
ngữ. Chủ ngữ và vị ngữ là hai chức năng cú pháp cơ bản, chức năng chủ ngữ là
chức năng cú pháp chủ yếu để phân loại các từ nói trên vào lớp danh từ; còn
10
chức năng vị ngữ lại là chức năng cú pháp chủ yếu của các động từ và tính từ
…
Qua khảo sát các nghiên cứu gần đây của tiếng Việt cho bài toán gán nhãn từ loại
[2, 3, 4, 6], có thể thấy có hai dạng tập nhãn từ loại thường được sử dụng cho các công
cụ gán nhãn từ loại tiếng Việt:
Dạng thứ nhất, xuất phát từ tập gồm 8 nhãn từ loại tiếng Việt thông dụng được
các nhà nghiên cứu ngôn ngữ học công nhận nhiều nhất (bao gồm: danh từ,
động từ, tính từ, đại từ, phụ từ, kết từ, trợ từ, cảm từ) để xây dựng tập nhãn
“mịn” hơn bằng cách phân nhỏ mỗi từ loại trên thành các tiểu từ loại. Việc phân
nhỏ này dựa trên nền tảng là các tiểu loại từ được nêu ra trong cuốn Ngữ pháp
tiếng Việt của Ủy ban khoa học xã hội Việt Nam, xuất bản năm 1993, có bổ
sung thêm một số nhãn từ loại để tránh trường hợp một từ mang cùng một lúc
nhiều nhãn từ loại (chẳng hạn động từ ngoại động chỉ cảm nghĩ hay động từ nội
động chỉ cảm nghĩ). Tùy thuộc vào từng loại ứng dụng xem cần thông tin cú
pháp và từ vựng ở mức nào mà việc xây dựng, xác định tập nhãn từ loại sẽ
dừng ở mức thô hay mịn khác nhau.
Hiện nay, ở Việt Nam đã có một số tập nhãn từ loại được xây dựng, chủ yếu ở
mức thô, tiêu biểu có thể kể đến bộ nhãn VnPOStag của tác giả Trần Thị Oanh
gồm 14 nhãn, 01 nhãn không xác định và các nhãn ký hiệu đặc biệt khác; bộ
VietTreeBank gồm 16 nhãn và 01 nhãn cho từ không phân loại được, … Bộ
nhãn gồm nhiều nhãn nhất hiện nay được xây dựng bởi nhóm tác giả Nguyễn
Thị Minh Huyền sử dụng cho công cụ VnQtag gồm 48 nhãn và 01 nhãn không
xác định.
Dạng thứ hai, tập nhãn tiếng Việt được xây dựng thông qua việc xây dựng kho
ngữ liệu song ngữ Anh-Việt mà trong đó các câu tiếng Việt đã được gán nhãn
từ loại chính xác nhờ kết quả liên kết từ Anh-Việt và phép chiếu từ loại từ Anh
sang Việt.
Tiêu biểu cho dạng tập nhãn từ loại này là tập nhãn được sử dụng trong nghiên
cứu “Gán nhãn từ loại tự động cho Tiếng Việt” của nhóm tác giả Đinh Điền [6],
tập nhãn này được xây dựng bằng cách quy chiếu từ tập nhãn tiếng Anh là Brown
Corpus.
Hiện nay, bài toán gán nhãn từ loại cho tiếng Anh đã được giải quyết khá tốt, đạt
độ chính xác cao (Khoảng hơn 97% ), bên cạnh việc hoàn thiện hơn nữa các phương
11
- Xem thêm -