ỦY BAN NHÂN DÂN TP. HỒ CHÍ MINH
SỞ KHOA HỌC – CÔNG NGHỆ
-------------------------
BÁO CÁO KẾT QUẢ
Đề tài:
PHÁT TRIỂN MỘT SỒ CÔNG CỤ HỖ TRỢ PHÂN TÍCH,
TỔNG HỢP VĂN BẢN TIẾNG VIỆT
Chủ nhiệm đề tài : PGS. TS. ĐỖ PHÚC
Cơ quan chủ trì: Trường Đại học Công nghệ Thông tin, ĐHQG-HCM
Địa chỉ: 34 Trương Định, Quận 3, Tp. Hồ Chí Minh
Điện thoại: (08) 9301471
== Năm 2007 ==
1
DANH SÁCH CÁN BỘ THAM GIA
TT
Họ và tên
Học vị
Ngành chuyên môn
Đơn vị công tác
1
Đỗ Phúc
Tiến sĩ
Tin học
Trường ĐHCNTT
2
Lê Khắc Cường
Tiến sĩ
Ngữ Văn Báo chí
ĐHKHXHNV
3
Hồ Anh Thư
Thạc sĩ
Tin học
Trường ĐHCNTT
4
Thạc sĩ
Tin học
Trường ĐHCNTT
5
Nguyễn T Kim
Phụng
Mai Xuân Hùng
Thạc sĩ
Tin học
Trường ĐHCNTT
6
Dương Khai Phong
Cử nhân
Tin học
Trường ĐHCNTT
MỤC LỤC
CHƯƠNG 1: TỔNG QUAN
1.1. MỞ ĐẦU
1.2. MỤC TIÊU CỦA ĐỀ TÀI
1.2.1.Nghiên cứu đặc trưng văn bản tiếng Việt
1.2.2. Xây dựng kho ngữ liệu
1.2.3.Nghiên cứu, xây dựng các công cụ phân loại, tạo tổng lược văn bản
tiếng Việt trong lĩnh vực công nghệ thông tin.
1.3. CẤU TRÚC CÁC CHƯƠNG MỤC CỦA BÁO CÁO
3
CHƯƠNG 2: RÚT TRÍCH CỤM DANH TỪ ĐỂ ĐẶC TRƯNG VĂN
BẢN
2.1 MỞ ĐẦU
2.2.TÁCH CÂU
2.3. TÁCH TỪ
2.4. XÁC ĐỊNH TỪ LOẠI
2.4.1. Thuật toán gán nhãn từ loại
2.4.2. Bộ gán nhãn VNQTAG cho tiếng Việt
2.5. TRÍCH CỤM DANH TỪ
2.6. XÂY DỰNG PHẦN MỀM TRÍCH CỤM DANH TỪ TIẾNG VIỆT
2.7. KẾT CHƯƠNG
5
5
6
7
8
9
11
15
17
CHƯƠNG 3: XÂY DỰNG TỪ ĐIỂN TỔNG HỢP VÀ KHO NGỮ
2
1
2
2
2
2
LIỆU GÁN NHÃN TỪ LOẠI
3.1. XÂY DỰNG TỪ ĐIỂN TỪ ĐỒNG NGHĨA, GẦN NGHĨA
3.1.1.Từ điển LDOCE
3.1.2.Nghiên cứu cấu trúc WORDNET
3.1.3.Khoảng cách ngữ nghĩa
3.1.4. Nguồn dữ liệu để xây dựng từ điển đồng nghĩa, gần nghĩa
3.1.5. Xây dựng từ điển tổng hợp
3.2. XÂY DỰNG CÁC KHO NGỮ LIỆU
3.2.1 Chuẩn hoá dạng ngữ liệu
3.2.2. Xây dựng kho ngữ liệu có gán nhãn từ loại gồm các bài báo tiếng Việt
trong lĩnh vực
3.2.3. Xây dựng kho ngữ liệu phục vụ thuật toán phân loại văn bản
3.2.4. Xây dựng kho ngữ liệu phục vụ thuật toán trích lược nội dung
3.2.5. Xây dựng kho ngữ liệu phục vụ kiểm tra thuật toán gom cụm bằng
mạng Kohonen
3.3. KẾT CHƯƠNG
CHƯƠNG 4: PHÁT TRIỂN HỆ THỐNG PHÂN LOẠI VĂN BẢN
TIẾNG VIỆT BẰNG PHƯƠNG PHÁP NAÏVE BAYES VÀ ỨNG
DỤNG ĐỂ PHÂN LỚP THÔNG ĐIỆP TIẾNG VIỆT TRÊN DIỄN
ĐÀM THẢO LUẬN QUA MẠNG
4.1. MỞ ĐẦU
4.2. CÁC TIẾP CẤN PHÂN LỚP
4.3. MÔ HÌNH PHÂN LỚP BẰNG PHƯƠNG PHÁP NAÏVE BAYES
4.3.1. Đặc trưng văn bản cho phân lớp Bayes
4.3.2. Mô hình phân lớp Bayes
4.3.3. Xây dựng bộ phân lớp văn bản Naive Bayes
4.3.4. Đánh giá
4.4. XÂY DỰNG HỆ THỐNG PHÂN LỚP THÔNG ĐIỆP TRÊN DIỄN
ĐÀN THẢO LUẬN THEO TIẾP CẬN BAYES
4.4.1. Diễn đàn thảo luận
4.4.2. Vấn đề cần giải quyết
4.4.3. Xây dựng hệ thống
4.4.4. Quy trình thực hiện
4.4.5. Cơ sở dữ liệu lưu trữ thông điệp
4.4.6. Xây dựng Website diễn đàn thảo luận
4.4.7. Quá trình trích chọn đặc trưng thông điệp
4.4.8. Kết qủa thực hiện
4.5. KẾT CHƯƠNG
18
18
19
22
23
27
28
28
28
28
29
30
30
31
31
32
32
38
40
43
44
44
44
43
46
47
51
52
54
57
CHƯƠNG 5: TÓM TẮT VĂN BẢN THEO CÁCH TRÍCH LƯỢC
5.1. MỞ ĐẦU
5.2. CÁC NGHIÊN CỨU LIÊN QUAN
58
58
3
5.3. CÁC YÊU CẦU ĐỐI VỚI TÓM TẮT VĂN BẢN
5.4.CÁC PHƯƠNG PHÁP TÓM TẮT VĂN BẢN TỰ ĐỘNG
5.4.1.Hướng phân tích ngôn ngữ “nông”
5.4.2.Hướng phân tích ngôn ngữ “sâu”
5.5. CẤU TRÚC CỦA CHƯƠNG TRÌNH TẠO TRÍCH LƯỢC VĂN BẢN
5.6.TÓM TẮT THEO HƯỚNG TRÍCH LƯỢC TÀI LIỆU WEB
5.7.TÓM TẮT TRANG WEB DỰA VÀO NGỮ CẢNH CỦA TRANG
WEB
5.7.1. Mở đầu
5.7.2.Ngữ cảnh của tài liệu Web
5.7.3.Các công việc chính
5.8.VẤN ĐỀ ĐÁNH GIÁ KẾT QUẢ TÓM TẮT
5.8.1. Giới thiệu
5.8.2. Đặc điểm của các phương pháp đánh giá
5.8.3.Đánh giá bên trong
5.8.4. Đánh giá bên ngoài
5.8.5.So sánh các phương pháp đánh giá bên trong và đánh giá- bên ngoài
5.9. MỘT SỐ TIÊU CHÍ ĐÁNH GIÁ
5.9.1. Độ đo mức độ chính xác và mức bao phủ
5.9.2. Độ đo dựa trên nội dung
5.10. CÁC PHƯƠNG PHÁP ĐÁNH GIÁ
5.10.1. Phương pháp đánh giá độ tương tự về nội dung
5.10.2. Độ tương quan phù hợp
5.10.3. Phương pháp đánh giá theo độ chính xác và độ hồi tưởng
5.11. KẾT CHƯƠNG
60
61
62
62
63
67
68
68
69
69
72
72
73
73
74
74
74
74
74
75
75
75
76
76
CHƯƠNG 6: XÂY DỰNG CHƯƠNG TRÌNH TRÍCH LƯỢC VĂN
BẢN
6.1.MỞ ĐẦU
6.2. QUY TRÌNH XỬ LÝ
6.3. PHƯƠNG PHÁP XỬ LÝ
6.3.1.Trích thông tin trang Web và phân vùng tạm thời
6.3.2. Trích thông tin ngữ cảnh của trang Web
6.3.3.Tách câu
6.3.4.Tách từ
6.3.5. Gán nhãn từ loại
6.3.6. Phát hiện các cụm từ
6.3.7. Loại bỏ các câu không hợp lệ
6.3.8.Biểu diễn câu vào không gian vec-tơ
6.3.9.Xác định vùng văn bản chính
6.3.10.Gom cụm các câu
6.3.11.Rút câu trội
6.4. XÂY DỰNG HỆ THỐNG
6.4.1. Mô tả chương trình
4
77
77
79
79
81
83
83
83
83
84
84
85
85
86
88
88
6.4.2. Kết quả thử nghiệm
6.5.KẾT CHƯƠNG
90
99
CHƯƠNG 7: GOM CỤM VĂN BẢN BẰNG MẠNG KOHONEN VÀ
TRÍCH LƯỢC NỘI DUNG CHÍNH CỦA NHIỀU VĂN BẢN
7.1. MỞ ĐẦU
7.2. TẠO VECTƠ ĐẶC TRƯNG
7.2.1. Tìm tập hợp các cụm danh từ phổ biến
7.2.2. Điều chỉnh thành phần của vector đặc trưng văn bản hoặc đặc trưng
câu
7.2.3. Tạo vector đặc trưng câu và vector đặc trưng văn bản
7.3. GOM CỤM VĂN BẢN BẰNG MẠNG KOHONEN
7.3.1. Mạng Kohonen
7.3.2. Gom cụm từ lớp ra Kohonen
7.3.3. Thuật giải huấn luyện mạng Kohonen
7.3.4. Đặc trưng các cụm trên lớp ra Kohonen
7.3.5. Cải tiến thuật giải huấn luyện mạng Kohonen
7.4. TRUY VẤN TƯƠNG TỰ THÔNG QUA LỚP RA KOHONEN
7.5. THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ GOM CỤM
7.5.1. Các hệ số để đánh giá
7.5.2.Thử nghiệm và đánh giá
7.6. TRÍCH RÚT CÂU QUAN TRỌNG
7.6.1. Trích các câu quan trọng
7.6.2. Trích các câu đặc biệt
7.7. KẾT CHƯƠNG
100
100
100
100
103
104
104
104
105
106
106
108
109
109
112
118
118
118
118
CHƯƠNG 8: TỔNG KẾT VÀ HƯỚNG PHÁT TRIỂN
8.1. CÁC KẾT QUẢ CỦA ĐỀ TÀI
8.2. DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC ĐÃ CÔNG BỐ CÓ
LIÊN QUAN ĐẾN ĐỀ TÀI
8.3.. DANH SÁCH CÁC HỌC VIÊN CAO HỌC ĐÃ BẢO VỆ THÀNH
CÔNG LUẬN VĂN THẠC SỸ THEO HƯỚNG ĐỀ TÀI
8.4. HƯỚNG PHÁT TRIỂN CỦA ĐỀ TÀI
128
PHỤ LỤC
Bộ chú thích từ lọai mức 2
Chuỗi từ lọai xác định cụm danh từ
Danh mục một số từ khóa trong từng chủ đề
Từ điển đồng nghĩa
Từ điển CVDIC
Computer ontology
Tập thuật ngữ tin học có liên quan
Hướng dẫn sử dụng các phần mềm cài đặt theo đề tài
Tuyển tập các bài báo khoa học đã công bố có liên quan đến đề tài
132
133
134
138
139
143
147
158
167
5
125
126
127
CHƯƠNG 1
TỔNG QUAN
1.1. MỞ ĐẦU
Hầu hết các thông tin trên Internet đều ở dạng văn bản và khối lượng thông tin
này là rất lớn ( chiếm khoảng 80% lượng thông tin trên Internet). Do vậy cần phải
có các phần mềm tin học hỗ trợ phân tích, tổng hợp thông tin văn bản như phân loại
văn bản, truy vấn văn bản, tóm lược văn bản... nhằm hỗ trợ nhu cầu khai thác, xử lý
thông tin nhanh chóng và hiệu quả.
Trên thế giới đã có nhiều sản phẩm phần mềm hỗ trợ phân tích, tổng hợp thông
tin văn bản. Có thể liệt kê một số sản phẩm tiêu biểu theo hướng này như:
-
-
-
Text Analyst của hãng Megaputer: Phần mềm này sử dụng mạng Hopfield
để phát hiện các khái niệm tiềm ẩn trong văn bản và tạo sơ đồ liên hệ giữa các
khái niệm. Sau đó có thể truy vấn theo khái niệm, tóm tắt nội dung văn bản.
Intelligent Miner for Text của hãng IBM: Phần mềm này có các tính năng
phân tích văn bản ( gom cụm văn bản, phân loại văn bản, rút trích khái niệm,
nhận dạng ngôn ngữ. . .). Phần mềm được phát triển trên nền mạng nơron,
dàn khái niệm, phân tích thông tin đa ngữ và từ điển tương đồng.
WEBSOM của Đại học Helsinki, Phần Lan: Dự án này dựa trên mạng
Kohonen và có khả năng gom cụm thông tin trong thư viện số thành các cụm
(tập hợp văn bản có nội dung gần nhau). Các cụm được biểu diễn trực quan
thành bản đồ văn bản trên màn hình. Do vậy có thể khái quát và nắm bắt
nhanh chóng nội dung của khối ngữ liệu gồm nhiều văn bản.
Chức năng AutoSummarize của phần mềm Microsoft Word với khả năng
tạo trích lược các câu quan trọng trong văn bản tiếng Anh. Bên cạnh đó, phần
mềm có có khả năng thống kê từ, câu, độ khó của văn bản...
Tuy vậy, các hệ thống phần mềm trên chỉ xử lý văn bản tiếng Anh. Hiện nay, số
lượng trang Web tiếng Việt ngày càng phong phú, các nguồn dữ liệu văn bản điện
6
tử tiếng Việt được đưa lên Web ngày càng phát triển. Vì thế cần phải đầu tư nghiên
cứu phát triển các phần mềm hỗ trợ phân tích, tổng hợp văn bản tiếng Việt.
Trong nuớc, một số nhà nghiên cứu đã tập trung vào vấn đề này. Tại Khoa Hệ
thống thông tin (trường Đại học Công nghệ Thông tin); Khoa CNTT (trường Đại
học Khoa học Tự nhiên); Khoa tiếng Việt, Khoa Ngữ văn-Báo chí (trường Đại học
Khoa học Xã hội và Nhân văn) đã có một số đề tài nghiên cứu về các đặc thù trong
ngữ pháp tiếng Việt, đề xuất các phương án biểu diễn văn bản tiếng Việt, xử lýphân tích văn bản tiếng Việt bằng máy tính. Một số công trình tiêu biểu có liên quan
đến đề tài nghiên cứu như sau:
• GS. Nguyễn Đức Dân-TS. Đặng Thái Minh (1999) đã nghiên cứu xây dựng
từ điển tần số tiếng Việt phục vụ nghiên cứu ngôn ngữ học so sánh. Các tác
giả đã sử dụng phương pháp thống kê trên khối ngữ liệu truyện ký, dùng tần
suất của từ nhằm phát hiện các từ đặc trưng cho văn bản. Xây dựng từ điển
tần số của dòng truyện ký và tiến hành một số thao tác so sánh đặc trưng văn
bản theo mô hình vector.
• GS. Hoàng Kiếm- TS. Đỗ Phúc (2002) đã nghiên cứu sử dụng cây hậu tố mở
rộng nhằm rút trích các dãy từ phổ biến trong tập ngữ liệu gồm nhiều văn
bản tiếng Anh. Sau đó dùng dãy từ phổ biến tạo không gian vector nhằm đặc
trưng văn bản bằng vector với các thành phần có giá trị nhị phân, hoặc số
thực qua hệ số tf-idf theo các dãy từ phổ biến ... Bên cạnh đó, các tác giả còn
nghiên cứu sử dụng từ điển đồng hiện và WordNet để xem xét ngữ nghĩa
tiếng Anh của các thành phần trong vector ứng với các từ gần nghĩa hoặc
đồng nghĩa và gom cụm bài báo hỗ trợ truy vấn tương đồng trong thư viện
số hoá.
• GS. Hoàng Kiếm-Th Sĩ Huỳnh Ngọc Tín (2003) đã sử dụng mạng neuron
GHSOM kết hợp với các kết quả nghiên cứu về tiếng Việt của GS. Cao Xuân
Hạo về đề và thuyết. Nhóm tác giả đã sử dụng các dấu hiện nhận dạng đề và
thuyết là các từ “thì”, “là”, “mà” để tách các đoạn trong câu và phát hiện
thành phần phổ biến của đoạn.
• TS. Nguyễn Thị Minh Huyền (2003) và cộng sự đã nghiên cứu gán nhãn từ
loại dựa trên hệ thống từ loại do nhóm đề xuất. Nhóm tác giả đã xây dựng từ
điển tiếng Việt có từ loại và sử dụng phần mềm gán nhãn từ loại VNQTAG
để thực hiện gán nhãn từ loại dựa trên khối ngữ liệu học.
• TS. Đinh Điền và cộng sự (2004) đã xây dựng kho ngữ liệu song ngữ Anh
Việt phục vụ dịch máy. Tác giả đã phát triển thuật toán TBL và mô hình
BTL…giải quyết một số bài toán quan trọng trong tiếng Anh, tiếng Việt như
tách từ, gán nhãn từ loại, khử nhập nhằng, dịch máy…
Các kết quả trên là cơ sở bước đầu giúp nhóm đề tài triển khai đề tài nghiên cứu
xây dựng phát triển một số công cụ hỗ trợ phân tích, tổng hợp văn bản tiếng Việt.
1.2. MỤC TIÊU CỦA ĐỀ TÀI
Đề tài tập trung nghiên cứu các nội dung sau:
1.2.1.Nghiên cứu đặc trưng văn bản tiếng Việt
7
- Một số khía cạnh của từ vựng, ngữ pháp, ngữ nghĩa trong văn bản tiếng Việt.
- Các phương pháp đặc trưng văn bản nói chung và văn bản tiếng Việt nói
riêng
- Các phương pháp tách từ, gán nhãn từ loại, trích cụm danh từ ...
1.2.2. Xây dựng kho ngữ liệu
- Xây dựng kho ngữ liệu trong lĩnh vực CNTT
- Xây dựng từ điển đồng nghĩa trong lĩnh vực CNTT.
1.2.3.Nghiên cứu, xây dựng các công cụ phân loại, tạo tổng lược văn bản
tiếng Việt trong lĩnh vực công nghệ thông tin.
a ) Công cụ phân loại văn bản trong lĩnh vực CNTT
- Nghiên cứu các phương pháp phân loại văn bản hiện có.
- Phát triển mô hình phân loại văn bản tiếng Việt trong lĩnh vực CNTT có xem
xét ngữ nghĩa.
b) Công cụ tạo tóm tắt văn bản trong lĩnh vực CNTT.
− Nghiên cứu các phương pháp tạo tóm lược văn bản.
− Phát triển mô hình trích lược văn bản tiếng Việt trong lĩnh vực CNTT có
xem xét ngữ nghĩa.
1.3. CẤU TRÚC CÁC CHƯƠNG MỤC CỦA BÁO CÁO
Chương 1: Tổng quan
Chương này trình bày tổng quan về đề tài nghiên cứu, xác định nhiệm vụ nghiên
cứu, các bài toán cần giải quyết và cấu trúc của các chương mục trong báo cáo.
Chương 2: Rút trích cụm danh từ để đặc trưng văn bản
Chương này trình bày nghiên cứu về các công đoạn tách câu, tách từ, gán nhãn từ
loại, rút trích cụm danh từ và xây dựng phần mềm rút trích cụm danh từ trong văn
bản tiếng Việt.
Chương 3: Xây dựng từ điển tổng hợp và kho ngữ liệu
Chương này trình bày cách xây dựng từ điển đồng nghĩa, gần nghĩa các từ trong
lĩnh vực CNTT nhằm giải quyết vấn đề ngữ nghĩa trong các xử lý văn bản tiếng
Việt. Chương này trình bày cấu trúc của các từ điển Wordnet, LDOCE, khoảng cách
ngữ nghĩa để đo sự tương đồng về nghĩa của các từ. Dựa trên các nguồn dữ liệu
như: từ điển Wordnet, từ điển LDOCE, từ điển các từ đồng nghĩa, các từ liên quan
trong lĩnh vực CNTT, nhóm đề tài đã xây dựng từ điển đồng nghĩa, gần nghĩa các
thuật ngữ trong lĩnh vực CNTT. Nhiệm vụ thứ hai của nhóm đề tài là xây dựng các
kho ngữ liệu phục vụ cho việc triển khai các chức năng như tách từ, gán nhãn từ
loại, phân loại văn bản, trích lược nội dung. Các chức năng này đều được xây dựng
theo tiếp cận học máy, do đó cần tập dữ liệu huấn luyện để huấn luyện mô hình
hoặc kiểm tra độ chính xác của mô hình đề xuất. Nhóm đề tài đã sưu tầm và tổ chức
8
kho ngữ liệu tách từ, gán từ loại, ngữ liệu phục vụ bài toán phân lớp thông điệp, ngữ
liệu để đánh giá kết quả trích lược nội dung văn bản.
Chương 4 : Phát triển hệ thống phân loại văn bản tiếng Việt bằng phương
pháp Naive Bayes và ứng dụng để phân lớp thông điệp trên diễn đàn thảo luận
qua mạng
Chương này trình bày mô hình phân lớp Naive Bayes để phân lớp văn bản, cách
đặc trưng văn bản cho mô hình Naive Bayes.Cách bổ sung ngữ nghĩa vào bài tóan
phân lọai văn bản. Bên cạnh đó, chương này cũng trình bày một ứng dụng phân loại
thông điệp tiếng Việt trên diễn đàn thảo luận qua mạng nhằm mục tiêu hỗ trợ công
việc quản lý nôi dung trên diễn đàn thảo luận.
Chương 5: Tóm tắt vằn bản theo hướng trích lược
Chương này trình bày các nghiên cứu về tóm tắt văn bản theo hướng tóm lược và
theo hướng trích lược. Những vấn đề liên quan đến trích lược trang Web tiếng Việt
có xem xét ngữ cảnh của trang Web. Vấn đề đánh giá kết quả tóm tắt văn bản.
Chương 6: Xây dựng chương trình trích lược văn bản
Chương này trình bày các bước xây dựng chương trình trích lược văn bản gồm các
công việc như trích thông tin trang Web và phân vùng tạm thời, trích thông tin ngữ
cảnh của trang Web, tách câu, tách từ, gán nhãn từ loại, phát hiện cụm danh từ, so
sánh nghĩa của từ, biểu diễn câu trong không gian vec-tơ các cụm danh từ phổ biến,
gom cụm các câu và trích câu trội. Bên cạnh đó, chương này cũng trình bày các thử
nghiệm của chương trình cài đặt và đối sánh kết quả với chức năng autosummarize
của Microsoft Word và kết qủa do chuyên gia tạo ra.
Chương 7: Gom cụm văn bản bằng mạng Kohonen và trích lược nội dung
chính của nhiều văn bản
Chương này trình bày cách bước xây dựng chương trình trích lược nội dung chính
nhiều văn bản bao gồm biểu diễn văn bản bằng cụm danh từ, cách rút gọn chiều của
vector đặc trưng dựa vào các thành phần đồng nghĩa hoặc gần nghĩa qua đồ thị đồng
hiện, mạng Kohonen và bài toán gom cụm nhiều văn bản. Qúa trình trích rút các
câu trội từ các cụm văn bản có nội dung tương tự nhau.
Chương 8: Tổng kết và hướng phát triển
Chương này tổng kết các kết qủa đã làm được và định hướng các nghiên cứu trong
tương lai. Bên cạnh đó, chương này còn liệt kê 07 công trình khoa học đã công bố
và danh sách 05 học viên cao học đã bảo vệ thành công luận văn có liên quan đến
đề tài nghiên cứu.
9
CHƯƠNG 2
RÚT TRÍCH CỤM DANH TỪ ĐỂ ĐẶC TRƯNG VĂN BẢN
2.1 MỞ ĐẦU
Các tiếp cận trước đây đã sử dụng các dãy từ phổ biến (dãy từ được lặp đi
lặp lại nhiều lần trong văn bản) [5],[6],[9] để đặc trưng văn bản. Do dùng dãy
từ nên không thể xử lý ngữ nghĩa của các từ. Trong đề tài này, chúng tôi sử
dụng cụm danh từ phổ biến làm yếu tố đặc trưng văn bản. Các danh từ và cụm
danh từ thường mô tả các khái niệm chính trong văn bản, tạo điều kiện đưa
ngữ nghĩa vào bài toán phân lớp văn bản, trích lược nội dung như: vấn đề từ
đồng nghĩa, từ gần nhau, từ liên quan về nghĩa nhằm nâng cao hiệu quả phân
lớp văn bản.
Trong tiếng Việt, đa phần danh từ và cụm danh từ thường mang ý nghĩa
chuyển tải nội dung của câu. Để trích cụm danh từ tiếng Việt cũng có nhiều
cách tiếp cận khác nhau, từ việc học luật chuyển đổi từ ngữ liệu mà công trình
của E. Brill là một giải pháp tiêu biểu đến tiếp cận sử dụng luật do chuyên gia
ngôn ngữ tạo nên. Trong nghiên cứu này, chúng tôi chọn giải pháp tách từ, gán
từ loại, sau đó dựa trên cấu trúc cụm danh từ để trích rút cụm danh từ từ các
từ đã được gán từ loại vì thiếu các nguồn ngữ liệu đã được chú giải cụm danh
từ tiếng Việt.
Trong tiếng Anh, các từ được nhận diện dựa vào khoảng trắng và dấu chấm
câu. Đối với tiếng Việt, khoảng trắng không phải là dấu hiệu để nhận diện
ranh giới từ. Do đó bài toán tách từ, gán nhãn từ loại, trích cụm danh từ là một
công việc phức tạp trong quá trình xử lý văn bản tiếng Việt.
2.2.
TÁCH CÂU
Quá trình tách câu nói chung là một công việc khó. Hiện có hai tiếp cận để giải
quyết bài toán tách câu. Tiếp cận 1 sử dụng ngữ liệu và dùng thuật toán để rút ra các
luật hoặc tạo bộ nhân diện điểm tách câu. Tiếp cận 2 sử dụng luật để xác định câu,
Trong đề tài này, chúng tôi sử dụng tiếp cận 2 và xây dựng một số luật tách câu như
sau:
Đoạn văn bản sẽ được duyệt tuần tự và sẽ được cho ngắt câu khi gặp các ký tự
ngắt câu như “.” (chấm), “!” (chấm than), “?” (chấm hỏi), với điều kiện ký tự kế
tiếp (có thể có các ký tự “khoảng trắng” ở giữa) là ký tự viết in.
Cách làm trên loại bỏ được các trường hợp không phải ngắt câu như:
- Dấu “.” không phải là ngắt câu mà là dấu trong chuỗi số. Lúc này ký tự
kế tiếp dấu chấm phải là số, không phải ký tự viết in.
- Dấu “.” trong một loạt “dấu ba chấm” bên trong câu, chưa phải là cuối
câu.
Lấy một số ví dụ:
10
Đoạn văn bản“Hôm nay là một ngày đẹp trời. Chúng ta sẽ đi
cắm trại ngoài trời” sẽ được ngắt ở giữa từ “trời” và từ
“chúng” để thành hai câu.
Đoạn văn bản “Trong vườn có 1.200 cây các loại, trong đó đa
số là cây ăn trái như cam, quýt, đào, lê, mận, … và một số cây
cảnh như cau, tùng, …” chỉ thuộc một câu.
Luật trên vẫn chưa đủ để phân biệt hết các trường hợp xuất hiện dấu chấm.
Ta xử lý thêm cho các trường hợp có xuất hiện dấu chấm nhưng không tách câu như
sau:
- Chuỗi link, hay địa chỉ Web (URL).
Dấu hiệu nhận diện: có chứa ký tự “.” hay “/” và chứa một trong các
chuỗi con sau (ở đây chỉ liệt kê một số chuỗi thông dụng trong các địa
chỉ Web): “http”, “.com”, “.net”, “.edu”, “.vn”, “.org”, “.htm”,
“.html”, “.asp”, “.jsp”, “.php”, “.gif”, “.jpg”, “.bmp”, “.pdf”, “.ps”,
“.txt”, “.exe”, “.wav”, “.m3u”, “.mp3”.
Ví dụ: http://www.citd.edu.vn
- Ký hiệu viết tắt
Danh sách các ký tự viết tắt được xử lý: “GS.”, “PGS.”, “TS.”, “VS.”,
“TSKH.”, “NCS.”, “ThS.”, “BS.”, “NS.”, “DS.”, “YS.”, “LS.”, “KS.”,
“CN.”, “GĐ.”, “PGĐ.”, “TP.”, “Tp.”, “KCN.”.
- Các chuỗi có chứa nhiều dấu chấm liên tục, chẳng hạn
Chuỗi version (ví dụ: version 1.2.1). Chuỗi dạng này có chứa nhiều
ký tự số.
Địa chỉ IP (ví dụ: 172.9.10.1). Chuỗi dạng này cũng chứa nhiều ký tự
số.
Chuỗi định dạng cho một kiểu ghi nào đó (ví dụ: “version của chương
trình này phải được ghi theo dạng Vx.x.x.x”).
2.3. TÁCH TỪ
Theo [21], các nghiên cứu tách từ hiện nay được chia làm ba hướng: hướng thứ
nhất là hướng tiếp cận dựa trên luật, trong hướng này có các mô hình Longest Matching,
Greedy Matching; với các mô hình này thì từ điển từ là quan trọng. Hướng thứ hai là
hướng tiếp cận dựa trên xác suất thống kê, hướng này dựa trên ngữ cảnh của từ bằng cách
xem xét thông tin các từ lân cận, sau đó đưa ra quyết định tách từ thích hợp. Tiếp cận theo
hướng này, các mô hình hiện nay áp dụng đều là mô hình Markov ẩn bậc 1 (Hidden
Markov Model - HMM) dựa vào thuật toán Viterbi. Hướng thứ ba phần lớn đều là mô hình
lai, kết hợp một số mô hình ngôn ngữ khác nhau như: WFST (Automat lai với HMM),
hướng giảm các lỗi: TBL (Transformation-Based Error-Driven Learning). Hướng này đòi
hỏi nhiều thao tác nên việc xử lý trở nên chậm nhưng độ chính xác rất tốt. Trong đề tài,
chúng tôi sử dụng tiếp cận theo cách của nhóm tác gỉa [21]. Theo tiếp cận này, bài toán
tách từ tiếng Việt là một bài toán thống kê chuyển đổi trạng thái. Đầu tiên câu được xử lý
loại bỏ các lỗi về cách trình bày một câu, và chuẩn hóa về cách bỏ dấu, cách viết các ký tự
y, i…trong tiếng Việt. Sau đó, câu được đưa vào mô hình WFST (Weighted Finite State
Transducer) để nhận diện từ láy, danh từ riêng, tên riêng người Việt, tên riêng người nước
ngoài.. Mô hình thực hiện tách câu thành các từ đi liền nhau theo các trạng thái có thể,
nhận diện từ và gán trọng số thích hợp dựa vào tự điển (trọng số ước lượng thường rất nhỏ
nên lấy log (=-log(tần suất từ/kích thước tập mẫu)). Mô hình WFST căn cứ trên các trọng
11
số này để chọn ra một cách tách từ thích hợp. Sau khi có được tất cả trạng thái tách từ có
thể có của câu, với mỗi trạng thái, mô hình tính tổng trọng số và chọn trạng thái tách từ
đúng nhất là câu có tổng trọng số nhỏ nhất.
Ví dụ 2.1. Cho câu:
Câu = “Hai công ty vừa ký kết hợp đồng sản xuất.”
Tách câu thành các trạng thái có thể:
Trạng thái 1: “Hai # công ty # vừa # ký # kết hợp # đồng # sản xuất.”
Trạng thái 2: “Hai # công ty # vừa # ký kết # hợp đồng # sản xuất.”
Trọng số trong từ điển:
“hai” = 8.68
“công ty” = 12.31
“vừa” = 6.31
“ký” = 7.3
“ký kết” = 8.24
“kết hợp” = 7.43
“hợp đồng” = 10.85
“đồng” = 7.33
Tính: (1) : 8.68 + 12.31 + 6.31+ 7.3 + 7.43 + 7.33 = 49.36
(2) : 8.68 + 12.31 + 6.31 + 8.24 + 10.85 = 46.39
⇒ Câu tách được chọn: “Hai # công ty # vừa # ký kết # hợp đồng # sản xuất.”
Sau khi qua mô hình WFST, nếu câu cần tách vẫn còn nhập nhằng (điều này được xác
định thông qua một ngưỡng nào đó) thì sử dụng tiếp mô hình mạng nơron (neural) khử các
nhập nhằng và chọn ra cách tách từ phù hợp nhất (xem thêm [21]).
2.4. XÁC ĐỊNH TỪ LOẠI
Theo các nhà ngôn ngữ học, hiện nay có hai quan niệm từ loại khác nhau trong
tiếng Việt, dẫn đến hình thành nên hai bộ chú thích từ loại cũng khác nhau, bộ từ loại thứ
nhất gồm 8 từ loại và bộ từ loại thứ hai được chia nhỏ hơn gồm 48 từ loại [8]. Việc phân
tích từ loại phải dựa trên ngữ cảnh của từ loại với các từ loại khác trong văn bản. Mỗi từ có
thể có nhiều từ loại, tùy theo ngữ cảnh cụ thể từ sẽ có một từ loại xác định. Vấn đề đặt ra là
làm thế nào để xác định từ loại đúng của một từ trong ngữ cảnh đang xét.
Công việc gán nhãn từ loại (POS tagging) cho một văn bản là xác định từ loại của mỗi
từ trong phạm vi văn bản đó. Để nâng cao hiệu suất khai thác văn bản, chức năng gán nhãn
từ loại cho từ được ứng dụng rộng rãi trong các hệ thống tìm kiếm thông tin, trong các ứng
dụng tổng hợp tiếng nói, các hệ thống nhận dạng tiếng nói cũng như trong các hệ dịch
máy. Tiến trình gán nhãn từ loại được chia làm 3 bước:
• Tách câu thành chuỗi các từ (giai đoạn tách từ).
• Tìm cho mỗi từ tất cả các nhãn từ loại mà nó có thể có. Các nhãn này có thể nhận
biết dựa vào từ điển hoặc kho văn bản đã gán nhãn bằng tay. Đối với một từ mới
chưa có trong từ điển thì dùng một nhãn ngầm định hoặc gắn cho nó tất cả các
nhãn.
• Quyết định kết quả gán nhãn, loại bỏ nhập nhằng và lựa chọn cho mỗi từ một nhãn
phù hợp nhất với ngữ cảnh trong tập nhãn có thể có của nó. Có nhiều phương pháp
để thực hiện việc này, trong đó có phương pháp của Eric Brill [16] (hướng giảm
các lỗi). và các phương pháp xác suất [28]. Ngoài ra còn có các hệ thống sử dụng
kết hợp tính toán xác suất và ràng buộc ngữ pháp.
Từ giữa những năm 1980, các hệ thống học sử dụng từ điển để phân tích cú pháp và kết
hợp với kho văn bản mẫu để học cách phát hiện từ loại cho mỗi từ. Cách làm này cho thấy
khả năng hiện thực tốt hơn, khả thi hơn là xây dựng một từ điển và một bộ quy tắc ngữ
pháp đầy đủ [8]. Bộ gán nhãn tự động xác suất QTAG là một hệ thống sử dụng từ điển liệt
12
kê các từ loại có thể cho một từ kết hợp với kho văn bản mẫu để loại bỏ nhập nhằng, do
nhóm nghiên cứu Corpus Research thuộc trường Đại học Tổng hợp Birmingham, Anh
quốc phát triển. Dựa trên hướng này, ở Việt Nam nhóm nghiên cứu Nguyễn Thị Minh
Huyền, Vũ Xuân Lương, Lê Hồng Phương đã sửa đổi phần mềm QTAG thành phần mềm
VnQTAG cho tiếng Việt nhằm thích nghi với văn bản tiếng Việt [8].
2.4.1. Thuật toán gán nhãn từ loại
Chương trình VnQTAG được nhóm tác giả trên chỉnh sửa lại thành phiên bản
dùng để gán nhãn từ loại cho từ trong văn bản tiếng Việt. VnQTAG là chương trình
gán nhãn từ loại tự động dựa vào thống kê tức là dựa vào xác suất. Thử nghiệm thực
tế, chương trình này cho kết quả có độ chính xác khá cao. Ở đây trình bày các
phần chính của chương trình VnQTAG cũng như chương trình QTAG, chi tiết có
thể xem trong [8].
QTAG là một bộ gán nhãn xác suất độc lập với ngôn ngữ. Phương pháp xử lý
của QTAG có thể mô tả tổng quát như sau. Nó học từ vựng, bộ nhãn từ loại, cùng
với xác suất từ vựng và xác suất ngữ cảnh từ một kho ngữ liệu đã được gán nhãn
bằng tay. Dựa vào những dữ liệu đã học được này, bộ gán nhãn tìm những nhãn có
thể được và tần số của nó cho từng từ trong kho dữ liệu mới đã được tách từ. Nếu
việc tìm kiếm một từ trong danh sách từ vựng đã học thất bại thì tất cả các nhãn sẽ
được gán cho từ đó. Cuối cùng, bộ gán nhãn thực hiện bước loại bỏ nhập nhằng
bằng cách sử dụng thông tin về xác suất phân bố từ vựng đã được học trước đó.
Khi sửa đổi phần mềm QTAG thành phần mềm VnQTAG, tác giả [8] đã thực
hiện một số thay đổi sau:
-
Đưa vào kho từ vựng của bộ gán nhãn tất cả các mục từ có trong từ điển từ vựng
của nhóm tác giả và các mục từ có trong tập huấn luyện
- Khi gặp đơn vị mới trong tập văn bản gần gán nhãn, kiểm tra nếu đơn vị đó là số
hay tên riêng thì gán nhãn số hay tên riêng.
- Ngoài ra, một mô-đun đoán nhận từ loại cho một từ mới dựa vào hậu tố của từ
đó – không áp dụng cho tiếng Việt – cũng được loại bỏ.
Dữ liệu đầu vào của chương trình VnQTAG là văn bản đã được phân tách từ
trong từng câu (kết quả của bước tách từ ở phần trên), kết quả đầu ra của chương
trình là một từ loại tương ứng sẽ được gán cho từng từ trong văn bản. Hệ thống sử
dụng đồng thời từ điển để liệt kê các từ loại có thể cho một từ, và một kho văn bản
mẫu để loại bỏ nhập nhằng.
Cùng với chương trình mã nguồn mở, tác giả đã cung cấp một tự điển, một tập
dữ liệu huấn luyện khoảng gần 100.000 từ và 2 bộ chú thích (bộ tag) từ loại ở hai
mức. Bộ chú thích từ loại thứ nhất gồm các chú thích cho: Danh từ (N), Động từ
(V), Tính từ (A), Đại từ (P), Từ chỉ định (D), Trạng từ (R), Trạng từ vị trí (S), Liên
từ (C), Số (M), Thán từ (I), Còn lại (X). Bộ chú thích mức 2 phân rã từng loại chú
thích ở trên thành các chú thích từ loại chi tiết hơn. Bộ chú thích mức 2 sẽ gán nhãn
cho từ chi tiết hơn nhưng lại có xác suất gán sai cao hơn bộ chú thích mức 1.
Việc sử dụng bộ chú thích như thế nào là tùy thuộc vào nhu cầu sử dụng sau khi đã gán
nhãn. Khi thay đổi bộ chú thích thì dữ liệu huấn luyện cũng phải được gán nhãn mẫu theo
các nhãn tương ứng với bộ chú thích đó.
13
Bộ gán nhãn QTAG là một bộ gán nhãn trigram. QTAG làm việc trên một cửa sổ chứa
3 từ, sau khi đã bổ sung thêm 2 từ giả ở đầu và cuối văn bản. Các từ được lần lượt đọc và
thêm vào cửa sổ mỗi khi cửa sổ di chuyển từ trái sang phải, mỗi lần một vị trí. Nhãn được
gán cho mỗi từ đã lọt ra ngoài cửa sổ là nhãn kết quả cuối cùng. Thủ tục gán nhãn:
1. Đọc từ (token) kế tiếp.
2. Tìm từ đó trong từ điển.
3. Nếu không tìm thấy, gán cho từ đó tất cả các nhãn từ loại (tag) có thể
4. Với mỗi nhãn:
a. tính Pw = P(tag|token) là xác suất từ token có nhãn tag
b. tính Pc = P(tag|t1,t2), là xác suất nhãn tag xuất hiện sau các nhãn t1, t2, là
nhãn tương ứng của hai từ đứng trước từ token.
c. tính Pw,c = Pw * Pc, kết hợp hai xác suất trên.
5. Lặp lại phép tính cho hai nhãn khác trong cửa sổ
Sau mỗi lần tính lại (3 lần cho mỗi từ), các xác suất kết quả được kết hợp để cho ra
xác suất toàn thể của nhãn được gán cho từ. Vì các giá trị này thường nhỏ, nên chúng được
tính trong biểu thức logarit cơ số 10. Giá trị xác suất tính được cho mỗi nhãn tương ứng
với một từ thể hiện độ tin cậy của phép gán nhãn này cho từ đang xét.
2.4.2. Bộ gán nhãn VNQTAG cho tiếng Việt
Đầu vào của chương trình là một văn bản đã được tách từ, mỗi từ nằm trên một dòng.
Kết quả gán nhãn là nhãn có khả năng cao nhất được sắp gần từ nhất, kế tiếp là các nhãn có
khả năng thấp hơn (hình 2.3).
Hình 2.1. Từ điển từ vựng
Ví dụ 2.2. Kho văn bản mẫu đã gán nhãn (hình 2.2).
14
Hình 2.2. Kho văn bản mẫu đã gán nhãn
Ví dụ 2.3. văn bản được tách từ và gán nhãn ở mức 8 từ loại N( danh từ),V(động từ), A(
tính từ),P ( đại từ), J(phụ từ), C( kết từ); I ( trợ từ), E ( cảm từ ). .
⇒
Hình 2.3. Văn bản đã được tách từ và kết quả gán nhãn từ loại
2.5. TRÍCH CỤM DANH TỪ
Bài toán nhận dạng cụm danh từ được áp dụng trong các ứng dụng trích chọn
thông tin, việc tìm kiếm dựa trên danh từ mang nhiều ý nghĩa hơn là chỉ dựa trên
từng từ đơn lẻ. Bài toán phân loại, tạo chỉ mục tài liệu trong lĩnh vực khai thác dữ
15
liệu, bài toán tìm từ đồng nghĩa, gần nghĩa sẽ hiệu quả hơn nếu làm việc trên đơn vị
tìm kiếm là danh từ, cụm danh từ.
Để giúp tăng độ chính xác của các hệ thống tra cứu thông tin người ta đã thử
nghiệm sử dụng cụm danh từ, cụm động từ như là các chỉ mục thay thế cho từ khóa.
Cấu tạo chung của cụm danh từ gồm có ba phần: phần phụ trước, phần trung tâm
và phần phụ sau (xem [1]):
Tất cả những cái
bàn
mới mua ấy
Phần phụ trước
Phần trung tâm
Phần phụ sau
Vị trí các thành tố:
Bảng 2.1: Bảng vị trí các thành tố
-3
-2
-1
0
1
2
Cụm danh từ có danh từ làm phần trung tâm, ví dụ: “một ngôi nhà
nhỏ” thì từ “nhà” ở trên chính là danh từ trung tâm, đứng ở vị trí (0) trong
bảng 2.1. Cụm danh từ đơn giản nhất chỉ có một danh từ. Những thành tố
phụ có thể thêm vào gồm: danh từ loại thể hoặc tính từ, danh từ, động từ,
mệnh đề phụ...
Phần phụ trước đặt trước danh từ trung tâm bao gồm:
Một số đại từ hay còn gọi là đại từ chỉ số lượng (tất cả, hết thảy ...),
đứng ở vị trí (-3) trong bảng 2.1.
−
Số từ hay còn gọi là từ chỉ số lượng (một, hai, ba, vài, dăm, mươi,
vài ba, những, các, mỗi...), đứng ở vị trí (-2) trong bảng 2.1.
−
Danh từ loại thể hay còn gọi là từ chỉ xuất (con, chiếc, cái, ngôi...),
đứng ở vị trí (-1) trong bảng 2.1.
−
Thứ tự các từ như sau:
−
Từ chỉ tổng lượng từ chỉ số lượng
từ chỉ loại thể
từ trung tâm
Phần phụ sau đặt sau danh từ trung tâm bao gồm:
−
Từ nêu đặc trưng miêu tả như: tính từ (đẹp, xấu ...), danh từ, động
từ, số từ, đại từ, mệnh đề phụ (mà tôi thấy, mà nó làm ...), đứng ở
vị trí (1) trong bảng 2.1. Ví dụ:
Phòng mới
Phòng thiếu nhi
Phòng đọc
Phòng mười lăm
Phòng (của) chúng tôi
Đây là những yếu tố rất đa dạng về cấu tạo và ý nghĩa. Về cấu tạo,
nó có thể do một từ hay một ngữ bất kì tạo thành. Ví dụ: học sinh
16
nam, một việc tốt, sách dạy nấu ăn, chiếc xe tôi mới mua…Về ý
nghĩa, nó có thể bổ sung hay hạn định ý nghĩa cho danh từ trung tâm.
ị trí này có thể có nhiều yếu tố và được nối trực tiếp (không có quan
hệ từ) hay gián tiếp (có quan hệ từ) với danh từ trung tâm.
Ví dụ: những công nhân tiên tiến, có nhiều sáng kiến kinh nghiệm
của nhà máy dệt Thành Công… (có 3 yếu tố phụ xuất hiện ở vị trí 1,
các yếu tố “tiên tiến”, “có nhiều sáng kiến kinh nghiệm” được nối trực
tiếp, yếu tố “nhà máy dệt Thành Công” được nối gián tiếp qua giới từ
của với danh từ trung tâm là công nhân.)
− Từ chỉ định (này, kia, nọ, ấy, đó, nào...). Đây là yếu tố kết thúc
cụm danh từ, đứng ở vị trí (2) trong bảng 2.1.
− Thứ tự các từ như sau:
Từ trung tâm
từ miêu tả
từ chỉ định
Nói chung cấu trúc của thành tố sau của cụm danh từ phức tạp hơn nhiều so với
thành tố trước. Việc xác định cấu trúc cụm danh từ một cách tường minh là rất
khó.Sau khi tách từ, dựa vào bộ chú thích tám từ loại (danh từ (N), động từ (V), tính
từ (A), đại từ (P), phụ từ (J), kết từ (C), trợ từ (I), cảm từ(E) ), chương trình tiến
hành gán nhãn từ loại ở mức tám từ loại và trích ra từ loại nào là danh từ, cụm danh
từ. Để đặc trưng cho văn bản và giảm độ phức tạp tính toán, chúng tôi áp dụng giải
pháp được nêu trong [12].
Đối với bài toán phát hiện cụm danh từ cho tiếng Việt, hiện nay có nghiên
cứu của tác giả Lại Thị Hạnh [7] cho kết quả có độ chính xác khoảng 70%. Giải
pháp này lấy ý tưởng từ thuật toán TBL do E. Brill khởi xướng Trong [7], tác giả
đã sử dụng phương pháp học luật chuyển đổi để cho ra các luật chuyển đổi trạng
thái của một từ trong một một chuỗi văn bản là nằm trong hay nằm ngoài một cụm
danh từ [16]. Các luật này sau đó được dùng để xác định các cụm danh từ cho các
văn bản. Đầu vào của hệ thống phát hiện cụm danh từ này là văn bản đã được tách
từ và gán nhãn từ loại. Kết quả xác định cụm danh từ thử nghiệm của tác giả có độ
chính xác 70% với tập dữ liệu thử khoảng 37.000 từ, trong đó 90% được dùng làm
ngữ liệu để học luật và 10% dùng để thử nghiệm.
Để phục vụ bài toán phân lớp và tóm tắt văn bản, chúng tôi dùng một số luật
để phát hiện một số cụm danh từ đơn giản, như những ngữ dạng ghép của các danh
từ (gồm một chuỗi các danh từ đi liền nhau). Trước khi đưa ra các luật, ta phân tích
một số đặc điểm cấu tạo của cụm danh từ tiếng Việt như bên dưới.
Đối với tiếng Anh, cụm danh từ thường gốm 3 phần:
Tiền chỉ định – Tiền bổ nghĩa – Danh từ chính
Còn đối với tiếng Việt, thành phần bổ nghĩa cho danh từ thì đứng sau nhưng
lại có thể có thêm phần chỉ định (determiner) ở phía sau, nên cụm danh từ sẽ như
sau :
Tiền chỉ định – Danh từ chính – Bổ nghĩa - Hậu chỉ định
17
-
Thành phần tiền chỉ định:
Danh từ loại thể như: cái, chiếc, cuộc, …
Danh từ số lượng: một, mỗi, những, …
- Thành phần hậu chỉ định:
Đại từ không gian, thời gian: ấy, này, đó, …
- Thành phần bổ nghĩa: (ở đây ta bỏ qua dạng bổ nghĩa là một mệnh đề)
Tính từ kích thước
Tính từ chỉ phẩm chất như: tốt, xấu, …
Tính từ chỉ tuổi tác
Tính từ chỉ chiều dài
Tính từ chỉ màu sắc
Danh từ phụ
Ngay cả những bổ nghĩa là tính từ có thể sẽ tạo nên những cụm danh từ chỉ
đối tượng cá biệt, ảnh hưởng đến việc xác định tần số xuất hiện mục từ.
Các cách kết hợp này của cụm danh từ sẽ được biểu diễn thành một chuỗi
các loại từ liên tiếp nhau để tạo thành một trường hợp phát hiện cụm danh từ, ta tạm
gọi là 1 luật hình thành cụm danh từ. Việc phát hiện cụm danh từ sẽ thực hiện bằng
cách duyệt tuần tự câu và so khớp với từng luật hình thành cụm danh từ. Nếu khớp
thì cho ghi nhận có thêm cụm danh ngữ mới. Các luật hình thành cụm danh từ sẽ
được lưu trong file text và cho phép bổ sung hay sửa đổi, mỗi
luật hình thành cụm danh từ được biểu diễn bằng 1 chuỗi dạng như sau: loại từ loại từ - …, với loại từ là 1 thành phần ngữ pháp có thể tham gia kết hợp tạo nên
cụm danh từ. Ví dụ một trường hợp như sau: N – N – A. (Các ký hiệu N, A … là
các ký hiệu cho các từ loại thuộc bộ tag mức 1 được kế thừa từ chương trình
VnQTAG[8]).Ta có thêm nhận định rằng, các danh từ riêng không cần được ghép
vào trong một ngữ.
Dựa trên cấu trúc cụm danh từ tiếng Việt, chúng tôi xây dựng các công thức sau
để rút trích cụm danh từ trong văn bản tiếng Việt đã được gán nhãn từ loại:
1
2
3
4
5
6
7
8
9
10
11
12
…..
Nc
Nc
Nc
Nc
Nc
Nc
Nc
Nt
Nu
Nu
Nu
Nu
Nc
Na
An
Aa
Nc
Nc
Cm
Nc
An
Aa
Nc
Ng
An
Aa
Nc
( chi tiết xin xem phụ lục)
Tuy vậy không phải tất cả các cụm danh từ trích ra đều là những cụm danh từ có
nghĩa. Các cụm danh từ trích ra sẽ được lọc lại dựa trên tập các cụm danh từ học
18
được từ dữ liệu huấn luyện và từ dữ liệu bổ sung. Các cụm danh từ học được xây
dựng bằng tay, và được bổ sung trong quá trình học lại dữ liệu huấn luyện.
Tiếp cận này có thể không trích hết các cụm danh từ, nhưng trong giải pháp đặc
trưng văn bản bằng các cụm danh từ phổ biến, danh từ phổ biến phục vụ cho công
tác phân lớp, các danh từ, cụm danh từ phát hiện được đã tạo cơ hội cho chúng tôi
tiến hành các công đoạn xem xét nghĩa của từ về sau này.
Văn bản
Tách từ
Gán nhãn từ loại
Trích danh từ, cụm danh từ
Tập các cụm danh từ đại
diện cho văn bản
Hình 2.4: Quá trình rút trích từ khóa của văn bản
2.6. XÂY DỰNG PHẦN MỀM TRÍCH CỤM DANH TỪ TIẾNG VIỆT
19
Hình 2.5. Giao diện phần mềm trích cụm danh từ
Màn hình của phần mềm rút trích cụm danh từ ( hình 2.5) được chia thành 2
cửa sổ chính, cửa sổ bên trái hiển thị cây thư mục cho phép người dùng chọn văn
bản cần xử lý trong trường hợp muốn xử lý một văn bản. Cửa sổ bên phải chứa các
cụm danh từ thu được. Trong màn hình trên có hai chức năng chính:
• Chức năng “thực hiện trên thư mục”: Với chức năng này hệ thống cho
phép thực thi tất cả các văn bản trong thư mục mình đang xét. Điều này
cho phép người dùng chọn xử lý cùng lúc nhiều văn bản, giảm chi phí các
thao tác điều khiển chương trình.
• Chức năng “Thực hiện trên một văn bản”: Chỉ cho phép người dùng xử lý
trên một văn bản, điều này cho phép người sử dụng có thể kiểm tra dễ
dàng các kết quả thu được.
Hình 2.6. Màn hình nội dung văn bản
Màn hình rút trích một số cụm danh từ:
20
- Xem thêm -