ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ
VŨ THỊ XUÂN HƢƠNG
ỨNG DỤNG NGÔN NGỮ TRUY VẤN PML-TQ
TRONG TRUY VẤN TREEBANK TIẾNG VIỆT
LUẬN VĂN THẠC SĨ
Hà Nội – 2013
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ
VŨ THỊ XUÂN HƢƠNG
ỨNG DỤNG NGÔN NGỮ TRUY VẤN PML-TQ
TRONG TRUY VẤNTREEBANK TIẾNG VIỆT
Ngành: Công Nghê ̣ Thông Tin
Chuyên ngành: Hệ Thống Thông Tin
Mã số: 60 48 05
LUẬN VĂN THẠC SĨ
HƢỚNG DẪN KHOA HỌC: TS. NGUYỄN PHƢƠNG THÁI
Hà Nội – 2013
3
MỤC LỤC
MỤC LỤC
3
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT
4
DANH MỤC HÌNH VẼ
5
DANH MỤC CÁC BẢNG BIỂU
6
MỞ ĐẦU
7
CHƢƠNG 1
1.1
1.2
Các bài toán về xử lý ngôn ngữ tự nhiên
Kho ngữ liệu, treebank và ứng dụng
CHƢƠNG 2
TIN
2.1
2.2
2.3
4.1
4.2
TRUY VẤN DỮ LIỆU VIETTREEBANK VỚI PML-TQ
Giới thiệu về công cụ TrEd
Chuyển đổi VietTreebank sang định dạng PML
Truy vấn dữ liệu với PML-TQ
CHƢƠNG 4
8
8
12
XÂY DỰNG TREEBANK VÀ VẤN ĐỀ TRUY VẤN THÔNG
15
Xây dựng treebank
Các định dạng treebank của một số ngôn ngữ khác
Ngôn ngữ truy vấn PML-TQ
CHƢƠNG 3
3.1
3.2
3.3
TỔNG QUAN
KẾT QUẢ THỰC NGHIỆM
Môi trƣờng thực nghiệm
Một số đánh giá
15
22
29
32
32
33
35
58
58
59
KẾT LUẬN
62
TÀI LIỆU THAM KHẢO
63
PHỤ LỤC I
65
PHỤ LỤC II
79
4
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT
Treebank: Kho ngữ liệu
TrEd: Phần mềm Tree Editor
PML (Prague Markup Language): Lƣợc đồ mã hóa treebank dựa trên
định dạng XML.
PML-TQ (Prague Markup Language - Tree Query): Ngôn ngữ truy
vấn cho kho ngữ liệu đƣợc mã hóa dƣới dạng PML
POS (Part of speech): Từ loại (Ví dụ nhƣ: danh từ, tính từ, động
từ…)
VLSP: Đề tài "Nghiên cứu phát triển một số sản phẩm thiết yếu về
xử lý tiếng nói và văn bản tiếng Việt" – Mã số: KC01.01/06-10
5
DANH MỤC HÌNH VẼ
Hình 1. Ứng dụng treebank trong bài toán dịch tự động ......................... 14
Hình 2. Ví dụ minh họa định dạng Penn Treebank.................................. 24
Hình 3. Ví dụ minh họa định dạng VietTreebank .................................... 24
Hình 4. Ví dụ về phần đầu của định dạng mã hóa Tiger-XML ............... 25
Hình 5. Ví dụ về phần thân của định dạng mã hóa Tiger-XML .............. 26
Hình 6. Ví dụ định dạng CoNLL ST ........................................................ 27
Hình 7. Ví dụ minh họa định dạng Penn Arabic Treebank...................... 29
Hình 8. Dữ liệu đƣợc thể hiện dƣới dạng đồ họa hình cây ...................... 31
Hình 9. Giao diện làm việc của công cụ TrEd ......................................... 32
Hình 10.
Lƣu đồ giải thuật chuyển đổi sang PML ................................. 34
Hình 11.
Cụm danh từ đầy đủ là chủ ngữ .............................................. 39
Hình 12.
Cụm danh từ có bốn phần tử trung tâm .................................. 40
Hình 13.
Cụm từ chỉ số lƣợng có cả phụ từ và số từ ............................. 42
Hình 14.
Câu trần thuật là một tít báo .................................................... 44
Hình 15.
Câu hỏi có – không ................................................................. 48
Hình 16.
động từ.
Câu có tân ngữ trực tiếp và tân ngữ gián tiếp bổ nghĩa cho
................................................................................................. 50
Hình 17.
Câu ghép song song ................................................................ 52
Hình 18.
Cấu trúc câu đơn có trạng ngữ chỉ nguyên nhân..................... 53
6
DANH MỤC CÁC BẢNG BIỂU
Bảng 1. Tổng hợp các bƣớc xây dựng một treebank ................................ 15
Bảng 2. Tập nhãn từ loại trong VietTreebank .......................................... 17
Bảng 3. Tập nhãn cụm từ.......................................................................... 18
Bảng 4. Tập nhãn mệnh đề ....................................................................... 18
Bảng 5. Tập nhãn chức năng cú pháp....................................................... 19
Bảng 6. Các công cụ hỗ trợ xây dựng treebank tiếng Việt....................... 21
Bảng 7. Bảng nhãn từ loại trong Penn Treebank...................................... 22
Bảng 8. Bảng nhãn cú pháp trong Penn Treebank ................................... 23
Bảng 9. Ví dụ câu ở dạng VietTreebank .................................................. 31
Bảng 10.
Ví dụ dữ liệu đƣợc chuyển sang định dạng PML ................... 31
Bảng 11.
Bảng so sánh cấu trúc Penn với PML tƣơng ứng. .................. 33
Bảng 12.
Tổng hợp các cấu trúc câu trần thuật ...................................... 44
Bảng 13.
Tổng hợp các nhãn chức năng đi kèm với nhãn SBAR .......... 46
Bảng 14.
Tổng hợp các nhãn chức năng có SBAR làm bổ ngữ ............. 47
Bảng 15.
Mẫu Câu có tân ngữ trực tiếp, gián tiếp bổ nghĩa cho động từ...
................................................................................................. 50
Bảng 16.
Danh sách nhãn chức năng cú pháp và số lần đƣợc gán ......... 55
Bảng 17.
Danh sách nhãn phân loại và số lần đƣợc gán ........................ 56
Bảng 18.
Danh sách nhãn từ loại và số lần đƣợc gán............................. 56
Bảng 19.
Các từ và số lần xuất hiện ....................................................... 57
Bảng 20.
Các mã lệnh truy vấn độ lớn của cây ...................................... 59
Bảng 21.
So sánh treebank tiếng Việt với các ngôn ngữ khác ............... 61
7
MỞ ĐẦU
Kho ngữ liệu với các chú giải cú pháp (treebank) là một thành phần đóng
vai trò quan trong lĩnh vực xử lý ngôn ngữ tự nhiên. Trong lĩnh vực xử lý ngôn
ngữ tự nhiên có rất nhiều bài toán cần đến kho ngữ liệu nhƣ: dịch tự động, phân
tích dữ liệu văn bản, nhận dạng tiếng nói, tìm kiếm thông tin, ...
Để xây dựng đƣợc kho ngữ liệu, các nhà khoa học thực hiện qua hai pha.
Pha 1 xây dựng một bộ dữ liệu tự động. Tại pha 1 này các nhà khoa học thƣờng
sử dụng các ứng dụng, chƣơng trình máy tính để thực hiện tự động các tác vụ
nhƣ: tách câu, tách từ, gán nhãn cú pháp. Pha 2: Tinh chỉnh dữ liệu. Tuy nhiên
để có đƣợc một kho ngữ liệu hữu dụng thì các nhà khoa học cần phải đầu tƣ rất
nhiều thời gian, công sức để tinh chỉnh lại dữ liệu đã đƣợc tạo ở pha 1. Một
trong những khó khăn hiện nay trong việc tinh chỉnh kho ngữ liệu là phƣơng
pháp tìm kiếm thông tin hiệu quả trên kho ngữ liệu và các công cụ hỗ trợ để tìm
kiếm.
Luận văn này là một nỗ lực trong việc đề xuất giải pháp tìm kiếm trên kho
ngữ liệu bằng việc chuyển đổi và sử dụng định dạng PML và sử dụng ngôn ngữ
truy vấn PML-TQ cùng công cụ hỗ trợ việc tìm kiếm TrEd. Ƣu điểm của giải
pháp này là có thể tìm kiếm trên nhiều định dạng Treebank khác nhau theo một
cách thống nhất.
Đồng thời luận văn cũng đƣa racác đặc điểm ngữ pháp tiếng Việt, các đặc
trƣng về mặt ngữ pháp cùng với các câu hỏi truy vấn liên quan đƣợc phát biểu
dƣới dạng không hình thức bằng ngôn ngữ tự nhiên. Sau đó câu hỏi này đƣợc
chuyển đổi thành các câu lệnh truy vấn hình thức bằng ngôn ngữ PML-TQ để
thực hiện tìm kiếm thông tin với công cụ TrEd.
8
CHƢƠNG 1 TỔNG QUAN
1.1 Các bài toán về xử lý ngôn ngữ tự nhiên
Xử lý ngôn ngữ tự nhiên là một lĩnh vựcliên ngành bao gồm khoa học máy
tính, trí tuệ nhân tạo, ngôn ngữ học để giải quyết vấn đề tƣơng tác, trao đổi
thông tin giữa con ngƣời với các hệ thống máy tính thông qua ngôn ngữ tự
nhiên. Do đó xử lý ngôn ngữ tự nhiên cũng liên quan tới lĩnh vực tƣơng tác
ngƣời-máy. Xử lý ngôn ngữ tự nhiên hiện nay còn rất nhiều khó khăn,thách thức
cần giải quyết đó chính là các vấn đề liên quan tới việc hiểu ngôn ngữ tự nhiên –
có nghĩa là cho phép máy tính có thể hiểu đƣợc ý nghĩa mà con ngƣời cần truyền
đạt trong các văn bản hoặc các đầu vào khác là ngôn ngữ tự nhiên.
Lịch sử của xử lý ngôn ngữ tự nhiên bắt đầu vào thập niên 1950. Vào năm
1950, Alan Turing đã xuất bản một bài báo với tựa đề “Máy tính và tính thông
minh” theo đó ông đã đề xuất một thủ tục gọi là Bộ kiểm tra Turing để phục vụ
việc phân loại, đánh giá mức độ thông minh của máy tính. Kể từ đó đến nay đã
có rất nhiều phƣơng pháp, giải thuật đã đƣợc nghiên cứu, đề xuất để giải quyết
các bài toán liên quan đến vấn đề xử lý ngôn ngữ tự nhiên. Một trong những
phƣơng pháp điển hình đó là phƣơng pháp máy học. Dƣới đây là một số bài toán
điển hình trong lĩnh vực xử lý ngôn ngữ tự nhiên:
Tóm tắt tự động: Sinh ra các bản tóm tắt nội dung có nghĩatừ một chuỗi
các văn bản. Bài toán này thƣờng đƣợc áp dụng để sinh ra các bản tóm tắt
từ một văn bản với khuôn dạng định sẵn nhƣ: các bài viết trong mục tài
chính của một tờ báo.
Dịch tự động: Tự động dịch một văn bản từ một ngôn ngữ này sang một
ngôn ngữ khác. Đây là một trong những bài toán khó, và nó thuộc vào
phân lớp “trí tuệ nhân tạo toàn diện” (AI-complete) bởi vì để thực hiện
đƣợc nó cần rất nhiều các kiến thức có liên quan tới việc nhận thức của
một con ngƣời nhƣ: ngữ pháp, ngữ nghĩa, các sự thực hiển nhiên trong thế
giới thực…
9
Nhận dạng chữ (OCR): Đây là bài toán giúp biến đổi từ một văn bản dạng
hình ảnh thành dạng văn bản chữ thông thƣờng.
Nhận dạng giọng nói: Cho một đoạn âm thanh của một ngƣời nói, xác
định câu văn của lời nói đó. Bài toán này ngƣợc với bài toán chuyển đổi
văn bản thành lời nói và nó thuộc một trong những bài toán cực khó của
lớp bài toán “Trí tuệ nhân tạo toàn diện”. Đối với lời nói tự nhiên thì hầu
nhƣ không có điểm dừng trong khi nói, do vậy phân tách lời nói là một
bài toán nằm trong bài toán nhận dạng giọng nói. Thêm vào đó khi nói các
từ có thể bị trộn vào nhau do có sự luyến âm do việc biến đổi từ các tín
hiệu tƣơng tự thành các từ đơn lẻ là một công việc rất khó.
Trả lời câu hỏi tự động: Cho một câu hỏi dƣới dạng ngôn ngữ tự nhiên và
đƣa ra câu trả cho câu hỏi đó. Các câu hỏi thông thƣờng thƣờng có câu trả
lời xác định nhƣ “Thủ đô của Việt Nam tên là gì?” tuy nhiên cũng cần
phải xử lý cả những câu hỏi mở nhƣ “Ý nghĩa của cuộc đời là gì?”
Phân tích mối liên hệ: bài toán này liên quan đến một loạt các bài toán
nhỏ hơn. Một trong những bài toán đó là việc xác định cấu trúc của các
đoạn văn bản đƣợc nối với nhau. Ví dụ nhƣ mối liên hệ giữa các câu
nhƣ:câu bổ nghĩa,câu giải thích, câu đối lập. Một bài toán khác nữa đó là
nhận diện và phân loại câu trong chuỗi văn bản nhƣ: câu hỏi có-không,
câu hỏi về nội dung, câu trần thuật, câu khẳng định…
Phân tíchhình thái từ (morphological segmentation): Chia tách các từ
thành các đơn vị từ nguyên tử (morpheme) và xác định phân loại cho các
đơn vị từ đó. Mức độ khó của vấn đề này phụ thuộc nhiều vào độ phức tạp
hình thái từcủa một ngôn ngữ cụ thể (cấu trúc của từ là một ví dụ).Đối với
tiếng Anhthì hình thái từ tƣơng đối đơn giản. Ví dụ từ “open” có thể có
các hình thái từ nhƣ “open, opens, opened, openning”. Do đó bài toán xử
lý này đối với tiếng Anh tƣơng đối đơn giản vì chúng ta có thể mô hình
hóa hình vị từ thành các từ riêng lẻ. Tuy nhiên đối với các ngôn ngữ khác,
ví dụ ngôn ngữ Thổ Nhĩ Kỳ, thì cách tiếp cận này là không thể do mỗi
một từ có thể có có hàng ngàn hình dạng từ khác nhau.
10
Nhận dạng tên riêng: Giả sử có một chuỗi văn bản, cần xác định xem
những thành phần nào trong văn bản đó tƣơng ứng với các tên riêng, ví dụ
nhƣ tên ngƣời hay tên địa điểm, đồng thời xác định phân loại cho thành
phần đó, ví dụ nhƣ ngƣời, địa điểm, tổ chức. Trong tiếng Anh việc sử
dụng thông tin các tên riêng thƣờng đƣợc bắt đầu bằng chữ cái viết hoa để
nhận dạng thành phần tên riêng tuy nhiên thông tin này không thể dùng để
xác định phân loại cho tên riêng đó. Trong khi đó đối với một số ngôn
ngữ khác nhƣtiếng Trung Quốc, tiếng Ả-rập thì không có chữ cái viết hoa.
Thêm nữa có những ngôn ngữ nhƣ tiếng Đức thì cũng không thể dùng
thông tin chữ cái viết hoa để làm thông tin nhận dạng thành phần tên riêng
vì trong tiếng Đức thì tất cả các danh từ đều bắt đầu bằng chữ hoa, mà
không quan tâm danh từ đó có liên quan đến tên riêng hay không.
Gán nhãn từ loại: Cho một câu, xác định từ loại của từng từ trong câu.
Tuy nhiên trong thực tế tùy vào ngôn ngữthì một từ có thể là từ loại này
hoặc từ loại khác tùy vào ngữ cảnh. Ví dụ trong tiếng Việt thì từ “đá” có
thể mang nghĩa của một động từ hoặc là danh từ. Do đó bài toán này có
nhiều khó khăn khi phải xử lý vấn đề nhập nhằng trong ngôn ngữ.
Phân tích cú pháp: Xây dựng cây cú pháp của một câu cho trƣớc. Do ngữ
pháp của ngôn ngữ tự nhiên thƣờng chứa đựng yếu tố nhập nhằng và một
câu văn thƣờng có thể có nhiều hơn một ý nghĩa. Vì vậy trong thực tế,
một câu có thể có hàng ngàn cách phân tích cú pháp.
Phân tích tính cảm xúc: Trích xuất các thông tin quan trọng từ một tập các
văn bản để xác định “tính phân cực” (chiều hƣớng cảm xúc, ý nghĩ) của
các đối tƣợng cụ thể. Điều này đặc biệt hữu ích trong việc xác định xu
hƣớng của các ý kiến đƣợc công khai trên các mạng xã hội và nó cũng
giúp ích cho các hoạt động tiếp thị.
Phân tách và nhận dạng chủ đề: Cho một chuỗi văn bản, tách nó thành các
văn bản theo chủ đề và xác định chủ đề của các văn bản đó.
Phân tách từ: Phân tách một chuỗi văn bản liên tục thành các từ riêng lẻ.
Đối với ngôn ngữ nhƣ tiếng Anh, thì đây là việc đơn giản, do các từ
11
thƣờng đƣợc phân tách bởi khoảng trống. Tuy nhiên đối với một số ngôn
nhƣ: Trung Quốc, Nhật Bản, Thái Lan thì các từ không đƣợc phân tách
theo cách trên. Do đó công việc phân tách từ đối với các ngôn ngữ này là
một công việc đòi hỏi việc kết hợp các kiến thức liên quan tới từ vựng,
hình thái của từ trong ngôn ngữ cụ thể.
Giải quyết vấn đề nhập nhằng nghĩa của từ: Đối với từ có nhiều hơn một
nghĩa, chúng ta thƣờng chọn nghĩa phù hợp nhất tùy thuộc vào ngữ cảnh.
Đối với bài toán này, chúng ta thƣờng cho ra một danh sách các từ và các
nghĩa tƣơng ứng.
Hiểu ngôn ngữ tự nhiên: Chuyển đổi một tập các văn bản thành một dạng
thông tin hình thức, ví dụ nhƣ cấu trúc logic bậc 1 mà các chƣơng trình
máy tính có thể sử dụng đƣợc. Bài toán hiểu ngôn ngữ tự nhiên liên quan
đến việc xác định đƣợc ý nghĩa cần truyền tải là gì trong số các ngữ nghĩa
có thể có của một văn bản. Giải pháp xây dựng một metamodel (mô hình
siêu đặc tả) cho ngôn ngữ và ontology (bộ dữ liệu mô tả nhận thức của
con ngƣời về thế giới tự nhiên và xã hội) có thể là hiệu quả tuy nhiên đây
chỉ là những giải pháp mang tính kinh nghiệm. Phƣơng pháp đặc tả hình
thức hóa một cách rõ ràng của các ngữ nghĩa ngôn ngữ tự nhiên mà không
quan tâm đến các dụng ý là một hƣớng tiếp cận đƣợc mong đợi cho vấn
đề xây dựng một nền tảng mô hình hình thức hóa đặc tả ngữ nghĩa.
Sinh ngôn ngữ tự nhiên: Chuyển đổi thông tin từ dữ liệu máy tính thành
ngôn ngữ con ngƣời có thể đọc đƣợc.
Trên đây là một sô bài toán điển hình trong lĩnh vực xử lý ngôn ngữ tự
nhiên, một lĩnh vực mà còn nhiều thách thức đối với các nhà khoa học. Trong
các bài toán đã nêu ở trên, ở các mức độ khác nhau, rất nhiều các bài toán cần
tới kho ngữ liệu treebank cho quá trình xử lý, tính toán nhƣ: dịch tự động, sinh
ngôn ngữ tự nhiên, tóm tắt…Do đó việc xây dựng một kho ngữ liệu treebank
đầy đủ, hữu dụng là một công việc rất quan trọng đối với vấn đề giải quyết các
bài toán về xử lý ngôn ngữ nói riêng và nghiên cứu khoa họcnói chung.
12
1.2 Kho ngữ liệu, treebank và ứng dụng
Một treebank là một kho dữ liệu văn bản đã đƣợc phân tích cú pháp từ một
kho dữ liệu văn bản thô, theo đó mỗi câu trong văn bản đều đƣợc phân tích các
yếu tố cú pháp ví dụ nhƣ gán chú giải cấu trúc cú pháp cho câu. Cấu trúc cú
pháp thƣờng đƣợc biểu diễn dƣới dạng hình cây do vậy chúng ta sử dụng thuật
ngữ là treebank. Thông thƣờng thuật ngữ kho ngữ liệu cú pháp và thuật ngữ
treebank thƣờng có thể thay thế tƣơng ứng cho nhau trong quá trình sử dụng.
Một treebank đƣợc xây dựng dựa trên một tập văn bản đã đƣợc phân tích
và gán nhãn từ loại. Sau đó, các treebank có thể đƣợc tinh chỉnh thêm với các
thông tin về ngữ nghĩa và các thông tin ngôn ngữ họckhác.
Các treebank có thể đƣợc các nhà ngôn ngữ học xây dựng hoàn toàn thủ
công hoặc theo cách bán tự động. Theo cách bán tự động thì các công cụ phân
tích cú pháp sẽ tự động gán thông tin và đƣa ra một cấu trúc cú pháp, sau đó các
nhà ngôn ngữ học sẽ kiểm tra và chỉnh sửa lại nếu cần. Trong thực tế thì việc
kiểm tra, hoàn thiện toàn bộ quá trình phân tích cú pháp của một kho ngôn ngữ
tự nhiên là một công việc tốn rất nhiều công sức và thời gian. Việc tinh chỉnh và
gán nhãn có thể mất tới hàng năm. Các yếu tố nhƣ mức độ chi tiết của các thông
tin chú thích cú pháp, sự đóng góp của các nhà ngôn ngữ học sẽ quyết định độ
khó và thời gian hoàn thành của việc xây dựng một treebank.
Sau khi treebank đƣợc xây dựng và hoàn thiện, nó có thể ứng dụng vào rất
nhiều bài toán khác nhau trong lĩnh vực xử lý ngôn ngữ tự nhiên cũng nhƣ phục
vụ cho công tác nghiên cứu ngôn ngữ nói chung của các nhà ngôn ngữ học.
1.2.1 Ứng dụng trong lĩnh vực nghiên cứu ngôn ngữ
Trong thực tế, treebank là một nguồn thông tin vô cùng hữu ích cho nhiều
hình thức nghiên cứu ngôn ngữ dựa trên các tập ngữ liệu. Các nghiên cứu này
không chỉ bó hẹp trong các vấn đề về quy tắc cú pháp mà còn mở rộng đến việc
nghiên cứu các hiện tƣợng ngôn ngữ dựa trên các đặc điểm quy tắc cú pháp đó.
Một trong những ƣu điểm của việc dùng treebank so với các kho ngữ liệu thô đó
là nó cho phép chúng ta có thể đặt các câu hỏi một cách chính xác, do đó chúng
ta nhận đƣợc tập câu trả lời chính xác hơn nhờ việcloại bớt đi các dữ liệu không
13
mong muốn.Lấy một ví dụ cụ thể, từ “đi” trong tiếng Việt vừa là động từ, vừa là
phụ từ, vừa là trợ từ.
Ví dụ từ “đi” đóng vai trò là động từ (V): Cô gái đi nhanh nhƣ chạy
Ví dụ từ “đi” đóng vai trò là phụ từ (R): Mỗi lần gặp tôi, hắn kể đi
kể lại một chuyện
Ví dụ từ “đi” đóng vai trò là trợ từ (T): Mọi ngƣời hãy góp gió đi
Nhƣ vậy nếu sử dụng treebank chúng ta có thể đƣa ra đƣợc tất cả các câu
cú pháp có từ “đi” với vai trò là trợ từ một cách chính xác để nghiên cứu mà
không bị lẫn các câu có từ đi với vai trò là động từ hay phụ từ.Tuy nhiên để có
thể sử dụng hiệu quả treebank cho việc nghiên cứu thì cần có các công cụ phù
hợp hỗ trợ việc đặt câu hỏi truy vấn, duyệt dữ liệu.
Ngoài việc sử dụng treebank cho việc nghiên cứu các hiện tƣợng cú pháp,
treebank cũng còn đƣợc ứng dụng để nghiên cứu các vấn đề về định tính, định
lƣợng của ngôn ngữ. Bằng việc sử dụng các công cụ truy vấn thông tin, chúng ta
có thể trích xuất rất nhiều thông tin nhƣ:
- Tần suất xuất hiện của một từ cụ thể trong kho ngữ liệu
- Tần suất sử dụng của các loại từ loại: từ loại nào thƣờng đƣợc sử dụng
nhất, từ loại nào ít đƣợc sử dụng nhất
- Liệt kê các từ chƣa đƣợc phân loại
1.2.2 Ứng dụng trong lĩnh vực xử lý ngôn ngữ tự nhiên
Treebank đƣợc ứng dụng trong lĩnh vực xử lý ngôn ngữ tự nhiên theo hai
hƣớng:
Hƣớng thứ nhất: Treebank đƣợc dùng nhƣ là bộ dữ liệu đểkiểm chứng độ
chính xác hay đánh giá tốc độ xử lý của các hệ thống xử lý ngôn ngữ tự nhiên.
Ví dụ sau khi một bộ tách từ tự động đƣợc xây dựng xong, chúng ta cần đánh
giá độ chính xác của việc tách từ tự động. Để đánh giá chúng ta cần nạp vào một
kho ngữ liệu thô để chƣơng trình thực hiện. Kết quả là chƣơng trình sẽ cho ra
một kho ngữ liệu đã đƣợc phân tách từ. Nhƣ vậy để đánh giá độ chính xác ta cần
14
so sánh kết quả tách từ từ chƣơng trình tự động này với kho ngữ liệu đã đƣợc
phân tách gán nhãn chuẩn.
Hƣớng thứ hai: Treebank đƣợc dùng nhƣ là dữ liệu đầu vào cho quá trình
phân tích, xử lý của các hệ thống nhƣ: dịch tự động, chuyển đổi dạng văn bản
sang tiếng nói, nhận dạng văn bản từ ảnh,…Trong các bài toán này, treebank
thƣờng đƣợc sử dụng nhằm nâng cao độ chính xác của kết quả đầu ra.
Ngôn ngữ
nguồn
Bộ xử lý
ngôn ngữ
Ngôn ngữ
đích
Treebank
Hình 1.
Ứng dụng treebank trong bài toán dịch tự động
15
CHƢƠNG 2 XÂY DỰNG TREEBANK VÀ VẤN ĐỀ TRUY VẤN THÔNG
TIN
2.1 Xây dựng treebank
2.1.1 Tổng quan các bƣớc xây dựng treebank
Xây dựng treebank là một quá trình đòi hỏi tốn nhiều công sức và thời
gian. Mỗi nhóm nghiên cứu xây dựng treebank có thể có sự khác nhau về một số
chi tiết, tuy nhiên, các bƣớc xây dựng một treebank có thể đƣợc tóm lƣợc nhƣ
trình bày trong bảng 1
Bƣớc
Các công việc
- Tìm hiểu các vấn đề về ngôn ngữ: phân
biệt câu, phân biệt từ, từ loại…
Tìm hiểu và thiết kế
- Thiết kế các nhãn từ loại
- Thiết kế định dạng mã hóa treebank
- Lập tài liệu hƣớng dẫn gán nhãn
- Lựa chọn nguồn văn bản và số lƣợng
Xây dựng bộ ngữ liệu thô
- Xây dựng bộ dữ liệu thô từ nguồn văn bản
đã lựa chọn với số lƣợng đƣợc ấn định
- Tách câu văn bản thành các từ đơn lẻ
Gán nhãn dữ liệu
Duyệt và tinh chỉnh
- Gán nhãn từ loại, nhãn cú pháp,nhãn phân
loại cho các đơn vị từ
- Thực hiện các bƣớc xem xét, đánh giá để
đảm bảo các đơn vị từ đƣợc gán nhãn đúng
đắn
- Thực hiện lại bƣớc gán nhãn nếu cần thiết
Lƣu thông tin
Bảng 1.
- Lƣu các thông tin đã đƣợc phân tích và gán
nhãn vào cơ sở dữ liệu với định dạng đã
đƣợc thiết kế ở bƣớc đầu tiên
Tổng hợp các bƣớc xây dựng một treebank
16
Trong các bƣớc nêu trên thì bƣớc gán nhãn dữ liệu có thể thực hiện một
cách thủ công hoàn toàn hoặc bán thủ công bằng cách sử dụng các công cụ phần
mềm nhƣ: bộ tách câu, bộ tách từ, bộ gán nhãn cú pháp…Đối với mỗi một ngôn
ngữ sẽ có các bộ công cụ phần mềm tƣơng ứng. Các công cụ hỗ trợ cho việc xây
dựng treebank tiếng Việt sẽ đƣợc trình bày chi tiết trong mục 2.1.3
2.1.2 Xây dựng treebank tiếng Việt
Với tiếng Việt, treebank đƣợc nghiên cứu xây dựng trong khuôn khổđề tài
VLSP [3] và có tên làVietTreebank. Mục tiêu củaVietTreebank là xây dựngđƣợc
một kho ngữ liệu chú giải cú pháp với độ lớn là 10.000 câu.
Tập nhãn của VietTreebank đƣợc thiết kế[2] gồm có:
Tập nhãn từ loại. Về nguyên tắc,các thông tin về từ có thể đƣợc chứa
trong nhãn từ loại bao gồm: từ loại cơ sở (danh từ, động từ,...), thông tin
hình thái (số ít, số nhiều, thì, ngôi,…), thông tin về phân loại con (ví dụ
động từ đi với danh từ, động từ đi với mệnh đề,...), thông tin ngữ nghĩa, hay
một số thông tin cú pháp khác. Với đặc điểm của tiếng Việt, tập nhãn từ
loại chỉ chứa thông tin về từ loại cơ sở mà không bao gồm các thông tin
nhƣ hình thái, phân loại con,...
Các nhãn từ loại:
STT
Tên
Chú thích
1
N
Danh từ
2
Np
Danh từ riêng
3
Nc
Danh từ chỉ loại
4
Nu
Danh từ đơn vị
5
V
Động từ
6
A
Tính từ
7
P
Đại từ
17
8
L
Định từ
9
M
Số từ
10
R
Phụ từ
11
E
Giới từ
12
C
Liên từ
13
I
Thán từ
14
T
Trợ từ
15
U
Từ đơn lẻ
16
Y
Từ viết tắt
17
X
Các từ không phân loại đƣợc
Bảng 2.
Tập nhãn từloại trong VietTreebank
Tập nhãn các thành phần cú pháp. Tập nhãn này chứa các nhãn mô tả
các thành phần cú pháp cơbản là cụm từ và mệnh đề. Nhãn thành phần cú pháp
là thông tin cơ bản nhất trên cây cú pháp, nó tạo thành xƣơng sống của cây cú
pháp. Tập nhãn cú pháp của các ngôn ngữ khác nhau là khác nhau (ở một tỉlệ
nhất định) vì hai nguyên nhân. Nguyên nhân cơ bản nhất là do sự khác biệt về
ngôn ngữ. Chẳng hạn nhƣ trong tiếng Trung, từ chỉ loại có chức năng làm bổ
nghĩa trƣớc cho danh từ. Từ chỉ loại lại có thể đƣợc kết hợp với sốtừ trong
phần phụ trƣớc của cụm danh từ. Vì vậy nhóm thiết kế Chinese Treebank
(CTB) đã đặt ra nhãn cụm từ chỉ loại. Đây là một điểm khác biệt với treebank
tiếng Anh (PTB). Nguyên nhân thứ hai là do kỹ thuật thiết kế tập nhãn. Chẳng
hạn nhƣ với các cụm từ nghi vấn, PTB có bốn loại nhãn là WHNP, WHPP,
WHADJP,WHADVP. Trong khi CTB lại chỉ đặt ra một nhãn chức năng là
WH. Nhãn này sẽ đƣợc dùng kèm với nhãn cụm từ khi trong cụm từ đó có từ
dùng để hỏi. Nhƣ vậy vẫn đủ để mô tả các cụm từ nghi vấn (NP-WH, PP-WH,
ADJP-WH, ADVP-WH).
Các nhãn cụm từ:
18
STT
Tên
Chú thích
NP
Cụm danh từ
VP
Cụm động từ
AP
Cụm tính từ
RP
Cụm phụ từ
PP
Cụm giới từ
QP
Cụm từ chỉ số lƣợng
MDP
Cụm từ tình thái
WHNP Cụm danh từ nghi vấn (ai, cái gì, con gì, v.v.)
WHAP Cụm tính từ nghi vấn (lạnh thế nào, đẹp ra sao, v.v.)
WHRP
Cụm từ nghi vấn dùng khi hỏi về thời gian, nơi chốn, v.v.
WHPP
Cụm giới từ nghi vấn (với ai, bằng cách nào, v.v.)
Bảng 3.
Tập nhãn cụm từ
Các nhãn mệnh đề:
STT
Tên
Chú thích
S
Câu trần thuật (khẳng định hoặc phủ định)
SQ
Câu hỏi
SE
Câu cảm thán
SC
Câu mệnh lệnh
SBAR
Mệnh đề phụ (bổ nghĩa cho danh từ, động
từ, và tính từ)
…
…
Bảng 4.
Tập nhãn mệnh đề
Tập nhãnchức năng ngữ pháp: Nhãn chức năng của một thành phần cú
pháp cho biết vai trò của nó trong thành phần cú pháp mức cao hơn. Nhãn
chức năng cú pháp đƣợc gán cho các thành phần chính trong câu nhƣ chủ
19
ngữ, vị ngữ, tân ngữ. Nhờ thông tin do nhãn chức năng cung cấp ta có thể
xác định các loại quan hệ ngữ pháp cơ bản sau đây:
o Chủ-vị
o Đề-thuyết
o Phần chêm
o Bổ ngữ
o Phụ ngữ
o Sự kết hợp
Các nhãn chức năng cú pháp
STT
Tên
Chú thích
SBJ
Nhãn chức năng chủ ngữ
OBJ
Nhãn chức năng tân ngữ trực tiếp
IO
Nhãn chức năng tân ngữ gián tiếp
TPC
Nhãn chức năng chủ đề
PRD
Nhãn chức năng vị ngữ không phải cụm động từ
…
Bảng 5.
…
Tập nhãn chức năng cú pháp
Việc thực hiện gán nhãnđƣợc thực hiện qua ba bƣớc: tách từ, gán nhãn từ
loại và gán nhãn cú pháp. Quá trình gán nhãn thực hiện tài liệu hƣớng dẫn gán
nhãn[2].
Một số ví dụ gán nhãn cú pháp:
- Gán nhãn cho cụm danh từ: NP
Cấu trúc cơ bản của một cụm danh từ:
Với cụm danh từ: “quả bóng màu xanh”, ta có:
20
(NP(Nu quả)
(N bóng)
(N màu xanh)
)
- Gán nhãn cho cụm động từ: VP
Giống nhƣ cụm danh từ, cấu tạo một cụm động từ về cơ bản nhƣ sau:
<động từ trung tâm>
Với cụm động từ: “đang ăn cơm”, ta có:
(VP (R đang)
(V ăn)
(NP cơm))
- Gán nhãn cho câu trần thuật: S
Theo quan điểm coi cấu trúc chủ-vị là cấu trúc chủ đạo của câu tiếng
Việt, một câu trần thuật gồm hai phần là chủ ngữ và vị ngữ:
Trong đó chủ ngữ thƣờng là cụm danh từ, còn vị ngữ thƣờng là cụm
động từ hoặc cụm tính từ. Với một số ngôn ngữ nhƣ tiếng Anh, vị ngữ luôn là
cụm động từ.
Với câu: “Anh yêu em”, ta có:
(S
(NP-SBJ Anh)
(VP (V yêu)
(NP-OBJ em))
(. .))
Toàn bộ quy trình, quy tắc gán nhãn đƣợc trình bày chi tiết và đầy đủ trong
tài liệu hƣớng dẫn gán nhãn của nhóm thực hiện đề tài xây dựng treebank tiếng
Việt[2].
2.1.3 Các công cụ hỗ trợ xây dựng treebank tiếng Việt