1
PHẦN MỞ ĐẦU
Những năm gần đây, xử lí ngôn ngữ tự nhiên đã trở thành một lĩnh
vực khoa học công nghệ được coi là mũi nhọn, với một loạt ứng
dụng liên quan đến Internet và Web, như tìm kiếm và trích chọn
thông tin trên Web, khai phá văn bản, v.v. Vấn đề phân tích và hiểu
tự động văn bản là một vấn đề lớn và phức tạp trong việc hiểu ngôn
ngữ tự nhiên, được tích hợp trong hầu hết các ứng dụng xử lí văn bản
tự động. Quá trình này thường được chia thành các mức cơ bản: mức
ngữ âm; mức hình thái; mức cú pháp; mức ngữ nghĩa, mức ngữ dụng
và mức diễn ngôn. Để giải quyết các vấn đề trên, nhiều kho ngữ liệu
lớn đã được ra đời phục vụ cho việc huấn luyện các mô hình xử lý
ngôn ngữ. Hiện nay khi dữ liệu trên Internet rất nhiều thì các mô
hình thống kê dựa trên dữ liệu đã cho thấy tính vượt trội so với cách
tiếp cận dựa trên luật. Hiện tại, các kho ngữ liệu lớn phục vụ cho
tiếng Việt còn hiếm. Vì vậy việc xây dựng, chuẩn hóa và khai thác
kho ngữ liệu từ nguồn Internet cho xử lý tiếng Việt là rất cần thiết.
Mục tiêu. Xây dựng, chuẩn hóa và khai thác kho ngữ liệu tiếng Việt:
- Xây dựng kho ngữ liệu thô có kích thước lớn (hàng GB) từ
Internet.
- Xây dựng chuẩn hóa mô hình chú giải tiếng Việt.
- Khai thác kho ngữ liệu thô cho nghiên cứu từ vựng.
- Khai thác kho ngữ liệu đã chú giải cú pháp phục vụ bài toán
phân tích cú pháp tiếng Việt.
Phạm vi nghiên cứu của luận án. Để đạt được mục đích trên, phạm
vi nghiên cứu của luận án tập trung vào mức hình thái và mức cú
pháp, cụ thể là:
- Nghiên cứu về phương pháp và thuật toán xây dựng kho ngữ
liệu thô tiếng Việt từ Internet.
- Nghiên cứu xây dựng và triển khai một số chuẩn hóa mô hình
chú giải được phát triển bởi tiểu ban kỹ thuật ISO/TC 37/SC 4
cho tiếng Việt phục vụ việc phân phối và trao đổi ngữ liệu.
- Khai thác kho ngữ liệu thô và xây dựng bộ quan hệ ngữ pháp cơ
2
- Nghiên cứu và phát triển thuật toán trích rút tự động các luật văn
phạm từ kho ngữ liệu đã chú giải cú pháp phục vụ cho phân tích
cú pháp sử dụng hệ hình thức văn phạm phi ngữ cảnh kết hợp
xác suất (PCFG) và văn phạm kết nối cây (TAG). Nghiên cứu
xây dựng công cụ phân tích cú pháp tự động cho tiếng Việt.
Bố cục của luận án: Luận án được chia thành năm chương: Chương
1. Tổng quan về kho ngữ liệu; Chương 2. Xây dựng kho ngữ liệu thô
từ Internet; Chương 3. Chuẩn hóa mô hình chú giải tiếng Việt;
Chương 4. Khai thác kho ngữ liệu thô cho nghiên cứu từ vựng tiếng
Việt; Chương 5. Khai thác kho ngữ liệu có chú giải cho phân tích cú
pháp tiếng Việt; Cuối cùng là phần kết luận của luận án.
CHƯƠNG 1. TỔNG QUAN VỀ KHO NGỮ LIỆU
1.1 Kho ngữ liệu văn bản
Kho ngữ liệu là một tập hợp lớn các văn bản.Thông tin ngôn ngữ
trong đó là cơ sở tri thức ngôn ngữ học, được sử dụng trong việc
phân tích thống kê và kiểm tra các giả thiết ngôn ngữ, kiểm tra sự
xuất hiện hoặc xác nhận các quy tắc trong mỗi ngôn ngữ. Kho ngữ
liệu có thể chứa các văn bản của một ngôn ngữ (kho ngữ liệu đơn
ngữ) hoặc chứa các văn bản của nhiều ngôn ngữ (kho ngữ liệu đa
ngữ). Các văn bản trong đó có thể còn ở dạng thô- chưa được tách từ
và chú giải ngôn ngữ hoặc đã được tách từ, chú giải ngôn ngữ (mức
từ loại, mức cú pháp). Các kho ngữ liệu chú giải ở mức cú pháp còn
được gọi là ngân hàng cây cú pháp (treebank). Kho ngữ liệu có thể
thu thập từ nhiều nguồn tạp chí, sách báo, báo điển tử, sách giáo
khoa, Ineternet thông qua các trang web.
1.2 Xây dựng kho ngữ liệu văn bản
Qua khảo sát một số kho ngữ liệu lớn có chú giải trên thế giới cho
thấy việc xây dựng các kho ngữ liệu được thực hiện thông qua hai
phương pháp chính:
3
Thứ nhất: Thủ công hoặc bán thủ công, thực hiện qua hai bước
chính: Bước 1.Thu thập kho văn bản thô: Nguồn gốc thu thập dữ liệu
từ tạp chí, sách báo, báo điển tử, sách giáo khoa... Bước 2. Chú giải
ngôn ngữ: Công việc này có thể thực hiện thủ công hoặc sử dụng các
công cụ đã tồn tại.
Thứ hai. Xây dựng tự động từ Internet, thực hiện qua 5 bước
chính: Bước 1.Lựa chọn một danh sách các từ hạt giống có tần suất
xuất hiện trung bình. Bước 2.Thu thập dữ liệu từ Web bằng cách sử
dụng các từ hạt giống để tạo ra truy vấn thông qua các cổng tìm
kiếm như Yahoo và Google và tải các trang kết quả về. Bước 3.Làm
sạch văn bản, loại bỏ các thông tin quảng cáo và các thông tin nhiễu
khác. Bước 4.Loại bỏ các văn bản trùng lặp. Bước 5.Chú giải ngôn
ngữ và chuẩn hóa.
1.3 Chuẩn hoá kho ngữ liệu
Vấn đề chuẩn hoá mô hình chú giải kho ngữ liệu là vấn đề quan
trọng, nhằm mở rộng đến mức tối đa phạm vi sử dụng và khai thác
tài nguyên đặc biệt là trên máy tính, đây chính là vấn đề đang được
quan tâm bởi tiểu ban kĩ thuật ISO/TC 37/SC 4. Một số mô hình chú
giải kho ngữ liệu được phát triển bởi tiểu ban kĩ thuật ISO/TC 37/SC
4 như như mô hình chú giải hình thái cú pháp (MAF Morphosyntactic Annotation Framework), mô hình chú giải cú pháp
(SynAF - Syntactic Annotation Framework), mô hình chú giải ngôn
ngữ (LAF - Linguistic Annotation Framework), mô hình chú giải ngữ
nghĩa (SemAF – Semantic Annotation Framework).
1.4 Khai thác kho ngữ liệu
Kho ngữ liệu là nguồn tài nguyên quan trọng trong việc nghiên cứu
và xử lý ngôn ngữ tự nhiên. Với kho ngữ liệu văn bản, đã được tách
từ hoặc là kho ngữ liệu đã được chú giải ở các mức cú pháp, có thể
khai thác làm dữ liệu huấn luyện và dữ liệu đánh giá cho cho các mô
hình và công cụ học máy phục vụ cho xử lý ngôn ngữ, khai thác cho
các văn phạm phục vụ cho việc phân tích cú pháp và có thể khai thác
cho việc xây dựng từ điển (đơn ngữ, đa ngữ), dịch tự động..v.v.
4
1.5 Xây dựng, chuẩn hóa và khai thác kho ngữ liệu tiếng Việt
Xây dựng: Nghiên cứu từ vựng đòi hỏi xây dựng kho ngữ liệu có
kích thước càng lớn càng tốt. Ý tưởng chủ đạo của phương pháp xây
dựng kho ngữ liệu là thu thập tự động kho ngữ liệu văn bản từ
Internet thông qua địa chỉ các trang web (URL). Phương pháp sử
dụng ở đây về cơ bản giống như phương pháp đã được sử dụng cho
tiếng Anh và một số ngôn ngữ phổ biến khác, được chi thành 5 bước
chính như trên.
Vấn đề quan trọng cần làm là lập danh sách từ hạt giống cho từng
ngôn ngữ.Trong đó, để phù hợp với trang web tiếng Việt, thuật toán
từng bước đã được phát triển và lựa chọn, đặc biệt thuật toán trích rút
tự động nội dung văn bản trang web đã được cải tiến nhằm giảm
thiểu những dữ liệu nhiễu không phải nội dung văn bản cần lấy.
Chuẩn hoá kho ngữ liệu: Hiện nay, các mô hình chú giải ngôn
ngữ MAF, SynNaf, LAF chưa được nghiên cứu biểu diễn cho tiếng
Việt. Trong luận án đưa ra mô hình MAF để biểu diễn chú giải hình
thái cú pháp của các từ và mô hình SynNaf để biểu diễn chú giải cây
cú pháp của các câu cho tiếng Việt.
Khai thác kho ngữ liệu: Trong luận án tác giả đi sâu vào khai thác
kho ngữ liệu cho nghiên cứu từ vựng và phân tích cú pháp tiếng Việt:
- Luận án lựa chọn nghiên cứu hệ thống truy vấn kho ngữ liệu
Sketch Engine phục vụ cho việc nghiên cứu từ vựng, bởi hai lý do;
Thứ nhất: Skech Engine - Hệ thống truy vấn kho ngữ liệu cho phép
người sử dụng xem xét ngữ cảnh theo quan hệ ngữ pháp và cung cấp
thống kê về tần suất xuất hiện các từ theo mỗi quan hệ ngữ pháp, tra
cứu các từ đồng và phản nghĩa, so sánh thông tin của hai từ tương tự
nha v.v. Hệ thống đã được sử dụng cho nhiều ngôn ngữ khác nhau
nhưng chưa được sử dụng cho tiếng Việt. Thứ 2: Đối với tiếng Việt,
các nhà làm từ điển hiện nay thường mới chỉ có công cụ để tra cứu
ngữ cảnh của một từ trong kho ngữ liệu, chưa có các thống kê tự
động để so sánh, chọn lọc các ngữ cảnh. Việc sử dụng một bộ công
5
cụ như hệ thống Sketch Engine sẽ là rất hữu ích, giúp cải thiện quy
mô và chất lượng từ điển
- Mọi bộ phân tích cú pháp đều cần một bộ luật cú pháp, hay còn
gọi là văn phạm, được biểu diễn bởi một hệ văn phạm hình thức cụ
thể nào đó. Đối với tiếng Việt, với dự án KC01.01/06-10 đã tồn tại
một số kho ngữ liệu tiếng Việt như ngân hàng câu chú giải cú pháp
(VietTreeBank), từ điển điện tử…Trong luận án đã đi sâu vào nghiên
cứu và xây dựng thuật toán trích rút tự động văn phạm phi ngữ cảnh
(CFG) và văn phạm kết nối cây (TAG) từ VietTreebank và từ điển
cho tiếng Việt bởi lý do sau: Thứ nhất, từ điển và VietTreebank có
một cơ sở ngôn ngữ học vững chắc, nó bao gồm lý thuyết văn phạm
cảm sinh được khởi xướng bởi Chomsky và lý thuyết ngữ pháp chức
năng. Đây là những lý thuyết có ảnh hưởng lớn trong cả nghiên cứu
ngôn ngữ học lẫn ngôn ngữ học tính toán. Trong tiếng Việt, sự ảnh
hưởng này được thể hiện điển hình qua các nghiên cứu của Vũ Dũng
và Cao Xuân Hạo. Thứ hai, văn phạm CFG là văn phạm tiêu biểu
được sử dụng trong bài toán phân tích cú pháp thành phần lần đầu
tiên đã được đề xuất bởi Chomsky. Đây chính là văn phạm đơn giản,
làm nền tảng đặc trưng cho cú pháp thành phần.Thứ ba, văn phạm
TAG - lớp văn phạm cảm ngữ cảnh yếu, tức là có khả năng sinh
mạnh hơn các văn phạm phi ngữ cảnh, trong khi độ phức tạp thời
gian của bộ phân tích cú pháp TAG vẫn là đa thức (O(n6)). Văn
phạm hình thức LTAG rất phù hợp với các ứng dụng ngôn ngữ học.
Khả năng chuyển đổi một văn phạm LTAG sang các hệ hình thức
văn phạm hợp nhất khác như LFG (Lexical Functional Grammar)
hay HPSG (Head-driven Phrase Structure Grammar) đã được chứng
minh.
1.6 Kết luận
Chương này trình bày tổng quan về kho ngữ liệu, một số kho ngữ
liệu tiêu biểu trên thế giới, nghiên cứu việc xây dựng và khai thác
kho ngữ liệu chuẩn, mô hình chuẩn hóa kho ngữ liệu theo tiêu chí
của tiểu ban kỹ thuật ISO/TC 37/SC 4. Trên cơ sở đó xác định mục
6
tiêu cho việc xây dựng và khai thác kho ngữ liệu từ Internet cho
tiếng Việt
2. CHƯƠNG 2. XÂY DỰNG KHO NGỮ LIỆU THÔ TỪ
INTERNET
2.1 Giới thiệu
Chương này trình phương pháp xây dựng kho ngữ liệu thô tiếng
Việt từ Internet, phương pháp sử dụng được phát triển từ phương
pháp xây dựng cho tiếng Anh và một số tiếng phổ biến khác.
2.2 Xây dựng kho ngữ liệu thô
Phương pháp thu thập kho ngữ liệu sử dụng ở đây được dựa trên
phương pháp của Aidan Finn và A.Kilgarriff, nhưng thuật toán thu
thập kho ngữ liệu chi tiết từng bước đã được lựa chọn và phát triển
để phù hợp phù hợp với tiếng Việt. Về cơ bản, quá trình thu thập kho
ngữ liệu từ Internet được phát triển trong 5 bước đã giới thiệu ở mục
1.5.
2.2.1 Lựa chọn danh sách từ hạt giống
Từ hạt giống đóng vai trò là từ khóa tìm kiếm trong việc thu thập
kho ngữ liệu văn bản của mỗi ngôn ngữ. Đây phải là các từ đặc trưng
cho mỗi ngôn ngữ, tức là phải có tần suất xuất hiện đáng kể và có
tính phân biệt so với các từ trong ngôn ngữ khác. Đối với tiếng Việt,
danh sách từ hạt giống được thu thập từ việc phân đoạn từ của các
câu trong các trang Wiki tiếng Việt. Thuật toán phân đoạn từ đơn
giản được sử dụng là duyệt theo từng câu từ trái sang phải, chọn ranh
giới từ sao cho từ thu được có nhiều âm tiết nhất có thể so sánh với
danh sách từ đúng là từ tiếng Việt (word list). Cách lựa chọn này rõ
ràng không phải bao giờ cũng chính xác, nhưng sai số là chấp nhận
được cho mục đích lập danh sách tần suất từ; Sau đó lựa chọn từ hạt
giống từ danh sách tần suất; tiêu chí chọn từ hạt giống của mỗi ngôn
ngữ là khác nhau, đối với tiếng Việt tiêu chí được chọn là từ hạt
giống phải có ít nhất 1 kí tự Unicode không thuộc phạm vi ASCII,
các từ khác sẽ không được xét, các chữ số hoặc các mục không phải
kí tự cũng sẽ bị loại trừ. Danh sách từ hạt giống, được sắp xếp theo
chiều giảm dần của tần suất, trong đó 1000 từ có tần suất cao nhất
7
được bỏ qua vì chúng thường được coi là các từ dừng (stop word)
đối với các máy tìm kiếm, 5000 từ tiếp theo trong danh sách tần suất
thuộc nhóm từ có tần suất trung bình được sử dụng làm từ hạt giống.
2.2.2 Thu thập địa chỉ URL
Về cơ bản, quá trình thu thập được thực hiện qua 2 bước. Bước1.
Sinh truy vấn: Lựa chọn ngẫu nhiên một số từ trong số các từ hạt
giống để tạo nên một truy vấn. Bước 2.Thu thập URL: Gửi truy vấn
tới một máy tìm kiếm. Tải về tất cả các tài liệu kết quả của máy tìm
kiếm và lưu lại. Quá trình này được lặp đi lặp lại nhiều lần cho đến
khi kho ngữ liệu đủ lớn. Nếu nhiều URL giống nhau thì loại bỏ và
chỉ giữ lại một URL.
2.2.3 Lọc nội dung chính của các trang web (URLs)
Chỉ thu lấy các trang HTML và có dung lượng lớn hơn 5 KB (để
xác suất các tệp này chứa văn bản liên quan là lớn hơn). Các tệp có
dung lượng lớn hơn 2 MB cũng được loại bỏ để tránh bất kì tệp
thuộc miền đặc biệt nào thống trị thành phần của kho ngữ liệu, và
cũng bởi vì các tập tin có độ lớn này là rất thường xuyên đăng nhập
vào các tập tin và văn bản không có kết nối khác; Những trang được
tải về bao hàm cả các dấu của HTML, văn bản ‘boilerplate’ các
thanh menu, quảng cáo.... Đó là các phần tài liệu không hợp pháp,
tạm gọi là phần đánh dấu.Thuật toán rút trích phần thân văn bản BTE
(Body Text Extraction) (Thuật toán 2.5) được phát triển từ thuật toán
gốc của Aidan Fin - loại bỏ những phần đánh dấu và chỉ trích rút
những văn bản được kết nối. Độ phức tạp của thuật toán là O (n2).
Sau đây là các bước chính trong thuật toán:
Bước 0: Mỗi trang web tương ứng với 1 tệp định dạng HTML.
Làm sạch mã HTML bằng cách loại bỏ những thẻ, những đoạn mã
HTML chắc chắn không chứa thông tin liên quan đến nội dung như
các thẻ ,
Tải tài liệu
Chi phí hỗ trợ lưu trữ và tải về cho tài liệu này là đ. Bạn có muốn hỗ trợ không?