Phân tích văn bản cho tổng hợp tiếng nói tiếng Việt
Luận văn ThS Công nghệ thông tin
Nguyễn Hồng Quân
MỤC LỤC
DANH MỤC CÁC TỪ VIẾT TẮT ........................................................................................ 4
DANH MỤC CÁC BẢNG ..................................................................................................... 5
DANH MỤC CÁC HÌNH VẼ ................................................................................................ 5
LỜI NÓI ĐẦU ....................................................................................................................... 6
Chương 1 TỔNG QUAN VỀ TỔNG HỢP TIẾNG NÓI................................................... 8
1.1 Modul NLP ..................................................................................................................... 10
1.1.1 Phân tích văn bản .................................................................................................. 10
1.1.2 Modul LTS ............................................................................................................ 10
1.1.3 Phát sinh ngôn điệu ............................................................................................... 11
1.2 Modul DSP ..................................................................................................................... 11
1.2.1 Tổng hợp theo cấu âm ........................................................................................... 12
1.2.2 Tổng hợp tiếng nói theo quy luật Formant ............................................................ 14
1.2.3 Tổng hợp xích chuỗi .............................................................................................. 15
1.2.4 Tổng hợp xích chuỗi sử dụng mã tiên đoán tuyến tính LPC ................................. 18
1.3 Các ứng dụng của TTS ................................................................................................... 22
Chương 2 CƠ SỞ LÝ THUYẾT NGÔN NGỮ TIẾNG VIỆT ....................................... 24
2.1 Ngữ âm học ..................................................................................................................... 24
2.1.1 Cơ sở vật lí ............................................................................................................ 24
2.1.2 Các đặc trưng về âm tiết tiếng Việt ....................................................................... 24
2.1.3 Âm vị ..................................................................................................................... 26
2.1.4 Hiện tượng biến đổi ngữ âm .................................................................................. 30
2.2 Đặc điểm của từ .............................................................................................................. 31
2.2.1 Định nghĩa từ ......................................................................................................... 31
2.2.2 Các quan niệm về hình vị và từ trong tiếng Việt ................................................... 32
2.2.3 Phương thức cấu tạo từ .......................................................................................... 32
2.3 Chữ viết và chính tả tiếng Việt ....................................................................................... 33
Chương 3
PHÂN TÍCH VĂN BẢN CHO TỔNG HỢP TIẾNG NÓI TIẾNG VIỆT ..................... 39
3.1 Các modul ....................................................................................................................... 39
3.2 Từ điển ............................................................................................................................ 41
3.3 Xác định cấu trúc văn bản ............................................................................................... 41
3.3.1 Các tiêu đề của chương, mục................................................................................. 42
3.3.2 Danh sách .............................................................................................................. 43
3.3.3 Các đoạn ................................................................................................................ 44
3.3.4 Câu......................................................................................................................... 45
3.3.5 Email ..................................................................................................................... 45
3.3.6 Trang Web ............................................................................................................. 46
3.3.7 Hoạt động hội thoại ............................................................................................... 46
3.4 Chuẩn hoá văn bản .......................................................................................................... 46
3.4.1 Chuẩn hoá y-i ........................................................................................................ 47
3.4.2 Chuẩn hoá dấu thanh ............................................................................................. 47
3.4.5 Chữ viết tắt và các kí hiệu khác............................................................................. 48
3.4.4 Các con số ............................................................................................................. 48
3.4.5 Ngày tháng ............................................................................................................ 49
3.4.6 Thời gian ............................................................................................................... 49
3.5 Phân tích ngôn ngữ ......................................................................................................... 50
3.5.1 Tách từ ................................................................................................................... 50
3.5.2 Gán nhãn từ loại .................................................................................................... 50
3.5.3 Phân tích cú pháp .................................................................................................. 51
3.5.4 Phân tích ngữ nghĩa ............................................................................................... 52
Chương 4 BÀI TOÁN TÁCH TỪ ..................................................................................... 53
4.1 Các khó khăn trong nhận dạng từ tiếng Việt .................................................................. 53
4.2 Một số phương pháp tách từ ........................................................................................... 54
4.2.1 Dựa theo luật ......................................................................................................... 54
4.2.2 Dùng thống kê ....................................................................................................... 55
4.2.3 Các cách khác ........................................................................................................ 55
4.3 Đề xuất mới..................................................................................................................... 58
4.3.1 Từ điển................................................................................................................... 58
4.3.2 Các giả thiết ........................................................................................................... 59
4.3.3 Giải pháp tách từ ................................................................................................... 63
4.4 Xử lí tên riêng ................................................................................................................. 66
4.4.1 Tên người, tên địa lí .............................................................................................. 66
4.4.2 Tên tổ chức ............................................................................................................ 67
4.4.3 Các tên riêng khác ................................................................................................. 67
4.5 Tách đoạn – Tách câu ..................................................................................................... 68
4.6 Nhận xét đánh giá ........................................................................................................... 68
4.6.1 Tập ngữ liệu thô ........................................................................................................... 68
4.6.2 Nhận xét ....................................................................................................................... 70
Chương 5 CÀI ĐẶT THỬ NGHIỆM ĐÁNH GIÁ .......................................................... 73
5.1 Chương trình thử nghiệm ................................................................................................ 73
5.1.1 Yêu cầu về cấu hình hệ thống ............................................................................... 73
5.1.2 Ngôn ngữ lập tình và cơ sở dữ liệu ....................................................................... 73
5.1.3 Giao diện chương trình .......................................................................................... 73
5.2 Cấu trúc chương trình ..................................................................................................... 74
5.3 Các kết quả thực nghiệm................................................................................................. 75
5.3.1 Kết quả phân tích ................................................................................................... 75
5.3.2. Đánh giá tốc độ thực hiện ..................................................................................... 77
Kết luận và định hướng nghiên cứu .................................................................................. 79
Tài liệu tham khảo ............................................................................................................. 80
DANH MỤC TỪ VIẾT TẮT
STT
Từ viết tắt
Nội dung
1
CART
Clasification And Regression Tree
2
CSDL
Cơ sở dữ liệu
3
DSP
Digital Sigal Procesing - Xử lí tín hiệu số
4
HMM
Hidden Markov Model
5
LTS
Letter To Sound – Biến đổi chữ viết thành dạng phát âm được
6
MMM
Maximal Matching Model
7
NLP
Natural Language Processing -Xử lí ngôn ngữ tự nhiên
8
TBL
Tranformation Based Learning
9
TTS
Text To Speech - Tổng hợp tiếng nói
10
WFST
Weigthed Finite State Transducer
11
MMM
Maximal Matching Model
STT
Từ viết tắt
Nội dung
12
TAM
Text Analyzer Modul
DANH MỤC CÁC BẢNG BIỂU
Bảng 2.1 Hệ thống âm đầu ................................................................................... 27
Bảng 2.2 Hệ thống âm chính ................................................................................ 29
Bảng 4.1: Kết quả đánh giá phân tách từ .............................................................. 70
Bảng 5.1 Kết quả đánh giá phân tích văn bản ...................................................... 75
Bảng 5.1 Kết quả tốc độ thực hiện ....................................................................... 77
DANH MỤC CÁC HÌNH VẼ VÀ BIỂU ĐỒ
Hình 1.1 Sơ đồ chức năng tổng quát của hệ thống TTS ................................................... 8
Hình 1.2 Modul NLP của một hệ thống TTS .................................................................................. 9
Hình 1.3 Qui trình tổng hợp tiếng nói theo qui luật ........................................................ 14
Hình 1.4. Mô hình tuyến tính tạo tiếng nói ................................................................................ 15
Hình 1.5 Mô hình qui trình tổng hợp tiếng nói theo xích chuỗi ................................................. 16
Hình 1.6 Mô hình tiên đoán tuyến tính tiếng nói ...................................................................... 19
Hình 1.7 Mô hình tổng hợp LPC .................................................................................................. 20
Hình 2.1- Cấu trúc âm tiết............................................................................................... 25
Hình 3.1. Cấu trúc modun hóa bộ phân tích văn bản và ngữ âm ............................................... 39
Hình 3.2 Ví dụ về chú thích XML trong một cuốn sách................................................ 43
Hình 3.3 Ví dụ về một danh sách được đánh dấu ........................................................... 43
Hình 3.4 Ví dụ về một đánh dấu câu .............................................................................. 44
Hình 3.5: Ví dụ về e-mail được đánh dấu bởi các thẻ đánh dấu XML ........................................ 46
Hình 3.6: Phân tích cú pháp ............................................................................................ 51
Hình 4.1 Biểu đồ phân bố từ theo số lượng tiếng trong từ ............................................. 59
Hình 4.2. Thuật toán tách từ ........................................................................................... 65
Hình 5. 1: Giao diện chính .............................................................................................. 73
Hình 5.2 Mô hình ứng dụng ............................................................................................ 74
LỜI NÓI ĐẦU
Trong những năm gần đây, trên thế giới và nhiều hệ thống tổng hợp và nhận dạng
tiếng nói cho nhiều ngôn ngữ như Anh, Pháp, Nhật... đã được hoàn thiện. Sự phát triển
của công nghệ xử lí tiếng nói trên thế giới đã buộc chúng ta phải thừa nhận rằng việc
nghiên cứu tiếng Việt một cách toàn diện cả về ngôn ngữ , văn bản và tiếng nói để có thể
đạt được những kết quả so sánh được với các ngôn ngữ khác là hoàn toàn hiện thực. Tổng
hợp tiếng nói từ văn bản có chức năng ngược với nhận dạng tiếng nói. Nó có rất nhiều
ứng dụng quan trọng trong khoa học công nghệ và đời sống. Một hệ tổng hợp tiếng nói
bao gồm hai quá trình xử lí chính là : Xử lí ngôn ngữ tự nhiên và Xử lí tín hiệu số. Trong
đó phân tích văn bản là một giai đoạn quan trọng của quá trình xử lí ngôn ngữ tự nhiên,
nó bao gồm các nhiệm vụ chính sau:
- Xác định cấu trúc văn bản
- Chuẩn hoá văn bản
- Phân tích ngôn ngữ
Với nhiệm vụ Phân tích ngôn ngữ thì một loạt các bài toán cơ bản cần được giải
quyết: phân tách từ, gán nhãn từ loại, phân tích cú pháp và phân tích ngữ nghĩa. Trong
đó bài toán phân tách từ là tương đối quan trọng, khi chưa giải quyết được bài toán này
thì ta không thể tiến xa thêm một bước nào trong xử lí ngôn ngữ tự nhiên. Cho đến nay đã
có khá nhiều phương pháp tách từ được đưa ra : các phương pháp dựa theo luật, các
phương pháp theo mô hình xác suất thống kê, các phương pháp lai... Tuy nhiên đối với
từng ngôn ngữ cụ thể và phụ thuộc vào đặc điểm của ngôn ngữ mà mỗi phương pháp có
kết quả thực hiện với độ chính xác khác nhau.
Trong phạm vi của luận văn này tôi xin đề xuất một yếu tố mới trong việc phân
tách từ tiếng Việt, đó là cường độ liên kết từ. Qua một số khảo sát thực nghiệm, kết quả
thu về là đáng khích lệ.
Nội dung của luận văn được trình bày cụ thể trong 5 chương
Chương 1: Tổng quan về tổng hợp tiếng nói
Chương 2: Cơ sở ngôn ngữ tiếng Việt
Chương 3: Phân tích văn bản cho tổng hợp tiếng nói tiếng Việt
Chương 4 : Bài toán tách từ tiếng Việt
Chương 5: Cài đặt và đánh giá thử nghiệm
Những công việc được thực hiện trong luận văn này chưa phải là nhiều . Phần thực
hiện được chỉ là bước đầu nghiên cứu về tổng hợp tiếng nói và các vấn đề liên quan đến
phân tích văn bản cũng như xử lí ngôn ngữ tự nhiên nói chung.
Tôi xin được bày tỏ lòng cảm ơn sâu sắc tới Tiến sĩ Lương Chi Mai, người đã tận
tình hướng dẫn giúp đỡ và tạo mọi điều kiện thuận lợi cho công tác nghiên cứu hoàn
thành luận văn này.
Xin ghi nhớ công lao của những người thân trong gia đình đã luôn động viên, chia
sẻ, giúp đỡ để tôi hoàn thành khoá học và luận văn này.
Hà Nội, ngày 2 tháng 1 năm 2006
Nguyễn Hồng Quân
Chương 1
TỔNG QUAN VỀ TỔNG HỢP TIẾNG NÓI
Tiếng nói là phương tiện truyền thông chính giữa con người với nhau. Một hệ
thống tổng hợp tiếng nói (Text To Speech – TTS) là một hệ thống dựa trên máy tính có
khả năng đọc to bất kỳ văn bản nào, nó bao gồm việc chuyển đổi các mô tả về mặt ngữ
âm và ngữ điệu của văn bản đầu vào thành dạng sóng tiếng nói ở đầu ra. Dữ liệu về tiếng
nói có thể được mã hóa hay tham số hóa ở một dạng nào đó và được lưu giữ trước ở trong
bộ nhớ. Văn bản có thể được nhập vào máy tính từ bàn phím, hoặc bằng hệ thống nhận
dạng chữ viết, hoặc nhận được từ một CSDL nào đó hay tải về từ Internet[14].
Công việc của hệ thống TTS có thể được xem như là ngược lại với nhận dạng tiếng
nói. Việc chuyển các từ ở dạng chữ viết ra thành tiếng nói không phải là việc làm đơn
giản. Thậm chí nếu chúng ta có thể lưu trữ một từ điển khổng lồ cho các từ phổ biến nhất
trong tiếng Việt thì hệ thống TTS vẫn cần phải đối mặt với hàng triệu các tên riêng, các
từ viết tắt vẫn phát sinh hàng ngày. Mặt khác để tiếng nói được sinh ra một cách tự nhiên
thì ngữ điệu của câu cần được kết hợp một cách hợp lý.
BỘ TỔNG HỢP TIẾNG NÓI
XỬ LÝ TÍN HIỆU SỐ
XỬ LÝ NGÔN NGỮ TỰ NHIÊN
Văn bản
-
Các hình thức ngôn ngữ
Các mô tơ suy diễn
Các suy luận logic
Ngôn điệu
Các mô hình toán học
Các thuật toán
Các quá trình tính toán
-
Tiếng nói
Hình 1.1 Sơ đồ chức năng tổng quát của hệ thống TTS
Hình 1.1 giới thiệu sơ đồ cơ bản của một bộ tổng hợp TTS nói chung [14]. Giống
như việc đọc của con người, hệ thống bao gồm:
Modul xử lí ngôn ngữ tự nhiên (NLP): Có chức năng phân tích văn bản đầu
vào để sinh ra sự biến đổi ngữ âm cho việc đọc văn bản cùng với ngữ điệu và nhịp
điệu mong muốn (thường được gọi là ngôn điệu).
Modul xử lí tín hiệu số (DSP): có nhiệm vụ biến đổi các thông tin ở dạng ký
hiệu mà nó nhận được ở đầu vào thành tiếng nói ở đầu ra. Các thuật toán và các
hình thức được áp dụng để xử lí thường được dựa vào các tri thức của các mô hình
ngữ âm và toán học để phát triển. Tính chất quan trọng nhất của hệ thống tổng hợp
tiếng nói là chất lượng tiếng nói đầu ra. Các tiếp cận hiện nay thường bỏ qua một
số bước xử lí nào đó do bị hạn chế về vấn đề thời gian thực và tài nguyên của hệ
thống. Điều này dẫn đến chất lượng bị hạn chế trong cách phát âm cũng như tính
biểu cảm, ít nhất là so với con người.
1.1 Modul NLP
Hình 1.2 giới thiệu sơ đồ làm việc của modul NLP tổng quát cho nhiệm vụ TTS
[14].
Văn bản
Bộ tiền xử lý
Bộ phân tích hình thái
HỆ
THỐNG
Bộ phân
tích
Bộ phân tích ngữ cảnh
XỬ
văn bản
1.1.1 Phân tích văn bản
Khối phân tích văn bản bao gồm các thành phần sau:
Module tiền xử lí: có nhiệm vụ tổ chức các câu đầu vào thành danh sách các từ
có khả năng xử lí được. Nó có nhiệm vụ nhận biết các con số, các chữ viết tắt , các thành
ngữ và biến đổi chúng thành dạng văn bản đầy đủ khi cần thiết. Một vấn đề quan trọng
mà chúng ta phải đối mặt ngay ở mức xử lí kí tự là: sự nhập nhằng của các dấu chấm câu
(bao gồm cả trường hợp chuẩn khi hết câu). Ở một vài phạm vi có có thể được giải quyết
nhờ các văn phạm chính quy cơ bản.
Module phân tích hình thái: có nhiệm vụ đưa ra tất cả các khả năng về từ loại
cho mỗi cách viết riêng biệt của từng từ trên cơ sở từ chính tả của chúng. Những từ ghép,
từ có nhiều biến tố, từ dẫn xuất được tách ra thành các đơn vị tự vị cơ bản (hình thái) nhờ
các văn phạm chính quy đơn giản sử dụng từ vựng gốc từ và phụ tố. Module này là cần
thiết cho xử lí các ngôn ngữ có hình thái.
Module phân tích ngữ cảnh: có nhiệm vụ xem xét các từ xuất hiện trong ngữ
cảnh, từ đó cho phép giảm bớt danh sách từ loại để hạn chế số lượng các giả thuyết có
thể xảy ra nhiều, cho biết từ loại tương ứng của các từ lân cận. Vấn đề này này có thể
được giải quyết theo :
- Mô hình n-grrams: theo đó sự phụ thuộc cú pháp cục bộ được biểu diễn theo dạng
otomat hữu hạn trạng thái xác suất, tức là mô hình Markov, hoặc một phạm vi nhỏ
hơn với mạng nơron nhiều tầng được huấn luyện để phát hiện ra các luật viết theo
ngữ cảnh.
- Tập văn phạm cục bộ, không ngẫu nhiên được cung cấp bởi các chuyên gia ngôn
ngữ hoặc được suy diễn một cách tự động từ một tập dữ liệu huấn luyện với các kỹ
thuật cây hồi quy và phân loại (CART).
Module phân tích cú pháp- ngôn điệu: có nhiệm vụ rà soát trong không gian tìm
kiếm còn lại và các cấu trúc văn bản tìm thấy (tức là sự tổ chức của chúng thành mệnh đề
và các thành phần giống như cụm từ) có liên quan mật thiết nhiều tới thể hiện hiện ngôn
điệu thực sự của nó.
1.1.2 Module LTS:
Module chịu trách nhiệm xác định tự động phiên âm ngữ âm cho văn bản nhận
được. Đối với các ngôn ngữ có biến đổi hình thái như hệ ngôn ngữ Ấn- Âu , đây là một
module quan trọng vì có nhiều phiên âm không được đề cập đến trong từ điển. Tuy
nhiên, chữ viết tiếng Việt là loại chữ ghi âm nên số lượng các mục trong từ diển được
giảm bớt rất nhiều
1.1.3 Phát sinh ngôn điệu
Thuật ngữ ngôn điệu dùng để chỉ các thuộc tính nhất định về tín hiệu tiếng nói liên
quan đến khả năng nghe rõ sự thay đổi trong độ cao thấp; độ to nhỏ và độ dài của âm tiết.
Các đặc trưng của ngôn điệu có các chức năng cụ thể trong giao tiếp bằng tiếng nói.
Hiệu quả rõ ràng của ngôn điệu chính là sự nhấn mạnh. Ví dụ, có các sự kiện nào đó về
cao độ làm cho một âm tiết nổi bật trong lời nói, từ hoặc nhóm cấu trúc cú pháp có chứa
âm tiết đó một cách không trực tiếp sẽ được làm nổi bật như một yếu tố quan trọng hay
yếu tố mới chuyển tải ý nghĩa của lời nói. Sự có mặt của dấu trọng âm có thể có những
hiệu quả khác nhau như sự tương phản, phụ thuộc vào vị trí mà trọng âm xuất hiện hoặc
ngữ cảnh ngữ nghĩa của lời nói.
Các đặc trưng ngôn điệu tạo ra một sự phân đoạn chuỗi tiếng nói thành các nhóm
âm tiết, chúng làm cho các nhóm âm tiết hoặc nhóm các từ thành các chuỗi lớn hơn. Một
số đặc trưng ngôn điệu thể hiện quan hệ hai hay nhiều nhóm âm tiết được liên kết với
nhau theo vài cách khác nhau. Hiệu quả của việc nhóm như vậy có tính chất phân cấp,
mặc dù không cần phải giống hệt cấu trúc cú pháp của lời nói.
Như vậy quá trình tiên đoán ngữ điệu từ văn bản là phải xác định được độ dài, cao
độ tần số cơ bản của các ngữ đoạn tổng hợp sao cho phù hợp với các quy luật về ngữ điệu
của một ngôn ngữ. Đó là việc xác định vị trí trọng âm của từ được phát âm. Lên xuống
giọng ở các vị trí khác nhau trong câu, như đầu câu, cuối câu,v..v... và xác định các biến
thể kác nhau của các âm phụ thuộc vào ngữ cảnh khi được phát âm trong một ngữ lưu
liên tục. Bước này bao gồm cả việc xác định điểm dừng nghỉ lấy hơi khi phát âm, nó hoặc
đọc một văn bản. Từ đó tạo ra các thông tin để điều khiển ngữ điệu thích hợp cho bộ tổng
hợp tiếng nói.
TÀI LIỆU THAM KHẢO
Tiếng Việt
[1] Diệp Quang Ban, Hoàng Văn Thung (2004), Ngữ pháp tiếng Việt 1, NXB Giáo Dục, Hà
Nội.
[2] Diệp Quang Ban (2004), Ngữ pháp tiếng Việt 2, NXB Giáo Dục, Hà Nội.
[3] Nguyễn Tài Cẩn (1998), Ngữ pháp tiếng Việt (Tiếng - Từ ghép - Đoản Ngữ), NXB Đại
học Quốc gia Hà Nội.
[4] Mai Ngọc Chừ, Vũ Đức Nghiệu, Hoàng Ngọc Phiến, (2005) Cơ sở ngôn ngữ học và
tiếng Việt, NXB Giáo Dục, Hà Nội
[5] Nguyễn Thị Minh Huyền, Vũ Xuân Lương, Lê Hồng Phương (2003), Sử dụng bộ gán
nhãn từ loại xác suất QTAG cho văn bản tiếng Việt - Kỉ yếu hội thảo khoa học quốc gia
lần thứ nhất về nghiên cứu, phát triển và ứng dụng công nghệ thông tin và truyền thông
(ICT.rda 2003), Nhà xuất bản Khoa học và kĩ thuật, Hà nội.
[6] Đoàn Thiện Thuật (1999), Ngữ âm tiếng Việt, NXB Đại học Quốc Gia Hà Nội.
[7] Đỗ Xuân Thảo, Lê Hữu Tỉnh (1997), Giáo trình tiếng Việt 2, NXB Giáo Dục, Hà Nội.
Tiếng Anh
[8] Chen, K. J., & Liu, S. H. (1992), Word identification for Mandarin Chinese
sentences. Proceedings of the Fifteenth International Conference on Computational
Linguistics, Nantes: COLING-92
[9] Dinh Dien, Hoang Kiem, Nguyen Van Toan, Vietnamese Word Segmentation,
Proceedings of NLPRS’01 ,Tokyo, Japan, 11/2001.
[10] Dinh Dien , Pham Phu Hoi, Ngo Quoc Hung (2004), Some Lexical Issues in Building
Electronic VietnameseDictionary
[11] Chih Hao Tsai, MMSEG: A Word Identification System for Mandarin Chinese Text
Based on Two Variants of the Maximum Matching Algorithm, [On- line]. Available:
http://technology.chtsai.org/wordlist/
[12] Jianfeng Gao, Mu Li, and Chang-Ning Huan (2003), Improved source-chanel
models for Chinese word segmentation.
[13] Le An Ha, A method for word segmentation in Vietnamese (2004),
[14] Thiery Dutoit (1997), High quality text to speech synthesis: an overview, Faculte
Polytechnique de Món, TCTS Lab.
[15]. Xuedong Huang, Alex Acero, Hsiao Wuen Hon (2001), Spoken Language Procesing,
Prentice-Hall Internation (UK) Limited , London.
- Xem thêm -