Lê Tuấn Anh – Cao học khóa 2010 - 2012
TỔNG HỢP TIẾNG VIỆT
GIỚI THIỆU
Tổng hợp tiếng nói đã được biết đến và nghiên cứu khá rộng rãi trên thế
giới. Kết quả thu được rất khả quan, là tiền đề quan trọng cho sự giao tiếp giữa
người và máy. Có khá nhiều ngôn ngữ đã được tổng hợp thành công với chất lượng
khá tốt như tiếng Anh, tiếng Pháp... và đã được ứng dụng trong nhiều lĩnh vực. Ở
Việt nam, các nghiên cứu trong lĩnh vực này tuy mới phát triển nhưng cũng đã có
một số kết quả khả quan. Với mục đích góp phần vào việc phát triển kỹ thuật tổng
hợp tiếng Việt, luận văn “NGHIÊN CỨU VỀ TỔNG HỢP TIẾNG VIỆT VÀ CÁC
ỨNG DỤNG” sẽ tập trung vào những một số nội dung, bao gồm: trình bày các đặc
trưng và các cách biểu diễn của tín hiệu tiếng nói; các phương pháp khác nhau trong
tổng hợp tiếng nói; giải thuật PSOLA và phiên bản trên miền thời gian TD-PSOLA;
giới thiệu mô hình phần mềm kỹ thuật tổng hợp tiếng Việt và các lĩnh vực thực tế
có khả năng ứng dụng.
Học viên:
Lê Tuấn Anh
Lớp:
Cao học Điện tử K3 2010 – 2012
Trường:
Viện Đại học Mở Hà Nội – Khoa Sau Đại học
Thầy hướng dẫn:
TS. Nguyễn Hoàng
i
Lê Tuấn Anh – Cao học khóa 2010 - 2012
TỔNG HỢP TIẾNG VIỆT
LỜI CẢM ƠN
Luận văn Thạc sỹ chuyên ngành Kỹ thuật Điện tử với đề tài “NGHIÊN CỨU
VỀ TỔNG HỢP TIẾNG VIỆT VÀ CÁC ỨNG DỤNG” đã được hoàn thành, là kết
quả của quá trình nghiên cứu và học tập tại Khoa Sau Đại học - Viện Đại học
Mở Hà Nội. Đạt được kết quả này, ngoài nỗ lực bản thân còn có sự giúp đỡ của
rất nhiều người.
Trước hết, tôi xin gửi lời cảm ơn tới toàn thể gia đình tôi, những người
đã cho tôi một điểm tựa vững chắc, cho tôi niềm tin vượt qua mọi khó khăn để
hoàn thành tốt quá trình học tập của mình.
Tôi xin bày tỏ lòng biết ơn tới Thầy giáo - Tiến sỹ Nguyễn Hoàng, người
đã luôn tận tình hướng dẫn tôi trong suốt quá trình nghiên cứu, các thầy cô giáo
của Khoa Sau Đại học - Viện Đại học Mở Hà Nội, những người đã trang bị cho
tôi kiến thức, chuyên môn, là cở sở để tôi thực hiện luận văn này.
Cuối cùng, tôi xin chân thành cảm ơn bạn bè và đồng nghiệp của tôi,
những người đã giúp đỡ tôi trong học tập, trong công việc để tôi có thể hoàn
thành tốt nhiệm vụ của mình.
Hà Nội, tháng 10 năm 2012.
Học viên
LÊ TUẤN ANH
Lớp CH Kỹ thuật Điện tử K3, 2010 - 2012
ii
MỤC LỤC
MỤC LỤC ..................................................................................................................6
DANH SÁCH HÌNH VẼ VÀ BẢNG BIỂU .............................................................4
LỜI NÓI ĐẦU............................................................................................................4
CHƯƠNG I: ĐẶC ĐIỂM ÂM HỌC VÀ BIỂU DIỄN TÍN HIỆU TIẾNG NÓI ..8
1.1. ĐẶC TÍNH ÂM HỌC CỦA TIẾNG NÓI .....................................................9
1.1.1. Cơ chế phát âm.......................................................................................9
1.1.1.1. Bộ máy phát âm: ..............................................................................9
1.1.1.2. Cơ chế phát âm:.............................................................................10
1.1.2. Âm hữu thanh và âm vô thanh ..............................................................10
1.1.2.1. Âm hữu thanh:................................................................................10
1.1.2.2. Âm vô thanh ...................................................................................10
1.1.3. Âm vị ...................................................................................................11
1.1.3.1. Nguyên âm:....................................................................................11
1.1.3.2. Phụ âm: .........................................................................................11
1.1.4. Âm tiết và từ ngữ..................................................................................11
1.1.4.1. Âm tiết............................................................................................11
1.1.4.2. Đặc điểm của âm tiết tiếng Việt......................................................12
1.1.5. Các đặc tính khác: ................................................................................13
1.1.5.1. Tỷ suất thời gian ............................................................................13
1.1.5.2. Hàm năng lượng thời gian ngắn.....................................................13
1.1.5.3. Tần số cơ bản: ...............................................................................14
1.1.5.4. Formant và Antiformant:................................................................14
1.2. BIỂU DIỄN TÍN HIỆU TIẾNG NÓI ..........................................................15
1.2.1. Biểu diễn tín hiệu tiếng nói dưới dạng số ..............................................15
1.2.1.1. Xác định tần số lấy mẫu .................................................................18
1.2.1.2. Lượng tử hóa..................................................................................19
1.2.1.3. Nén tín hiệu tiếng nói .....................................................................19
1.2.2. Mã hóa tín hiệu tiếng nói ......................................................................20
1.2.2.1. Mã hóa trực tiếp tín hiệu ................................................................20
1.2.2.2. Mã hóa tham số tín hiệu .................................................................21
1.2.3. Các phương pháp biểu diễn tín hiệu tiếng nói .......................................22
1.2.3.1. Dạng sóng theo thời gian ...............................................................22
1.2.3.2. Phổ tín hiệu tiếng nói .....................................................................23
1.2.3.3. Biểu diễn tín hiệu tiếng nói trong không gian ba chiều (Sonagram)..24
1.3. MÔ HÌNH TẠO TIẾNG NÓI .....................................................................26
CHƯƠNG II: TỔNG HỢP TIẾNG NÓI............................................................32
2.1. MỞ ĐẦU ....................................................................................................32
2.2. CÁC PHƯƠNG PHÁP TỔNG HỢP TIẾNG NÓI.......................................32
2.2.1. Phương pháp mô phỏng hệ thống phát âm ............................................33
2.2.2. Phương pháp tổng hợp Formant............................................................33
2.2.2.1. Bộ tổng hợp formant nối tiếp..........................................................34
1
2.2.2.2. Bộ tổng hợp formant song song......................................................34
2.2.3. Phương pháp tổng hợp trực tiếp ............................................................35
2.2.3.1. Phương pháp tổng hợp trực tiếp đơn giản ......................................35
2.2.3.2. Phương pháp tổng hợp PSOLA ......................................................37
2.2.3.3. Các phiên bản của PSOLA .............................................................38
2.3. TỔNG HỢP TIẾNG NÓI TỪ VĂN BẢN ...................................................40
2.3.1. Tổng hợp mức cao ................................................................................40
2.3.1.1. Xử lý văn bản .................................................................................40
2.3.1.2. Phân tích cách phát âm ..................................................................41
2.3.1.3. Ngôn điệu.......................................................................................42
2.3.2. Tổng hợp mức thấp...............................................................................42
2.4. SO SÁNH CÁC PHƯƠNG PHÁP TỔNG HỢP TIẾNG NÓI .....................43
CHƯƠNG III: TD-PSOLA.....................................................................................45
3.1. GIẢI THUẬT PSOLA ................................................................................45
3.1.1. Phân tích PSOLA .................................................................................45
3.1.1.1. Bước 1: Tìm cực đại địa phương của hàm năng lượng. ..................46
3.1.1.2. Bước 2: Tối ưu tính tuần hoàn và năng lượng cực đại....................47
3.1.2. Tổng hợp PSOLA .................................................................................47
3.2. THAY ĐỔI TẦN SỐ CỦA TÍN HIỆU .......................................................48
3.3. TD-PSOLA VÀ TÍN HIỆU TIẾNG NÓI ....................................................51
3.4. CÁC VẤN ĐỀ LIÊN QUAN ......................................................................52
3.4.1. Xác định tần số cơ bản..........................................................................52
3.4.1.1. Dùng hàm tự tương quan................................................................53
3.4.1.2. Dùng hàm vi sai biên độ trung bình................................................55
3.4.1.3. Sử dụng tốc độ trở về không - zero crossing rate............................56
3.4.1.4. Phương pháp sử dụng STFT...........................................................57
3.4.2. Làm trơn tín hiệu khi ghép nối..............................................................58
3.4.2.1. Phương pháp Microphonemic ........................................................58
3.4.2.2. Mô hình hình sin ............................................................................59
CHƯƠNG IV : XÂY DỰNG MÔ HÌNH CHƯƠNG TRÌNH TỔNG HỢP TIẾNG VIỆT.62
4.1. PHÂN TÍCH GIẢI THUẬT........................................................................62
4.2. DIPHONE TRONG TIẾNG VIỆT ..............................................................65
4.3. XÂY DỰNG CƠ SỞ DỮ LIỆU ..................................................................67
4.3.1. Thu âm .................................................................................................68
4.3.1.1. Quá trình thu âm ............................................................................68
4.3.1.2. Xử lý sau khi thu.............................................................................68
4.3.2. Tách diphone ........................................................................................68
4.3.3. Lưu trữ dữ liệu......................................................................................69
4.4. XỬ LÝ VÀ PHÂN TÍCH VĂN BẢN .........................................................71
4.4.1. Phân tích văn bản tiếng Việt thành các từ .............................................71
4.4.1.1. Xác định câu trong văn bản............................................................71
4.4.1.2. Xử lý câu........................................................................................72
4.4.2. Tách từ thành các diphone ....................................................................74
2
4.4.2.1. Chuyển từ biểu diễn tiếng Việt sang biểu diễn dạng telex ...............74
4.4.2.2 Tách từ thành hai diphone...............................................................75
4.5. GHÉP NỐI DIPHONE VÀ THAY ĐỔI TẦN SỐ CƠ BẢN .......................77
4.5.1. Ghép nối các diphone ...........................................................................77
4.5.1.1. Đặt vấn đề......................................................................................77
4.5.1.2. Phân tích vấn đề.............................................................................78
4.5.1.3. Giải pháp và các bước thực hiện. ...................................................78
4.5.2. Ghép nối các diphone tạo thành các từ có dấu.......................................80
4.5.2.1. Từ tạo thành từ các diphone thông thường. ....................................81
4.5.2.2. Từ tạo thành từ các diphone đặc biệt..............................................85
4.6. GIỚI THIỆU MỘT SỐ PHẦN MỀM TỔNG HỢP TIẾNG VIỆT ...............86
4.6.1. Vnspeech ..............................................................................................86
4.6.1.1. Giới thiệu .......................................................................................86
4.6.1.2. Hệ TTS tiếng việt - VNSPEECH .....................................................86
4.6.2. NHMTTS .............................................................................................91
4.6.3 DovisocoTextAloRec ............................................................................92
4.6.3.1 Đặc điểm của DovisocoTextAloRec.................................................92
4.6.3.2 Cài đặt và sử dụng ..........................................................................93
CHƯƠNG V: ỨNG DỤNG TỔNG HỢP TIẾNG VIỆT ......................................96
5.1. ỨNG DỤNG CHO NGƯỜI KHIẾM THỊ ...................................................96
5.2. ỨNG DỤNG CHO NGƯỜI KHIẾM TÍNH VÀ KHUYẾT TẬT TIẾNG NÓI. 98
5.3. ỨNG DỤNG TRONG GIÁO DỤC.............................................................99
5.4. ỨNG DỤNG TRONG VIỄN THÔNG VÀ ĐA PHƯƠNG TIỆN................99
5.5. CÁC ỨNG DỤNG KHÁC VÀ XU THẾ PHÁT TRIỂN ........................... 100
KẾT LUẬN ............................................................................................................101
PHỤ LỤC ...............................................................................................................103
BẢNG THỐNG KẾ CÁC ÂM VỊ KÉP (DIPHONE)....................................... 103
Bảng các diphone tiếng Việt ......................................................................... 103
Bảng thống kê các vần làm phụ âm đầu trong tiếng Việt .............................. 104
Bảng thống kế các vần làm âm sau trong tiếng Việt...................................... 104
TÀI LIỆU THAM KHẢO.....................................................................................107
3
DANH SÁCH HÌNH VẼ VÀ BẢNG BIỂU
Hình 1.1: Bộ máy phát âm của con người ................................................................9
Hình 1.2: Đường bao phổ và các Formant .............................................................15
Hình 1.3: Biểu diễn tín hiệu tiếng nói ....................................................................16
Hình 1.4: Thông lượng cho các phương pháp biểu diễn tiếng nói ..........................17
Hình 1.5: Dạng sóng theo thời gian .......................................................................23
Hình 1.6: Phổ tín hiệu tiếng nói với số mẫu khác nhau ..........................................23
Hình 1.7: Chia tín hiệu thành các khung cửa sổ .....................................................24
Hình 1.8: Phổ của một khung cửa sổ......................................................................24
Hình 1.9: Các khung cửa sổ liền nhau và spectrogram tương ứng..........................25
Hình 1.10: Âm hữu thanh ......................................................................................25
Hình 1.11: Âm vô thanh ........................................................................................26
Hình 1.12: Mô hình hóa nguồn âm đối với âm hữu thanh ......................................26
Hình 1.13: Chuỗi 5 đoạn ống âm học lý tưởng.......................................................27
Hình 1.14: Cách biểu diễn lý học và toán học........................................................29
Hình 1.15: Mô hình số của hệ thống phát âm.........................................................29
Hình 2.1: Một vài ứng dụng xử lý tiếng nói ...........................................................32
Hình 2.2: Cấu trúc cơ bản của một bộ tổng hợp formant nối tiếp ...........................34
Hình 2.3: Cấu trúc cơ bản của một bộ tổng hợp formant song song .......................35
Hình 2.4: So sánh kết quả từ bản tin tổng hợp trực tiếp và bản tin nguyên thủy .....37
Hình 2.5: Mô hình tổng hợp tiếng nói....................................................................40
Hình 2.6: Sự phụ thuộc của ngôn điệu vào các yếu tố ............................................42
Hình 3.1: Xác định cực đại địa phương của hàm năng lượng .................................46
Hình 3.2: Cộng xếp chồng các đoạn tín hiệu..........................................................48
Hình 3.3: Quá trình làm thay đổi tần số của tín hiệu ..............................................49
Hình 3.4: Sự thay đổi tần số và thời gian với TD-PSOLA .....................................51
Hình 3.5: Hàm tự tương quan đối với âm hữu thanh .............................................54
Hình 3.6: Mô tả hàm vi sai biên độ trung bình .......................................................56
Hình 3.7: Sự nén tần số .........................................................................................57
Hình 3.8: Ảnh phổ đã qua xử lý làm trơn tuyến tính trên miền thời gian................60
Hình 3.9: Xử lý làm trơn tuyến tính miền thời gian ...............................................61
Hình 4.1: Sơ đồ tổng hợp tiếng Việt từ văn bản .....................................................64
Hình 4.2: Lưu đồ thuật toán xác định câu trong văn bản ........................................72
Hình 4.3: Sự biến đổi tần số cơ bản của từ theo tần số cơ bản của câu ...................73
Hình 4.4: Lưu đồ thuật toán xác định từ trong câu .................................................74
Hình 4.5: Lưu đồ thuật toán xác định vị trí nguyên âm đầu tiên.............................76
Hình 4.6: Ghép nối hai diphone .............................................................................78
Hình 4.7: Vị trí lấy cửa sổ......................................................................................79
Hình 4.8: Cộng xếp chồng các tín hiệu thành phần ................................................79
Hình 4.9: Lưu đồ ghép nối 2 diphone để tạo thành từ. ...........................................80
Hình 4.10: Biểu diễn tần số cơ bản của từ theo thời gian .......................................81
Hình 4.11: Thanh điệu không dấu (âm a)...............................................................82
4
Hình 4.12: Dấu huyền (âm à).................................................................................82
Hình 4.13: Dấu sắc (âm á) .....................................................................................82
Hình 4.14: Dấu hỏi (âm ả) .....................................................................................83
Hình 4.15: Dấu nặng (âm ạ)...................................................................................83
Hình 4.16: Dấu ngã (âm ã) ....................................................................................83
Hình 4.17: Tính chu kỳ cơ bản F0 tại điểm i...........................................................84
Hình 4.18: Sơ đồ khối tổng hợp diphone đặc biệt ..................................................85
Hình 4.19: Sơ đồ khối hệ Vnspeech.......................................................................87
Hình 4.20: Giao diện VnSpeech ............................................................................88
Hình 4.21: Giao diện của NHMTTS ......................................................................91
Hình 4.22: Giao diện cửa sổ Setting của DovisocoTextAloud................................95
Bảng 1: Các diphone trong tiếng Việt....................................................................67
Bảng 2: Cấu trúc dữ liệu cho một diphone.............................................................69
Bảng 3: Cấu trúc lưu trữ của file cơ sở dữ liệu.......................................................70
Bảng 4: Các loại dấu câu .......................................................................................71
5
LỜI NÓI ĐẦU
Tiếng nói là một phương tiện trao đổi thông tin tiện ích vốn có của con
người. Cùng với sự phát triển không ngừng của công nghệ máy tính và vai trò của
nó trong đời sống của con người, nhu cầu tăng tốc độ trao đổi thông tin giữa con
người và máy tính bằng cách sử dụng tiếng nói, trở thành một yêu cầu cấp thiết.
Ước mơ về những "máy nói" đã xuất hiện từ lâu trong các bộ phim khoa học viễn
tưởng, nay trở thành động lực thôi thúc nhiều nhà nghiên cứu, nhóm nghiên cứu
trên thế giới. Hoạt động nghiên cứu về tiếng nói đã trải qua gần một thế kỷ đã đạt
được nhiều thành tựu to lớn, tuy nhiên, việc có được một "máy nói" mang tính tự
nhiên (về giọng điệu, phát âm,...) vẫn còn khá xa vời. Sự phát triển nhanh chóng của
công nghệ và khoa học kỹ thuật đã mang lại những cơ hội mới cho lĩnh vực xử lý
tiếng nói, trong đó có tổng hợp tiếng nói.
Tổng hợp tiếng nói là lĩnh vực đang được nghiên cứu khá rộng rãi trên thế
giới và đã cho những kết quả khá tốt. Có ba phương pháp cơ bản dùng để tổng hợp
tiếng nói là mô phỏng bộ máy phát âm, tổng hợp bằng formant và tổng hợp bằng
cách ghép nối. Phương pháp mô phỏng bộ máy phát âm cho chất lượng tốt nhưng
đòi hỏi nhiều tính toán vì việc mô phỏng chính xác bộ máy phát âm rất phức tạp.
Phương pháp tổng hợp formant không đòi hỏi chi phí cao trong tính toán nhưng cho
kết quả chưa tốt. Phương pháp tổng hợp ghép nối cho chất lượng tốt, chí phí tính
toán không cao nhưng số lượng từ vựng phải rất lớn.
Ở các nước phát triển, những nghiên cứu xử lý tiếng nói, đã cho các kết quả
khả quan, làm tiền đề cho việc giao tiếp người-máy bằng tiếng nói. Ở Việt Nam, các
nghiên cứu trong lĩnh vực này tuy mới được phát triển trong những năm gần đây
nhưng cũng đã có một số kết quả khả quan. Với mục đích góp phần vào sự phát
triển của tổng hợp tiếng Việt, luận văn này đề cập đến việc nghiên cứu tổng hợp
tiếng Việt bằng phương pháp ghép nối dựa trên giải thuật TD-PSOLA.
TD-PSOLA là phiên bản trên miền thời gian của giải thuật PSOLA (Pitch
Synchronous Overlap-Add). Với PSOLA, tín hiệu tổng hợp được tạo nên bằng cách
6
cộng xếp chồng (Overlap-Add) các đoạn tín hiệu thành phần. Giải thuật này cho
phép thao tác trực tiếp với tín hiệu tiếng nói trên miền thời gian, thay đổi tần số cơ
bản và độ dài của tín hiệu. Để giảm số lượng từ vựng khi xây dựng ứng dụng, các từ
tiếng Việt sẽ được tổng hợp từ các diphone.
Sau khi nghiên cứu về mặt lý thuyết, luận văn này cũng trình bày việc áp
dụng thuật toán để xây dựng mô hình chương trình tổng hợp tiếng Việt từ văn bản,
giới thiệu một số phần mềm đã hoàn thiện và các ứng dụng thực tế của lý thuyết
tổng hợp tiếng Việt. Với nội dung như vậy, luận văn được chia làm 5 chương:
CHƯƠNG I: ĐẶC ĐIỂM ÂM HỌC VÀ BIỂU DIỄN TÍN HIỆU TIẾNG NÓI
Chương này đề cập tới những vấn đề cơ bản nhất về các đặc trưng và các
cách biểu diễn của tín hiệu tiếng nói.
CHƯƠNG II: TỔNG HỢP TIẾNG NÓI
Trình bày các phương pháp khác nhau trong tổng hợp tiếng nói đồng thời
đưa ra đánh giá về hiệu quả của các phương pháp này.
CHƯƠNG III: TD-PSOLA
Chương này trình bày chi tiết về giải thuật PSOLA và phiên bản trên miền
thời gian TD-PSOLA, đồng thời cũng đề cập tới các vấn đề liên quan khi áp dụng
cho tín hiệu tiếng nói.
CHƯƠNG IV: XÂY DỰNG MÔ HÌNH CHƯƠNG TRÌNH TỔNG HỢP
TIẾNG VIỆT
Dựa trên các nghiên cứu lý thuyết trong chương III, chương này sẽ trình bày
cách áp dụng thuật toán TD-PSOLA để xây dựng chương trình tổng hợp tiếng Việt
từ văn bản.
CHƯƠNG V: ỨNG DỤNG TỔNG HỢP TIẾNG VIỆT
7
CHƯƠNG I. ĐẶC ĐIỂM ÂM HỌC
VÀ BIỂU DIỄN TÍN HIỆU TIẾNG NÓI
Tiếng nói là một phương tiện trao đổi thông tin của con người. Tiếng nói
được tạo ra từ tư duy của con người: trung khu thần kinh điều khiển hệ thống phát
âm làm việc và tạo ra âm thanh. Tiếng nói được phân biệt với các âm thanh khác
bởi các đặc tính âm học có nguồn gốc từ cơ chế tạo tiếng nói. Về bản chất, tiếng nói
là sự dao động của không khí có mang theo thông tin. Các dao động này tạo thành
những áp lực đến tai và được tai phát hiện, phân tích và chuyển kết quả đến trung
khu thần kinh. Lúc này tại trung khu thần kinh, thông tin được tái tạo lại dưới dạng
tư duy logic mà con người có thể hiểu được.
Các tín hiệu tiếng nói là tập hợp của dãy các âm. Các âm này và các chuyển
giọng (transitions) giữa chúng dùng làm biểu diễn ký hiệu thông tin. Việc sắp xếp
các âm (các ký hiệu) này tuân theo các quy tắc của ngôn ngữ. Nghiên cứu các quy
tắc này và sử dụng chúng trong thông tin là lĩnh vực ngôn ngữ học (linguistics).
Việc nghiên cứu và phân loại các âm của ngôn ngữ gọi là ngữ âm học (phonetics).
Ta sẽ không xét chi tiết về ngữ âm và ngôn ngữ học. Tuy nhiên, việc xử lý các tín
hiệu ngôn ngữ để tăng cường và trích xuất thông tin là điều cần xét để có kiến thức
về cấu trúc của ký hiệu, về cách thông tin được mã hoá thành ký hiệu. Như vậy,
phải thảo luận về các lớp chính của âm trước khi xem xét chi tiết các mô hình toán
học của việc tạo ra các tín hiệu. Đó là tất cả những điều ta sẽ xét về ngữ âm học và
ngôn ngữ, nhưng như vậy không có nghĩa là ta sẽ làm giảm đi tầm quan trọng của
chúng, đặc biệt là ở các lĩnh vực nhận dạng (recognition) và tổng hợp (synthetics)
tiếng nói.
8
1.1. ĐẶC TÍNH ÂM HỌC CỦA TIẾNG NÓI
1.1.1. Cơ chế phát âm
1.1.1.1. Bộ máy phát âm:
Bộ máy phát âm bao gồm các thành phần riêng rẽ như phổi, khí quản, thanh
quản, và các đường dẫn miệng, mũi. Trong đó:
- Thanh quản chứa hai dây thanh có thể dao động tạo ra sự cộng hưởng cần
thiết để tạo ra âm thanh.
- Tuyến âm là ống không đều bắt đầu từ môi, kết thúc bởi dây thanh hoặc
thanh quản.
- Khoang mũi là ống không đều bắt đầu từ môi, kết thúc bởi vòm miệng, có
độ dài cố định khoảng 12cm đối với người lớn.
- Vòm miệng là các nếp cơ chuyển động.
1. Hốc mũi
2. Vòm miệng trên
3. Ổ răng
4. Vòm miệng nền
5. Đầu lưỡi
6. Thân lưỡi
7. Lưỡi gà
8. Cơ miệng
9. Yết hầu
10. Nắp đóng của thanh quản
11. Dây thanh giả
12. Dây thanh
13. Thanh quản
14. Thực quản
Hình 1.1: Bộ máy phát âm của con người
9
1.1.1.2. Cơ chế phát âm:
Trong quá trình tạo âm thanh không phải là âm mũi, vòm miệng mở, khoang
mũi đóng lại, dòng khí sẽ chỉ đi qua khoang mũi. Khi phát âm mũi, vòm miệng hạ
thấp và dòng khí sẽ chỉ đi qua khoang mũi.
Tuyến âm sẽ được kích thích bởi nguồn năng lượng chính tại thanh môn.
Tiếng nói được tạo ra do tín hiệu nguồn từ thanh môn phát ra, đẩy không khí có
trong phổi lên tạo thành dòng khí, va chạm vào hai dây thanh trong tuyến âm. Hai
dây thanh dao động sẽ tạo ra cộng hưởng, dao động âm sẽ được lan truyền theo
tuyến âm (tính từ tuyến âm đến khoang miệng) và sau khi đi qua khoang mũi và
môi, sẽ tạo ra tiếng nói.
1.1.2. Âm hữu thanh và âm vô thanh
1.1.2.1. Âm hữu thanh:
Âm hữu thanh được tạo ra từ các dây thanh bị căng đồng thời và chúng rung
động ở chế độ dãn khi không khí tăng lên làm thanh môn mở ra và sau đó thanh
môn xẹp xuống do không khí chạy qua.
Do sự cộng hưởng của dây thanh, sóng âm tạo ra có dạng tuần hoàn hoặc gần
như tuần hoàn. Phổ của âm hữu thanh có nhiều thành phần hài tại giá trị bội số của
tần số cộng hưởng, còn gọi là tần số cơ bản (pitch).
1.1.2.2. Âm vô thanh
Khi tạo ra âm vô thanh dây thanh không cộng hưởng. Âm vô thanh có hai
loại cơ bản là âm xát và âm tắc.
Âm xát (ví dụ như âm s) được tạo ra khi có sự co thắt tại vài điểm trong
tuyến âm. Không khí khi đi qua điểm co thắt sẽ chuyển thành chuyển động hỗn loạn
tạo nên kích thích giống như nhiễu ngẫu nhiên. Thông thường điểm co thắt xảy ra
gần miệng nên sự cộng hưởng của tuyến âm ảnh hưởng rất ít đến đặc tính của âm
xát được tạo ra.
10
Âm tắc (ví dụ như âm p) được tạo ra khi tuyến âm đóng tại một số điểm làm
cho áp suất không khí tăng lên và sau đó được giải phóng đột ngột. Sự giải phóng
đột ngột này tạo ra kích thích nhất thời của tuyến âm. Sự kích thích này có thể xảy
ra với sự cộng hưởng hoặc không cộng hưởng của dây thanh tương ứng với âm tắc
hữu thanh hoặc vô thanh.
1.1.3. Âm vị
Tín hiệu tiếng nói là tín hiệu tương tự biểu diễn cho thông tin về mặt ngôn
ngữ và được mô tả bởi các âm vị khác nhau. Như vậy, âm vị là đơn vị nhỏ nhất của
ngôn ngữ. Tuỳ theo từng ngôn ngữ cụ thể mà số lượng các âm vị nhiều hay ít (thông
thường số lượng các âm vị vào khoảng 20 – 30). Các âm vị được chia thành hai
loại: nguyên âm và phụ âm.
1.1.3.1. Nguyên âm:
Nguyên âm là âm hữu thanh được tạo ra bằng sự cộng hưởng của dây thanh
khi dòng khí được thanh môn đẩy lên. Khoang miệng được tạo lập thành nhiều hình
dạng nhất định tạo thành các nguyên âm khác nhau. Số lượng các nguyên âm phụ
thuộc vào từng ngôn ngữ nhất định.
1.1.3.2. Phụ âm:
Phụ âm được tạo ra bởi các dòng khí hỗn loạn được phát ra gần những điểm
co thắt của đường dẫn âm thanh do cách phát âm tạo thành. Phụ âm có đặc tính hữu
thanh hay vô thanh tuỳ thuộc vào việc dây thanh có dao động để tạo nên cộng
hưởng không. Dòng không khí tại chỗ đóng của vòm miệng tạo ra phụ âm tắc. Phụ
âm xát được phát ra từ chỗ co thắt lớn nhất.
1.1.4. Âm tiết và từ ngữ
1.1.4.1. Âm tiết
Chuỗi lời nói mà con người phát ra gồm nhiều khúc đoạn dài ngắn khác
nhau. Đơn vị phát âm ngắn nhất là âm tiết (syllable). Về phương diện phát âm, âm
tiết có tính chất toàn vẹn, không thể phân chia được là bởi nó được phát âm bằng
11
một đợt căng của cơ thịt của bộ máy phát âm. Khi phát âm một âm tiết, các cơ thịt
của bộ máy phát âm đều phải trải qua ba giai đoạn: tăng cường độ căng, đỉnh điểm
căng thẳng và giảm độ căng.
Dựa vào cách kết thúc, các âm tiết được chia thành hai loại lớn: mở và khép.
Trong mỗi loại lại có hai loại nhỏ hơn. Như vậy có 4 loại âm tiết như sau:
- Những âm tiết dược kết thúc bằng một phụ âm vang (/m, n, ŋ/...) được gọi
là những âm tiết nửa khép.
- Những âm tiết được kết thúc bằng một phụ âm không vang (/p, t, k/) được
gọi là những âm tiết khép.
- Những âm tiết được kết thúc bằng một bán nguyên âm (/w, j/) được gọi là
những âm tiết nửa mở.
- Những âm tiết được kết thúc bằng cách giữ nguyên âm sắc của nguyên âm
ở đỉnh âm tiết thì được gọi là âm tiết mở.
1.1.4.2. Đặc điểm của âm tiết tiếng Việt
- Có tính độc lập cao:
+ Trong dòng lời nói, âm tiết tiếng Việt bao giờ cũng thể hiện khá đầy đủ, rõ
ràng, được tách và ngắt ra thành từng khúc đoạn riêng biệt.
+ Khác với âm tiết các ngôn ngữ châu Âu, âm tiết nào của tiếng Việt cũng
mang một thanh điệu nhất định.
+ Do được thể hiện rõ ràng như vậy nên việc vạch ranh giới âm tiết tiếng
Việt trở nên rất dễ dàng.
- Có khả năng biểu hiện ý nghĩa
+ Ở tiếng Việt, đại đa số các âm tiết đều có ý nghĩa. Hay, ở tiếng Việt, gần
như toàn bộ các âm tiết đều hoạt động như từ...
+ Có thể nói, trong tiếng Việt, âm tiết không chỉ là một đơn vị ngữ âm đơn
thuần mà còn là một đơn vị từ vựng và ngữ pháp chủ yếu. Ở đây, mối quan hệ giữa
12
âm và nghĩa trong âm tiết cũng chặt chẽ và thường xuyên như trong từ của các ngôn
ngữ Âu châu, và đó chính là một nét đặc trưng loại hình chủ đạo của tiếng Việt.
- Có một cấu trúc chặt chẽ
Mô hình âm tiết tiếng Việt không phải là một khối không thể chia cắt mà là
một cấu trúc. Cấu trúc âm tiết tiếng Việt là một cấu trúc hai bậc, ở dạng đầy đủ nhất
gồm 5 thành tố, mỗi thành tố có một chức năng riêng.
1.1.5. Các đặc tính khác:
1.1.5.1. Tỷ suất thời gian
Trong khi nói chuyện, khoảng thời gian nói và khoảng thời gian nghỉ xen kẽ
nhau. Tỷ lệ % thời gian nói trên tổng số thời gian nói và nghỉ được gọi là tỷ suất
thời gian. Giá trị này biến đổi tuỳ thuộc vào tốc độ nói và từ đó ta có thể phân loại
thành nói nhanh, nói chậm hay nói bình thường.
1.1.5.2. Hàm năng lượng thời gian ngắn
Về sau, khi tín hiệu tiếng nói đã được số hóa sẽ xuất hiện khái niệm Hàm
năng lượng thời gian ngắn. Hàm năng lượng thời gian ngắn của tiếng nói được tính
bằng cách chia tín hiệu tiếng nói thành nhiều khung, mỗi khung chứa N mẫu. Các
khung này được đưa qua một cửa sổ có dạng hàm như sau:
W ( n)
W ( n) =
0
0≤n≤ N
n≥N
Hàm năng lượng ngắn tại mẫu thứ m được tính theo công thức sau:
N −1
E m = ∑ {x(n + m ) *W (n )}
2
n =0
Thông thường có ba dạng cửa sổ được sử dụng đó là cửa sổ Hamming, cửa
sổ Hanning và cửa sổ chữ nhật. Hàm năng lượng thời gian ngắn của âm hữu thanh
thường lớn hơn so với âm vô thanh.
13
1.1.5.3. Tần số cơ bản:
Dạng sóng của tiếng nói gồm hai phần: Phần gần giống nhiễu (trong đó biên
độ biến đổi ngẫu nhiên) và phần có tính chu kỳ (trong đó tín hiệu lặp lại gần như
tuần hoàn). Phần tín hiệu có tính chu kỳ chứa các thành phần tần số có dạng điều
hòa. Tần số thấp nhất chính là tần số cơ bản và cũng chính là tần số dao động của
dây thanh.
Đối với những người nói khác nhau, tần số cơ bản cũng khác nhau. Dưới đây
là một số giá trị tần số cơ bản tương ứng với giới tính và tuổi:
Người nói
Giá trị tần số cơ bản
Nam giới
80 – 200 Hz
Phụ nữ
150 – 200 Hz
Trẻ em
200 – 600 Hz
1.1.5.4. Formant và Antiformant:
Với phổ của tín hiệu tiếng nói, mỗi đỉnh có biên độ lớn nhất xét trong một
khoảng nào đó (cực đại khu vực) tương ứng với một formant. Ngoài tần số, formant
còn được xác định bởi biên độ và dải thông. Về mặt vật lý các formant tương ứng
với các tần số cộng hưởng của tuyến âm còn những tần số bị suy giảm được gọi là
các AntiFormant. Trong xử lý tiếng nói và nhất là trong tổng hợp tiếng nói, để mô
phỏng lại tuyến âm người ta phải xác định được các tham số formant đối với từng
loại âm vị, do đó việc đánh giá, ước lượng các formant có ý nghĩa rất quan trọng.
Tần số formant biến đổi trong một khoảng rộng phụ thuộc vào giới tính của
người nói và phụ thuộc vào các dạng âm vị tương ứng với formant đó. Đồng thời,
formant còn phụ thuộc các âm vị trước và sau đó. Về cấu trúc tự nhiên, tần số
formant có liên hệ chặt chẽ với hình dạng và kích thước tuyến âm. Thông thường
phổ của tín hiệu tiếng nói có khoảng 5 formant nhưng chỉ có 3 formant đầu tiên ảnh
hưởng quan trọng đến các đặc tính của các âm vị, các formant còn lại cũng có ảnh
hưởng song rất ít.
14
Tần số formant đặc trưng cho các nguyên âm biến đổi tuỳ thuộc vào người
nói trong điều kiện phát âm nhất định. Mặc dù phạm vi của các tần số formant
tương ứng với mỗi nguyên âm có thể trùm lên nhau nhưng vị trí giữa các formant là
không đổi vì sự xê dịch của các formant là song song.
Hình 1.2: Đường bao phổ và các Formant
1.2. BIỂU DIỄN TÍN HIỆU TIẾNG NÓI
1.2.1. Biểu diễn tín hiệu tiếng nói dưới dạng số
Tín hiệu tiếng nói là tín hiệu tương tự. Do đó khi biểu diễn tín hiệu tiếng nói
trong môi trường tính toán của tín hiệu số, việc biểu diễn và lưu trữ sao cho không
bị mất mát thông tin là vấn đề hết sức quan trọng trong các hệ thống thông tin có sử
dụng tín hiệu tiếng nói. Việc xem xét các vấn đề xử lý tín hiệu tiếng nói trong các
hệ thống này dựa trên ba vấn đề chính:
- Biểu diễn tín hiệu tiếng nói dạng số.
- Cài đặt các kỹ thuật xử lý.
- Các lớp ứng dụng dựa trên kỹ thuật xử lý tín hiệu số.
Phần này trình bày vấn đề biểu diễn tiếng nói dưới dạng số. Mô hình tổng
quát các phương pháp biểu diễn tín hiệu tiếng nói được trình bày trên hình 1.3.
15
Biểu diễn
tín hiệu tiếng nói
Biểu diễn
dạng sóng
Biểu diễn
dạng tham số
Các tham số
kích thích
Các tham số của
bộ máy phát âm
Hình 1.3: Biểu diễn tín hiệu tiếng nói
Biểu diễn tín hiệu tiếng nói theo dạng số chịu ảnh hưởng quan trọng của lý
thuyết lấy mẫu, theo đó các trạng thái của tín hiệu có dải tần giới hạn có thể được
biểu diễn dưới dạng các mẫu lấy tuần hoàn theo một chu kỳ cố định gọi là chu kỳ
lấy mẫu. Việc lấy mẫu này sẽ cung cấp cho hệ thống những mẫu tín hiệu với tỷ lệ
đủ lớn để xử lý. Tất cả các quá trình xử lý lấy mẫu được chỉ rõ trong các tài liệu về
xử lý tín hiệu số. Có nhiều phương pháp biểu diễn rời rạc tín hiệu tiếng nói. Hình
1.3 chỉ ra những phương pháp biểu diễn này. Các khả năng biểu diễn như thế được
phân thành hai nhóm chính: nhóm biểu diễn tín hiệu dạng sóng (waveform) và
nhóm biểu diễn tín hiệu theo tham số (parametric).
Phương pháp biểu diễn tín hiệu theo dạng sóng như bản thân tên của nó,
được xem xét đến với việc bảo mật thông tin theo cách thông thường là giữ nguyên
hình dạng sóng của tín hiệu tương tự sau khi đã qua các bước lấy mẫu và lượng tử
hoá tín hiệu.
Trên phương diện khác, phương pháp biểu diễn tín hiệu theo tham số được
xem xét đến trên khía cạnh biểu diễn tín hiệu tiếng nói như đầu ra của hệ thống tạo
tiếng nói. Để thu được các tham số biểu diễn, bước đầu tiên của phương pháp này
16
lại thường là biểu diễn tín hiệu theo dạng sóng. Điều này có nghĩa là tín hiệu tiếng
nói được lấy mẫu và lượng tử hoá giống như phương pháp biểu diễn tín hiệu tiếng
nói dạng sóng, sau đó tiến hành xử lý để thu được các tham số của tín hiệu tiếng nói
của mô hình tạo tiếng nói nêu trên. Các tham số của mô hình tạo tiếng nói này
thường được phân loại thành các tham số tín hiệu nguồn (có quan hệ mật thiết với
nguồn của tiếng nói) và các tham số của bộ máy phát âm tương ứng (có quan hệ mật
thiết với giọng nói của từng người). Hình 1.4 chỉ ra những sự khác nhau của một số
dạng biểu diễn tín hiệu tiếng nói theo các yêu cầu của thông lượng (bits/s):
Thông lượng (bits/s)
15.000
200.000
60.000
20.000
10.000
500
Các phương pháp
phân tích, tổng hợp
LDM, PCM, DPCM, ADM
(Không mã hóa nguồn)
Biểu diễn dạng sóng
75
Tổng hợp từ dữ
liệu văn bản
(Mã hóa nguồn)
Biểu diễn dạng tham số
Hình 1.4: Thông lượng cho các phương pháp biểu diễn tiếng nói
Đường phân cách ở giữa (tương ứng với thông lượng 15.000 bits/s) chia
khoảng dữ liệu thành hai phần riêng biệt: phần thông lượng cao dành cho dạng biểu
diễn tín hiệu dạng sóng ở phía trái và phần thông lượng thấp ở bên phải dành cho
biểu diễn tín hiệu dạng tham số. Hình vẽ trên chỉ ra sự thay đổi trong khoảng từ 75
bits/s (xấp xỉ thông lượng khi tổng hợp văn bản) cho tới thông lượng trên 200.000
bits/s cho các dạng biểu diễn sóng đơn giản. Điều này cho phép biểu diễn từ 1 đến
3.000 cách cho thông lượng tuỳ thuộc vào tín hiệu nói cần biểu diễn. Tất nhiên là
thông lượng không chỉ phụ thuộc tín hiệu cần biểu diễn mà nó còn phụ thuộc vào
17
các yếu tố khác như giá thành, sự mềm dẻo của phương pháp biểu diễn, chất lượng
của tiếng nói.
Vì tiếng nói là tín hiệu liên tục nên để áp dụng các phương pháp xử lý tín
hiệu thì tiếng nói phải được biểu diễn dưới dạng rời rạc. Quá trình rời rạc hoá tín
hiệu tiếng nói bao gồm các bước sau:
- Lấy mẫu tín hiệu tiếng nói với tần số lấy mẫu f0.
- Lượng tử hoá các mẫu với các bước lượng tử q.
- Mã hoá và nén tín hiệu.
Sau đây chúng ta xét qua các bước này.
1.2.1.1. Xác định tần số lấy mẫu
Khi lấy mẫu một tín hiệu tương tự với tần số lấy mẫu f0 cần đảm bảo rằng
việc khôi phục lại tín hiệu đó từ tín hiệu rời rạc tương ứng phải thực hiện được.
Nyquist và Shanon đã đưa ra một định lý mà theo đó người ta có thể xác định tần số
lấy mẫu đảm bảo yêu cầu trên. Theo Nyquist và Shanon, điều kiện cần và đủ để
khôi phục lại tín hiệu tương tự từ tín hiệu đã được rời rạc hoá với tần số f0 là: f0 ≥
2fMAX với fMAX là tần số lớn nhất của tín hiệu tương tự.
Phổ của tín hiệu tiếng nói trải rộng trong khoảng 12 kHz, do đó theo định lý
Nyquist và Shanon thì tần số lấy mẫu tối thiểu là 24 kHz. Với tần số lấy mẫu lớn
như thế thì khối lượng bộ nhớ dành cho việc ghi âm sẽ rất lớn và làm tăng sự phức
tạp trong tính toán. Nhưng chi phí cho việc xử lý tín hiệu số, bộ lọc, sự truyền và
ghi âm có thể giảm đi nếu chấp nhận giới hạn phổ bằng cách cho tín hiệu qua một
bộ lọc tần số thích hợp. Đối với tín hiệu tiếng nói cho điện thoại, người ta thấy rằng
tín hiệu tiếng nói đạt chất lượng cần thiết để mức độ ngữ nghĩa của thông tin vẫn
bảo đảm khi phổ được giới hạn ở 3400 Hz. Khi đó tần số lấy mẫu sẽ là 8000 Hz.
Trong kỹ thuật phân tích, tổng hợp hay nhận dạng tiếng nói, tần số lấy mẫu có thể
dao động trong khoảng 6.000 – 16.000 Hz. Đối với tín hiệu âm thanh (bao gồm cả
tiếng nói và âm nhạc) tần số lấy mẫu cần thiết là 48 kHz.
18
- Xem thêm -