Nghiên cứu các phương pháp tổng hợp tiếng Việt cho hệ thống có tài nguyên hạn chế

  • Số trang: 70 |
  • Loại file: PDF |
  • Lượt xem: 17 |
  • Lượt tải: 0
nhattuvisu

Đã đăng 26946 tài liệu

Mô tả:

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN TU TRUNG NGHIÊN CỨU CÁC PHƯƠNG PHÁP TỔNG HỢP TIẾNG VIỆT CHO HỆ THỐNG CÓ TÀI NGUYÊN HẠN CHẾ LUẬN VĂN THẠC SỸ Hà Nội – 2011 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN TU TRUNG NGHIÊN CỨU CÁC PHƯƠNG PHÁP TỔNG HỢP TIẾNG VIỆT CHO HỆ THỐNG CÓ TÀI NGUYÊN HẠN CHẾ Ngành: Công nghệ thông tin Chuyên ngành: Công nghệ phần mềm Mã số: 60 48 10 LUẬN VĂN THẠC SỸ Người hướng dẫn khoa học: PGS.TS. Lương Chi Mai Hà Nội – 2011 -1- MỤC LỤC MỞ ĐẦU ............................................................................................................................... 3 Chương 1 - TỔNG QUAN VỀ TỔNG HỢP TIẾNG NÓI VÀ HỆ THỐNG TÀI NGUYÊN HẠN CHẾ ............................................................................................................................. 6 1.1. Giới thiệu về tổng hợp tiếng nói ............................................................................... 6 1.2. Các phương pháp tổng hợp tiếng nói ........................................................................ 9 1.2.1. Tổng hợp theo cấu âm....................................................................................... 9 1.2.2. Tổng hợp formant theo quy luật ...................................................................... 11 1.2.3. Tổng hợp ghép nối .......................................................................................... 12 1.2.4. Tổng hợp xích chuỗi ....................................................................................... 13 1.2.5. Tổng hợp dựa trên thống kê ............................................................................ 15 1.3. Các đặc trưng cơ bản của ngữ âm tiếng Việt .......................................................... 15 1.3.1. Cấu trúc âm tiết tiếng Việt .............................................................................. 17 1.3.2. Phân loại âm tiết tiếng Việt ............................................................................. 21 1.4. Một số đặc trưng cơ bản của ngôn điệu tiếng Việt .................................................. 21 1.4.1. Tần số cơ bản F0............................................................................................. 21 1.4.2. Trường độ ....................................................................................................... 22 1.4.3. Formant .......................................................................................................... 23 1.5. Giới thiệu về các hệ thống tài nguyên hạn chế ........................................................ 23 Chương 2 - TỔNG HỢP TIẾNG NÓI TỪ VĂN BẢN VÀ YÊU CẦU TRÊN HỆ THỐNG TÀI NGUYÊN HẠN CHẾ ................................................................................................... 28 2.1. Các thành phần cơ bản của hệ thống tổng hợp tiếng nói từ văn bản ........................ 28 2.1.1. Thành phần xử lý ngôn ngữ tự nhiên ............................................................... 29 2.1.2. Phân tích văn bản ............................................................................................ 30 2.1.3. Chuyển ký tự thành âm thanh.......................................................................... 31 2.1.4. Sinh ngôn điệu ................................................................................................ 31 2.1.5. Thành phần xử tín hiệu số ............................................................................... 32 2.2. Tổng hợp tiếng nói trên hệ thống hạn chế tài nguyên ............................................. 33 2.3. Hệ tổng hợp tiếng nói HTS .................................................................................... 36 2.4. Hệ tổng hợp tiếng Việt VnVoice ............................................................................ 37 2.4.1. Mô tả hệ thống ................................................................................................ 37 2.4.2. Thay đổi cao độ tần số cơ bản với PSOLOA ................................................... 38 2.4.3. Làm trơn biên ghép nối các âm tiết ................................................................. 40 Chương 3 - TỐI ƯU HÓA LƯU TRỮ VÀ TÍNH TOÁN TÍN HIỆU TIẾNG NÓI CHO HỆ TỔNG HỢP VNVOICE ....................................................................................................... 42 3.1. Lựa chọn hệ tổng hợp cơ sở ................................................................................... 42 3.2. Một số phương pháp biểu diễn số .......................................................................... 43 3.3. Nén tín hiệu tiếng của các bán âm tiết với ADPCM ............................................... 45 3.4. Tối ưu tính toán thuật toán ghép nối tín hiệu .......................................................... 50 3.5. Sơ đồ quá trình sinh tiếng nói sau khi tối ưu .......................................................... 51 3.6. Cấu trúc CSDL âm thanh sau khi đã tối ưu ............................................................ 52 3.7. Cực tiểu hóa lưu trữ các đoạn âm thanh ................................................................. 52 3.8. Phân tích khả năng áp dụng giải pháp tối ưu cho việc xây dựng hệ thổng hợp tiếng Việt trên hệ thống tài nguyên hạn chế ............................................................................... 55 Chương 4 - XÂY DỰNG HỆ THỐNG TỔNG HỢP TIẾNG VIỆT TRÊN HỆ THỐNG TÀI NGUYÊN BỘ NHỚ HẠN CHẾ........................................................................................... 56 4.1. Xây dựng chương trình thử nghiệm ....................................................................... 56 4.1.1. Quy trình hệ thống .......................................................................................... 56 4.1.2. Chức năng hệ thống ........................................................................................ 57 4.1.3. Các lớp tham gia usecase ................................................................................ 58 4.1.4. Biểu đồ trình tự ............................................................................................... 59 -24.1.5. Biểu đồ lớp ..................................................................................................... 60 4.1.6. Giao diện chương trình ................................................................................... 61 4.2. Các điểm trong giải pháp được áp dụng trong VnPDA ........................................... 61 4.3. Thử nghiệm khả năng tích hợp trên hệ thống tài nguyên hạn chế ........................... 62 4.4. So sánh chất lượng giọng tổng hợp giữa chương trình thử nghiệm với hệ tổng hợp VnVoice và phiên bản VnSpeech chạy trên nền tảng Window Mobile .............................. 62 KẾT LUẬN ......................................................................................................................... 66 TÀI LIỆU THAM KHẢO .................................................................................................... 67 -3- MỞ ĐẦU Xử lý tiếng nói là sự nghiên cứu tiếng nói của con người dưới dạng tín hiệu và các phương pháp xử lý tín hiệu này. Tín hiệu tiếng nói thường được thể hiện dưới dạng số, tức là được “số hóa”. Do đó, xử lý tiếng nói có thể được coi là giao của xử lý tín hiệu số và xử lý ngôn ngữ tự nhiên. Trên thế giới, xử lý tiếng nói đã được nghiên cứu từ rất lâu. Ở Việt Nam, khoảng hơn chục năm trở lại đây đã có một số sản phẩm ra đời cả về tổng hợp và nhận dạng tiếng nói. Khi mà xử lý tiếng nói trên máy tính đã đạt được những thành tựu rất khả quan, người ta đã nghĩ đến việc nghiên cứu xây dựng hệ xử lý tiếng nói trên các hệ thống có tài nguyên hạn chế để đáp ứng những mục đích về giao tiếp tiếng nói trên các hệ thống này. Do đặc thù của hệ thống tài nguyên hạn chế, các hệ tổng hợp chạy trên các hệ thống này cũng cần sử dụng lượng bộ nhớ và chí phí tính toán đủ nhỏ. Và các nhà nghiên cứu trên thế giới đã đạt được những thành công ngay cả trên những hệ thống có tài nguyên rất khiêm tốn như các loại chip với khả năng lưu trữ và tính toán rất thấp. Ở Việt Nam, nhu cầu nghiên cứu giải pháp xây dựng hệ xử lý tiếng nói trên các hệ thống tài nguyên hạn chế cũng đã xuất hiện trong một số năm gần đây. Các đề tài nghiên cứu về việc chuyển hệ xử lý tiếng nói lên các hệ thống di động cầm tay và hệ thống nhúng đã và đang triển khai đã minh chứng cho nhu cầu này. Trên cơ sở đó, mục đích của luận văn nhằm nghiên cứu một số phương pháp tổng hợp tiếng nói và đề xuất cách thức tối ưu trên hệ thống hạn chế tài nguyên. Luận văn sẽ được chia thành 4 chương bao gồm: Chương 1: Tổng quan về tổng hợp tiếng nói và hệ thống hạn chế tài nguyên. Chương này trình bày khái quát về tổng hợp tiếng nói và lịch sử phát triển cũng như ứng dụng của nó và một số phương pháp tổng hợp tiếng nói. Chương 1 cũng chỉ ra một số đặc điểm của ngữ âm, ngôn điệu tiếng Việt. Ngoài ra, chương 1 còn giới thiệu sơ lược về các hệ thống hạn chế tài nguyên. Chương 2: Tổng hợp tiếng nói từ văn bản và yêu cầu trên hệ thống tài nguyên hạn chế. Chương này giúp người đọc nắm được về các thành phần cơ bản của hệ tổng hợp tiếng nói từ văn bản. Tiếp theo, chương 2 phân tích về vấn đề tổng hợp tiếng nói trên hệ thống tài nguyên hạn chế và đưa ra những yêu cầu, điều kiện cần thiết để một hệ tổng hợp trên máy tính có thể chuyển xuống hệ thống này. Cuối cùng, chương 2 giới thiệu và phân tích về hai hệ tổng hợp tiếng Việt có khả năng chuyển vào hệ thống tài nguyên hạn chế. Chương 3: Tối ưu hóa lưu trữ và tính toán tín hiệu tiếng nói cho hệ tổng hợp VnVoice. Chương này chỉ ra khả năng áp dụng biểu diễn số dấu chấm tĩnh để giảm thiểu bộ nhớ và tăng tốc độ tính toán. Chương 3 còn phân tích cách thức tối ưu hóa lưu trữ và một số thao tác tính toán của hệ tổng hợp VnVoice để thực sự đáp ứng các yêu cầu trên hệ thống hạn chế tài nguyên. Chương 4: Xây dựng thử nghiệm hệ thống tổng hợp tiếng Việt trên hệ thống tài nguyên bộ nhớ hạn chế. Chương này trình bày việc phân tích, thiết kế thử -4- nghiệm hệ tổng hợp tiếng Việt trên hệ thống hạn chế tài nguyên bộ nhớ. Sau đó, chương 4 trình bày sơ lược về việc tích hợp lõi thư viện của chương trình thử nghiệm vào chương trình bản đồ (tích hợp trong phần mềm ArcPad) chạy trên nền WinCE. Sau đó, chương 4 cũng trình bày một thử nghiệm so sánh chất lượng giọng tổng hợp tiếng Việt giữa chương trình demo với phiên bản VnSpeech trên WinCE và với chính hệ tổng hợp VnVoice. Trong luận văn, các trích dẫn của các tác giả khác liên quan đến lĩnh vực nghiên cứu đặt trong dấu ngoặc vuông []. -5- BẢNG CÁC TỪ VIẾT TẮT Viết CSDL F0 PSOLA LPC TTS FPGA FPAA ASIC SOC HMM HTS IVR ADPCM Nghĩa Cơ sở dữ liệu Formant 0 (Tần số formant cơ bản) Pitch-Synchronous Overlap and Add Linear Predictive Coding Text to Speech Field Programmable Gate Array Field Programmable Analog Array Application Specific Integrated Circuits System On a Chip Hiden Markov Model HMM-based Speech Synthesis System Interactive voice response Adaptive Differential Pulse Code Modulation BẢNG CÁC THUẬT NGỮ ANH-VIỆT Tiếng Anh Duration Pitch Phoneme Syllable Tone Unvoiced Field Programmable Gate Array Field Programmable Analog Array Application Specific Integrated Circuits System On a Chip Hiden Markov Model HMM-based Speech Synthesis System Adaptive Differential Pulse Code Modulation Linear Predictive Coding Tiếng Việt Trường độ Tần số cơ bản Âm vị Âm tiết Thanh điệu Vô thanh Mảng cổng lập trình được dạng trường Mảng tương tự lập trình được dạng trường Mạch tích hợp chuyên dụng Hệ thống trên chip Mô hình Markov ẩn Hệ tổng hợp tiếng nói dựa trên HMM Điều mã xung vi sai thích ứng Mã hóa tiên đoán tuyến tính -6- Chương 1 - TỔNG QUAN VỀ TỔNG HỢP TIẾNG NÓI VÀ HỆ THỐNG TÀI NGUYÊN HẠN CHẾ 1.1. Giới thiệu về tổng hợp tiếng nói Tổng hợp tiếng nói là một lĩnh vực khoa học nhằm tạo ra tiếng nói từ văn bản hay các mã hóa việc phát âm. Hệ thống thực hiện việc này gọi là máy tổng hợp tiếng nói, đây có thể là một phần mềm hay đã được cứng hóa trên một thiết bị phần cứng. Tạo ra tiếng nói bằng máy là một ước mơ của loài người và là mục tiêu thách thức các nhà khoa học trên thế giới nhiều thế kỉ qua. Máy nói đầu tiên do Wolfgang Von Kempelen chế tạo năm 1791 mô phỏng bộ máy phát âm của người đã có thể phát ra được một vài âm tố. Ở đầu thế kỉ này vào năm 1939, máy VODER của nhà khoa học Dudley, phòng thí nghiệm AT&T BELL LABS đã thành công trong việc mô hình hoá cộng hưởng của ống thanh bằng linh kiện điện tử. Hệ thống điều khiển nhân công 10 bộ cộng hưởng bằng các phím và chiết áp đã có thể tạo ra một số câu nói có thể nghe được. Từ giữa những năm 1950 trở lại đây, sự ra đời của máy tính điện tử đã cho phép tạo ra một cách có hệ thống các tham số để điều khiển bộ tổng hợp tiếng nói. Cùng với sự phát triển như vũ bão của khoa học và công nghệ thập kỉ 80, 90, kỹ thuật tổng hợp tiếng nói đã có những bước phát triển rất quan trọng với sự đóng góp rất lớn của máy tính và xử lý tín hiệu số. Sự tiến bộ này được thúc đẩy do: Khả năng tính toán của máy tính nhanh lên gấp nhiều lần, số lượng dữ liệu được lưu trữ ngày càng lớn, trong khi giá thành ngày càng rẻ. Khả năng xây dựng và truy cập tới các CSDL âm thanh và văn bản ngày càng dễ dàng. Công nghệ nhận dạng tự động âm thanh tiếng nói được hoàn thiện với độ chính xác ngày càng cao, trợ giúp việc tự động phân đoạn âm thanh tiếng nói cho phép tạo ra kho âm thanh rất lớn phục vụ cho việc phân tích và tổng hợp tiếng nói. Nếu tiếng nói cũng như chữ viết là chuỗi liên tiếp các dấu cơ bản được định nghĩa rõ ràng và mang tính hiển thị, thì các vấn đề nhận dạng cũng như tổng hợp tiếng nói đã được giải quyết cách đây 20 năm. Tuy nhiên, bản chất của tiếng nói rất phức tạp. Tiếng nói là hiệu ứng liên cấu âm quện các âm tố thành dòng thanh liên tục và mang ngôn điệu dưới dạng sóng truyền vật lí. Do đó, nhận dạng và tổng hợp tiếng nói trở nên hết sức khó khăn. Mặc dù các nhà khoa học trên thế giới của nhiều nước khác nhau với nhiều trường phái khác nhau đã nghiên cứu và đưa ra nhiều công trình thực tế, nhưng việc tổng hợp tiếng nói từ văn bản đã chưa bao giờ là hoàn hảo, khi động chạm tới những ngôn ngữ có số lượng từ không hạn chế với đòi hỏi đạt tới mức tự nhiên trôi chảy như tiếng nói con người. Mặc dù những kết quả đạt được còn hạn chế nhưng cũng đã được ứng dụng trong nhiều lĩnh vực cụ thể, đem lại những kết quả nhất định. Các ứng dụng này tập trung ở các lĩnh vực sau: -7- • Học ngoại ngữ Tổng hợp từ văn bản có thể hỗ trợ cho người nước ngoài học ngoại ngữ. Ứng dụng này đòi hỏi tiếng nói tổng hợp phải có chất lượng tốt. Hầu hết các phần mềm loại này chưa thực sự đáp ứng được yêu cầu của người sử dụng. • Trợ giúp người tàn tật Hệ thống tổng hợp tiếng nói cùng với hệ thống quang học nhận dạng chữ viết có thể đọc các văn bản in cho người mù. Giúp người mất khả năng nói có thể nói qua hệ thống TTS (Text to Speech), bằng cách dùng bàn phím soạn thảo văn bản và phần mềm thiết kế cho phép ghép nhanh các câu. Giáo sư vật lý thiên văn học người Anh Stephan Hawking, người đưa ra lý thuyết vụ nổ BIG BANG giảng bài cho sinh viên thông qua các hệ thống này. Phòng nhận dạng thuộc viện Công nghệ thông tin, viện Khoa học và Công nghệ Việt Nam, đã xây dựng thành công phần mềm VnTTS hỗ trợ người mù Việt Nam trong việc sử dụng máy tính. • Truyền thông tin bằng âm thanh, đọc sách điện tử Một hệ thống tổng hợp tiếng nói rất hữu ích cho việc kiểm tra chính tả các văn bản trên máy tính vì khi nghe dễ dàng phát hiện lỗi hơn so với kiểm tra bằng mắt. Trong các hệ thống đo đạc điều khiển, khi mắt phải thực hiện các quan sát thì các thông tin bằng âm thanh rất cần thiết. Ngoài ra, bản tin và mệnh lệnh phát ra bằng âm cũng dễ tiếp thu hơn thông báo viết. • Trong lưu trữ và khai thác dữ liệu Giờ đây có thể tiết kiệm không gian lưu trữ âm bằng cách thay thế bằng các văn bản tương ứng, tất nhiên là trong trường hợp giọng người nói là không quan trọng. Hơn thế các văn bản bằng chữ bao giờ cũng dễ sắp xếp và tìm kiếm hơn dữ liệu âm thanh. • Trong viễn thông Tiếng nói tổng hợp đã được sử dụng nhiều trong các ứng dụng trả lời trực tuyến IVR (Interactive voice response), trên nhiều mạng viễn thông hiện đại như Mỹ, châu Âu và Nhật mà tiêu biểu là dự án MIVA với các dịch vụ điện thoại kích hoạt bằng thanh đa ngữ trực tuyến. Các hệ thống thông tin tích hợp thông điệp hợp nhất có khả năng đọc tự động nội dung các bức thư điện tử, FAX và các thông tin trên Net qua máy điện thoại cố định hoặc các máy di động. Truy cập thông tin qua điện thoại và tự động tra cứu danh bạ điện thoại hai chiều bằng máy điện thoại, … • Thông tin đa phương tiện Trong kỷ nguyên thông tin, hệ thống tổng hợp tiếng nói là một nửa bắt buộc của thông tin hai chiều giữa người và máy. Hệ thống dịch tự động được coi là một thành tựu khoa học lớn của nhân loại vào những năm đầu thế kỷ 21 phải sử dụng hệ thống tổng hợp tiếng nói ở đầu ra. -8- • Các ứng dụng khác Tổng hợp tiếng nói được ứng dụng trong các trò chơi, trong các thiết bị báo động, báo chat, hệ thống chống trộm, các thiết bị gia đình và các thiết bị giải trí khác. Vấn đề Tổng hợp tiếng Việt Tổng hợp tiếng nói từ văn bản là một ngành khoa học liên quan đến nhiều ngành khoa hoc khác như: ngôn ngữ, xử lý tín hiệu và khoa học máy tính. Hiện nay với nỗ lực nghiên cứu của các nhà khoa học công nghệ trên thế giới, chất lượng âm thanh tổng hợp hiện tại đã vượt qua ngưỡng nghe hiểu đơn giản và đang tiến dần tới mức độ nói tự nhiên của con người. Trong một số ứng dụng ngôn ngữ hẹp, chất lượng âm thanh đã gần như không thể phân biệt với ngôn ngữ tự nhiên. Trong xu thế hội nhập thế giới, cùng với sự hấp dẫn của khoa học nhận dạng, ở Việt Nam, trong những năm vừa qua đã có những đề tài nghiên cứu về tổng hợp tiếng nói và bước đầu đã đạt được những thành tựu nhất định. Công nghệ cho việc tổng hợp tiếng nói từ văn bản có số từ vựng không hạn chế chất lượng cao có những phức tạp chung là một lẽ, song một vấn đề nữa là nó còn phụ thuộc từng ngôn ngữ riêng biệt. Không thể lấy các phần mềm tổng hợp tiếng nói Anh, Pháp, Đức, Nhật, ... để đọc văn bản chữ Việt. Hơn nữa, tiếng Việt là một ngôn ngữ đơn âm đa thanh điệu. Vì vậy, không ai khác mà chính là các nhà khoa học Việt Nam phải tự tiến hành xây dựng công nghệ tổng hợp tiếng nói cho mình. Việt Nam đang bước vào thời kì phát triển nhanh chóng về CNTT. Nó cho phép chúng ta có những nền tảng khoa học, cơ sở vật chất để có thể nghiên cứu cũng như triển khai các ứng dụng về khoa học công nghệ trong cuộc sống. Trong khoảng hơn mười năm trở lại đây, tổng hợp tiếng Việt đã đạt được những thành tựu đáng kể. Các hệ thống tổng hợp tiếng Việt đã ra đời như VietVoice, VnSpeech, VnVoice hay hệ thống tiếng nói phương nam. Các nhà nghiên cứu hàng đầu vẫn đang tiếp tục nghiên cứu về xử lý ngôn điệu để tăng cường chất lượng giọng tổng hợp. Dưới đây là đánh giá về chất lượng giọng tổng hợp của một số hệ tổng hợp tiếng Việt. Bảng 1.1.1: Các hệ tổng hợp được đánh giá [2]. STT 1 2 3 4 5 Hệ tổng hợp VnSpeech VietVoice 4.0 VnMobile Speech VnVoice 1.0 VnVoice cải tiến Ký hiệu #1 #2 #3 #4 #5 -9- Bảng 1.1.2: Thang điểm độ đo MOS [2]. Chất lượng tiếng nói tổng hợp Xuất sắc Tốt Bình thường Kém Tồi Điểm 4.1 – 5 3.1 – 4 2.1 – 3 1.1 – 2 0–1 Bảng 1.1.3: Kết quả đánh giá tính tự nhiên các hệ thống tổng hợp tiếng Việt [2]. Hệ tổng hợp MOS #1 Av 1.62 #2  0.47 Av 3.22 #3  0.72 Av 2.85 #4  0.68 Av 3.33 #5  0.61 Av 3.76  0.46 1.2. Các phương pháp tổng hợp tiếng nói 1.2.1. Tổng hợp theo cấu âm Tổng hợp theo cấu âm sử dụng mô hình phỏng sinh học. Trong mô hình này, tiếng nói được đặc trưng không chỉ bằng tín hiệu âm thanh mà cả bằng vị trí của các cơ quan cấu âm, sự tham gia của khoang mũi, áp suất không khí trong phổi, lực căng của dây thanh. Nó bao gồm hoạt động tương tác phi tuyến giữa nguồn kích (chấn động dây thanh hoặc hỗn loạn không khí) và trở kháng đầu vào thay đổi theo thời gian của ống thanh. Phương pháp này còn được gọi là tổng hợp theo mô hình hệ thống. Để xây dựng đặc trưng âm thanh của cơ quan phát âm, hệ thống phải tham số hoá được hình khối ống thanh và ống mũi, phải lựa chọn được một mô hình để mô tả sự lan truyền của sóng trong ống thanh và mô hình hoá nguồn âm (chấn động dây thanh, dòng không khí hỗn loạn) và sự tương tác của nó với ống thanh. Phương pháp này hiện nay chỉ hình thành trên lý thuyết, thực tế ngành khoa học phỏng sinh chưa có đủ thông tin đầu đủ để mô phỏng theo cấu âm. Mô hình ống thanh Cho các âm không phải là âm mũi ta chỉ cần xem xét ống thanh có thiết diện biến thiên từ thanh môn cho tới môi. Ống thanh thay đổi liên tục, hình dáng của chúng phải được xác định trong khoảng thời gian vài mini giây một lần. Hình không gian của ống thanh được mô tả theo vị trí của các cơ quan phát âm, lưỡi, môi, hàm… Mô hình được ứng dụng nhiều nhất là mô hình của Mermelstein với các tham số mô tả vị trí cơ quan cấu âm.Từ mô tả cấu âm, có thể tính được các số liệu cho hàm mặt cắt ngang ống thanh A(x) là hàm số phụ thuộc khoảng cách dọc theo ống thanh từ thanh môn cho tới môi Lan truyền sóng trong ống thanh - 10 - Trong nhiều cách tính đặc trưng truyền sóng trong ống thanh thì phương pháp ma trận chuỗi được áp dụng nhiều nhất. Ma trận chuỗi (còn gọi là ma trận ABCD) thể hiện ống thanh ở miền tần số. Với bất kỳ phần nào của ống thanh hay của ống mũi ta có:  Pout   A B   Pin  P           K   in  U out   C D  U in  U in  Ma trận chuỗi K có thể thể hiện bất kỳ phần nào của bất kỳ độ dài hay mặt phẳng cắt ngang nào của ống thanh. Tính các phần tử của K rất đơn giản nên ống có mặt cắt không đổi. Mô hình nguồn kích thanh Nguồn kích thanh cho tổng hợp cấu âm sử dụng mô hình hai khối lượng của Ishizaka và Flanagan. Nguyên lý của tổng hợp cấu âm Thuật toán tổng hợp theo mô hình cấu âm gồm các bước như nhau. Từ đặc tả về các tham số cấu âm, ta tính được ma trận chuỗi từ thanh môn đến môi. Sau đó tính hàm truyền và trở kháng đầu vào từ các phần tử A,B,C,D của ma trận. Chuyển đổi Fourier ngược hàm truyền H và tỉ số trở kháng ta nhận được các giá trị tương ứng ở miền thời gian. Sau đó tính áp suất p = P5-P1. Giá trị áp suất này tác động vào bộ cộng hưởng điều khiển chuyển động dây thanh của mô hình hai khối lượng tạo ra âm thanh tiếng nói. Như vậy, ngoài việc mô hình hoá các cơ quan phát âm, tổng hợp theo cấu âm cần phải xây dựng hai loại quy luật ngôn ngữ và luật vật lý. Luật vật lý mô tả như ở trên xác định ánh xạ cấu hình ống thanh cụ thể cho tín hiệu âm thanh, xác định mối quan hệ giữa hoạt động cấu âm và tín hiệu âm thanh tiếng nói. Còn luật ngôn ngữ xác định mối quan hệ giữa mô tả ngữ âm và các hoạt động cấu âm. Thông thường, luật ngôn ngữ được thực hiện cho từng âm vị. Khi cấu âm cho một đơn vị, luật này xác định thời điểm các cơ quan chuyển động, tốc độ chuyển động và mối quan hệ giữa cơ quan này và cơ quan khác. Vì phát ra một âm vị không nhất thiết phải có sự chuyển động của tất cả các cơ quan nên trong cùng một thời điểm cơ quan phát âm có thể được xác định cho âm vị khác. Theo cách này thì tổng hợp theo cấu âm có thể tạo ra các giải pháp hoàn hảo cho các trường hợp ngữ âm khó như cụm phụ âm, nguyên âm ba. Mô hình cấu âm và hai luật ngôn ngữ, vật lý này quyết định chất lượng tiếng nói tổng hợp. Hiện nay, chúng ta chưa có kiến thức đầy đủ về từng chi tiết của các loại luật, mô hình cấu âm cũng còn đơn giản vì vậy chất lượng tiếng nói tổng hợp theo cấu âm còn rất thấp. Phương pháp tổng hợp cấu âm hiện nay chỉ dừng ở trong phòng thí nghiệm hay sản phẩm mẫu mà chưa được ứng dụng thực tế. Các bộ tổng hợp theo cấu âm là công cụ lý tưởng để nghiên cứu về cấu âm của tiếng nói và hứa hẹn về lâu dài là giải pháp hoàn thiện nhất để tổng hợp ra âm thanh tiếng nói giống như tiếng nói tự nhiên của con người. - 11 - 1.2.2. Tổng hợp formant theo quy luật Quy trình để xây dựng bộ tổng hợp formant theo luật gồm hai quá trình riêng biệt là quá trình phân tích âm thanh tiếng nói để tìm ra các quy luật và tổng hợp lại tiếng nói dựa vào các quy luật này. Phân tích tìm quy luật Quá trình phân tích được tiến hành trên cơ sở dữ liệu tiếng nói tự nhiên chủ yếu bao gồm các âm tiết có dạng C-V (phụ âm – nguyên âm) hay C-V-C (phụ âm – nguyên âm – phụ âm) của nhiều giọng nói. Cơ sở dữ liệu này tốt nhất phải bao phủ được tất cả các hình thái ngữ âm của một ngôn ngữ. Thuật toán dự đoán tuyến tính LPC, được sử dụng trong quá trình phân tích phổ để xác định mẫu của tần số formant, băng thông formant, tần số âm cơ bản F0 của tín hiệu tiếng nói. Tần số từ F1 đến F5 và băng thông W1 đến W5 ở phần ổn định của các âm tố được lưu giữ dưới dạng bảng. Đó là các giá trị “đích” để tạo ra một âm vị. Trong tiếng nói, phần mang thông tin được quan tâm nghiên cứu nhiều hơn là các phần chuyển tiếp giữa các âm vị từ nguyên âm sang phụ âm và ngược lại (C-V và V-C). Tần số formant chuyển tiếp từ âm vị nọ sang âm vị kia được mô hình hoá và tạo thành các quy luật tổng hợp cho kĩ thuật tổng hợp formant. Như vậy về cơ bản các quá trình phân tích tìm luật để mô tả sự thay đổi liên tục phổ của một ngữ lưu bằng các formant và sự chuyển tiếp của các formant từ âm vị này sang âm vị khác. Hệ thống quy luật bao gồm:  Luật để xác định vị trí đích các formant của mỗi âm vị trong một ngữ lưu cũng như thời gian tồn tại của các vị trí đó.  Luật nhằm làm trơn các formant đích.  Luật để chuyển đổi các hàm thời giam thành dạng sóng thanh. Tổng hợp tiếng nói dựa trên tập luật phân tích (hay tổng hợp formant) Hệ thống tổng hợp formant sẽ căn cứ vào các tham số điều khiển từ bảng tra cứu và cùng với thuật toán được xây dựng cho sự chuyển tiếp là các tín hiệu điều khiển bộ tổng hợp để tạo các âm đoạn tính. Thiết kế của bộ tổng hợp formant được dựa trên mô hình tương tự đầu cuối tạo tiếng nói do Frant đề xuất. Tổng hợp formant được phân loại theo cấu hình mắc các bộ cộng hưởng song song hay nối tiếp. Hàm truyền của bộ tổng hợp khi mắc nối tiếp bộ cộng hưởng tương tự như hàm truyền ống thanh vì vậy bộ tổng hợp nối tiếp mô hình hoá rất tốt cho các âm hữu thanh. Còn bộ tổng hợp với các bộ cộng hưởng mắc song song sẽ tạo ra cho các âm tắc, âm xát và âm mũi một chất lượng âm thanh tốt hơn. Hiện nay, với những công cụ thích hợp chúng ta hoàn toàn có thể xác định tần số formant cho các âm vị của tiếng Việt. Đi theo hướng này có ưu điểm là tiết kiệm được bộ nhớ, song chất lượng tiếng nói không tự nhiên và phụ thuộc - 12 - nhiều vào chất lượng của quá trình phân tích tiếng nói của từng ngôn ngữ. Phần mềm tổng hợp tiếng Việt VnSpeech [16] đã sử dụng cách tiếp cận này. Tuy nhiên, chất lượng vẫn còn rất hạn chế. 1.2.3. Tổng hợp ghép nối Tổng hợp ghép nối dựa trên việc ghép nối các đoạn tiếng nói đã ghi âm sẵn. Nói chung, tổng hợp ghép nối cho tiếng nói tổng hợp nghe tự nhiên nhất. Tuy nhiên, độ tự nhiên của tiếng nói và các kỹ thuật tự động phân đoạn sóng âm thanh đôi khi dẫn đến nghe rõ sự không đều của thiết bị ở đầu ra làm giảm độ tự nhiên [20]. Có ba loại tổng hợp ghép nối: tổng hợp chọn đơn vị, tổng hợp diphone (hai nửa của hai âm vị liền nhau) và tổng hợp theo miền. Tổng hợp chọn đơn vị sử dụng CSDL tiếng nói lớn. Trong quá trình tạo cơ cở dữ liệu, mỗi phát âm được thu âm sẽ được phân thành các âm vị, âm tiết, hình vị, từ, cụm và các câu riêng. Việc phân chia thành các đoạn có thể dùng một số các kỹ thuật như kỹ thuật phân cụm, chương trình nhận dạng, phân đoạn bằng tay sử dụng công cụ xử lý và gán nhãn tiếng nói trực quan. Phương pháp này đòi hỏi cơ sơ dữ liệu tiếng thu âm lớn và việc xử lý cơ sở dữ liệu này cũng khá công phu. Tổng hợp diphone dùng CSDL tiếng nói nhỏ nhất chứa toàn bộ các diphone xuất hiện trong ngôn ngữ. Số lượng diphone phụ thuộc vào cách phiên âm của từng loại ngôn ngữ. Chẳng hạn tiếng Tây Ban nha là 800 diphone, tiếng Đức khoảng 2500 diphone, mỗi diphone là duy nhất trong cơ sở dữ liệu. Chất lượng tiếng nói tổng hợp thường không tốt bằng tổng hợp chọn đơn vị. Ưu điểm của tổng hợp diphone là cơ sở dữ liệu nhỏ hơn phương pháp tổng hợp ghép nối chọn đơn vị. Tổng hợp theo miền cụ thể là việc ghép các từ và các cụm được ghi sẵn lưu trong CSDL để tạo thành lời nói hoàn chỉnh. Ưu điểm tiếng nói tự nhiên, tuy nhiên lại hạn chế về số lượng từ và câu có thể tổng hợp được. - 13 Âm vị +ngôn điệu CSDL tiếng nói CSDL tiếng nói tham số Mã hóa tiếng nói Thông tin về đơn vị Tạo dãy đơn vị Mô hình tiếng nói Chọn đơn vị CSDL tiếng nói mã hóa Giải mã tiếng nói Ghép nối và hậu xử lý Tiếng nói tổng hợp Hình 1.2.3.1: Ví dụ về sơ đồ hệ thống tổng hợp ghép nối. 1.2.4. Tổng hợp xích chuỗi Phương pháp xích chuỗi vượt qua được nhược điểm của các hệ thống sử dụng quy luật bằng cách loại bỏ bớt một số quy luật thậm chí tất cả các quy luật. Để thực hiện điều này, cách hiệu quả nhất là lưu trữ trực tiếp trong kho dữ liệu từng đoạn âm thanh tiếng nói, không phải hệ thống quy luật mô tả các đơn vị âm hay quy luật của các tham số để tạo ra đơn vị âm. Trong ba phương pháp nêu trên, tổng hợp theo cấu âm, tổng hợp formant theo quy luật và tổng hợp xích chuỗi thì tổng hợp xích chuỗi mang nhiều tính công nghệ, được quyết định bởi sự phát triển của máy tính. So sánh về chất lượng trong ba phương pháp, thì tổng hợp xích chuỗi hiện nay đã thành công nhất trong việc tạo ra tiếng nói không chỉ nghe hiểu rõ mà đạt được độ tự nhiên gần với tiếng nói của con người hơn cả. Phần lớn các hệ thống tổng hợp chất lượng cao cho các ngôn ngữ có trên thị trường hiện nay đều sử dụng phương pháp tổng hợp xích chuỗi này. Khi xây dựng một hệ thống tổng hợp xích chuỗi, tiếng nói chứa tập hợp các đơn vị âm thanh cơ bản của một ngôn ngữ, thông thường tương ứng với một chuỗi ngắn các âm vị có lựa chọn được đọc, ghi âm và lưu giữ trong CSDL. Các đơn vị âm được lựa chọn, phân tích các tham số đặc trưng và sau đó có thể được mã hoá bằng một phương pháp mã hoá tiếng nói nào đó tạo thành các mẫu - 14 - cho một đơn vị âm thanh. Các mẫu hoặc các tham số phân tích của chúng được lưu giữ lại trong kho dữ liệu đơn vị tổng hợp. Khi tổng hợp một phát ngôn mới, cho trước mô tả ngữ âm của phát ngôn đó, hệ thống sử dụng các quy luật để định vị đơn vị thích hợp, truy xuất chúng ra khỏi kho dữ liệu và xích chuỗi chúng lại với nhau. Thông thường, một hệ thống tổng hợp xích chuỗi có ít nhất là một hoặc hai mẫu cho mỗi một đơn vị cơ bản. Do các tham số về cao độ tần số cơ bản, độ dài và cường độ của các đơn vị này rất khác nhau (chúng được trích ra từ tín hiệu tiếng nói trong ngữ cảnh khác nhau) nên khi tổng hợp, hệ thống theo phương pháp tổng hợp xích chuỗi phải thực hiện hai công việc chính.  Một là phải thay đổi các tham số siêu đoạn tính của các đơn vị để tiếng nói tổng hợp thể hiện được ngữ điệu thích hợp như mong muốn.  Hai là phải thực hiện việc lựa chọn hay thay đổi các đặc tính của âm đoạn đơn vị tại các biên ghép nối của chúng sao cho việc ghép nối là mịn nhất để đảm bảo chất lượng âm thanh tổng hợp tạo ra gần với tiếng nói tự nhiên. Giả sử có hai âm đoạn được xích chuỗi là L(left) và R(right). Chúng ta xem xét tập hợp P của các tham số {p1,p2,…, pN}, các giá trị PL0 là ở điểm cuối cùng của đoạn L và PR0 là ở điểm đầu tiên của đoạn R. Làm trơn được thực hiện tuyến tính là phân bố đều khoảng cách (P-P) cho số ML vector {PL-(ML-1), …, PL1 ,PL0} của đoạn L và MR vector {PL0, PR1, PL(ML-1)}. Với P’ là tham số sau khi làm trơn thì nội suy được bằng công thức tính như sau:  P'L1  PL1  PR0  PL0  M2M i  L L  P'R1  PLJ  PL0  PR0  M2M j  R R với i = 0 … ML-1 và j = 0 … MR-1; Như vậy chất lượng của một hệ tổng hợp xích chuỗi được quyết định bởi các yếu tố sau:  Sự lựa chọn tập âm đơn vị cơ bản. Trong đó ngữ âm của ngôn ngữ tổng hợp là yếu tố chính quyết định loại đơn vị cơ bản.  Chất lượng âm thanh và mức độ bao phủ các tổ hợp âm đoạn cần thiết cho một ngôn ngữ của CSDL âm.  Khả năng cung cấp các tham số về ngữ điệu như đường nét tần số cơ bản cường độ âm thanh và độ dài các âm cho bộ tổng hợp. Các tham số này được tiên đoán trong phần xử lý ngôn ngữ của bộ tổng hợp từ văn bản.  Khả năng thay đổi tần số cơ bản F0 và độ dài các đơn vị âm cơ bản phù hợp với ngữ điệu được miêu tả ở đầu vào của bộ tổng hợp mà không ảnh hưởng tới chất lượng cảm thụ của âm đó. - 15 -  Thuật toán xích chuỗi và mô hình tín hiệu cho phép dễ dàng làm trơn hai điểm ghép nối của các âm đoạn được xích chuỗi. Chính vì hai yếu tố sau nên một số hệ thống tổng hợp xích chuỗi thực hiện mã hoá tham số tiếng nói. Với cách thể hiện bằng các tham số, đặc trưng phổ và ngữ điệu của tiếng nói được thay đổi dễ dàng hơn mà không thay đổi đặc tính nhận dạng âm đơn vị cơ bản. Phương pháp mã hoá tham số đặc trưng nhất là mã hoá tiên đoán tuyến tính LPC cũng như các biến thể của chúng. 1.2.5. Tổng hợp dựa trên thống kê Trong phương pháp này, tần số cơ bản F0, các ham số phổ và các đặc trưng động của chúng được mô hình hóa bởi các phân bố xác suất. Với các hệ tổng hợp dựa theo phương pháp này, dữ liệu huấn luyện càng nhiều càng tốt. Dữ liệu quá ít sẽ không đảm bảo cho chất lượng giọng tổng hợp về sau. Hệ tổng hợp mang đặc trưng của phương pháp thống kê đang được phổ biến hiện nay là hệ tổng tiếng nói hợp dựa trên HMM (Hiden Markov Model) gọi tắt là HTS (HMM-based Speech Synthesis System). Mô tả chi tiết về hệ tổng hợp này được thực hiện trong chương sau. 1.3. Các đặc trưng cơ bản của ngữ âm tiếng Việt Khi giao tiếp con người phát ra những chuỗi âm thanh nhất định, ta gọi là dòng ngữ lưu (utterance). Trong từng dòng ngữ lưu, nếu đem chia cắt chúng ra, ta sẽ thu được những đơn vị cấu thành nhỏ hơn, đó là âm tiết, âm tố và âm vị. Trong đó, âm tiết là đơn vị phân chia tự nhiên nhất trong lời nói, là đơn vị phát âm nhỏ nhất. Mỗi âm tiết là một tiếng. Ví dụ lời nói: ”Hà Nội là thủ đô của nước Việt Nam” có 9 âm tiết. Về mặt sinh lý – vật lý, âm tiết được định nghĩa là một đơn vị mà khi phát âm được đặc trưng bởi sự căng lên rồi chùng xuống của cơ thịt trong bộ máy phát âm. Trong mỗi âm tiết, chỉ có một âm tố có khả năng tạo thành âm tiết (gọi là âm tố âm tiết tính), còn lại là các yếu tố đi kèm, không tự mình tạo thành âm tiết được. Âm tố âm tiết tính thường được phân bố ở trung tâm, làm hạt nhân âm tiết. Đó thường là các nguyên âm. Điều này dẫn đến hệ quả là một âm tiết khi được phát ra thì phần năng lượng tập trung nhiều nhất ở phần giữa âm (có biên độ cao), đi về đầu và cuối âm tiết thì năng lượng giảm dần (xem hình 1.1). - 16 - Hình 1.3.1: Cụm từ ”âm tiết tiếng Việt ” thể hiện trên sóng âm. Mỗi âm tiết có biên độ lớn ở giữa âm và nhỏ dần ở đầu và cuối âm. Tiếng Việt là tiếng đơn âm có thanh điệu. Nó là ngôn ngữ có kết cấu âm tiết tính. Một đặc điểm của tiếng Việt là âm tiết trùng hình vị (đơn vị nhỏ nhất có nghĩa). Nói cách khác, một âm tiết là một hình thức biểu đạt của một hình vị. Ví dụ, từ học sinh có hai hình vị, mỗi hình vị có vỏ ngữ âm là một âm tiết là học và sinh. Là vỏ ngữ âm của một hình vị hay một từ đơn nên mỗi âm tiết tiếng Việt bao giờ cũng tương ứng với một ý nghĩa nhất định. Chính vì vậy, việc phá vỡ hay xê dịch vị trí của các âm vị trong một đơn vị âm tiết là điều khó có thể xảy ra. Nói cách khác, cấu trúc của âm tiết tiếng Việt là một cấu trúc chặt chẽ. Vì thế, từ ”cá canh” sẽ không bị nối thành ”các anh”, ”cảm ơn” không bị đọc thành ”cả mơn”, ... Do mỗi âm tiết là vỏ ngữ âm của hình vị nên khác với các ngôn ngữ Âu-Ấn, tiếng Việt có số âm tiết hữu hạn với 17000 vỏ ngữ âm có khả năng và 6900 âm tiết tồn tại thực. Âm tiết, hình vị tiếng Việt cố định, không thay đổi theo ngữ pháp về thời, giống và số như các ngôn ngữ khác. Âm tiết tiếng Việt có cấu trúc chặt chẽ với các loại âm ở các vị trí cố định trong thành phần âm tiết. Một đặc điểm nổi bật khác của tiếng Việt là thanh điệu. Mỗi âm tiết đều mang một thanh điệu nhất định. Thanh điệu là một tập hợp những đặc trưng có liên quan đến độ cao (phụ thuộc tần số rung động của dây thanh âm) của thanh cơ bản trong âm tiết. Nó được thể hiện trên tất cả những bộ phận hữu thanh trong âm tiết, nhất là các âm đoạn nguyên âm tính (nguyên âm và bán nguyên âm) và các đoạn phụ âm mũi. Thanh điệu có thể phân tích thành hai thành phần thường xuyên kết hợp với nhau: âm vực (độ cao của thanh cơ bản) và âm điệu (hướng chuyển biến cao độ-độ tăng giảm của tần số) trong quá trình thể hiện. Vì vậy, mỗi thanh điệu có thể được miêu tả như một sự kết hợp của hai thông số nói trên. Hệ thống thanh điệu tiếng Việt gồm sáu thanh là ngang (không dấu), huyền, ngã, hỏi, sắc, và nặng. Thanh điệu trong tiếng Việt kết hợp với các thành phần của âm tiết tạo thành các từ khác nhau, ví dụ như: thanh/ thành/ thánh/ thạnh…Trong tiếng Việt không phải vần nào cũng phát âm đủ sáu thanh. Đối với âm tiết đóng chỉ có hai thanh sắc và nặng, ví dụ: tắc, tặc… Ngoài các tính chất ngữ điệu như các ngôn ngữ Âu-Ấn, tần số cơ bản F0 là thành phần chính của hệ thống thanh điệu tiếng Việt tạo nghĩa khác nhau cho âm tiết. Hệ thống thanh điệu tiếng Việt tạo nghĩa khác nhau cho âm tiết. Hệ thống thanh điệu tiếng Việt là loại phức tạp nhất trong các ngôn ngữ đơn lập âm tiết tính (tiếng Thái có 5 thanh, tiếng Trung Quốc có 4 thanh). - 17 - Trong tiếng Việt, âm tiết có cấu trúc chặt chẽ và ổn định, mỗi âm vị là một vị trí nhất định trong âm tiết, tạo thành cấu trúc âm tiết tiếng Việt. 1.3.1. Cấu trúc âm tiết tiếng Việt Âm tiết tiếng Việt được tạo thành bởi ba thành phần có mức độ độc lập khác nhau là phụ âm đầu, phần vần và thanh điệu. Về cấu trúc, âm tiếng Việt có cấu trúc hai bậc. Bậc một gồm ba thành phần là thanh điệu, phị âm đầu và vần. Bậc hai là các thanh to của phần vần gồm âm đệm là bán nguyên âm, nguyên âm chính và phụ âm hay bán nguyên âm cuối. Các thành phần âm tiết được trình bày như bảng 1.3.1 dưới đây: Bảng 1.3.1: Cấu trúc âm tiếng Việt. Thanh điệu Phần vần Âm đầu Âm đệm Âm chính Âm cuối 1.3.1.1. Âm đầu Là yếu tố mở đầu âm tiết. Trong tiếng Việt có 21 phụ âm. Phụ âm mang tính độc lập do không tham gia vào việc thay đổi về trường độ giữa các yếu tố bên trong âm tiết. Đặc điểm âm đầu  Khi phát âm, luồng hơi bị cản trở do sự xuất hiện chướng ngại vật trên lối ra của đường không khí. Điểm có chướng ngại gọi là vị trí cấu âm.  Bộ máy phát âm không căng thẳng toàn bộ mà chỉ căng thẳng phần cơ thịt ở vị trí cấu âm.  Luồng hơi ra mạnh. Phân loại  Phân chia theo mối quan hệ giữa tiếng thanh và tiếng ồn trong cấu tạo của âm đầu Các phụ âm đầu được chia thành các phụ âm vang (tiếng thanh nhiều hơn tiếng ồn) và phụ âm ồn. Trong các phụ âm ồn lại chia thành các phụ âm hữu thanh (phát âm có sự tham gia của tiếng thanh do dây thanh rung động) và phụ âm vô thanh (phát âm không có sự tham gia của tiếng thanh). Nhóm phụ âm vang có thể coi là nhóm trung gian giữa các nguyên âm và phụ âm ồn. Khi phát âm các phụ âm vang, chướng ngại được tạo thành nhưng có thể là chỗ tắc yếu hoặc không khí không những trực tiếp vượt qua chỗ có chướng ngại mà còn đi ra tự do qua mũi (như các phụ âm [m], [n] trong tiếng Việt). - 18 -  Phân chia theo phương thức cấu tạo tiếng ồn  Phụ âm tắc: tạo thành khi hai khí quản tiếp xúc nhau, tạo thành chỗ tắc, cản trở hoàn toàn lối ra của luồng không khí. Ví dụ như các phụ âm [p], [b], [d], [t].  Phụ âm xát: tạo thành khi hai khí quản nhích lại gần nhau, làm cho lối ra của luồng không khí bị thu hẹp; luồng không khí đi qua khe hẹp này cọ xát vào thành của bộ máy phát âm. Ví dụ, các phụ âm [v], [s], [h].  Phụ âm rung: tạo thành khi các khí quản dễ rung động (như đầu lưỡi, lưỡi con hay môi) nhích lại gần nhau tạo thành một khe hở rất hẹp hay một chỗ tắc yếu, luồng không khí đi ra mạnh làm cho các khí quản ấy rung lên. Ví dụ phụ âm [r]. Trong các cấu âm của phụ âm, người ta thường phân biệt ba giai đoạn:  Giai đoạn tiến: khí quản phát âm chuyển đến vị trí cấu âm  Giai đoạn giữ: khí quản phát âm ở vị trí cấu âm  Giai đoạn lùi: khí quản phát âm rời khỏi vị trí cấu âm Hai giai đoạn đầu giống nhau ở bất kỳ âm tắc nào. Về giai đoạn thứ ba, cần phân biệt các tiểu loại âm tắc: âm nổ, âm mũi, âm tắc-xát và âm khép  Phân chia theo vị trí tạo ra tiếng ồn Theo vị trí cấu tạo tiếng ồn, các phụ âm được chia ra thành các loại chính: phụ âm môi, răng, ngạc mạc, lưỡi con, yết hầu, thanh hầu. Theo khí quản chủ động, các phụ âm được chia thành các loại: phụ âm môi, lưỡi trước, lưỡi giữa, lưỡi sau, lưỡi con, yết hầu, thanh hầu. Trong các nhóm này, có một số cần chia nhỏ nữa. Ví dụ trong các âm môi, người ta phân biệt các âm hai môi, thường gọi là âm môimôi ([b], [p], [m]). Với các âm một môi, thường gọi là âm môi-răng ([v]); các âm lưỡi trước thường chia thành nhiều nhóm nhỏ nhưng đáng chú ý là âm đầu lưỡi và âm quặt lưỡi, ... 1.3.1.2. Phần vần 1.3.1.2.1. Âm đệm Đóng vai trò là âm lướt trong kết cấu âm tiết. Âm đệm ảnh hưởng đến cách mở đầu của âm tiết (bên cạnh phụ âm đầu). Ví dụ: chữ ”toàn” khi phát âm có hiện tượng tròn môi do tác động của âm đệm/-u-/, còn chữ ”tàn” thì không có hiện tượng tròn môi do không có âm đệm.
- Xem thêm -