Tài liệu Nghiên cứu vài phương pháp nâng cao chất lượng tổng hợp tiếng Việt và thử nghiệm cho phần mềm VnVoice

.PDF

142

nhattuvisu Báo vi phạm

Tải xuống 66

Mô tả:

ĐẠI HỌC QUỐC GIA HÀ NỘI 1 TRƢỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Thị Thanh Mai NGHIÊN CỨU MỘT SỐ PHƢƠNG PHÁP NÂNG CAO CHẤT LƢỢNG TỔNG HỢP TIẾNG VIỆT VÀ THỬ NGHIỆM CHO PHẦN MỀM VNVOICE LUẬN VĂN THẠC SĨ Hà nội-2007 ĐẠI HỌC QUỐC GIA HÀ NỘI 2 CÔNG NGHỆ TRƢỜNG ĐẠI HỌC Nguyễn Thị Thanh Mai NGHIÊN CỨU MỘT SỐ PHƢƠNG PHÁP NÂNG CAO CHẤT LƢỢNG TỔNG HỢP TIẾNG VIỆT VÀ THỬ NGHIỆM CHO PHẦN MỀM VNVOICE Ngành: Công nghệ thông tin Chuyên ngành: Công nghệ thông tin Mã số: 1.01.10 LUẬN VĂN THẠC SĨ NGƯỜI HƯỚNG DẪN KHOA HỌC PGS.TS.Lƣơng Chi Mai Hà nội-2007 3 MỤC LỤC MỞ ĐẦU 5 CHƢƠNG 1: TỔNG QUAN VỀ TỔNG HỢP TIẾNG NÓI 9 1.1. Giới thiệu 1.2. Lịch sử phát triển và ứng dụng tổng hợp tiếng nói 1.3. Đặc điểm ngữ âm tiếng Việt 1.3.1. Âm đầu 1.3.2. Phần vần 1.3.2.1. Âm đệm 1.3.2.2. Âm chính 1.3.2.3. Âm cuối 1.3.3. Thanh điệu 1.4. Một số đặc trƣng của âm vị về mặt âm học 1.5. Các phƣơng pháp tổng hợp tiếng nói 1.5.1. Tổng hợp theo cấu âm 1.5.2. Tổng hợp formant theo quy luật 1.5.3. Tổng hợp ghép nối 1.5.4. Tổng hợp xích chuỗi 1.5.5. Đánh giá các phƣơng pháp tổng hợp tiếng nói 9 9 12 15 17 17 17 19 19 20 23 23 26 33 35 37 CHƢƠNG 2: CÁC THÀNH PHẦN CƠ BẢN CỦA HỆ TỔNG HỢP TIẾNG NÓI 42 42 2.1. Giới thiệu hệ tổng hợp tiếng nói 2.2. Thành phần xử lý ngôn ngữ tự nhiên 2.2.1. Phân tích văn bản 2.2.2. Chuyển ký tự thành âm thanh 2.2.3. Sinh ngôn điệu 2.3. Thành phần xử tín hiệu số 42 44 45 46 46 47 CHƢƠNG 3: MỘT SỐ PHƢƠNG PHÁP CẢI TIẾN CHẤT LƢỢNG GIỌNG TỔNG HỢP 50 50 3.1. Các phƣơng pháp cải tiến chất lƣợng giọng tổng hợp 3.1.1. Mô hình trƣờng độ 3.1.2. Thay đổi biên độ 3.1.3. Hiệu chỉnh đƣờng tần số cơ bản 3.1.3.1. Sử dụng mô hình Fujisaki hiệu chỉnh đƣờng F0 3.1.3.2. Mô hình Tilt 3.1.3.3. Phân lớp đƣờng thanh điệu trong ngữ cảnh câu CHƢƠNG 4: THỬ NGHIỆM CẢI TIẾN GIỌNG ĐỌC TỔNG HỢP TIẾNG VIỆT TRONG PHẦN MỀM VNVOICE 1.0 71 4.1. Đánh giá VnVoice và một số giọng tổng hợp tiếng Việt hiện nay 4.2. Một số hạn chế của VnVoice 1.0 4.3. Thử nghiệm 4.3.1. Cơ sở dữ liệu tiếng nói 4.3.2. Đánh giá thực nghiệm KẾT LUẬN 81 TÀI LIỆU THAM KHẢO 82 50 54 60 60 61 64 66 71 71 74 76 76 77 5 MỞ ĐẦU Nhận dạng và xử lý tiếng Việt (ngôn ngữ và tiếng nói) là nền tảng thiết yếu của phát triển và ứng dụng công nghệ thông tin ở Việt nam. Giới nghiên cứu và công nghiệp trên thế giới do theo đuổi các nghiên cứu cơ bản và công nghệ này từ hàng chục năm qua, gần đây đã càng thu được nhiều thành tựu quan trọng. Khác với các sản phẩm khác của công nghệ thông tin, sản phẩm về tiếng nói, ngôn ngữ Việt không thể mua được từ nước ngoài, chỉ có thể do người Việt làm ra trên cơ sở tiếp thu được các thành tựu khoa học công nghệ trên thế giới và theo đuổi lâu dài. Nhận dạng tiếng nói nhằm chuyển thông tin từ tiếng nói con người vào máy tính, và tổng hợp tiếng nói nhằm tự động tạo ra tiếng người nói bằng máy tính. Cùng với sự phát triển nhanh chóng của công nghệ thông tin nói chung và mạng Internet nói riêng, nhận dạng và tổng hợp tiếng nói càng ngày càng trở nên là một xu hướng tất yếu cho những máy tính thế kỉ 21. Trong vòng 50 năm qua, rất nhiều thuật toán được đề xuất và triển khai trên các hệ tự động nhận dạng và tổng hợp tiếng nói. Trên thế giới đã có nhiều bộ phần mềm thương mại dành cho tiếng Anh như IBM ViaVoice (http://www4.ibm.com/software/speech/), Dragon Naturally Speaking, L&H Voice Xpress. Những phần mềm này cung cấp các chức năng chủ yếu như: nhập văn bản vào máy, đọc văn bản thành lời, duyệt Web bằng giọng nói. Công nghệ tổng hợp và nhận dạng tiếng nói có ý nghĩa rất lớn trong giao tiếp người-máy: thay vì giao tiếp với máy tính qua những biểu tượng và cửa sổ, các máy tính trong tương lai chỉ giao tiếp với con người bằng những mệnh lệnh đơn giản. Hiện nay đã có nhiều phương pháp tổng hợp tiếng nói được nghiên cứu và ứng dụng trong thực tế như: tổng hợp theo cấu âm, tổng hợp bằng ghép nối, cách điệu hóa đường F0 và hiện tượng ngôn điệu, tâm lý, … Tuy nhiên, vấn đề tổng hợp giọng tự nhiên cho tới nay vẫn là một vấn đề mở, ngay cả trong các ngôn ngữ châu Âu thông dụng như tiếng Anh. Đó là do chất lượng tiếng nói tổng hợp còn phụ thuộc vào rất nhiều các yếu tố khác như:  Bộ đơn vị ngữ cảnh (bộ tham số cấu âm hoặc đoạn sóng âm ngắn),  Bộ chuẩn hóa văn bản,  Bộ xử lý ngôn ngữ: từ, câu,… 6  Tối ưu hóa chọn đơn vị ngữ cảnh,  Các hiện tượng ngôn ngữ tiếng Việt: dính âm, biến thanh, năng lượng, trường độ thanh,  Các hiện tượng ngôn điệu: thanh điệu trong câu, trường độ. Tổng hợp tiếng Việt hiện nay mới đạt ở mức độ đọc rõ ràng trong khi các ứng dụng thực tế đòi hỏi giọng tổng hợp phải tự nhiên như người nói. Trên cơ sở đó, mục đích của luận văn nhằm nghiên cứu và thử nghiệm một số kỹ thuật và mô hình xử lý ngôn điệu để nâng cao chất lượng giọng tổng hợp trong phần mềm tổng hợp tiếng Việt VnVoice 1.0. Luận văn sẽ được chia thành 4 chương bao gồm: Chƣơng 1: Tổng quan về tổng hợp tiếng nói. Chương này trình bày khái quát về tổng hợp tiếng nói và lịch sử phát triển cũng như ứng dụng của nó. Hơn nữa, chương 1 còn giới thiệu một số kỹ thuật tổng hợp tiếng nói đã được sử dụng trên thế giới. Chƣơng 2: Các thành phần cơ bản của hệ thống tổng hợp. Chương này giúp người đọc hiểu rõ hơn về một hệ thống tổng hợp bao gồm những thành phần cơ bản nào. Chƣơng 3: Một số phƣơng pháp cải tiến chất lƣợng giọng tổng hợp. Chương này trình bày việc phân tích và đánh giá chất lượng giọng tổng hợp theo các cách tiếp cận khác nhau. Chƣơng 4: Thử nghiệm cải tiến giọng đọc tổng hợp tiếng Việt trong phần mềm VnVoice. Chương này là chương trọng tâm của luận văn. Chương này áp dụng một số phương pháp cải tiến chất lượng và kết quả. Trong luận văn, các trích dẫn của các tác giả khác liên quan đến lĩnh vực nghiên cứu đặt trong dấu ngoặc vuông []. 7 BẢNG CÁC TỪ VIẾT TẮT Viết Nghĩa CART Classification and regression trees (Cây phân lớp hồi quy) CSDL Cơ sở dữ liệu F0 Formant 0 (Tần số formant cơ bản) H/S Harmonic/Stochastic LPC Linear Prediction Coding MOS Mean Opinion Score NLP Natural Language Processing MLPS Multivariate Adaptive Regression Splines PSOLA Pitch-Synchronous Overlap and Add TD-PSOLA Time-Domain Pitch-Synchronous Overlap and Add 8 BẢNG CÁC THUẬT NGỮ ANH-VIỆT Tiếng Anh Tiếng Việt Codebook Sách mã Context Ngữ cảnh Classification Phân lớp Corpus Cơ sở dữ liệu tiếng nói Diphthong Nguyên âm đôi Diphone Hai nửa của hai âm vị liền nhau Duration Trường độ Front-end processing Xử lý đầu cuối Intelligibility Tính dễ hiểu Naturalness Tính tự nhiên Pitch Tần số cơ bản Phoneme Âm vị Syllable Âm tiết Semi-vowel Bán nguyên âm Spectrogram Biểu đồ phổ Tone Thanh điệu Triphone Âm ba Voiced Hữu thanh Unvoiced Vô thanh 9 Chƣơng 1: TỔNG QUAN VỀ TỔNG HỢP TIẾNG NÓI 1.1. Giới thiệu Tổng hợp tiếng nói là một bộ môn khoa học nhằm nghiên cứu và xây dựng các công nghệ để tạo ra âm thanh tiếng nói từ máy giống như tiếng nói của người. Trong những năm gần đây tiếng nói tổng hợp đã trải qua chặng đường khá dài, việc ứng dụng tổng hợp tiếng nói vào thực tiễn đã trở thành hiện thực. Tuy nhiên, chất lượng âm thanh và độ tự nhiên của tiếng nói cho đến nay vẫn còn là những vấn đề lớn. 1.2. Lịch sử phát triển và ứng dụng tổng hợp tiếng nói Tạo ra tiếng nói bằng máy là một ước mơ của loài người và là mục tiêu thách thức các nhà khoa học trên thế giới nhiều thế kỉ qua. Máy nói đầu tiên do Wolfgang Von Kempelen chế tạo năm 1791 mô phỏng bộ máy phát âm của người đã có thể phát ra được một vài âm tố. Ở đầu thế kỉ này vào năm 1939, máy VODER của nhà khoa học Dudley, phòng thí nghiệm AT&T BELL LABS đã thành công trong việc mô hình hoá cộng hưởng của ống thanh bằng linh kiện điện tử. Hệ thống điều khiển nhân công 10 bộ cộng hưởng bằng các nhóm và chiết áp đã có thể tạo ra một số câu nói có thể nghe được. Từ giữa những năm 1950 trở lại đây, sự ra đời của máy tính điện tử đã cho phép tạo ra một cách có hệ thống các tham số để điều khiển bộ tổng hợp tiếng nói. Cùng với sự phát triển như vũ bão của khoa học và công nghệ thập kỉ 80, 90, kỹ thuật tổng hợp tiếng nói đã có những bước phát triển rất quan trọng có sự đóng góp rất lớn của máy tính và xử lý tín hiệu số. Sự tiến bộ này được thúc đẩy do:  Khả năng tính toán của máy tính nhanh lên gấp nhiều lần, số lượng dữ liệu được lưu trữ ngày càng lớn, trong khi giá thành ngày càng rẻ.  Khả năng xây dựng và truy cập tới các cơ sở dữ liệu âm thanh và văn bản ngày càng dễ dàng.  Công nghệ nhận dạng tự động âm thanh tiếng nói được hoàn thiện với độ chính xác ngày càng cao, trợ giúp việc tự động phân đoạn âm thanh tiếng nói 10 cho phép tạo ra kho âm thanh rất lớn phục vụ cho việc phân tích và tổng hợp tiếng nói.  Nếu tiếng nói cũng như chữ viết là chuỗi liên tiếp các dấu cơ bản được định nghĩa rõ ràng và mang tính hiển thị, thì các vấn đề nhận dạng cũng như tổng hợp tiếng nói đã được giải quyết cách đây 20 năm. Tuy nhiên bản chất của tiếng nói rất phức tạp, là hiệu ứng liên cấu âm quyện các âm tố thành dòng thanh liên tục và mang ngôn điệu dưới dạng sóng truyền vật lí, nên nhận dạng và tổng hợp tiếng nói trở nên hết sức khó khăn. Mặc dù các nhà khoa học trên thế giới của nhiều nước khác nhau với nhiều trường phái khác nhau đã nghiên cứu và đưa ra nhiều công trình thực tế, nhưng việc tổng hợp tiếng nói từ văn bản đã chưa bao giờ là hoàn hảo, khi động chạm tới những ngôn ngữ có số lượng từ không hạn chế với đòi hỏi đạt tới mức tự nhiên trôi chảy như tiếng nói con người. Mặc dù vậy, những kết quả đạt được còn hạn chế, nhưng cũng đã phần nào được ứng dụng có thể nói là thành công trong nhiều lĩnh vực cụ thể, đem lại những kết quả nhất định. Các ứng dụng này tập trung ở các lĩnh vực sau: • Học ngoại ngữ Tổng hợp từ văn bản có thể hỗ trợ cho người nước ngoài học ngoại ngữ. Ứng dụng này đòi hỏi tiếng nói tổng hợp phải có chất lượng tốt. Hầu hết các phần mềm loại này chưa thực sự đáp ứng được yêu cầu của người sử dụng. • Trợ giúp người tàn tật Hệ thống tổng hợp tiếng nói cùng với hệ thống quang học nhận dạng chữ viết có thể đọc các văn bản in cho người mù. Giúp người mất khả năng nói có thể nói qua hệ thống TTS, bằng cách soạn thảo văn bản bằng bàn phím và phần mềm thiết kế cho phép ghép nhanh các câu. Giáo sư vật lý thiên văn học người Anh Stephan Hawking, người đưa ra lý thuyết vụ nổ BIG BANG giảng bài cho sinh viên thông qua các hệ thống này. • Truyền thông tin bằng âm thanh 11 Một hệ thống tổng hợp tiếng nói rất hữu ích cho việc kiểm tra chính tả các văn bản trên máy tính vì khi nghe dễ dàng phát hiện lỗi hơn so với kiểm tra bằng mắt. Trong các hệ thống đo đạc điều khiển, khi mắt phải thực hiện các quan sát thì các thông tin bằng âm thanh rất cần thiết. Ngoài ra bản tin và mệnh lệnh phát ra bằng âm cũng dễ tiếp thu hơn thông báo viết. • Trong lưu trữ và khai thác dữ liệu Giờ đây có thể tích kiệm không gian lưu trữ âm bằng cách thay thế bằng các văn bản tương ứng, tất nhiên là trong trường hợp giọng người nói là không quan trọng. Hơn thế các văn bản bàng chữ bao giờ cũng dễ sắp xếp và tìm kiếm hơn dữ liệu âm thanh. • Trong viễn thông Tiếng nói tổng hợp đã được sử dụng nhiều trong các ứng dụng trả lời trực tuyến IVR, trên nhiều mạng viễn thông hiện đại như Mỹ, châu Âu và Nhật mà tiêu biểu là dự án MIVA với các dịch vụ điện thoại kích hoạt bằng thanh đa ngữ trực tuyến. Các hệ thống thông tin tích hợp thông điệp hợp nhất (Unified Meessaging) có khả năng đọc tự động nội dung các bức thư điện tử và các bức FAX và các thông tin trên Net qua máy điện thoại cố định hoặc các máy di động. Truy cập thông tin qua điện thoại và tự động tra cứu danh bạ điện thoại hai chiều bằng máy điện thoại… • Thông tin đa phương tiện Trong kỷ nguyên thông tin, hệ thống tổng hợp tiếng nói là một nửa bắt buộc của thông tin hai chiều giữa người và máy. Hệ thống dịch tự động được coi là một thành tựu khoa học lớn của nhân loại vào những năm đầu thế kỷ 21 phải sử dụng hệ thống tổng hợp tiếng nói ở đầu ra. • Các ứng dụng khác 12 Tổng hợp tiếng nói được ứng dụng trong các trò chơi, trong các thiết bị báo động, báo chát, hệ thống chống trộm, các thiết bị gia đình và các thiết bị giải trí khác. Vấn đề Tổng hợp tiếng Việt Tổng hợp tiếng nói từ văn bản là một ngành khoa học nhận dạng liên quan đến nhiều ngành khoa hoc khác như: ngôn ngữ, xử lý tín hiệu và khoa học máy tính. Hiện nay với nỗ lực nghiên cứu của các nhà khoa học công nghệ trên thế giới, chất lượng âm thanh tổng hợp hiện tại đã vượt qua ngưỡng nghe hiểu đơn giản và đang tiến dần tới mức độ nói tự nhiên của con người. Trong một số ứng dụng ngôn ngữ hẹp, chất lượng âm thanh đã gần như không thể phân biệt với ngôn ngữ tự nhiên. Trong xu thế hội nhập thế giới, cùng với sự hấp dẫn của khoa học nhận dạng, ở Việt Nam trong những năm vừa qua đã có những đề tài nghiên cứu về tổng hợp tiếng nói và bước đầu đã đạt được những thành tựu nhất định. Công nghệ cho việc tổng hợp tiếng nói từ văn bản có số từ vựng không hạn chế chất lượng cao có những phức tạp chung là một lẽ, song một vấn đề nữa là nó còn phụ thuộc từng ngôn ngữ riêng biệt. Không thể lấy các phần mềm tổng hợp tiếng nói Anh, Pháp, Đức, Nhật, ... để đọc văn bản chữ Việt. Hơn nữa tiếng Việt là một ngôn ngữ đơn âm đa thanh điệu. Vì vậy không ai khác mà chính là các nhà khoa học Việt Nam phải tự tiến hành xâu dựng công nghệ tổng hợp tiếng nói cho mình. Việt Nam đang bước vào thời kì phát triển nhanh chóng về CNTT, nó cho phép chúng ta có những nền tảng khoa học, cơ sở vật chất để có thể nghiên cứu cũng như triển khai các ứng dụng về khoa học công nghệ trong cuộc sống. 1.3. Đặc điểm ngữ âm tiếng Việt Khi giao tiếp con người phát ra những chuỗi âm thanh nhất định, ta gọi là dòng ngữ lưu (utterance). Trong từng dòng ngữ lưu, nếu đem chia cắt chúng ra, ta sẽ thu được những đơn vị cấu thành nhỏ hơn, đó là âm tiết, âm tố và âm vị. Trong đó, âm tiết là đơn vị phân chia tự nhiên nhất trong lời nói, là đơn vị phát âm nhỏ nhất. Mỗi âm tiết là một tiếng. Ví dụ lời nói: ”Hà Nội là thủ đô của nước Việt Nam” có 9 âm tiết. 13 Về mặt sinh lý – vật lý, âm tiết được định nghĩa là một đơn vị mà khi phát âm được đặc trưng bởi sự căng lên rồi chùng xuống của cơ thịt trong bộ máy phát âm. Trong mỗi âm tiết, chỉ có một âm tố có khả năng tạo thành âm tiết (gọi là âm tố âm tiết tính), còn lại là các yếu tố đi kèm, không tự mình tạo thành âm tiết được. Âm tố âm tiết tính thường được phân bố ở trung tâm, làm hạt nhân âm tiết. Đó thường là các nguyên âm. Điều này dẫn đến hệ quả là một âm tiết khi được phát ra thì phần năng lượng tập trung nhiều nhất ở phần giữa âm (có biên độ cao), đi về đầu và cuối âm tiết thì năng lượng giảm dần (xem hình 1.1). Hình 1.1: Cụm từ ”âm tiết tiếng Việt ” thể hiện trên sóng âm. Mỗi âm tiết có biên độ lớn ở giữa âm và nhỏ dần ở đầu và cuối âm. Tiếng Việt là tiếng đơn âm có thanh điệu. Nó là ngôn ngữ có kết cấu âm tiết tính. Một đặc điểm của tiếng Việt là âm tiết trùng hình vị (đơn vị nhỏ nhất có nghĩa). Nói cách khác, một âm tiết là một hình thức biểu đạt của một hình vị. Ví dụ, từ học sinh có hai hình vị, mỗi hình vị có vỏ ngữ âm là một âm tiết là học và sinh. Là vỏ ngữ âm của một hình vị hay một từ đơn nên mỗi âm tiết tiếng Việt bao giờ cũng tương ứng với một ý nghĩa nhất định. Chính vì vậy, việc phá vỡ hay xê dịch vị trí của các âm vị trong một đơn vị âm tiết là điều khó có thể xảy ra. Nói cách khác, cấu trúc của âm tiết tiếng Việt là một cấu trúc chặt chẽ. Vì thế, từ ”cá canh” sẽ không bị nối thành ”các anh”, ”cảm ơn” không bị đọc thành ”cả mơn”, ... Do mỗi âm tiết là vỏ ngữ âm của hình vị nên khác với các ngôn ngữ Âu-Ấn, tiếng Việt có số âm tiết hữu hạn với 17000 vỏ ngữ âm có khả năng và 6900 âm tiết tồn tại thực. 14 Âm tiết, hình vị tiếng Việt cố định, không thay đổi theo ngữ pháp về thời, giống và số như các ngôn ngữ khác. Âm tiết tiếng Việt có cấu trúc chặt chẽ với các loại âm ở các vị trí cố định trong thành phần âm tiết. Một đặc điểm nổi bật khác của tiếng Việt là thanh điệu. Mỗi âm tiết đều mang một thanh điệu nhất định. Thanh điệu là một tập hợp những đặc trưng có liên quan đến độ cao (phụ thuộc tần số rung động của dây thanh âm) của thanh cơ bản trong âm tiết. Nó được thể hiện trên tất cả những bộ phận hữu thanh trong âm tiết, nhất là các âm đoạn nguyên âm tính (nguyên âm và bán nguyên âm) và các đoạn phụ âm mũi. Thanh điệu có thể phân tích thành hai thành phần thường xuyên kết hợp với nhau: âm vực (độ cao của thanh cơ bản) và âm điệu (hướng chuyển biến cao độ-độ tăng giảm của tần số) trong quá trình thể hiện. Vì vậy, mỗi thanh điệu có thể được miêu tả như một sự kết hợp của hai thông số nói trên. Hệ thống thanh điệu tiếng Việt gồm sáu thanh là ngang (không dấu), huyền, ngã, hỏi, sắc, và nặng. Thanh điệu trong tiếng Việt kết hợp với các thành phần của âm tiết tạo thành các từ khác nhau, ví dụ như: thanh/ thành/ thánh/ thạnh…Trong tiếng Việt không phải vần nào cũng phát âm đủ sáu thanh. Đối với âm tiết đóng chỉ có hai thanh sắc và nặng, ví dụ: tắc, tặc… Ngoài các tính chất ngữ điệu như các ngôn ngữ Âu-Ấn, tần số cơ bản F0 là thành phần chính của hệ thống thanh điệu tiếng Việt tạo nghĩa khác nhau cho âm tiết. Hệ thống thanh điệu tiếng Việt tạo nghĩa khác nhau cho âm tiết. Hệ thống thanh điệu tiếng Việt là loại phức tạp nhất trong các ngôn ngữ đơn lập âm tiết tính (tiếng Thái có 5 thanh, tiếng Trung Quốc có 4 thanh). Trong tiếng Việt, âm tiết có cấu trúc chặt chẽ và ổn định, mỗi âm vị là một vị trí nhất định trong âm tiết, tạo thành cấu trúc âm tiết tiếng Việt. *Cấu trúc âm tiết tiếng Việt Âm tiết tiếng Việt được tạo thành bởi ba thành phần có mức độ độc lập khác nhau là phụ âm đầu, phần vần và thanh điệu. Về cấu trúc, âm tiếng Việt có cấu trúc hai bậc. Bậc một gồm ba thành phần là thanh điệu, phị âm đầu và vần. Bậc hai là các thanh to của phần vần gồm âm đệm là bán nguyên âm, nguyên âm chính và phụ 15 âm hay bán nguyên âm cuối. Các thành phần âm tiết được trình bày như hình 1.2 dưới đây: Thanh điệu Âm đầu Phần vần Âm đệm Âm chính Âm cuối Hình 1.2: Cấu trúc âm tiếng Việt. 1.3.1. Âm đầu Là yếu tố mở đầu âm tiết. Trong tiếng Việt có 21 phụ âm. Phụ âm mang tính độc lập do không tham gia vào việc thay đổi về trường độ giữa các yếu tố bên trong âm tiết. Đặc điểm âm đầu  Khi phát âm, luồng hơi bị cản trở do sự xuất hiện chướng ngại vật trên lối ra của đường không khí. Điểm có chướng ngại gọi là vị trí cấu âm.  Bộ máy phát âm không căng thẳng toàn bộ mà chỉ căng thẳng phần cơ thịt ở vị trí cấu âm.  Luồng hơi ra mạnh. Phân loại  Phân chia theo mối quan hệ giữa tiếng thanh và tiếng ồn trong cấu tạo của âm đầu Các phụ âm đầu được chia thành các phụ âm vang (tiếng thanh nhiều hơn tiếng ồn) và phụ âm ồn. Trong các phụ âm ồn lại chia thành các phụ âm hữu thanh (phát âm có sự tham gia của tiếng thanh do dây thanh rung động) và phụ âm vô thanh (phát âm không có sự tham gia của tiếng thanh). Nhóm phụ âm vang có thể coi là nhóm trung gian giữa các nguyên âm và phụ âm ồn. Khi phát âm các phụ âm vang, chướng ngại được tạo thành nhưng có thể là chỗ tắc yếu hoặc không khí không những trực tiếp vượt qua chỗ có chướng ngại mà còn đi ra tự do qua mũi (như các phụ âm [m], [n] trong tiếng Việt). 16  Phân chia theo phương thức cấu tạo tiếng ồn  Phụ âm tắc: tạo thành khi hai khí quản tiếp xúc nhau, tạo thành chỗ tắc, cản trở hoàn toàn lối ra của luồng không khí. Ví dụ như các phụ âm [p], [b], [d], [t].  Phụ âm xát: tạo thành khi hai khí quản nhích lại gần nhau, làm cho lối ra của luồng không khí bị thu hẹp; luồng không khí đi qua khe hẹp này cọ xát vào thành của bộ máy phát âm. Ví dụ, các phụ âm [v], [s], [h].  Phụ âm rung: tạo thành khi các khí quản dễ rung động (như đầu lưỡi, lưỡi con hay môi) nhích lại gần nhau tạo thành một khe hở rất hẹp hay một chỗ tắc yếu, luồng không khí đi ra mạnh làm cho các khí quản ấy rung lên. Ví dụ phụ âm [r]. Trong các cấu âm của phụ âm, người ta thường phân biệt ba giai đoạn:  Giai đoạn tiến: khí quản phát âm chuyển đến vị trí cấu âm  Giai đoạn giữ: khí quản phát âm ở vị trí cấu âm  Giai đoạn lùi: khí quản phát âm rời khỏi vị trí cấu âm Hai giai đoạn đầu giống nhau ở bất kỳ âm tắc nào. Về giai đoạn thứ ba, cần phân biệt các tiểu loại âm tắc: âm nổ, âm mũi, âm tắc-xát và âm khép  Phân chia theo vị trí tạo ra tiếng ồn Theo vị trí cấu tạo tiếng ồn, các phụ âm được chia ra thành các loại chính: phụ âm môi, răng, ngạc mạc, lưỡi con, yết hầu, thanh hầu. Theo khí quản chủ động, các phụ âm được chia thành các loại: phụ âm môi, lưỡi trước, lưỡi giữa, lưỡi sau, lưỡi con, yết hầu, thanh hầu. Trong các nhóm này, có một số cần chia nhỏ nữa. Ví dụ trong các âm môi, người ta phân biệt các âm hai môi, thường gọi là âm môi-môi ([b], [p], [m]). Với các âm một môi, thường gọi là âm môi-răng ([v]); các âm lưỡi trước thường chia thành nhiều nhóm nhỏ nhưng đáng chú ý là âm đầu lưỡi và âm quặt lưỡi, ... 17 1.3.2. Phần vần Theo như lược đồ âm tiếng Việt ở trên thì phần vần đầy đủ gồm ba thành phần là âm đệm, âm chính, và âm cuối. Ví dụ như âm tiết /toán/ có phần vần là /oan/, trong đó âm vị /o/ là âm đệm, âm vị /a/ là âm chính và /n/ là âm cuối. 1.3.2.1. Âm đệm Đóng vai trò là âm lướt trong kết cấu âm tiết. Âm đệm ảnh hưởng đến cách mở đầu của âm tiết (bên cạnh phụ âm đầu). Ví dụ: chữ ”toàn” khi phát âm có hiện tượng tròn môi do tác động của âm đệm/-u-/, còn chữ ”tàn” thì không có hiện tượng tròn môi do không có âm đệm. 1.3.2.2. Âm chính Là nguyên âm âm tiết tính trong âm tiết. Âm tiết chính có thể là một nguyên âm đơn hay nguyên âm đôi. Âm chính gồm một hệ thống nguyên âm gồm 11 nguyên âm đơn /a, ă, â, e, ê, o, ô, ơ, u, ư, i/ và ba nguyên âm đôi /iê, ươ, ưa/. Âm chính là yếu tố tạo nên đỉnh âm thanh, có biên độ và cường độ lớn nhất trong các thành phần âm tiết. Đặc điểm  Khi phát âm, luồng hơi không bị cản trở bởi lưỡi, răng hay môi  Bộ máy phát âm căng thẳng toàn bộ  Luồng hơi ra yếu hơn phụ âm Phân loại Các nguyên âm không thể phân chia theo tiêu chuẩn như của phụ âm. Về mặt phương thức cấu âm, nguyên âm chỉ thuộc vào một phương thức đó là luồng hơi ra tự do. Nguyên âm không có vị trí cấu âm vì các khí quản không tạo thành khe, cũng không tạo thành chỗ tắc. Các nguyên âm cũng không thể phân loại theo tiếng thanh, vì bình thường, bất kỳ nguyên âm nào cũng có tiếng thanh. Các nguyên âm chỉ khác nhau ở các hoạt động của khí quản phát âm, trong đó quan trọng nhất là lưỡi. Vì sự thay đổi vị trí của lưỡi gây ra sự khác nhau rất lớn giữa các nguyên âm. Lưỡi chuyển động tới-lui và lên xuống trong khoang miệng và tạo nên những tương quan phức tạp giữa các khoang cộng minh (khoang miệng và mũi), làm thay đổi hình dáng và thể tích của chúng. Môi tròn lại và đưa về trước, 18 làm kéo dài lối thoát của luồng không khí, hoặc môi chành ra, làm cộng minh trường phía trước ngắn lại. Người ta thường phân loại nguyên âm theo vị trí của lưỡi, độ nâng của lưỡi và hình dáng môi  Theo vị trí của lưỡi Gồm các nguyên âm dòng trước (khi lưỡi dồn về trước), nguyên âm dòng sau (khi lưỡi dồn về sau) và nguyên âm dòng giữa (khi lưỡi ở giữa miệng nâng lên). Ví dụ, trong tiếng Việt, các nguyên âm dòng trước là [i], [e], [ê], nguyên âm dòng sau là [u], [o], [ô], nguyên âm dòng giữa là [ư], [ơ], [a].  Theo độ nâng của lưỡi Các nguyên âm được chia tùy theo từng ngôn ngữ. Độ nâng của lưỡi tương ứng với độ mở của miệng nên các nguyên âm có độ nâng cao còn gọi là nguyên âm hẹp, nguyên âm có độ nâng thấp còn gọi là nguyên âm mở. Trong ngữ âm học đại cương không có một cách phân loại tuyệt đối theo độ nâng lưỡi vì mỗi ngôn ngữ có một hệ thống nguyên âm khác nhau. Ví dụ, các nguyên âm dòng trước trong tiếng Pháp có 4 độ nâng, các nguyên âm trong tiếng Ðức có 5 độ nâng, tiếng Nga có 3 độ nâng, tiếng Anh có 6 độ nâng. Trong tiếng Việt, các nguyên âm đơn có thể chia thành 4 nâng: Bảng 1.1: Phân chia nguyên âm theo độ nâng của lưỡi. Ðộ nâng Gồm các nguyên âm Hẹp [i], [u], … Hơi hẹp [ê], [u], … Hơi rộng [o], [e], … Rộng [a], [a], …  Theo hình dáng môi Các nguyên âm được chia thành nguyên âm tròn môi ([u], [ô], [o]), nguyên âm không tròn môi ([i], [ê], [e], [ư], [ơ], [a]). Sự tròn môi rõ nhất ở nguyên âm khép và yếu nhất ở nguyên âm mở. 19 1.3.2.3. Âm cuối Là âm kết thúc âm tiết. Các âm tiết tiếng Việt thường đối lập bằng những cách kết thúc khác nhau. Một số âm tiết kết thúc bằng sự kéo dài và giữ nguyên, ví dụ: má, đi, cho, ... Số âm tiết khác kết thúc bằng cách biến đổi âm sắc của âm tiết ở phần cuối do sự đóng lại của các âm cuối tham gia, ví dụ như một, mai, vàng, ... Trong trường hợp đầu, ta có các âm cuối là âm vị /zero/, trong trường hợp sau ta có các âm cuối là những âm vị bán nguyên âm hoặc phụ âm. Hệ thống âm cuối tiếng Việt bao gồm hai bán nguyên âm là /i, o/ và sáu phụ âm /m, n, ng (nh), p, t, c/. 1.3.3. Thanh điệu Thanh điệu là loại âm vị siêu đoạn tính, nó được biểu lộ trong toàn bộ phần hữu thanh của âm tiết. Ở mức vật lý, phần thanh của thanh điệu chính là đường nét của tần số âm cơ bản F0. Về cảm thụ, thanh điệu là sự cảm nhận về thay đổi của cao đọ tần số cơ bản F0 của âm tiết. Sáu thanh điệu tiếng Việt được chia thành hai nhóm lớn bằng và trắc. Thanh không dấu và thanh huyền thuộc loại thanh bằng có đường nét tương đối đơn giản. Thanh ngã, thanh hỏi, thanh sắc và thanh nặng là những thanh trắc có đường nét thanh điệu phức tạp. Các thanh ngang, sắc, ngã thuộc âm vực cao, còn các âm huyền, hỏi và nặng thuộc âm vực thấp. Trong các công trình nghiên cứu đã được công bố, đường nét thanh điệu tiếng Việt cho những âm tiết rời rạc (phương ngữ Bắc Bộ) được đánh giá tương đối thống nhất. Ngoài tính chất thanh tính, các thanh điệu còn có một số đặc trưng phi điệu tính như hiện tượng yết hầu hoá, thanh hầu hoá,… tạo thành hệ thống các đặc trưng phụ để phân biệt các thanh điệu đặc biệt của thanh ngã và sắc, thanh hỏi, thanh nặng. *Phân loại âm tiết tiếng Việt Phụ thuộc vào cách thức kết thúc, âm tiết tiếng Việt được chia thành 4 loại như trong bảng 1.2: Bảng 1.2: Phân loại âm tiết tiếng Việt. 20 STT Loại âm tiết Đặc điểm Là các loại âm tiết không có âm cuối, kết Ví dụ 1 Âm mở 2 Âm nửa mở 3 Âm đóng Khi âm cuối là một phụ âm tắc vô thanh Tập, học, ... 4 Âm nửa đóng Khi âm cuối là một phụ âm mũi Làm, ngành, ... thúc âm tiết bằng nguyên âm chính âm cuối kết thúc âm tiết là một bán nguyên âm Ma, mẹ, … Mai, sau, ... 1.4. Một số đặc trƣng của âm vị về mặt âm học Sự phân loại các âm vị về mặt âm học đã được xây dựng dựa trên âm phổ. Các máy phân tích âm phổ cho chúng ta các ảnh phổ (spectrogram), qua đó các âm vị thể hiện rõ các đặc trưng âm học: cao độ, cường độ, trường độ, ... Để biểu diễn phổ tiếng nói tại một thời điểm t, người ta dùng một biểu đồ với trục ngang biểu diễn các tần số (Hz) tham gia cấu âm thành âm thanh tại thời điểm t và trục đứng với cường độ tương ứng (dB). Hình 1.3: Phổ (spectrum) của một nguồn âm thanh tại thời điểm t. Để biểu diễn phổ tiếng nói theo sự biến thiên thời gian, người ta dùng ảnh phổ với trục ngang biểu diễn thời gian, trục đứng biểu diễn tần số, cường độ của 21 mỗi sóng có tần số fi tại thời điểm ti được biểu diễn bằng 1 chấm. Nếu cường độ càng mạnh thì chấm biểu diễn càng đậm. Ngoài ra còn có thể biểu diễn ảnh phổ của tiếng nói theo sự biến thiên thời gian trong không gian 3 chiều. Khi đó, phổ thu được có dạng như thác nước và người ta gọi đó là ảnh phổ thác nước (Waterfall Spectrogram). Hình 1.4: Ảnh phổ của tiếng ”hai” và sóng âm tương ứng. Những vùng có cường độ cao (vùng đen) tạo thành những dải bắt ngang qua ảnh phổ, đó là những vệt formant, được đánh số từ dưới lên F1, F2, F3, ... Dựa trên đặc điểm của ảnh phổ, âm vị được chia thành 12 đặc trưng sau:  Nguyên âm-không nguyên âm Đặc trưng của nguyên âm: được thể hiện bằng các cấu trúc formant. Có đặc trưng nguyên âm là nguyên âm và các âm vang. Không có đặc trưng nguyên âm là các âm ồn.  Phụ âm-không phụ âm Đặc trưng âm học của phụ âm là có mức năng lượng thấp, nếu có mức năng lượng cao là nguyên âm. Có đặc trưng phụ âm là các phụ âm vang và ồn.  Bổng-Trầm Những âm bổng có tần số lớn, còn những âm trầm có tần số nhỏ. Những âm trầm thường được đặc trưng bằng sự phân bổ năng lượng tập trung ở phần dưới của phổ.

- Xem thêm -

Tài liệu Nghiên cứu vài phương pháp nâng cao chất lượng tổng hợp tiếng Việt và thử nghiệm cho phần mềm VnVoice

Tài liệu liên quan

Tài liệu vừa đăng

Tài liệu xem nhiều nhất