Áp dụng phương pháp PSOLA trong tổng hợp tiếng nói tiếng Việt

  • Số trang: 83 |
  • Loại file: PDF |
  • Lượt xem: 14 |
  • Lượt tải: 0
nhattuvisu

Đã đăng 26946 tài liệu

Mô tả:

Mục lục Mục lục ....................................................................................................................... 1 MỞ ĐẦU .................................................................................................................... 3 1. CHƢƠNG 1: TỔNG QUAN VỀ TIẾNG NÓI ................................................. 5 1.1 Lịch sử phát triển ........................................................................................... 6 1.2 Âm và cơ chế phát âm ................................................................................... 7 1.3 Các đặc trƣng sinh học của âm:..................................................................... 8 1.4 Các tham số âm ........................................................................................... 10 1.5 Một số khái niệm ngữ âm ............................................................................ 11 2. CHƢƠNG 2: XỬ LÝ TÍN HIỆU SỐ ............................................................. 14 2.1 Số hoá tín hiệu ............................................................................................. 15 2.2 Xác định tần số lấy mẫu tín hiệu tiếng nói .................................................. 16 2.3 Biểu diễn tín hiệu số .................................................................................... 17 2.4 Biến đổi Fourier rời rạc (Discrete Fourier Transform - DFT) .................... 17 2.5 Các hàm cửa sổ ............................................................................................ 19 3. CHƢƠNG 3: CÁC HỆ THỐNG TỔNG HỢP TIẾNG NÓI .......................... 20 3.1 Tổng quan về tổng hợp tiếng nói................................................................. 21 3.2 Các phƣơng pháp tổng hợp tiếng nói. ......................................................... 23 3.2.1 Tổng hợp theo cấu âm .......................................................................... 24 3.2.2 Tổng hợp Formant theo quy luật ......................................................... 25 3.2.3 Tổng hợp xích chuỗi ............................................................................ 28 3.2.4 Tổng hợp xích chuỗi sử dụng mã tiên đoán tuyến tính LPC ............... 31 3.3 Các ứng dụng của TTS ................................................................................ 35 3.4 Lựa chọn phƣơng pháp tổng hợp Tiếng Việt .............................................. 36 4. 5. CHƢƠNG 4: NGỮ ÂM TIẾNG VIỆT ........................................................... 39 4.1 Tổng quan về ngữ âm tiếng Việt ................................................................. 40 4.2 Các đặc điểm của âm tiết tiếng Việt ............................................................ 43 4.3 Cấu trúc của âm tiết tiếng Việt .................................................................... 43 4.4 Thanh điệu trong tiếng Việt ........................................................................ 45 CHƢƠNG 5 : XÂY DỰNG CƠ SỞ DỮ LIỆU ÂM ...................................... 49 Hoàng Tiểu Bình – ĐH Công nghệ, ĐHQG Hà Nội 5.1 Lựa chọn đơn vị âm cho tổng hợp tiếng Việt .............................................. 50 5.2 Ghi âm ......................................................................................................... 51 5.3 Gán nhãn cơ sở dữ liệu ................................................................................ 52 5.3.1 Gán nhãn bằng tay ............................................................................... 53 5.3.2 Gán nhãn tự động ................................................................................. 59 5.3.3 Thuật toán gán nhãn tự động mức âm tiết ........................................... 60 5.3.4 Thuật toán gán nhãn tự động mức âm vị ............................................. 61 5.4 6. Kết luận ....................................................................................................... 61 CHƢƠNG 6: ÁP DỤNG P-SOLA TRONG TỔNG HỢP TIẾNG VIỆT ...... 63 6.1 Kỹ thuật PSOLA ......................................................................................... 64 6.1.1 Phân tích tín hiệu ................................................................................. 65 6.1.2 Tính điểm cao độ tần số cơ bản tổng hợp (epoch) ............................... 69 6.2 Làm mềm hoá biên nối ................................................................................ 75 6.3 Kết luận ....................................................................................................... 76 7. CHƢƠNG 7: CÀI ĐẶT CHƢƠNG TRÌNH .................................................. 78 7.1 Lựa chọn công cụ ........................................................................................ 79 7.2 Phƣơng pháp tổng hợp ................................................................................ 79 7.3 Giao diện chƣơng trình ................................................................................ 80 7.4 Kết luận ....................................................................................................... 81 ĐÁNH GIÁ KẾT QUẢ VÀ ĐỊNH HƢỚNG NGHIÊN CỨU ................................. 82 TÀI LIỆU THAM KHẢO ........................................................................................ 83 Hoàng Tiểu Bình – ĐH Công nghệ, ĐHQG Hà Nội Áp dụng PSOLA trong tổng hợp tiếng nói tiếng Việt 3 Mở đầu Từ thời tiền sử đến nay, truyền thông tiếng nói vẫn là phƣơng thức nổi trội nhất của xã hội loài ngƣời trong việc trao đổi thông tin. Các từ ngữ vẫn ngày càng đƣợc mở rộng thông qua các phƣơng tiện mang tính công nghệ nhƣ điện thoại, phim ảnh, truyền thanh, truyền hình và Internet. Khuynh hƣớng này ảnh hƣởng không nhỏ đến truyền thông bằng tiếng nói của con ngƣời. Hầu hết máy tính ngày nay sử dụng một giao diện đồ hoạ ngƣời dùng (Graphic User Interface), dựa trên giao diện thể hiện bằng đồ hoạ và các chức năng nhƣ cửa sổ, biểu tƣợng, trình đơn, và con trỏ. Hầu hết các hệ điều hành và các ứng dụng đều phụ thuộc vào các đáp ứng gõ phím hay nhấn chuột, sau đó hiển thị các hồi âm qua màn hình. Máy tính ngày nay vẫn còn thiếu các chức năng cơ bản của con ngƣời nhƣ nói, nghe, hiểu và học. Tiếng nói, đƣợc hỗ trợ bởi các phƣơng thức tự nhiên khác sẽ là một trong những phƣơng tiện chính để giao tiếp với máy tính. Và thậm chí trƣớc khi các giao tiếp dựa trên tiếng nói đạt đến độ thuần thục thì các ứng dụng gia đình, di động, và văn phòng kết hợp với công nghệ tiếng nói sẽ thay đổi cách thức sống và làm việc của chúng ta. Một hệ thống tiếng nói cần phải có khả năng nhận dạng và tổng hợp câu chữ. Tuy nhiên nếu chỉ có 2 thành phần này cũng không đủ để tạo nên một hệ tiếng nói hữu dụng, cần phải có một thành phần hội thoại có thể hiểu đƣợc cộng với miền tri thức cho chúng để thực hiện các thao tác thích hợp. Để làm đƣợc các thành phần này, còn rất nhiều thách thức đang tồn tại, nhƣ tính ổn định, linh hoạt, dễ tích hợp, hiệu quả. Mục tiêu để xây dựng đƣợc một hệ tiếng nói mang tính thƣơng mại đã thu hút nhiều nhà khoa học và các kỹ sƣ trên toàn thế giới. Một trong những mục tiêu quan trọng nhất của tổng hợp tiếng nói là làm sao tiếng nói tổng hợp đƣợc phải đạt đến độ tự nhiên tối đa, đồng thời để có thể áp dụng đƣợc vào nhiều lĩnh vực trong cuộc sống, nó phải có một khả năng linh hoạt, tuỳ biến theo nhiều tham số khác nhau. Hoàng Tiểu Bình – ĐH Công nghệ, ĐHQG Hà Nội Áp dụng PSOLA trong tổng hợp tiếng nói tiếng Việt 4 Hiện trên thế giới đã có khá nhiều thuật toán đƣợc áp dụng nhằm thoả mãn các yêu cầu này, một trong số đó là phƣơng pháp PSOLA. Trong luận văn này, tôi đã sử dụng phƣơng pháp này để áp dụng cho tiếng Việt dựa trên những đặc thù riêng về mặt ngữ âm. Qua thực nghiệm kết quả thu đƣợc là khá khả quan. Cấu trúc luận văn bao gồm 7 chƣơng đƣợc trình bày cụ thể nhƣ sau: Chƣơng 1: Tổng quan về tiếng nói Chƣơng 2: Số hoá tiếng nói Chƣơng 3: Các phƣơng pháp tổng hợp tiếng nói Chƣơng 4: Ngữ âm tiếng Việt Chƣơng 5: Xây dựng cơ sở dữ liệu âm Chƣơng 6: Áp dụng phƣơng pháp PSOLA trong việc tổng hợp tiếng nói. Chƣơng 7: Cài đặt chƣơng trình Kết quả đạt đƣợc của luận văn còn khiêm tốn nhƣng rất đáng khích lệ. Ngƣời viết mong muốn nhận đƣợc sự góp ý của các thầy cô, bạn bè và tất cả những ai quan tâm đến tổng hợp tiếng nói tiếng Việt Tôi xin gửi lời cảm ơn chân thành nhất tới Phó Giáo sƣ, Tiến sĩ Lƣơng Chi Mai, ngƣời dù bận rất nhiều công việc nhƣng đã tận tình hƣớng dẫn tôi hoàn thành luận văn này. Xin cảm ơn các anh chị trong phòng Nhận dạng và Công nghệ tri thức – Viện Công nghệ Thông tin, đã trực tiếp chỉ bảo, đóng góp những ý kiến quý báu. Xin cảm ơn gia đình, ngƣời thân và bạn bè đã động viên, giúp đỡ tôi rất nhiều giúp tôi hoàn thành khoá học và luận văn này. Hà Nội, ngày 26 tháng 10 năm 2006 Hoàng Tiểu Bình Hoàng Tiểu Bình – ĐH Công nghệ, ĐHQG Hà Nội Áp dụng PSOLA trong tổng hợp tiếng nói tiếng Việt 1. CHƢƠNG 1: TỔNG QUAN VỀ TIẾNG NÓI 1.1 Lịch sử phát triển 1.2 Âm và cơ chế phát âm 1.3 Các đặc trƣng sinh học và vật lý của âm 1.4 Các tham số âm 1.5 Một số khái niệm ngữ âm Hoàng Tiểu Bình – ĐH Công nghệ, ĐHQG Hà Nội 5 Áp dụng PSOLA trong tổng hợp tiếng nói tiếng Việt 6 1.1 Lịch sử phát triển Năm 1797 Christian Kratzenstein của trƣờng đại học St. Petersburg đã xây dựng một mô hình có dạng vòm họng ngƣời có thể tạo ra 5 nguyên âm (a, e, i, o và u). Sau đó nó đƣợc nó đƣợc Wolfgang von Kempelen ở Vienna, Austria phát triển thêm và gọi là Máy tạo tiếng nói dựa trên cơ chế âm học. Chiếc máy này đƣợc bổ sung thêm các mô hình của môi và lƣỡi, cho phát ra cả nguyên âm cũng nhƣ phụ âm. Trong những năm 1930, Phòng thí nghiệm Bell Labs đã phát triển hệ thống VOCODER, bộ tổng hợp và phân tích tiếng nói dựa trên việc mô hình hoá cộng hƣởng của ống thanh bằng linh kiện điện tử. Honer Dodley đã nâng cấp hệ thống này thành VODER và đƣợc trƣng bày tại hội chợ New York World's Fair vào năm 1939. Hệ thống tổng hợp tiếng nói dựa trên máy tính đầu tiên đƣợc xây dựng vào những năm 50 của thế kỷ trƣớc và hệ thống text-to-speech đầu tiên đƣợc hoàn thành vào năm 1968. Từ đó đến nay đã có rất nhiều cải tiến về mặt công nghệ, kỹ thuật áp dụng cho tổng hợp tiếng nói, có đƣợc điều đó là nhờ khả năng tính toán của máy tính đã tăng lên gấp nhiều nhiều lần, các nghiên cứu và cơ sở dữ liệu âm thanh và tiếng nói cũng dày thêm tạo ra một kho âm thanh lớn phục vụ cho việc phân tích tiếng nói. Tổng hợp tiếng nói là một vấn đề khoa học nhận dạng liên quan đến nhiều lĩnh vực khoa học khác nhau nhƣ ngôn ngữ học, tâm lý học, toán học, xử lý tín hiệu số và khoa học máy tính. Hiện nay, trên thế giới, các nhà khoa học đã nghiên cứu và xây dựng cũng nhƣ đƣa vào ứng dụng trong thực tế nhiều hệ thống với chất lƣợng âm thanh đã tiến dần đến tiếng nói tự nhiên của con ngƣời. Thậm chí trong một số ứng dụng nhất định, chất lƣợng âm thanh tổng hợp đã đạt đến độ tự nhiên nhƣ tiếng nói con ngƣời. Hiện nay tại Việt Nam, đã có nhiều cơ quan, viện nghiên cứu, các trƣờng đại học đã có những nghiên cứu và bƣớc đầu đã đem lại một số kết quả khả quan trong Hoàng Tiểu Bình – ĐH Công nghệ, ĐHQG Hà Nội Áp dụng PSOLA trong tổng hợp tiếng nói tiếng Việt 7 vấn đề tổng hợp tiếng Việt. Nghiên cứu tổng hợp tiếng Việt là một đòi hỏi tất yếu của xã hội để theo kịp xu thế của thế giới bởi đặc thù ngôn ngữ của mỗi quốc gia không cho phép chúng ta sử dụng những phần mềm có sẵn của nƣớc ngoài trong việc đọc văn bản tiếng Việt. Hơn nữa việc nghiên cứu tổng hợp tiếng Việt giúp cho ta có đƣợc sự hiểu biết sâu hơn về ngôn ngữ và văn hoá Việt Nam, qua đó có ý thức hơn trong việc giữ gìn sự trong sáng của tiếng Việt cũng nhƣ bản sắc văn hoá của ngƣời Việt Nam. 1.2 Âm và cơ chế phát âm Âm là sóng áp lực theo chiều dọc đƣợc hình thành do việc nén và giãn các phần tử không khí theo hƣớng song song với nguồn năng lƣợng phát. Hình 1.1. Năng lƣợng sóng tạo ra việc nén/giãn các phân tử khí đƣợc mô tả nhƣ hình sin, trong đó có 2 tham số quan trọng là biên độ và bƣớc sóng. Tần số [chu kỳ/giây – đơn vị là Hertz (Hz)] cũng là đơn vị để đo các dạng sóng. Tuy nhiên hình 1.1 chƣa mô tả đƣợc sự biến đổi áp suất cục bộ theo thời gian, do âm thanh không phải hình thành theo chiều ngang, các phân tử không khí chỉ dao động tại chỗ dọc theo đƣờng mức năng lƣợng. Tốc độ âm thanh xấp xỉ 331.5 + 0.6Tcm/s, với Tc là nhiệt độ môi trƣờng tính theo độ Celcius. Cƣờng độ âm là năng lƣợng đƣợc sóng âm truyền trong một đơn vị thời gian qua một đơn vị diện tích đặt vuông góc với phƣơng truyền âm. Hoàng Tiểu Bình – ĐH Công nghệ, ĐHQG Hà Nội Áp dụng PSOLA trong tổng hợp tiếng nói tiếng Việt 8 Đối với con ngƣời, giá trị tuyệt đối của cƣờng độ âm P là không quan trọng bằng giá trị tỷ đối của P so với một giá trị P0 nào đó. Ngƣời ta định nghĩa mức cƣờng độ âm nhƣ sau: Mức cƣờng độ âm (Sound Pressure Level) là giá trị tuyệt đối của cƣờng độ âm theo dB và đƣợc đo bằng: SPL(dB) = 20log10(P/P0) SPL bằng 0 dB ta gọi là ngƣỡng nghe (là mức cƣờng độ âm thanh mà tai ta có thể phân biệt đƣợc) với âm thanh là 1kHz. Khi ta nói chuyện cách khoảng 1 mét có mức cƣờng độ âm là 60dB SPL, một máy khoan bê tông khoảng 120dB SPL. Ngƣời ta dùng đại lƣợng Watts/m2 để đo cƣờng độ âm thanh. Một ngƣời bình thƣờng có thể nghe thấy âm thanh có cƣờng độ 10-12 W/m2 (ngưỡng nghe – threshold of hearing hay TOH). Con ngƣời có khả năng nghe âm thanh nhỏ nhất là 0dB và lớn nhất là 120dB. Giá trị này ngƣời ta gọi là ngƣỡng đau. Miền từ ngƣỡng nghe đến ngƣỡng đau gọi là miền nghe đƣợc. Tín hiệu tiếng nói phụ thuộc vào rất nhiều yếu tố và tình trạng khí quyển xung quanh. Những yếu tố thể hiện mức độ ngữ nghĩa, nó làm cho não hiểu đƣợc ý chứa đựng trong tín hiệu tiếng nói. Một đặc trƣng của tín hiệu tiếng nói là độ dƣ thừa rất lớn, đây là điều kiện cần thiết để tiếng nói có thể truyền đi trong môi trƣờng có nhiều tác động vào độ dƣ thừa này cho phép não có thể hiểu đƣợc câu nói dễ dàng hơn. 1.3 Các đặc trƣng sinh học của âm: Tiếng nói đƣợc tạo bởi các sóng áp lực không khí xuất phát từ mồm hoặc mũi của ngƣời nói. Trong hầu hết các ngôn ngữ trên thế giới, ngƣời ta chia âm vị thành hai lớp: + phụ âm: tạo thành khi luồng không khí từ phổi đi ra bị cản trở ở một điểm nào đó, chẳng hạn sự khép chặt của hai môi khi phát âm ([b], [m]), sự tiếp xúc giữa đầu lƣỡi với lợi ([t], [d]) gây nên tiếng nổ và tiếng xát và gây nên một âm thanh khó nghe. Hoàng Tiểu Bình – ĐH Công nghệ, ĐHQG Hà Nội Áp dụng PSOLA trong tổng hợp tiếng nói tiếng Việt 9 + nguyên âm: ngƣợc lại với phụ âm, nguyên âm thƣờng đƣợc tạo thành khi luồng không khí thoát ra ngoài một cách tự do, tạo thành một âm hƣởng êm ái. Hình 1.2 Bộ máy phát âm của con ngƣời Âm có thể còn đƣợc chia thành các nhóm nhỏ dựa trên các đặc trƣng phát âm. Những đặc trƣng này có đƣợc nhờ cấu tạo của các cơ quan phát âm và vị trí mà chúng tiếp xúc với các thành phần khác. Hơn nữa một số lƣợng lớn các cơ cũng tham gia vào việc định vị và chuyển động. Ở trong hình này chúng ta chỉ xem xét có giới hạn đối với các cơ quan phát âm chính. Ngoài ra, các thành phần tham gia vào việc phát âm còn có phổi, khí quản, thanh quản, khoang hầu (cổ họng), miệng và khoang mũi. Hầu và khoang miệng tham gia tạo ra các âm hữu thanh, còn khoang mũi tạo ra các âm mũi. Theo hình minh hoạ trên ta có chức năng của các cơ quan nhƣ sau: Phổi: Nguồn cung cấp hơi trong khi nói. Dây thanh âm (thanh quản): Khi chúng kết hợp với nhau và dao động sẽ tạo ra các âm hữu thanh, khi chúng chùng xuống hoặc căng lên tạo ra các rung động một cách định kỳ thì sẽ tạo ra âm vô thanh. Vị trí các dây thanh khi kết hợp với nhau gọi là thanh môn. Hoàng Tiểu Bình – ĐH Công nghệ, ĐHQG Hà Nội Áp dụng PSOLA trong tổng hợp tiếng nói tiếng Việt 10 Vòm miệng (Ngạc mềm): hoạt động nhƣ một chiếc van, khi mở cho phép không khí đi ra (gây ra tiếng vang) thông qua khoang mũi. Âm thanh tạo ra là m và n. Ngạc cứng: vùng bề mặt cứng phía trên trong mồm kết hợp với lƣỡi để tạo ra các phụ âm. Lưỡi: là bộ phận rất linh hoạt, tạo các hình dạng khác nhau với vòm miệng để tạo ra nguyên âm, hoặc kết hợp với ngạc cứng để tạo ra phụ âm. Lƣỡi có thể tiến ra trƣớc, lùi lại sau, nâng cao lên, hạ thấp xuống, do đó làm cho khoang miệng luôn thay đổi, tạo ra khoang cộng hƣởng quan trọng phía trên thanh hầu. Răng: kết hợp với lƣỡi để tạo ra các phụ âm khác nhau. Môi: có thể cuộn tròn hoặc căng dài ra để tạo ra các nguyên âm, hoặc đóng kín để ngăn luồng hơi tạo ra các âm nhƣ p, b, m. 1.4 Các tham số âm Độ cao: Âm thanh phát ra bao giờ cũng ở một độ cao nhất định. Mức độ cao thấp của âm phụ thuộc vào sự chấn động nhanh hay chậm của các phần tử không khí trong một thời gian nhất định. Có nghĩa là độ cao của âm phụ thuộc vào tần số dao động. Tần số dao động của dây thanh quy định độ cao của giọng nói con ngƣời. Độ mạnh: Độ mạnh của âm do biên độ dao động quyết định. Biên độ dao động càng lớn âm phát ra càng mạnh. Thông thƣờng phụ âm mạnh hơn nguyên âm. Độ mạnh còn đƣợc gọi là cƣờng độ. Độ dài: Độ dài hay trƣờng độ của âm phụ thuộc vào sự chấn động lâu hay chóng của các phần tử không khí. Ví dụ trong tiếng Việt, a trong hai dài hơn a trong hay. Âm sắc: Âm sắc là bản sắc, là sắc thái riêng biệt của một âm. Cùng một nốt nhạc nhƣng âm thanh của các loại đàn khác nhau sẽ có những sắc thái khác nhau. Đó là sự khác nhau về âm sắc. Âm sắc khác nhau là do vật tạo ra âm sắc (chất liệu, thành phần vật lý…), cách tạo ra âm (tay, miếng gẩy…). Ngoài ra còn các yếu tố Hoàng Tiểu Bình – ĐH Công nghệ, ĐHQG Hà Nội Áp dụng PSOLA trong tổng hợp tiếng nói tiếng Việt 11 môi trƣờng, không gian ảnh hƣởng đến các sự cộng hƣởng hay việc truyền dẫn âm thanh. Tiếng động và tiếng thanh: Các phân tử không khí dao động có chu kỳ sẽ tạo ra tiếng thanh, ngƣợc lại nếu dao động không điều hoà sẽ tạo ra tiếng động. Thƣờng các nguyên âm sẽ tạo tiếng thanh, còn phụ âm sẽ tạo tiếng động. 1.5 Một số khái niệm ngữ âm Âm tố: (sound element) là đơn vị nhỏ nhất của âm thanh lời nói, đƣợc dùng để cấu tạo nên mọi đơn vị ngôn ngữ khác. Nó đƣợc thực hiện bằng một động tác phát âm cụ thể bởi các cơ quan phát âm của ngƣời nói và đƣợc tiếp thu bởi các cơ quan thính giác của ngƣời nghe. Âm tố mang đặc trƣng vật lý và sinh học của cơ quan phát âm, do đó nó mang tính tự nhiên. Cùng phát âm một âm “về” trong tiếng Việt nhƣng nhiều ngƣời phát âm sẽ khác nhau, ngƣời miền Nam có thể phát âm thành “dzề”, thậm chí một ngƣời tại mỗi thời điểm cũng có thế phát âm khác nhau. Do đó âm tố còn mang tính chất xã hội. Âm vị: (phoneme) là đơn vị tối thiểu của hệ thống ngữ âm của một ngôn ngữ dùng để cấu tạo và phân biệt vỏ âm thanh của các đơn vị có nghĩa của ngôn ngữ. Ví dụ đối với từ ba ta có hai âm vị /b/ và /a/. Nhờ hai đơn vị này mà ngƣời ta phân biệt đƣợc với các từ khác nhƣ va, la, ca… Nhƣ vậy âm vị có chức năng cấu tạo nên vỏ âm thanh của các đơn vị có nghĩa và phân biệt (khu biệt) vỏ âm thanh của các đơn vị có nghĩa. Âm vị là một đơn vị trừu tƣợng còn âm tố là một đơn vị cụ thể. Âm vị đƣợc thể hiện ra bằng các âm tố và âm tố là sự thể hiện của âm vị. Âm vị là tổng thể các nét khu biệt đƣợc thể hiện đồng thời của cùng một loại âm tố và có chức năng phân biệt các đơn vị ngôn ngữ. Biến thể của âm vị: là những âm tố cùng thể một âm vị. Các biến thể đƣợc phân chia làm hai loại: các biến thể kết hợp và các biến thể tự do. Biến thể kết hợp là biến thể bị quy định bởi vị trí, bởi bối cảnh ngữ âm. [c] trong cà và [c] trong củ là hai biến thể của âm vị /c/. Biến thể thứ hai do đi trƣớc nguyên âm tròn môi nên bị Hoàng Tiểu Bình – ĐH Công nghệ, ĐHQG Hà Nội Áp dụng PSOLA trong tổng hợp tiếng nói tiếng Việt 12 môi hoá. Biến thể tự do là biến thể không bị quy định bởi bối cảnh ngữ âm. Từ lộng chẳng hạn, một số vùng Thanh-Nghệ phát âm từ này nghe nhƣ là lô_ộng. Đó là những biến thể tự do của âm vị /o/ Âm tiết: (syllabable) là khúc đoạn âm thanh từ một chuỗi lời nói của con ngƣời. Là đơn vị phát âm nhỏ nhất đƣợc phân định tự nhiên trong tiếng nói. Ngƣời Việt thƣờng gọi là tiếng hay tiếng một. Nó đƣợc cấu tạo bởi năm (5) thành phần là thanh điệu có chức năng phân biệt các âm tiết với nhau về cao độ. Âm đầu có chức năng mở đầu một âm tiết, thƣờng là các phụ âm. Âm đệm có chức năng thay đổi âm sắc của âm tiết sau lúc mở đầu, làm trầm hoá âm tiết, thƣờng do nguyên âm đảm nhiệm. Âm chính quyết định âm sắc chủ yếu của âm tiết, là hạt nhân của âm tiết. Thành phần này là một nguyên âm. Thành phần cuối cùng của âm tiết là âm cuối, nó có thể là phụ âm trong từ kiểm, là nguyên âm trong từ soát, hoặc không có trong từ bà. Có thể biểu diễn một âm tiết nhƣ sau [4]: THANH ĐIỆU ÂM ĐẦU VẦN Âm đệm Âm chính Âm cuối Ngữ điệu: (intonation) là sự chuyển động của thanh cơ bản của giọng nói, là sự nâng cao hoặc hạ thấp giọng nói trong câu. Nó mang thông tin biểu cảm của giọng nói, giúp ta phân biệt đƣợc câu thuộc loại gì. Chức năng chính của ngữ điệu là nối liền các bộ phận của lời nói lại với nhau, làm cho lời nói trở nên liền mạch. Trọng âm: (accent) là sự nêu bật một trong những âm tiết của từ bằng những phƣơng tiện ngữ điệu nhất định, đƣợc thực hiện bằng cách tăng cƣờng trƣờng độ của nguyên âm. Tuy nhiên trọng âm trong tiếng Việt thƣờng không có ảnh hƣởng nhiều đến nghĩa của từ nhƣ các ngôn ngữ khác (tiếng Anh, tiếng Nga, tiếng Pháp…) Thanh điệu: (tone) là sự nâng cao hay hạ thấp giọng nói trong một âm tiết có tác dụng cấu tạo và khu biệt vỏ âm thanh của từ hoặc hình vị (tiếng). Ví dụ sự khác Hoàng Tiểu Bình – ĐH Công nghệ, ĐHQG Hà Nội Áp dụng PSOLA trong tổng hợp tiếng nói tiếng Việt 13 nhau giữa cà và cá là sự khác nhau về thanh điệu: âm tiết cá đƣợc phát âm cao, âm tiết cà đƣợc phát âm thấp. Trong tiếng Việt có 6 thanh điệu: bằng, huyền, sắc, hỏi, ngã, nặng. Trên đây chúng ta đã tìm hiểu một cách tổng quan về tiếng nói và ngữ âm tiếng Việt cùng các khái niệm cơ sở của nó. Trong chƣơng tiếp theo chúng ta sẽ tìm hiểu sâu hơn về tiếng nói và biểu diễn tiếng nói dƣới dạng số hóa. Qua đó là cơ sở để xây dựng các bộ tổng hợp tiếng nói. Hoàng Tiểu Bình – ĐH Công nghệ, ĐHQG Hà Nội Áp dụng PSOLA trong tổng hợp tiếng nói tiếng Việt 2. CHƢƠNG 2: XỬ LÝ TÍN HIỆU SỐ 2.1 Số hóa tín hiệu 2.2 Tần số lấy mẫu 2.3 Biểu diễn tín hiệu số 2.4 Biến đổi Fourier rời rạc 2.5 Các hàm cửa sổ Hoàng Tiểu Bình – ĐH Công nghệ, ĐHQG Hà Nội 14 Áp dụng PSOLA trong tổng hợp tiếng nói tiếng Việt 15 2.1 Số hoá tín hiệu Một trong những cách phổ biến nhất để biểu diễn tiếng nói là thể hiện nó dƣới dạng sóng. Xử lý tín hiệu số đóng một một vai trò vô cùng quan trọng trong việc xử lý ngôn ngữ nói, bao gồm tín hiệu số, biến đổi miền tần số rời rạc và liên tục, các bộ lọc số, mối liên quan giữa tín hiệu số và tín hiệu tƣơng tự. Trong chƣơng này chúng ta sẽ tìm hiểu một số công thức toán học cho việc phân tích tần số, ứng dụng cho các chƣơng tiếp theo. Để xử lý tín hiệu tiếng nói, ngƣời ta biểu diễn chúng nhƣ là một hàm liên tục theo thời gian, xét một hàm xa(t) là một hàm liên tục theo thời gian, nếu chúng ta lấy mẫu tín hiệu x với chu kỳ lấy mẫu là T (ví dụ t = n.T), ta có một tín hiệu rời rạc theo thời gian x[n] = xa(nT), ta gọi là tín hiệu số. Chúng ta có thể định nghĩa một tần số lấy mẫu Fs = 1/T là giá trị nghịch đảo của chu kỳ T. Ví dụ với tần số lấy mẫu là Fs = 8kHz tƣơng ứng với chu kỳ lấy mẫu là 125 micro giây. Trong một số trƣờng hợp, ngƣời ta có thể khôi phục chính xác tín hiệu tƣơng tự xa(t) từ tín hiệu số x[n]. Hình 2.1 Tín hiệu tƣơng tự và tín hiệu số Để biểu diễn tín hiệu số, ngƣời ta dùng một công thức dạng sóng hay còn gọi là tín hiệu hình sin: Hoàng Tiểu Bình – ĐH Công nghệ, ĐHQG Hà Nội Áp dụng PSOLA trong tổng hợp tiếng nói tiếng Việt 16 x0[n] = A0cos(0n + 0) Với A0 là biên độ sóng, 0 là tần số góc và 0 là pha. Độ đo góc của hàm lƣợng giác này đƣợc tính bằng radian, do đó tần số góc 0 tƣơng ứng với tần số chuẩn f0 và 0 = 2f0 (0  f0  1). Tín hiệu này là tuần hoàn với chu kỳ T0 = 1/f0. Hình 2.2 Tín hiệu hình sin với chu kỳ lấy mẫu là 25 mẫu. 2.2 Xác định tần số lấy mẫu tín hiệu tiếng nói Định lý Shannon: Một tín hiệu tƣơng tự x(t) có dải phổ hữu hạn với giới hạn trên là Fmax(Hz) (tức là phổ bằng 0 khi f nằm ngoài dải [-Fmax,Fmax]). Ta sẽ chỉ có thể khôi phục lại xa(t) một cách chính xác từ các mẫu x(n.Ts) nếu nhƣ: Fs > 2Fmax hay Ts < 1/2Fmax Do tín hiệu tiếng nói có thể trải phổ đến 12kHz nên theo định lý Shannon, tần số lấy mẫu tối thiểu là 24kHz. Nhƣng để tiết kiệm các chi phí cho việc xử lý tín hiệu số, ngƣời ta hạn chế tín hiệu tiếng nói bằng cách sử dụng một bộ lọc nhằm làm giảm giới hạn của phổ tín hiệu nhƣng không làm giảm nhiều chất lƣợng của tiếng nói và vẫn đảm bảo đƣợc mức độ ngữ nghĩa của thông tin tiếng nói. Ngƣời ta nhận thấy rằng tín hiệu điện thoại có phổ tín hiệu ở mức 3400Hz nhƣng vẫn đảm bảo đƣợc chất lƣợng âm thanh. Trong các phƣơng pháp xử lý tín hiệu số, ngƣời ta chọn tần số lấy mẫu fe = 8000Hz. Thông thƣờng tần số này có thể biến đổi từ 6000Hz tới Hoàng Tiểu Bình – ĐH Công nghệ, ĐHQG Hà Nội Áp dụng PSOLA trong tổng hợp tiếng nói tiếng Việt 17 16000Hz. Đối với các tín hiệu âm thanh nhƣ âm nhạc, ngƣời ta thƣờng chọn tần số lấy mẫu là 48kHz để biểu diễn chính xác tín hiệu. 2.3 Biểu diễn tín hiệu số Trong phần này sẽ giới thiệu một số phƣơng pháp biểu diễn tiếng nói, những tín hiệu có nghĩa cho việc mã hóa, tổng hợp hay đoán nhận tiếng nói. Vấn đề trọng tâm là việc phân tách tín hiệu tiếng nói thông qua một bộ lọc biến đổi tuyến tính theo thời gian. Bộ lọc này đƣợc tạo ra từ các mô hình tạo tiếng nói dựa trên lý thuyết ngữ âm học, nó tạo ra các nguồn không khí thông qua dây thanh âm, và bộ lọc biểu diễn âm thanh nhƣ là các cơ quan phát âm. Mô hình bộ lọc nguồn đƣợc biểu diễn nhƣ Hình 2.3 với e[n] đƣợc gọi là nguồn hay nguồn kích, h[n] gọi là bộ lọc và x[n] là tín hiệu tiếng nói mong muốn. e[n] h[n] x[n] Hình 2.3 Mô hình bộ lọc nguồn Để thử nghiệm bộ lọc chúng ta đƣa ra các phƣơng pháp dựa trên các mô hình tạo tiếng nói (ví dụ nhƣ mã dự báo tuyến tính hoặc phƣơng pháp phân tích phổ). Mỗi khi bộ lọc đƣợc thử nghiệm, nguồn âm có thể đƣợc thu bằng cách cho tín hiệu tiếng nói đi qua một bộ lọc đảo. Việc tách nguồn và bộ lọc là một trong những thách thức lớn nhất trong việc xử lý tiếng nói. Việc phân loại âm vị (bằng tay hay bằng máy) đều phụ thuộc vào các đặc trƣng của bộ lọc. Thông thƣờng ngƣời ta bỏ qua nguồn và chỉ tập trung vào đánh giá bộ lọc. Nhiều kỹ thuật tổng hợp tiếng nói hiện nay sử dụng mô hình lọc nguồn vì nó cho phép thay đổi trƣờng độ và bộ lọc một cách linh hoạt. Nhiều bộ mã hóa tiếng nói cũng sử dụng mô hình này vì nó cho ra một tỷ lệ bit thấp. 2.4 Biến đổi Fourier rời rạc (Discrete Fourier Transform - DFT) Biến đổi Fourier rời rạc của một tín hiệu tuần hoàn xN [n] với chu kỳ N đƣợc định nghĩa nhƣ sau [2]: Hoàng Tiểu Bình – ĐH Công nghệ, ĐHQG Hà Nội Áp dụng PSOLA trong tổng hợp tiếng nói tiếng Việt N 1 X N k    xN ne  j 2nk / N 0kN n0 1 xN n  N N 1  X k e k 0 N j 2nk / N 0 n N 18 (2.1) (2.2) Trong hình 2.4 dƣới đây chúng ta xem xét một xấp xỉ của tín hiệu hình vuông tuần hoàn với chu kỳ N = 100 là tổng hợp của 19 sóng điều hòa hình sin. Tần số lấy mẫu là k = 2k/100. Ở đây chúng ta chỉ sử dụng 19 hệ số XN[k] đầu tiên cho biểu thức (2.2) 1 x N n  N ~ 18  k  18 X N k e j 2nk / N X N [0] 2 18    X N k cos(2nk / N ) N N k 1 (2.3) Hình 2.4 Tín hiệu hình vuông với chu kỳ N=100 Trong lĩnh vực xử lý số tín hiệu biến đổi Fourier chiếm vị trí hàng đầu nhờ sự tồn tại các thuật toán hiệu quả tính DFT. Để tính DFT N điểm của một dãy có chiều dài hữu hạn ta có thể viết chƣơng trình tính trực tiếp theo định nghĩa của DFT. Tuy nhiên, cách tính trực tiếp làm mất nhiều thời gian và bộ nhớ máy tính, vì phải thực hiện quá nhiều phép toán nhân và cộng (2N2 phép tính hàm lƣợng giác, 4N2 phép Hoàng Tiểu Bình – ĐH Công nghệ, ĐHQG Hà Nội Áp dụng PSOLA trong tổng hợp tiếng nói tiếng Việt 19 nhân thực, 4N(N-1) phép cộng thực) và phải lƣu nhiều dữ liệu trung gian. Các thuật toán biến đổi Fourier nhanh (FFT: Fast Fourier Transform) nhằm cố gắng làm giảm số lƣợng phép tính và sử dụng ít bộ nhớ hơn trong cách tính trực tiếp. Các thuật toán FFT chỉ cần có Nlog2N phép tính. Từ khi Cooley phát hiện ra thuật toán tính nhanh biến đổi Fourier rời rạc vào năm 1965, các thuật toán FFT ngày càng khẳng định vai trò của nó và hiện đƣợc sử dụng rất rộng rãi trong xử lý tiếng nói. Có nhiều thuật toán FFT đƣợc đề xuất, chẳng hạn thuật toán FFT cơ số 2 (Radix-2 FFT algorithms) phân thời gian, thuật toán FFT cơ số 2 phân tần số,… Trong khuôn khổ của luận văn này, tôi xin không đƣa các thuật toán này vào vì chúng khá phổ biến trong các tài liệu về xử lý tín hiệu số hiện nay. Tuy nhiên chúng ta có thể tìm hiểu thêm trong các tài liệu tham khảo của luận văn này [2]. 2.5 Các hàm cửa sổ Các hàm cửa sổ là các tín hiệu tập trung trong một khoảng thời gian (thông thƣờng là hữu hạn). Trong các hệ thống xử lý tiếng nói, các hàm Tứ giác, Hanning, Hamming thƣờng đƣợc sử dụng rộng rãi hơn các hàm nhƣ Tam giác, Kaiser, Barllet. Các hàm cửa sổ thƣờng tập trung vào các vùng tần số thấp, chúng đƣợc ứng dụng trong các bộ lọc số đã nói ở trên. Cửa sổ chữ nhật đƣợc định nghĩa đơn giản nhƣ sau: hx[n] = u[n] – u[n-N] (2.4) Cửa sổ Hamming tổng quát hóa đƣợc định nghĩa nhƣ sau: (1   )   cos(2n / N ) hh n   0  nÕu 0  n  N ng-îc l¹i (2.5) Và có thể biểu diễn biểu biểu thức này qua 2.4 nhƣ sau: hh[n] = (1-)h[n] - h[n]cos(2n/N) Biến đổi của nó sẽ là (xem [2]): Hh(ej) = (1-)H[ej] – (/2)H(ej(-2/N)) – (/2)H(ej(+2/N)) Khi  = 0.5 ngƣời ta gọi là cửa sổ Hanning, còn khi  = 0.46 gọi là cửa sổ Hamming Hoàng Tiểu Bình – ĐH Công nghệ, ĐHQG Hà Nội Áp dụng PSOLA trong tổng hợp tiếng nói tiếng Việt 3. CHƢƠNG 3: CÁC HỆ THỐNG TỔNG HỢP TIẾNG NÓI 3.1 Tổng quan về tổng hợp tiếng nói 3.2 Các phƣơng pháp tổng hợp tiếng nói 3.3 Các ứng dụng của tổng hợp tiếng nói 3.4 Lựa chọn phƣơng pháp tổng hợp Hoàng Tiểu Bình – ĐH Công nghệ, ĐHQG Hà Nội 20
- Xem thêm -