Nhận dạng tiếng nói trên cơ sở mạng nơron nhân tạo

  • Số trang: 79 |
  • Loại file: PDF |
  • Lượt xem: 31 |
  • Lượt tải: 0
nhattuvisu

Đã đăng 26946 tài liệu

Mô tả:

ĐẠI HỌC QUỐC GIA HÀ NỘI ĐẠI HỌC CÔNG NGHỆ HỒ VĂN HƯƠNG NHẬN DẠNG TIẾNG NÓI TRÊN CƠ SỞ MẠNG NƠRON NHÂN TẠO LUẬN VĂN THẠC SỸ Người hướng dẫn: PGS.TS. Nguyễn Quang Hoan Hà nội - 2005 1 MỞ ĐẦU........................................................................................................ 3 CHƯƠNG 1 ................................................................................................... 5 TỔNG QUAN VỀ TIẾNG NÓI VÀ BÀI TOÁN NHẬN DẠNG ................... 5 1.1 Lịch sử phát triển của nhận dạng tiếng nói ......................................... 5 1.2 Tổng quan về bài toán nhận dạng tiếng nói ........................................ 6 1.3 Một số hệ thống nhận dạng tiếng nói ................................................. 8 1.4 Tổng quan về tiếng nói...................................................................... 9 1.4.1 Âm thanh và tiếng nói ................................................................ 9 1.4.2 Cao độ của âm (pitch) .................................................................. 9 1.4.3 Cường độ (volume) và mức cường độ âm ................................ 10 1.4.4 Độ to của âm .......................................................................... 10 1.4.5 Âm sắc (phonetics) .................................................................... 11 1.5 Mục tiêu của đề tài ........................................................................... 11 CHƯƠNG 2 ................................................................................................. 13 TIẾNG VIỆT VÀ TRÍCH CHỌN ĐẶC TRƯNG......................................... 13 2.1 Khái quát về tiếng Việt ..................................................................... 13 Một số đặc điểm của tiếng Việt........................................................ 13 Cấu trúc âm tiết trong tiếng Việt ......................................................... 14 2.2 Đơn vị cơ bản cho các hệ thống nhận dạng tiếng Việt ........................ 15 2.2.1 Mô hình từ và âm tiết ............................................................... 15 2.2.2 Mô hình âm vị ............................................................................. 16 2.2.3 Mô hình Âm đầu và Vần ............................................................ 16 2.3 Đặc điểm âm tiết và bài toán nhận dạng ............................................. 17 Đặc điểm âm tiết tiếng Việt ................................................................ 17 2.3.2 Âm tiết với bài toán nhận dạng ................................................. 17 2.4 Trích chọn tần số đặc trưng của tiếng Việt ......................................... 18 2.4.1 Cơ chế tạo và thu nhận tiếng nói ............................................ 18 2.4.2 Các hệ số Cepstrum trên thang Mel (MFCC) ......................... 23 2.4.3 Các hệ số Cepstrum của dự đoán tuyến tính (LPCC) ........... 28 2.5 Kết luận.............................................................................................. 32 CHƯƠNG 3 TỔNG QUAN VỀ MẠNG NƠRON NHÂN TẠO ................. 33 Giới thiệu về mạng nơron ......................................................................... 33 3.1.1 Mô hình nơron sinh vật ............................................................ 35 3.2 Các mô hình mạng nơron và luật học ................................................. 39 3.3 Các ứng dụng của mạng nơron nhân tạo ............................................. 43 3.4 Kết luận.............................................................................................. 47 CHƯƠNG 4 ................................................................................................. 48 MẠNG LAN TRUYỀN NGƯỢC NHẬN DẠNG TIẾNG VIỆT ................. 48 4.1 Phương pháp lan truyền ngược ........................................................... 48 4.2 Ứng dụng mạng lan truyền ngược cho nhận dạng tiếng Việt .............. 51 Nhận dạng tiếng núi trờn cơ sở mạng nơron nhõn tạo 2 4.2.1 Mô hình nhận dạng và phân loại mẫu..................................... 51 4.2.3 Phân tích và đánh giá các tham số của hệ thống nhận dạng 64 CHƯƠNG 5 XÂY DỰNG HỆ THỐNG NHẬN DẠNG .............................. 66 5.1 Kiến trúc hệ thống ............................................................................. 66 5.2 Giao diện chương trình và cách sử dụng............................................. 72 5.3 Kết quả thực nghiệm .......................................................................... 75 5.3.1 Môi trường phát triển chương trình ...................................... 75 Kết luận và định hướng nghiên cứu ............................................................ 77 Tài liệu tham khảo ....................................................................................... 77 Nhận dạng tiếng núi trờn cơ sở mạng nơron nhõn tạo 1 MỞ ĐẦU Nhận dạng tiếng nói là mong ước của khoa học và con người. Những người máy có thể hiểu được tiếng người nói và thực thi nhiệm vụ. Hiện nay, nhận dạng tiếng nói chưa thực sự đáp ứng đầy đủ các yêu cầu thực tế, song những hệ thống nhận dạng tiếng nói đã có bước phát triển đáng kể. Trên thế giới, một số hệ thống nhận dạng tiếng nói cỡ lớn có độ chính xác tương đối cao. Các hệ thống này chủ yếu được phát triển trên nền công nghệ hiện đại với những máy tính lớn, những vi mạch xử lý tiếng nói chuyên dụng và sử dụng cơ sở dữ liệu tiếng nói khá hoàn chỉnh, nhưng phần lớn vẫn là xử lý cho tiếng Anh. Ở Việt Nam, việc tìm hiểu, nghiên cứu và phát triển các hệ thống nhận dạng tiếng nói còn đang bước đầu có kết quả. Do có những đặc thù riêng của tiếng Việt, nên việc chọn lựa phương pháp tiếp cận bài toán nhận dạng phù hợp với tiếng Việt là một vấn đề tương đối khó khăn. Những năm gần đây, cũng có khá nhiều đề tài nghiên cứu về nhận dạng tiếng nói tiếng Việt. Các hệ thống nhận dạng tiếng nói thành công nhất chủ yếu dựa trên khuynh hướng nhận dạng mẫu. Các kỹ thuật nhận dạng mẫu đơn giản như lượng tử hoá véctơ, hiệu chỉnh thời gian động…, đã được áp dụng khá thành công vào các chương trình nhận dạng tiếng nói tiếng Việt phát âm rời rạc với số lượng từ vựng hạn chế. Tuy nhiên, mục tiêu của nhận dạng tiếng nói tự động bằng máy là phải tiến tới hệ thống nhận dạng tiếng nói liên tục, kích thước từ điển lớn, không phụ thuộc vào người nói. Vì vậy, các hệ thống nhận dạng tiếng nói hiện nay thường xây dựng trên cơ sở áp dụng các kỹ thuật nhận dạng mẫu phức tạp hơn, đó là mô hình Markov ẩn và mạng nơron nhân tạo đã cho một số thành công nhất định. Xuất phát từ nhận thức trên, đề tài luận văn Thạc sỹ của em là tìm hiểu, đưa ra phương pháp và xây dựng một ứng dụng nhận dạng tiếng nói tiếng Việt. Với những khả năng của mạng nơron nhân tạo trong ứng dụng, đã cho nhiều thành công đáng Nhận dạng tiếng nói trên cơ sở mạng nơron nhân tạo 2 khích lệ. Vì vậy, em đã chọn mạng nơron làm cơ sở cho việc nghiên cứu nhận dạng tiếng nói tiếng Việt. Nội dung luận văn gồm 5 chương như sau:  Chƣơng 1: Tìm hiểu lịch sử việc nghiên cứu nhận dạng tiếng nói, tổng quan về tiếng nói và nhận dạng tiếng nói.  Chƣơng 2: Trình bày một số tính chất của tiếng nói như: cơ chế tạo ra tiếng nói, cơ chế thu tiếng nói, các đặc trưng tiếng nói. Ngoài ra, chương này cũng đề cập đến kỹ thuật tính hệ số MFCC, là một phương pháp trích chọn đặc trưng tín hiệu tiếng nói khá phổ biến đã được áp dụng hiệu quả trong các hệ thống nhận dạng.  Chƣơng 3: Tìm hiểu tổng quan về mạng nơron, những khái niệm, cấu trúc, các luật học. Chương này cũng đề cập đến những ứng dụng của mạng nơron trong nhận dạng và phân lớp.  Chƣơng 4: Nghiên cứu về mạng nơron lan truyền ngược gồm: cấu trúc, phương pháp huấn luyện mạng. Chương này cũng đề cập đến cấu trúc cụ thể của mạng áp dụng cho bài toán nhận dạng tiếng nói tiếng Việt và đồng thời đánh giá các tham số của hệ thống nhận dạng.  Chƣơng 5: Xây dựng hệ thống nhận dạng, giao diện chương trình, các kết quả thực nghiệm. Cuối cùng là kết luận và định hƣớng phát triển của đề tài. Nhận dạng tiếng nói trên cơ sở mạng nơron nhân tạo 3 CHƢƠNG 1 TỔNG QUAN VỀ TIẾNG NÓI VÀ BÀI TOÁN NHẬN DẠNG 1.1 Lịch sử phát triển của nhận dạng tiếng nói Nhận dạng tiếng nói tự động đã phát triển khoảng 40 năm nay. Những nhân tố quan trọng giúp cho sự phát triển của công nghệ nhận dạng này có thể kể đến như sự phát triển của hệ thống phân tích phổ âm thanh (năm 1946) cho phép thể hiện trực quan các tín hiệu âm, lý thuyết tạo âm thanh tiếng nói của người (năm 1948), sự xuất hiện và phát triển mạnh mẽ của các hệ thống máy tính số thương mại đầu tiên trên thế giới (năm 1958). Các hệ thống nhận dạng đầu tiên có khả năng nhận dạng từ rời rạc và phụ thuộc người nói. Để phân tích và nhận dạng các chữ số hoặc các từ đơn âm sử dụng đặc tính trong miền thời gian và các ngân hàng bộ lọc tương tự. Tương tự như vậy, với phương pháp âm học, hệ thống nhận dạng âm vị phụ thuộc người nói và không phụ thuộc người nói được thiết kế mặc dù mới cho được kết quả rất khiêm tốn. Trong thập kỷ 70, với sự phát triển của các thuật toán phân tích tín hiệu như mô hình dự đoán tuyến tính, so sánh mẫu theo thời gian…công nghệ nhận dạng tiếng nói tiếp tục có những bước phát triển mạnh mẽ. Với các phương pháp này những hệ thống nhận dạng với số lượng từ khá lớn được thiết kế. Trong những năm 60 của thế kỷ 20, nhiều phòng thí nghiệm của nhiều hãng lớn đã được đầu tư nghiên cứu phát triển các hệ thống nhận dạng tiếng nói các ngôn ngữ khác nhau. Đến đầu những năm 80, khả năng về kỹ thuật đã cho phép các nhà nghiên cứu xây dựng các hệ thống nhận dạng được hàng trăm từ rời rạc. Gần đây công nghệ nhận dạng đã có những bước phát triển vô cùng nhanh chóng. 1.2 Tổng quan về bài toán nhận dạng tiếng nói Nhận dạng tiếng nói là làm cho máy hiểu, nhận biết được ngữ nghĩa của lời nói. Đây là quá trình biến đổi tín hiệu âm thanh thu được qua micro, qua các thiết bị Nhận dạng tiếng nói trên cơ sở mạng nơron nhân tạo 4 thu thanh khác… thành một chuổi các từ, sau đó được nhận dạng để sử dụng trong các ứng dụng điều khiển thiết bị, nhập dữ liệu hoặc soạn thảo văn bản bằng lời… hoặc đưa đến một quá trình xử lý ngôn ngữ ở mức cao hơn. Tiếng nói là công cụ truyền đạt thông tin quan trọng của người. Bình thường, chúng ta không để ý quá trình nhận dạng tiếng nói diễn ra như thế nào? tại sao chúng ta hiểu được các từ, các câu một cách đơn giản như vậy? Trên thực tế, quá trình nhận dạng tiếng nói của người là một quá trình phức tạp. Hiện nay, các nhà nghiên cứu cố gắng tìm hiểu, phân tích và mô phỏng quá trình nhận dạng tiếng nói của người dưới dạng các chương trình máy tính. Nhưng đây là vấn đề rất rộng, có liên quan tới nhiều ngành nghiên cứu như sinh học, hoá học, vật lý ... Do vậy, việc mô phỏng tiếng nói cũng gặp nhiều khó khăn. Chúng ta có thể thấy được một cách trực quan bài toán nhận dạng tiếng nói qua hình 1.1. Hình 1.1 Mô hình nhận dạng tiếng nói Nhận dạng tiếng nói là quá trình phức tạp bao gồm nhiều khâu biến đổi. Tín hiệu mà người phát ra là tín hiệu tuơng tự, qua quá trình lấy mẫu, lượng tử hoá và mã hoá để thu được các mẫu tín hiệu dạng số (tín hiệu mà máy tính có thể hiểu và xử lý được). Các mẫu tín hiệu này được trích chọn đặc trưng. Những đặc trưng này sẽ là đầu vào cho quá trình nhận dạng. Sau khi nhận dạng tín hiệu người dùng phát âm, hệ thống sẽ đưa ra kết quả nhận dạng. Tuỳ thuộc vào mô hình ứng dụng mà cho chúng ta các dạng đầu ra khác nhau. Nhận dạng tiếng nói trên cơ sở mạng nơron nhân tạo 5 Do tính chất của tiếng nói phụ thuộc vào nhiều yếu tố nên việc thu nhận, phân tích các đặc trưng của tiếng nói là việc không dễ. Ở đây, chúng ta có thể nêu ra một số yếu tố khó khăn cho bài toán nhận dạng tiếng nói:  Khi phát âm, người nói thường nói nhanh, chậm khác nhau.  Các từ được nói thường dài ngắn khác nhau.  Một người cùng nói một từ, nhưng ở hai lần phát âm khác nhau. Kết quả phân tích khác nhau.  Mỗi người có một chất giọng riêng được thể hiện thông qua độ cao, độ to, cường độ của âm và âm sắc.  Những yếu tố như nhiễu của môi trường, nhiễu của thiết bị thu…ảnh hưởng không nhỏ tới hiệu quả nhận dạng. Có thể thấy nhận dạng tiếng nói là một lĩnh vực nghiên cứu có nhiều ứng dụng trong thực tế. Các hệ thống nhận dạng góp phần rất lớn trong việc thúc đẩy phát triển nhiều ngành. Tuy là lĩnh vực mang ý nghĩa to lớn đó, nhưng việc phát triển các hệ thống nhận dạng cũng gặp không ít những khó khăn, nhất là ở Việt Nam khi các kết quả nghiên cứu về nhận dạng tiếng Việt chưa nhiều, cũng như cơ sở hạ tầng cho việc nghiên cứu còn ít. 1.3 Một số hệ thống nhận dạng tiếng nói Nhận dạng tiếng nói là vấn đề đã được chia thành hai nhóm riêng biệt dựa trên mục đích sử dụng khác nhau.  Một nhóm được sử dụng với mục đích điều khiển thiết bị thông qua giọng nói.  Một nhóm sử dụng nhằm xử lý từ tiếng nói sang văn bản. Phân loại các hệ thống nhận dạng tiếng nói sẽ giúp chúng ta có một cái nhìn trực quan hơn về bài toán. Các hệ thống nhận dạng được phân loại như hình vẽ 1.2. Có 3 phương pháp phổ biến được sử dụng trong nhận dạng tiếng nói [10]:  Phương pháp âm học - ngữ âm học. Nhận dạng tiếng nói trên cơ sở mạng nơron nhân tạo 6  Phương pháp nhận dạng mẫu.  Phương pháp sử dụng các kết quả của lĩnh vực trí tuệ nhân tạo. Hình 1.2 Sơ đồ phân loại các hệ thống nhận dạng tiếng nói 1.4 Tổng quan về tiếng nói 1.4.1 Âm thanh và tiếng nói Âm thanh thực chất là sự nén và dản một cách tuần hoàn không khí, tạo ra một sóng đàn hồi dọc. Sóng trong không khí truyền đến tai, tác động vào màng nhĩ, làm cho màng nhĩ dao động với cùng tần số (dao động cưỡng bức), có khả năng tạo ra cảm giác âm thanh trong tai khi tần số sóng đạt tới một độ lớn nhất định. Tai người chỉ có thể cảm nhận được âm thanh trong một khoảng tần số từ 20Hz đến 20000Hz. Những sóng này gọi là sóng âm hay âm thanh. Tiếng nói là âm thanh do người phát ra. Khi phát âm, nguồn không khí từ phổi sẽ kích hoạt bộ phát âm làm căng các dây thanh quản và khi không khí đi qua làm cho các dây thanh quản này dao động tạo nên âm thanh tiếng nói. Tiếng nói của người có năng lượng tập trung nằm trong khoảng tần số từ 1000Hz đến 4000Hz. Nhận dạng tiếng nói trên cơ sở mạng nơron nhân tạo 7 1.4.2 Cao độ của âm (pitch) Cao độ của âm thanh là độ cao hay thấp của âm thanh được quyết định bởi sự rung dây thanh. Dây thanh rung với tần số nhanh sẽ cho những âm cao, dây thanh rung chậm sẽ cho những âm thấp. Đơn vị đo cao độ ở đây được dùng là Hz, đo số chu kỳ dao động thực hiện được trong 1 giây, gọi là tần số. Những âm có tần số khác nhau gây cho ta những cảm giác âm khác nhau. Độ cao của âm mang đặc tính sinh lý của âm. Nó dựa vào đặc tính của âm là tần số. Do cấu tạo của dây thanh khác nhau, mà tần số tạo ra phụ thuộc vào giới tính và lứa tuổi của người phát âm (phụ nữ và trẻ em thường có tần số cao hơn nam giới và người lớn tuổi). 1.4.3 Cƣờng độ (volume) và mức cƣờng độ âm Cũng như các sóng cơ học khác, sóng âm mang năng lượng tỷ lệ với bình phương biên độ sóng. Năng lượng đó truyền đi từ nguồn âm đến tai ta. Cường độ âm (I): là lượng năng lượng được sóng âm truyền trong một đơn vị thời gian qua một đơn vị diện tích đặt vuông góc với phương truyền âm, đơn vị đo là (W/m2). Đối với tai người, giá trị tuyệt đối của cường độ âm I không quan trọng bằng giá trị tỷ số của I so với một giá trị Io nào đó được chọn làm chuẩn. Người ta định nghĩa mức cường độ âm L là logarith thập phân của tỉ số I/Io: L(B) = lg(I/Io) hoặc L(dB) = 10lg(I/Io) với 1B = 10dB (1.1) Thực tế, người ta thường dùng đơn vị dB (deciben) hơn là B (ben). Khi L = 1dB, thì I/Io = 101/10. Đây là mức cường độ nhỏ nhất mà tai ta có thể phân biệt được. 1.4.4 Độ to của âm Muốn gây cảm giác âm, cường độ âm phải lớn hơn một giá trị cực tiểu nào đó gọi là ngưỡng nghe. Do đặc điễm sinh lý của tai người, ngưỡng nghe thay đổi tùy Nhận dạng tiếng nói trên cơ sở mạng nơron nhân tạo 8 theo tần số âm. Với các tần số 1000Hz - 5000Hz, ngưỡng nghe khoãng 10-12W/m2. Với tần số 50Hz, ngưỡng nghe lớn gấp 105 lần. Nếu cường độ âm lên tới 10W/m2 thì sóng âm gây ra một cảm giác nhức nhối. Giá trị cực đại này gọi là ngưỡng đau. Miền nằm giữa ngưỡng đau và ngưỡng nghe gọi là miền nghe được. Khi xác định cường độ âm, người ta lấy Io là ngưỡng nghe của âm có tần số 1000Hz gọi là tần số âm chuẩn. Tai người nghe thính nhất với các âm trong miền tần số 1000Hz - 4000Hz, và nghe âm cao thính hơn nghe âm trầm. 1.4.5 Âm sắc (phonetics) Âm sắc là sắc thái của âm thanh. Hầu hết các âm thanh trong tự nhiên cũng như âm thanh trong lời nói đều phức hợp, được tạo thành từ các âm cơ bản, các họa âm bậc cao về cao độ và cường độ. Âm sắc là một đặc tính sinh lý của âm, được hình thành trên cơ sở các đặc tính vật lý của âm là tần số và biên độ. Thực nghiệm chứng tỏ rằng khi một nhạc cụ hoặc một người phát ra một âm có tần số f1 thì đồng thời cũng phát ra các âm có tần số f2 = 2f1; f3 = 3f1; f4 = 4f1 … Âm có tần số f1 gọi là âm cơ bản (hay họa âm thứ nhất), các âm có tần số f2, f3, f4… gọi là các hoạ âm thứ hai, thứ ba, thứ tư… Tùy theo cấu trúc từng loại nhạc cụ, hoặc cấu trúc khoang miệng và cổ họng từng người mà trong số các hòa âm cái nào có biên độ lớn, biên độ nhỏ và cái nào chóng bị tắt đi. Do hiện tượng đó, âm phát ra không còn là đường sin, mà trở thành một đường phức tạp có chu kỳ. Sự tương quan giữa âm cơ bản và các hoạ âm mà tạo nên âm sắc khác nhau. Sự khác nhau về âm sắc là do sự phân bố vị trí môi, lưỡi, vòm miệng của từng người. 1.5 Mục tiêu của đề tài Cho đến nay, các hệ thống nhận dạng tiếng nói tiếng Việt khá thành công chủ yếu là dựa trên khuynh hướng nhận dạng mẫu đơn giản. Trong khi đó, phương pháp Nhận dạng tiếng nói trên cơ sở mạng nơron nhân tạo 9 sử dụng trí tuệ nhân tạo vào nhận dạng tiếng nói còn chưa nhiều, mặc dù mạng nơron là một công cụ rất mạnh và hứa hẹn nhiều ứng dụng mới. Đặc biệt là ở Việt Nam, việc áp dụng mạng nơron vào các lĩnh vực ứng dụng là rất ít và mới chỉ cho những kết quả ban đầu. Vì vậy, mục tiêu của đề tài là thử nghiệm mạng nơron lan truyền ngược để nhận dạng mười từ số đếm tiếng Việt từ: không đến chín. Cụ thể là:  Thiết kế mạng nơron lan truyền ngược để nhận dạng các từ tiếng Việt đơn âm tiết là số đếm và phân tích các tham số của mạng.  Thử nghiệm nhận dạng với một số người nói. Nhận dạng tiếng nói trên cơ sở mạng nơron nhân tạo 10 CHƢƠNG 2 TIẾNG VIỆT VÀ TRÍCH CHỌN ĐẶC TRƢNG 2.1 Khái quát về tiếng Việt 2.1.1 Một số đặc điểm của tiếng Việt Tiếng Việt là loại hình ngôn ngữ đơn lập (ngôn ngữ không biến hình), tức là mỗi một tiếng (âm tiết) được phát âm tách rời nhau, thể hiện bằng một chữ viết và có thanh điệu [1]. Đặc điểm này được thể hiện rõ rệt ở tất cả các ngữ âm, từ vựng và ngữ pháp. Trong tiếng Việt có một loại đơn vị đặc biệt được gọi là “tiếng”. Về mặt ngữ âm, mỗi tiếng là một âm tiết. Tiếng Việt là tiếng đơn âm có ranh giới cố định, mang thanh điệu, có cấu trúc đơn giản, có âm tiết trùng với hình vị, đơn vị nhỏ nhất có tổ chức mang ý nghĩa ngữ pháp. Tiếng Việt có số lượng âm tiết hữu hạn, khoảng 6.900 âm tiết tồn tại thực. Âm tiết, hình vị trong tiếng Việt là cố định, không biến đổi hình thái theo ngữ pháp, và theo thì. Từ thường có hai loại đơn tiết và đa tiết. Một phần từ đa tiết là từ Hán Việt. Trong các từ đa tiết thường có dạng láy âm hoặc ghép các từ đơn âm tiết. Âm tiếng Việt có cấu trúc chặt chẽ so với các loại âm của các ngôn ngữ khác. Tiếng Việt có 6 thanh điệu là: huyền (- falling), sắc ( rising), hỏi (? curve), ngã ( broken), nặng (. drop) và không dấu. Mỗi thanh đều có thể tham gia vào việc cấu tạo từ và tạo nghĩa cho từ. Thanh điệu tiếng Việt có tính nhạc, câu văn có vần, nhịp điệu, trầm bổng nhịp nhàng. Mỗi âm tiết đều mang thanh điệu nhất định. Thanh điệu kết hợp với thành phần của âm tiết tạo thành các từ khác nhau, ví dụ như: ba, bà, bá, bả, bã, bạ. Trong tiếng Việt không phải vần nào cũng phát âm đủ được sáu thanh. Đối với âm tiết đóng chỉ có hai thanh sắc và nặng. Âm tiết tiếng Việt thường bao gồm 3 thành phần có mức độ độc lập khác nhau là âm đầu (phụ âm), âm chính (nguyên âm hoặc nguyên âm đôi) và âm cuối (phụ âm đơn hoặc bán nguyên âm). Trong đó nguyên âm và thanh điệu là hạt nhân của âm tiết. Trừ phụ âm đầu, phần còn lại của âm tiết tiếng Việt gọi là vần. Tiếng Việt có Nhận dạng tiếng nói trên cơ sở mạng nơron nhân tạo 11 khoảng 512 vần. Vần và thanh tạo nên sự hài hoà về ngữ âm và ngữ nghĩa trong các từ tượng hình, tượng thanh. Từ đa tiết chiếm phần lớn trong tổng số từ tiếng Việt. Từ ghép đa tiết được chia ra thành các loại:  Từ ghép nghĩa  Từ láy  Từ ghép tự do  Các từ vay mượn nước ngoài Vốn từ vựng tiếng Việt bao gồm các từ, thành ngữ, thuật ngữ. Một bộ phận từ tiếng Việt có gốc Hán. Ngoài ra, còn một số ít gốc Pháp, Anh: (Gác-ba-ga, Pê-đan). Phương tiện biểu hiện ý nghĩa ngữ pháp trong tiếng Việt là trật tự các thành tố (từ và câu), ngữ điệu, dạng láy, ngữ cảnh. Từ và cụm từ là đơn vị cấu tạo nên câu. Giữa nói và viết tiếng Việt không cách xa nhau về quy tắc ngữ âm, ngữ pháp. 2.1.2 Cấu trúc âm tiết trong tiếng Việt Âm tiết tiếng Việt ở dạng đầy đủ được tạo bởi 5 thành phần đó là: phụ âm đầu, âm đệm (bán nguyên âm), âm chính (nguyên âm hoặc nguyên âm đôi), âm cuối (phụ âm đơn hoặc bán nguyên âm) và thanh điệu (hình 2.1). Về cấu trúc, âm tiết tiếng Việt có cấu trúc hai bậc. Bậc một gồm ba thành phần là thanh điệu, phụ âm đầu và vần. Bậc hai là các thành tố của phần vần gồm âm đệm là bán nguyên âm, nguyên âm chính và phụ âm hoặc bán nguyên âm cuối. Thanh điệu Âm đầu Vần Âm đệm Âm chính Âm cuối Hình 2.1 Sơ đồ âm tiết tiếng Việt Một âm tiết trong tiếng Việt có thể theo 4 kiểu khác nhau sau [1]:  Một mình nguyên âm  Nguyên âm + phụ âm Nhận dạng tiếng nói trên cơ sở mạng nơron nhân tạo 12  Phụ âm + nguyên âm  Phụ âm + nguyên âm + phụ âm trong lược đồ âm tiết "Phụ âm + nguyên âm + phụ âm" thì phụ âm đầu, cuối có thể vắng còn nguyên âm bao giờ cũng có mặt. 2.2 Đơn vị cơ bản cho các hệ thống nhận dạng tiếng Việt 2.2.1 Mô hình từ và âm tiết Việc lựa chọn từ làm đơn vị nhận dạng là phương pháp thông thường và dễ dàng nhất, nó bao trùm được tính biến thể âm vị. Đối với một số ứng dụng nhận dạng tiếng nói cần số lượng từ không lớn như hệ thống điều khiển học, đếm số ... có thể áp dụng tốt mô hình từ để nhận dạng do dễ dàng thu thập đủ số mẫu huấn luyện cho mỗi từ (hình 2.2). Hình 2.2 Vốn từ trung bình theo các ứng dụng Trong nhiều ngôn ngữ, từ là đơn vị nhỏ nhất của tiếng nói và từ là mục tiêu của các hệ thống nhận dạng tiếng nói. Trong tiếng Việt, âm tiết là đơn vị âm thanh nhỏ nhất và như vậy âm tiết là mục tiêu của các hệ thống nhận dạng tiếng Việt. Do Nhận dạng tiếng nói trên cơ sở mạng nơron nhân tạo 13 trong tiếng Việt có trên 6900 âm tiết nên rất khó áp dụng nhận dạng vì việc thu thập mẫu quá lớn và thời gian xử lý lâu. Ngoài ra, mỗi mẫu huấn luyện của một âm tiết chỉ có thể dùng để huấn luyện chính âm tiết đó mà không thể sử dụng chúng để huấn luyện âm tiết khác. Song bù lại, phương pháp này có nhiều đơn giản do không phải sử dụng một số các phương pháp để phân đoạn gán nhãn. 2.2.2 Mô hình âm vị Nhằm giảm bớt số lượng mẫu huấn luyện, nhận dạng và để sử dụng chung các mẫu này, mô hình âm vị thường được sử dụng làm đơn vị để nhận dạng cơ bản cho các hệ thống nhận dạng tiếng nói. Trong tiếng Việt có khoảng 40 âm vị trong đó có 22 phụ âm, 16 nguyên âm đơn và đôi và 2 bán nguyên âm, khi kết hợp với thanh điệu (huyền, sắc, hỏi, ngã, nặng và không dấu) thì tổng cộng có 40 x 6 = 240 âm vị có thanh điệu [1]. Với số lượng âm vị hạn chế như vậy, hoàn toàn có thể xây dựng một mô hình nhận dạng tiếng Việt với từ điển cỡ lớn không hạn chế khoảng 1500 đến 2000 câu huấn luyện. Một đặc điểm nữa là, các từ trong tiếng Việt có số lượng âm vị rất ít, nhiều nhất cũng chỉ là 7 (ví dụ: nghiêng). Tuy nhiên, mô hình âm vị có một số nhược điểm chính:  Các âm vị như nhau ở các vị trí khác nhau không hẳn đã có những đặc tính âm học, ngữ âm học giống nhau. Một số âm vị vừa đóng vai trò âm chính, vừa đóng vai trò âm phụ.  Âm vị là đơn vị nhỏ nhất của một từ, việc xác định ranh giới của các âm vị rất khó khăn, do đó việc phân đoạn, gán nhãn chính xác ở mức âm vị rất khó, nhưng lại rất quan trọng và ảnh hưởng nhiều tới chất lượng hệ thống. 2.2.3 Mô hình Âm đầu và Vần Tiếng Việt là ngôn ngữ đơn âm tiết. Âm tiết tuy được phát âm liền nhưng lại có cấu tạo lắp ghép và hầu như theo một quy luật nhất định. Mỗi từ trong tiếng Việt có 3 bộ phận chính thanh điệu, âm đầu và vần. Âm đầu có một âm vị tham gia cấu tạo, vần được cấu tạo bởi âm đệm, âm chính và âm cuối. Tiếng Việt có 22 âm đầu Nhận dạng tiếng nói trên cơ sở mạng nơron nhân tạo 14 và khoảng 155 vần [6]. Kết hợp với thanh điệu thì tổng số âm đầu và vần có thanh điệu nhỏ hơn (22+155)*6 = 1062. Vì có nhiều âm đầu, vần và thanh điệu không thể kết hợp với nhau. Mô hình âm đầu và vần cho phép giảm bớt nhiều khó khăn cho việc phân đoạn, gán nhãn và yêu cầu tính toán của máy tính. 2.3 Đặc điểm âm tiết và bài toán nhận dạng Âm tiết tiếng Việt có nhiều đặc điểm khác với một số ngôn ngữ khác. Đây là đặc điểm mà luận văn này quan tâm khi phân tích âm tiết tiếng Việt. 2.3.1 Đặc điểm âm tiết tiếng Việt Trong tiếng Việt ranh giới âm tiết trùng với ranh giới hình vị [1]. Đây là đặc điểm quan trọng đã được chú ý khi tiến hành trích chọn các đặc trưng của âm tiết. Chúng ta sẽ phân tích một phát ngôn. Phát ngôn sau trong bài thơ của Bác Hồ: “Tiến lên toàn thắng sẽ về ta”  Xét trên bình diện thứ nhất, bằng cách đối chiếu với các phát ngôn khác, như: "năm qua thắng lợi vẻ vang", người ta có thể phân tích ra các đơn vị có ý nghĩa nhỏ nhất, đơn vị đó là hình vị. Trong hai phát ngôn đó sẽ có số hình vị khác nhau: “Tiến / lên / toàn / thắng / sẽ / về / ta”  có 7 hình vị. "năm / qua / thắng / lợi / vẻ / vang"  có 6 hình vị. Hình vị có hình thức cấu tạo một âm tiết, tức là mỗi hình vị trùng với âm tiết. Trên chữ viết mỗi hình vị được viết thành một chữ.  Hai phát ngôn trên nếu được phân tích theo phương diện thứ hai bằng cách căn cứ vào trọng âm, vào luồng hơi thở khi phát âm và đi tới các đơn vị phát âm nhỏ nhất, tức là âm tiết, thì ta thu được 7 và 6 âm tiết. Như vậy, ta có thêr thấy số lượng âm tiết và số lượng hình vị bằng nhau và ranh giới của chúng trùng nhau. Mỗi âm tiết là một hình thức biểu đạt hình vị. Trong một số ngôn ngữ khác, mỗi âm tiết có thể nhiều hơn một hình vị. Nhận dạng tiếng nói trên cơ sở mạng nơron nhân tạo 15 2.3.2 Âm tiết với bài toán nhận dạng Từ những đặc điểm của âm tiết như phân tích ở trên cho ta một số kết luận khi chọn mô hình âm tiết cho bài toán nhận dạng:  Âm tiết tiếng Việt có ranh giới trùng với ranh giới hình vị, do vậy khi đọc một câu vào luôn tìm thấy ranh giới giữa các âm tiết.  Mỗi âm tiết là một cách biểu diễn một hình vị xác định, không gây ra sự trùng lặp dẫn tới không phân biệt được ý nghĩa. Tuy nhiên, khi chọn mô hình âm tiết cũng gặp một khó khăn là số lượng âm tiết tiếng Việt rất nhiều như vậy hạn chế khả năng nhận dạng của hệ thống. 2.4 Trích chọn tần số đặc trƣng của tiếng Việt 2.4.1 Cơ chế tạo và thu nhận tiếng nói Quá trình tạo tiếng nói bắt đầu khi người nói định ra một thông điệp trong ý nghĩ và muốn chuyển thông điệp đó cho người nghe thông qua tiếng nói. Thông điệp này phải được chuyển đỗi sang một mã ngôn ngữ nào đó, sau đó người nói phải thực hiện một chuổi các lệnh thông qua các dây thần kinh để điều khiển đôi dây thanh rung khi cần thiết và định hình tuyến âm sao cho chuỗi âm thanh phát ra chính xác. Các lệnh này phải đồng thời điều khiển các cơ quan liên quan đến quá trình phát âm khác như: lưỡi, môi, hàm, vòm miệng mềm… Quá trình cảm thụ tiếng nói bắt đầu ngay sau khi tín hiệu tiếng nói được tạo ra và lan truyền đến người nghe thông qua sự thay đổi áp suất của không khí. Trước tiên, sóng âm học tác động vào màng nhĩ ở tai trong, các tín hiệu này được phân tích tạo ra các tín hiệu tác động lên các dây thần kinh thính giác. Sau đó, các tín hiệu thần kinh được chuyển thành một mã ngôn ngữ nào đó nhờ các trung tâm xử lý cao hơn ở trong não. Cuối cùng, thông điệp được người nghe cảm thụ. Quá trình tạo và cảm thụ tiếng nói của người được minh hoạ trong hình 2.3 Nhận dạng tiếng nói trên cơ sở mạng nơron nhân tạo 16 Định hình thông địêp (Message Formulation) Mã ngôn ngữ (Language Code) Điều khiển cơ thần kinh (Nero-Mascular Controls) Hệ thống tuyến âm (Vocal Tract System) Tạo tiếng nói Cảm thụ tiếng nói Cảm thụ thông địêp (Message Understanding) Giãi mã ngôn ngữ (Language Translation) Tín hiệu thần kinh (Neural Transduction) Sóng âm học (Acoustic Waveform) Màng nhĩ rung (Bisilar Membrance Motion) Hình 2.3. Quá trình tạo và cảm thụ tiếng nói 2.4.1.1 Cơ chế tạo tiếng nói Trước khi nghiên cứu chi tiết vấn đề nhận dạng tiếng nói, ta cần hiểu rõ về quá trình tạo và cảm thụ tiếng nói của con người. Những hiểu biết này là cơ sở cho việc xây dựng các phần mềm nhận dạng tiếng nói tự động bởi máy tính. Hình 2.4 trình bày cấu tạo của cơ quan phát âm. Hình 2.4 Cấu tạo bộ phận phát âm của người Nhận dạng tiếng nói trên cơ sở mạng nơron nhân tạo 17 Tuyến âm (vocal tract) bắt đầu từ dây thanh (vocal cords) và kết thúc ở môi. Tuyến âm bao gồm họng và khoang miệng hoặc khoang mũi. Thiết diện vùng giao nhau của tuyến âm, bao gồm vị trí lưỡi, môi, hàm và vòm miệng thay đổi từ 0 (khi ngậm môi) đến khoảng 20cm2 (Khi môi hở). Tuyến mũi bắt đầu từ vòm miệng (velum) và kết thúc ở lỗ mũi. Khi mà vòm miệng hạ xuống thì khoang miệng bị cắt và khoang mũi được thông tạo nên âm mũi. Phần cung cấp năng lượng cho việc tạo ra tiếng nói bao gồm: phổi, khí quản. Khi phát âm, lồng ngực sẽ được mở rộng và thu hẹp lại để luồng không khí được đẩy lên từ phổi vào khí quản đi qua thanh môn, ở đây không khí có thể bị thay đổi sau đó tiếp tục được chuyển lên tuyến âm và bức xạ tại môi. Âm thanh tiếng nói được chia làm 3 loại phân biệt tuỳ thuộc vào cách kích thích [1]: âm hữu thanh, vô thanh và âm bật.  Âm hữu thanh (Voiced sound): được tạo ra bởi việc đẩy không khí qua thanh môn với một độ căng của dây thanh sao cho chúng tạo nên dao động. Vì vậy, nó tạo ra những xung gần như có chu kỳ kích thích tuyến âm. Ví dụ các nguyên âm: a, i, o …  Âm vô thanh (Unvoiced sound): được tạo nên bởi sự co thắt ở một số điểm nào đó trong tuyến âm, và đẩy không khí qua các điểm co thắt này với một gia tốc đủ lớn để tạo nên sự nhiễu loạn. Ví dụ s trong sông núi…  Âm bật (Plosive sound): là kết quả từ việc đóng hoàn toàn, tạo nên một áp suất, và thả đột ngột. Tiếng nói là sóng âm được phát ra từ hệ thống này khi mà luồng không khí bật ra từ phổi và bị xáo trộn bởi sự co thắt đâu đó trong tuyến âm. Tuyến âm là một ống có tiết diện không đều. Âm thanh lan truyền dọc theo ống, phổ tần số được tạo thành bởi sự chọn lọc tần số của ống. Hiệu ứng này rất giống hiện tượng cộng hưởng của cây sáo hoặc dụng cụ âm nhạc truyền thống. Các tần số cộng hưởng của tuyến âm được gọi là tần số Formant hay đơn giản là các Formant. Các Formant này phụ thuộc vào hình dạng và kích thước của tuyến âm. Mỗi hình dạng được đặc trưng bởi một tập các Formant. Các âm thanh khác nhau Nhận dạng tiếng nói trên cơ sở mạng nơron nhân tạo
- Xem thêm -