ĐẠI HỌC QUỐC GIA HÀ NỘI
ĐẠI HỌC CÔNG NGHỆ
HỒ VĂN HƯƠNG
NHẬN DẠNG TIẾNG NÓI TRÊN CƠ SỞ MẠNG
NƠRON NHÂN TẠO
LUẬN VĂN THẠC SỸ
Người hướng dẫn: PGS.TS. Nguyễn Quang Hoan
Hà nội - 2005
1
MỞ ĐẦU........................................................................................................ 3
CHƯƠNG 1 ................................................................................................... 5
TỔNG QUAN VỀ TIẾNG NÓI VÀ BÀI TOÁN NHẬN DẠNG ................... 5
1.1 Lịch sử phát triển của nhận dạng tiếng nói ......................................... 5
1.2 Tổng quan về bài toán nhận dạng tiếng nói ........................................ 6
1.3 Một số hệ thống nhận dạng tiếng nói ................................................. 8
1.4 Tổng quan về tiếng nói...................................................................... 9
1.4.1 Âm thanh và tiếng nói ................................................................ 9
1.4.2 Cao độ của âm (pitch) .................................................................. 9
1.4.3 Cường độ (volume) và mức cường độ âm ................................ 10
1.4.4
Độ to của âm .......................................................................... 10
1.4.5 Âm sắc (phonetics) .................................................................... 11
1.5 Mục tiêu của đề tài ........................................................................... 11
CHƯƠNG 2 ................................................................................................. 13
TIẾNG VIỆT VÀ TRÍCH CHỌN ĐẶC TRƯNG......................................... 13
2.1 Khái quát về tiếng Việt ..................................................................... 13
Một số đặc điểm của tiếng Việt........................................................ 13
Cấu trúc âm tiết trong tiếng Việt ......................................................... 14
2.2 Đơn vị cơ bản cho các hệ thống nhận dạng tiếng Việt ........................ 15
2.2.1 Mô hình từ và âm tiết ............................................................... 15
2.2.2 Mô hình âm vị ............................................................................. 16
2.2.3 Mô hình Âm đầu và Vần ............................................................ 16
2.3 Đặc điểm âm tiết và bài toán nhận dạng ............................................. 17
Đặc điểm âm tiết tiếng Việt ................................................................ 17
2.3.2 Âm tiết với bài toán nhận dạng ................................................. 17
2.4 Trích chọn tần số đặc trưng của tiếng Việt ......................................... 18
2.4.1 Cơ chế tạo và thu nhận tiếng nói ............................................ 18
2.4.2 Các hệ số Cepstrum trên thang Mel (MFCC) ......................... 23
2.4.3 Các hệ số Cepstrum của dự đoán tuyến tính (LPCC) ........... 28
2.5 Kết luận.............................................................................................. 32
CHƯƠNG 3 TỔNG QUAN VỀ MẠNG NƠRON NHÂN TẠO ................. 33
Giới thiệu về mạng nơron ......................................................................... 33
3.1.1 Mô hình nơron sinh vật ............................................................ 35
3.2 Các mô hình mạng nơron và luật học ................................................. 39
3.3 Các ứng dụng của mạng nơron nhân tạo ............................................. 43
3.4 Kết luận.............................................................................................. 47
CHƯƠNG 4 ................................................................................................. 48
MẠNG LAN TRUYỀN NGƯỢC NHẬN DẠNG TIẾNG VIỆT ................. 48
4.1 Phương pháp lan truyền ngược ........................................................... 48
4.2 Ứng dụng mạng lan truyền ngược cho nhận dạng tiếng Việt .............. 51
Nhận dạng tiếng núi trờn cơ sở mạng nơron nhõn tạo
2
4.2.1 Mô hình nhận dạng và phân loại mẫu..................................... 51
4.2.3 Phân tích và đánh giá các tham số của hệ thống nhận dạng 64
CHƯƠNG 5 XÂY DỰNG HỆ THỐNG NHẬN DẠNG .............................. 66
5.1 Kiến trúc hệ thống ............................................................................. 66
5.2 Giao diện chương trình và cách sử dụng............................................. 72
5.3 Kết quả thực nghiệm .......................................................................... 75
5.3.1 Môi trường phát triển chương trình ...................................... 75
Kết luận và định hướng nghiên cứu ............................................................ 77
Tài liệu tham khảo ....................................................................................... 77
Nhận dạng tiếng núi trờn cơ sở mạng nơron nhõn tạo
1
MỞ ĐẦU
Nhận dạng tiếng nói là mong ước của khoa học và con người. Những người
máy có thể hiểu được tiếng người nói và thực thi nhiệm vụ.
Hiện nay, nhận dạng tiếng nói chưa thực sự đáp ứng đầy đủ các yêu cầu thực
tế, song những hệ thống nhận dạng tiếng nói đã có bước phát triển đáng kể.
Trên thế giới, một số hệ thống nhận dạng tiếng nói cỡ lớn có độ chính xác
tương đối cao. Các hệ thống này chủ yếu được phát triển trên nền công nghệ hiện
đại với những máy tính lớn, những vi mạch xử lý tiếng nói chuyên dụng và sử dụng
cơ sở dữ liệu tiếng nói khá hoàn chỉnh, nhưng phần lớn vẫn là xử lý cho tiếng Anh.
Ở Việt Nam, việc tìm hiểu, nghiên cứu và phát triển các hệ thống nhận dạng
tiếng nói còn đang bước đầu có kết quả. Do có những đặc thù riêng của tiếng Việt,
nên việc chọn lựa phương pháp tiếp cận bài toán nhận dạng phù hợp với tiếng Việt
là một vấn đề tương đối khó khăn.
Những năm gần đây, cũng có khá nhiều đề tài nghiên cứu về nhận dạng tiếng
nói tiếng Việt. Các hệ thống nhận dạng tiếng nói thành công nhất chủ yếu dựa trên
khuynh hướng nhận dạng mẫu. Các kỹ thuật nhận dạng mẫu đơn giản như lượng tử
hoá véctơ, hiệu chỉnh thời gian động…, đã được áp dụng khá thành công vào các
chương trình nhận dạng tiếng nói tiếng Việt phát âm rời rạc với số lượng từ vựng
hạn chế.
Tuy nhiên, mục tiêu của nhận dạng tiếng nói tự động bằng máy là phải tiến tới
hệ thống nhận dạng tiếng nói liên tục, kích thước từ điển lớn, không phụ thuộc vào
người nói. Vì vậy, các hệ thống nhận dạng tiếng nói hiện nay thường xây dựng trên
cơ sở áp dụng các kỹ thuật nhận dạng mẫu phức tạp hơn, đó là mô hình Markov ẩn
và mạng nơron nhân tạo đã cho một số thành công nhất định.
Xuất phát từ nhận thức trên, đề tài luận văn Thạc sỹ của em là tìm hiểu, đưa ra
phương pháp và xây dựng một ứng dụng nhận dạng tiếng nói tiếng Việt. Với những
khả năng của mạng nơron nhân tạo trong ứng dụng, đã cho nhiều thành công đáng
Nhận dạng tiếng nói trên cơ sở mạng nơron nhân tạo
2
khích lệ. Vì vậy, em đã chọn mạng nơron làm cơ sở cho việc nghiên cứu nhận dạng
tiếng nói tiếng Việt.
Nội dung luận văn gồm 5 chương như sau:
Chƣơng 1: Tìm hiểu lịch sử việc nghiên cứu nhận dạng tiếng nói, tổng quan
về tiếng nói và nhận dạng tiếng nói.
Chƣơng 2: Trình bày một số tính chất của tiếng nói như: cơ chế tạo ra tiếng
nói, cơ chế thu tiếng nói, các đặc trưng tiếng nói. Ngoài ra, chương này cũng
đề cập đến kỹ thuật tính hệ số MFCC, là một phương pháp trích chọn đặc
trưng tín hiệu tiếng nói khá phổ biến đã được áp dụng hiệu quả trong các hệ
thống nhận dạng.
Chƣơng 3: Tìm hiểu tổng quan về mạng nơron, những khái niệm, cấu trúc,
các luật học. Chương này cũng đề cập đến những ứng dụng của mạng nơron
trong nhận dạng và phân lớp.
Chƣơng 4: Nghiên cứu về mạng nơron lan truyền ngược gồm: cấu trúc,
phương pháp huấn luyện mạng. Chương này cũng đề cập đến cấu trúc cụ thể
của mạng áp dụng cho bài toán nhận dạng tiếng nói tiếng Việt và đồng thời
đánh giá các tham số của hệ thống nhận dạng.
Chƣơng 5: Xây dựng hệ thống nhận dạng, giao diện chương trình, các kết
quả thực nghiệm.
Cuối cùng là kết luận và định hƣớng phát triển của đề tài.
Nhận dạng tiếng nói trên cơ sở mạng nơron nhân tạo
3
CHƢƠNG 1
TỔNG QUAN VỀ TIẾNG NÓI VÀ BÀI TOÁN NHẬN DẠNG
1.1 Lịch sử phát triển của nhận dạng tiếng nói
Nhận dạng tiếng nói tự động đã phát triển khoảng 40 năm nay. Những nhân tố
quan trọng giúp cho sự phát triển của công nghệ nhận dạng này có thể kể đến như sự
phát triển của hệ thống phân tích phổ âm thanh (năm 1946) cho phép thể hiện trực
quan các tín hiệu âm, lý thuyết tạo âm thanh tiếng nói của người (năm 1948), sự
xuất hiện và phát triển mạnh mẽ của các hệ thống máy tính số thương mại đầu tiên
trên thế giới (năm 1958).
Các hệ thống nhận dạng đầu tiên có khả năng nhận dạng từ rời rạc và phụ
thuộc người nói. Để phân tích và nhận dạng các chữ số hoặc các từ đơn âm sử dụng
đặc tính trong miền thời gian và các ngân hàng bộ lọc tương tự. Tương tự như vậy,
với phương pháp âm học, hệ thống nhận dạng âm vị phụ thuộc người nói và không
phụ thuộc người nói được thiết kế mặc dù mới cho được kết quả rất khiêm tốn.
Trong thập kỷ 70, với sự phát triển của các thuật toán phân tích tín hiệu như
mô hình dự đoán tuyến tính, so sánh mẫu theo thời gian…công nghệ nhận dạng
tiếng nói tiếp tục có những bước phát triển mạnh mẽ. Với các phương pháp này
những hệ thống nhận dạng với số lượng từ khá lớn được thiết kế.
Trong những năm 60 của thế kỷ 20, nhiều phòng thí nghiệm của nhiều hãng
lớn đã được đầu tư nghiên cứu phát triển các hệ thống nhận dạng tiếng nói các ngôn
ngữ khác nhau. Đến đầu những năm 80, khả năng về kỹ thuật đã cho phép các nhà
nghiên cứu xây dựng các hệ thống nhận dạng được hàng trăm từ rời rạc. Gần đây
công nghệ nhận dạng đã có những bước phát triển vô cùng nhanh chóng.
1.2 Tổng quan về bài toán nhận dạng tiếng nói
Nhận dạng tiếng nói là làm cho máy hiểu, nhận biết được ngữ nghĩa của lời
nói. Đây là quá trình biến đổi tín hiệu âm thanh thu được qua micro, qua các thiết bị
Nhận dạng tiếng nói trên cơ sở mạng nơron nhân tạo
4
thu thanh khác… thành một chuổi các từ, sau đó được nhận dạng để sử dụng trong
các ứng dụng điều khiển thiết bị, nhập dữ liệu hoặc soạn thảo văn bản bằng lời…
hoặc đưa đến một quá trình xử lý ngôn ngữ ở mức cao hơn.
Tiếng nói là công cụ truyền đạt thông tin quan trọng của người. Bình thường,
chúng ta không để ý quá trình nhận dạng tiếng nói diễn ra như thế nào? tại sao
chúng ta hiểu được các từ, các câu một cách đơn giản như vậy?
Trên thực tế, quá trình nhận dạng tiếng nói của người là một quá trình phức
tạp. Hiện nay, các nhà nghiên cứu cố gắng tìm hiểu, phân tích và mô phỏng quá
trình nhận dạng tiếng nói của người dưới dạng các chương trình máy tính. Nhưng
đây là vấn đề rất rộng, có liên quan tới nhiều ngành nghiên cứu như sinh học, hoá
học, vật lý ... Do vậy, việc mô phỏng tiếng nói cũng gặp nhiều khó khăn.
Chúng ta có thể thấy được một cách trực quan bài toán nhận dạng tiếng nói qua
hình 1.1.
Hình 1.1 Mô hình nhận dạng tiếng nói
Nhận dạng tiếng nói là quá trình phức tạp bao gồm nhiều khâu biến đổi. Tín
hiệu mà người phát ra là tín hiệu tuơng tự, qua quá trình lấy mẫu, lượng tử hoá và
mã hoá để thu được các mẫu tín hiệu dạng số (tín hiệu mà máy tính có thể hiểu và
xử lý được). Các mẫu tín hiệu này được trích chọn đặc trưng. Những đặc trưng này
sẽ là đầu vào cho quá trình nhận dạng. Sau khi nhận dạng tín hiệu người dùng phát
âm, hệ thống sẽ đưa ra kết quả nhận dạng. Tuỳ thuộc vào mô hình ứng dụng mà cho
chúng ta các dạng đầu ra khác nhau.
Nhận dạng tiếng nói trên cơ sở mạng nơron nhân tạo
5
Do tính chất của tiếng nói phụ thuộc vào nhiều yếu tố nên việc thu nhận, phân
tích các đặc trưng của tiếng nói là việc không dễ. Ở đây, chúng ta có thể nêu ra một
số yếu tố khó khăn cho bài toán nhận dạng tiếng nói:
Khi phát âm, người nói thường nói nhanh, chậm khác nhau.
Các từ được nói thường dài ngắn khác nhau.
Một người cùng nói một từ, nhưng ở hai lần phát âm khác nhau. Kết quả
phân tích khác nhau.
Mỗi người có một chất giọng riêng được thể hiện thông qua độ cao, độ to,
cường độ của âm và âm sắc.
Những yếu tố như nhiễu của môi trường, nhiễu của thiết bị thu…ảnh hưởng
không nhỏ tới hiệu quả nhận dạng.
Có thể thấy nhận dạng tiếng nói là một lĩnh vực nghiên cứu có nhiều ứng dụng
trong thực tế. Các hệ thống nhận dạng góp phần rất lớn trong việc thúc đẩy phát
triển nhiều ngành. Tuy là lĩnh vực mang ý nghĩa to lớn đó, nhưng việc phát triển các
hệ thống nhận dạng cũng gặp không ít những khó khăn, nhất là ở Việt Nam khi các
kết quả nghiên cứu về nhận dạng tiếng Việt chưa nhiều, cũng như cơ sở hạ tầng cho
việc nghiên cứu còn ít.
1.3 Một số hệ thống nhận dạng tiếng nói
Nhận dạng tiếng nói là vấn đề đã được chia thành hai nhóm riêng biệt dựa trên
mục đích sử dụng khác nhau.
Một nhóm được sử dụng với mục đích điều khiển thiết bị thông qua giọng nói.
Một nhóm sử dụng nhằm xử lý từ tiếng nói sang văn bản.
Phân loại các hệ thống nhận dạng tiếng nói sẽ giúp chúng ta có một cái nhìn
trực quan hơn về bài toán. Các hệ thống nhận dạng được phân loại như hình vẽ 1.2.
Có 3 phương pháp phổ biến được sử dụng trong nhận dạng tiếng nói [10]:
Phương pháp âm học - ngữ âm học.
Nhận dạng tiếng nói trên cơ sở mạng nơron nhân tạo
6
Phương pháp nhận dạng mẫu.
Phương pháp sử dụng các kết quả của lĩnh vực trí tuệ nhân tạo.
Hình 1.2 Sơ đồ phân loại các hệ thống nhận dạng tiếng nói
1.4 Tổng quan về tiếng nói
1.4.1 Âm thanh và tiếng nói
Âm thanh thực chất là sự nén và dản một cách tuần hoàn không khí, tạo ra một
sóng đàn hồi dọc. Sóng trong không khí truyền đến tai, tác động vào màng nhĩ, làm
cho màng nhĩ dao động với cùng tần số (dao động cưỡng bức), có khả năng tạo ra
cảm giác âm thanh trong tai khi tần số sóng đạt tới một độ lớn nhất định. Tai người
chỉ có thể cảm nhận được âm thanh trong một khoảng tần số từ 20Hz đến 20000Hz.
Những sóng này gọi là sóng âm hay âm thanh.
Tiếng nói là âm thanh do người phát ra. Khi phát âm, nguồn không khí từ phổi
sẽ kích hoạt bộ phát âm làm căng các dây thanh quản và khi không khí đi qua làm
cho các dây thanh quản này dao động tạo nên âm thanh tiếng nói. Tiếng nói của
người có năng lượng tập trung nằm trong khoảng tần số từ 1000Hz đến 4000Hz.
Nhận dạng tiếng nói trên cơ sở mạng nơron nhân tạo
7
1.4.2 Cao độ của âm (pitch)
Cao độ của âm thanh là độ cao hay thấp của âm thanh được quyết định bởi sự
rung dây thanh. Dây thanh rung với tần số nhanh sẽ cho những âm cao, dây thanh
rung chậm sẽ cho những âm thấp. Đơn vị đo cao độ ở đây được dùng là Hz, đo số
chu kỳ dao động thực hiện được trong 1 giây, gọi là tần số. Những âm có tần số
khác nhau gây cho ta những cảm giác âm khác nhau. Độ cao của âm mang đặc tính
sinh lý của âm. Nó dựa vào đặc tính của âm là tần số. Do cấu tạo của dây thanh khác
nhau, mà tần số tạo ra phụ thuộc vào giới tính và lứa tuổi của người phát âm (phụ nữ
và trẻ em thường có tần số cao hơn nam giới và người lớn tuổi).
1.4.3 Cƣờng độ (volume) và mức cƣờng độ âm
Cũng như các sóng cơ học khác, sóng âm mang năng lượng tỷ lệ với bình
phương biên độ sóng. Năng lượng đó truyền đi từ nguồn âm đến tai ta.
Cường độ âm (I): là lượng năng lượng được sóng âm truyền trong một đơn vị
thời gian qua một đơn vị diện tích đặt vuông góc với phương truyền âm, đơn vị đo là
(W/m2).
Đối với tai người, giá trị tuyệt đối của cường độ âm I không quan trọng bằng
giá trị tỷ số của I so với một giá trị Io nào đó được chọn làm chuẩn. Người ta định
nghĩa mức cường độ âm L là logarith thập phân của tỉ số I/Io:
L(B) = lg(I/Io) hoặc L(dB) = 10lg(I/Io) với 1B = 10dB
(1.1)
Thực tế, người ta thường dùng đơn vị dB (deciben) hơn là B (ben). Khi L = 1dB, thì
I/Io = 101/10. Đây là mức cường độ nhỏ nhất mà tai ta có thể phân biệt được.
1.4.4 Độ to của âm
Muốn gây cảm giác âm, cường độ âm phải lớn hơn một giá trị cực tiểu nào đó
gọi là ngưỡng nghe. Do đặc điễm sinh lý của tai người, ngưỡng nghe thay đổi tùy
Nhận dạng tiếng nói trên cơ sở mạng nơron nhân tạo
8
theo tần số âm. Với các tần số 1000Hz - 5000Hz, ngưỡng nghe khoãng 10-12W/m2.
Với tần số 50Hz, ngưỡng nghe lớn gấp 105 lần.
Nếu cường độ âm lên tới 10W/m2 thì sóng âm gây ra một cảm giác nhức nhối.
Giá trị cực đại này gọi là ngưỡng đau. Miền nằm giữa ngưỡng đau và ngưỡng nghe
gọi là miền nghe được. Khi xác định cường độ âm, người ta lấy Io là ngưỡng nghe
của âm có tần số 1000Hz gọi là tần số âm chuẩn.
Tai người nghe thính nhất với các âm trong miền tần số 1000Hz - 4000Hz, và
nghe âm cao thính hơn nghe âm trầm.
1.4.5 Âm sắc (phonetics)
Âm sắc là sắc thái của âm thanh. Hầu hết các âm thanh trong tự nhiên cũng như
âm thanh trong lời nói đều phức hợp, được tạo thành từ các âm cơ bản, các họa âm
bậc cao về cao độ và cường độ.
Âm sắc là một đặc tính sinh lý của âm, được hình thành trên cơ sở các đặc tính
vật lý của âm là tần số và biên độ. Thực nghiệm chứng tỏ rằng khi một nhạc cụ hoặc
một người phát ra một âm có tần số f1 thì đồng thời cũng phát ra các âm có tần số
f2 = 2f1; f3 = 3f1; f4 = 4f1 …
Âm có tần số f1 gọi là âm cơ bản (hay họa âm thứ nhất), các âm có tần số f2, f3,
f4… gọi là các hoạ âm thứ hai, thứ ba, thứ tư… Tùy theo cấu trúc từng loại nhạc cụ,
hoặc cấu trúc khoang miệng và cổ họng từng người mà trong số các hòa âm cái nào
có biên độ lớn, biên độ nhỏ và cái nào chóng bị tắt đi. Do hiện tượng đó, âm phát ra
không còn là đường sin, mà trở thành một đường phức tạp có chu kỳ. Sự tương quan
giữa âm cơ bản và các hoạ âm mà tạo nên âm sắc khác nhau. Sự khác nhau về âm
sắc là do sự phân bố vị trí môi, lưỡi, vòm miệng của từng người.
1.5 Mục tiêu của đề tài
Cho đến nay, các hệ thống nhận dạng tiếng nói tiếng Việt khá thành công chủ
yếu là dựa trên khuynh hướng nhận dạng mẫu đơn giản. Trong khi đó, phương pháp
Nhận dạng tiếng nói trên cơ sở mạng nơron nhân tạo
9
sử dụng trí tuệ nhân tạo vào nhận dạng tiếng nói còn chưa nhiều, mặc dù mạng
nơron là một công cụ rất mạnh và hứa hẹn nhiều ứng dụng mới. Đặc biệt là ở Việt
Nam, việc áp dụng mạng nơron vào các lĩnh vực ứng dụng là rất ít và mới chỉ cho
những kết quả ban đầu. Vì vậy, mục tiêu của đề tài là thử nghiệm mạng nơron lan
truyền ngược để nhận dạng mười từ số đếm tiếng Việt từ: không đến chín.
Cụ thể là:
Thiết kế mạng nơron lan truyền ngược để nhận dạng các từ tiếng Việt đơn âm
tiết là số đếm và phân tích các tham số của mạng.
Thử nghiệm nhận dạng với một số người nói.
Nhận dạng tiếng nói trên cơ sở mạng nơron nhân tạo
10
CHƢƠNG 2
TIẾNG VIỆT VÀ TRÍCH CHỌN ĐẶC TRƢNG
2.1 Khái quát về tiếng Việt
2.1.1 Một số đặc điểm của tiếng Việt
Tiếng Việt là loại hình ngôn ngữ đơn lập (ngôn ngữ không biến hình), tức là
mỗi một tiếng (âm tiết) được phát âm tách rời nhau, thể hiện bằng một chữ viết và
có thanh điệu [1]. Đặc điểm này được thể hiện rõ rệt ở tất cả các ngữ âm, từ vựng
và ngữ pháp. Trong tiếng Việt có một loại đơn vị đặc biệt được gọi là “tiếng”. Về
mặt ngữ âm, mỗi tiếng là một âm tiết. Tiếng Việt là tiếng đơn âm có ranh giới cố
định, mang thanh điệu, có cấu trúc đơn giản, có âm tiết trùng với hình vị, đơn vị nhỏ
nhất có tổ chức mang ý nghĩa ngữ pháp. Tiếng Việt có số lượng âm tiết hữu hạn,
khoảng 6.900 âm tiết tồn tại thực.
Âm tiết, hình vị trong tiếng Việt là cố định, không biến đổi hình thái theo ngữ
pháp, và theo thì. Từ thường có hai loại đơn tiết và đa tiết. Một phần từ đa tiết là từ
Hán Việt. Trong các từ đa tiết thường có dạng láy âm hoặc ghép các từ đơn âm tiết.
Âm tiếng Việt có cấu trúc chặt chẽ so với các loại âm của các ngôn ngữ khác.
Tiếng Việt có 6 thanh điệu là: huyền (- falling), sắc ( rising), hỏi (? curve),
ngã ( broken), nặng (. drop) và không dấu. Mỗi thanh đều có thể tham gia vào
việc cấu tạo từ và tạo nghĩa cho từ. Thanh điệu tiếng Việt có tính nhạc, câu văn có
vần, nhịp điệu, trầm bổng nhịp nhàng. Mỗi âm tiết đều mang thanh điệu nhất định.
Thanh điệu kết hợp với thành phần của âm tiết tạo thành các từ khác nhau, ví dụ
như: ba, bà, bá, bả, bã, bạ. Trong tiếng Việt không phải vần nào cũng phát âm đủ
được sáu thanh. Đối với âm tiết đóng chỉ có hai thanh sắc và nặng.
Âm tiết tiếng Việt thường bao gồm 3 thành phần có mức độ độc lập khác nhau
là âm đầu (phụ âm), âm chính (nguyên âm hoặc nguyên âm đôi) và âm cuối (phụ âm
đơn hoặc bán nguyên âm). Trong đó nguyên âm và thanh điệu là hạt nhân của âm
tiết. Trừ phụ âm đầu, phần còn lại của âm tiết tiếng Việt gọi là vần. Tiếng Việt có
Nhận dạng tiếng nói trên cơ sở mạng nơron nhân tạo
11
khoảng 512 vần. Vần và thanh tạo nên sự hài hoà về ngữ âm và ngữ nghĩa trong các
từ tượng hình, tượng thanh.
Từ đa tiết chiếm phần lớn trong tổng số từ tiếng Việt. Từ ghép đa tiết được
chia ra thành các loại:
Từ ghép nghĩa
Từ láy
Từ ghép tự do
Các từ vay mượn nước ngoài
Vốn từ vựng tiếng Việt bao gồm các từ, thành ngữ, thuật ngữ. Một bộ phận từ
tiếng Việt có gốc Hán. Ngoài ra, còn một số ít gốc Pháp, Anh: (Gác-ba-ga, Pê-đan).
Phương tiện biểu hiện ý nghĩa ngữ pháp trong tiếng Việt là trật tự các thành tố
(từ và câu), ngữ điệu, dạng láy, ngữ cảnh. Từ và cụm từ là đơn vị cấu tạo nên câu.
Giữa nói và viết tiếng Việt không cách xa nhau về quy tắc ngữ âm, ngữ pháp.
2.1.2 Cấu trúc âm tiết trong tiếng Việt
Âm tiết tiếng Việt ở dạng đầy đủ được tạo bởi 5 thành phần đó là: phụ âm đầu,
âm đệm (bán nguyên âm), âm chính (nguyên âm hoặc nguyên âm đôi), âm cuối (phụ
âm đơn hoặc bán nguyên âm) và thanh điệu (hình 2.1).
Về cấu trúc, âm tiết tiếng Việt có cấu trúc hai bậc. Bậc một gồm ba thành phần
là thanh điệu, phụ âm đầu và vần. Bậc hai là các thành tố của phần vần gồm âm đệm
là bán nguyên âm, nguyên âm chính và phụ âm hoặc bán nguyên âm cuối.
Thanh điệu
Âm đầu
Vần
Âm đệm
Âm chính
Âm cuối
Hình 2.1 Sơ đồ âm tiết tiếng Việt
Một âm tiết trong tiếng Việt có thể theo 4 kiểu khác nhau sau [1]:
Một mình nguyên âm
Nguyên âm + phụ âm
Nhận dạng tiếng nói trên cơ sở mạng nơron nhân tạo
12
Phụ âm + nguyên âm
Phụ âm + nguyên âm + phụ âm
trong lược đồ âm tiết "Phụ âm + nguyên âm + phụ âm" thì phụ âm đầu, cuối có thể
vắng còn nguyên âm bao giờ cũng có mặt.
2.2 Đơn vị cơ bản cho các hệ thống nhận dạng tiếng Việt
2.2.1 Mô hình từ và âm tiết
Việc lựa chọn từ làm đơn vị nhận dạng là phương pháp thông thường và dễ
dàng nhất, nó bao trùm được tính biến thể âm vị. Đối với một số ứng dụng nhận
dạng tiếng nói cần số lượng từ không lớn như hệ thống điều khiển học, đếm số ... có
thể áp dụng tốt mô hình từ để nhận dạng do dễ dàng thu thập đủ số mẫu huấn luyện
cho mỗi từ (hình 2.2).
Hình 2.2 Vốn từ trung bình theo các ứng dụng
Trong nhiều ngôn ngữ, từ là đơn vị nhỏ nhất của tiếng nói và từ là mục tiêu
của các hệ thống nhận dạng tiếng nói. Trong tiếng Việt, âm tiết là đơn vị âm thanh
nhỏ nhất và như vậy âm tiết là mục tiêu của các hệ thống nhận dạng tiếng Việt. Do
Nhận dạng tiếng nói trên cơ sở mạng nơron nhân tạo
13
trong tiếng Việt có trên 6900 âm tiết nên rất khó áp dụng nhận dạng vì việc thu thập
mẫu quá lớn và thời gian xử lý lâu.
Ngoài ra, mỗi mẫu huấn luyện của một âm tiết chỉ có thể dùng để huấn luyện
chính âm tiết đó mà không thể sử dụng chúng để huấn luyện âm tiết khác. Song bù
lại, phương pháp này có nhiều đơn giản do không phải sử dụng một số các phương
pháp để phân đoạn gán nhãn.
2.2.2 Mô hình âm vị
Nhằm giảm bớt số lượng mẫu huấn luyện, nhận dạng và để sử dụng chung các
mẫu này, mô hình âm vị thường được sử dụng làm đơn vị để nhận dạng cơ bản cho
các hệ thống nhận dạng tiếng nói. Trong tiếng Việt có khoảng 40 âm vị trong đó có
22 phụ âm, 16 nguyên âm đơn và đôi và 2 bán nguyên âm, khi kết hợp với thanh
điệu (huyền, sắc, hỏi, ngã, nặng và không dấu) thì tổng cộng có 40 x 6 = 240 âm vị
có thanh điệu [1]. Với số lượng âm vị hạn chế như vậy, hoàn toàn có thể xây dựng
một mô hình nhận dạng tiếng Việt với từ điển cỡ lớn không hạn chế khoảng 1500
đến 2000 câu huấn luyện. Một đặc điểm nữa là, các từ trong tiếng Việt có số lượng
âm vị rất ít, nhiều nhất cũng chỉ là 7 (ví dụ: nghiêng). Tuy nhiên, mô hình âm vị có
một số nhược điểm chính:
Các âm vị như nhau ở các vị trí khác nhau không hẳn đã có những đặc tính
âm học, ngữ âm học giống nhau. Một số âm vị vừa đóng vai trò âm chính,
vừa đóng vai trò âm phụ.
Âm vị là đơn vị nhỏ nhất của một từ, việc xác định ranh giới của các âm vị
rất khó khăn, do đó việc phân đoạn, gán nhãn chính xác ở mức âm vị rất
khó, nhưng lại rất quan trọng và ảnh hưởng nhiều tới chất lượng hệ thống.
2.2.3 Mô hình Âm đầu và Vần
Tiếng Việt là ngôn ngữ đơn âm tiết. Âm tiết tuy được phát âm liền nhưng lại
có cấu tạo lắp ghép và hầu như theo một quy luật nhất định. Mỗi từ trong tiếng Việt
có 3 bộ phận chính thanh điệu, âm đầu và vần. Âm đầu có một âm vị tham gia cấu
tạo, vần được cấu tạo bởi âm đệm, âm chính và âm cuối. Tiếng Việt có 22 âm đầu
Nhận dạng tiếng nói trên cơ sở mạng nơron nhân tạo
14
và khoảng 155 vần [6]. Kết hợp với thanh điệu thì tổng số âm đầu và vần có thanh
điệu nhỏ hơn (22+155)*6 = 1062. Vì có nhiều âm đầu, vần và thanh điệu không thể
kết hợp với nhau. Mô hình âm đầu và vần cho phép giảm bớt nhiều khó khăn cho
việc phân đoạn, gán nhãn và yêu cầu tính toán của máy tính.
2.3 Đặc điểm âm tiết và bài toán nhận dạng
Âm tiết tiếng Việt có nhiều đặc điểm khác với một số ngôn ngữ khác. Đây là
đặc điểm mà luận văn này quan tâm khi phân tích âm tiết tiếng Việt.
2.3.1 Đặc điểm âm tiết tiếng Việt
Trong tiếng Việt ranh giới âm tiết trùng với ranh giới hình vị [1]. Đây là đặc
điểm quan trọng đã được chú ý khi tiến hành trích chọn các đặc trưng của âm tiết.
Chúng ta sẽ phân tích một phát ngôn. Phát ngôn sau trong bài thơ của Bác Hồ:
“Tiến lên toàn thắng sẽ về ta”
Xét trên bình diện thứ nhất, bằng cách đối chiếu với các phát ngôn khác,
như: "năm qua thắng lợi vẻ vang", người ta có thể phân tích ra các đơn vị
có ý nghĩa nhỏ nhất, đơn vị đó là hình vị. Trong hai phát ngôn đó sẽ có số
hình vị khác nhau:
“Tiến / lên / toàn / thắng / sẽ / về / ta” có 7 hình vị.
"năm / qua / thắng / lợi / vẻ / vang"
có 6 hình vị.
Hình vị có hình thức cấu tạo một âm tiết, tức là mỗi hình vị trùng với âm tiết.
Trên chữ viết mỗi hình vị được viết thành một chữ.
Hai phát ngôn trên nếu được phân tích theo phương diện thứ hai bằng cách
căn cứ vào trọng âm, vào luồng hơi thở khi phát âm và đi tới các đơn vị
phát âm nhỏ nhất, tức là âm tiết, thì ta thu được 7 và 6 âm tiết.
Như vậy, ta có thêr thấy số lượng âm tiết và số lượng hình vị bằng nhau và
ranh giới của chúng trùng nhau. Mỗi âm tiết là một hình thức biểu đạt hình vị.
Trong một số ngôn ngữ khác, mỗi âm tiết có thể nhiều hơn một hình vị.
Nhận dạng tiếng nói trên cơ sở mạng nơron nhân tạo
15
2.3.2 Âm tiết với bài toán nhận dạng
Từ những đặc điểm của âm tiết như phân tích ở trên cho ta một số kết luận khi
chọn mô hình âm tiết cho bài toán nhận dạng:
Âm tiết tiếng Việt có ranh giới trùng với ranh giới hình vị, do vậy khi đọc
một câu vào luôn tìm thấy ranh giới giữa các âm tiết.
Mỗi âm tiết là một cách biểu diễn một hình vị xác định, không gây ra sự
trùng lặp dẫn tới không phân biệt được ý nghĩa.
Tuy nhiên, khi chọn mô hình âm tiết cũng gặp một khó khăn là số lượng âm
tiết tiếng Việt rất nhiều như vậy hạn chế khả năng nhận dạng của hệ thống.
2.4 Trích chọn tần số đặc trƣng của tiếng Việt
2.4.1 Cơ chế tạo và thu nhận tiếng nói
Quá trình tạo tiếng nói bắt đầu khi người nói định ra một thông điệp trong ý
nghĩ và muốn chuyển thông điệp đó cho người nghe thông qua tiếng nói. Thông điệp
này phải được chuyển đỗi sang một mã ngôn ngữ nào đó, sau đó người nói phải thực
hiện một chuổi các lệnh thông qua các dây thần kinh để điều khiển đôi dây thanh
rung khi cần thiết và định hình tuyến âm sao cho chuỗi âm thanh phát ra chính xác.
Các lệnh này phải đồng thời điều khiển các cơ quan liên quan đến quá trình phát âm
khác như: lưỡi, môi, hàm, vòm miệng mềm…
Quá trình cảm thụ tiếng nói bắt đầu ngay sau khi tín hiệu tiếng nói được tạo ra
và lan truyền đến người nghe thông qua sự thay đổi áp suất của không khí. Trước
tiên, sóng âm học tác động vào màng nhĩ ở tai trong, các tín hiệu này được phân tích
tạo ra các tín hiệu tác động lên các dây thần kinh thính giác. Sau đó, các tín hiệu
thần kinh được chuyển thành một mã ngôn ngữ nào đó nhờ các trung tâm xử lý cao
hơn ở trong não. Cuối cùng, thông điệp được người nghe cảm thụ. Quá trình tạo và
cảm thụ tiếng nói của người được minh hoạ trong hình 2.3
Nhận dạng tiếng nói trên cơ sở mạng nơron nhân tạo
16
Định hình
thông địêp
(Message
Formulation)
Mã ngôn
ngữ
(Language
Code)
Điều khiển cơ
thần kinh
(Nero-Mascular
Controls)
Hệ thống
tuyến âm
(Vocal Tract
System)
Tạo tiếng nói
Cảm thụ tiếng nói
Cảm thụ thông
địêp
(Message
Understanding)
Giãi mã
ngôn ngữ
(Language
Translation)
Tín hiệu thần
kinh
(Neural
Transduction)
Sóng âm học
(Acoustic
Waveform)
Màng nhĩ rung
(Bisilar
Membrance
Motion)
Hình 2.3. Quá trình tạo và cảm thụ tiếng nói
2.4.1.1 Cơ chế tạo tiếng nói
Trước khi nghiên cứu chi tiết vấn đề nhận dạng tiếng nói, ta cần hiểu rõ về quá
trình tạo và cảm thụ tiếng nói của con người. Những hiểu biết này là cơ sở cho việc
xây dựng các phần mềm nhận dạng tiếng nói tự động bởi máy tính. Hình 2.4 trình
bày cấu tạo của cơ quan phát âm.
Hình 2.4 Cấu tạo bộ phận phát âm của người
Nhận dạng tiếng nói trên cơ sở mạng nơron nhân tạo
17
Tuyến âm (vocal tract) bắt đầu từ dây thanh (vocal cords) và kết thúc ở môi.
Tuyến âm bao gồm họng và khoang miệng hoặc khoang mũi. Thiết diện vùng giao
nhau của tuyến âm, bao gồm vị trí lưỡi, môi, hàm và vòm miệng thay đổi từ 0 (khi
ngậm môi) đến khoảng 20cm2 (Khi môi hở).
Tuyến mũi bắt đầu từ vòm miệng (velum) và kết thúc ở lỗ mũi. Khi mà vòm
miệng hạ xuống thì khoang miệng bị cắt và khoang mũi được thông tạo nên âm mũi.
Phần cung cấp năng lượng cho việc tạo ra tiếng nói bao gồm: phổi, khí quản. Khi
phát âm, lồng ngực sẽ được mở rộng và thu hẹp lại để luồng không khí được đẩy lên
từ phổi vào khí quản đi qua thanh môn, ở đây không khí có thể bị thay đổi sau đó
tiếp tục được chuyển lên tuyến âm và bức xạ tại môi.
Âm thanh tiếng nói được chia làm 3 loại phân biệt tuỳ thuộc vào cách kích
thích [1]: âm hữu thanh, vô thanh và âm bật.
Âm hữu thanh (Voiced sound): được tạo ra bởi việc đẩy không khí qua
thanh môn với một độ căng của dây thanh sao cho chúng tạo nên dao động.
Vì vậy, nó tạo ra những xung gần như có chu kỳ kích thích tuyến âm. Ví dụ
các nguyên âm: a, i, o …
Âm vô thanh (Unvoiced sound): được tạo nên bởi sự co thắt ở một số
điểm nào đó trong tuyến âm, và đẩy không khí qua các điểm co thắt này với
một gia tốc đủ lớn để tạo nên sự nhiễu loạn. Ví dụ s trong sông núi…
Âm bật (Plosive sound): là kết quả từ việc đóng hoàn toàn, tạo nên một áp
suất, và thả đột ngột.
Tiếng nói là sóng âm được phát ra từ hệ thống này khi mà luồng không khí bật
ra từ phổi và bị xáo trộn bởi sự co thắt đâu đó trong tuyến âm.
Tuyến âm là một ống có tiết diện không đều. Âm thanh lan truyền dọc theo
ống, phổ tần số được tạo thành bởi sự chọn lọc tần số của ống. Hiệu ứng này rất
giống hiện tượng cộng hưởng của cây sáo hoặc dụng cụ âm nhạc truyền thống. Các
tần số cộng hưởng của tuyến âm được gọi là tần số Formant hay đơn giản là các
Formant. Các Formant này phụ thuộc vào hình dạng và kích thước của tuyến âm.
Mỗi hình dạng được đặc trưng bởi một tập các Formant. Các âm thanh khác nhau
Nhận dạng tiếng nói trên cơ sở mạng nơron nhân tạo
- Xem thêm -