Đăng ký Đăng nhập
Trang chủ Nhận dạng tiếng nói sử dụng mạng neural...

Tài liệu Nhận dạng tiếng nói sử dụng mạng neural

.PDF
73
133
87

Mô tả:

LỜI CẢM ƠN Sau một thời gian tìm hiểu đề tài “ Nhận dạng tiếng nói sử dụng mạng NEURAL” Em đã hoàn thành tiến độ dự kiến . Để đạt được kết quả này, em đã nỗ lực thực hiện và đồng thời cũng nhận được rất nhiều sự giúp đỡ, quan tâm, ủng hộ của các Thầy Cô bạn bè và gia đình. Em xin chân thành cảm ơn giáo viên hướng dẫn: ThS. Đỗ Huy Khôi – Khoa Công nghệ Điện Tử Và Truyền Thông – Đại học công nghệ thông tin và truyền thông - Đại học Thái Nguyên đã tận tình giúp đỡ em hoàn thành đồ án này. Em xin chân thành cảm ơn các Thầy Cô giáo thuộc Khoa Công nghệ Điện Tử Và Truyền Thông đã trang bị cho em những kiến thức chuyên ngành rất hữu ích để em hoàn thành đồ án và phục vụ cho công việc của em sau này. Vì thời gian có hạn nên đồ án của em không thể tránh khỏi những thiếu sót, em rất mong được sự đóng góp ý kiến từ phía Thầy Cô và các bạn. Em xin chân thành cảm ơn ! Thái Nguyên, tháng 6 năm 2012 Sinh Viên thực hiện Triệu Hà Quảng 1 LỜI CAM ĐOAN Đồ án này đã được hoàn thành sau một thời gian nghiên cứu, tìm hiểu các nguồn tài liệu, sách báo chuyên ngành và thông tin trên mạng mà theo em là hoàn toàn tin cậy. Nội dung đồ án được em tổng hợp lại từ các tài liệu tham khảo, không sao chép toàn bộ các đồ án và các công trình nghiên cứu của các tác giả khác. Em xin chịu trách nhiệm về nội dung trong đồ án mình. Thái Nguyên, tháng 6 năm 2012 Sinh viên thực hiện Triệu Hà Quảng 2 MỤC LỤC LỜI CẢM ƠN ..................................................................................................... 1 LỜI CAM ĐOAN................................................................................................ 2 MỤC LỤC .......................................................................................................... 3 DANH MỤC HÌNH ............................................................................................ 5 DANH MỤC TỪ VIẾT TẮT .............................................................................. 7 MỞ ĐẦU ............................................................................................................ 8 CHƯƠNG 1: TỔNG QUAN VỀ MẠNG NƠRON ............................................ 10 1.1. Giới thiệu về mạng Nơron ....................................................................... 10 1.2. Kiến trúc mạng Nơron ............................................................................. 12 1.2.1. Mạng Perceptron tiến một lớp SLP.................................................... 12 1.2.2. Mạng perceptron tiến nhiều lớp MLP ................................................ 13 1.3. Đặc trưng của mạng Nơron...................................................................... 14 1.3.1. Tính chất phi tuyến............................................................................ 14 1.3.2. Tính chất tương ứng đầu vào- đầu ra ................................................. 14 1.3.3. Tính chất thích nghi .......................................................................... 15 1.3.4. Tính chất đưa ra lời giải có bằng chứng ............................................. 15 1.3.5. Tính chất chấp nhận sai sót................................................................ 15 1.3.6. Tính chất đồng dạng trong phân tích và thiết kế ................................ 16 1.4. Các phương pháp học .............................................................................. 16 1.4.1. Học có giám sát ................................................................................. 16 1.4.2. Học không có giám sát ...................................................................... 16 1.4.3. Học tăng cường ................................................................................. 17 CHƯƠNG 2: NHẬN DẠNG TIẾNG NÓI VÀ CÁC VẤN ĐỀ.......................... 18 2.1. Quá trình sản xuất tiếng nói và thu nhận tiếng nói của con người ............ 18 2.2. Các âm thanh tiếng nói và các đặc trưng.................................................. 19 2.2.1. Nguyên âm ........................................................................................ 19 2.2.2. Các âm vị khác .................................................................................. 20 2.3. Khái niệm về nhận dạng tiếng nói ........................................................... 21 3 2.4. Các nguyên tắc cơ bản trong nhận dạng tiếng nói .................................... 23 2.5. Các phương pháp nhận dạng tiếng nói ..................................................... 23 2.5.1. Phương pháp âm học ngữ âm học ...................................................... 23 2.5.2. Phương pháp nhận dạng mẫu............................................................. 25 2.5.3. Phương pháp trí tuệ nhân tạo ............................................................. 27 CHƯƠNG 3: NHẬN DẠNG TIẾNG NÓI SỬ DỤNG MẠNG NƠRON ........... 29 3.1. Các mô hình nhận dạng tiếng nói............................................................. 29 3.1.1. Mô hình Fujisaki ............................................................................... 29 3.1.2. Mô hình Markov ẩn........................................................................... 31 3.2. Mô hình mạng Nơron .............................................................................. 38 3.2.1. Phân tích tín hiệu tiếng nói ................................................................ 39 3.2.2. Huấn luyện mạng .............................................................................. 45 3.3. Những thuận lợi và khó khăn trong nhận dạng tiếng Việt ........................ 56 CHƯƠNG 4: CHƯƠNG TRÌNH NHẬN DẠNG TIẾNG NÓI .......................... 58 4.1. Giới thiệu Hàm và Toobox trong Matlab cần để xây dựng hệ thống nhận dạng tiếng nói bằng mạng Nơron.................................................................... 58 4.2. Xây dựng chương trình nhận dạng tiếng nói bằng mạng Nơron MLP ...... 60 4.2.1. Các bước xây dựng............................................................................ 61 4.2.2. Chương trình nhận dạng phát âm mười chữ số tiếng Việt .................. 66 KẾT LUẬN ....................................................................................................... 71 TÀI LIỆU THAM KHẢO ................................................................................. 72 NHẬN XÉT CỦA GIÁO VIÊN HƯỚNG DẪN ................................................ 73 4 DANH MỤC HÌNH Hình 1.1 Mô hình một Nơron nhân tạo .............................................................. 10 Hình 1.2 mạng Nơron perceptron đơn lớp........................................................ 13 Hình 1.3 Mạng Nơron perceptron đa lớp ......................................................... 14 Hình 2.1 Sơ đồ biểu diễn quá trình sản xuất thu nhận tiếng nói của con người .. 18 Hình 2.2 Các phần tử cơ bản của một hệ thống nhận dạng tiếng nói ................. 22 Hình 2.3 Sơ đồ khối nhận dạng tiếng nói theo âm học- ngữ âm học .................. 24 Hình 2.4 Hệ thống nhận dạng tiếng nói theo phương pháp nhận dạng mẫu ....... 26 Hình 2.5 Sơ đồ khối hệ thống nhận dạng tiếng nói theo phương pháp từ trên xuống. ............................................................................................................... 27 Hình 3.1 Hệ thống nhận dạng tiếng nói sử dụng mô hình mạng Nơron .............. 38 Hình 3.2 Sơ đồ tính toán các hệ số MFCC ........................................................ 39 Hình 3.3 tín hiệu tiếng nói trong khoảng thời gian dài ....................................... 40 Hình 3.4 tín hiệu tiếng nói trong khoảng thời gian ngắn .................................... 40 Hình 3.5 Cửa sổ hamming 128 điểm.................................................................. 41 Hình 3.6 Tín hiệu bị thu nhỏ lại ở hai đầu do hamming ..................................... 42 Hình 3.7 Tín hiệu không có cửa sổ hóa với biên độ phổ sau khi FFT ................. 42 Hình 3.8 Tín hiệu có cửa sổ hóa bằng hamming với biên độ phổ sau khi FFT .. 43 Hình 3.9 Các băng lọc tam giác theo tần số Mel ............................................... 43 Hình 4.1 Sơ đồ khối hệ thống nhận dạng tiếng nói các chữ số tiếng Việt bằng mạng Nơron MLP trên môi trường Matlab.......................................................... 62 Hình 4.2 Giải thuật cắt khoản lặng trong file wav .............................................. 63 Hình 4.3 Giao diện chính của chương trình....................................................... 66 Hình 4.4 Tạo mạng Nơron MLP 3 lớp ............................................................. 67 Hình 4.5 Chương trình huấn luyện mạng MLP ................................................. 67 Hình 4.6 Chương trình nhận dạng từ file .......................................................... 68 Hình 4.7 Chương trình nhận dạng trực tiếp từ micro ......................................... 68 Hình 4.8 Quá trình huấn luyện với đầu ra mong muốn là 1. ............................... 69 Hình 4.9 Quá trình huấn luyện với đầu ra mong muốn là 2. ............................... 69 Hình 4.10 File nhận dạng với đầu ra thực tế chữ số nhận được là 1 .................. 70 5 Hình 4.11 File nhận dạng với đầu ra thực tế chữ số nhận được là 5 .................. 70 6 DANH MỤC TỪ VIẾT TẮT Thuật ngữ Artifactial Neural Network Fast Fourier Transform Simple Linear Perceptron Từ viết tắt ANN FFT SLP Multiple layer perceptron MLP Recurrent neural networks Melscale frequency cepstral coeficients RNN MFCC Ý nghĩa Mạng Nowrron nhân tạo Biến đổi Fourier nhanh Mạng perceptron truyền thẳng một lớp Mạng perceptron truyền thẳng nhiều lớp Mạng Nơron hồi quy Hệ số cepstral theo thang đo mel Expectation maximization Linear predictive code Speech Recognition Hidden Markov Model EM LPC SR HMM Kì vọng cực đại Hệ số dự đoán tuyến tính Nhận dạng tiếng nói Mô hình Markov ẩn 7 MỞ ĐẦU Hiện nay, con người đang nghiên cứu phương thức hoạt động của bộ não, sau đó áp dụng cho những công nghệ hiện đại. Để tiếp cận khả năng học, người ta đưa ra mô hình mạng Nơron gồm các Nơron liên kết với nhau thành mạng mô phỏng theo cấu trúc mạng thần kinh của con người. Đã có nhiều công trình nghiên cứu về lĩnh vực nhận dạng tiếng nói (speech recognition) trên cơ sở lý thuyết hệ thống thông minh nhân tạo, nhiều kết quả đã trở thành sản phẩm thương mại như ViaVoice, Dragon,… các hệ thống bảo mật thông qua nhận dạng tiếng nói các hệ quay số điện thoại bằng giọng nói,… Triển khai những công trình nghiên cứu và đưa vào thực tế ứng dụng vấn đề này là một việc hết sức có ý nghĩa đặc biệt trong giai đoạn công nghiệp hóa, hiện đại hóa hiện nay của nước nhà. Mạng Nơron nhân tạo là công cụ tốt trong việc giải quyết các bài toán như: hợp và phân lớp đối tượng, xấp xỉ hàm, tối ưu hóa, định lượng vector, phân cụm dữ liệu,... Nó thay thế hiệu quả các công cụ tính toán truyền thống để giải quyết các bài toán này. Cách ứng xử trên mạng Nơron nhân tạo giống như bộ não con người, nó chứng tỏ khả năng học, nhớ lại, và tổng quát hóa từ dữ liệu huấn luyện. Nhận dạng là một lĩnh vực đóng vai trò quan trọng trong khoa học kỹ thuật. Trong hầu hết các vấn đề kỹ thuật ngày nay, ta đều phải xác định, nhận dạng được các mô hình và đối tượng liên quan, để từ đó tìm ra giải pháp. Hiện nay trên thế giới chương trình nghiên cứu mạng Nơron đang được phát triển rộng rãi ở các nước và nhiều tổ chức nghiên cứu. Cũng đã có nhiều chương trình được công bố, như là nhận dạng tiếng nói được đưa vào để điều khiển robot. Ở Việt Nam thì chương trình nghiên cứu về mạng Nơron còn chưa được phát triển lắm so với các nước, và chưa có nhiều kết quả được công bố. Đồng thời các ứng dụng của xử lý tiếng nói chưa nhiều. Lĩnh vực mạng Nơron và xử lý tiếng nói còn đang được phát triển, nghiên cứu các ứng dụng của nó ngày càng trở nên phổ biến và quan trọng. Vì vậy, em đã quyết định chọn đồ án: “Nhận dạng tiếng nói sử dụng mạng NEURAL”. 8 Nội dung của đồ án đi vào tìm hiểu về mạng Nơron và ứng dụng trong nhận dạng tiếng nói, phương pháp nhận dạng tiếng nói sử dụng mạng Nơron.  Phương pháp phân tích cepstral theo thang đo mel MFCC (melscale frequency cepstral coefficients) được sử dụng trong việc trích trọn những đặc trưng cơ bản của tiếng nói.  Mạng Nơron lan truyền ngược hướng (Back-propagation Neural Network) được sử dụng để học mẫu và ra quyết định đối tượng nhận dạng. Đồ án gồm 4 chương: Chương 1: Tổng Quan Về Mạng Nơron Chương 2: Nhận Dạng Tiếng Nói Và Các Vấn Đề Chương 3: Nhận Dạng Tiếng Nói Sử Dụng Mạng Nơron Chương 4: Chương Trình Nhận Dạng Tiếng Nói 9 CHƯƠNG 1: TỔNG QUAN VỀ MẠNG NƠRON 1.1. Giới thiệu về mạng Nơron Mạng Nơron (Neuron Network) là công cụ có khả năng giải quyết được nhiều bài toán khó, thực tế những nghiên cứu về mạng Nơron đưa ra một cách tiếp cận khác với những cách tiếp cận truyền thống trong lý thuyết nhận dạng. Mạng Nơron nhân tạo mô phỏng hoạt động của các Nơron thần kinh, mạng Nơron nhân tạo là hệ thống bao gồm nhiều phần tử xử lý đơn giản (neuron) hoạt động song song. Tính năng của hệ thống này tùy thuộc vào cấu trúc của hệ, các trọng số liên kết Nơron và quá trình tính toán lại các Nơron đơn lẻ. Mạng Nơron có thể từ dữ liệu mẫu và tổng quát hóa dựa trên các dữ liệu mẫu học. Hình 1.1 Mô hình một Nơron nhân tạo 10 Một mô hình mạng Nơron có 3 thành phần cơ bản: 1. Một tập hợp các synapse hay các kết nối mà mỗi một trong chúng được đặc trung bởi một trọng số riêng của nó. Tức là một tín hiệu tại đầu vào của các synapse j nối với Nơron k sẽ được nhân với trọng số synapse . Ở đó k là chỉ số của Nơron tại đầu ra của synapse đang xét. Các trọng số synapse có thể nhận cả giá trị âm và giá trị dương. 2. Một bộ công cụ để tính tổng các tín hiệu đầu vào của Nơron, đã nhân với các trọng số synapse tương ứng, phép toán được mô tả ở đây tạo nên một tổ hợp tuyến tính. 3. Một hàm kích hoạt (activation function) để giới hạn biên độ đầu ra của Nơron. Hàm kích hoạt cũng được xem như một hàm nén, nó nén (giới hạn) phạm vi biên độ cho phép của tín hiệu đầu ra trong một khoảng giá trị hữu hạn. Hàm kích hoạt có nhiều kiểu như: hàm ngưỡng, hàm vùng tuyến tính, hàm sigma, hàm tang hypebol. Trong đó hàm tang sigmoid(1.1) hay log sigmoid(1.2) hay được dùng nhất. ( ) = tanh ( ) (1.1) ( )= (1.2) Ngoài ra còn có một hệ số hiệu chỉnh tác động từ bên ngoài có tác dụng tăng lên hoặc giảm đi đầu vào thực của hàm kích hoạt, tùy theo nó âm hay dương Tín hiệu đầu ra cho bởi: = (∑ + ) Nơron là một đơn vị tính toán có nhiều đầu vào và một đầu ra, mỗi đầu vào đến từ một synapse. Đặc trưng của Nơron là một hàm kích hoạt phi tuyến chuyển đổi một tổ hợp tuyến tính của tất cả các tín hiệu đầu vào thành tín hiệu đầu ra. Hàm kích hoạt này đảm bảo tính chất phi tuyến cho tính toán của mạng Nơron. Synapse là thành phần liên kết giữa các Nơron, nó nối đầu ra của Nơron này với đầu vào của Nơron khác. Đặc trưng của synapse là một trọng số mà mỗi tín hiệu đi qua đều được nhân với trọng số này. Các trọng số chính là các tham số tự 11 do cơ bản của mạng Nơron, có thể thay đổi được nhằm thích nghi với môi trường xung quanh. Mạng Nơron nhân tạo đang được ứng dụng rộng rãi trong các ngành kĩ thuật như: trong kỹ thuật điều khiển, mạng Nơron được ứng dụng để nhận dạng, dự báo và điều khiển các hệ thống động; trong điện tử viễn thông thì ứng dụng để xử lý ảnh, nhận dạng ảnh và truyền thông; trong hệ thống điện thì ứng dụng để nhận dạng, dự báo và điều khiển các trạm biến áp... 1.2. Kiến trúc mạng Nơron Có rất nhiều kiểu kiến trúc mạng Nơron khác nhau như: mạng Nơron hồi quy, mạng tự tổ chức, mạng bán kính tâm, Support vector machines, Committee machines, Bản đồ tự điều chỉnh, Máy thống kê,… Nhưng thông dụng và đơn giản nhất vẫn là mạng Nơron truyền thẳng. Tiền đề của mạng Nơron truyền thẳng là mạng perceptron một lớp do F.Rosenblatt đề xuất năm 1960, vì là mạng truyền thẳng nên chỉ có một lớp vào và một lớp ra, không có lớp ẩn. Trên mỗi lớp này có thể có một hoặc nhiều Nơron. Mạng này rất đơn giản vì thế nó được sử dụng để cho bất cứ ai mới đầu muốn tìm hiểu về mạng Nơron. Perceptron nhiều lớp – multiple layer perceptron(MLP) được sử dụng rỗng rãi nhất. 1.2.1. Mạng Perceptron tiến một lớp SLP Mạng SLP(Simple Linear Perceptron) bao gồm lớp nút vào (input) và lớp nút ra (output). Với mỗi vector giá trị đầu vào, các giá trị input được đưa vào các nút input, và mạng ANN sẽ cho kết quả tương ứng tại các nút output. Ký hiệu các nút đầu vào x là x , x … x , trong đó n là số lượng nút vào, các nút đầu ra y là y , y … y , n là số lượng nút ra. Mỗi nút input x liên hệ đều có một nối kết (connection hay synapses) với một nút output y . Mỗi nối kết được gán một giá trị gọi là trọng số (synapses strength), ký hiệu và . Các tín hiệu vào được lan truyền theo các nối kết và được nhân với các trọng số của các nối kết. Tính toán lại lớp vào sẽ được lan truyền sang lớp kế tiếp và do vậy mạng được gọi là lan truyền thẳng (feed-forward). 12 Lớp Input Lớp Output Hình 1.2 mạng Nơron perceptron đơn lớp Tại mỗi nút output của mạng, các tín hiệu vào sẽ được nhân với các trọng số và sau đó được cộng lại thành giá trị output như được miêu tả bởi công thức sau: y =∑ w x (1.3) Mô hình mạng Nơron của Rosenblatt sử dụng hàm ngưỡng đóng vai trò là hàm chuyển. Do đó, tổng các tín hiệu vào lớn hơn giá trị ngưỡng thì giá trị đầu ra của Nơron sẽ là 1, còn ngược lại sẽ là 0. Out = 1 nếu net ≥ θ 0 nếu net < với net = ∑ w x là tổng thông tin đầu vào của Nơron i Trong đó, Nơron j, và là trọng số liên kết từ Nơron j tới Nơron i, là đầu vào từ là ngưỡng của Nơron i. 1.2.2. Mạng perceptron tiến nhiều lớp MLP Mạng perceptron tiến nhiều lớp MLP (MultiLayer Perceptron) là một trong những kiến trúc mạng căn bản nhất, ở đó các Nơron được chia thành từng mức. Có 3 loại mức: mức đầu vào bao gồm các nút nguồn(không phải là Nơron) cung cấp các tín hiệu đầu vào chung nhận được từ môi trường, mức đầu ra đưa các tín hiệu đầu ra cho môi trường và một hoặc nhiều lớp ẩn. Mà các nút tính toán của chúng được gọi là các Nơron ẩn hay các đơn vị ẩn ( ẩn có nghĩa là không tiếp xúc với môi trường bên ngoài). Chức năng của các Nơron ẩn là can thiệp vào giữa đầu vào và đầu ra của mạng một cách hữu hiệu, bằng việc thêm một vài mức ẩn, 13 mạng có khả năng rút ra được các thống kê bậc cao của tín hiệu đầu vào. Khả năng các Nơron ẩn rút ra được các thống kê bậc cao đặc biệt có giá trị khi mức đầu vào có kích thước lớn. Một vector đầu vào sẽ được đưa vào lớp vào (input) của mạng và sau đó các tính toán được thực hiện lan truyền thẳng (feed-forward) từ lớp vào input sang các lớp ẩn và kết thúc ở lớp ra output. Hàm kích hoạt kết hợp với các nút ẩn hay các nút output có thể là hàm tuyến tính hay phi tuyến và có thể khác nhau giữa các nút. Lớp Input Lớp Hidden Lớp Output Hình 1.3 Mạng Nơron perceptron đa lớp 1.3. Đặc trưng của mạng Nơron Sau khi tìm hiểu về cấu trúc cơ bản của các mạng Nơron, chúng ta có thể kể ra một số đặc trưng ưu việt mà mạng Nơron có thể thu được từ việc mô phỏng trực tiếp bộ não con người như sau: 1.3.1. Tính chất phi tuyến Một mạng Nơron, cấu thành bởi sự kết nối các Nơron phi tuyến thì tự nó sẽ có tính phi tuyến. Hơn nữa, điều đặc biệt là tính phi tuyến này được phân tán trên toàn mạng. Tính phi tuyến là thuộc tính rất quan trọng, nhất là khi các cơ chế vật lý sinh ra các tín hiệu đầu vào vốn là phi tuyến. 1.3.2. Tính chất tương ứng đầu vào- đầu ra Tính chất này này liên quan tới vấn đề “học” hay “tích lũy” của mạng Nơron. Một mô hình học phổ biến được gọi là học với một người dạy hay học có 14 giám sát liên quan đến việc thay đổi các trọng số synapse của mạng Nơron bằng việc áp dụng một tập hợp các mẫu tích lũy hay các ví dụ tích lũy. Mỗi một ví dụ tích lũy bao gồm một tín hiệu đầu vào và một đầu ra mong muốn tương ứng. Mạng Nơron nhận một ví dụ lấy một cách ngẫu nhiên từ tập hợp nói trên tại đầu vào của nó, và các trọng số synapse của mạng được biến đổi sao cho có thể cực tiểu hóa sự sai khác giữa đầu ra mong muốn và đầu ra thực sự của mạng theo một tiêu chuẩn thống kê thích hợp. Như vậy mạng Nơron học từ các ví dụ bằng cách xây dựng nên một tương ứng đầu vào- đầu ra cho vấn đề cần giải quyết. 1.3.3. Tính chất thích nghi Các mạng Nơron có một khả năng mặc định là biến đổi các trọng số synapse tùy theo sự thay đổi của môi trường xung quanh. Đặc biệt, một mạng Nơron đã tích lũy để hoạt động trong một môi trường xác định có thể tích lũy lại một cách dễ dàng khi có những thay đổi nhỏ của các điều kiện môi trường hoạt động. Khi hoạt động trong môi trường không ổn định, một mạng Nơron có thể được thiết kế sao cho có khả năng thay đổi các trọng số synapse của nó theo thời gian thực. Tuy nhiên tính chất này không phải lúc nào cũng đem đến sức mạnh mà nó có thể làm điều ngược lại. 1.3.4. Tính chất đưa ra lời giải có bằng chứng Trong ngữ cảnh phân loại mẫu, một mạng Nơron có thể được thiết kế để đưa ra thông tin không chỉ về mẫu được phân loại, mà còn về sự tin cậy của quyết định đã được thực hiện. Thông tin này có thể được sử dụng để loại bỏ các mẫu mơ hồ hay nhập nhằng. 1.3.5. Tính chất chấp nhận sai sót Một mạng Nơron được cài đặt dưới dạng phần cứng, vốn có khả năng chấp nhận lỗi hay khả năng tính toán thô, với ý nghĩa là tính năng của nó chỉ thoái hóa (chứ không đổ vỡ) khi có những điều kiện hoạt động bất lợi. Ví dụ, nếu một Nơron hay các liên kết kết nối của nó bị hỏng, việc nhận dạng lại một mẫu được lưu trữ sẽ suy giảm về chất lượng. Tuy nhiên, do bản chất phân tán của thông tin lưu trữ trong mạng Nơron, sự hỏng hóc cũng được trải ra trên toàn mạng. Như vậy, về cơ bản, trong trường hợp này một mạng Nơron sẽ thể hiện môt sự thoái 15 hóa về tính năng hơn là sự đổ vỡ trầm trọng. Để đảm bảo rằng mạng Nơron thực sự có khả năng chấp nhận lỗi, có lẽ cần phải thực hiện những đo đạc hiệu chỉnh trong việc thiết kế thuật toán tích lũy mạng Nơron. 1.3.6. Tính chất đồng dạng trong phân tích và thiết kế Đặc tính này thể hiện một số điểm như sau :  Các Nơron dưới dạng này hoặc dạng khác biểu diễn một thành phần chung cho tất cả các mạng Nơron.  Tính thống nhất đã đem lại khả năng chia sẻ các lý thuyết và các thuật toán học trong nhiều ứng dụng khác nhau của mạng Nơron.  Các mạng tổ hợp có thể được xây dựng thông qua một sự tích hợp các mô hình khác nhau. 1.4. Các phương pháp học Mạng Nơron nhân tạo phỏng theo việc xử lý thông tin của bộ não người, do vậy đặc trưng cơ bản của mạng là có khả năng học, khả năng tái tạo các hình ảnh và dữ liệu khi đã học. Trong trạng thái học thông tin được lan truyền theo hai chiều nhiều lần để học các trọng số. Có 3 kiểu học chính, mỗi kiểu học tương ứng với một nhiệm vụ học trừu tượng. Đó là học có giám sát (có mẫu), học không giám sát và học tăng cường. Thông thường loại kiến trúc mạng nào cũng có thể dùng được cho các nhiệm vụ. 1.4.1. Học có giám sát Một thành phần không thể thiếu của phương pháp này là sự có mặt của một người thầy (ở bên ngoài hệ thống). Người thầy này có kiến thức về môi trường thể hiện qua một tập hợp các cặp đầu vào - đầu ra đã được biết trước. Hệ thống học (ở đây là mạng Nơron) sẽ phải tìm cách thay đổi các tham số bên trong của mình (các trọng số và các ngưỡng) để tạo nên một ánh xạ có khả năng ánh xạ các đầu vào thành các đầu ra mong muốn. Sự thay đổi này được tiến hành nhờ việc so sánh giữa đầu ra thực sự và đầu ra mong muốn. 1.4.2. Học không có giám sát Trong học không có giám sát, ta được cho trước một số dữ liệu x và hàm chi phí cần được cực tiểu hóa có thể là một hàm bất kỳ của dữ liệu x và đầu ra của 16 mạng, f – hàm chi phí được quyết định bởi phát biểu của bài toán. Phần lớn các ứng dụng nằm trong vùng của các bài toán ước lượng như mô hình hóa thống kê, nén, lọc, phân cụm. 1.4.3. Học tăng cường Dữ liệu x thường không được tạo trước mà được tạo ra trong quá trình một agent tương tác với môi trường. Tại mỗi thời điểm t, agent thực hiện hành động yt và môi trường tạo một quan sát xt với một chi phí tức thời Ct, theo một quy trình động nào đó (thường là không được biết). Mục tiêu là một sách lược lựa chọn hành động để cực tiểu hóa một chi phí dài hạn nào đó, nghĩa là chi phí tích lũy mong đợi. Quy trình hoạt động của môi trường và chi phí dài hạn cho mỗi sách lược thường không được biết, nhưng có thể ước lượng được. Mạng Nơron nhân tạo thường được dùng trong học tăng cường như một phần của thuật toán toàn cục. Các bài toán thường được giải quyết bằng học tăng cường là các bài toán điều khiển, trò chơi và các nhiệm vụ quyết định tuần tự (sequential decision making) khác. Kêt luận chương: Trong chương này đã giới thiệu một cách tổng quan về mạng Nơron, kiến trúc của mạng Nơron và những tính chất của mạng Nơron. Cùng với mô hình mạng perceptron một lớp, đa lớp. Ta thấy rằng mạng Nơron nhân tạo là một công cụ mạnh và mềm dẻo để giải quyết các bài toàn có tính phi tuyến, phức tạp. Vì vậy, khả năng ứng dụng của nó rất lớn ứng dụng vào các lĩnh vực như nhận dạng, điều khiển, dự báo…. Trong chương tiếp theo, chúng ta sẽ tìm hiểu và nghiên cứu về nhận dạng tiếng nói và các vấn đề. 17 CHƯƠNG 2: NHẬN DẠNG TIẾNG NÓI VÀ CÁC VẤN ĐỀ 2.1. Quá trình sản xuất tiếng nói và thu nhận tiếng nói của con người Hình 2.1 Sơ đồ biểu diễn quá trình sản xuất thu nhận tiếng nói của con người Hình 2.1. đưa ra sơ đồ khối của quá trình sản xuất tiếng nói, nhận thức tiếng nói của con người. Quá trình sản xuất tiếng nói bắt đầu khi người nói tạo ra một thông điệp ( trong ý nghĩ của anh ta) và muốn truyền tải nó cho người nghe thông qua tiếng nói. Tổ chức thần kinh tương ứng chịu trách nhiệm tạo ra thông điệp dưới dạng văn bản biểu diễn các từ của thông điệp. Bước tiếp theo của quá trình là chuyên đổi thông điệp sang dạng một mã ngôn ngữ. Điều này gần như tương đương với việc chuyển đổi các biểu diễn văn bản của thông điệp thành một chuỗi các âm vị tương ứng với các âm thanh tạo nên các từ, đồng thời với việc ghi nhận âm điệu nhằm xác định sự kéo dài, sự nhấn mạnh, và trọng âm cao thấp của âm thanh. Khi một mã ngôn ngữ đã được lựa chọn, người nói phải thực hiện một loạt các lệnh thần kinh vận động để làm cho các dây thanh dao động, đồng thời cấu trúc hình dạng ống dẫn âm nhằm phát ra một chuỗi các âm thanh. Như vậy, đầu ra cuối cùng của quá trình là một tín hiệu âm học. Các lệnh thần kinh vận động 18 phải điều khiển một cách đồng bộ tất cả các khâu vận động như sự hoạt động của môi, hàm, lưỡi… Khi tín hiệu tiếng nói đã được sinh ra và được truyền cho người nghe, quá trình thu nhận tiếng nói ( hay nhận dạng tiếng nói ) bắt đầu. Đầu tiên, người nghe xử lý tín hiệu âm thanh thông qua màng nền của tai trong, nó có khả năng cung cấp một phân tích phổ cho tín hiệu tới. Một quá trình xử lý thần kinh chuyển đổi tín hiệu phổ tại đầu ra của màng nền thành các tín hiệu hoạt động đối với thần kinh thính giác, có thể coi như đây quá trình lấy ra các đặc trưng. Bằng một phương pháp đặc biệt, các tín hiệu hoạt động đi qua hệ thần kinh thính giác được chuyển đổi thành một mã ngôn ngữ cho những trung tâm xử lý cao cấp hơn bên trong bộ não, và cuối cùng là hiểu được nội dung thông điệp. Từ sự minh họa quá trình nhận dạng tiếng nói thông qua hệ thống thần kinh con người như trên, chúng ta có thể có một chút ý niệm về khả năng ứng dụng mạng Nơron nhân tạo trong việc mô phỏng một số tổ chức thần kinh như một phần của hệ thần kinh thính giác. 2.2. Các âm thanh tiếng nói và các đặc trưng 2.2.1. Nguyên âm Các nguyên âm có tầm rất quan trọng trong nhận dạng tiếng nói, hầu hết các hệ thống nhận dạng dựa trên cơ sở nhận dạng nguyên âm đều có tính năng tốt. Các nguyên âm nói chung là có thời gian tồn tại dài (so với các phụ âm) và dễ xác định phổ. Chính vì thế dễ dàng cho việc nhận dạng tiếng nói, cả đối với con người và máy móc. Về mặt lý thuyết, các cực đại của biểu diễn phổ của tín hiệu nguyên âm chính là các tần số cộng hưởng (formants) tạo nên nguyên âm. Giá trị của các formant đầu tiên (2 hoặc 3 formant đầu tiên) là yếu tố quyết định cho phép chúng ta nhận dạng được nguyên âm. Do nhiều yếu tố biến thiên như sự khác nhau về giới tính, về độ tuổi, tình trạng tinh thần của người nói và nhiều yếu tố ngoại cảnh khác, đối với một nguyên âm xác định các giá trị formant cũng có sự biến thiên nhất định. Tuy nhiên sự khác biệt về các giá trị các formant giữa các nguyên âm khác nhau lớn hơn nhiều, và trong không gian formant chúng ta có thể xác định một cách 19 tương đối các vùng riêng biệt cho từng nguyên âm. 2.2.2. Các âm vị khác Nguyên âm đôi thì có sự biến thiên một cách liên tục các formant của biểu diễn phổ theo thời gian. Đối với âm vị loại này, cần phải đặc biệt chú ý đến việc phân đoạn theo thời gian khi nhận dạng. Các bán nguyên âm như /l/, /r/ và /y/ là tương đối khó trong việc biểu diễn đặc trưng. Các âm thanh này không được coi là nguyên âm nhưng gọi là bán nguyên âm do bản chất tựa nguyên âm của chúng. Các đặc trưng âm học của các âm thanh này chịu ảnh hưởng rất mạnh của ngữ cảnh mà trong đó chúng xuất hiện. Đối với các âm mũi thì miệng đóng vai trò như một khoảng cộng hưởng có tác dụng bẫy năng lượng âm tại một vài tần số tự nhiên. Các tần số cộng hưởng này của khoang miệng xuất hiện như các phản cộng hưởng, hay các điểm không của hàm truyền đạt. Ngoài ra, các phụ âm mũi còn được đặc trưng bởi những sự cộng hưởng mạnh hơn về phổ so với các nguyên âm. Các phụ âm xác vô thanh như /s/, /sh/. Hệ thống tạo ra các phụ âm xác vô thanh bao gồm một nguồn nhiễu tại một điểm thắt mà chia ống dẫn âm thành hai khoang. Âm thanh được bức xạ tại khoang trước. Khoang sau có tác dụng bẫy năng lượng như trong trường hợp phụ âm mũi, và như vậy là đưa các phản cộng hưởng vào âm thanh đầu ra. Bản chất không tuần hoàn là đặc trưng cơ bản nhất của nguồn kích thích xác vô thanh. Điểm khác biệt của các âm xác hữu thanh như /v/, /th/ so với các phụ âm xác vô thanh là ở chỗ có hai nguồn kích thích liên quan tới việc tạo ra chúng. Như vậy đặc trưng của phụ âm xác hữu thanh là bao gồm cả hai thành phần kích thích tuần hoàn và nhiễu. Các âm dừng là các phụ âm /b/, /d/, /g/, /p/, /t/ và /k/ chúng có thời gian tồn tại rất ngắn. Các âm dừng có tính chất động vì thế các thuộc tính của chúng chịu ảnh hưởng rất nhiều bởi nguyên âm đi sau nó. 20
- Xem thêm -

Tài liệu liên quan