Tài liệu Nhận dạng tiếng nói tiếng việt dùng mạng nơron triển khai trên kit arm

  • Số trang: 22 |
  • Loại file: PDF |
  • Lượt xem: 70 |
  • Lượt tải: 0
thuvientrithuc1102

Tham gia: 02/08/2015

Mô tả:

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH LUẬN VĂN THẠC SĨ PHAN VĂN ĐẦY NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT DÙNG MẠNG NƠRON TRIỂN KHAI TRÊN KIT ARM S K C 0 0 3 9 5 9 NGÀNH: KỸ THUẬT ĐIỆN TỬ- 605270 S KC 0 0 3 2 5 3 Tp. Hồ Chí Minh, 2012 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH LUẬN VĂN THẠC SĨ PHAN VĂN ĐẦY NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT DÙNG MẠNG NƠRON TRIỂN KHAI TRÊN KIT ARM NGÀNH: KỸ THUẬT ĐIỆN TỬ- 605270 Tp. Hồ Chí Minh, tháng 04/2011 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH LUẬN VĂN THẠC SĨ PHAN VĂN ĐẦY NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT DÙNG MẠNG NƠRON TRIỂN KHAI TRÊN KIT ARM NGÀNH: KỸ THUẬT ĐIỆN TỬ - 605270 Hướng dẫn khoa học: PGS.TS LÊ TIẾN THƯỜNG Tp. Hồ Chí Minh, tháng 4/2011 BỘ GIÁO DỤC & ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH CỘNG HOÀ XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự do - Hạnh phúc PHIẾU XÁC NHẬN Tên đền tài: Nhận dạng tiếng nói Tiếng Việt dùng mạng nơron triển khai trên Kit ARM Họ & tên tác giả: Phan Văn Đầy Ngành: Kỹ thuật điện tử.................................................. Khóa: 2009A Họ & tên người hướng dẫn (học hàm, học vị): PGS. TS Lê Tiến Thường ......................... Cơ quan công tác: Trường đại học Bách Khoa thành phố Hồ Chí Minh. Tp. Hồ Chí Minh, ngày tháng 5 năm 2011 Chủ nhiệm ngành Giảng viên hướng dẫn (Ký & ghi rõ họ tên) (Ký & ghi rõ họ tên) TS. Ngô Văn Thuyên PGS.TS Lê Tiến Thường LÝ LỊCH KHOA HỌC (Dùng cho nghiên cứu sinh & học viên cao học) I. LÝ LỊCH SƠ LƯỢC: Họ & tên: Phan văn Đầy Giới tính: Nam Ngày, tháng, năm sinh: 16/11/1976 Nơi sinh: Đồng Tháp Quê quán: Đồng Tháp Dân tộc: Kinh Chức vụ, đơn vị công tác trước khi học tập, nghiên cứu: Giảng viên Khoa Công nghệ thông tin Trường đại học Đồng Tháp. Chỗ ở riêng hoặc địa chỉ liên lạc: 128/6, ấp Tân Thạnh, xã Phong Hòa, huyện Lại Vung, tỉnh Đồng Tháp. Điện thoại cơ quan: 0673.881623 Điện thoại nhà riêng: 0673.628162 Fax: 0673.881623 E-mail: Daydhdt@gmail.com II. QUÁ TRÌNH ĐÀO TẠO: 1. Đại học: Hệ đào tạo: Chính qui Thời gian đào tạo từ 09/1995 đến 04/2000 Nơi học (trường, thành phố): Trường đại học Cần Thơ, thành phố Cần Thơ Ngành học: Điện tử Tên đồ án, luận án : Phân tích tín hiệu âm thanh trong miền tần số Ngày & nơi bảo vệ đồ án, luận án hoặc thi tốt nghiệp: Tháng 05 năm 2000 Người hướng dẫn: CN. Đoàn Hòa Minh. 2. Thạc sĩ: Hệ đào tạo: Chính quy Thời gian đào tạo từ 02/2009 đến 02/2011 Nơi học (trường, thành phố): Trường đại học sư phạm kỹ thuật thành phố Hồ Chí Minh Ngành học: Kỹ thuật điện tử Tên luận văn: Nhận dạng tiếng nói Tiếng Việt dùng mạng nơron triển khai trên Kit ARM. Ngày & nơi bảo vệ luận văn: Tháng 4 năm 2011 tại Trường đại học sư phạm kỹ thuật thành phố Hồ Chí Minh. Người hướng dẫn: PGS. TS. Lê Tiến Thường 3. Trình độ ngoại ngữ: Anh văn Toefl IPT 470 điểm III. QUÁ TRÌNH CÔNG TÁC CHUYÊN MÔN KỂ TỪ KHI TỐT NGHIỆP ĐẠI HỌC: Thời gian Nơi công tác Từ 8/2000 Khoa Công nghệ thông tin Trường Kỹ sư bảo trì sửa chữa phần đến 6/2006 đại học Cần Thơ cứng máy vi tính. Từ 6/2006 Giảng viên Khoa Công nghệ thông Giảng dạy môn Kỹ thuật số và tin Trường đại học Đồng Tháp. Điện tử căn bản. đến nay Công việc đảm nhiệm IV. CÁC CÔNG TRÌNH KHOA HỌC ĐÃ CÔNG BỐ: Chưa có XÁC NHẬN CỦA CƠ QUAN CỬ ĐI HỌC (Ký tên, đóng dấu) Ngày 29 tháng 3 năm 2011 Người khai ký tên Phan văn Đầy LỜI CAM ĐOAN Tôi cam đoan đây là công trình nghiên cứu của tôi. Các số liệu, kết quả nêu trong luận văn là trung thực và chưa từng được ai công bố trong bất kỳ công trình nào khác Tp. Hồ Chí Minh, ngày 29 tháng 3 năm 2011 (Ký tên và ghi rõ họ tên) Phan Văn Đầy LỜI CẢM ƠN Tôi xin gởi lời cảm ơn chân thành nhất đến PGS.TS. Lê Tiến Thường, người đã tận tình hướng dẫn, giúp đỡ tôi trong suốt quá trình thực hiện luận văn và tạo điều kiện để tôi có thể hoàn thành luận văn này. Xin gởi lời cảm ơn đến các Thầy Cô đã dạy tôi trong thời gian qua. Tôi xin cảm ơn các bạn đồng môn và đồng nghiệp đã quan tâm, chia sẽ trong suốt quá trình học và làm luận văn. Xin cảm ơn gia đình tôi đã dành cho tôi tình thương yêu và sự hỗ trợ tốt nhất. Luận văn tốt nghiệp thạc sĩ GVHD: PGS.TS.Lê Tiến Thường TÓM TẮT Đề tài này đã được thực hiện tại Trường đại học SPKT TpHCM từ ngày 1 tháng 9 năm 2010 đến ngày 28 tháng 2 năm 2011. Kỳ vọng của đề tài là xây dựng chương trình nhận dạng tiếng nói Tiếng Việt lên Kit xử lý 32 bit họ ARMLM3S2965 thông qua việc xây dựng chương trình nhận dạng tiếng nói Tiếng Việt, khai thác tính năng của Kit ARM, xây dựng bo mạch thu âm, giao tiếp và nhúng chương trình nhận dạng tiếng nói Tiếng Việt lên Kit LM3S2965. Trước tiên, đề tài nghiên cứu lý thuyết đặc trưng cơ bản và lấy mẫu tín hiệu tiếng nói Tiếng Việt từ các đề tài, bài báo và chọn ra một phương pháp rút trích đặc trưng tín hiệu tiếng nói thông dụng. Sau đó, dùng các mẫu đặc trưng đã được rút trích để huấn luyện trọng số mạng nơron và dùng mạng nơron đã được huấn luyện này để nhận dạng tiếng nói Tiếng Việt. Đề tài đã thiết kế và thi công mạch thu âm giao tiếp với Kit LM3S2965, nghiên cứu khai thác một số tính năng của Kit LM3S2965, xây dựng chương trình nhận dạng tiếng nói Tiếng Việt được thực hiện trên máy tính cá nhân và sau cùng là xây dựng chương trình nhận dạng tiếng nói Tiếng Việt trên Kit LM3S2965 để điều khiển cánh tay Robot 5 bậc tự do. Bộ từ vựng cần nhận dạng là các từ dùng để điều khiển Robot như “Kẹp”, “Nhả”, “Tiến”, “Lùi”, “Trái”, “Phải”, “Nâng”, “Hạ”, “Dừng” được phát ra từ tác giả trong điều kiện tiếng ồn thấp. Kết quả của chương trình nhận dạng tiếng nói Tiếng Việt được thực hiện trên máy tính cá nhân đã đạt được độ chính xác khá tốt (≈90%). Kết quả của chương trình nhận dạng tiếng nói Tiếng Việt triển khai trên Kit LM3S2965 có độ chính xác thấp do một số hạn chế trong nghiên cứu và khai thác tính năng Kit LM3S2965. Mặc dù vậy, đề tài cũng mở ra định hướng nghiên cứu mới để kết quả được tốt hơn. i HVTH: Phan Văn Đầy Luận văn tốt nghiệp thạc sĩ GVHD: PGS.TS.Lê Tiến Thường ABSTRACT The topic had been being done at University Of Technical Education HCM City from September 1, 2010 to February 28, 2011. The topic’s expectations is to develop a Vietnamese speech recognition program in a 32-bit ARM processor motherboard, LM3S2965, one of motherboards has many advantages in embedded applications. In addition, the topic performed the Vietnamese speech recognition programming on a personal computer for the purpose of the orientation for on the LM3S2965 motherboard programming. The Vietnamese speech recognition is carried out mainly by the neural network. That is, the result of identification is determined from a combination of the analysis of the neural network applied to typical Vietnamese voice. Algorithm used to train the neural network is the back propagation algorithm. MFCC (Mel-scale Frequency Cepstral) is used to extract speech signal characteristic. The topics is limited only to identify the words used to control a robotic arm, such as “Clamp”, “Release”, “Go”, “Back”, “Left”, “Right”, “Lift”, “Lower” and “Stop”. They are identified discretely in a low noise conditions and pronounced from the author, who provided the samples used to train the neural network. The result of Vietnamese speech recognition performed on a personal computer achieved a good precision (approximately 90%). However, the Vietnamese speech recognition program done on the motherboard achieved a limited result. The reason is that the topic couldn’t check a sampled signal on the motherboard quickly. However, the topic opened a research direction, which will be able to bring a better result. ii HVTH: Phan Văn Đầy Luận văn tốt nghiệp thạc sĩ GVHD: PGS.TS.Lê Tiến Thường MỤC LỤC Trang tựa Trang Quyết định giao đề tài ..................................................................................... Lý lịch cá nhân ............................................................................................... Lời cam đoan .................................................................................................. Cảm tạ ............................................................................................................ Tóm tắt ........................................................................................................... i Abstract ........................................................................................................... ii Mục lục............................................................................................................ iii Danh sách các chữ viết tắt .............................................................................. vi Danh sách các hình ......................................................................................... vii Danh sách các bảng ........................................................................................ ix Lời mở đầu ..................................................................................................... 1 Chương 1. Đặc trưng tiếng nói Tiếng Việt ..................................................... 4 1.1. Tổng quan về tiếng nói............................................................... 4 1.2. Các đặc điểm cơ bản của Tiếng Việt.......................................... 5 1.2.1 Ngữ âm Tiếng Việt ............................................................. 5 1.2.2. Thanh điệu Tiếng Việt ....................................................... 6 1.2.3. Cấu trúc âm tiết Tiếng Việt ............................................... 8 Chương 2. Hệ thống nhận dạng tiếng nói Tiếng Việt ..................................... 9 2.1. Tổng quan về hệ thống nhận dạng tiếng nói .............................. 9 2.2. Các yếu tố ảnh hưởng đến hệ thống nhận dạng tiếng nói ......... 10 2.3. Nhận dạng độc lập và phụ thuộc người nói ............................... 10 2.4. Lưu đồ giải thuật nhận dạng tiếng nói dừng mạng nơron.......... 11 2.5. Lấy mẫu tín hiệu......................................................................... 12 2.5.1. Lọc thông thấp chống chồng phổ ...................................... 12 2.5.2. Lấy mẫu tín hiệu tiếng nói ................................................. 12 2.5.3. Chia khung (frame) tín hiệu............................................... 12 2.6. Tách tín hiệu ra khỏi nền............................................................ 13 iii HVTH: Phan Văn Đầy Luận văn tốt nghiệp thạc sĩ GVHD: PGS.TS.Lê Tiến Thường 2.6.1. Phương pháp xác định điểm đầu, điểm cuối dùng năng lượng thời gian ngắn.......................................................... 14 2.6.2. Phương pháp xác định điểm đầu, điểm cuối dùng tỉ lệ biên độ tín hiệu qua điểm Zero .......................................... 15 2.7. Phương pháp trích đặc trưng MFCC (Mel-scale Frequency Cepstral Coefficient). ................................................................. 15 2.7.1. Lọc cửa sổ.......................................................................... 16 2.7.2. Biến đổi Fourier rời rạc (DFT) .......................................... 17 2.7.3. Lọc tần số theo thang tần số Mel ....................................... 17 2.7.4. Lấy logarit tín hiệu thang Mel ........................................... 19 2.7.5. Biến đổi Fourier ngược (IFFT).......................................... 19 Chương 3: Mạng nơron nhân tạo ................................................................... 21 3.1. Khái niệm về mạng nơron nhân tạo ........................................... 21 3.2. Cấu trúc mạng nơron nhân tạo ................................................... 24 3.2.1. Mạng nơron kết nối đầy đủ................................................ 24 3.2.2. Mạng nơron phân lớp......................................................... 24 3.2.3. Mạng nơron truyền thẳng .................................................. 25 3.3 Huấn luyện mạng nơron theo giải thuật lan truyền ngược.......... 25 3.3.1. Tính toán ngõ ra nút mạng nơron theo hướng tới.............. 28 3.3.2. Cập nhật trọng số mạng nơron theo luật delta................... 28 3.3.3. Giải thuật huấn luyện mạng nơron theo giải thuật lan truyền ngược ................................................................................ 30 Chương 4: Bộ Kit LM3S2965......................................................................... 32 4.1. Đặc tả bộ Kit LM3S2965.......................................................... 32 4.2. Cấu trúc Kit LM3S2965............................................................ 33 4.2.1. Lõi ARM cortex M3 ......................................................... 34 4.2.2. Bộ chuyển đổi tương tự - số (ADC) ................................. 35 4.2.3. Khối hiển thị OLED ......................................................... 35 4.3. Một số hàm thư viện của Kit LM3S2965 ................................. 36 iv HVTH: Phan Văn Đầy Luận văn tốt nghiệp thạc sĩ GVHD: PGS.TS.Lê Tiến Thường 4.3.1. Hàm cho bộ ADC ............................................................. 36 4.3.2. Hàm cho màn hình OLED ................................................ 37 4.3.3. Hàm cho điều khiển hệ thống ........................................... 38 4.3.4. Hàm cho bộ nhớ Flash ..................................................... 39 4.3.5. Hàm đa dụng..................................................................... 40 Chương 5. Thiết kế hệ thống nhận dạng tiếng nói Tiếng Việt........................ 41 5.1. Thiết kế mạch thu âm ................................................................. 42 5.1.1. Khối mạch tiền khuếch đại micro tự điều chỉnh độ lợi ..... 43 5.1.2. Khối mạch lọc thông dãy................................................... 47 5.1.3. Khối mạch giao tiếp ADC ................................................. 53 5.2. Thiết kế chương trình lấy mẫu tín hiệu ...................................... 56 5.2.1. Lấy mẫu tín hiệu cho chương trình nhận dạng chạy trên PC 56 5.2.2. Lấy mẫu tín hiệu cho chương trình nhận dạng chạy trên Kit LM3S2965........................................................... 57 5.3. Thiết kế chương trình trích đặc trưng tín hiệu tiếng nói Tiếng Việt 58 5.4. Thiết kế cấu trúc mạng nơron..................................................... 61 5.5. Thiết kế giao diện chương trình chạy trên Kit LM3S2965 ........ 62 Chương 6. Kết quả đạt được và hướng phát triển ........................................... 63 6.1. Kết quả đạt được của chương trình chạy trên PC ...................... 63 6.2. Kết quả đạt được của chương trình chạy trên Kit LM3S2965... 66 6.3. Hạn chế của đề tài và hướng phát triển ...................................... 68 6.2.1. Đối với chương trình nhận dạng trên máy tính cá nhân .... 68 6.3.2. Đối với chương trình nhận dạng chạy trên Kit LM3S2965 68 Tài liệu tham khảo .......................................................................................... 70 v HVTH: Phan Văn Đầy Luận văn tốt nghiệp thạc sĩ GVHD: PGS.TS.Lê Tiến Thường DANH SÁCH CÁC CHỮ VIẾT TẮT ADC (Analog to Digital Converter) : Bộ biến đổi tương tự - số AGC (Automatic Gain Control) : Điều khiển độ lợi tự động ARM (Advanced RISC Machine) : Máy RISC tiên tiến DAC (Digital to Analog Converter) : Bộ đổi số sang tương tự DFT (Discrete Fourier Transform) : Biến đổi Fourier rời rạc FBA (Flux Balance Analysis) : Phân tích cân bằng thông lượng FET (Field Effect Transistor) : Transitor trường ứng FFT (Fast Fourier Transform) : Biến đổi Fourier nhanh FIFO (First In, First Out) : Vào trước ra trước IDFT (Inverse Discrete Fourier Transform) : Biến đổi ngược Fourier rời rạc IFFT (Inverse Fast Fourier Transform) : Biến đổi ngược Fourier nhanh KSPS (Kilo Samples Per Second) : Nghìn mẫu trên giây LPC (Linear Prediction Cepstral Coefficients) : Hệ số phổ đặc trưng dự đoán tuyến tính. MSPS (Mega Samples Per Second) : Triệu mẫu trên giây MFCC (Mel-scale Frequency Cepstral Coefficient) : Hệ số phổ đặc trưng thang tần số Mel OLED (Organic Light Emission Diode ) : Điốt phát sáng Organic OP-AMP (Operational Amplifier) : Bộ khuếch đại thuật toán PC (Personal Computer) : Máy tính cá nhân RISC (Reduced Instruction Set Computing) : Tính toán với tập lệnh rút gọn SRAM (Static Random Access Memory) : Bộ nhớ tĩnh truy xuất ngẫu nhiên USB (Universal Serial Bus) : Bus nối tiếp đa dụng vi HVTH: Phan Văn Đầy Luận văn tốt nghiệp thạc sĩ GVHD: PGS.TS.Lê Tiến Thường DANH SÁCH CÁC HÌNH Hình Trang Hình 1.1: Đồ thị cường độ quá trình phát âm của âm tiết “xanh xanh”. 8 Hình 2.1: Lưu đồ giải thuật hệ thống nhận dạng tiếng nói dùng mạng nơron. ...................................................................................... 11 Hình 2.2: Đồ thị dạng sóng tín hiệu trong thời gian dài ......................... 13 Hình 2.3: Đồ thị dạng sóng tín hiệu trong thời gian ngắn. ..................... 13 Hình 2.4: Lưu đồ giải thuật xác định điểm đầu, điểm cuối dùng phương pháp so sánh năng lượng thời gian ngắn.................................. 14 Hình 2.5: Lưu đồ trích đặc trưng tiếng nói bằng giải thuật MFCC. ....... 16 Hình 2.6: Đồ thị biểu diễn quan hệ giữa tần số Mel va Hertz. ............... 18 Hình 2.7: Đồ thị dãy bộ lọc Mel dạng tam giác gồm 27 bộ lọc con. ...... 19 Hình 3.1: Sơ đồ minh họa một nơron sinh học ....................................... 21 Hình 3.2: Mô hình của một mạng nơron nhân tạo tổng quát .................. 22 Hình 3.3: Đồ thị hàm nấc ........................................................................ 22 Hình 3.4: Đồ thị hàm dốc........................................................................ 23 Hình 3.5: Đồ thị hàm Sigmoid ................................................................ 23 Hình 3.6: Minh họa sơ đồ mạng nơron kết nối đầy đủ ........................... 24 Hình 3.7: Minh họa cho mạng nơron phân lớp ....................................... 24 Hình 3.8: Minh họa cho mạng nơron truyền thẳng................................. 25 Hình 3.9: Minh hoạt cấu trúc mạng nơron một lớp ẩn............................ 26 Hình3.10: Cấu trúc mạng nơron với nút ra thứ k, nút ẩn thứ j và nút vào thứ i............................................................................................. 28 Hình 3.11 Lưu đồ giải thuật huấn luyện mạng lan truyền ngược. .......... 30 Hình 4.1: Sơ đồ khối của LM3S2965 ..................................................... 33 Hình 4.2: Sơ đồ khối lõi ARM cortex M3 .............................................. 34 Hình 4.3: Sơ đồ khối của khối bộ ADC .................................................. 35 Hình 4.4: Màn hình OLED...................................................................... 36 vii HVTH: Phan Văn Đầy Luận văn tốt nghiệp thạc sĩ GVHD: PGS.TS.Lê Tiến Thường Hình 5.1: Sơ đồ khối hệ thống nhận dạng tiếng nói................................ 41 Hình 5.2: Sơ đồ khối mạch thu âm. ........................................................ 42 Hình 5.3: Sơ đồ mạch nguyên lý của electret microphone. .................... 43 Hình 5.4: Sơ đồ khối mạch AGC cơ bản. .............................................. 43 Hình 5.5: Sơ đồ mạch nguyên lý mạch khuếch đại có độ lợi thay đổi theo điện trở ngõ vào Rq......................................................... 44 Hình 5.6: Sơ đồ mạch nguyên lý mạch khuếch đại có độ lợi thay đổi theo điện trở ngõ vào Rq.......................................................... 46 Hình 5.7: Sơ đồ nguyên lý khối mạch tách biên độ, lọc và khuếch đại . tín hiệu điều khiển độ lợi. ........................................................ 47 Hình 5.8: Cấu trúc tổng quát mạch lọc Sallen-Key bậc hai.................... 48 Hình 5.9: Sơ đồ khối vẽ lại của mạch hình 5.8 ....................................... 49 Hình 5.10: Sơ đồ nguyên lý mạch lọc thông thấp Sallen-Key................ 50 Hình 5.11: Sơ đồ nguyên lý mạch lọc thông cao Sallen-Key. ................ 51 Hình 5.12: Sơ đồ nguyên lý mạch lọc thông dãy.................................... 52 Hình 5.13: Sơ đồ nguyên lý mạch khuếch đại có thể điều chỉnh độ lợi. 52 Hình 5.14: Sơ đồ nguyên lý nguồn tín hiệu hoạt động chế độ đơn cực.. 53 Hình 5.15: Sơ đồ nguyên lý nguồn tín hiệu hoạt động chế độ vi sai ..... 53 Hình 5.16: Sơ đồ nguyên lý liên lạc tín hiệu dùng biến áp..................... 54 Hình 5.17: Sơ đồ nguyên lý mạch đệm tín hiệu...................................... 54 Hình 5.18: Sơ đồ nguyên lý mạch đảo tín hiệu....................................... 55 Hình 5.19: Sơ đồ mạch thu âm, lọc và giao tiếp ADC hoàn chỉnh......... 55 Hình 5.20: Lưu đồ giải thuật lấy mẫu tín hiệu dùng cho chương trình chạy trên máy tính cá nhân. .................................................. 56 Hình 5.21: Lưu đồ giải thuật xác định một frame tín hiệu là tiếng hay nhiễu. .............................................................................. 57 Hình 5.22: Lưu đồ giải thuật lấy mẫu tín hiệu dùng cho chương trình chạy trên Kit LM3S2965....................................................... 58 Hình 5.23: Sơ đồ bướm tính FFT phân chia theo thời gian. ................... 60 viii HVTH: Phan Văn Đầy Luận văn tốt nghiệp thạc sĩ GVHD: PGS.TS.Lê Tiến Thường Hình 5.23: Sơ đồ bướm tính FFT phân chia theo thời gian. ................... 60 Hình 6.1: Giao diện chính của chương trình........................................... 63 Hình 6.2: Giao diện thu âm và lưu trữ mẫu dung để huấn luyện mạng nơron 64 Hình 6.3: Giao diện để kiểm tra lại các mẫu đã được lưu ...................... 64 Hình 6.4: Giao diện công cụ huấn luyện mạng nơron có sẳn của Matlab 7.7 65 Hình 6.5: Giao diện ghi âm, phân tích và hiển thị kết quả nhận dạng.... 65 Hình 6.6: Hình ảnh bộ Kit ARM-LM3S2965 ......................................... 66 Hình 6.7: Hình ảnh bo mạch thu âm, giao tiếp Kit ................................. 67 DANH SÁCH CÁC BẢNG Bảng Trang Bảng 3.1: Cấu trúc tổng quát âm tiết Tiếng Việt .................................... 8 Bảng 5.1: Mô tả cách đảo bit cho việc tính FFT 8 điểm......................... 60 ix HVTH: Phan Văn Đầy Luận văn tốt nghiệp thạc sĩ GVHD: PGS.TS.Lê Tiến Thường LỜI MỞ ĐẦU ARM(Advanced RISC Machine) là họ máy tính có kiến trúc RISC tiên tiến, (kiến trúc tính toán với tập lệnh rút gọn tiên tiến). Kit LM3S2965 là Kit xử lý 32 bit họ ARM có nhiều tính năng thuận lợi cho việc nghiên cứu như: - Có kiến trúc RISC với tập lệnh rút gọn và hầu hết các lệnh được thực hiện trong một chu kỳ máy với kiến trúc xử lý song song. - Được thiết kế chủ yếu cho các ứng dụng nhúng, có kích thước nhỏ, giảm hao phí năng lượng. - Được thiết kế để tích hợp vào các sản phẩm khác, có các thiết bị ngoại vi tùy chọn để giao tiếp theo nhu cầu chức năng của hệ thống. - Có tập lệnh hỗ trợ lập trình bằng ngôn ngữ ASM, ngôn ngữ C và C++ với nhiều phần mềm lập trình nhúng như Keil uVision, IAR Embedded Workbench, CodeSourcery Sourcery G++, … - Có vùng nhớ SRAM 64 KB dùng chứa Code lập trình, flash 256KB dùng để dùng làm bộ nhớ trong và có thể được cấu hình sử dụng như bộ nhớ lưu trữ. Vì vậy đề tài chọn việc nghiên cứu Kit LM3S2965 với kỳ vọng là có thể khai thác tính năng của Kit để thực hiện công việc nhận dạng tiếng nói Tiếng Việt với từ vựng là các từ dùng để điều khiển cánh tay Robot: “Kẹp”, “Nhả”, “Tiến”, “Lùi”, “Trái”, “Phải”, “Nâng”, “Hạ”, “Dừng”. Mục tiêu cần hướng tới của đề tài là thực hiện nhận dạng các từ lệnh điều khiển cánh tay Robot vừa nêu trên Kit LM3S2965 để điều khiể cánh tay Robot 5 bậc tự do. Tiếng nói người là loại tín hiệu khá phức tạp, luôn thay đổi theo không gian, thời gian,…Để hiểu được tiếng nói, bộ não con người phải trải qua quá trình học và xử lý rất phức tạp. Mạng nơron nhân tạo là hệ thống mô phỏng một số tính chất của não người (mạng nơron sinh học). Nó có khả năng học quan hệ giữa các biến đầu vào và đầu ra khi dữ liệu đầu vào không có qui luật hoặc qui luật không rõ ràng. Vì vậy đề tài chọn mạng nơron nhân tạo làm công cụ chính để học các đặc trưng tiếng nói và dùng cấu trúc mạng nơron nhân tạo đã được học để nhận dạng tiếng nói với kỳ vọng là nâng cao được độ chính xác của kết quả nhận dạng tiếng nói . Nhận dạng tiếng nói là một quá trình nhận dạng mẫu, với mục đích là phân lớp mẫu tín hiệu tiếng nói ghi được dựa vào thông tin của các mẫu đã được lưu Lời mở đầu 1 HVTH: Phan Văn Đầy Luận văn tốt nghiệp thạc sĩ GVHD: PGS.TS.Lê Tiến Thường trước đó. Các mẫu là các đơn vị nhận dạng, chúng có thể là các từ, hoặc các âm tiết. Nếu các mẫu này là bất biến và không thay đổi thì công việc nhận dạng tiếng nói trở nên đơn giản bằng cách so sánh dữ liệu tiếng nói cần nhận dạng với các mẫu đã được học và lưu trữ trong bộ nhớ. Khó khăn cơ bản của nhận dạng tiếng nói là tiếng nói luôn biến thiên theo thời gian và có sự khác biệt lớn giữa tiếng nói của những người nói khác nhau, tốc độ nói, ngữ cảnh và môi trường âm học khác nhau. Việc xác định những thông tin biến thiên nào của tiếng nói là có ích đối với nhận dạng tiếng nói là rất quan trọng. Đây là một nhiệm vụ rất khó khăn mà ngay cả với các kỹ thuật xác suất thống kê mạnh cũng khó khăn trong việc tổng quát hoá từ các mẫu tiếng nói những biến thiên quan trọng cần thiết trong nhận dạng tiếng nói. Các nghiên cứu về nhận dạng tiếng nói dựa trên ba nguyên tắc cơ bản: • Tín hiệu tiếng nói có thể được biểu diễn bởi các giá trị phổ khi xét tín hiệu một khung thời gian ngắn. Ta có thể trích ra các đặc điểm tiếng nói từ những khoảng thời gian ngắn và dùng các đặc điểm này làm dữ liệu để nhận dạng tiếng nói. • Thông tin tiếng nói có thể được biểu diễn dưới dạng chữ viết và tiếng nói là phát âm của chữ viết, là một dãy các ký hiệu ngữ âm. Do đó ý nghĩa của một từ phát âm được bảo toàn khi chúng ta phát âm từ đó thành dãy các ký hiệu ngữ âm. Nhận dạng tiếng nói của con người còn là một quá trình nhận thức. Thông tin về ngữ nghĩa và suy đoán có giá trị trong quá trình nhận dạng tiếng nói, nhất là khi thông tin về âm học là không rõ ràng. • Các thành tựu trong lĩnh vực nhận dạng tiếng nói được áp dụng trong rất nhiều lĩnh vực, đặc biệt là trong lĩnh vực điều khiển học. Nhận dạng và xử lý tiếng nói đã được ứng dụng rộng rãi trong các lĩnh vực như: quay số bằng tiếng nói của điện thoại di động, điều khiển robot với bộ từ vựng nhỏ… Tuy nhiên, việc giao tiếp giữa người và máy phải thông qua các thiết bị xuất nhập chuẩn. Để ngày càng tự nhiên hóa việc giao tiếp và điều khiển máy móc, vấn đề nghiên cứu các phương pháp nhận dạng tiếng nói được đặt ra. Đã có một số phần mềm ra đời nhận dạng tiếng Anh tương đối tốt như Via voice của IBM, spoken toolkit của trung tâm hiểu biết ngông ngữ tiêng nói CSLU (Central of Spoken Laguage Understanding). Tuy nhiên đối với Tiếng Việt thì chưa có hệ thống nhận dạng hoàn chỉnh nào được xây dựng. Vấn đề này chỉ mới được quan tâm nghiên cứu trong những năm gần đây. Năm 2004, phần mềm Vspeech của nhóm BK02 đại học bách khoa Thành phố Hồ Chí Minh đã mang đến khả năng giao tiếp máy tính bằng tiếng nói. Cho đến nay, đã có thêm một số công trình nghiên cứu về lĩnh vực này với nhiều hướng tiếp cận khác nhau, song Lời mở đầu 2 HVTH: Phan Văn Đầy Luận văn tốt nghiệp thạc sĩ GVHD: PGS.TS.Lê Tiến Thường kết quả đạt được vẫn còn rất khiêm tốn và chưa được ứng dụng nhiều trong kỹ thuật. Phương pháp nhận dạng dùng mạng thần kinh nhân tạo tỏ ra khá hiệu quả trong việc tăng độ chính xác của nhận dạng. Các mẫu tín hiệu tiếng nói của nhiều người ở nhiều vùng, môi trường khác nhau sẽ được tập hợp để hệ thống học các đặc trưng cơ bản của tiếng nói. Việc nhúng thành công các chương trình nhận dạng tiếng nói Tiếng Việt vào các Kit xử lý nhỏ gọn có ý nghĩa lớn trong việc phát triển rộng các ứng dụng kết quả nhận dạng tiếng nói Tiếng Việt vào các lĩnh vực khoa học kỹ thuật, đặc biệt trong lĩnh vực điều khiển. Đề tài này tập trung nghiên cứu việc nhận dạng tiếng nói dùng mạng noron trên máy tính cá nhân được viết bằng ngôn ngữ Matlab để làm cơ sở định hướng và triển khai nhúng chương trình nhận dạng tiếng nói Tiếng Việt trên Kit LM3S2965, được viết bằng ngôn ngữ C. Phương pháp nghiên cứu chính là tìm hiểu thông tin qua các tư liệu có liên quan, tổng hợp, chọn ra phương pháp thực hiện và triển khai ý tưởng lập trình, thiết kế hệ thống. Thiết kế và lập trình từng công đoạn, sau đó tổng hợp và điều chỉnh dần các công đoạn cho đến khi hoàn chỉnh. Cơ sở lý thuyết có liên quan bao gồm lý thuyết về ngữ âm Tiếng Việt, lý thuyết về mạng nơron nhân tạo, phương pháp trích đặc trưng và nhận dạng tiếng nói. Các lý thuyết này được tìm thấy chủ yếu trong các đề tài luận văn tốt nghiệp và các bài báo. Phần mềm được dùng trong đề tài bao gồm: Phần mềm ngôn ngữ lập trình Matlab 7.7, phần mềm vẽ mạch Multisim 9.0, phần mềm lập trình nhúng IAR Embedded Workbench. Các phần mềm này được chạy trên nền hệ điều hành Window XP. Phần cứng được dùng trong đề tài là bộ Kit LM3S2965 của hãng Luminary Micro, cánh tay Robot 5 bậc tự do, máy tính cá nhân và board mạch thu âm và giao tiếp giữa mạch thu âm với Kit LM3S2965, mạch giao tiếp giữa bo mạch LM3S2965 và cánh tay Robot 5 bậc tự do được tác giả thiết kế. Lời mở đầu 3 HVTH: Phan Văn Đầy
- Xem thêm -