Tài liệu Nhận dạng tiếng nói tiếng việt bằng phương pháp học sâu

.PDF

tailieuonline Báo vi phạm

Tải xuống 98

Mô tả:

ỦY BAN NHÂN DÂN TỈNH BÌNH DƯƠNG TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT TRẦN THANH HIỆP NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT BẰNG PHƯƠNG PHÁP HỌC SÂU CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN MÃ SỐ: 8480104 LUẬN VĂN THẠC SĨ BÌNH DƯƠNG – 2021 UỶ BAN NHÂN DÂN TỈNH BÌNH DƯƠNG TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT TRẦN THANH HIỆP NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT BẰNG PHƯƠNG PHÁP HỌC SÂU CHUYÊN NGÀNH: HỆ THÔNG THÔNG TIN MÃ SỐ: 8480104 LUẬN VĂN THẠC SĨ NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. BÙI THANH HÙNG BÌNH DƯƠNG – 2021 ii LỜI CAM ĐOAN Tên tôi là: Trần Thanh Hiệp Sinh ngày: 14/02/1981 Học viên lớp cao học CH19HT01 – Trường Đại học Thủ Dầu Một Xin cam đoan: Đề tài “Nhận dạng tiếng nói tiếng Việt bằng phương pháp học sâu.” do Thầy TS. Bùi Thanh Hùng hướng dẫn là công trình nghiên cứu của riêng tôi. Tất cả tài liệu tham khảo đều có nguồn gốc, trích dẫn rõ ràng. Tác giả xin cam đoan tất cả những nội dung trong luận văn đúng như nội dung trong đề cương và yêu cầu của thầy giáo hướng dẫn. Nếu sai tôi hoàn toàn chịu trách nhiệm trước hội đồng khoa học. Bình Dương, tháng 09 năm 2021 Tác giả luận văn Trần Thanh Hiệp iii LỜI CẢM ƠN Sau thời gian nghiên cứu và làm việc nghiêm túc, được sự động viên, giúp đỡ và hướng dẫn tận tình của Thầy hướng dẫn TS. Bùi Thanh Hùng, luận văn Cao học “Nhận dạng tiếng nói tiếng Việt bằng phương pháp học sâu” đã hoàn thành. Tôi xin bày tỏ lòng biết ơn sâu sắc đến: Thầy hướng dẫn TS.Bùi Thanh Hùng đã tận tình chỉ dẫn, giúp đỡ tôi hoàn thành luận văn này. Đồng thời tôi gửi lời cảm ơn đến các thầy, cô đã giảng dạy truyền đạt kiến thức quý báo cho tôi trong suốt thời gian học tập và nghiên cứu. Tôi chân thành cảm ơn bạn bè, đồng nghiệp và gia đình đã động viên, khích lệ, tạo điều kiện giúp đỡ tôi trong suốt quá trình học tập, thực hiện và hoàn thành luận văn này. iv MỤC LỤC MỤC LỤC .....................................................................................................v TÓM TẮT LUẬN VĂN............................................................................. vii SUMMARY ............................................................................................... viii DANH MỤC CHỮ VIẾT TẮT ...................................................................ix DANH MỤC BẢNG BIỂU ...........................................................................x DANH MỤC HÌNH, ĐỒ THỊ .....................................................................xi CHƯƠNG 1 .................................................................................................13 TỔNG QUAN VỀ LĨNH VỰC NGHIÊN CỨU .......................................13 1.1. Lý do chọn đề tài ......................................................................................... 13 1.2. Mục tiêu nghiên cứu .................................................................................... 13 1.3. Đối tượng, phạm vi nghiên cứu ................................................................... 14 1.4. Phương pháp nghiên cứu ............................................................................. 14 1.5. Ý nghĩa khoa học và thực tiễn ..................................................................... 14 1.6. Bố cục luận văn ........................................................................................... 15 CHƯƠNG 2 .................................................................................................17 CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN .............. 17 2.1. Mạng Nơ-ron tích chập................................................................................ 17 2.1.1. Mạng Nơ-ron nhân tạo ..................................................................................... 17 2.1.2. Mạng Nơ-ron tích chập .................................................................................... 25 2.2. Các mô hình học sâu CNN .......................................................................... 31 2.2.1. Sự hình thành và phát triển .............................................................................. 31 2.2.2. Các mô hình CNN tiêu biểu ............................................................................. 32 2.3. Xử lý âm thanh ............................................................................................ 40 2.3.1. Các đặc trưng chính của âm thanh ................................................................... 40 2.3.2. Các phương pháp xử lý âm thanh .................................................................... 42 2.4. Các nghiên cứu liên quan ............................................................................ 43 v 2.5. Hướng đề xuất nghiên cứu .......................................................................... 47 CHƯƠNG 3 .................................................................................................49 MÔ HÌNH ĐỀ XUẤT ................................................................................. 49 3.1. Tổng quan mô hình đề xuất ......................................................................... 49 3.2. Các đặc trưng của mô hình đề xuất ............................................................. 50 3.2.1. Trích xuất đặc trưng Log-Mel Spectrogram .................................................... 50 3.2.2. Huấn luyện mô hình ......................................................................................... 58 3.2.3. Phương pháp đánh giá ...................................................................................... 67 CHƯƠNG 4 .................................................................................................70 THỰC NGHIỆM ........................................................................................ 70 4.1. Dữ liệu ......................................................................................................... 70 4.1.1. Thu thập dữ liệu ............................................................................................... 70 4.1.2. Xử lý dữ liệu .................................................................................................... 71 4.2. Kết quả thực nghiệm ................................................................................... 71 4.2.1. Công nghệ sử dụng .......................................................................................... 71 4.2.2. Trích xuất đặc trưng ......................................................................................... 72 4.2.3. Nhận dạng tiếng nói ......................................................................................... 72 4.3. Ứng dụng nhận dạng tiếng nói tiếng Việt ................................................... 76 4.3.1. Thiết kế ............................................................................................................ 76 4.3.2. Ứng dụng ......................................................................................................... 77 CHƯƠNG 5 .................................................................................................84 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN................................................. 84 5.1. Kết quả đạt được.......................................................................................... 84 5.2. Hướng phát triển .......................................................................................... 85 CÔNG TRÌNH CÔNG BỐ ........................................................................86 TÀI LIỆU THAM KHẢO ..........................................................................87 vi TÓM TẮT LUẬN VĂN Trong kỷ nguyên kỹ thuật số, không thể phủ nhận rằng nhận dạng giọng nói có ý nghĩa quan trọng trong các khía cạnh khác nhau của cuộc sống. Cùng với sự bùng nổ của trí tuệ nhân tạo, đã có rất nhiều những công trình nghiên cứu về học sâu được công bố, trong số đó lĩnh vực xử lý ngôn ngữ tự nhiện nói chung cũng như nhận dạng tiếng nói nói riêng là một trong các lĩnh vực được rất nhiều người quan tâm. Trong đó, bài toán nhận dạng tiếng nói tiếng Việt bằng phương pháp học sâu mang lại hiệu quả cao bởi tính ổn định và thích nghi rất tốt khi dữ liệu đầu vào có thay đổi. Giao tiếp bằng lời nói là phương tiện giao tiếp tiêu biểu nhất trong đời sống của con người. Giọng nói mang nhiều thông tin đến người đang nói. Để nhận được giọng nói từ một người, có một số tính năng nhất định tồn tại trong tín hiệu của giọng nói. Bởi vì thông tin có giá trị của nó, có rất nhiều ứng dụng sử dụng nhận dạng giọng nói như: trò chuyện, phát hiện người, bảo mật, kinh doanh, v.v. Luận văn đề xuất một phương pháp sử dụng mô hình học sâu mạng nơ-ron tích chập (CNN) để nhận dạng giọng nói tiếng Việt thông qua trích xuất tính năng Mel Spectrogram và sử dụng Mạng nơ ron nhân tạo để phân biệt giọng nói theo giới tính và vùng miền. Các thử nghiệm được thực hiện trên tập dữ liệu âm thanh VIVOS và bộ dữ liệu từ cuộc thi về phân biệt giọng nói của cuộc thi Zalo AI 2019 đạt độ chính xác tốt về dự đoán giới tính và vùng miền của giọng nói tiếng Việt. vii SUMMARY In the digital era, it cannot be denied that speech recognition is important in various aspects of life. Along with the explosion of artificial intelligence, there have been many published research works on deep learning, in which the field of natural language processing in general as well as speech recognition in particular is one of them. in areas of great interest. In particular, the problem of Vietnamese speech recognition by deep learning method brings high efficiency because of its very good stability and adaptability when the input data changes. Verbal communication is the most typical means of communication in human life. Voice carries a lot of information to the person speaking. In order to receive a voice from a person, certain features exist in the signal of the voice. Because of its valuable information, there are many applications that use voice recognition such as: chat, person detection, security, business, etc. In this thesis, I would like to propose a method using deep learning model of convolutional neural network (CNN) to recognize Vietnamese voice through Mel Spectrogram feature extraction and using Artificial Neural Networks. to distinguish voices by gender and region. The tests performed on the VIVOS audio dataset and the data set from the Zalo AI 2019 speech discrimination contest achieved good accuracy in predicting the gender and region of the Vietnamese voice. viii DANH MỤC CHỮ VIẾT TẮT KÝ HIỆU TÊN TIẾNG ANH DNN Deep Neural Network CNN Convolution Neural Network ANN Artificial Neural Network AI Artificial Intelligence MFCC Mel Frequency Cepstral Coefficient LPC Linear Prediction Coefficient LPCC Linear Prediction Cepstral Coefficient PLP Perceptual Linear Predictive AUC Area Under the Curve ix DANH MỤC BẢNG BIỂU Bảng 4.1 Bảng dữ liệu huấn luyện ................................................................ 70 Bảng 4.2 Bảng thống kê dữ liệu lời nói Vivos Corpus .................................71 Bảng 4.3 Bảng chi tiết thông số của mô hình ............................................... 73 Bảng 4.4 Bảng kết quả đánh giá ...................................................................74 Bảng 4.5 Bảng kết quả đánh giá với VGG-16 .............................................. 75 Bảng 4.6 Bảng kết quả đánh giá với CNN – 5 tầng......................................76 Bảng 4.7 Xem đánh giá hệ thống..................................................................81 Bảng 4.8 Xem chi tiết dữ liệu huấn luyện .................................................... 81 Bảng 4.9 Chức năng thu âm giọng nói ......................................................... 82 Bảng 4.10 Bảng chức năng nghe lại giọng nói đã thu âm ............................ 82 Bảng 4.11 Bảng chức năng dự đoán âm thanh đầu vào................................ 83 Bảng 4.12 Bảng chức năng xem kết quả dự đoán ........................................84 x DANH MỤC HÌNH, ĐỒ THỊ Hình 2.1 Mạng Nơ-ron sinh học ...................................................................17 Hình 2.2 Cấu trúc của mạng nơ-ron nhân tạo ............................................... 18 Hình 2.3 Quá trình xử lý của một nơ-ron trong ANN ..................................18 Hình 2.4 Đồ thị hàm ReLU ........................................................................... 19 Hình 2.5 Đồ thị hàm Sigmoid .......................................................................20 Hình 2.6 Đồ thị hàm Tanh ............................................................................ 20 Hình 2.7 AlphaGo của Google .....................................................................22 Hình 2.8 Mô phỏng cách tính lan truyền ngược ........................................... 24 Hình 2.9 Mô hình các lớp cơ bản CNN ........................................................ 26 Hình 2.10 Ví dụ một mô hình CNN ............................................................. 27 Hình 2.11 Minh họa tích chập trên ma trận ảnh ........................................... 29 Hình 2.12 Phương thức Average Pooling và Max Pooling .......................... 30 Hình 2.13 Ví dụ về cấu trúc CNN ................................................................ 31 Hình 2.14 Các cột mốc phát triển của mạng CNN .......................................31 Hình 2.15 Sơ đồ phát triển của các mô hình mạng CNN ............................. 32 Hình 2.16 Các mô hình học sâu CNN .......................................................... 32 Hình 2.17 Kiến trúc LeNet ........................................................................... 33 Hình 2.18 Kiến trúc AlexNet ........................................................................33 Hình 2.19 Kiến trúc VGG-16 .......................................................................34 Hình 2.20 Kiến trúc GoogleNet - Inception version 1 .................................36 Hình 2.21 Kiến trúc GoogleNet - Inception version 3 .................................38 Hình 2.22 Kiến trúc ResNet ..........................................................................39 xi Hình 2.23 Kiến trúc tóm tắt của mang ResNet-50........................................40 Hình 3.1 Mô hình đề xuất nhận dạng tiếng nói tiếng Việt ........................... 49 Hình 3.2 Biểu đồ tần số Spectrogram (phổ âm) của một file âm thanh .......51 Hình 3.3 Sơ đồ khối giải thuật tính phổ Mel-Spec .......................................51 Hình 3.4 Ví dụ về mẫu âm thanh ..................................................................52 Hình 3.5 Phân khung tín hiệu .......................................................................53 Hình 3.6 Tín hiệu trên miền thời gian .......................................................... 54 Hình 3.7 Tín hiệu trên miền tần số tương ứng .............................................. 54 Hình 3.8 Hình minh họa về quá trình biến đổi Fourier ................................ 55 Hình 3.9 Hình minh họa thang đo Mel Scale ............................................... 56 Hình 3.10 Băng lọc khoảng cách theo miền tần số Mel ............................... 57 Hình 3.11 Hình minh họa trước và sau chuyển sang tần số Mel .................. 58 Hình 3.13 Hai cách sắp xếp đặc trưng giọng nói đối với đầu vào của mạng CNN .............................................................................................................. 59 Hình 3.14 Hình minh họa một “lớp” CNN ................................................... 60 Hình 3.15 Hình minh họa quá trình học của mạng CNN ............................. 63 Hình 3.16 Hình minh họa trọng số học tập của mạng CNN ......................... 64 Hình 4.1 Cấu trúc mô hình CNN 3 lớp phức hợp .........................................72 Hình 4.2 Cấu trúc mô hình CNN – VGG16 ................................................. 75 Hình 4.3 Cấu trúc mô hình CNN – 5 tầng .................................................... 75 xii CHƯƠNG 1 TỔNG QUAN VỀ LĨNH VỰC NGHIÊN CỨU Trong chương này, luận văn trình bày khái quát về bài toán nhận dạng âm thanh, tiếng nói và những ứng dụng cũng như mục tiêu của đề tài. 1.1. Lý do chọn đề tài Việt Nam là đất nước đa dạng các nền văn hóa khác nhau, với 54 dân tộc anh em và sự giao thoa văn hóa giữa các vùng miền tạo nên nét đặc trưng trong đời sống. Ngôn ngữ và phương ngữ địa phương cũng thực sự đa dạng. Theo xu thế đó nhận dạng và hỗ trợ giọng nói từng vùng miền đặt ra vấn đề thiết yếu đối với cuộc sống. Ngày nay, việc áp dụng công nghệ thông tin vào hầu hết các lĩnh vực của đời sống đã trở nên quá quen thuộc. Tại Việt Nam AI đã và đang được ứng dụng mạnh mẽ trong nhiều lĩnh vực như y tế, giáo dục, nông nghiệp, giao thông, thương mại điện tử, ... Công nghệ AI cũng đã mang lại cho Việt Nam sự phát triển vượt bậc trong thời gian qua. Luận văn trình bày một phương pháp để nhận dạng tiếng nói tiếng Việt bằng việc áp dụng các ưu điểm của phương pháp học sâu (CNN). Bằng việc trích xuất tính năng Mel Spectrogram và kết hợp sử dụng Mạng nơ ron tích chập để phân biệt giọng nói theo giới tính và vùng miền nước Việt Nam. Chúng tôi tiến hành thử nghiệm trên tập dữ liệu âm thanh VIVOS và bộ dữ liệu từ cuộc thi về phân biệt giọng nói Zalo AI 2019 đạt độ chính xác tốt về dự đoán giới tính và vùng miền của giọng nói tiếng Việt. Các nghiên cứu gần đây cho thấy mạng nơ-ron tích chập CNN mang lại hiệu quả tốt trong nhận dạng vì nó có tính thích nghi cao và hoạt động ổn định. Vì vậy tôi chọn đề tài : “Nhận dạng tiếng nói tiếng Việt bằng phương pháp học sâu” cho luận văn tốt nghiệp cao học của mình. 1.2. Mục tiêu nghiên cứu Luận văn hướng tới việc nghiên cứu thuật toán nhận dạng âm thanh bằng mạng nơ ron tích chập (CNN) và các phương pháp học sâu để trích xuất đặc trưng và phân loại, nhận dạng giọng nói. Qua việc nghiên cứu các phương pháp học sâu cho bài toán nhận dạng giọng nói kết hợp với ngôn ngữ lập trình Python luận văn xây dựng một ứng dụng nhận dạng âm thanh đầu vào với mục tiêu nhận dạng giới tính và vùng miền của âm thanh. 13 1.3. Đối tượng, phạm vi nghiên cứu Để thực hiện được mục tiêu đề ra, luận văn hướng đến nghiên cứu các vấn đề sau: - Tập trung chính vào đối tượng nghiên cứu của luận văn là tiếng nói của con người, các kỹ thuật nhận dạng âm thanh và tiếng nói. - Phạm vi nghiên cứu các phương pháp học sâu, hiệu năng và cách sử dụng chúng từ đó đề xuất một phương pháp cụ thể hiệu quả nhất. 1.4. Phương pháp nghiên cứu Để thực hiện luận văn này, chúng tôi đã sử dụng các phương pháp nghiên cứu sau: - Phương pháp phân tích và tổng hợp lý thuyết: Tìm kiếm, tổng hợp và nghiên cứu các tài liệu về Mạng nơ-ron tích chập (Convolutional Neural Network – CNN); Phương pháp trích xuất đặc trung âm thanh Log Mel Spectrogram, các kỹ thuật trong nhận dạng âm thanh và tiếng nói. Tìm hiểu các kiến thức liên quan đến kỹ thuật, ngôn ngữ lập trình và Flask Web FrameWork. - Phương pháp thực nghiệm: Sau khi nghiên cứu lý thuyết, xác định vấn đề bài toán, đề xuất mô hình, dựa trên kết quả của các nghiên cứu trước đó, luận văn sẽ thực nghiệm mô hình trên một phương pháp học sâu, kết hợp giữa những lợi thế của mô hình CNN tự tạo và các thư viện thích hợp hỗ trợ cho việc xây dựng một hệ thống nhận âm thanh đầu vào, qua quá trình xử lý cho ra kết quả là nhận dạng giới tính và vùng miền của âm thanh, giọng nói. - Phương pháp so sánh và đánh giá: phân tích đánh giá mô hình đề xuất với các mô hình nghiên cứu trước bằng các độ đo Loss và Accuracy. 1.5. Ý nghĩa khoa học và thực tiễn Ý nghĩa khoa học: Luận văn góp phần giới thiệu các lý thuyết về phân tích âm thanh, cách xây dựng một hệ thống nhận dạng, phân loại giới tính và giọng nói vùng miền của Việt Nam. 14 Góp phần nghiên cứu thêm về các mô hình học sâu trong lĩnh vực nhận dạng và phân loại âm thanh phổ biến đang được sử dụng như CNN. Cài đặt thử nghiệm và đánh giá các mô hình phân loại giới tính và nhận dạng giọng nói vùng miền bằng thực nghiệm như CNN 3 lớp, VGG16, CNN 5 tầng tự tạo và đánh giá bằng các độ đo khác nhau. Nghiên cứu này tạo tiền đề cho các nghiên cứu tiếp theo. Ý nghĩa thực tiễn: Luận văn xây dựng ứng dụng trực quan các mô hình để phân loại giới tính và nhận dạng tiếng nói vùng miền nước Việt Nam. Bên cạnh đó ứng dụng cũng thống kê số liệu thể hiện sự so sánh giữa các mô hình khác nhau trong các quá trình huấn luyện, kiểm thử và kiểm tra mô hình nhận dạng giới tính và giọng nói được xây dựng dựa trên mô hình CNN. Luận văn xây dựng thành công hệ thống nhận dạng tiếng nói tiếng Việt, có thể ứng dụng trong thực tế nhiều lĩnh vực như trợ lý ảo, phát hiện người, an ninh - bảo mật, kinh doanh,.. nhằm đáp ứng các yêu cầu nhận dạng và bảo mật ngày càng cao. 1.6. Bố cục luận văn Nội dung luận văn được chia thành các phần như sau: Chương 1: Tổng quan về lĩnh vực nghiên cứu Trình bày khái quát về bài toán nhận dạng âm thanh, tiếng nói và những ứng dụng cũng như mục tiêu của đề tài. Chương 2: Cơ sở lý thuyết và các nghiên cứu liên quan Trình bày cơ sở lý thuyết và các nghiên cứu liên quan đến các thuật toán phát hiện, nhận dạng và phân loại được phát triển trong luận văn. Chương 3: Mô hình đề xuất Trình bày phương pháp phát hiện, phân loại giới tính, phương pháp nhận dạng tiếng nói vùng miền nước Việt Nam, sơ đồ liên kết giữa mô hình và ứng dụng web. Chương 4: Thực nghiệm 15 Trình bày quá trình thực nghiệm, kết quả đạt được, phân tích và đánh giá các kết quả đạt được. Chương 5: Kết luận và hướng phát triển Tổng quát kết quả thực hiện, đưa ra các hướng phát triển cho mô hình trong tương lai. 16 CHƯƠNG 2 CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN Trong chương này, luận văn giới thiệu cơ sở lý thuyết và các nghiên cứu liên quan đến các mô hình mạng nơ-ron, các nghiên cứu liên quan, các thuật toán phát hiện, nhận dạng và phân loại được phát triển trong luận văn. 2.1. Mạng Nơ-ron tích chập 2.1.1. Mạng Nơ-ron nhân tạo Mạng Nơ-ron nhân tạo (Artificial Neural Network – ANN) là mô hình xử lý thông tin được mô phỏng dựa trên hoạt động của hệ thống thần kinh của sinh vật hay còn gọi là mạng Nơ-ron sinh học (hình 2.1). Cấu tạo từ số lượng lớn các nơ-ron được kết nối với nhau để xử lý thông tin. ANN giống như bộ não con người, được học bởi kinh nghiệm thông qua huấn luyện, có khả năng lưu giữ những kinh nghiệm tri thức và sử dụng những tri thức đó trong việc dự đoán các dữ liệu chưa biết. ANN được giới thiệu năm 1943 bởi nhà thần kinh học Warren McCulloch và nhà logic học Walter Pits. Hình 2.1 Mạng Nơ-ron sinh học Các ứng dụng của Mạng neuron được sử dụng trong rất nhiều lĩnh vực như điện, điện tử, kinh tế, quân sự,… để giải quyết các bài toán có độ phức tạp và đòi hỏi có độ chính xác cao như điều khiển tự động, khai phá dữ liệu, nhận dạng,… Kiến trúc chung của một mạng nơ ron nhân tạo (ANN) gồm ba tầng: lớp đầu vào (input layer), các lớp ẩn (hidden layers) và cuối cùng là lớp đầu ra (output layer) được mô tả trong hình 2.2, trong đó, lớp ẩn gồm nhiều nơ-ron nhận dữ liệu đầu vào từ 17 các lớp trước đó để xử lý và chuyển đổi các dữ liệu này cho các lớp tiếp theo. Một ANN có thể có nhiều lớp ẩn hoặc không có lớp ẩn. Hình 2.2 Cấu trúc của mạng nơ-ron nhân tạo Mỗi node trong mạng gọi là một nơ-ron. Mỗi nơ-ron nhận các dữ liệu đầu vào xử lý chúng và trả ra một kết quả duy nhất. Kết quả đầu ra của nơ-ron này có thể làm dữ liệu đầu vào của các nơ-ron khác. Hình 2.3 mô tả quá trình xử lý của một nơ-ron trong ANN. Trong đó input là dữ liệu đầu vào, output là kết quả đầu ra. Trọng số liên kết hay trọng số (connection weights hay gọi tắt là weights) là thành phần rất quan trọng, thể hiện mức độ quan trọng đối với quá trình xử lý dữ liệu từ lớp này sang lớp khác. Quá trình học của ANN thực ra là quá trình điều chỉnh trọng số của các dữ liệu đầu vào. Hình 2.3 Quá trình xử lý của một nơ-ron trong ANN 18 Hàm tổng Σ tính tổng của tích trọng số và dữ liệu vào. Hàm tính tổng một nơron của k dữ liệu đầu vào của lớp thứ i 𝑌 = ∑𝑘𝑚=1 𝑋𝑚 𝑊𝑚 (2.1) Hàm kích hoạt hay hàm chuyển đổi 𝑓 tính toán đầu ra của một nơ-ron để chuyển đến lớp tiếp theo trong mạng nơ-ron. Hàm kích hoạt phi tuyến được sử dụng vì mạng chỉ sử dụng các hàm kích hoạt tuyến tính có thể lược giản thông qua các biến đổi đại số thành mô hình perceptron một lớp (là mô hình ANN đơn giản nhất, không có lớp ẩn). Một số hàm kích hoạt phi tuyến thường dùng là ReLU (Rectified Linear Unit), sigmoid, logistic, Gaussian, tanh, softmax. Hình 2.4, 2.5, 2.6 Hàm ReLU: 𝑓 (𝑥) = max⁡(0, 𝑥) (2.2) Hình 2.4 Đồ thị hàm ReLU Hàm Sigmoid: 𝑓 (𝑥 ) = 1 (2.3) 1+𝑒 −𝑥 19 Hình 2.5 Đồ thị hàm Sigmoid Hàm Tanh: 𝑓 (𝑥 ) = 1 1+𝑒 −2𝑥 −1 (2.4) Hình 2.6 Đồ thị hàm Tanh Kết quả xử lý đầu ra hàm tổng của nơ-ron đôi khi quá lớn, hàm kích hoạt thường dùng để xử lý đầu ra này trước khi chuyển đến lớp tiếp theo. Đôi khi thay vì sử dụng hàm kích hoạt, ta thường sử dụng giá trị ngưỡng để kiểm soát đầu ra của nơron. Nếu đầu ra của một nơ-ron nhỏ hơn ngưỡng thì sẽ không được chuyển đến lớp tiếp theo. Một số dạng mạng nơ-ron nhân tạo: 20

- Xem thêm -

Tài liệu Nhận dạng tiếng nói tiếng việt bằng phương pháp học sâu

Tài liệu liên quan

Tài liệu vừa đăng

Tài liệu xem nhiều nhất