ỦY BAN NHÂN DÂN TỈNH BÌNH DƯƠNG
TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT
TRẦN THANH HIỆP
NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT
BẰNG PHƯƠNG PHÁP HỌC SÂU
CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN
MÃ SỐ: 8480104
LUẬN VĂN THẠC SĨ
BÌNH DƯƠNG – 2021
UỶ BAN NHÂN DÂN TỈNH BÌNH DƯƠNG
TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT
TRẦN THANH HIỆP
NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT
BẰNG PHƯƠNG PHÁP HỌC SÂU
CHUYÊN NGÀNH: HỆ THÔNG THÔNG TIN
MÃ SỐ: 8480104
LUẬN VĂN THẠC SĨ
NGƯỜI HƯỚNG DẪN KHOA HỌC:
TS. BÙI THANH HÙNG
BÌNH DƯƠNG – 2021
ii
LỜI CAM ĐOAN
Tên tôi là: Trần Thanh Hiệp
Sinh ngày: 14/02/1981
Học viên lớp cao học CH19HT01 – Trường Đại học Thủ Dầu Một
Xin cam đoan: Đề tài “Nhận dạng tiếng nói tiếng Việt bằng
phương pháp học sâu.” do Thầy TS. Bùi Thanh Hùng hướng dẫn là công
trình nghiên cứu của riêng tôi. Tất cả tài liệu tham khảo đều có nguồn gốc,
trích dẫn rõ ràng.
Tác giả xin cam đoan tất cả những nội dung trong luận văn đúng như
nội dung trong đề cương và yêu cầu của thầy giáo hướng dẫn. Nếu sai tôi
hoàn toàn chịu trách nhiệm trước hội đồng khoa học.
Bình Dương,
tháng 09 năm 2021
Tác giả luận văn
Trần Thanh Hiệp
iii
LỜI CẢM ƠN
Sau thời gian nghiên cứu và làm việc nghiêm túc, được sự động viên,
giúp đỡ và hướng dẫn tận tình của Thầy hướng dẫn TS. Bùi Thanh Hùng,
luận văn Cao học “Nhận dạng tiếng nói tiếng Việt bằng phương pháp
học sâu” đã hoàn thành.
Tôi xin bày tỏ lòng biết ơn sâu sắc đến:
Thầy hướng dẫn TS.Bùi Thanh Hùng đã tận tình chỉ dẫn, giúp đỡ
tôi hoàn thành luận văn này. Đồng thời tôi gửi lời cảm ơn đến các thầy, cô
đã giảng dạy truyền đạt kiến thức quý báo cho tôi trong suốt thời gian học
tập và nghiên cứu.
Tôi chân thành cảm ơn bạn bè, đồng nghiệp và gia đình đã động viên,
khích lệ, tạo điều kiện giúp đỡ tôi trong suốt quá trình học tập, thực hiện và
hoàn thành luận văn này.
iv
MỤC LỤC
MỤC LỤC .....................................................................................................v
TÓM TẮT LUẬN VĂN............................................................................. vii
SUMMARY ............................................................................................... viii
DANH MỤC CHỮ VIẾT TẮT ...................................................................ix
DANH MỤC BẢNG BIỂU ...........................................................................x
DANH MỤC HÌNH, ĐỒ THỊ .....................................................................xi
CHƯƠNG 1 .................................................................................................13
TỔNG QUAN VỀ LĨNH VỰC NGHIÊN CỨU .......................................13
1.1. Lý do chọn đề tài ......................................................................................... 13
1.2. Mục tiêu nghiên cứu .................................................................................... 13
1.3. Đối tượng, phạm vi nghiên cứu ................................................................... 14
1.4. Phương pháp nghiên cứu ............................................................................. 14
1.5. Ý nghĩa khoa học và thực tiễn ..................................................................... 14
1.6. Bố cục luận văn ........................................................................................... 15
CHƯƠNG 2 .................................................................................................17
CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN .............. 17
2.1. Mạng Nơ-ron tích chập................................................................................ 17
2.1.1. Mạng Nơ-ron nhân tạo ..................................................................................... 17
2.1.2. Mạng Nơ-ron tích chập .................................................................................... 25
2.2. Các mô hình học sâu CNN .......................................................................... 31
2.2.1. Sự hình thành và phát triển .............................................................................. 31
2.2.2. Các mô hình CNN tiêu biểu ............................................................................. 32
2.3. Xử lý âm thanh ............................................................................................ 40
2.3.1. Các đặc trưng chính của âm thanh ................................................................... 40
2.3.2. Các phương pháp xử lý âm thanh .................................................................... 42
2.4. Các nghiên cứu liên quan ............................................................................ 43
v
2.5. Hướng đề xuất nghiên cứu .......................................................................... 47
CHƯƠNG 3 .................................................................................................49
MÔ HÌNH ĐỀ XUẤT ................................................................................. 49
3.1. Tổng quan mô hình đề xuất ......................................................................... 49
3.2. Các đặc trưng của mô hình đề xuất ............................................................. 50
3.2.1. Trích xuất đặc trưng Log-Mel Spectrogram .................................................... 50
3.2.2. Huấn luyện mô hình ......................................................................................... 58
3.2.3. Phương pháp đánh giá ...................................................................................... 67
CHƯƠNG 4 .................................................................................................70
THỰC NGHIỆM ........................................................................................ 70
4.1. Dữ liệu ......................................................................................................... 70
4.1.1. Thu thập dữ liệu ............................................................................................... 70
4.1.2. Xử lý dữ liệu .................................................................................................... 71
4.2. Kết quả thực nghiệm ................................................................................... 71
4.2.1. Công nghệ sử dụng .......................................................................................... 71
4.2.2. Trích xuất đặc trưng ......................................................................................... 72
4.2.3. Nhận dạng tiếng nói ......................................................................................... 72
4.3. Ứng dụng nhận dạng tiếng nói tiếng Việt ................................................... 76
4.3.1. Thiết kế ............................................................................................................ 76
4.3.2. Ứng dụng ......................................................................................................... 77
CHƯƠNG 5 .................................................................................................84
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN................................................. 84
5.1. Kết quả đạt được.......................................................................................... 84
5.2. Hướng phát triển .......................................................................................... 85
CÔNG TRÌNH CÔNG BỐ ........................................................................86
TÀI LIỆU THAM KHẢO ..........................................................................87
vi
TÓM TẮT LUẬN VĂN
Trong kỷ nguyên kỹ thuật số, không thể phủ nhận rằng nhận dạng
giọng nói có ý nghĩa quan trọng trong các khía cạnh khác nhau của cuộc
sống. Cùng với sự bùng nổ của trí tuệ nhân tạo, đã có rất nhiều những công
trình nghiên cứu về học sâu được công bố, trong số đó lĩnh vực xử lý ngôn
ngữ tự nhiện nói chung cũng như nhận dạng tiếng nói nói riêng là một trong
các lĩnh vực được rất nhiều người quan tâm. Trong đó, bài toán nhận dạng
tiếng nói tiếng Việt bằng phương pháp học sâu mang lại hiệu quả cao bởi
tính ổn định và thích nghi rất tốt khi dữ liệu đầu vào có thay đổi.
Giao tiếp bằng lời nói là phương tiện giao tiếp tiêu biểu nhất trong
đời sống của con người. Giọng nói mang nhiều thông tin đến người đang
nói. Để nhận được giọng nói từ một người, có một số tính năng nhất định
tồn tại trong tín hiệu của giọng nói. Bởi vì thông tin có giá trị của nó, có rất
nhiều ứng dụng sử dụng nhận dạng giọng nói như: trò chuyện, phát hiện
người, bảo mật, kinh doanh, v.v.
Luận văn đề xuất một phương pháp sử dụng mô hình học sâu mạng
nơ-ron tích chập (CNN) để nhận dạng giọng nói tiếng Việt thông qua trích
xuất tính năng Mel Spectrogram và sử dụng Mạng nơ ron nhân tạo để phân
biệt giọng nói theo giới tính và vùng miền. Các thử nghiệm được thực hiện
trên tập dữ liệu âm thanh VIVOS và bộ dữ liệu từ cuộc thi về phân biệt
giọng nói của cuộc thi Zalo AI 2019 đạt độ chính xác tốt về dự đoán giới
tính và vùng miền của giọng nói tiếng Việt.
vii
SUMMARY
In the digital era, it cannot be denied that speech recognition is
important in various aspects of life. Along with the explosion of artificial
intelligence, there have been many published research works on deep
learning, in which the field of natural language processing in general as
well as speech recognition in particular is one of them. in areas of great
interest. In particular, the problem of Vietnamese speech recognition by
deep learning method brings high efficiency because of its very good
stability and adaptability when the input data changes.
Verbal communication is the most typical means of communication in
human life. Voice carries a lot of information to the person speaking. In
order to receive a voice from a person, certain features exist in the signal of
the voice. Because of its valuable information, there are many applications
that use voice recognition such as: chat, person detection, security,
business, etc.
In this thesis, I would like to propose a method using deep learning
model of convolutional neural network (CNN) to recognize Vietnamese
voice through Mel Spectrogram feature extraction and using Artificial
Neural Networks. to distinguish voices by gender and region. The tests
performed on the VIVOS audio dataset and the data set from the Zalo AI
2019 speech discrimination contest achieved good accuracy in predicting
the gender and region of the Vietnamese voice.
viii
DANH MỤC CHỮ VIẾT TẮT
KÝ HIỆU
TÊN TIẾNG ANH
DNN
Deep Neural Network
CNN
Convolution Neural Network
ANN
Artificial Neural Network
AI
Artificial Intelligence
MFCC
Mel Frequency Cepstral Coefficient
LPC
Linear Prediction Coefficient
LPCC
Linear Prediction Cepstral Coefficient
PLP
Perceptual Linear Predictive
AUC
Area Under the Curve
ix
DANH MỤC BẢNG BIỂU
Bảng 4.1 Bảng dữ liệu huấn luyện ................................................................ 70
Bảng 4.2 Bảng thống kê dữ liệu lời nói Vivos Corpus .................................71
Bảng 4.3 Bảng chi tiết thông số của mô hình ............................................... 73
Bảng 4.4 Bảng kết quả đánh giá ...................................................................74
Bảng 4.5 Bảng kết quả đánh giá với VGG-16 .............................................. 75
Bảng 4.6 Bảng kết quả đánh giá với CNN – 5 tầng......................................76
Bảng 4.7 Xem đánh giá hệ thống..................................................................81
Bảng 4.8 Xem chi tiết dữ liệu huấn luyện .................................................... 81
Bảng 4.9 Chức năng thu âm giọng nói ......................................................... 82
Bảng 4.10 Bảng chức năng nghe lại giọng nói đã thu âm ............................ 82
Bảng 4.11 Bảng chức năng dự đoán âm thanh đầu vào................................ 83
Bảng 4.12 Bảng chức năng xem kết quả dự đoán ........................................84
x
DANH MỤC HÌNH, ĐỒ THỊ
Hình 2.1 Mạng Nơ-ron sinh học ...................................................................17
Hình 2.2 Cấu trúc của mạng nơ-ron nhân tạo ............................................... 18
Hình 2.3 Quá trình xử lý của một nơ-ron trong ANN ..................................18
Hình 2.4 Đồ thị hàm ReLU ........................................................................... 19
Hình 2.5 Đồ thị hàm Sigmoid .......................................................................20
Hình 2.6 Đồ thị hàm Tanh ............................................................................ 20
Hình 2.7 AlphaGo của Google .....................................................................22
Hình 2.8 Mô phỏng cách tính lan truyền ngược ........................................... 24
Hình 2.9 Mô hình các lớp cơ bản CNN ........................................................ 26
Hình 2.10 Ví dụ một mô hình CNN ............................................................. 27
Hình 2.11 Minh họa tích chập trên ma trận ảnh ........................................... 29
Hình 2.12 Phương thức Average Pooling và Max Pooling .......................... 30
Hình 2.13 Ví dụ về cấu trúc CNN ................................................................ 31
Hình 2.14 Các cột mốc phát triển của mạng CNN .......................................31
Hình 2.15 Sơ đồ phát triển của các mô hình mạng CNN ............................. 32
Hình 2.16 Các mô hình học sâu CNN .......................................................... 32
Hình 2.17 Kiến trúc LeNet ........................................................................... 33
Hình 2.18 Kiến trúc AlexNet ........................................................................33
Hình 2.19 Kiến trúc VGG-16 .......................................................................34
Hình 2.20 Kiến trúc GoogleNet - Inception version 1 .................................36
Hình 2.21 Kiến trúc GoogleNet - Inception version 3 .................................38
Hình 2.22 Kiến trúc ResNet ..........................................................................39
xi
Hình 2.23 Kiến trúc tóm tắt của mang ResNet-50........................................40
Hình 3.1 Mô hình đề xuất nhận dạng tiếng nói tiếng Việt ........................... 49
Hình 3.2 Biểu đồ tần số Spectrogram (phổ âm) của một file âm thanh .......51
Hình 3.3 Sơ đồ khối giải thuật tính phổ Mel-Spec .......................................51
Hình 3.4 Ví dụ về mẫu âm thanh ..................................................................52
Hình 3.5 Phân khung tín hiệu .......................................................................53
Hình 3.6 Tín hiệu trên miền thời gian .......................................................... 54
Hình 3.7 Tín hiệu trên miền tần số tương ứng .............................................. 54
Hình 3.8 Hình minh họa về quá trình biến đổi Fourier ................................ 55
Hình 3.9 Hình minh họa thang đo Mel Scale ............................................... 56
Hình 3.10 Băng lọc khoảng cách theo miền tần số Mel ............................... 57
Hình 3.11 Hình minh họa trước và sau chuyển sang tần số Mel .................. 58
Hình 3.13 Hai cách sắp xếp đặc trưng giọng nói đối với đầu vào của mạng
CNN .............................................................................................................. 59
Hình 3.14 Hình minh họa một “lớp” CNN ................................................... 60
Hình 3.15 Hình minh họa quá trình học của mạng CNN ............................. 63
Hình 3.16 Hình minh họa trọng số học tập của mạng CNN ......................... 64
Hình 4.1 Cấu trúc mô hình CNN 3 lớp phức hợp .........................................72
Hình 4.2 Cấu trúc mô hình CNN – VGG16 ................................................. 75
Hình 4.3 Cấu trúc mô hình CNN – 5 tầng .................................................... 75
xii
CHƯƠNG 1
TỔNG QUAN VỀ LĨNH VỰC NGHIÊN CỨU
Trong chương này, luận văn trình bày khái quát về bài toán nhận dạng âm
thanh, tiếng nói và những ứng dụng cũng như mục tiêu của đề tài.
1.1. Lý do chọn đề tài
Việt Nam là đất nước đa dạng các nền văn hóa khác nhau, với 54 dân tộc anh
em và sự giao thoa văn hóa giữa các vùng miền tạo nên nét đặc trưng trong đời sống.
Ngôn ngữ và phương ngữ địa phương cũng thực sự đa dạng. Theo xu thế đó nhận
dạng và hỗ trợ giọng nói từng vùng miền đặt ra vấn đề thiết yếu đối với cuộc sống.
Ngày nay, việc áp dụng công nghệ thông tin vào hầu hết các lĩnh vực của đời
sống đã trở nên quá quen thuộc. Tại Việt Nam AI đã và đang được ứng dụng mạnh mẽ
trong nhiều lĩnh vực như y tế, giáo dục, nông nghiệp, giao thông, thương mại điện tử,
... Công nghệ AI cũng đã mang lại cho Việt Nam sự phát triển vượt bậc trong thời
gian qua.
Luận văn trình bày một phương pháp để nhận dạng tiếng nói tiếng Việt bằng
việc áp dụng các ưu điểm của phương pháp học sâu (CNN). Bằng việc trích xuất tính
năng Mel Spectrogram và kết hợp sử dụng Mạng nơ ron tích chập để phân biệt giọng
nói theo giới tính và vùng miền nước Việt Nam. Chúng tôi tiến hành thử nghiệm trên
tập dữ liệu âm thanh VIVOS và bộ dữ liệu từ cuộc thi về phân biệt giọng nói Zalo AI
2019 đạt độ chính xác tốt về dự đoán giới tính và vùng miền của giọng nói tiếng Việt.
Các nghiên cứu gần đây cho thấy mạng nơ-ron tích chập CNN mang lại hiệu quả tốt
trong nhận dạng vì nó có tính thích nghi cao và hoạt động ổn định. Vì vậy tôi chọn đề
tài : “Nhận dạng tiếng nói tiếng Việt bằng phương pháp học sâu” cho luận văn tốt
nghiệp cao học của mình.
1.2. Mục tiêu nghiên cứu
Luận văn hướng tới việc nghiên cứu thuật toán nhận dạng âm thanh bằng mạng
nơ ron tích chập (CNN) và các phương pháp học sâu để trích xuất đặc trưng và phân
loại, nhận dạng giọng nói. Qua việc nghiên cứu các phương pháp học sâu cho bài toán
nhận dạng giọng nói kết hợp với ngôn ngữ lập trình Python luận văn xây dựng một
ứng dụng nhận dạng âm thanh đầu vào với mục tiêu nhận dạng giới tính và vùng miền
của âm thanh.
13
1.3. Đối tượng, phạm vi nghiên cứu
Để thực hiện được mục tiêu đề ra, luận văn hướng đến nghiên cứu các vấn đề
sau:
- Tập trung chính vào đối tượng nghiên cứu của luận văn là tiếng nói của con
người, các kỹ thuật nhận dạng âm thanh và tiếng nói.
- Phạm vi nghiên cứu các phương pháp học sâu, hiệu năng và cách sử dụng
chúng từ đó đề xuất một phương pháp cụ thể hiệu quả nhất.
1.4. Phương pháp nghiên cứu
Để thực hiện luận văn này, chúng tôi đã sử dụng các phương pháp nghiên cứu
sau:
- Phương pháp phân tích và tổng hợp lý thuyết: Tìm kiếm, tổng hợp và
nghiên cứu các tài liệu về Mạng nơ-ron tích chập (Convolutional Neural Network –
CNN); Phương pháp trích xuất đặc trung âm thanh Log Mel Spectrogram, các kỹ
thuật trong nhận dạng âm thanh và tiếng nói. Tìm hiểu các kiến thức liên quan đến kỹ
thuật, ngôn ngữ lập trình và Flask Web FrameWork.
- Phương pháp thực nghiệm: Sau khi nghiên cứu lý thuyết, xác định vấn đề
bài toán, đề xuất mô hình, dựa trên kết quả của các nghiên cứu trước đó, luận văn sẽ
thực nghiệm mô hình trên một phương pháp học sâu, kết hợp giữa những lợi thế của
mô hình CNN tự tạo và các thư viện thích hợp hỗ trợ cho việc xây dựng một hệ thống
nhận âm thanh đầu vào, qua quá trình xử lý cho ra kết quả là nhận dạng giới tính và
vùng miền của âm thanh, giọng nói.
- Phương pháp so sánh và đánh giá: phân tích đánh giá mô hình đề xuất với
các mô hình nghiên cứu trước bằng các độ đo Loss và Accuracy.
1.5. Ý nghĩa khoa học và thực tiễn
Ý nghĩa khoa học:
Luận văn góp phần giới thiệu các lý thuyết về phân tích âm thanh, cách xây
dựng một hệ thống nhận dạng, phân loại giới tính và giọng nói vùng miền của Việt
Nam.
14
Góp phần nghiên cứu thêm về các mô hình học sâu trong lĩnh vực nhận dạng
và phân loại âm thanh phổ biến đang được sử dụng như CNN.
Cài đặt thử nghiệm và đánh giá các mô hình phân loại giới tính và nhận dạng
giọng nói vùng miền bằng thực nghiệm như CNN 3 lớp, VGG16, CNN 5 tầng tự tạo
và đánh giá bằng các độ đo khác nhau.
Nghiên cứu này tạo tiền đề cho các nghiên cứu tiếp theo.
Ý nghĩa thực tiễn:
Luận văn xây dựng ứng dụng trực quan các mô hình để phân loại giới tính và
nhận dạng tiếng nói vùng miền nước Việt Nam. Bên cạnh đó ứng dụng cũng thống kê
số liệu thể hiện sự so sánh giữa các mô hình khác nhau trong các quá trình huấn luyện,
kiểm thử và kiểm tra mô hình nhận dạng giới tính và giọng nói được xây dựng dựa
trên mô hình CNN.
Luận văn xây dựng thành công hệ thống nhận dạng tiếng nói tiếng Việt, có thể
ứng dụng trong thực tế nhiều lĩnh vực như trợ lý ảo, phát hiện người, an ninh - bảo
mật, kinh doanh,.. nhằm đáp ứng các yêu cầu nhận dạng và bảo mật ngày càng cao.
1.6. Bố cục luận văn
Nội dung luận văn được chia thành các phần như sau:
Chương 1: Tổng quan về lĩnh vực nghiên cứu
Trình bày khái quát về bài toán nhận dạng âm thanh, tiếng nói và những ứng
dụng cũng như mục tiêu của đề tài.
Chương 2: Cơ sở lý thuyết và các nghiên cứu liên quan
Trình bày cơ sở lý thuyết và các nghiên cứu liên quan đến các thuật toán phát
hiện, nhận dạng và phân loại được phát triển trong luận văn.
Chương 3: Mô hình đề xuất
Trình bày phương pháp phát hiện, phân loại giới tính, phương pháp nhận dạng
tiếng nói vùng miền nước Việt Nam, sơ đồ liên kết giữa mô hình và ứng dụng web.
Chương 4: Thực nghiệm
15
Trình bày quá trình thực nghiệm, kết quả đạt được, phân tích và đánh giá các
kết quả đạt được.
Chương 5: Kết luận và hướng phát triển
Tổng quát kết quả thực hiện, đưa ra các hướng phát triển cho mô hình trong
tương lai.
16
CHƯƠNG 2
CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN
Trong chương này, luận văn giới thiệu cơ sở lý thuyết và các nghiên cứu liên
quan đến các mô hình mạng nơ-ron, các nghiên cứu liên quan, các thuật toán phát
hiện, nhận dạng và phân loại được phát triển trong luận văn.
2.1. Mạng Nơ-ron tích chập
2.1.1. Mạng Nơ-ron nhân tạo
Mạng Nơ-ron nhân tạo (Artificial Neural Network – ANN) là mô hình xử lý
thông tin được mô phỏng dựa trên hoạt động của hệ thống thần kinh của sinh vật hay
còn gọi là mạng Nơ-ron sinh học (hình 2.1). Cấu tạo từ số lượng lớn các nơ-ron được
kết nối với nhau để xử lý thông tin. ANN giống như bộ não con người, được học bởi
kinh nghiệm thông qua huấn luyện, có khả năng lưu giữ những kinh nghiệm tri thức
và sử dụng những tri thức đó trong việc dự đoán các dữ liệu chưa biết. ANN được giới
thiệu năm 1943 bởi nhà thần kinh học Warren McCulloch và nhà logic học Walter
Pits.
Hình 2.1 Mạng Nơ-ron sinh học
Các ứng dụng của Mạng neuron được sử dụng trong rất nhiều lĩnh vực như
điện, điện tử, kinh tế, quân sự,… để giải quyết các bài toán có độ phức tạp và đòi hỏi
có độ chính xác cao như điều khiển tự động, khai phá dữ liệu, nhận dạng,…
Kiến trúc chung của một mạng nơ ron nhân tạo (ANN) gồm ba tầng: lớp đầu
vào (input layer), các lớp ẩn (hidden layers) và cuối cùng là lớp đầu ra (output layer)
được mô tả trong hình 2.2, trong đó, lớp ẩn gồm nhiều nơ-ron nhận dữ liệu đầu vào từ
17
các lớp trước đó để xử lý và chuyển đổi các dữ liệu này cho các lớp tiếp theo. Một
ANN có thể có nhiều lớp ẩn hoặc không có lớp ẩn.
Hình 2.2 Cấu trúc của mạng nơ-ron nhân tạo
Mỗi node trong mạng gọi là một nơ-ron. Mỗi nơ-ron nhận các dữ liệu đầu vào
xử lý chúng và trả ra một kết quả duy nhất. Kết quả đầu ra của nơ-ron này có thể làm
dữ liệu đầu vào của các nơ-ron khác.
Hình 2.3 mô tả quá trình xử lý của một nơ-ron trong ANN. Trong đó input là
dữ liệu đầu vào, output là kết quả đầu ra. Trọng số liên kết hay trọng số (connection
weights hay gọi tắt là weights) là thành phần rất quan trọng, thể hiện mức độ quan
trọng đối với quá trình xử lý dữ liệu từ lớp này sang lớp khác. Quá trình học của ANN
thực ra là quá trình điều chỉnh trọng số của các dữ liệu đầu vào.
Hình 2.3 Quá trình xử lý của một nơ-ron trong ANN
18
Hàm tổng Σ tính tổng của tích trọng số và dữ liệu vào. Hàm tính tổng một nơron của k dữ liệu đầu vào của lớp thứ i
𝑌 = ∑𝑘𝑚=1 𝑋𝑚 𝑊𝑚
(2.1)
Hàm kích hoạt hay hàm chuyển đổi 𝑓 tính toán đầu ra của một nơ-ron để
chuyển đến lớp tiếp theo trong mạng nơ-ron. Hàm kích hoạt phi tuyến được sử dụng
vì mạng chỉ sử dụng các hàm kích hoạt tuyến tính có thể lược giản thông qua các biến
đổi đại số thành mô hình perceptron một lớp (là mô hình ANN đơn giản nhất, không
có lớp ẩn). Một số hàm kích hoạt phi tuyến thường dùng là ReLU (Rectified Linear
Unit), sigmoid, logistic, Gaussian, tanh, softmax. Hình 2.4, 2.5, 2.6
Hàm ReLU:
𝑓 (𝑥) = max(0, 𝑥)
(2.2)
Hình 2.4 Đồ thị hàm ReLU
Hàm Sigmoid:
𝑓 (𝑥 ) =
1
(2.3)
1+𝑒 −𝑥
19
Hình 2.5 Đồ thị hàm Sigmoid
Hàm Tanh:
𝑓 (𝑥 ) =
1
1+𝑒 −2𝑥
−1
(2.4)
Hình 2.6 Đồ thị hàm Tanh
Kết quả xử lý đầu ra hàm tổng của nơ-ron đôi khi quá lớn, hàm kích hoạt
thường dùng để xử lý đầu ra này trước khi chuyển đến lớp tiếp theo. Đôi khi thay vì
sử dụng hàm kích hoạt, ta thường sử dụng giá trị ngưỡng để kiểm soát đầu ra của nơron. Nếu đầu ra của một nơ-ron nhỏ hơn ngưỡng thì sẽ không được chuyển đến lớp
tiếp theo.
Một số dạng mạng nơ-ron nhân tạo:
20
- Xem thêm -