BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC MỞ HÀ NỘI
---------------
LUẬN VĂN THẠC SĨ
ĐỀ TÀI:
NGHIÊN CỨU XÂY DỰNG CHATBOT CHO HỆ
THỐNG TRỢ LÝ ẢO IPA VÀ ỨNG DỤNG TRÊN DÒNG
XE HUYNDAI SANTAFE 2021
HỌC VIÊN THỰC HIỆN: NGUYỄN VĂN ANH
CHUYÊN NGÀNH: CÔNG NGHỆ THÔNG TIN
MÃ SỐ: 8.48.02.01
Hà Nội - 10/2022
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC MỞ HÀ NỘI
---------------
LUẬN VĂN THẠC SĨ
ĐỀ TÀI:
NGHIÊN CỨU XÂY DỰNG CHATBOT CHO HỆ
THỐNG TRỢ LÝ ẢO IPA VÀ ỨNG DỤNG TRÊN DÒNG
XE HUYNDAI SANTAFE 2021
HỌC VIÊN THỰC HIỆN: NGUYỄN VĂN ANH
CHUYÊN NGÀNH: CÔNG NGHỆ THÔNG TIN
MÃ SỐ: 8.48.02.01
NGUỜI HƯỚNG DẪN KHOA HỌC
TS. LÊ HUY DŨNG
Hà Nội - 10/2022
MỤC LỤC
DANH MỤC CÁC TỪ VIẾT TẮT ................................................................................. 3
DANH MỤC CÁC HÌNH ............................................................................................... 5
MỞ ĐẦU ......................................................................................................................... 6
1. Tính cấp thiết của đề tài ........................................................................................... 6
2. Mục tiêu nghiên cứu ................................................................................................ 7
3. Đối tượng và phạm vi nghiên cứu ........................................................................... 7
4. Phương pháp nghiên cứu ......................................................................................... 7
5. Cấu trúc luận văn ..................................................................................................... 8
CHƯƠNG 1: HỆ THỐNG TRỢ LÝ ẢO ........................................................................ 9
1.1. Khái niệm trợ lý ảo và cách thức hoạt động của trợ lý ảo ........................................ 9
1.1.1. Khái niệm trợ lý ảo......................................................................................... 9
1.1.2. Ứng dụng thực tế của Trợ lý ảo ................................................................... 12
1.1.3. Trợ lý ảo trên thế giới .................................................................................. 13
1.1.4. Kiến trúc của hệ thống trợ lý ảo ................................................................... 18
1.2. Phương thức tương tác của trợ lý ảo ................................................................... 19
1.2.1 Văn bản ......................................................................................................... 19
1.2.2. Phương thức nhận diện giọng nói ................................................................ 20
1.2.3. Phương thức xử lý hình ảnh ......................................................................... 21
1.3. Các tính năng của trợ lý ảo ................................................................................. 21
1.3.1 Tính năng tìm kiếm thông tin ........................................................................ 22
1.3.2. Các nền tảng hỗ trợ trợ lý ảo ........................................................................ 23
TIỂU KẾT CHƯƠNG 1 ................................................................................................ 24
CHƯƠNG 2: NGHIÊN CỨU XÂY DỰNG CHATBOT CHO HỆ THỐNG TRỢ LÝ
ẢO IPA VÀ ỨNG DỤNG TRÊN DÒNG XE HUYNDAI SANTAFE 2021 .............. 25
2.1. Hệ thống trợ lý ảo IPA trên Huyndai Santafe 2021 ............................................ 25
2.2. Mô hình Chatbot tiếng việt cho IPA ................................................................... 26
2.2.1. Mạng học sâu DNNs .................................................................................... 26
2.2.2. Quản lý hội thoại .......................................................................................... 28
2.2.2.1. Mô hình quản lý dựa trên khung (Frame based dialog Agents) ............ 28
2.2.2.2. VoiceXML ............................................................................................. 30
1
2.2.3. Mô hình sinh hội thoại ................................................................................. 31
2.2.3.1. Ý nghĩa chính của mô hình sinh hội thoại ............................................. 31
2.2.3.2. Đặc điểm của mô hình hội thoại ............................................................ 32
2.2.4. Xây dựng mô hình ........................................................................................ 33
2.2.4.1. Mạng nơ ron tái phát RNN .................................................................... 33
2.2.4.2. Mô hình LSTM ...................................................................................... 34
2.2.3. Vấn đề và giải pháp khắc phục .................................................................... 36
TIỂU KẾT CHƯƠNG 2 ................................................................................................ 38
CHƯƠNG 3: THỰC NGHIỆM VÀ ĐÁNH GIÁ ......................................................... 39
3.1. Phát triển bài toán ............................................................................................... 39
3.2. Chương trình thực nghiệm .................................................................................. 39
3.2.1. Cấu trúc API.AI ........................................................................................... 40
3.2.2. Thành phần API.AI ...................................................................................... 41
3.2.3. Mô hình xây dựng ........................................................................................ 43
KẾT LUẬN ................................................................................................................... 47
TÀI LIỆU THAM KHẢO ............................................................................................. 48
2
DANH MỤC CÁC TỪ VIẾT TẮT
Từ viết tắt
Từ chuẩn
AI
Artificial Intelligence
ML
Machine Learning
RNN
LSTM
Diễn giải
Trí tuệ nhân tạo
Máy học, máy móc có khả năng
học tập
Recurrent Neural Network
Long short-term memory
Mạng nơ ron tái phát
Mạng cải tiến để giải quyết vấn
đề phụ thuộc quá dài
NLP
Natural Languague Processing
Xử lý ngôn ngữ tự nhiên
SDK
Support Development Kit
Bộ công cụ hỗ trợ phát triển
API
Application Programming
Interface
Giao diện lập trình ứng dụng
Các cặp câu hỏi đáp
QA
Question Answering
IPA
Intelligent Personal Assistants
ASR
Automatic Speech Recognition
Xử lý giọng nói
QC
Query Classifier
Phân loại truy vấn
HMM
Hidden Markov
Mô hình Hidden Markov
GMM
Gaussian
mô hình hỗ hợp Gaussian
IMM
Image Matching
Xử lý hình ảnh
SURF
Speeded up robust features
Nhận dạng hình ảnh
Question-Answering
Dịch vụ câu hỏi trả lời
NLU
Natural language understanding
Hiểu ngôn ngữ tự nhiên
CRF
Conditional Random Fields
Mô hình CRF
FSA
Finite State Automata
FSM
Finite State Machine
QA
Ứng dụng Hỗ trợ Cá nhân Thông
minh
Mô hình dựa trên máy trạng thái
hữu hạn
Máy trạng thái hữu hạn
3
FST
A-FSM
WFST
DNN
Máy chuyển đổi trạng thái hữu
Finite State Transducer
hạn
Acceptor Finite State Machine
Máy trạng thái hữu hạn chấp
nhận
Weighted Finite State
Máy chuyển đổi trạng thái hữu
Transducer
hạn có trọng số
Deep Neural Networks
Mô hình học máy
4
DANH MỤC CÁC HÌNH
Hình 1.1. Mô tả hệ thống trợ lý ảo hoạt động ............................................................... 13
Hình 1.2. Kiến trúc của hệ thống trợ lý ảo .................................................................... 18
Hình 1.3. Kiến trúc bên trong LSTM ............................................................................ 19
Hình 1.3. Kiến trúc nhận dạng giọng nói ...................................................................... 20
Hình 2.1. Mô phỏng hệ thống trợ lý ảo xe Huyndai Santafe 2021................................ 25
Hình 2.2. Biểu diễn mô hình mạng................................................................................ 28
Hình 2.3. Mạng nơ ron tái phát RNN ............................................................................ 33
Hình 2.4. Mô hình LSTM .............................................................................................. 34
Hình 2.5. Cell state trong LSTM ................................................................................... 35
Hình 2.6. LSTM chống vanishing gradient ................................................................... 36
Hình 3.1. Sơ đồ phát triển bài toán ................................................................................ 39
Hình 3.2. Sơ đồ hoạt động của Api.ai ........................................................................... 41
Hình 3.3. Giao diện Api.ai intents ................................................................................. 42
Hình 3.4. Giao diện Api.ai webhook ............................................................................. 42
Hình 3.5. Mô hình xây dựng giao diện .......................................................................... 43
5
MỞ ĐẦU
1. Tính cấp thiết của đề tài
Ngày nay, trí tuệ nhân tạo đang ngày càng phát triển mạnh mẽ. Các hãng lớn như
Google đều đưa ra các công nghệ tương tác trực tiếp với người dùng. Trí tuệ nhân tạo
đang ngày càng được nâng cấp hoàn thiện giúp người dùng dễ dàng tương tác, dễ sử
dụng và giảm quá trình thực hiện. Trí tuệ nhân tạo đang là một lĩnh vực mới mẻ và được
sự quan tâm rất lớn từ các hãng công nghệ hàng đầu. Với công nghệ đang ngày càng
được áp dụng trong đời sống giúp con người làm việc hiệu quả hơn tiết kiệm thời gian
và sức lực, trí tuệ nhân tạo như một hệ thống được xây dựng để phục vụ cho điều đó.
Hệ thống trợ lý ảo là một hệ thống giúp con người giao tiếp với máy thực hiện các
yêu cầu ý muốn của người dùng. Hiện nay trên thế giới hệ thống trợ lý ảo đang được
nghiên cứu và phát triển mạnh mẽ ở các hãng công nghệ hàng đầu thế giới. Hiện nay,
hệ thống trợ lý ảo điều khiển bằng giọng nói là bước một bước quan trọng trong hệ thống
hỗ trợ người lái trong thời đại vạn vận kết nối bên cạnh hệ thống “tự lái”, là những mắt
xích quan trọng cách mạng công nghiệp 4.0 trong tương lai [1]. Hệ thống IPA dựa trên
nền tảng Houndify của hãng SoundHound (AI) ra đời với hàng loạt tính năng mới và
hiện đại được tích hợp, đặc biệt là tính năng tương tác với người dùng. Bên cạnh đó
những tính năng hiện đại, trợ lý ảo IPA cũng thực hiện được các lệnh điều khiển cơ bản
kiểm soát bằng giọng nói trong khi lái xe như: khả năng thực hiện cuộc gọi, gửi tin nhắn
văn bản, tìm kiếm điểm đến, tìm kiếm nhạc, kiểm tra thời tiết và quản lý lịch biểu, điều
chỉnh điều hòa không khí, cửa sổ trời và khóa cửa, thu thập các thông tin khác nhau về
chiếc xe [1].
Tuy nhiên, trong thực tiễn, nhiều hệ thống trợ lý ảo điều khiển bằng giọng nói còn
gặp nhiều lỗi trong quá trình sử dụng, nhất là đối với ngôn ngữ tiếng Việt – chưa phải
là ngôn ngữ chưa được hỗ trợ nhiều [2], [3].
Với mong muốn tìm hiểu sâu về việc xử lý ngôn ngữ tự nhiên trong hệ thống trợ
lý ảo em chọn đề tài “Nghiên cứu xây dựng chatbot cho hệ thống trợ lý ảo IPA và ứng
dụng trên dòng xe huyndai santafe 2021” làm đề tài luận văn thạc sĩ. Với các nội dung:
Chương 1: Giới thiệu tổng quan về hệ thống trợ lý ảo, cấu trúc hệ thống trợ lý ảo,
trình bày về xử lý ngôn ngữ tự nhiên NLP và ứng dụng NLP trong chatbot.
6
Chương 2: Nghiên cứu một số kĩ thuật được sử dụng trong chatbot, tìm hiểu quản
lý hội thoại, mô hình sinh hội thoại.
Chương 3: Đề xuất cải thiện và xây dựng chatbot, thực nghiệm và đánh giá.
2. Mục tiêu nghiên cứu
+ Nghiên cứu tổng quan về hệ thống trợ lý ảo IPA được ứng dụng trên dòng xe
Huyndai Santafe 2021.
+ Nghiên cứu một số kỹ thuật sử dụng để xử lý ngôn ngữ tự nhiên trong trợ lý
ảo IPA.
+ Đề xuất cải thiện và xây dựng chatbot ứng dụng trên dòng xe Huyndai
Santafe 2021.
3. Đối tượng và phạm vi nghiên cứu
+ Đối tượng: hệ thống trợ lý ảo IPA của Huyndai.
+ Phạm vi:
Hệ thống xử lý ngôn ngữ tự nhiên được ứng dụng trong trợ lý ảo IPA trên
nền tảng Houndify của dòng xe Huyndai Santafe.
Nghiên cứu được tiến hành từ tháng 1/2021 đến 10/2021.
4. Phương pháp nghiên cứu
- Phương pháp nghiên cứu lý thuyết là phương pháp thu thập thông tin thông qua
nghiên cứu tài liệu nhằm mục đích tìm chọn những khái niệm và tư tưởng cơ bản là cơ
sở cho lý luận của đề tài, hình thành giả thuyết khoa học, dự đoán về những thuộc tính
của đối tượng nghiên cứu, xây dựng những mô hình lý thuyết hay thực nghiệm ban đầu.
Trong luận văn phương pháp nghiên cứu lý thuyết được sử dụng để tìm hiểu cấu
trúc hệ thống trợ lý ảo, quy trình của nhận dạng giọng nói tự động, xử lý hình ảnh, cấu
trúc hệ thống chatbot, … cũng như việc xử lý ngôn ngữ tự nhiên.
- Phương pháp nghiên cứu thực tiễn cho phép nhà nghiên cứu tác động trực tiếp
vào đối tượng nhìn thấy sự xuất hiện, sự phát triển, diễn biến và kết thúc của các sự vật
hiện tượng trong thực tiễn, phát hiện quy luật tất yếu của sự phát triển đối tượng, giúp
kiểm tra kết quả nghiên cứu trong hoạt động thực tiễn, cải tạo thực tiễn.
Trong khóa luận, phương pháp nghiên cứu thực tiễn đã được sử dụng để thu thập
dữ liệu về quá trình tương tác giữa người dùng với hệ thống chatbot trên dòng xe
Huyndai Santafe.
7
- Phương pháp chuyên gia là phương pháp điều tra qua đánh giá của các chuyên
gia về vấn đề, một sự kiện khoa học nào đó.
Trong quá trình thực hiện khóa luận, bản thân học viên đã tham vấn các thầy, các
chuyên gia trong việc xây dựng mô hình hệ thống và xử lý về ngôn ngữ tự nhiên.
5. Cấu trúc luận văn
Ngoài phần mở đầu, kết luận, luận văn được chia thành 3 chương như sau:
Chương 1: Tổng quan về hệ thống trợ lý ảo
Chương 2: Nghiên cứu xây dựng chatbot cho hệ thống trợ lý ảo IPA và ứng dụng
trên dòng xe Huyndai Santafe 2021
Chương 3: Thực nghiệm và đánh giá
8
CHƯƠNG 1: HỆ THỐNG TRỢ LÝ ẢO
1.1. Khái niệm trợ lý ảo và cách thức hoạt động của trợ lý ảo
1.1.1. Khái niệm trợ lý ảo
Trợ lý ảo (có thể được gọi là trợ lý kỹ thuật số, trợ lý giọng nói hay là trợ lý AI) là
một ứng dụng lập trình hướng nhiệm vụ, nhận dạng giọng nói của con người và thực
hiện các lệnh được phát âm bởi người dùng, nền tảng của nó là AI và năng suất của nó
dựa vào việc lưu trữ hàng triệu từ và hàng triệu cụm từ. Không giống như các thiết bị
nhận dạng giọng nói đầu tiên mà các nhà khoa học đang nghiên cứu vào những năm 4050 của thế kỷ trước, các trợ lý kỹ thuật số hiện đại không bị hạn chế bởi một mẫu ngôn
ngữ hoặc từ vựng nhất định [2].
Loại đầu tiên thuộc về tự động hóa ngôi nhà (còn gọi là nhà thông minh), một hệ
thống cho phép điều khiển thiết bị, ánh sáng, điện, thiết bị và những thứ khác lấp đầy
trong nhà của chúng ta, nhà thông minh đòi hỏi phải có kết nối internet và là một phần
của Internet vạn vật (IoT), loại thứ hai, trợ lý ảo cho nơi làm việc, có thể được sử dụng
ngoài liên lạc với tự động hóa tòa nhà, như một ứng dụng độc lập được kết hợp như thói
quen của mọi người trong nhóm [4].
Để định nghĩa một cách dễ hiểu, các trợ lý ảo là một con bot có khả năng thực hiện
nhiệm vụ hoặc dịch vụ cho một cá nhân dựa trên các lệnh bằng lời nói hoặc văn bản.
Khác với Chatbot, ngoài việc chỉ giúp có thể phản hồi lại các câu lệnh của người dùng
ở dạng văn bản, trợ lý ảo giúp đỡ được con người nhiều hơn thế. Bạn có thể hỏi trợ lý
ảo của bạn một câu hỏi nào đó trong một lĩnh vực hẹp nào đó(closed domain) hoặc một
câu hỏi bất kỳ(open domain) và hy vọng nó sẽ giúp bạn tìm câu trả lời thích hợp. Bạn
cũng có thể nhờ sự giúp đỡ của các trợ lý ảo để điều khiển các thiết bị thông minh trong
nhà một cách tự động, lên lịch hẹn, quản lý công việc hàng ngày như những việc cần
làm, email hay thời gian biểu.
Hiện nay, khi nói để trợ lý ảo, ta thường nói về VoiceBot, những trợ lý ảo được
điều khiển bằng giọng nói. Lý do là các công nghệ về Speech2text và Text2speech đang
rất phát triển trong thời gian gần đây nhờ việc áp dụng các kỹ thuật mới, đặc biệt hiệu
quả trong Deep learning. Việc tích hợp 2 bài toán này vào các trợ lý ảo khiến ta dễ dàng
hơn trong việc thao tác, điều khiển, tay và mắt được giải phóng giúp ta có thể dễ dàng
9
giao tiếp với trợ lý ảo trong các trường hợp đặc biệt như lái xe, nấu ăn,... hoặc hỗ trợ
cho những người bị khiếm thị .
Một số trợ lý ảo của các ông lớn về công nghệ đã trở nên quen thuộc với mọi người
như Alexa của Amazon, Cortana của Microsoft, Ok Google của Google và Siri của
Apple. Các công ty về công nghệ lớn không chỉ ở thế giới mà ngay cả ở Việt Nam cũng
đang rất quan tâm đặc biệt tới bài toán này và vẫn luôn ấp ủ các dự án xây dựng trợ lý
ảo cho riêng mình. Theo nhìn nhận và đánh giá sự vào cuộc của các công ty trong thời
gian gần đây, mình nghĩ năm 2019 thực sự là năm của Virtual Assistant [5].
Các ứng dụng trợ lý giọng nói hoạt động dựa trên hệ thống Nhận dạng giọng nói
tự động (ASR), các hệ thống ASR ghi lại lời nói và sau đó chia nhỏ thành các âm vị, sau
này được xử lý thành văn bản, Một âm vị (không phải từ của âm tiết) là một đơn vị đo
lường cơ bản để nhận dạng giọng nói của con người, nhận dạng âm vị mang lại kết quả
tốt hơn quá trình giải mã từ, vì người cuối cùng có xu hướng phân tích từ dưới dạng một
đơn vị độc lập bỏ qua các giới hạn ngữ cảnh [6].
Cho dù bạn có thể sử dụng loại phần mềm nhận dạng giọng nói nào, tất cả đều dựa
trên ASR, nếu bạn đã từng tự hỏi làm thế nào để tạo ra một phần mềm trợ lý ảo, điều
quan trọng nhất cần làm là làm quen với cách ASR hoạt động. Tóm lại, quá trình bắt
đầu với việc thiết bị thu thập âm thanh với micro. Các dạng sóng giọng nói đã ghi được
chuyển thẳng sang phân tích âm thanh, được thực hiện ở ba cấp độ khác nhau:
- Mô hình âm thanh, đại diện cho những âm vị được phát âm và những từ mà các
âm vị này hoàn thành là gì;
- Mô hình phát âm, phân tích cách phát âm của âm vị, có bất kỳ trọng âm hoặc đặc
thù nào khác của bộ máy phát âm để nắm bắt sự biến đổi ngữ âm của lời nói;
- Mô hình hóa ngôn ngữ, nhằm mục đích tìm kiếm xác suất theo ngữ cảnh tùy
thuộc vào âm vị nào được ghi lại, tất cả các dữ liệu được xử lý bởi AI mà không cần sự
tương tác của con người, giảm tỷ lệ lỗi xuất hiện bằng cách sử dụng các thuật toán học
máy [6]. Dữ liệu dạng sóng giọng nói sau đó được truyền đến bộ giải mã, nơi cuối cùng
nó chuyển thành văn bản để sử dụng thêm như lệnh hoặc chính tả, trí thông minh nhân
tạo mang đến cho các ứng dụng trợ lý giọng nói hiện đại sự tự do không dựa vào vốn từ
vựng hạn chế, mà sử dụng lưu trữ đám mây với hàng triệu từ và cụm từ thay thế. Nói
cách khác, học máy làm cho các ứng dụng nghe toàn bộ bài phát biểu, không phải mỗi
10
từ riêng biệt, bằng cách đó, các ứng dụng giọng nói sẽ phân tích bối cảnh và xác suất để
xác định những gì bạn đang cố gắng nói.
Các dịch vụ
Trợ lý ảo có thể cung cấp nhiều dịch vụ khác nhau, ngày càng có nhiều trên
Amazon Alexa và Google Assistant, các dịch vụ này bao gồm: “Cung cấp thông tin như
thời tiết, công thức nấu ăn kiến thức từ các nguồn như Wikipedia hoặc IMDB, đặt báo
thức, tạo danh sách việc cần làm và danh sách mua sắm; phát nhạc trực tuyến từ các
dịch vụ phát trực tuyến như Spotify và Pandora; đài phát thanh; đọc sách nói; phát video,
chương trình truyền hình hoặc phim trên TV, từ các dịch vụ như Netflix, phần bổ sung
và / hoặc trên Amazon hoặc mua sắm trên một dịch vụ thay thế dịch vụ khách hàng của
con người. Một tờ báo ước tính rằng các trợ lý trực tuyến tự động sẽ giảm 30% khối
lượng công việc so với các trung tâm cuộc gọi của con người ”. [7].
Phương thức tương tác
Các trợ lý ảo nhận lệnh và làm việc thông qua:
- Văn bản (chat online), đặc biệt trong một ứng dụng nhắn tin nhanh hoặc ứng dụng
khác
- Giọng nói, ví dụ như Amazon Alexa trên thiết bị Amazon Echo, hoặc Siri trên
một chiếc iPhone
- Chụp và/hoặc tải ảnh lên, như trường hợp của Samsung Bixby trên chiếc
Samsung Galaxy S8
Một số trợ lý ảo có thể được truy cập thông qua nhiều phương pháp, chẳng hạn
như trò chuyện trên ứng dụng Google Allo và giọng nói trên loa thông minh Google
Home để truy cập Trợ lý Google. Trợ lý ảo sử dụng công nghệ xử lý ngôn ngữ tự nhiên
(NLP) để chuyển đổi văn bản hoặc lời nói của người dùng thành các lệnh sẵn sàng thực
hiện và nhiều trợ lý ảo có khả năng tiếp tục học thêm các câu khác. Các lệnh khác sử
dụng các kỹ thuật trí tuệ nhân tạo, bao gồm cả học máy [2].
* Khái niệm chatbot
Chatbots (có thể gọi là chatbots) là một lĩnh vực trí tuệ nhân tạo. Chatbot là một
hệ thống trao đổi thông tin giữa hai hoặc nhiều đối tượng theo một tiêu chuẩn nhất định,
quá trình trao đổi thông tin có thể được nói, viết hoặc ngôn ngữ ký hiệu. [8]. Chatbot có
thể hiểu đơn giản là một chương trình máy tính mà người dùng có thể giao tiếp với máy
11
thông qua ứng dụng nhắn tin. Chatbots có thể nói và hiểu giọng nói, đồng thời sẽ phân
tích những gì con người nói và cố gắng hiểu một yêu cầu nhất định. Chatbots sau đó
giao tiếp với các máy khác, trao đổi câu hỏi và sau đó trả lời con người.
Chatbots giúp mọi người tiết kiệm thời gian và chi phí thông qua các ứng dụng
trong dịch vụ khách hàng (tự động hóa quy trình ...), hoặc tăng năng suất của 18 công
nhân (bot giúp đặt lịch hẹn ...) hoặc thậm chí chăm sóc cuộc sống của mọi người (Robot
chăm sóc sức khỏe ...) . Chatbots có thể được chia thành 3 loại chính:
- Chatbot giữa người với người
- Chatbot giữa máy với máy
- Chatbot giữa người và máy
Mặc dù chatbot mới là chủ đề “nóng hổi” từ cuối năm nay, nhưng chatbots thực sự
đã tồn tại được 50 năm. Năm 1950, ý tưởng của Turing là đưa ra một thiết bị thông minh
để thực hiện các cuộc trò chuyện thay cho con người. Ý tưởng này đã đặt nền móng cho
cuộc cách mạng chatbot. Sau đó, Eliza là chương trình chatbot đầu tiên được phát triển
vào năm 1966. Chương trình được tạo ra để “đóng vai” một nhà trị liệu trả lời những
câu hỏi đơn giản với cấu trúc câu xác định. Chương trình được phát triển bởi ông Joseph
Weizenbaum của Viện Công nghệ Massachusetts. Ngày nay, với sự ra đời của máy tính,
chúng có mặt khắp nơi và dựa trên cơ sở dữ liệu khổng lồ và đa dạng được lưu trữ trên
máy tính. Để có thể tận dụng được kho dữ liệu đa dạng và đồ sộ này, máy tính cần có
khả năng xử lý thông tin trong quá trình trao đổi thông tin (đối thoại). Với khả năng đối
thoại thông minh, chatbots có thể đáp ứng các nhu cầu trên và trở thành chương trình tư
vấn giúp đỡ tất cả mọi người.
1.1.2. Ứng dụng thực tế của Trợ lý ảo
Phát triển mạng nơ-ron và xử lý ngôn ngữ tự nhiên hoàn toàn hoạt động theo hướng
biến điều khiển giọng nói thành một tiêu chuẩn mới cho nhiều sản phẩm và hành động
mà mọi người sử dụng/thực hiện hàng ngày, chiến lược Amazon Alexa Everywhere bắt
đầu một xu hướng mới của các công ty phát hành bộ công cụ phát triển thiết bị dịch vụ
để tích hợp ứng dụng trợ lý giọng nói [4].
Các nhà sản xuất thiết bị gia dụng như LG, Whirlpool và Philips đã bắt đầu phát
hành các mặt hàng hỗ trợ Alexa và phản ứng của người tiêu dùng nhanh chóng thu hút
sự chú ý của các doanh nhân vào các ứng dụng trợ lý giọng nói. 72% chủ sở hữu trợ lý
12
ảo thừa nhận rằng thiết bị của họ nhanh chóng trở thành một phần thiết yếu trong thói
quen hàng ngày của họ và họ không muốn bỏ bộ điều khiển giọng nói này do thói quen
bắt đầu hình thành và dễ sử dụng.
Những công việc mà Trợ lý ảo có thể thực hiện:
- Gửi thông tin cập nhật về các chủ đề mà bạn quan tâm mà không cần bạn tìm
kiếm chúng; dự báo thời tiết; thêm các sự kiện và cuộc họp vào lịch của một nhóm hoặc
từng thành viên riêng biệt; đặt báo thức và nhắc nhở mọi việc thứ diễn ra theo đúng lịch
trình; trả lời câu hỏi chung bằng giọng nói (thay vì mở liên kết để bạn tìm kiếm câu trả
lời); tạo và điền vào danh sách To-do list; thực hiện dịch thuật thời gian thực; cập nhật
cho bạn về lưu lượng trên lộ trình của bạn (đặc biệt hữu ích cho các hoạt động hậu cần);
theo dõi hàng tồn kho trong kho và tự động điền vào danh sách mua sắm với các mặt
hàng sẽ được đưa ra ngoài; điều khiển các thiết bị khác từ ánh sáng đến PC; đọc email
và các tài liệu khác thành tiếng; ghi lại lời nói chính tả và chuyển nó thành văn bản thay
vì gõ thủ công [9].
1.1.3. Trợ lý ảo trên thế giới
Hiện nay, thế giới trợ lý ảo được phân thành 2 nhóm: nhóm ứng dụng tại nơi làm
việc và nhóm ứng dụng tại nhà, trợ lý ảo cho nơi làm việc được sử dụng để giao tiếp với
bên ngoài (như Viettel Cyberbot), để tự động hóa tòa nhà. Trợ lý ảo tại nhà thuộc về các
nhà thông minh, một hệ thống cho phép điều khiển thiết bị, ánh sáng, điện, thiết bị và
những thứ khác ở nhà. [10]
Hình 1.1. Mô tả hệ thống trợ lý ảo hoạt động
Theo khảo sát của Adobe Analytics (năm 2020) [10]:
13
- Người dùng loa thông minh (một dạng trợ lý ảo nghe và phát âm thanh) thường
yêu cầu bài hát 70% thời gian, hỏi thời tiết 64% thời gian và hỏi giải trí 53%.
- Người ta dùng giọng nói để tìm kiếm trực tuyến chiếm 47%, tin tức chiếm 46%
và câu hỏi trực tiếp chiếm 34%.
- 31% sử dụng giọng nói để ra lệnh cho nhà thông minh, 30% để đặt hàng/mua
sắm trực tuyến, 17% cho các đơn đặt hàng ăn mang về và 16% cho tìm hiểu về chuyến
bay và khách sạn.
Theo số liệu thống kê của Statista (năm 2020):
- 45% chủ sở hữu loa thông minh dự định mua thêm một chiếc khác.
- 1 tỷ lượt tìm kiếm bằng giọng nói đã được thực hiện mỗi tháng vào năm 2018.
- 72% những người sử dụng thiết bị tìm kiếm bằng giọng nói cho biết nó đã trở
thành một phần trong cuộc sống của họ.
- 61% trong số người 25-64 tuổi nói rằng họ sẽ sử dụng thiết bị thoại nhiều hơn
trong tương lai.
Tại Việt Nam, người ta biết nhiều đến các trợ lý ảo Google Assistant của Google,
Apple Siri của Apple, Cortana của Microsoft… tuy nhiên trên phạm vi toàn thế giới thì
thị phần của các trợ lý ảo như sau (số liệu thống kê của Statista năm 2020)
Năm 2018:
- Amazon Alexa: 37,7%
- Google Assistant: 30,3%
- Khác: 32%
14
2018
32%
Amazon Alexa
37,700%
Google Assistant
Khác
30,300%
Năm 2019:
- Amazon Alexa: 31,7%
- Google Assistant: 31,4%
- Ali Genie: 11,2%
- Xiao AI: 7%
- Duer OS: 6,8%
- Siri: 6%
2019
6,800%
6%
Amazon Alexa
7%
31,700%
Google Assistant
Ali Genie
11,200%
Xiao AI
Duer OS
Siri:
31,400%
Trước đó, nhiều hệ thống trợ lý ảo được nghiên cứu và phát triển như Siri của
Apple, Cortana của Mircosoft, Google Now của Goolgle hay Alexa của Amazon. Đối
15
với xe hơi cũng đã xuất hiện những tính năng hỗ trợ thao tác điều khiển bằng giọng nói
đơn giản, ví dụ như hệ thống thông tin giải trí SYNC của hãng Ford sử dụng trợ lý ảo
Alexa của Amazon, hệ thống này cũng đã được trang bị trên những dòng xe Ford bán ra
tại Việt Nam [10].
Trên lý thuyết, hệ thống trợ lý ảo điều khiển bằng giọng nói là bước một bước quan
trọng trong hệ thống hỗ trợ người lái trong thời đại công nghệ hệ thống “tự lái” phát trển
mạnh. Tuy nhiên, trong quá khứ hệ thống trợ lý ảo điều khiển bằng giọng nói ở một số
hãng xe vẫn bị khách hàng phàn nàn về chất lượng cũng như hay bị lỗi trong quá trình
sử dụng.
Cụ thể, theo kết quả của cuộc điều tra nghiên cứu chất lượng (Initial Quality Study
– IQS) của tổ chức JD Power dựa trên khảo sát của 86.118 chủ sở hữu xe cho thấy vấn
đề nhận diện giọng nói chiếm 8,3 lỗi phát sinh trên 100 xe, tăng hơn hẳn so với năm
2013 (với 7,6 lỗi). Đây là một ảnh hưởng không nhỏ đến sự tín nhiệm của khách hàng
vào các nhà sản xuất xe hơi.
Nhưng đối với IPA của Huyndai thì lại hoàn tàn khác biệt. Intelligent Personal
Agent cho phép người sử dụng điều khiển hoạt động khác nhau thông qua giọng nói với
dữ liệu thời gian thực, nhu cầu trong tương lai. Hệ thống trợ lý ảo IPA của Hyundai dựa
trên nền tảng Houndify của hãng SoundHound (AI), được tối ưu hóa cho các ứng dụng
trong xe [2].
Ví dụ:
+ Khi người lái kích hoạt bằng khẩu lệnh: “Hi, Hyundai.” thì hệ thống sẽ phản ứng
với các lệnh thoại hoặc câu hỏi của người lái xe bằng cách liên lạc với máy chủ
SoundHound AI để tìm kiếm thông tin được yêu cầu hoặc hoàn thành một nhiệm vụ.
+ Khi người dùng nói: “Cho tôi biết thời tiết sẽ như thế nào vào ngày mai và tắt
đèn trong phòng khách của chúng ta” thì hệ thống nhận ra hai lệnh riêng biệt trong cùng
một câu và hoàn thành mỗi nhiệm vụ một cách riêng biệt.
Ngoài ra, trợ lý ảo IPA còn có khả năng tiên đoán nhu cầu của lái xe và cung cấp
thông tin hữu ích. Ví dụ, hệ thống có thể nhắc nhở sớm về một cuộc họp sắp tới và đề
xuất thời gian khởi hành cho các điều kiện giao thông hiện tại.
* Ngôn ngữ tự nhiên và ngôn ngữ máy:
(i) Ngôn ngữ tự nhiên:
16
Ngôn ngữ tự nhiên là một thành phần trong lĩnh vực ngôn ngữ học rộng lớn. Trong
ngôn ngữ quốc tế, ngôn ngữ tự nhiên được viết là Natural Language. Ngôn ngữ tự nhiên
được hiểu là bất cứ ngôn ngữ nào được phát sinh, được tạo ra mà không trải qua bất cứ
một suy nghĩ nào trước đó trong não bộ của con người.
Ngôn ngữ tự nhiên tồn tại dưới nhiều trạng thái trong cuộc sống của chúng ta. Đây
được coi là một loại ngôn ngữ mà bất cứ một đứa trẻ nào cũng có thể tiếp thu và học tập
thông qua ngôn ngữ nói để hình thành kiến thức cho bản thân. Việc không tuân thủ theo
bất cứ một sự định hướng cũng như hướng dẫn chỉ định từ đầu đã tạo nên những nét
riêng biệt khiến ngôn ngữ tự nhiên khác với những ngôn ngữ thông thường.
Việc xử lý ngôn ngữ tự nhiên này được thực hiện dựa trên một mục đích cao cả
nhằm tạo ra sự kết nối thông minh giữa những thiết bị công nghệ với con người. Khi
máy móc có thể phân tích, xử lý và hiểu những ngôn ngữ tự nhiên đó thì đồng nghĩa với
việc mang lại cho con người những tiện ích vô cùng to lớn.
(ii) Ngôn ngữ máy:
Ngôn ngữ máy (còn được gọi là máy ngữ hay mã máy; tiếng Anh là machine
language hay machine code) là một tập các chỉ thị được CPU của máy tính trực tiếp thực
thi. Mỗi chỉ thị thực hiện một chức năng xác định, ví dụ như tải dữ liệu, nhảy hay tính
toán số nguyên trên một đơn vị dữ liệu của thanh ghi CPU hay bộ nhớ. Tất cả các chương
trình được thực thi trực tiếp bởi CPU đều là các chuỗi các chỉ thị này.
Mã máy nhị phân (khác với mã hợp ngữ) có thể được xem như là phương thức biểu
diễn thấp nhất của một chương trình đã biên dịch hay hợp dịch, hay là ngôn ngữ lập
trình nguyên thủy phụ thuộc vào phần cứng (ngôn ngữ lập trình thế hệ đầu tiên). Mặc
dù chúng ta hoàn toàn có thể viết chương trình trực tiếp bằng mã nhị phân, việc này rất
khó khăn và dễ gây ra những lỗi nghiêm trọng vì ta cần phải quản lý từng bit đơn lẻ và
tính toán các địa chỉ và hằng số học một cách thủ công. Do đó, ngoại trừ những thao tác
cần tối ưu và gỡ lỗi chuyên biệt, chúng ta rất hiếm khi làm điều này.
Hiện nay, hầu như tất cả các chương trình máy tính trong thực tế đều được viết
bằng các ngôn ngữ bậc cao hay (đôi khi) hợp ngữ, và sau đó được dịch thành mã máy
thực thi bằng các công cụ phụ trợ như trình biên dịch, trình hợp dịch hay trình liên kết.
Ngoài ra, các chương trình được viết bằng ngôn ngữ thông dịch thì được dịch sang mã
máy nhờ trình thông dịch tương ứng (có thể xem như là trình thực thi hay trình xử lý).
17
Các trình thông dịch này thường bao gồm các mã máy thực thi trực tiếp (sinh ra từ mã
nguồn hợp ngữ hay các ngôn ngữ bậc cao).
1.1.4. Kiến trúc của hệ thống trợ lý ảo
Các trợ lý ảo có thể cung cấp rất nhiều dịch vụ, trong đó các dịch vụ trên Amazon
Alexa và Google Assistant đang tăng lên từng ngày, các dịch vụ này bao gồm [11]:
- Cung cấp thông tin như thời tiết, thông tin chi tiết từ các nguồn như Wikipedia
hoặc IMDB, đặt báo thức, tạo việc cần làm và danh sách mua sắm, phát nhạc từ các dịch
vụ phát trực tuyến như Spotify và Pandora; đài phát thanh; đọc sách nói, phát trực tuyến
video, Chương trình truyền hình hoặc phim, phát trực tuyến từ các dịch vụ như Netflix,
mua sắm trên các dịch vụ như Amazon bổ sung và / hoặc thay thế dịch vụ khách hàng
của con người. Một tờ báo ước tính rằng các trợ lý trực tuyến tự động sẽ giảm 30% khối
lượng công việc so với các trung tâm cuộc gọi của con người [8].
Hình 1.2. Kiến trúc của hệ thống trợ lý ảo
Module Trigger word detection sẽ quyết định xem đó có phải là một lệnh hay
không. Nếu là một lệnh, lệnh sẽ được chuyển từ âm thanh thành văn bản thông qua
Speech2text model. Lệnh sẽ được phân loại theo mục đích và trích chọn ra những thông
tin cần thiết để xác định hàng động tiếp theo của trợ lý ảo. Thông tin được quản lý theo
các Session. Lệnh được thực hiện tương ứng với mục đích và thông tin hiện có của câu
18
- Xem thêm -