Đăng ký Đăng nhập
Trang chủ Nghiên cứu xây dựng chatbot cho hệ thống trợ lý ảo ipa và ứng dụng trên dòng xe ...

Tài liệu Nghiên cứu xây dựng chatbot cho hệ thống trợ lý ảo ipa và ứng dụng trên dòng xe huyndai santafe 2021

.PDF
53
1
64

Mô tả:

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC MỞ HÀ NỘI --------------- LUẬN VĂN THẠC SĨ ĐỀ TÀI: NGHIÊN CỨU XÂY DỰNG CHATBOT CHO HỆ THỐNG TRỢ LÝ ẢO IPA VÀ ỨNG DỤNG TRÊN DÒNG XE HUYNDAI SANTAFE 2021 HỌC VIÊN THỰC HIỆN: NGUYỄN VĂN ANH CHUYÊN NGÀNH: CÔNG NGHỆ THÔNG TIN MÃ SỐ: 8.48.02.01 Hà Nội - 10/2022 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC MỞ HÀ NỘI --------------- LUẬN VĂN THẠC SĨ ĐỀ TÀI: NGHIÊN CỨU XÂY DỰNG CHATBOT CHO HỆ THỐNG TRỢ LÝ ẢO IPA VÀ ỨNG DỤNG TRÊN DÒNG XE HUYNDAI SANTAFE 2021 HỌC VIÊN THỰC HIỆN: NGUYỄN VĂN ANH CHUYÊN NGÀNH: CÔNG NGHỆ THÔNG TIN MÃ SỐ: 8.48.02.01 NGUỜI HƯỚNG DẪN KHOA HỌC TS. LÊ HUY DŨNG Hà Nội - 10/2022 MỤC LỤC DANH MỤC CÁC TỪ VIẾT TẮT ................................................................................. 3 DANH MỤC CÁC HÌNH ............................................................................................... 5 MỞ ĐẦU ......................................................................................................................... 6 1. Tính cấp thiết của đề tài ........................................................................................... 6 2. Mục tiêu nghiên cứu ................................................................................................ 7 3. Đối tượng và phạm vi nghiên cứu ........................................................................... 7 4. Phương pháp nghiên cứu ......................................................................................... 7 5. Cấu trúc luận văn ..................................................................................................... 8 CHƯƠNG 1: HỆ THỐNG TRỢ LÝ ẢO ........................................................................ 9 1.1. Khái niệm trợ lý ảo và cách thức hoạt động của trợ lý ảo ........................................ 9 1.1.1. Khái niệm trợ lý ảo......................................................................................... 9 1.1.2. Ứng dụng thực tế của Trợ lý ảo ................................................................... 12 1.1.3. Trợ lý ảo trên thế giới .................................................................................. 13 1.1.4. Kiến trúc của hệ thống trợ lý ảo ................................................................... 18 1.2. Phương thức tương tác của trợ lý ảo ................................................................... 19 1.2.1 Văn bản ......................................................................................................... 19 1.2.2. Phương thức nhận diện giọng nói ................................................................ 20 1.2.3. Phương thức xử lý hình ảnh ......................................................................... 21 1.3. Các tính năng của trợ lý ảo ................................................................................. 21 1.3.1 Tính năng tìm kiếm thông tin ........................................................................ 22 1.3.2. Các nền tảng hỗ trợ trợ lý ảo ........................................................................ 23 TIỂU KẾT CHƯƠNG 1 ................................................................................................ 24 CHƯƠNG 2: NGHIÊN CỨU XÂY DỰNG CHATBOT CHO HỆ THỐNG TRỢ LÝ ẢO IPA VÀ ỨNG DỤNG TRÊN DÒNG XE HUYNDAI SANTAFE 2021 .............. 25 2.1. Hệ thống trợ lý ảo IPA trên Huyndai Santafe 2021 ............................................ 25 2.2. Mô hình Chatbot tiếng việt cho IPA ................................................................... 26 2.2.1. Mạng học sâu DNNs .................................................................................... 26 2.2.2. Quản lý hội thoại .......................................................................................... 28 2.2.2.1. Mô hình quản lý dựa trên khung (Frame based dialog Agents) ............ 28 2.2.2.2. VoiceXML ............................................................................................. 30 1 2.2.3. Mô hình sinh hội thoại ................................................................................. 31 2.2.3.1. Ý nghĩa chính của mô hình sinh hội thoại ............................................. 31 2.2.3.2. Đặc điểm của mô hình hội thoại ............................................................ 32 2.2.4. Xây dựng mô hình ........................................................................................ 33 2.2.4.1. Mạng nơ ron tái phát RNN .................................................................... 33 2.2.4.2. Mô hình LSTM ...................................................................................... 34 2.2.3. Vấn đề và giải pháp khắc phục .................................................................... 36 TIỂU KẾT CHƯƠNG 2 ................................................................................................ 38 CHƯƠNG 3: THỰC NGHIỆM VÀ ĐÁNH GIÁ ......................................................... 39 3.1. Phát triển bài toán ............................................................................................... 39 3.2. Chương trình thực nghiệm .................................................................................. 39 3.2.1. Cấu trúc API.AI ........................................................................................... 40 3.2.2. Thành phần API.AI ...................................................................................... 41 3.2.3. Mô hình xây dựng ........................................................................................ 43 KẾT LUẬN ................................................................................................................... 47 TÀI LIỆU THAM KHẢO ............................................................................................. 48 2 DANH MỤC CÁC TỪ VIẾT TẮT Từ viết tắt Từ chuẩn AI Artificial Intelligence ML Machine Learning RNN LSTM Diễn giải Trí tuệ nhân tạo Máy học, máy móc có khả năng học tập Recurrent Neural Network Long short-term memory Mạng nơ ron tái phát Mạng cải tiến để giải quyết vấn đề phụ thuộc quá dài NLP Natural Languague Processing Xử lý ngôn ngữ tự nhiên SDK Support Development Kit Bộ công cụ hỗ trợ phát triển API Application Programming Interface Giao diện lập trình ứng dụng Các cặp câu hỏi đáp QA Question Answering IPA Intelligent Personal Assistants ASR Automatic Speech Recognition Xử lý giọng nói QC Query Classifier Phân loại truy vấn HMM Hidden Markov Mô hình Hidden Markov GMM Gaussian mô hình hỗ hợp Gaussian IMM Image Matching Xử lý hình ảnh SURF Speeded up robust features Nhận dạng hình ảnh Question-Answering Dịch vụ câu hỏi trả lời NLU Natural language understanding Hiểu ngôn ngữ tự nhiên CRF Conditional Random Fields Mô hình CRF FSA Finite State Automata FSM Finite State Machine QA Ứng dụng Hỗ trợ Cá nhân Thông minh Mô hình dựa trên máy trạng thái hữu hạn Máy trạng thái hữu hạn 3 FST A-FSM WFST DNN Máy chuyển đổi trạng thái hữu Finite State Transducer hạn Acceptor Finite State Machine Máy trạng thái hữu hạn chấp nhận Weighted Finite State Máy chuyển đổi trạng thái hữu Transducer hạn có trọng số Deep Neural Networks Mô hình học máy 4 DANH MỤC CÁC HÌNH Hình 1.1. Mô tả hệ thống trợ lý ảo hoạt động ............................................................... 13 Hình 1.2. Kiến trúc của hệ thống trợ lý ảo .................................................................... 18 Hình 1.3. Kiến trúc bên trong LSTM ............................................................................ 19 Hình 1.3. Kiến trúc nhận dạng giọng nói ...................................................................... 20 Hình 2.1. Mô phỏng hệ thống trợ lý ảo xe Huyndai Santafe 2021................................ 25 Hình 2.2. Biểu diễn mô hình mạng................................................................................ 28 Hình 2.3. Mạng nơ ron tái phát RNN ............................................................................ 33 Hình 2.4. Mô hình LSTM .............................................................................................. 34 Hình 2.5. Cell state trong LSTM ................................................................................... 35 Hình 2.6. LSTM chống vanishing gradient ................................................................... 36 Hình 3.1. Sơ đồ phát triển bài toán ................................................................................ 39 Hình 3.2. Sơ đồ hoạt động của Api.ai ........................................................................... 41 Hình 3.3. Giao diện Api.ai intents ................................................................................. 42 Hình 3.4. Giao diện Api.ai webhook ............................................................................. 42 Hình 3.5. Mô hình xây dựng giao diện .......................................................................... 43 5 MỞ ĐẦU 1. Tính cấp thiết của đề tài Ngày nay, trí tuệ nhân tạo đang ngày càng phát triển mạnh mẽ. Các hãng lớn như Google đều đưa ra các công nghệ tương tác trực tiếp với người dùng. Trí tuệ nhân tạo đang ngày càng được nâng cấp hoàn thiện giúp người dùng dễ dàng tương tác, dễ sử dụng và giảm quá trình thực hiện. Trí tuệ nhân tạo đang là một lĩnh vực mới mẻ và được sự quan tâm rất lớn từ các hãng công nghệ hàng đầu. Với công nghệ đang ngày càng được áp dụng trong đời sống giúp con người làm việc hiệu quả hơn tiết kiệm thời gian và sức lực, trí tuệ nhân tạo như một hệ thống được xây dựng để phục vụ cho điều đó. Hệ thống trợ lý ảo là một hệ thống giúp con người giao tiếp với máy thực hiện các yêu cầu ý muốn của người dùng. Hiện nay trên thế giới hệ thống trợ lý ảo đang được nghiên cứu và phát triển mạnh mẽ ở các hãng công nghệ hàng đầu thế giới. Hiện nay, hệ thống trợ lý ảo điều khiển bằng giọng nói là bước một bước quan trọng trong hệ thống hỗ trợ người lái trong thời đại vạn vận kết nối bên cạnh hệ thống “tự lái”, là những mắt xích quan trọng cách mạng công nghiệp 4.0 trong tương lai [1]. Hệ thống IPA dựa trên nền tảng Houndify của hãng SoundHound (AI) ra đời với hàng loạt tính năng mới và hiện đại được tích hợp, đặc biệt là tính năng tương tác với người dùng. Bên cạnh đó những tính năng hiện đại, trợ lý ảo IPA cũng thực hiện được các lệnh điều khiển cơ bản kiểm soát bằng giọng nói trong khi lái xe như: khả năng thực hiện cuộc gọi, gửi tin nhắn văn bản, tìm kiếm điểm đến, tìm kiếm nhạc, kiểm tra thời tiết và quản lý lịch biểu, điều chỉnh điều hòa không khí, cửa sổ trời và khóa cửa, thu thập các thông tin khác nhau về chiếc xe [1]. Tuy nhiên, trong thực tiễn, nhiều hệ thống trợ lý ảo điều khiển bằng giọng nói còn gặp nhiều lỗi trong quá trình sử dụng, nhất là đối với ngôn ngữ tiếng Việt – chưa phải là ngôn ngữ chưa được hỗ trợ nhiều [2], [3]. Với mong muốn tìm hiểu sâu về việc xử lý ngôn ngữ tự nhiên trong hệ thống trợ lý ảo em chọn đề tài “Nghiên cứu xây dựng chatbot cho hệ thống trợ lý ảo IPA và ứng dụng trên dòng xe huyndai santafe 2021” làm đề tài luận văn thạc sĩ. Với các nội dung: Chương 1: Giới thiệu tổng quan về hệ thống trợ lý ảo, cấu trúc hệ thống trợ lý ảo, trình bày về xử lý ngôn ngữ tự nhiên NLP và ứng dụng NLP trong chatbot. 6 Chương 2: Nghiên cứu một số kĩ thuật được sử dụng trong chatbot, tìm hiểu quản lý hội thoại, mô hình sinh hội thoại. Chương 3: Đề xuất cải thiện và xây dựng chatbot, thực nghiệm và đánh giá. 2. Mục tiêu nghiên cứu + Nghiên cứu tổng quan về hệ thống trợ lý ảo IPA được ứng dụng trên dòng xe Huyndai Santafe 2021. + Nghiên cứu một số kỹ thuật sử dụng để xử lý ngôn ngữ tự nhiên trong trợ lý ảo IPA. + Đề xuất cải thiện và xây dựng chatbot ứng dụng trên dòng xe Huyndai Santafe 2021. 3. Đối tượng và phạm vi nghiên cứu + Đối tượng: hệ thống trợ lý ảo IPA của Huyndai. + Phạm vi:  Hệ thống xử lý ngôn ngữ tự nhiên được ứng dụng trong trợ lý ảo IPA trên nền tảng Houndify của dòng xe Huyndai Santafe.  Nghiên cứu được tiến hành từ tháng 1/2021 đến 10/2021. 4. Phương pháp nghiên cứu - Phương pháp nghiên cứu lý thuyết là phương pháp thu thập thông tin thông qua nghiên cứu tài liệu nhằm mục đích tìm chọn những khái niệm và tư tưởng cơ bản là cơ sở cho lý luận của đề tài, hình thành giả thuyết khoa học, dự đoán về những thuộc tính của đối tượng nghiên cứu, xây dựng những mô hình lý thuyết hay thực nghiệm ban đầu. Trong luận văn phương pháp nghiên cứu lý thuyết được sử dụng để tìm hiểu cấu trúc hệ thống trợ lý ảo, quy trình của nhận dạng giọng nói tự động, xử lý hình ảnh, cấu trúc hệ thống chatbot, … cũng như việc xử lý ngôn ngữ tự nhiên. - Phương pháp nghiên cứu thực tiễn cho phép nhà nghiên cứu tác động trực tiếp vào đối tượng nhìn thấy sự xuất hiện, sự phát triển, diễn biến và kết thúc của các sự vật hiện tượng trong thực tiễn, phát hiện quy luật tất yếu của sự phát triển đối tượng, giúp kiểm tra kết quả nghiên cứu trong hoạt động thực tiễn, cải tạo thực tiễn. Trong khóa luận, phương pháp nghiên cứu thực tiễn đã được sử dụng để thu thập dữ liệu về quá trình tương tác giữa người dùng với hệ thống chatbot trên dòng xe Huyndai Santafe. 7 - Phương pháp chuyên gia là phương pháp điều tra qua đánh giá của các chuyên gia về vấn đề, một sự kiện khoa học nào đó. Trong quá trình thực hiện khóa luận, bản thân học viên đã tham vấn các thầy, các chuyên gia trong việc xây dựng mô hình hệ thống và xử lý về ngôn ngữ tự nhiên. 5. Cấu trúc luận văn Ngoài phần mở đầu, kết luận, luận văn được chia thành 3 chương như sau: Chương 1: Tổng quan về hệ thống trợ lý ảo Chương 2: Nghiên cứu xây dựng chatbot cho hệ thống trợ lý ảo IPA và ứng dụng trên dòng xe Huyndai Santafe 2021 Chương 3: Thực nghiệm và đánh giá 8 CHƯƠNG 1: HỆ THỐNG TRỢ LÝ ẢO 1.1. Khái niệm trợ lý ảo và cách thức hoạt động của trợ lý ảo 1.1.1. Khái niệm trợ lý ảo Trợ lý ảo (có thể được gọi là trợ lý kỹ thuật số, trợ lý giọng nói hay là trợ lý AI) là một ứng dụng lập trình hướng nhiệm vụ, nhận dạng giọng nói của con người và thực hiện các lệnh được phát âm bởi người dùng, nền tảng của nó là AI và năng suất của nó dựa vào việc lưu trữ hàng triệu từ và hàng triệu cụm từ. Không giống như các thiết bị nhận dạng giọng nói đầu tiên mà các nhà khoa học đang nghiên cứu vào những năm 4050 của thế kỷ trước, các trợ lý kỹ thuật số hiện đại không bị hạn chế bởi một mẫu ngôn ngữ hoặc từ vựng nhất định [2]. Loại đầu tiên thuộc về tự động hóa ngôi nhà (còn gọi là nhà thông minh), một hệ thống cho phép điều khiển thiết bị, ánh sáng, điện, thiết bị và những thứ khác lấp đầy trong nhà của chúng ta, nhà thông minh đòi hỏi phải có kết nối internet và là một phần của Internet vạn vật (IoT), loại thứ hai, trợ lý ảo cho nơi làm việc, có thể được sử dụng ngoài liên lạc với tự động hóa tòa nhà, như một ứng dụng độc lập được kết hợp như thói quen của mọi người trong nhóm [4]. Để định nghĩa một cách dễ hiểu, các trợ lý ảo là một con bot có khả năng thực hiện nhiệm vụ hoặc dịch vụ cho một cá nhân dựa trên các lệnh bằng lời nói hoặc văn bản. Khác với Chatbot, ngoài việc chỉ giúp có thể phản hồi lại các câu lệnh của người dùng ở dạng văn bản, trợ lý ảo giúp đỡ được con người nhiều hơn thế. Bạn có thể hỏi trợ lý ảo của bạn một câu hỏi nào đó trong một lĩnh vực hẹp nào đó(closed domain) hoặc một câu hỏi bất kỳ(open domain) và hy vọng nó sẽ giúp bạn tìm câu trả lời thích hợp. Bạn cũng có thể nhờ sự giúp đỡ của các trợ lý ảo để điều khiển các thiết bị thông minh trong nhà một cách tự động, lên lịch hẹn, quản lý công việc hàng ngày như những việc cần làm, email hay thời gian biểu. Hiện nay, khi nói để trợ lý ảo, ta thường nói về VoiceBot, những trợ lý ảo được điều khiển bằng giọng nói. Lý do là các công nghệ về Speech2text và Text2speech đang rất phát triển trong thời gian gần đây nhờ việc áp dụng các kỹ thuật mới, đặc biệt hiệu quả trong Deep learning. Việc tích hợp 2 bài toán này vào các trợ lý ảo khiến ta dễ dàng hơn trong việc thao tác, điều khiển, tay và mắt được giải phóng giúp ta có thể dễ dàng 9 giao tiếp với trợ lý ảo trong các trường hợp đặc biệt như lái xe, nấu ăn,... hoặc hỗ trợ cho những người bị khiếm thị . Một số trợ lý ảo của các ông lớn về công nghệ đã trở nên quen thuộc với mọi người như Alexa của Amazon, Cortana của Microsoft, Ok Google của Google và Siri của Apple. Các công ty về công nghệ lớn không chỉ ở thế giới mà ngay cả ở Việt Nam cũng đang rất quan tâm đặc biệt tới bài toán này và vẫn luôn ấp ủ các dự án xây dựng trợ lý ảo cho riêng mình. Theo nhìn nhận và đánh giá sự vào cuộc của các công ty trong thời gian gần đây, mình nghĩ năm 2019 thực sự là năm của Virtual Assistant [5]. Các ứng dụng trợ lý giọng nói hoạt động dựa trên hệ thống Nhận dạng giọng nói tự động (ASR), các hệ thống ASR ghi lại lời nói và sau đó chia nhỏ thành các âm vị, sau này được xử lý thành văn bản, Một âm vị (không phải từ của âm tiết) là một đơn vị đo lường cơ bản để nhận dạng giọng nói của con người, nhận dạng âm vị mang lại kết quả tốt hơn quá trình giải mã từ, vì người cuối cùng có xu hướng phân tích từ dưới dạng một đơn vị độc lập bỏ qua các giới hạn ngữ cảnh [6]. Cho dù bạn có thể sử dụng loại phần mềm nhận dạng giọng nói nào, tất cả đều dựa trên ASR, nếu bạn đã từng tự hỏi làm thế nào để tạo ra một phần mềm trợ lý ảo, điều quan trọng nhất cần làm là làm quen với cách ASR hoạt động. Tóm lại, quá trình bắt đầu với việc thiết bị thu thập âm thanh với micro. Các dạng sóng giọng nói đã ghi được chuyển thẳng sang phân tích âm thanh, được thực hiện ở ba cấp độ khác nhau: - Mô hình âm thanh, đại diện cho những âm vị được phát âm và những từ mà các âm vị này hoàn thành là gì; - Mô hình phát âm, phân tích cách phát âm của âm vị, có bất kỳ trọng âm hoặc đặc thù nào khác của bộ máy phát âm để nắm bắt sự biến đổi ngữ âm của lời nói; - Mô hình hóa ngôn ngữ, nhằm mục đích tìm kiếm xác suất theo ngữ cảnh tùy thuộc vào âm vị nào được ghi lại, tất cả các dữ liệu được xử lý bởi AI mà không cần sự tương tác của con người, giảm tỷ lệ lỗi xuất hiện bằng cách sử dụng các thuật toán học máy [6]. Dữ liệu dạng sóng giọng nói sau đó được truyền đến bộ giải mã, nơi cuối cùng nó chuyển thành văn bản để sử dụng thêm như lệnh hoặc chính tả, trí thông minh nhân tạo mang đến cho các ứng dụng trợ lý giọng nói hiện đại sự tự do không dựa vào vốn từ vựng hạn chế, mà sử dụng lưu trữ đám mây với hàng triệu từ và cụm từ thay thế. Nói cách khác, học máy làm cho các ứng dụng nghe toàn bộ bài phát biểu, không phải mỗi 10 từ riêng biệt, bằng cách đó, các ứng dụng giọng nói sẽ phân tích bối cảnh và xác suất để xác định những gì bạn đang cố gắng nói. Các dịch vụ Trợ lý ảo có thể cung cấp nhiều dịch vụ khác nhau, ngày càng có nhiều trên Amazon Alexa và Google Assistant, các dịch vụ này bao gồm: “Cung cấp thông tin như thời tiết, công thức nấu ăn kiến thức từ các nguồn như Wikipedia hoặc IMDB, đặt báo thức, tạo danh sách việc cần làm và danh sách mua sắm; phát nhạc trực tuyến từ các dịch vụ phát trực tuyến như Spotify và Pandora; đài phát thanh; đọc sách nói; phát video, chương trình truyền hình hoặc phim trên TV, từ các dịch vụ như Netflix, phần bổ sung và / hoặc trên Amazon hoặc mua sắm trên một dịch vụ thay thế dịch vụ khách hàng của con người. Một tờ báo ước tính rằng các trợ lý trực tuyến tự động sẽ giảm 30% khối lượng công việc so với các trung tâm cuộc gọi của con người ”. [7]. Phương thức tương tác Các trợ lý ảo nhận lệnh và làm việc thông qua: - Văn bản (chat online), đặc biệt trong một ứng dụng nhắn tin nhanh hoặc ứng dụng khác - Giọng nói, ví dụ như Amazon Alexa trên thiết bị Amazon Echo, hoặc Siri trên một chiếc iPhone - Chụp và/hoặc tải ảnh lên, như trường hợp của Samsung Bixby trên chiếc Samsung Galaxy S8 Một số trợ lý ảo có thể được truy cập thông qua nhiều phương pháp, chẳng hạn như trò chuyện trên ứng dụng Google Allo và giọng nói trên loa thông minh Google Home để truy cập Trợ lý Google. Trợ lý ảo sử dụng công nghệ xử lý ngôn ngữ tự nhiên (NLP) để chuyển đổi văn bản hoặc lời nói của người dùng thành các lệnh sẵn sàng thực hiện và nhiều trợ lý ảo có khả năng tiếp tục học thêm các câu khác. Các lệnh khác sử dụng các kỹ thuật trí tuệ nhân tạo, bao gồm cả học máy [2]. * Khái niệm chatbot Chatbots (có thể gọi là chatbots) là một lĩnh vực trí tuệ nhân tạo. Chatbot là một hệ thống trao đổi thông tin giữa hai hoặc nhiều đối tượng theo một tiêu chuẩn nhất định, quá trình trao đổi thông tin có thể được nói, viết hoặc ngôn ngữ ký hiệu. [8]. Chatbot có thể hiểu đơn giản là một chương trình máy tính mà người dùng có thể giao tiếp với máy 11 thông qua ứng dụng nhắn tin. Chatbots có thể nói và hiểu giọng nói, đồng thời sẽ phân tích những gì con người nói và cố gắng hiểu một yêu cầu nhất định. Chatbots sau đó giao tiếp với các máy khác, trao đổi câu hỏi và sau đó trả lời con người. Chatbots giúp mọi người tiết kiệm thời gian và chi phí thông qua các ứng dụng trong dịch vụ khách hàng (tự động hóa quy trình ...), hoặc tăng năng suất của 18 công nhân (bot giúp đặt lịch hẹn ...) hoặc thậm chí chăm sóc cuộc sống của mọi người (Robot chăm sóc sức khỏe ...) . Chatbots có thể được chia thành 3 loại chính: - Chatbot giữa người với người - Chatbot giữa máy với máy - Chatbot giữa người và máy Mặc dù chatbot mới là chủ đề “nóng hổi” từ cuối năm nay, nhưng chatbots thực sự đã tồn tại được 50 năm. Năm 1950, ý tưởng của Turing là đưa ra một thiết bị thông minh để thực hiện các cuộc trò chuyện thay cho con người. Ý tưởng này đã đặt nền móng cho cuộc cách mạng chatbot. Sau đó, Eliza là chương trình chatbot đầu tiên được phát triển vào năm 1966. Chương trình được tạo ra để “đóng vai” một nhà trị liệu trả lời những câu hỏi đơn giản với cấu trúc câu xác định. Chương trình được phát triển bởi ông Joseph Weizenbaum của Viện Công nghệ Massachusetts. Ngày nay, với sự ra đời của máy tính, chúng có mặt khắp nơi và dựa trên cơ sở dữ liệu khổng lồ và đa dạng được lưu trữ trên máy tính. Để có thể tận dụng được kho dữ liệu đa dạng và đồ sộ này, máy tính cần có khả năng xử lý thông tin trong quá trình trao đổi thông tin (đối thoại). Với khả năng đối thoại thông minh, chatbots có thể đáp ứng các nhu cầu trên và trở thành chương trình tư vấn giúp đỡ tất cả mọi người. 1.1.2. Ứng dụng thực tế của Trợ lý ảo Phát triển mạng nơ-ron và xử lý ngôn ngữ tự nhiên hoàn toàn hoạt động theo hướng biến điều khiển giọng nói thành một tiêu chuẩn mới cho nhiều sản phẩm và hành động mà mọi người sử dụng/thực hiện hàng ngày, chiến lược Amazon Alexa Everywhere bắt đầu một xu hướng mới của các công ty phát hành bộ công cụ phát triển thiết bị dịch vụ để tích hợp ứng dụng trợ lý giọng nói [4]. Các nhà sản xuất thiết bị gia dụng như LG, Whirlpool và Philips đã bắt đầu phát hành các mặt hàng hỗ trợ Alexa và phản ứng của người tiêu dùng nhanh chóng thu hút sự chú ý của các doanh nhân vào các ứng dụng trợ lý giọng nói. 72% chủ sở hữu trợ lý 12 ảo thừa nhận rằng thiết bị của họ nhanh chóng trở thành một phần thiết yếu trong thói quen hàng ngày của họ và họ không muốn bỏ bộ điều khiển giọng nói này do thói quen bắt đầu hình thành và dễ sử dụng. Những công việc mà Trợ lý ảo có thể thực hiện: - Gửi thông tin cập nhật về các chủ đề mà bạn quan tâm mà không cần bạn tìm kiếm chúng; dự báo thời tiết; thêm các sự kiện và cuộc họp vào lịch của một nhóm hoặc từng thành viên riêng biệt; đặt báo thức và nhắc nhở mọi việc thứ diễn ra theo đúng lịch trình; trả lời câu hỏi chung bằng giọng nói (thay vì mở liên kết để bạn tìm kiếm câu trả lời); tạo và điền vào danh sách To-do list; thực hiện dịch thuật thời gian thực; cập nhật cho bạn về lưu lượng trên lộ trình của bạn (đặc biệt hữu ích cho các hoạt động hậu cần); theo dõi hàng tồn kho trong kho và tự động điền vào danh sách mua sắm với các mặt hàng sẽ được đưa ra ngoài; điều khiển các thiết bị khác từ ánh sáng đến PC; đọc email và các tài liệu khác thành tiếng; ghi lại lời nói chính tả và chuyển nó thành văn bản thay vì gõ thủ công [9]. 1.1.3. Trợ lý ảo trên thế giới Hiện nay, thế giới trợ lý ảo được phân thành 2 nhóm: nhóm ứng dụng tại nơi làm việc và nhóm ứng dụng tại nhà, trợ lý ảo cho nơi làm việc được sử dụng để giao tiếp với bên ngoài (như Viettel Cyberbot), để tự động hóa tòa nhà. Trợ lý ảo tại nhà thuộc về các nhà thông minh, một hệ thống cho phép điều khiển thiết bị, ánh sáng, điện, thiết bị và những thứ khác ở nhà. [10] Hình 1.1. Mô tả hệ thống trợ lý ảo hoạt động Theo khảo sát của Adobe Analytics (năm 2020) [10]: 13 - Người dùng loa thông minh (một dạng trợ lý ảo nghe và phát âm thanh) thường yêu cầu bài hát 70% thời gian, hỏi thời tiết 64% thời gian và hỏi giải trí 53%. - Người ta dùng giọng nói để tìm kiếm trực tuyến chiếm 47%, tin tức chiếm 46% và câu hỏi trực tiếp chiếm 34%. - 31% sử dụng giọng nói để ra lệnh cho nhà thông minh, 30% để đặt hàng/mua sắm trực tuyến, 17% cho các đơn đặt hàng ăn mang về và 16% cho tìm hiểu về chuyến bay và khách sạn. Theo số liệu thống kê của Statista (năm 2020): - 45% chủ sở hữu loa thông minh dự định mua thêm một chiếc khác. - 1 tỷ lượt tìm kiếm bằng giọng nói đã được thực hiện mỗi tháng vào năm 2018. - 72% những người sử dụng thiết bị tìm kiếm bằng giọng nói cho biết nó đã trở thành một phần trong cuộc sống của họ. - 61% trong số người 25-64 tuổi nói rằng họ sẽ sử dụng thiết bị thoại nhiều hơn trong tương lai. Tại Việt Nam, người ta biết nhiều đến các trợ lý ảo Google Assistant của Google, Apple Siri của Apple, Cortana của Microsoft… tuy nhiên trên phạm vi toàn thế giới thì thị phần của các trợ lý ảo như sau (số liệu thống kê của Statista năm 2020) Năm 2018: - Amazon Alexa: 37,7% - Google Assistant: 30,3% - Khác: 32% 14 2018 32% Amazon Alexa 37,700% Google Assistant Khác 30,300% Năm 2019: - Amazon Alexa: 31,7% - Google Assistant: 31,4% - Ali Genie: 11,2% - Xiao AI: 7% - Duer OS: 6,8% - Siri: 6% 2019 6,800% 6% Amazon Alexa 7% 31,700% Google Assistant Ali Genie 11,200% Xiao AI Duer OS Siri: 31,400% Trước đó, nhiều hệ thống trợ lý ảo được nghiên cứu và phát triển như Siri của Apple, Cortana của Mircosoft, Google Now của Goolgle hay Alexa của Amazon. Đối 15 với xe hơi cũng đã xuất hiện những tính năng hỗ trợ thao tác điều khiển bằng giọng nói đơn giản, ví dụ như hệ thống thông tin giải trí SYNC của hãng Ford sử dụng trợ lý ảo Alexa của Amazon, hệ thống này cũng đã được trang bị trên những dòng xe Ford bán ra tại Việt Nam [10]. Trên lý thuyết, hệ thống trợ lý ảo điều khiển bằng giọng nói là bước một bước quan trọng trong hệ thống hỗ trợ người lái trong thời đại công nghệ hệ thống “tự lái” phát trển mạnh. Tuy nhiên, trong quá khứ hệ thống trợ lý ảo điều khiển bằng giọng nói ở một số hãng xe vẫn bị khách hàng phàn nàn về chất lượng cũng như hay bị lỗi trong quá trình sử dụng. Cụ thể, theo kết quả của cuộc điều tra nghiên cứu chất lượng (Initial Quality Study – IQS) của tổ chức JD Power dựa trên khảo sát của 86.118 chủ sở hữu xe cho thấy vấn đề nhận diện giọng nói chiếm 8,3 lỗi phát sinh trên 100 xe, tăng hơn hẳn so với năm 2013 (với 7,6 lỗi). Đây là một ảnh hưởng không nhỏ đến sự tín nhiệm của khách hàng vào các nhà sản xuất xe hơi. Nhưng đối với IPA của Huyndai thì lại hoàn tàn khác biệt. Intelligent Personal Agent cho phép người sử dụng điều khiển hoạt động khác nhau thông qua giọng nói với dữ liệu thời gian thực, nhu cầu trong tương lai. Hệ thống trợ lý ảo IPA của Hyundai dựa trên nền tảng Houndify của hãng SoundHound (AI), được tối ưu hóa cho các ứng dụng trong xe [2]. Ví dụ: + Khi người lái kích hoạt bằng khẩu lệnh: “Hi, Hyundai.” thì hệ thống sẽ phản ứng với các lệnh thoại hoặc câu hỏi của người lái xe bằng cách liên lạc với máy chủ SoundHound AI để tìm kiếm thông tin được yêu cầu hoặc hoàn thành một nhiệm vụ. + Khi người dùng nói: “Cho tôi biết thời tiết sẽ như thế nào vào ngày mai và tắt đèn trong phòng khách của chúng ta” thì hệ thống nhận ra hai lệnh riêng biệt trong cùng một câu và hoàn thành mỗi nhiệm vụ một cách riêng biệt. Ngoài ra, trợ lý ảo IPA còn có khả năng tiên đoán nhu cầu của lái xe và cung cấp thông tin hữu ích. Ví dụ, hệ thống có thể nhắc nhở sớm về một cuộc họp sắp tới và đề xuất thời gian khởi hành cho các điều kiện giao thông hiện tại. * Ngôn ngữ tự nhiên và ngôn ngữ máy: (i) Ngôn ngữ tự nhiên: 16 Ngôn ngữ tự nhiên là một thành phần trong lĩnh vực ngôn ngữ học rộng lớn. Trong ngôn ngữ quốc tế, ngôn ngữ tự nhiên được viết là Natural Language. Ngôn ngữ tự nhiên được hiểu là bất cứ ngôn ngữ nào được phát sinh, được tạo ra mà không trải qua bất cứ một suy nghĩ nào trước đó trong não bộ của con người. Ngôn ngữ tự nhiên tồn tại dưới nhiều trạng thái trong cuộc sống của chúng ta. Đây được coi là một loại ngôn ngữ mà bất cứ một đứa trẻ nào cũng có thể tiếp thu và học tập thông qua ngôn ngữ nói để hình thành kiến thức cho bản thân. Việc không tuân thủ theo bất cứ một sự định hướng cũng như hướng dẫn chỉ định từ đầu đã tạo nên những nét riêng biệt khiến ngôn ngữ tự nhiên khác với những ngôn ngữ thông thường. Việc xử lý ngôn ngữ tự nhiên này được thực hiện dựa trên một mục đích cao cả nhằm tạo ra sự kết nối thông minh giữa những thiết bị công nghệ với con người. Khi máy móc có thể phân tích, xử lý và hiểu những ngôn ngữ tự nhiên đó thì đồng nghĩa với việc mang lại cho con người những tiện ích vô cùng to lớn. (ii) Ngôn ngữ máy: Ngôn ngữ máy (còn được gọi là máy ngữ hay mã máy; tiếng Anh là machine language hay machine code) là một tập các chỉ thị được CPU của máy tính trực tiếp thực thi. Mỗi chỉ thị thực hiện một chức năng xác định, ví dụ như tải dữ liệu, nhảy hay tính toán số nguyên trên một đơn vị dữ liệu của thanh ghi CPU hay bộ nhớ. Tất cả các chương trình được thực thi trực tiếp bởi CPU đều là các chuỗi các chỉ thị này. Mã máy nhị phân (khác với mã hợp ngữ) có thể được xem như là phương thức biểu diễn thấp nhất của một chương trình đã biên dịch hay hợp dịch, hay là ngôn ngữ lập trình nguyên thủy phụ thuộc vào phần cứng (ngôn ngữ lập trình thế hệ đầu tiên). Mặc dù chúng ta hoàn toàn có thể viết chương trình trực tiếp bằng mã nhị phân, việc này rất khó khăn và dễ gây ra những lỗi nghiêm trọng vì ta cần phải quản lý từng bit đơn lẻ và tính toán các địa chỉ và hằng số học một cách thủ công. Do đó, ngoại trừ những thao tác cần tối ưu và gỡ lỗi chuyên biệt, chúng ta rất hiếm khi làm điều này. Hiện nay, hầu như tất cả các chương trình máy tính trong thực tế đều được viết bằng các ngôn ngữ bậc cao hay (đôi khi) hợp ngữ, và sau đó được dịch thành mã máy thực thi bằng các công cụ phụ trợ như trình biên dịch, trình hợp dịch hay trình liên kết. Ngoài ra, các chương trình được viết bằng ngôn ngữ thông dịch thì được dịch sang mã máy nhờ trình thông dịch tương ứng (có thể xem như là trình thực thi hay trình xử lý). 17 Các trình thông dịch này thường bao gồm các mã máy thực thi trực tiếp (sinh ra từ mã nguồn hợp ngữ hay các ngôn ngữ bậc cao). 1.1.4. Kiến trúc của hệ thống trợ lý ảo Các trợ lý ảo có thể cung cấp rất nhiều dịch vụ, trong đó các dịch vụ trên Amazon Alexa và Google Assistant đang tăng lên từng ngày, các dịch vụ này bao gồm [11]: - Cung cấp thông tin như thời tiết, thông tin chi tiết từ các nguồn như Wikipedia hoặc IMDB, đặt báo thức, tạo việc cần làm và danh sách mua sắm, phát nhạc từ các dịch vụ phát trực tuyến như Spotify và Pandora; đài phát thanh; đọc sách nói, phát trực tuyến video, Chương trình truyền hình hoặc phim, phát trực tuyến từ các dịch vụ như Netflix, mua sắm trên các dịch vụ như Amazon bổ sung và / hoặc thay thế dịch vụ khách hàng của con người. Một tờ báo ước tính rằng các trợ lý trực tuyến tự động sẽ giảm 30% khối lượng công việc so với các trung tâm cuộc gọi của con người [8]. Hình 1.2. Kiến trúc của hệ thống trợ lý ảo Module Trigger word detection sẽ quyết định xem đó có phải là một lệnh hay không. Nếu là một lệnh, lệnh sẽ được chuyển từ âm thanh thành văn bản thông qua Speech2text model. Lệnh sẽ được phân loại theo mục đích và trích chọn ra những thông tin cần thiết để xác định hàng động tiếp theo của trợ lý ảo. Thông tin được quản lý theo các Session. Lệnh được thực hiện tương ứng với mục đích và thông tin hiện có của câu 18
- Xem thêm -

Tài liệu liên quan