Đăng ký Đăng nhập
Trang chủ Giáo dục - Đào tạo Cao đẳng - Đại học Khoa học xã hội Phân tích ý kiến người dùng theo khía cạnh bằng phương pháp học sâu...

Tài liệu Phân tích ý kiến người dùng theo khía cạnh bằng phương pháp học sâu

.PDF
76
1
51

Mô tả:

ỦY BAN NHÂN DÂN TỈNH BÌNH DƯƠNG TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT NGUYỄN QUỐC BÌNH PHÂN TÍCH Ý KIẾN NGƯỜI DÙNG THEO KHÍA CẠNH BẰNG PHƯƠNG PHÁP HỌC SÂU CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN MÃ SỐ: 8480104 LUẬN VĂN THẠC SĨ BÌNH DƯƠNG – 2021 UỶ BAN NHÂN DÂN TỈNH BÌNH DƯƠNG TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT NGUYỄN QUỐC BÌNH PHÂN TÍCH Ý KIẾN NGƯỜI DÙNG THEO KHÍA CẠNH BẰNG PHƯƠNG PHÁP HỌC SÂU CHUYÊN NGÀNH: HỆ THÔNG THÔNG TIN MÃ SỐ: 8480104 LUẬN VĂN THẠC SĨ NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. BÙI THANH HÙNG BÌNH DƯƠNG – 2021 ii LỜI CAM ĐOAN Tên tôi là: Nguyễn Quốc Bình Sinh ngày: 26/11/1974 Học viên lớp cao học CH18HT01 – Trường Đại học Thủ Dầu Một Xin cam đoan: Đề tài: “Phân tích ý kiến người dùng theo khía cạnh bằng phương pháp học sâu” là công trình nghiên cứu của riêng tôi dưới sự hướng dẫn của Thầy TS. Bùi Thanh Hùng. Tất cả tài liệu tham khảo đều có nguồn gốc, trích dẫn rõ ràng. Ngoại trừ kết quả tham khảo từ các công trình khác đã ghi rõ trong luận văn, các nội dung trình bày trong luận văn này đúng như nội dung trong đề cương và yêu cầu của thầy giáo hướng dẫn. Nếu sai tôi hoàn toàn chịu trách nhiệm trước hội đồng khoa học. Bình Dương, tháng 12 năm 2021 Tác giả luận văn Nguyễn Quốc Bình i LỜI CẢM ƠN Sau một thời gian nghiên cứu và làm việc nghiêm túc, được sự động viên, giúp đỡ và hướng dẫn tận tình của Thầy hướng dẫn TS. Bùi Thanh Hùng, luận văn Cao học “Phân tích ý kiến người dùng theo khía cạnh bằng phương pháp học sâu” đã hoàn thành. Tôi xin bày tỏ lòng biết ơn sâu sắc đến: Thầy hướng dẫn TS.Bùi Thanh Hùng đã tận tình chỉ dẫn, giúp đỡ tôi hoàn thành luận văn này. Đồng thời tôi gửi lời cảm ơn đến các thầy, cô đã giảng dạy truyền đạt kiến thức quý báo cho tôi trong suốt thời gian học tập và nghiên cứu. Tôi chân thành cảm ơn bạn bè, đồng nghiệp và gia đình đã động viên, khích lệ, tạo điều kiện giúp đỡ tôi trong suốt quá trình học tập, thực hiện và hoàn thành luận văn này. ii TÓM TẮT LUẬN VĂN Trong cuộc cách mạng 4.0 hiện nay, cùng với sự bùng nổ mạng xã hội và thương mại điện tử, nghiên cứu phân tích ý kiến người dùng theo khía cạnh dần trở thành công cụ quan trọng trong việc phân tích, đánh giá quan điểm người dùng thông qua mạng xã hội, trang mạng bán hàng. Qua phân tích ý kiến người dùng theo khía cạnh, chúng ta sẽ nắm bắt được quan điểm người dùng hoặc khách hàng, cũng như xu hướng chính trị, xã hội xảy ra trong tương lai. Trước đây, nhiều công trình nghiên cứu phân tích ý kiến người dùng theo khía cạnh được thực hiện dựa trên từ vựng, một số dựa vào học máy. Trong những năm gần đây, các mô hình học sâu như mạng nơ ron tích chập (CNNs), mạng nơ ron tái phát (RNNs), bộ nhớ ngắn dài (LSTM) đã được áp dụng trong nhiều bài toán và đạt hiệu quả cao. Trong nghiên cứu này, chúng tôi đề xuất phương pháp học sâu kết hợp MultiCNN-LSTM để giải quyết bài toán phát hiện khía cạnh của phân tích ý kiến người dùng theo khía cạnh ở mức tài liệu. Mô hình này kết hợp những tính năng nổi bật của mỗi phương pháp CNN và LSTM, trong đó CNN hoạt động tốt trong trích xuất đặc trưng dữ liệu lớn, còn LSTM hoạt động hiệu quả trong việc phân lớp dữ liệu. Kết quả thực nghiệm trên bộ dữ liệu tiếng Việt VLSP 2018 cho thấy, phương pháp được đề xuất tốt hơn các phương pháp nghiên cứu trước đó nếu chỉ dựa vào một phương pháp đơn lẻ. Một phần kết quả nghiên cứu của chúng tôi, tại: Hội nghị khoa học quốc gia nghiên cứu cơ bản và ứng dụng CNTT lần thứ X – Năm 2020, ngày 8-9/10/2020, Đại học Nha Trang, Khánh Hòa, Việt Nam, FAIR 2020 “FUNDAMENTAL AND APPLIED IT RESEARCH”. Bai báo cáo của chúngg tôi về “Phân tích ý kiến người dùng theo khía cạnh bằng phương pháp học sâu kết hợp CNN-LSTM” đã được Hội nghị công bố chấp nhận. iii MỤC LỤC LỜI CAM ĐOAN ................................................................................................... i LỜI CẢM ƠN ........................................................................................................ ii TÓM TẮT LUẬN VĂN ....................................................................................... iii DANH MỤC HÌNH ............................................................................................ viii DANH MỤC BẢNG............................................................................................. xi CHƯƠNG 1 ......................................................................................................... 12 TỔNG QUAN VỀ LĨNH VỰC NGHIÊN CỨU ................................................. 12 1.1 Lý do chọn đề tài........................................................................................ 12 1.2 Mục tiêu nghiên cứu .................................................................................. 13 1.3 Đối tượng, phạm vi nghiên cứu ................................................................. 13 1.3.1 Đối tượng nghiên cứu ......................................................................... 13 1.3.2 Phạm vi nghiên cứu ............................................................................ 13 1.4 Phương pháp nghiên cứu ........................................................................... 14 1.5 Ý nghĩa khoa học và thực tiễn ................................................................... 14 1.6 Bố cục luận văn .......................................................................................... 15 CHƯƠNG 2 ......................................................................................................... 16 CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN .......................... 16 2.1 Xử lý ngôn ngữ tự nhiên ............................................................................ 16 2.2 Biểu diễn từ ................................................................................................ 16 2.2.1 One hot vector ..................................................................................... 17 2.2.2 Cbow ................................................................................................... 17 iv 2.2.3 Skip gram ............................................................................................ 18 2.3 Học Máy (Machine Learning) ................................................................... 19 2.4 Học Sâu (Deep Learning) .......................................................................... 21 2.4.1 Mạng notron nhận tạo ......................................................................... 22 2.4.2 Mô hình Long short-term Memory ..................................................... 24 2.4.3 Mạng nơ-ron tích chập ........................................................................ 27 2.4.4 Mạng nơ-ron kết hợp CNN-LSTM ..................................................... 30 2.5 Phân tích ý kiến người dùng theo khá cạnh ............................................... 33 2.5.1 Tổng quan ........................................................................................... 33 Phân tích ý kiến người dùng theo khía cạnh ........................................................ 33 2.5.2 Hướng tiếp cận và giải quyết bài toán ................................................ 34 2.5.3 Hướng đề xuất nghiên cứu .................................................................. 35 CHƯƠNG 3 ......................................................................................................... 36 MÔ HÌNH ĐỀ XUẤT .......................................................................................... 36 3.1 Tổng quan về mô hình đề xuất ................................................................... 36 3.2 Các đặc trưng của mô hình ........................................................................ 37 3.2.1 Word2vec ............................................................................................ 37 3.2.2 Mô hình CNN ..................................................................................... 39 3.2.3 Mô hình LSTM ................................................................................... 41 3.2.4 Mô hình kết hợp CNN-LSTM ............................................................ 42 3.2.5 Mô hình MultiCNN-LSTM ................................................................ 43 3.2.6 Phân tích ý kiến người dùng theo khía cạnh ....................................... 44 v 3.3 Phương pháp đánh giá kết quả ................................................................... 45 CHƯƠNG 4 ......................................................................................................... 46 THỰC NGHIỆM ................................................................................................. 46 4.1 Dữ liệu........................................................................................................ 46 4.1.1 Thu thập dữ liệu .................................................................................. 46 4.1.2 Xử lý dữ liệu ....................................................................................... 48 4.2 Kết quả thực nghiệm .................................................................................. 52 4.2.1 Công nghệ sử dụng ............................................................................. 52 4.2.2 Trích xuát đặc trưng ............................................................................ 52 4.2.3 Xác định khía cạnh.............................................................................. 53 4.2.4 Phân tích ý kiến người dùng theo khía cạnh ....................................... 55 4.3 Xây dựng ứng dụng.................................................................................... 58 4.3.1 Thiết kế ............................................................................................... 58 4.3.2 Ứng dụng Phân tich ý kiến người dùng theo khía cạnh...................... 59 CHƯƠNG 5 ......................................................................................................... 63 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ........................................................... 63 5.1 Kết luận ...................................................................................................... 63 5.2 Hướng phát triển ........................................................................................ 63 CÔNG TRÌNH CÔNG BỐ .................................................................................. 65 TÀI LIỆU THAM KHẢO ................................................................................... 66 vi DANH MỤC CHỮ VIẾT TẮT KÝ HIỆU TÊN TIẾNG ANH ANN Artificial Neural Network CNN Convolution Neural Network FC Fully Connected RELU Rectified Linear Unit RGB Red Green Blue LSTM Long short term memory NLP Natural Language Processing vii DANH MỤC HÌNH Hình 2. 1: Xử lý ngôn ngữ tự nhiên (NLP) là một trong số những bài toán cơ bản của Trí tuệ nhân tạo ................................................................................................... 16 Hình 2. 2: Mô hình CBOW tổng quát ...................................................................... 18 Hình 2. 3: Mô hình skip-gram tổng quát .................................................................. 19 Hình 2. 4: Lịch sử ra đời của Trí tuệ nhân tạo, học máy và học sâu ........................ 20 Hình 2. 5: Học sâu (Deep Learning) có tiềm năng ứng dụng rất lớn ....................... 22 Hình 2. 6: Kiến trúc mạng nơ-ron nhân tạo ............................................................. 23 Hình 2. 7: Cấu trúc trong từng nốt của mạng nơ-ron nhân tạo ................................ 24 Hình 2. 8: Mô tả một đoạn mạng nơ-ron hồi quy. .................................................... 24 Hình 2. 9: Mô hình mạng hồi quy RNN. .................................................................. 25 Hình 2. 10:Cấu trúc của một tế bào trong mô hình LSTM. ...................................... 26 Hình 2. 11: Ví dụ phép tổng hợp lớn nhất (maxcoolinw cho đầu vào 5x5 và bộ lộc 3x3 với 2 dạng bước trượt 1 và 2 .............................................................................. 28 Hình 2. 12: Ví dụ minh họa lớp Pooling. .................................................................. 29 Hình 2. 13: Kỹ thuật DropOut để giảm Overfitting .................................................. 30 Hình 2. 14: Trình bày sơ đồ tổng thể của mô hình đề xuất CNN-LSTM ................ 31 Hình 3. 1: Tổng quan mô hình đề xuất ..................................................................... 37 Hình 3. 2: Phân loại văn bản bằng mô hình Word2Vec .......................................... 38 Hình 3. 3: Mô hình mạng nơ-ron tích chập CNN ..................................................... 41 Hình 3. 4: Mô hình ví dụ thuật toán LSTM để phân tích ý kiến theo khía cạnh ..... 42 Hình 3. 5: Sơ đồ cấu trúc mô hình CNN-LSTM ....................................................... 43 Hình 3. 6: Cấu trúc mô hình MultiCNN-LSTM ....................................................... 43 Hình 4. 1: Sơ đồ quy trình xử lý dữ liệu .................................................................... 49 Hình 4. 2: Phân bổ số lượng các khía cạnh trong bộ dữ liệu ................................... 51 Hình 4. 3: Phân chia dữ liệu huấn luyện, kiểm tra và kiểm thử ............................... 52 Hình 4. 4: Minh họa trích xuất từ vựng .................................................................... 53 viii Hình 4. 5: Độ đo F1 cho bài toán nhận dạng khía cạnh trên mô hình MultiCNNLSTM ......................................................................................................................... 54 Hình 4. 6: Độ đo F1 trên từng khía cạnh cho bài toán nhận dạng ý kiến trên mô hình MultiCNN-LSTM ....................................................................................................... 56 Hình 4. 7: Kết quả so sánh các mô hình cho bài toán phát hiện khía cạnh ............. 57 Hình 4. 8: Kết quả so sánh các mô hình cho bài toán nhận dạng ý kiến theo khía cạnh ........................................................................................................................... 57 Hình 4. 9: Phân tích thiết kế giao diện ..................................................................... 59 Hình 4. 10: Phân tích thiết kế chức năng.................................................................. 59 Hình 4. 11: Giao diện trang chủ ................................................................................................................................... 60 Hình 4. 12: Giao diện trang phân tích dữ liệu.......................................................... 60 Hình 4. 13: Giao diện trang Phân tích bình luận ..................................................... 61 Hình 4. 14: Giao diện hiển thị kết quả Phân tích ý kiến người dùng theo khía cạnh61 Hình 4. 15: Giao diện đánh giá kết quả nghiên cứu ................................................. 62 Hình 4. 16: Giao diện đánh giá các mô hình nghiên cứu ......................................... 62 ix x DANH MỤC BẢNG Bảng 4. 1: Minh họa kết quả làm sạch dữ liệu ......................................................... 49 Bảng 4. 2: Minh họa các thành phần dữ liệu............................................................ 50 Bảng 4. 3: Các khía cạnh và ý kiến theo khía cạnh .................................................. 50 Bảng 4. 4: Thống kê số lượng bình luận và số lượng khía cạnh trong bộ dữ liệu ... 51 Bảng 4. 5: Kết quả huấn luyện các mô hình bài toán Xác định khía cạnh (đơn vị %) ................................................................................................................................... 54 Bảng 4. 6: Kết quả huấn luyện các mô hình bình toán phân tích ý kiến theo khía cạnh (đơn vị %) ......................................................................................................... 56 Bảng 4. 7: Kết quả so sánh mô hình MultiCNN-LSTM với ABSA 2018 (đơn vị %) . 58 xi CHƯƠNG 1 TỔNG QUAN VỀ LĨNH VỰC NGHIÊN CỨU 1.1 Lý do chọn đề tài Ngày nay, với sự phát triển vượt bậc của khoa học và công nghệ, đặc biệt là sự bùng nổ mạnh mẽ của Internet đã giúp cho mọi người không chỉ chia sẻ thông tin trên đó mà còn thể hiện thái độ, quan điểm của mình đối với các sản phẩm, dịch vụ và các vấn đề xã hội khác với các phương tiện truyền thông xã hội phổ biến như facebook, TikTok, WeChat, Instagram, QZone, Weibo,... Trong những năm gần đây, phân tích ý kiến người dùng trở thành đề tài nghiên cứu nóng và thu hút nhiều nhà nghiên cứu trong lĩnh vực ngôn ngữ tự nhiên. Nghiên cứu phân tích ý kiến người dùng được xem là phương tiện trung gian để hai bên cung- cầu gặp nhau. Đối với khách hàng, hệ thống phân tích có thể giúp lựa chọn sản phẩm và dịch vụ tin cậy. Đối với nhà sản xuất, hệ thống giúp họ đánh giá chỗ đứng sản phẩm trên thị trường, am hiểu khách hàng, cũng như xu hướng khách hàng. Từ đó, giúp nhà sản xuất đưa ra chiến lược hợp lý. - Ví dụ như Google product Search thu thập Phân tích ý kiến người dùng để phân tích cho các nhu cầu sản phẩm, cạnh tranh với các đối thủ của mình. - Hay trong bầu cử Tổng thống Hoa Kỳ 2016, Ứng cử viên nào nắm phân tích ý kiến của người bầu qua tổng hợp trên các trang mạng xã hội thì khả năng đắc cử Tổng thống cao hơn. Vấn đề này có đã truyền cảm hứng cho một dòng nghiên cứu mới về khai thác ý kiến cấp độ khía cạnh. Trong luận văn này, chúng tôi trình bày một giải pháp với một cái nhìn sâu sắc và ứng dụng trong mô hình Phân tích ý kiến người dùng theo khía cạnh bằng học phương pháp học tập sâu. Nghiên cứu được trình bày dưới hình thức tìm kiếm các khía cạnh ngầm, khai thác nhiều khía cạnh từ một câu, một đoạn ý kiến của người đánh giá: - Bằng cách so sánh giữa các mô hình và các loại phương pháp tiếp cận chéo áp dụng cùng một hệ thống; 12 - Áp dụng cái nhìn sâu sắc về cách mạng lưới thần kinh tích chập; - Áp dụng loại câu trong NLP; - Áp dụng các mô hình Word2vec, CNN-LSTM, MultiCNN-LSTM học sâu để phân tích khía cạnh. 1.2 Mục tiêu nghiên cứu Với phương pháp này tôi phân tích người dùng theo khía cạnh là tôi tập trung phân tích tình cảm điển hình như là một quá trình phân loại ý kiến thể hiện trong một văn bản như tích cực, tiêu cực, trung tính hoặc không. Một nhiệm vụ tổng quát hơn sẽ là dự đoán tình cảm của mỗi người theo khía cạnh được đề cập trong văn bản. Một quan điểm là một phát biểu, cách nhìn, thái độ hoặc định giá chủ quan về một thực thể hay một khía cạnh của thực thể. Đưa ra một cái nhìn sâu sắc ngắn gọn bằng cách đánh giá điểm mạnh và điểm yếu của nhiều phương pháp đang được áp dụng để giải quyết vấn đề. Bằng cách vẽ một so sánh giữa xác loại phương pháp tiếp cận nó nhấn mạnh vào yêu cầu của một khối lượng lớn dữ liệu hoặc một tập hợp số lượng lớn quy tắc quan hệ để khai thác nội dung. 1.3 Đối tượng, phạm vi nghiên cứu 1.3.1 Đối tượng nghiên cứu Để thực hiện được mục tiêu đề ra, chúng tôi đã hướng đến nghiên cứu các vấn đề sau: - Thông qua ý kiến, đánh giá của khách hàng, của người sử dụng đối với sản phẩm hoặc các dịch vụ mà họ phản ảnh dưới dạng văn bản (text). - Mô hình học sâu Convolutional Neural Network, mô hình học sâu Long shortterm memory, kết hợp MultiCNN-LTSM. 1.3.2 Phạm vi nghiên cứu Xác định được ý kiến, đánh giá đang đề cập đến những khía cạnh nào và phân tích quan điểm tương ứng đối với các khía cạnh đó, từ đó áp dụng các mô hình cho bài toán 13 phân tích khía cạnh, so sánh kết quả các mô hình cải tiến xây dựng các mô hình kết hợp: - Xây dựng các mô hình kết hợp CNN, LSTM cho bài toán phân tích quan điểm theo khía cạnh. - Cải tiến mô hình CNN-LSTM bằng cách thêm các đặc trưng ngoài vào mô hình MultiCNN-LSTM. - Thiết kế các mô hình thực nghiệm và cài đặt, so sánh kết quả với các nghiên cứu liên quan. 1.4 Phương pháp nghiên cứu Để thực hiện luận văn này, tôi đã sử dụng các phương pháp nghiên cứu sau: - Phương pháp phân tích và tổng hợp lý thuyết: Tìm kiếm, tổng hợp và nghiên cứu các tài liệu về Mạng nơ-ron tích chập (Convolutional Neural Network – CNN); Mô hình học sâu Long short-term memory; các phương pháp học sâu trong lĩnh vực xử lý ngôn ngữ tự nhiên như Word2vec. Tìm hiểu các kiến thức liên quan đến kỹ thuật lập trình. - Phương pháp thực nghiệm: Sau khi nghiên cứu lý thuyết, xác định vấn đề bài toán, đề xuất mô hình, dựa trên kết quả của các nghiên cứu trước đó chúng tôi sẽ xây dựng mô hình học sâu bằng cách kết hợp chúng lại cho bài toán phân tích quan điểm theo khía cạnh; thực nghiệm so sánh mô hình tôi vừa xây dựng và các mô hình trước trên bộ dữ liệu chuẩn để có số liệu đánh giá chi tiết giữa các mô hình, từ đó đưa ra mô hình tốt nhất. - Phương pháp so sánh và đánh giá: Có rất nhiều cách đánh giá một mô hình phân lớp. Tuỳ vào những bài toán khác nhau mà chúng ta sử dụng các phương pháp khác nhau. Phương pháp được đề xuất sử dụng đề xuất với các mô hình nghiên cứu là bằng các độ đo Loss, Accuracy, Recall, F1,…. 1.5 Ý nghĩa khoa học và thực tiễn Ý nghĩa khoa học: - Góp phần nghiên cứu thêm về các mô hình học sâu trong lĩnh vực xử lý ngôn ngữ tự nhiên phổ biến trên thế giới. - Nghiên cứu này tạo tiền đề cho các nghiên cứu tiếp theo. 14 Ý nghĩa thực tiễn: - Hỗ trợ phân tích ý kiến của người dùng theo khía cạnh một cách sâu hơn và tự động; - Giúp giảm chi phí và thời gian làm thủ công - Tích hợp vào các hệ thống thông minh của trang thương mại điện tử để phân tích thống kê tự động cho người dùng, sử dụng ngôn ngữ Việt. 1.6 Bố cục luận văn Ngoài phần mở đầu và kết luận, luận văn được chia thành 05 chương phù hợp với đề tài, với bố cục như sau: ❖ Chương 1. Tổng quan về lĩnh vực nghiên cứu. ❖ Chương 2. Cơ sở lý thuyết và các nghiên cứu liên quan. ❖ Chương 3. Mô hình đề xuất. ❖ Chương 4. Thực nghiệm, đánh giá kết quả. ❖ Chương 5: Kết quả và hướng phát triển. 15 CHƯƠNG 2 CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN Trong chương này, chúng tôi sẽ giới thiệu tổng quan về kỹ thuật, phương pháp trong xử lý ngôn ngữ tự nhiên (NLP) để giải quyết các bài toán cơ bản của Trí tuệ nhân tạo, áp dụng NLP vào phân tích ý kiến người dùng theo khía cạnh bằng phương pháp học sâu, 2.1 Xử lý ngôn ngữ tự nhiên Xử lý ngôn ngữ tự nhiên (NLP) là một trong số những bài toán cơ bản của Trí tuệ nhân tạo. Các ứng dụng phổ biến của NLP bao gồm: ứng dụng giám sát mạng xã hội, chatbot, và tổng đài trả lời tự động, Phân tích ý kiến theo khía cạnh, ... Hình 2. 1: Xử lý ngôn ngữ tự nhiên (NLP) là một trong số những bài toán cơ bản của Trí tuệ nhân tạo1 2.2 Biểu diễn từ Word2Vec là 1 trong những mô hình đầu tiên về Word Embedding sử dụng mạng neural, vẫn khá phổ biến ở thời điểm hiện tại, có khả năng vector hóa từng từ dựa trên tập các từ chính và các từ văn cảnh... Về mặt toán học, thực chất Word2Vec là việc ánh xạ từ từ 1 tập các từ (vocabulary) sang 1 không gian vector, mỗi vector được biểu diễn bởi n số thực. Mỗi từ ứng với 1 vector cố định. Sau quá trình huấn luyện mô hình bằng 1 https://seal.deha.vn/xu-ly-ngon-ngu-tu-nhien-voi-python-phan-1/ 16 thuật toán backprobagation, trọng số các vector của từng từ được cập nhật liên tục. Từ đó, ta có thể thực hiện tính toán bằng các khoảng cách quen thuộc như euclide, cosine, manhattan, ,..., những từ càng "gần" nhau về mặt khoảng cách thường là các từ hay xuất hiện cùng nhau trong văn cảnh, các từ đồng nghĩa, các từ thuộc cùng 1 trường từ vừng, ... 2.2.1 One hot vector - Cách truyền thống nhất để đưa dữ liệu hạng mục về dạng số là mã hóa onehot. Một mã hóa nóng nhất là biểu diễn các biến phân loại dưới dạng vectơ nhị phân. - Điều này đầu tiên yêu cầu các giá trị phân loại phải được ánh thành các giá trị số nguyên. - Sau đó, mỗi giá trị số nguyên được biểu diễn dưới dạng vectơ nhị phân có tất cả các giá trị bằng không ngoại trừ chỉ số của số nguyên, được đánh dấu bằng 1. 2.2.2 Cbow CBOW model: ý tưởng chính của CBOW là dựa vào các context word (hay các từ xung quanh) để dự đoán center word (từ ở giữa). CBOW có điểm thuận lợi là training mô hình nhanh hơn so với mô hình skip-gram, thường cho kết quả tốt hơn với frequence words (hay các từ thường xuất hiện trong văn cảnh). 17 Hình 2. 2: Mô hình CBOW tổng quát 2 2.2.3 Skip gram Skip-gram thì ngược lại với CBOW, dùng target word để dự đoán các từ xung quanh. Skip-gram huấn luyện chậm hơn. Thường làm việc khá tốt với các tập data nhỏ, đặc biệt do đặc trưng của mô hình nên khả năng vector hóa cho các từ ít xuất hiện tốt hơn CBOW. 2 https://nguyentruonglong.net/mo-hinh-cbow-continuous-bag-of-words.html 18
- Xem thêm -

Tài liệu liên quan