Đăng ký Đăng nhập
Trang chủ ứng dụng deep learning để dự đoán quan điểm trong tài liệu...

Tài liệu ứng dụng deep learning để dự đoán quan điểm trong tài liệu

.PDF
63
29
74

Mô tả:

ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA DƯƠNG PHƯỚC QUỐC CƯỜNG ỨNG DỤNG DEEP LEARNING ĐỂ DỰ ĐOÁN QUAN ĐIỂM TRONG TÀI LIỆU Chuyên ngành : Khoa học máy tính Mã số : 8480101 LUẬN VĂN THẠC SĨ KỸ THUẬT Người hướng dẫn khoa học: PGS.TS. NGUYỄN THANH BÌNH Đà Nẵng - Năm 2019 LỜI CAM ĐOAN Tôi xin cam đoan: Những nội dung trong luận văn này là do tôi thực hiện dưới sự hướng dẫn trực tiếp của PGS.TS. Nguyễn Thanh Bình. Mọi tham khảo dùng trong luận văn đều được trích dẫn rõ ràng tên tác giả, tên công trình, thời gian, địa điểm công bố. Mọi sao chép không hợp lệ, vi phạm quy chế đào tạo, hay gian trá, tôi xin chịu hoàn toàn trách nhiệm. TRANG TÓM TẮT LUẬN VĂN ỨNG DỤNG DEEP LEARNING ĐỂ DỰ ĐOÁN QUAN ĐIỂM TRONG TÀI LIỆU Học viên: Dương Phước Quốc Cường Chuyên ngành: Khoa học máy tính Mã số: 8480101 - Khóa: 34 Trường Đại học Bách khoa – ĐHĐN Tóm tắt -Những năm gần đây, ngày càng nhiều người nói về cách mạng công nghệ lần thứ 4. Các chủ đề được nhắc tới nhiều nhất bao gồm Big Data, Deep Learning, IoT, Blockchain. Mặc dù những sự đầu tư nghiên cứu gần đây tập trung vào nhiều hướng tiếp cận khác nhau, nhưng tất cả các nghiên cứu đó đều dần dần hướng tới một mục đích chung. Mục đích chung đó là làm sao để máy tính thông minh hơn để có thể dần dần thay thế con người. Để máy tính thông minh hơn thì chúng ta tìm cách làm cho máy tính học được từ con người. Vì thế, lĩnh vực máy học (tiền thân của Deep Learning) chính là một trong những hướng tiếp cận quan trọng trong giai đoạn cách mạng công nghiệp này. Máy học là một lĩnh vực mà trong đó nhiều bài toán lớn được đưa ra để các nhà khoa học cùng nghiên cứu. Một trong những bài toán rất có giá trị kinh tế rất cao của máy học là bài toán tự động phân tích quan điểm. Lời giải của bài toán đánh giá quan điểm sẽ mang đến cho các doanh nghiệp cái nhìn tổng quan về thị trường và về những dịch vu liên quan. Vì bài toán phân tích quan điểm cũng là một trong những bài toán xử lý ngôn ngữ tự nhiên, nên lời giải của nó cũng đóng góp đáng kể vào quá trình nghiên cứu xử lý ngôn ngữ tự nhiên này. Trong luận văn này, học viên đã trình bày việc so sánh các lời giải cho bài toán phân tích quan điểm đối với ngôn ngữ Tiếng Việt. Trong đó, học viên đã làm nổi bật lên sự khác nhau giữa phương pháp máy học deep learning và not deep learning. Với những phương pháp và hướng tiếp cận khác nhau, học viên đã thực hiện đánh giá định lượng để so sách độ chính xác của các phương pháp. Đóng góp cơ bản của luận văn này là một bộ khung để so sánh đánh giá đối với bài toán phân tích quan điểm trong tiếng Việt. Những đọc giả quan tâm có thể áp dụng các phương pháp này cho bài toán của mình để có những so sánh định lượng tương đối để có thể chọn ra giải pháp tốt nhất cho mình. Từ khoá: Khai phá, xử lý dữ liệu, ngôn ngữ tự nhiên, dự đoán quan điểm, thực nghiệm đề xuất và đánh giá giải pháp ABSTRACT OF THESIS USING DEEP LEARNING TO PREDICT OPINIONS IN DOCUMENTS Student: Duong Phuoc Quoc Cuong Major: Computer Science Code:8480101 Course: K34 University of Science and Technology- University of Danang Abstract-In recent years, more and more people talk about the 4th generation of industrial revolution. The most popular topics include Big Data, Deep Learning, IoT, Blockchain. Although people invest different researches in diversity of approaches, most of researches follow a common purpose. This common purpose is how to make machine more intelligent in orrder to replace human. Then, the Machine Learning topic (the previous topic prior to Deep Learning) is one of the most important approaches during this generation of industrial revolution. Machine Learning domain proposes plenty of problems which challenge modern researchers. One of the valuable problemin economic domain is the problem of Sentiment Analysis. The solution of Sentiment Analysis brings a vision about the market and about the services to the company who invests the research to solve this problem. Since Sentiment Analysis is also a Natural Language Processing, its solutions also contribute significantly the development of this domain. In this thesis, author presents a set of evaluation of solutions for the problem of Sentiment Analysis in Vietnamese language. Authors also clarifies the difference between Deep Learning approaches and not-Deep Learning approaches. With these difference approaches and solutions, author also present a quantitative comparison in order to evaluate the accuracy of these solutions for this Sentiment Analysis problem. The main contribution of this thesis is an framework of evalutation which is recommended to use to compare and to evaluate the solutions for Sentiment Analysis problem in Vietnamese language. Interest readers can apply these methods to their own problem in order to approximately compare these solutions and then to select the best one. Keywords: Mining, processing data, natural language, predicting views, proposing and evaluating solutions. MỤC LỤC TRANG BÌA LỜI CAM ĐOAN TRANG TÓM TẮT LUẬN VĂN MỤC LỤC DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT DANH MỤC CÁC BẢNG DANH MỤC CÁC HÌNH MỞ ĐẦU ......................................................................................................................... 1 1. Lý do chọn đề tài ......................................................................................................1 2. Mục đích nghiên cứu ................................................................................................2 3. Đối tƣợng và phạm vi nghiên cứu ............................................................................2 4. Phƣơng pháp nghiên cứu..........................................................................................2 5. Ý nghĩa khoa học và thực tiễn của đề tài .................................................................3 6. Bố cục luận văn ........................................................................................................3 CHƢƠNG 1. TỔNG QUAN, CƠ SỞ LÝ THUYẾT ...................................................... 4 1.1. Bài toán khai phá quan điểm .................................................................................4 1.1.1. Khái niệm khai phá dữ liệu ............................................................................ 4 1.1.2. Quá trình khai phá tri thức từ dữ liệu ............................................................. 5 1.2. Machine learning ...................................................................................................5 1.3. Deep Learning .......................................................................................................7 1.3.1. Khái niệm........................................................................................................ 7 1.3.2. Các bài toán và ứng dụng ............................................................................... 8 1.4. Xử lý ngôn ngữ tự nhiên .......................................................................................9 1.4.1. Định nghĩa....................................................................................................... 9 1.4.2. Cấu tạo, đặc điểm của ngôn ngữ tiếng Việt: ................................................... 9 1.4.3. Các bƣớc xử lý ngôn ngữ tự nhiên: .............................................................. 12 Kết chƣơng 1 ..............................................................................................................12 CHƢƠNG 2. BÀI TOÁN DỰ ĐOÁN QUAN ĐIỂM .................................................. 13 2.1. Bài toán liên quan dự đoán quan điểm ................................................................13 2.1.1. Nguồn từ vựng nâng cao để phân tích tình cảm và khai thác ý kiến. ........... 13 2.1.2. Một số khảo sát vềphân tích tình cảm và khai thác ý kiến ........................... 14 2.2. Phƣơng pháp máy học để giải bài toán dự đoán quan điểm ...............................16 2.2.1. Trích xuất đặc trƣng...................................................................................... 16 2.2.2. Huấn luyện và dự đoán ................................................................................. 19 2.2.3. Mạng nơ ron hồi quy .................................................................................... 22 Kết chƣơng 2 ..............................................................................................................23 CHƢƠNG 3. MÔ TẢ BÀI TOÁN VÀ ĐỀ XUẤT GIẢI PHÁP .................................. 24 3.1. Vấn đề đề tài tập trung giải quyết .......................................................................24 3.2. Đề xuất giải pháp ................................................................................................24 3.2.1. Thu thập và tiền xử lý dữ liệu ....................................................................... 24 3.2.2. Thực nghiệm kiểm tra độ chính xác với phƣơng pháp kiểm tra chéo .......... 28 3.2.3. Kiểm tra thực tế ............................................................................................ 30 3.3. Mô hình giải pháp ...............................................................................................30 3.3.1. Mô tả ............................................................................................................. 30 3.3.2. Thƣ viện đƣợc sử dụng ................................................................................. 31 3.3.3. Công cụ thực hiện ......................................................................................... 34 Kết chƣơng 3 ..............................................................................................................34 CHƢƠNG 4. THỰC NGHIỆM VÀ ĐÁNH GIÁ GIẢI PHÁP .................................... 35 4.1. Thực ngiệm .........................................................................................................35 4.1.1. Thực nghiệm 1: Trích xuất đặc trƣng bình thƣờng và thuật toán phân loại truyền thống. ........................................................................................................... 35 4.1.2. Thực nghiệm 2: Trích xuất đặc trƣng bình thƣờng và thuật toán phân loại neutral network. ...................................................................................................... 35 4.1.3. Thực nghiệm 3: Trích xuất đặc trƣng learning và thuật toán phân loại truyền thống ................................................................................................................... 38 4.1.4. Thực nghiệm 4: Trích xuất đặc trƣng learning và thuật toán phân loại neutral network. ...................................................................................................... 39 4.1.5. Thực nghiệm 5: Trích xuất đặc trƣng và dự đoán bằng deep learning. ........ 42 4.2. Đánh giá kết quả..................................................................................................44 Kết chƣơng 4 ..............................................................................................................44 KẾT LUẬN VÀ KIẾN NGHỊ ....................................................................................... 45 1. Kết quả đạt đƣợc: ...................................................................................................45 2. Một số hạn chế: ......................................................................................................45 3. Hƣớng phát triển và đề xuất: ..................................................................................45 TÀI LIỆU THAM KHẢO ............................................................................................. 46 QUYẾT ĐỊNH GIAO ĐỀ TÀI LUẬN VĂN ................................................................ 48 BẢN SAO KẾT LUẬN CỦA HỘI ĐỒNG, BẢN SAO NHẬN XÉT CỦA CÁC PHẢN BIỆN. DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT Diễn giải Ký hiệu Tiếng Anh Tiếng Việt NLP Natural Language Processing Xử lý ngôn ngữ tự nhiên TTNT Trí tuệ nhân tạo Trí tuệ nhân tạo AI Artificial intelligence Trí tuệ nhân tạo ANN Artificial Neural Network Mạng nơ-ron nhân tạo CNN Convolution Neural Network Mạng nơ-ron tích chập DNN Deep Neural Network Mạng neural sâu GPU Graphics Processing Unit Đơn vị xử lý đồ họa NN Neural Network Mạng nơ-ron ReLU Rectified Linear Unit Hiệu chỉnh đơn vị tuyến tính SIFT Scale-Invariant Feature Transform Biến đổi đặc trƣng tỉ lệ không thay đổi SOM Self Organizing Maps Mạng nơ-ron tự tổ chức SVM Support Vetor Machines Máy vector hỗ trợ DANH MỤC CÁC BẢNG Bảng 1-1.Tần suất xuất hiện độ dài từ tiếng Việt trên vdict.com..................................10 Bảng 4-1. Kết quả thực nghiệm 1 với Bag of word ......................................................35 Bảng 4-2. Kết quả thực nghiệm 1 với tf-idf ..................................................................35 Bảng 4-3. Kết quả thực nghiệm 2 với Bag of word ......................................................36 Bảng 4-4. Kết quả thực nghiệm 2 với tf-idf ..................................................................38 Bảng 4-5. Kết quả thực nghiệm 3 với word2vec ...........................................................39 Bảng 4-6. Kết quả thực nghiệm 3 với doc2vec .............................................................39 Bảng 4-7. Kết quả thực nghiệm 4 với word2vec ...........................................................40 Bảng 4-8. Kết quả thực nghiệm 4 với doc2vec .............................................................41 Bảng 4-9. Thống kê số từ của câu .................................................................................44 DANH MỤC CÁC HÌNH Hình 1-1. Minh họa về khai phá dữ liệu ..........................................................................4 Hình 1-2. Quy trìnhkhaiphá tri thức ................................................................................5 Hình 1-3. Minh họa về machine learning ........................................................................6 Hình 1-4. Deeplearning trong lĩnh vực AI ......................................................................7 Hình 1-5. Mạng Deep learning gồm các node neural......................................................8 Hình 2-1. Top 10 những từ tƣơng tự nghĩa giữa postive và negative ...........................13 Hình 2-2. Sentiment Classification Amazon review .....................................................14 Hình 2-3. Summary of the survey .................................................................................15 Hình 2-4. Minh họa phân bố từ bằng word2vec ............................................................18 Hình 2-5. Minh họa Logistic Regression ......................................................................21 Hình 2-6. Minh họa Multi-layer Perceptron ..................................................................22 Hình 3-1. Tổng quát quy trình thực hiện .......................................................................24 Hình 3-2. Dataset đƣợc thực nghiệm.............................................................................25 Hình 3-3. Loại bỏ nhiễu.................................................................................................25 Hình 3-4. Trích xuất đặc trƣng đầu vào (Feature extraction) ........................................26 Hình 3-5. Quy trình tiền xử lý dữ liệu ...........................................................................27 Hình 3-6. Mô tả cross-validate ......................................................................................28 Hình 3-7. Quy trình nghiệm dự đoán vơi kiểm nghiệm cross validate .........................29 Hình 3-8. Đánh giá và kiểm tra thực tế .........................................................................30 Hình 3-9. Hình dạng đầu vào của LSTM ......................................................................32 Hình 3-10. Mô tả LSTM với times step ........................................................................33 Hình 4-1. Kết quả thực nghiệm 2 với Bag of word .......................................................36 Hình 4-2. Kết quả thực nghiệm 2 với tf-idf ...................................................................37 Hình 4-3. Kết quả thực nghiệm 4 với word2vec ...........................................................40 Hình 4-4. Kết quả thực nghiệm 4 với doc2vec..............................................................41 Hình 4-5. Các bƣớc của bài toán trích xuất thông tin quan điểm sử dụng RNN ..........42 Hình 4-6. Thống kê số từ của câu..................................................................................43 1 MỞ ĐẦU Cùng với sự phát triển không ngừng của khoa học công nghệ, đặc biệt là cuộc cách mạng công nghiệp lần thứ tƣ đang diễn ra rộng khắp trong tất cả các lĩnh vực của đất nƣớc cũng nhƣ các nƣớc trên thế giới, các chủ đề đƣợc nhắc tới nhiều nhất bao gồm Big Data, Deep Learning, IoT, Blockchain… Các sản phẩm CNTT trí tuệ nhân tạo và học máy ngày càng phát triển và là lĩnh vực đƣợc quan tâm đầu tƣ nghiên cứu nhiều nhất hiện, trong đó lĩnh vực học sâu (Deep Learning) là một loại phổ biến của máy học đã có những thành tựu phát triển vƣợt bậc. Ngày nay, để đáp ứng nhu cầu cuộc sống ngày càng cao của con ngƣời, các sản phẩm và dịch vụ đã có những bƣớc phát triển rất mạnh mẽ. Với mỗi loại sản phẩm và dịch vụ hiện nay lại rất phong phú về chủng loại, chất lƣợng, dịch vụ và đến từ nhiều nhà cung cấp khác nhau. Do đó, việc duy trì phát triển sản phẩm dịch vụ có đƣợc số lƣợng khách hàng lớn đòi hỏi rất nhiều công sức. Một trong những phƣơng pháp cơ bản và hiệu quả nhất là lắng nghe ý kiến phản hồi của khách hàng về sản phẩm dịch vụ. Dựa trên những ý kiến phản hồi này, nhà cung cấp có thể đánh giá đƣợc chất lƣợng sản phẩm, dịch vụ cũng nhƣ sự phục vụ từ đó điều chỉnh sản phẩm phù hợp để đạt đƣợc hiệu quả kinh doanh tốt nhất. Công việc trên có tên gọi là trích xuất thông tin quan điểm của ngƣời dùng. Đây là bài toán cơ bản nhƣng có ứng dụng rất lớn trong cuộc sống. Ngƣời tiêu dùng ngày càng có nhiều kênh khác nhau để tƣơng tác với nhà cung cấp dịch vụ. Bên cạnh các kênh truyền thống nhƣ email, điện thoại, fax thì các hình thức mới hơn nhƣ bình luận, phản hồi, chia sẽ trên các trang mạng xã hội, viết bài đánh giá sản phẩm, phản hồi trên các diễn đàn... Và mạng xã hội là những kênh trao đổi thông tin phổ biến nhất hiện nay. Qua các nguồn trên, dữ liệu đƣợc thu thập lại dƣới dạng văn bản. Từ dữ liệu dạng văn bản, luận văn sẽ trình bày phƣơng pháp áp dụng deep learning để đƣa ra các mô hình xử lý thông tin văn bản nhằm trích xuất đƣợc thông tin quan điểm của ngƣời dùng. 1. Lý do chọn đề tài Trong cuộc sống hiện đại ngày nay, du lịch đã trở nên vô cùng phổ biến. Việc lên kế hoạch điểm đến, đặt phòng, đặt vé,... là những điều thiết yếu của mỗi chuyến đi. Với sự phát triển của công nghệ, những nhận xét, bình luận và phản hồi của ngƣời sử dụng về trải nghiệm của họ với chuyến du lịch đóng vai trò nhƣ một nguồn thông tin quan trọng, nhất là với những ngƣời chủ doanh nghiệp khi họ muốn cải thiện dịch vụ của mình. Đặc biệt, với việc đặt phòng khách sạn, thì nhận xét của khách hàng đã từng sử dụng sẽ mang tính thực tế, khách quan và chi tiết hơn những gì đƣợc in sẵn trên 2 những tờ quảng cáo, phản ánh trực tiếp và gần nhƣ chính xác tình hình chất lƣợng dịch vụ ở khách sạn đó. Hơn nữa, khách sạn và đại lý du lịch thƣờng tiếp nhận và công khai nhận xét một cách có hệ thống thông qua việc đề xuất khách hàng đánh giá bình luận sau khi sử dụng dịch vụ. Điều đó sẽ gây khó khăn cho các nhà quản lý trong việc cập nhật theo dõi nếu nhƣ chỉ dụng các công cụ tìm kiếm bình thƣờng, bởi những nhận xét mới nhất sẽ xuất hiện thƣờng xuyên hơn đẩy những nhận xét cũ về sau, và họ có thể mất dấu hoặc bỏ qua những phản hồi mang thông tin quan trọng. 2. Mục đích nghiên cứu Xây dựng hệ thống phần mềm hỗ trợ trích xuất thông tin, phân loại và phân tích một cách tự động những dữ liệu nhận xét, đánh giá (review) trực tuyến của khách hàng ở dạng văn bản (ngôn ngữ tiếng Việt) về mức độ hài lòng: trƣờng hợp bài toán dịch vụ khách sạn. Nghiên cứu các giải thuật dựa trên lý thuyết máy học và ứng dụng deep learning, cụ thể LSTM để thực nghiệm dự đoán quan điểm của ngƣời dùng về một sản phẩm, dịch vụ. 3. Đối tượng và phạm vi nghiên cứu Nghiên cứu về các phƣơng pháp học máy (Machine Learning), máy học (deep learning) để dự đoán quan điểm của ngƣời dùng. Xử lý ngôn ngữ tự nhiên và các phƣơng pháp vector hóa từ. Lý thuyết về trí tuệ nhân tạo, mạng neural và deep learning. Đánh giá trên các tập dữ liệu bằng các kỹ thuật học máy và deep Learning với mạng LSTM. Công cụ lập trình Python, các thƣ viện keras, tensorflow… 4. Phương pháp nghiên cứu Nghiên cứu lý thuyết: Tổng hợp thu thập và nghiên cứu các tài liệu có liên quan đến đề tài nhƣ đã nêu trong mục 3 bao gồm: lý thuyết về khai phá quan điểm, xử lý ngôn ngữ tự nhiên, trích xuất đặc trƣng. Lý thuyết về học máy, mạng neural, deeplearning trong dự đoán quan điểm của tài liệu bình luận. Phƣơng pháp thực nghiệm:Triển khai và đánh giá một số kỹ thuật về dự đoán quan điểm trong tài liệu bằng các kỹ thuật học máy và deep Learning với mạng LSTM. Lựa chọn công cụ đã có để cài đặt, đề xuất mô hình và thể hiện cụ thể những kết quả đã nghiên cứu, kết quả thực nghiệm so với các cơ sở dữ liệu chuẩn để so sánh đánh giá. 3 5. Ý nghĩa khoa học và thực tiễn của đề tài Ý nghĩa khoa học Ứng dụng các giả thuyết về các kỹ thuật xử lý trích xuất đặc trƣng, xử lý ngôn ngữ tự nhiên,... để phân loại ý kiến nhận xét một cách hoàn toàn tự động. Ứng dụng các kỹ thuật học máy, khai phá dữ liệu trong huấn luyện và trang bị khả năng tự học cho hệ thống. Ý nghĩa thực tiễn Tự động hóa hoạt động trích xuất, thống kê, phân loại, phân tích thông tin phản hồi từ khách hàng dựa trên nền tảng của trí tuệ nhân tạo, từng bƣớc đƣa Việt Nam bắt nhịp và hội nhập theo xu hƣớng phát triển của cuộc cách mạng công nghiệp lần thứ tƣ. Tối ƣu hóa chi phí, tăng hiệu suất và hiệu quả của hoạt động kinh doanh dịch vụ cũng nhƣ trải nghiệm của khách hàng. 6. Bố cục luận văn Luận văn đƣợc chia thành các phần sau: Chƣơng 1: Trình bày tổng quan cơ sở lý thuyết, một số khái niệm liên quan nhƣ bài toán khai phá quan điểm, machine learning, deep learning, xử lý ngôn ngữ tự nhiên. Chƣơng 2: Đề tài liên quan bao gồm tên đề tài, tác giả, dữ liệu, phƣơng pháp thực hiện và kết quả đạt đƣợc.Trình bày các phƣơng pháp thực hiện trong luận văn bao gồm vector hóa nhƣ Bag of Words, TF-IDF, Word2vec, Doc2vec và thuật toán phân loại nhƣ SVM, Logistic Regression, Multi-layer Perceptron, mạng nơ ron hồi quy. Chƣơng 3: Mô tả bài toán và đề xuất giải pháp. Chƣơng này đề cập vấn đề mà luận văn tập trung giải quyết, đề xuất giải pháp thực hiện, cụ thể hóa quy trình bằng mô hình giải pháp. Chƣơng 4: Thực nghiệm và đánh giá kết quả. Chƣơng này sẽ trình bày cái thực nghiệm khác nhau với phƣơng pháp vector hóa và thuật toán phân loại khác nhau. Đánh giá và so sánh từng thực nghiệm. Kết luận: Kết quả đạt đƣợc, hạn chế, hƣớng phát triển trong tƣơng lai. 4 CHƯƠNG 1. TỔNG QUAN, CƠ SỞ LÝ THUYẾT 1.1. Bài toán khai phá quan điểm 1.1.1. Khái niệm khai phá dữ liệu (Data mining) Khái niệm về khai phá dữ liệu là một bƣớc của quá trình khai thác tri thức có rất nhiều cách diễn đạt khác nhau nhƣng về bản chất đó là quá trình tự động trích xuất thông tin có giá trị (Thông tin dự đoán - Predictive Information) ẩn chứa trong khối lƣợng dữ liệu khổng lồ trong thực tế. Hình 1-1. Minh họa về khai phá dữ liệu Hand, D.J., 2006. Data Mining. Encyclopedia of Environmetrics Chuẩn bị dữ liệu để cho máy tính ―học‖ (Data). Xây dựng mô hình thông qua dữ liệu đầu vào (Algorithm). Đánh giá mô hình vừa mới xây dựng (Model). Khai phá dữ liệu nhấn mạnh 2 khía cạnh chính đó là khả năng trích xuất thông tin có ích tự động và thông tin mang tính dự đoán. Tóm lại, Khai phá dữ liệulà quá trình tìm kiếm các mẫu từ tập dữ liệu lớn hay có thể nói là quá trình biến dữ liệu thôthành thông tin hữu ích. Nó cho phép doanh nghiệp phân tích dữ liệu từ nhiều góc độ khác nhau, tìm hiểu thêm thông tin về khách hàng, về thói quen mua sắm của mình, phát hiện mối quan hệ tiềm ẩn, đƣa ra các dữ liệu có ý nghĩa.Từ đó, doanh nghiệp có cơ sở để xây dựng chiến lƣợc tiếp thị và bán hàng hiệu quả hơn. Khai phá dữ liệu phụ thuộc vào quá trình thu thập dữ liệu, tổ chức dữ liệu và xử lý dữ liệu [8] 5 1.1.2. Quá trình khai phá tri thức từ dữ liệu Hình 1-2. Quy trìnhkhaiphá tri thức Quy trình khai phá dữ liệu là chuỗi lặp lại các thao tác:[8] Làm sạch dữ liệu: Loại bỏnhiễu và Loại bỏ từ dừng (stopwords), loại bỏ các ký tự không phải chữ cái hoặc chữ số. Tích hợp dữ liệu: Dữliệu của nhiều nguồn có thểtổhợplại. Lựa chọn dữ liệu: Những dữliệu phù hợp với phân tíchđƣợc trích rút từ nguồn dữ liệu ban đầu. Chuyển đổi dữ liệu: Dữliệuđƣợc chuyểnđổi hayđƣợc hợp nhất về dạng thích hợp cho việc khai phá. Khai phá dữ liệu: Là tiến trình chính, trongđó các phƣơngpháp tính toán đƣợc áp dụng nhằm trích ra các mẫu dữ liệu. Đánh giá mẫu: Dựa trên các phƣơng phápđo nhằmxác định độ chuẩn xác và lợi ích từ các mẫu biểu diễn tri thức. Biễu diễn tri thức: Sửdụng kỹthuật biểu diễnvà hiển thị tri thức đƣợc tổng hợp cho ngƣời dùng. 1.2. Machine learning ―Học máy(machine learning) là một lĩnh vực của Trí tuệ nhân tạo liên quan đến việc nghiên cứu và xây dựng các kỹ thuật cho phép các hệ thống ―học‖ tự động từ dữ liệu để giải quyết những vấn đề cụ thể nào đó‖(Theo wikipedia). Machine Learning là một nhánh con của AI. Theo định nghĩa của Wikipedia, ―Machine learning is the subfield of computer science that ―gives 6 computers the ability to learn without being explicitly programmed‖. Nói đơn giản, Machine Learning là một lĩnh vực của Khoa Học Máy Tính, nó có khả năng tự học dựa trên dữ liệu đƣa vào mà không cần phải đƣợc lập trình cụ thể. Ví dụ nhƣ các máy tính học cách phân loại thƣ điện tử xem có phải thƣ rác (spam) hay không và tự động xếp thƣ vào thƣ mục tƣơng ứng; dạy máy tính (rô-bôt) cách băng qua đƣờng thì theo cách truyền thống bạn sẽ đƣa cho nó một loạt quy tắc hƣớng dẫn cách nhìn trái phải hay đợi xe và ngƣời đi qua,… Tuy nhiên nếu dùng học máy, chúng ta sẽ cho máy tính xem hàng nghìn video quay cảnh ngƣời ta băng qua đƣờng an toàn và hàng nghìn video quay cảnh con ngƣời đó bị xe đâm để nó tự học. Từ đó máy tính có thể nhận thức và phân tích nhiều đặc trƣng tốt hơn (thông minh hơn) từ các video để nhận biết đƣợc các sự vật hiện tƣợng mới xung quanh thông qua kho dữ liệu đã huấn luyện; Dạy máy tính có thể dự đoán quan điểm của ngôn ngữ, từ một câu bình luận đƣa vào, máy các thể xác định đƣợc câu bình luận đó là tiêu tực hay tích cực … bằng cách ta huấn luyện cho máy tính học hàng nghìn câu mang ngữ nghĩa là tích cực, hàng nghìn câu mang ngữ nghĩa là tiêu cực từ đó máy tính có thể tự động nhận thức và trích rút đƣợc đặc trƣng của các câu bình luận thông qua kho dữ liệu đã đƣợc huấn luyện; Thuật toán phân lớp, có thể phân chia dữ liệu vào nhiều nhóm khác nhau. Thuật toán phân lớp đƣợc dùng để nhận dạng chữ số tay cũng có thể đƣợc sử dụng để phân loại thƣ rác mà không cần thay đổi dòng mã nào. Chúng đều dùng chung một thuật toán nhƣng đƣợc truyền vào các dữ liệu huấn luyện khác nhau do đó nó dẫn đến các logic phân lớp khác nhau Hình 1-3. Minh họa về machine learning Vì vậy, việc phân tích hàng triệu dữ liệu về quan điểm, bình luận của khách hàng đối với các sản phẩm dịch vụ trong thời gian ngắn và đƣa ra số liệu tổng hợp kết quả đánh giá của Khách hàng thì machine learning là một giải pháp đƣợc ƣu tiên thực hiện. 7 Nhƣ trong luận văn này giúp xử lý một lƣợng dữ liệu khá lớn, sau đó tính toán ra kết quả đánh giá của ngƣời dùng với thời gian rất nhanh. 1.3. Deep Learning 1.3.1. Khái niệm Học sâu (Deep Learning) là một phƣơng pháp của máy học dựa trên một tập hợp các thuật toán để cố gắng mô hình dữ liệu trừu tƣợng hóa ở mức cao bằng cách sử dụng nhiều lớp xử lý với cấu trúc phức tạp, hoặc bằng cách khác bao gồm nhiều biến đổi phi tuyến‖(Theo wikipedia). Hay nói cách khác là học sâu làmột kỹ thuật trong học máy, sử dụng các thuật toán liên quan đến các thuật toán dựa trên cấu trúc và hoạt động của bộ não động vật gọi là Mạng nơ ron nhân tạo dựa trên việc phân tích dữ liệu về nhiều đặc trƣng hơn nhờ sự hỗ trợ khả năng tính toán của máy tính. Học sâu tập trung giải quyết các vấn đề liên quan đến mạng nơ ron nhân tạo nhằm nâng cấp các công nghệ về nhận diện gióng nói, thị giác máy tính, và xử lý ngôn ngữ tự nhiên.[10] Hình 1-4. Deeplearning trong lĩnh vực AI Deep learning. nature, 521(7553), p.436 Có 3 loại layer chính của các nơ ron trong mạng nơ ron là: Input layer, các Hidden layer, Output layer. Từ ―Deep‖ trong Deep Learning chỉ đến việc có nhiều hơn một hidden layer. 8 Hình 1-5. Mạng Deep learning gồm các node neural Deep learning. nature, 521(7553), p.436 Nổi tiếng nhất của Deep Learning có thể kể đến là CNN (Convolutional Neural Networks) đƣợc sử dụng nhiều nhất trong lĩnh vực thị giác máy tính (computer vision), RNN (Recurrent Neural Network) thƣờng đƣợc ứng dụng trong lĩnh vực xử lý ngôn ngữ tự nhiên (Natural Language Processing). 1.3.2. Các bài toán và ứng dụng Nhận dạng chữ viết: Với chƣơng trình nhận dạng chữ viết in có thể chuyển hàng ngàn đầu sách trong thƣ viện thành văn bản điện tử trong thời gian ngắn. Nhận dạng chữ viết của con ngƣời có ứng dụng trong khoa học hình sự và bảo mật thông tin (nhận dạng chữ ký điện tử). Nhận dạng tiếng nói: Nhận dạng tiếng nói rồi chuyển chúng thành văn bản tƣơng ứng. Giúp thao tác của con ngƣời trên các thiết bị nhanh hơn và đơn giản hơn, chẳng hạn thay vì gõ một tài liệu nào đó bạn đọc nó lên và trình soạn thảo sẽ tự ghi nó ra. Đây cũng là bƣớc đầu tiên cần phải thực hiện trong ƣớc mơ thực hiện giao tiếp giữa con ngƣời với robot. Nhận dạng tiếng nói có khả năng trợ giúp ngƣời khiếm thị rất nhiều. Tổng hợp tiếng nói: Từ một văn bản tự động tổng hợp thành tiếng nói. Thay vì phải tự đọc một cuốn sách hay nội dung một trang web, nó tự động đọc cho chúng ta. Giống nhƣ nhận dạng tiếng nói, tổng hợp tiếng nói là sự trợ giúp tốt cho ngƣời khiếm thị, nhƣng ngƣợc lại nó là bƣớc cuối cùng trong giao tiếp giữa robot với ngƣời. Dịch tự động (machine translate): Nhƣ tên gọi đây là chƣơng trình dịch tự động từ ngôn ngữ này sang ngôn ngữ khác. Một phần mềm điển hình là Google Translate có thể dịch giữa các ngôn ngữ khác nhau. Tìm kiếm thông tin (information retrieval): Đặt câu hỏi và chƣơng trình tự tìm ra nội dung phù hợp nhất. Tóm tắt văn bản: Từ một văn bản dài tóm tắt thành một văn bản ngắn hơn theo mong muốn nhƣng vẫn chứa những nội dung thiết yếu nhất. 9 Sinh văn bản: Từ các dữ liệu văn bản của một cá nhân tự tạo ra cú pháp và lối viết theo phong cách của cá nhân đó Phân tích cảm xúc trong ngôn ngữ: Đây là khái niệm mới trong xử lý ngôn ngữ, bằng việc kết hợp giữa nhận dạng ngôn ngữ với phân tích cảm xúc, biểu cảm. Mục tiêu là máy tính nhận dạng đánh giá các mức độ tâm lý của con ngƣời trong ngôn ngữ. 1.4. Xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP) 1.4.1. Định nghĩa Xử lý ngôn ngữ tự nhiên là một nhánh của trí tuệ nhân tạo tập trung vào các ứng dụng giải quyết các vấn đề về xử lý ngôn ngữ của con ngƣời. Trong trí tuệ nhân tạo thì việc xử lý ngôn ngữ tự nhiên là một trong những phần khó nhất vì nó liên quan đến việc phải hiểu ý nghĩa ngôn ngữ - công cụ hoàn hảo nhất của tƣ duy và giao tiếp.[4] Xử lý ngôn ngữ là một kỹ thuật quan trọng nhằm giúp máy tính hiểu đƣợc ngôn ngữ của con ngƣời, qua đó hƣớng dẫn máy tính thực hiện và giúp đỡ con ngƣời trong những công việc có liên quan đến ngôn ngữ nhƣ: dịch thuật, phân tích dữ liệu văn bản, dự đoán quan điểm tài liệu, nhận dạng tiếng nói, tìm kiếm thông tin ... 1.4.2. Cấu tạo, đặc điểm của ngôn ngữ tiếng Việt: 1.4.2.1. Cấu tạo từ tiếng Việt Tiếng Việt là ngôn ngữ không biến hình từ và âm tiết tính, tức là mỗi âm tiết phát âm tách rời và đƣợc thể hiện bằng một từ. Hai đặc trƣng này chi toàn bộ tổ chức của hệ thống ngôn ngữ tiếng Việt. 1.4.2.2. Tiếng: Tiếng là đơn vị cơ sở để cấu tạo lên từ. Tiếng là đơn vị nhỏ nhất có nội dung đƣợc thể hiện. Xét về mặt ý nghĩa, các tiếng có thể chia thành các loại sau: Tiếng tự thân nó đã có ý nghĩa, thƣờng đƣợc quy chiếu vào một đối tƣợng, khái niệm. Ví dụ: trời, đất, nƣớc, cây, cỏ… Tiếng tự thân nó không có ý nghĩa, không đƣợc quy chiếu vào đối tƣợng, khái niệm nào cả mà chúng thƣờng đi cùng với một tiếng khác có nghĩa và làm thay đổi sắc thái của tiếng đó, ví dụ nhƣ: (xanh) lè, (đƣờng) xá, (nắng) nôi… Tiếng tự thân nó không có ý nghĩa nhƣng có thể ghép với nhau để tạo thành từ có nghĩa, thƣờng xuyên gặp ở những từ mƣợn nhƣ phéc-mơ-tuya, a-pa-tít, mì-chính... Trong tiếng Việt các tiếng thuộc nhóm đầu tiên chiếm đa số, các tiếng thuộc hai nhóm sau thƣờng chỉ chiếm số ít, đặc biệt là nhóm thứ 3, chúng thƣờng đƣợc gọi là tiếng vô nghĩa. 10 1.4.2.3. Từ, cụm từ: Từ đƣợc cấu tạo từ một hoặc nhiều tiếng. Từ cấu tạo từ một tiếng gọi là từ đơn, ví dụ: tôi, bạn, nhà, hoa… Từ cấu tạo bởi nhiều tiếng là từ ghép, giữa các tiếng có mối quan hệ về nghĩa. Từ ghép đƣợc phân thành từ ghép đẳng lập và từ ghép chính phụ. Đối với từ ghép đẳng lập các thành phần cấu tạo từ có mối quan hệ bình đẳng với nhau về nghĩa. Ví dụ: ăn nói, bơi lội… Đối với từ ghép chính phụ, các thành phần cấu tạo từ có mối quan hệ phụ thuộc với nhau về nghĩa, thành phần phụ có vai trò làm chuyên biệt hóa, tạo sắc thái cho thành phần chính. Ví dụ: hoa hồng, đƣờng sắt… Cụm từ là những kiến trúc gồm hai từ trở lên kết hợp với nhau theo những quan hệ ngữ pháp nhất định. Ví dụ: Từ ―học‖ là từ gồm một tiếng; Từ ―đại học‖ là từ gồm hai tiếng; Cụm từ ―khoa học máy tính‖ gồm 2 từ hay 4 tiếng. Theo nhƣ thống kê trên trang http://vdict.com thì độ dài của một từ tiếng Việt đƣợc thể hiện trong bảng: Bảng 1-1. Tần suất xuất hiện độ dài từ tiếng Việt trên vdict.com Độ dài của từ Tần số Tỉ lệ % 1 8399 12,2 2 48995 67.1 3 5727 7.9 4 7040 9.7 ≥5 2301 3.1 Tổng cộng 72994 100 11 1.4.2.4. Biến hình từ tiếng Việt Tiếng Việt không có hiện tƣợng biến hình từ bằng những phụ tố mang ý nghĩa ngữ pháp bên trong từ nhƣ tiếng Anh. Tuy nhiên, tiếng Việt cũng có một số hình thức biến hình nhƣ trƣờng hợp thêm từ ―sự‖ trƣớc một động từ để biến nó thành danh từ hay thêm tiếng ―hóa‖ sau một danh từ để biến nó thành động từ tƣơng đƣơng, ví dụ nhƣ ―lựa chọn‖ và ―sự lựa chọn‖, ―tin học‖ và ―tin học hóa‖. 1.4.2.5. Từ đồng nghĩa Từ đồng nghĩa là những từ tƣơng đồng với nhau về nghĩa nhƣng khác nhau về âm thanh và phân biệt với nhau về một vài sắc thái ngữ nghĩa hoặc phong cách nào đó, hoặc đồng thời cả hai. Những từ đồng nghĩa với nhau lập thành một nhóm gọi là nhóm đồng nghĩa. Ví dụ: dễ, dễ dàng, dễ dãi là cùng một nhóm từ đồng nghĩa. Từ đồng nghĩa thực chất không phải là những từ trùng nhau hoàn toàn về nghĩa mà có những khác biệt nhất định. Chính sự khác biệt đó là lí do tồn tại và làm nên sự khác nhau giữa các từ trong một nhóm từ đồng nghĩa. Thông thƣờng các từ chỉ đồng nghĩa ở một nghĩa, một ngữ cảnh nào đó. Vì thế, một từ có nhiều nghĩa (đa nghĩa) có thể tham gia vào nhiều nhóm đồng nghĩa khác nhau. Ví dụ, từ ―coi‖ có thể tham gia vào các nhóm nhƣ coi – xem (coi hát, xem hát), coi – giữ (coi nhà, giữ nhà). 1.4.2.6. Đặc điểm chính tả Đặc điểm chính tả tiếng Việt có ý nghĩa rất quan trọng trong các hệ thống xử lý dữ liệu văn bản. Một số đặc điểm chính tả tiếng Việt cần quan tâm nhƣ: Các tiếng đồng âm: kĩ/kỹ, lí, lý… thƣờng bị sử dụng lẫn nhau nhƣ: lý luận, lí luận, kĩ thuật, kỹ thuật… Các từ địa phƣơng: một số từ địa phƣơng sử dụng thay cho các từ phổ thông, chẳng hạn: cây kiểng/cây cảnh, đờn/đàn, đậu phộng/lạc… Vị trí dấu thanh: theo quy định đánh dấu tiếng Việt, dấu đƣợc đặt trên nguyên âm có ƣu tiên cao nhất. Tuy nhiên, khi soạn thảo văn bản nhiều bộ gõ không tuân thủ nguyên tắc này nên có hiện tƣợng dấu đƣợc đặt ở các vị trí khác nhau, chẳng hạn: toán, tóan, thuý, thúy… Cách viết hoa: theo quy định, chữ cái đầu câu và tên riêng phải viết hoa, tuy nhiên vẫn tồn tại một số cách viết tuỳ tiện. Phiên âm tiếng nƣớc ngoài: tồn tại cách viết giữ nguyên gốc tiếng nƣớc ngoài và phiên âm ra tiếng Việt, ví dụ: Singapore/Xin−ga−po. Từ gạch nối: do cách viết dấu gạch nối tuỳ tiện, không phân biệt đƣợc giữa nối tên riêng hay chú thích.
- Xem thêm -

Tài liệu liên quan