ĐẠI HỌC ĐÀ NẴNG
TRƯỜNG ĐẠI HỌC BÁCH KHOA
DƯƠNG PHƯỚC QUỐC CƯỜNG
ỨNG DỤNG DEEP LEARNING
ĐỂ DỰ ĐOÁN QUAN ĐIỂM TRONG TÀI LIỆU
Chuyên ngành : Khoa học máy tính
Mã số : 8480101
LUẬN VĂN THẠC SĨ KỸ THUẬT
Người hướng dẫn khoa học: PGS.TS. NGUYỄN THANH BÌNH
Đà Nẵng - Năm 2019
LỜI CAM ĐOAN
Tôi xin cam đoan:
Những nội dung trong luận văn này là do tôi thực hiện dưới sự hướng dẫn trực
tiếp của PGS.TS. Nguyễn Thanh Bình.
Mọi tham khảo dùng trong luận văn đều được trích dẫn rõ ràng tên tác giả, tên
công trình, thời gian, địa điểm công bố.
Mọi sao chép không hợp lệ, vi phạm quy chế đào tạo, hay gian trá, tôi xin chịu
hoàn toàn trách nhiệm.
TRANG TÓM TẮT LUẬN VĂN
ỨNG DỤNG DEEP LEARNING ĐỂ DỰ ĐOÁN QUAN ĐIỂM TRONG TÀI
LIỆU
Học viên: Dương Phước Quốc Cường
Chuyên ngành: Khoa học máy tính
Mã số: 8480101 - Khóa: 34
Trường Đại học Bách khoa – ĐHĐN
Tóm tắt -Những năm gần đây, ngày càng nhiều người nói về cách mạng công nghệ lần
thứ 4. Các chủ đề được nhắc tới nhiều nhất bao gồm Big Data, Deep Learning, IoT,
Blockchain. Mặc dù những sự đầu tư nghiên cứu gần đây tập trung vào nhiều hướng tiếp
cận khác nhau, nhưng tất cả các nghiên cứu đó đều dần dần hướng tới một mục đích
chung. Mục đích chung đó là làm sao để máy tính thông minh hơn để có thể dần dần thay
thế con người. Để máy tính thông minh hơn thì chúng ta tìm cách làm cho máy tính học
được từ con người. Vì thế, lĩnh vực máy học (tiền thân của Deep Learning) chính là một
trong những hướng tiếp cận quan trọng trong giai đoạn cách mạng công nghiệp này.
Máy học là một lĩnh vực mà trong đó nhiều bài toán lớn được đưa ra để các nhà
khoa học cùng nghiên cứu. Một trong những bài toán rất có giá trị kinh tế rất cao của máy
học là bài toán tự động phân tích quan điểm. Lời giải của bài toán đánh giá quan điểm sẽ
mang đến cho các doanh nghiệp cái nhìn tổng quan về thị trường và về những dịch vu liên
quan. Vì bài toán phân tích quan điểm cũng là một trong những bài toán xử lý ngôn ngữ
tự nhiên, nên lời giải của nó cũng đóng góp đáng kể vào quá trình nghiên cứu xử lý ngôn
ngữ tự nhiên này.
Trong luận văn này, học viên đã trình bày việc so sánh các lời giải cho bài toán phân
tích quan điểm đối với ngôn ngữ Tiếng Việt. Trong đó, học viên đã làm nổi bật lên sự
khác nhau giữa phương pháp máy học deep learning và not deep learning. Với những
phương pháp và hướng tiếp cận khác nhau, học viên đã thực hiện đánh giá định lượng để
so sách độ chính xác của các phương pháp. Đóng góp cơ bản của luận văn này là một bộ
khung để so sánh đánh giá đối với bài toán phân tích quan điểm trong tiếng Việt. Những
đọc giả quan tâm có thể áp dụng các phương pháp này cho bài toán của mình để có những
so sánh định lượng tương đối để có thể chọn ra giải pháp tốt nhất cho mình.
Từ khoá: Khai phá, xử lý dữ liệu, ngôn ngữ tự nhiên, dự đoán quan điểm, thực nghiệm đề xuất và
đánh giá giải pháp
ABSTRACT OF THESIS
USING DEEP LEARNING TO PREDICT OPINIONS IN DOCUMENTS
Student: Duong Phuoc Quoc Cuong
Major: Computer Science
Code:8480101 Course: K34 University of Science and Technology- University of Danang
Abstract-In recent years, more and more people talk about the 4th generation of
industrial revolution. The most popular topics include Big Data, Deep Learning, IoT,
Blockchain. Although people invest different researches in diversity of approaches, most
of researches follow a common purpose. This common purpose is how to make machine
more intelligent in orrder to replace human. Then, the Machine Learning topic (the
previous topic prior to Deep Learning) is one of the most important approaches during
this generation of industrial revolution.
Machine Learning domain proposes plenty of problems which challenge modern
researchers. One of the valuable problemin economic domain is the problem of Sentiment
Analysis. The solution of Sentiment Analysis brings a vision about the market and about
the services to the company who invests the research to solve this problem. Since
Sentiment Analysis is also a Natural Language Processing, its solutions also contribute
significantly the development of this domain.
In this thesis, author presents a set of evaluation of solutions for the problem of
Sentiment Analysis in Vietnamese language. Authors also clarifies the difference between
Deep Learning approaches and not-Deep Learning approaches. With these difference
approaches and solutions, author also present a quantitative comparison in order to
evaluate the accuracy of these solutions for this Sentiment Analysis problem. The main
contribution of this thesis is an framework of evalutation which is recommended to use to
compare and to evaluate the solutions for Sentiment Analysis problem in Vietnamese
language. Interest readers can apply these methods to their own problem in order to
approximately compare these solutions and then to select the best one.
Keywords: Mining, processing data, natural language, predicting views, proposing and evaluating
solutions.
MỤC LỤC
TRANG BÌA
LỜI CAM ĐOAN
TRANG TÓM TẮT LUẬN VĂN
MỤC LỤC
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT
DANH MỤC CÁC BẢNG
DANH MỤC CÁC HÌNH
MỞ ĐẦU ......................................................................................................................... 1
1. Lý do chọn đề tài ......................................................................................................1
2. Mục đích nghiên cứu ................................................................................................2
3. Đối tƣợng và phạm vi nghiên cứu ............................................................................2
4. Phƣơng pháp nghiên cứu..........................................................................................2
5. Ý nghĩa khoa học và thực tiễn của đề tài .................................................................3
6. Bố cục luận văn ........................................................................................................3
CHƢƠNG 1. TỔNG QUAN, CƠ SỞ LÝ THUYẾT ...................................................... 4
1.1. Bài toán khai phá quan điểm .................................................................................4
1.1.1. Khái niệm khai phá dữ liệu ............................................................................ 4
1.1.2. Quá trình khai phá tri thức từ dữ liệu ............................................................. 5
1.2. Machine learning ...................................................................................................5
1.3. Deep Learning .......................................................................................................7
1.3.1. Khái niệm........................................................................................................ 7
1.3.2. Các bài toán và ứng dụng ............................................................................... 8
1.4. Xử lý ngôn ngữ tự nhiên .......................................................................................9
1.4.1. Định nghĩa....................................................................................................... 9
1.4.2. Cấu tạo, đặc điểm của ngôn ngữ tiếng Việt: ................................................... 9
1.4.3. Các bƣớc xử lý ngôn ngữ tự nhiên: .............................................................. 12
Kết chƣơng 1 ..............................................................................................................12
CHƢƠNG 2. BÀI TOÁN DỰ ĐOÁN QUAN ĐIỂM .................................................. 13
2.1. Bài toán liên quan dự đoán quan điểm ................................................................13
2.1.1. Nguồn từ vựng nâng cao để phân tích tình cảm và khai thác ý kiến. ........... 13
2.1.2. Một số khảo sát vềphân tích tình cảm và khai thác ý kiến ........................... 14
2.2. Phƣơng pháp máy học để giải bài toán dự đoán quan điểm ...............................16
2.2.1. Trích xuất đặc trƣng...................................................................................... 16
2.2.2. Huấn luyện và dự đoán ................................................................................. 19
2.2.3. Mạng nơ ron hồi quy .................................................................................... 22
Kết chƣơng 2 ..............................................................................................................23
CHƢƠNG 3. MÔ TẢ BÀI TOÁN VÀ ĐỀ XUẤT GIẢI PHÁP .................................. 24
3.1. Vấn đề đề tài tập trung giải quyết .......................................................................24
3.2. Đề xuất giải pháp ................................................................................................24
3.2.1. Thu thập và tiền xử lý dữ liệu ....................................................................... 24
3.2.2. Thực nghiệm kiểm tra độ chính xác với phƣơng pháp kiểm tra chéo .......... 28
3.2.3. Kiểm tra thực tế ............................................................................................ 30
3.3. Mô hình giải pháp ...............................................................................................30
3.3.1. Mô tả ............................................................................................................. 30
3.3.2. Thƣ viện đƣợc sử dụng ................................................................................. 31
3.3.3. Công cụ thực hiện ......................................................................................... 34
Kết chƣơng 3 ..............................................................................................................34
CHƢƠNG 4. THỰC NGHIỆM VÀ ĐÁNH GIÁ GIẢI PHÁP .................................... 35
4.1. Thực ngiệm .........................................................................................................35
4.1.1. Thực nghiệm 1: Trích xuất đặc trƣng bình thƣờng và thuật toán phân loại
truyền thống. ........................................................................................................... 35
4.1.2. Thực nghiệm 2: Trích xuất đặc trƣng bình thƣờng và thuật toán phân loại
neutral network. ...................................................................................................... 35
4.1.3. Thực nghiệm 3: Trích xuất đặc trƣng learning và thuật toán phân loại truyền
thống ................................................................................................................... 38
4.1.4. Thực nghiệm 4: Trích xuất đặc trƣng learning và thuật toán phân loại
neutral network. ...................................................................................................... 39
4.1.5. Thực nghiệm 5: Trích xuất đặc trƣng và dự đoán bằng deep learning. ........ 42
4.2. Đánh giá kết quả..................................................................................................44
Kết chƣơng 4 ..............................................................................................................44
KẾT LUẬN VÀ KIẾN NGHỊ ....................................................................................... 45
1. Kết quả đạt đƣợc: ...................................................................................................45
2. Một số hạn chế: ......................................................................................................45
3. Hƣớng phát triển và đề xuất: ..................................................................................45
TÀI LIỆU THAM KHẢO ............................................................................................. 46
QUYẾT ĐỊNH GIAO ĐỀ TÀI LUẬN VĂN ................................................................ 48
BẢN SAO KẾT LUẬN CỦA HỘI ĐỒNG, BẢN SAO NHẬN XÉT CỦA CÁC
PHẢN BIỆN.
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT
Diễn giải
Ký hiệu
Tiếng Anh
Tiếng Việt
NLP
Natural Language Processing
Xử lý ngôn ngữ tự nhiên
TTNT
Trí tuệ nhân tạo
Trí tuệ nhân tạo
AI
Artificial intelligence
Trí tuệ nhân tạo
ANN
Artificial Neural Network
Mạng nơ-ron nhân tạo
CNN
Convolution Neural Network
Mạng nơ-ron tích chập
DNN
Deep Neural Network
Mạng neural sâu
GPU
Graphics Processing Unit
Đơn vị xử lý đồ họa
NN
Neural Network
Mạng nơ-ron
ReLU
Rectified Linear Unit
Hiệu chỉnh đơn vị tuyến tính
SIFT
Scale-Invariant Feature
Transform
Biến đổi đặc trƣng tỉ lệ không
thay đổi
SOM
Self Organizing Maps
Mạng nơ-ron tự tổ chức
SVM
Support Vetor Machines
Máy vector hỗ trợ
DANH MỤC CÁC BẢNG
Bảng 1-1.Tần suất xuất hiện độ dài từ tiếng Việt trên vdict.com..................................10
Bảng 4-1. Kết quả thực nghiệm 1 với Bag of word ......................................................35
Bảng 4-2. Kết quả thực nghiệm 1 với tf-idf ..................................................................35
Bảng 4-3. Kết quả thực nghiệm 2 với Bag of word ......................................................36
Bảng 4-4. Kết quả thực nghiệm 2 với tf-idf ..................................................................38
Bảng 4-5. Kết quả thực nghiệm 3 với word2vec ...........................................................39
Bảng 4-6. Kết quả thực nghiệm 3 với doc2vec .............................................................39
Bảng 4-7. Kết quả thực nghiệm 4 với word2vec ...........................................................40
Bảng 4-8. Kết quả thực nghiệm 4 với doc2vec .............................................................41
Bảng 4-9. Thống kê số từ của câu .................................................................................44
DANH MỤC CÁC HÌNH
Hình 1-1. Minh họa về khai phá dữ liệu ..........................................................................4
Hình 1-2. Quy trìnhkhaiphá tri thức ................................................................................5
Hình 1-3. Minh họa về machine learning ........................................................................6
Hình 1-4. Deeplearning trong lĩnh vực AI ......................................................................7
Hình 1-5. Mạng Deep learning gồm các node neural......................................................8
Hình 2-1. Top 10 những từ tƣơng tự nghĩa giữa postive và negative ...........................13
Hình 2-2. Sentiment Classification Amazon review .....................................................14
Hình 2-3. Summary of the survey .................................................................................15
Hình 2-4. Minh họa phân bố từ bằng word2vec ............................................................18
Hình 2-5. Minh họa Logistic Regression ......................................................................21
Hình 2-6. Minh họa Multi-layer Perceptron ..................................................................22
Hình 3-1. Tổng quát quy trình thực hiện .......................................................................24
Hình 3-2. Dataset đƣợc thực nghiệm.............................................................................25
Hình 3-3. Loại bỏ nhiễu.................................................................................................25
Hình 3-4. Trích xuất đặc trƣng đầu vào (Feature extraction) ........................................26
Hình 3-5. Quy trình tiền xử lý dữ liệu ...........................................................................27
Hình 3-6. Mô tả cross-validate ......................................................................................28
Hình 3-7. Quy trình nghiệm dự đoán vơi kiểm nghiệm cross validate .........................29
Hình 3-8. Đánh giá và kiểm tra thực tế .........................................................................30
Hình 3-9. Hình dạng đầu vào của LSTM ......................................................................32
Hình 3-10. Mô tả LSTM với times step ........................................................................33
Hình 4-1. Kết quả thực nghiệm 2 với Bag of word .......................................................36
Hình 4-2. Kết quả thực nghiệm 2 với tf-idf ...................................................................37
Hình 4-3. Kết quả thực nghiệm 4 với word2vec ...........................................................40
Hình 4-4. Kết quả thực nghiệm 4 với doc2vec..............................................................41
Hình 4-5. Các bƣớc của bài toán trích xuất thông tin quan điểm sử dụng RNN ..........42
Hình 4-6. Thống kê số từ của câu..................................................................................43
1
MỞ ĐẦU
Cùng với sự phát triển không ngừng của khoa học công nghệ, đặc biệt là cuộc
cách mạng công nghiệp lần thứ tƣ đang diễn ra rộng khắp trong tất cả các lĩnh vực của
đất nƣớc cũng nhƣ các nƣớc trên thế giới, các chủ đề đƣợc nhắc tới nhiều nhất bao
gồm Big Data, Deep Learning, IoT, Blockchain… Các sản phẩm CNTT trí tuệ nhân
tạo và học máy ngày càng phát triển và là lĩnh vực đƣợc quan tâm đầu tƣ nghiên cứu
nhiều nhất hiện, trong đó lĩnh vực học sâu (Deep Learning) là một loại phổ biến của
máy học đã có những thành tựu phát triển vƣợt bậc.
Ngày nay, để đáp ứng nhu cầu cuộc sống ngày càng cao của con ngƣời, các sản
phẩm và dịch vụ đã có những bƣớc phát triển rất mạnh mẽ. Với mỗi loại sản phẩm và
dịch vụ hiện nay lại rất phong phú về chủng loại, chất lƣợng, dịch vụ và đến từ nhiều
nhà cung cấp khác nhau. Do đó, việc duy trì phát triển sản phẩm dịch vụ có đƣợc số
lƣợng khách hàng lớn đòi hỏi rất nhiều công sức. Một trong những phƣơng pháp cơ
bản và hiệu quả nhất là lắng nghe ý kiến phản hồi của khách hàng về sản phẩm dịch
vụ. Dựa trên những ý kiến phản hồi này, nhà cung cấp có thể đánh giá đƣợc chất lƣợng
sản phẩm, dịch vụ cũng nhƣ sự phục vụ từ đó điều chỉnh sản phẩm phù hợp để đạt
đƣợc hiệu quả kinh doanh tốt nhất. Công việc trên có tên gọi là trích xuất thông tin
quan điểm của ngƣời dùng. Đây là bài toán cơ bản nhƣng có ứng dụng rất lớn trong
cuộc sống.
Ngƣời tiêu dùng ngày càng có nhiều kênh khác nhau để tƣơng tác với nhà cung
cấp dịch vụ. Bên cạnh các kênh truyền thống nhƣ email, điện thoại, fax thì các hình
thức mới hơn nhƣ bình luận, phản hồi, chia sẽ trên các trang mạng xã hội, viết bài
đánh giá sản phẩm, phản hồi trên các diễn đàn... Và mạng xã hội là những kênh trao
đổi thông tin phổ biến nhất hiện nay. Qua các nguồn trên, dữ liệu đƣợc thu thập lại
dƣới dạng văn bản. Từ dữ liệu dạng văn bản, luận văn sẽ trình bày phƣơng pháp áp
dụng deep learning để đƣa ra các mô hình xử lý thông tin văn bản nhằm trích xuất
đƣợc thông tin quan điểm của ngƣời dùng.
1. Lý do chọn đề tài
Trong cuộc sống hiện đại ngày nay, du lịch đã trở nên vô cùng phổ biến. Việc lên
kế hoạch điểm đến, đặt phòng, đặt vé,... là những điều thiết yếu của mỗi chuyến đi.
Với sự phát triển của công nghệ, những nhận xét, bình luận và phản hồi của ngƣời sử
dụng về trải nghiệm của họ với chuyến du lịch đóng vai trò nhƣ một nguồn thông tin
quan trọng, nhất là với những ngƣời chủ doanh nghiệp khi họ muốn cải thiện dịch vụ
của mình. Đặc biệt, với việc đặt phòng khách sạn, thì nhận xét của khách hàng đã từng
sử dụng sẽ mang tính thực tế, khách quan và chi tiết hơn những gì đƣợc in sẵn trên
2
những tờ quảng cáo, phản ánh trực tiếp và gần nhƣ chính xác tình hình chất lƣợng dịch
vụ ở khách sạn đó.
Hơn nữa, khách sạn và đại lý du lịch thƣờng tiếp nhận và công khai nhận xét một
cách có hệ thống thông qua việc đề xuất khách hàng đánh giá bình luận sau khi sử
dụng dịch vụ. Điều đó sẽ gây khó khăn cho các nhà quản lý trong việc cập nhật theo
dõi nếu nhƣ chỉ dụng các công cụ tìm kiếm bình thƣờng, bởi những nhận xét mới nhất
sẽ xuất hiện thƣờng xuyên hơn đẩy những nhận xét cũ về sau, và họ có thể mất dấu
hoặc bỏ qua những phản hồi mang thông tin quan trọng.
2. Mục đích nghiên cứu
Xây dựng hệ thống phần mềm hỗ trợ trích xuất thông tin, phân loại và phân tích
một cách tự động những dữ liệu nhận xét, đánh giá (review) trực tuyến của khách hàng
ở dạng văn bản (ngôn ngữ tiếng Việt) về mức độ hài lòng: trƣờng hợp bài toán dịch vụ
khách sạn.
Nghiên cứu các giải thuật dựa trên lý thuyết máy học và ứng dụng deep learning,
cụ thể LSTM để thực nghiệm dự đoán quan điểm của ngƣời dùng về một sản phẩm,
dịch vụ.
3. Đối tượng và phạm vi nghiên cứu
Nghiên cứu về các phƣơng pháp học máy (Machine Learning), máy học (deep
learning) để dự đoán quan điểm của ngƣời dùng.
Xử lý ngôn ngữ tự nhiên và các phƣơng pháp vector hóa từ.
Lý thuyết về trí tuệ nhân tạo, mạng neural và deep learning.
Đánh giá trên các tập dữ liệu bằng các kỹ thuật học máy và deep Learning với
mạng LSTM.
Công cụ lập trình Python, các thƣ viện keras, tensorflow…
4. Phương pháp nghiên cứu
Nghiên cứu lý thuyết: Tổng hợp thu thập và nghiên cứu các tài liệu có liên quan
đến đề tài nhƣ đã nêu trong mục 3 bao gồm: lý thuyết về khai phá quan điểm, xử lý
ngôn ngữ tự nhiên, trích xuất đặc trƣng. Lý thuyết về học máy, mạng neural,
deeplearning trong dự đoán quan điểm của tài liệu bình luận.
Phƣơng pháp thực nghiệm:Triển khai và đánh giá một số kỹ thuật về dự đoán
quan điểm trong tài liệu bằng các kỹ thuật học máy và deep Learning với mạng LSTM.
Lựa chọn công cụ đã có để cài đặt, đề xuất mô hình và thể hiện cụ thể những kết quả
đã nghiên cứu, kết quả thực nghiệm so với các cơ sở dữ liệu chuẩn để so sánh
đánh giá.
3
5. Ý nghĩa khoa học và thực tiễn của đề tài
Ý nghĩa khoa học
Ứng dụng các giả thuyết về các kỹ thuật xử lý trích xuất đặc trƣng, xử lý ngôn
ngữ tự nhiên,... để phân loại ý kiến nhận xét một cách hoàn toàn tự động.
Ứng dụng các kỹ thuật học máy, khai phá dữ liệu trong huấn luyện và trang bị
khả năng tự học cho hệ thống.
Ý nghĩa thực tiễn
Tự động hóa hoạt động trích xuất, thống kê, phân loại, phân tích thông tin phản
hồi từ khách hàng dựa trên nền tảng của trí tuệ nhân tạo, từng bƣớc đƣa Việt Nam bắt
nhịp và hội nhập theo xu hƣớng phát triển của cuộc cách mạng công nghiệp lần thứ tƣ.
Tối ƣu hóa chi phí, tăng hiệu suất và hiệu quả của hoạt động kinh doanh dịch vụ
cũng nhƣ trải nghiệm của khách hàng.
6. Bố cục luận văn
Luận văn đƣợc chia thành các phần sau:
Chƣơng 1: Trình bày tổng quan cơ sở lý thuyết, một số khái niệm liên quan nhƣ
bài toán khai phá quan điểm, machine learning, deep learning, xử lý ngôn ngữ tự
nhiên.
Chƣơng 2: Đề tài liên quan bao gồm tên đề tài, tác giả, dữ liệu, phƣơng pháp thực
hiện và kết quả đạt đƣợc.Trình bày các phƣơng pháp thực hiện trong luận văn bao gồm
vector hóa nhƣ Bag of Words, TF-IDF, Word2vec, Doc2vec và thuật toán phân loại
nhƣ SVM, Logistic Regression, Multi-layer Perceptron, mạng nơ ron hồi quy.
Chƣơng 3: Mô tả bài toán và đề xuất giải pháp. Chƣơng này đề cập vấn đề mà
luận văn tập trung giải quyết, đề xuất giải pháp thực hiện, cụ thể hóa quy trình bằng
mô hình giải pháp.
Chƣơng 4: Thực nghiệm và đánh giá kết quả. Chƣơng này sẽ trình bày cái thực
nghiệm khác nhau với phƣơng pháp vector hóa và thuật toán phân loại khác nhau.
Đánh giá và so sánh từng thực nghiệm.
Kết luận: Kết quả đạt đƣợc, hạn chế, hƣớng phát triển trong tƣơng lai.
4
CHƯƠNG 1. TỔNG QUAN, CƠ SỞ LÝ THUYẾT
1.1. Bài toán khai phá quan điểm
1.1.1. Khái niệm khai phá dữ liệu (Data mining)
Khái niệm về khai phá dữ liệu là một bƣớc của quá trình khai thác tri thức có rất
nhiều cách diễn đạt khác nhau nhƣng về bản chất đó là quá trình tự động trích xuất
thông tin có giá trị (Thông tin dự đoán - Predictive Information) ẩn chứa trong khối
lƣợng dữ liệu khổng lồ trong thực tế.
Hình 1-1. Minh họa về khai phá dữ liệu
Hand, D.J., 2006. Data Mining. Encyclopedia of Environmetrics
Chuẩn bị dữ liệu để cho máy tính ―học‖ (Data).
Xây dựng mô hình thông qua dữ liệu đầu vào (Algorithm).
Đánh giá mô hình vừa mới xây dựng (Model).
Khai phá dữ liệu nhấn mạnh 2 khía cạnh chính đó là khả năng trích xuất thông tin
có ích tự động và thông tin mang tính dự đoán.
Tóm lại, Khai phá dữ liệulà quá trình tìm kiếm các mẫu từ tập dữ liệu lớn hay có
thể nói là quá trình biến dữ liệu thôthành thông tin hữu ích. Nó cho phép doanh nghiệp
phân tích dữ liệu từ nhiều góc độ khác nhau, tìm hiểu thêm thông tin về khách hàng,
về thói quen mua sắm của mình, phát hiện mối quan hệ tiềm ẩn, đƣa ra các dữ liệu có
ý nghĩa.Từ đó, doanh nghiệp có cơ sở để xây dựng chiến lƣợc tiếp thị và bán hàng hiệu
quả hơn. Khai phá dữ liệu phụ thuộc vào quá trình thu thập dữ liệu, tổ chức dữ liệu và
xử lý dữ liệu [8]
5
1.1.2. Quá trình khai phá tri thức từ dữ liệu
Hình 1-2. Quy trìnhkhaiphá tri thức
Quy trình khai phá dữ liệu là chuỗi lặp lại các thao tác:[8]
Làm sạch dữ liệu: Loại bỏnhiễu và Loại bỏ từ dừng (stopwords), loại bỏ các ký
tự không phải chữ cái hoặc chữ số.
Tích hợp dữ liệu: Dữliệu của nhiều nguồn có thểtổhợplại.
Lựa chọn dữ liệu: Những dữliệu phù hợp với phân tíchđƣợc trích rút từ nguồn dữ
liệu ban đầu.
Chuyển đổi dữ liệu: Dữliệuđƣợc chuyểnđổi hayđƣợc hợp nhất về dạng thích hợp
cho việc khai phá.
Khai phá dữ liệu: Là tiến trình chính, trongđó các phƣơngpháp tính toán đƣợc áp
dụng nhằm trích ra các mẫu dữ liệu.
Đánh giá mẫu: Dựa trên các phƣơng phápđo nhằmxác định độ chuẩn xác và lợi
ích từ các mẫu biểu diễn tri thức.
Biễu diễn tri thức: Sửdụng kỹthuật biểu diễnvà hiển thị tri thức đƣợc tổng hợp
cho ngƣời dùng.
1.2. Machine learning
―Học máy(machine learning) là một lĩnh vực của Trí tuệ nhân tạo liên quan đến
việc nghiên cứu và xây dựng các kỹ thuật cho phép các hệ thống ―học‖ tự động từ dữ
liệu để giải quyết những vấn đề cụ thể nào đó‖(Theo wikipedia).
Machine Learning là một nhánh con của AI. Theo định nghĩa của
Wikipedia, ―Machine learning is the subfield of computer science that ―gives
6
computers the ability to learn without being explicitly programmed‖. Nói đơn giản,
Machine Learning là một lĩnh vực của Khoa Học Máy Tính, nó có khả năng tự học
dựa trên dữ liệu đƣa vào mà không cần phải đƣợc lập trình cụ thể.
Ví dụ nhƣ các máy tính học cách phân loại thƣ điện tử xem có phải thƣ rác
(spam) hay không và tự động xếp thƣ vào thƣ mục tƣơng ứng; dạy máy tính (rô-bôt)
cách băng qua đƣờng thì theo cách truyền thống bạn sẽ đƣa cho nó một loạt quy tắc
hƣớng dẫn cách nhìn trái phải hay đợi xe và ngƣời đi qua,… Tuy nhiên nếu dùng học
máy, chúng ta sẽ cho máy tính xem hàng nghìn video quay cảnh ngƣời ta băng qua
đƣờng an toàn và hàng nghìn video quay cảnh con ngƣời đó bị xe đâm để nó tự học.
Từ đó máy tính có thể nhận thức và phân tích nhiều đặc trƣng tốt hơn (thông minh
hơn) từ các video để nhận biết đƣợc các sự vật hiện tƣợng mới xung quanh thông qua
kho dữ liệu đã huấn luyện; Dạy máy tính có thể dự đoán quan điểm của ngôn ngữ, từ
một câu bình luận đƣa vào, máy các thể xác định đƣợc câu bình luận đó là tiêu tực hay
tích cực … bằng cách ta huấn luyện cho máy tính học hàng nghìn câu mang ngữ nghĩa
là tích cực, hàng nghìn câu mang ngữ nghĩa là tiêu cực từ đó máy tính có thể tự động
nhận thức và trích rút đƣợc đặc trƣng của các câu bình luận thông qua kho dữ liệu đã
đƣợc huấn luyện; Thuật toán phân lớp, có thể phân chia dữ liệu vào nhiều nhóm khác
nhau. Thuật toán phân lớp đƣợc dùng để nhận dạng chữ số tay cũng có thể đƣợc sử
dụng để phân loại thƣ rác mà không cần thay đổi dòng mã nào. Chúng đều dùng chung
một thuật toán nhƣng đƣợc truyền vào các dữ liệu huấn luyện khác nhau do đó nó dẫn
đến các logic phân lớp khác nhau
Hình 1-3. Minh họa về machine learning
Vì vậy, việc phân tích hàng triệu dữ liệu về quan điểm, bình luận của khách hàng
đối với các sản phẩm dịch vụ trong thời gian ngắn và đƣa ra số liệu tổng hợp kết quả
đánh giá của Khách hàng thì machine learning là một giải pháp đƣợc ƣu tiên thực hiện.
7
Nhƣ trong luận văn này giúp xử lý một lƣợng dữ liệu khá lớn, sau đó tính toán ra kết
quả đánh giá của ngƣời dùng với thời gian rất nhanh.
1.3. Deep Learning
1.3.1. Khái niệm
Học sâu (Deep Learning) là một phƣơng pháp của máy học dựa trên một tập hợp
các thuật toán để cố gắng mô hình dữ liệu trừu tƣợng hóa ở mức cao bằng cách sử
dụng nhiều lớp xử lý với cấu trúc phức tạp, hoặc bằng cách khác bao gồm nhiều biến
đổi phi tuyến‖(Theo wikipedia). Hay nói cách khác là học sâu làmột kỹ thuật trong học
máy, sử dụng các thuật toán liên quan đến các thuật toán dựa trên cấu trúc và hoạt
động của bộ não động vật gọi là Mạng nơ ron nhân tạo dựa trên việc phân tích dữ liệu
về nhiều đặc trƣng hơn nhờ sự hỗ trợ khả năng tính toán của máy tính.
Học sâu tập trung giải quyết các vấn đề liên quan đến mạng nơ ron nhân tạo
nhằm nâng cấp các công nghệ về nhận diện gióng nói, thị giác máy tính, và xử lý ngôn
ngữ tự nhiên.[10]
Hình 1-4. Deeplearning trong lĩnh vực AI
Deep learning. nature, 521(7553), p.436
Có 3 loại layer chính của các nơ ron trong mạng nơ ron là: Input layer, các
Hidden layer, Output layer. Từ ―Deep‖ trong Deep Learning chỉ đến việc có nhiều hơn
một hidden layer.
8
Hình 1-5. Mạng Deep learning gồm các node neural
Deep learning. nature, 521(7553), p.436
Nổi tiếng nhất của Deep Learning có thể kể đến là CNN (Convolutional Neural
Networks) đƣợc sử dụng nhiều nhất trong lĩnh vực thị giác máy tính (computer vision),
RNN (Recurrent Neural Network) thƣờng đƣợc ứng dụng trong lĩnh vực xử lý ngôn
ngữ tự nhiên (Natural Language Processing).
1.3.2. Các bài toán và ứng dụng
Nhận dạng chữ viết: Với chƣơng trình nhận dạng chữ viết in có thể chuyển hàng
ngàn đầu sách trong thƣ viện thành văn bản điện tử trong thời gian ngắn. Nhận dạng
chữ viết của con ngƣời có ứng dụng trong khoa học hình sự và bảo mật thông tin (nhận
dạng chữ ký điện tử).
Nhận dạng tiếng nói: Nhận dạng tiếng nói rồi chuyển chúng thành văn bản tƣơng
ứng. Giúp thao tác của con ngƣời trên các thiết bị nhanh hơn và đơn giản hơn, chẳng
hạn thay vì gõ một tài liệu nào đó bạn đọc nó lên và trình soạn thảo sẽ tự ghi nó ra.
Đây cũng là bƣớc đầu tiên cần phải thực hiện trong ƣớc mơ thực hiện giao tiếp giữa
con ngƣời với robot. Nhận dạng tiếng nói có khả năng trợ giúp ngƣời khiếm thị rất
nhiều.
Tổng hợp tiếng nói: Từ một văn bản tự động tổng hợp thành tiếng nói. Thay vì
phải tự đọc một cuốn sách hay nội dung một trang web, nó tự động đọc cho chúng ta.
Giống nhƣ nhận dạng tiếng nói, tổng hợp tiếng nói là sự trợ giúp tốt cho ngƣời khiếm
thị, nhƣng ngƣợc lại nó là bƣớc cuối cùng trong giao tiếp giữa robot với ngƣời.
Dịch tự động (machine translate): Nhƣ tên gọi đây là chƣơng trình dịch tự động
từ ngôn ngữ này sang ngôn ngữ khác. Một phần mềm điển hình là Google Translate có
thể dịch giữa các ngôn ngữ khác nhau.
Tìm kiếm thông tin (information retrieval): Đặt câu hỏi và chƣơng trình tự tìm ra
nội dung phù hợp nhất.
Tóm tắt văn bản: Từ một văn bản dài tóm tắt thành một văn bản ngắn hơn theo
mong muốn nhƣng vẫn chứa những nội dung thiết yếu nhất.
9
Sinh văn bản: Từ các dữ liệu văn bản của một cá nhân tự tạo ra cú pháp và lối
viết theo phong cách của cá nhân đó
Phân tích cảm xúc trong ngôn ngữ: Đây là khái niệm mới trong xử lý ngôn ngữ,
bằng việc kết hợp giữa nhận dạng ngôn ngữ với phân tích cảm xúc, biểu cảm. Mục tiêu
là máy tính nhận dạng đánh giá các mức độ tâm lý của con ngƣời trong ngôn ngữ.
1.4. Xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP)
1.4.1. Định nghĩa
Xử lý ngôn ngữ tự nhiên là một nhánh của trí tuệ nhân tạo tập trung vào các ứng
dụng giải quyết các vấn đề về xử lý ngôn ngữ của con ngƣời. Trong trí tuệ nhân tạo thì
việc xử lý ngôn ngữ tự nhiên là một trong những phần khó nhất vì nó liên quan đến
việc phải hiểu ý nghĩa ngôn ngữ - công cụ hoàn hảo nhất của tƣ duy và giao tiếp.[4]
Xử lý ngôn ngữ là một kỹ thuật quan trọng nhằm giúp máy tính hiểu đƣợc ngôn
ngữ của con ngƣời, qua đó hƣớng dẫn máy tính thực hiện và giúp đỡ con ngƣời trong
những công việc có liên quan đến ngôn ngữ nhƣ: dịch thuật, phân tích dữ liệu văn bản,
dự đoán quan điểm tài liệu, nhận dạng tiếng nói, tìm kiếm thông tin ...
1.4.2. Cấu tạo, đặc điểm của ngôn ngữ tiếng Việt:
1.4.2.1. Cấu tạo từ tiếng Việt
Tiếng Việt là ngôn ngữ không biến hình từ và âm tiết tính, tức là mỗi âm tiết phát
âm tách rời và đƣợc thể hiện bằng một từ. Hai đặc trƣng này chi toàn bộ tổ chức của
hệ thống ngôn ngữ tiếng Việt.
1.4.2.2. Tiếng:
Tiếng là đơn vị cơ sở để cấu tạo lên từ. Tiếng là đơn vị nhỏ nhất có nội dung
đƣợc thể hiện. Xét về mặt ý nghĩa, các tiếng có thể chia thành các loại sau:
Tiếng tự thân nó đã có ý nghĩa, thƣờng đƣợc quy chiếu vào một đối tƣợng, khái
niệm. Ví dụ: trời, đất, nƣớc, cây, cỏ…
Tiếng tự thân nó không có ý nghĩa, không đƣợc quy chiếu vào đối tƣợng, khái
niệm nào cả mà chúng thƣờng đi cùng với một tiếng khác có nghĩa và làm thay đổi sắc
thái của tiếng đó, ví dụ nhƣ: (xanh) lè, (đƣờng) xá, (nắng) nôi…
Tiếng tự thân nó không có ý nghĩa nhƣng có thể ghép với nhau để tạo thành từ có
nghĩa, thƣờng xuyên gặp ở những từ mƣợn nhƣ phéc-mơ-tuya, a-pa-tít, mì-chính...
Trong tiếng Việt các tiếng thuộc nhóm đầu tiên chiếm đa số, các tiếng thuộc hai
nhóm sau thƣờng chỉ chiếm số ít, đặc biệt là nhóm thứ 3, chúng thƣờng đƣợc gọi là
tiếng vô nghĩa.
10
1.4.2.3. Từ, cụm từ:
Từ đƣợc cấu tạo từ một hoặc nhiều tiếng. Từ cấu tạo từ một tiếng gọi là từ đơn,
ví dụ: tôi, bạn, nhà, hoa… Từ cấu tạo bởi nhiều tiếng là từ ghép, giữa các tiếng có mối
quan hệ về nghĩa.
Từ ghép đƣợc phân thành từ ghép đẳng lập và từ ghép chính phụ. Đối với từ ghép
đẳng lập các thành phần cấu tạo từ có mối quan hệ bình đẳng với nhau về nghĩa.
Ví dụ: ăn nói, bơi lội…
Đối với từ ghép chính phụ, các thành phần cấu tạo từ có mối quan hệ phụ thuộc
với nhau về nghĩa, thành phần phụ có vai trò làm chuyên biệt hóa, tạo sắc thái cho
thành phần chính.
Ví dụ: hoa hồng, đƣờng sắt…
Cụm từ là những kiến trúc gồm hai từ trở lên kết hợp với nhau theo những quan
hệ ngữ pháp nhất định.
Ví dụ: Từ ―học‖ là từ gồm một tiếng; Từ ―đại học‖ là từ gồm hai tiếng; Cụm từ
―khoa học máy tính‖ gồm 2 từ hay 4 tiếng.
Theo nhƣ thống kê trên trang http://vdict.com thì độ dài của một từ tiếng Việt
đƣợc thể hiện trong bảng:
Bảng 1-1. Tần suất xuất hiện độ dài từ tiếng Việt trên vdict.com
Độ dài của từ
Tần số
Tỉ lệ %
1
8399
12,2
2
48995
67.1
3
5727
7.9
4
7040
9.7
≥5
2301
3.1
Tổng cộng
72994
100
11
1.4.2.4. Biến hình từ tiếng Việt
Tiếng Việt không có hiện tƣợng biến hình từ bằng những phụ tố mang ý nghĩa
ngữ pháp bên trong từ nhƣ tiếng Anh. Tuy nhiên, tiếng Việt cũng có một số hình thức
biến hình nhƣ trƣờng hợp thêm từ ―sự‖ trƣớc một động từ để biến nó thành danh từ
hay thêm tiếng ―hóa‖ sau một danh từ để biến nó thành động từ tƣơng đƣơng, ví dụ
nhƣ ―lựa chọn‖ và ―sự lựa chọn‖, ―tin học‖ và ―tin học hóa‖.
1.4.2.5. Từ đồng nghĩa
Từ đồng nghĩa là những từ tƣơng đồng với nhau về nghĩa nhƣng khác nhau về
âm thanh và phân biệt với nhau về một vài sắc thái ngữ nghĩa hoặc phong cách nào đó,
hoặc đồng thời cả hai. Những từ đồng nghĩa với nhau lập thành một nhóm gọi là nhóm
đồng nghĩa. Ví dụ: dễ, dễ dàng, dễ dãi là cùng một nhóm từ đồng nghĩa.
Từ đồng nghĩa thực chất không phải là những từ trùng nhau hoàn toàn về nghĩa
mà có những khác biệt nhất định. Chính sự khác biệt đó là lí do tồn tại và làm nên sự
khác nhau giữa các từ trong một nhóm từ đồng nghĩa.
Thông thƣờng các từ chỉ đồng nghĩa ở một nghĩa, một ngữ cảnh nào đó. Vì thế,
một từ có nhiều nghĩa (đa nghĩa) có thể tham gia vào nhiều nhóm đồng nghĩa khác
nhau. Ví dụ, từ ―coi‖ có thể tham gia vào các nhóm nhƣ coi – xem (coi hát, xem hát),
coi – giữ (coi nhà, giữ nhà).
1.4.2.6. Đặc điểm chính tả
Đặc điểm chính tả tiếng Việt có ý nghĩa rất quan trọng trong các hệ thống xử lý
dữ liệu văn bản. Một số đặc điểm chính tả tiếng Việt cần quan tâm nhƣ:
Các tiếng đồng âm: kĩ/kỹ, lí, lý… thƣờng bị sử dụng lẫn nhau nhƣ: lý luận, lí
luận, kĩ thuật, kỹ thuật…
Các từ địa phƣơng: một số từ địa phƣơng sử dụng thay cho các từ phổ thông,
chẳng hạn: cây kiểng/cây cảnh, đờn/đàn, đậu phộng/lạc…
Vị trí dấu thanh: theo quy định đánh dấu tiếng Việt, dấu đƣợc đặt trên nguyên âm
có ƣu tiên cao nhất. Tuy nhiên, khi soạn thảo văn bản nhiều bộ gõ không tuân thủ
nguyên tắc này nên có hiện tƣợng dấu đƣợc đặt ở các vị trí khác nhau, chẳng hạn: toán,
tóan, thuý, thúy…
Cách viết hoa: theo quy định, chữ cái đầu câu và tên riêng phải viết hoa, tuy
nhiên vẫn tồn tại một số cách viết tuỳ tiện.
Phiên âm tiếng nƣớc ngoài: tồn tại cách viết giữ nguyên gốc tiếng nƣớc ngoài và
phiên âm ra tiếng Việt, ví dụ: Singapore/Xin−ga−po.
Từ gạch nối: do cách viết dấu gạch nối tuỳ tiện, không phân biệt đƣợc giữa nối
tên riêng hay chú thích.
- Xem thêm -