Khai phá quan điểm dữ liệu Twitter (LV thạc sĩ)Khai phá quan điểm dữ liệu Twitter (LV thạc sĩ)Khai phá quan điểm dữ liệu Twitter (LV thạc sĩ)Khai phá quan điểm dữ liệu Twitter (LV thạc sĩ)Khai phá quan điểm dữ liệu Twitter (LV thạc sĩ)Khai phá quan điểm dữ liệu Twitter (LV thạc sĩ)Khai phá quan điểm dữ liệu Twitter (LV thạc sĩ)Khai phá quan điểm dữ liệu Twitter (LV thạc sĩ)Khai phá quan điểm dữ liệu Twitter (LV thạc sĩ)Khai phá quan điểm dữ liệu Twitter (LV thạc sĩ)Khai phá quan điểm dữ liệu Twitter (LV thạc sĩ)Khai phá quan điểm dữ liệu Twitter (LV thạc sĩ)Khai phá quan điểm dữ liệu Twitter (LV thạc sĩ)Khai phá quan điểm dữ liệu Twitter (LV thạc sĩ)Khai phá quan điểm dữ liệu Twitter (LV thạc sĩ)Khai phá quan điểm dữ liệu Twitter (LV thạc sĩ)Khai phá quan điểm dữ liệu Twitter (LV thạc sĩ)Khai phá quan điểm dữ liệu Twitter (LV thạc sĩ)Khai phá quan điểm dữ liệu Twitter (LV thạc sĩ)Khai phá quan điểm dữ liệu Twitter (LV thạc sĩ)Khai phá quan điểm dữ liệu Twitter (LV thạc sĩ)Khai phá quan điểm dữ liệu Twitter (LV thạc sĩ)Khai phá quan điểm dữ liệu Twitter (LV thạc sĩ)Khai phá quan điểm dữ liệu Twitter (LV thạc sĩ)Khai phá quan điểm dữ liệu Twitter (LV thạc sĩ)Khai phá quan điểm dữ liệu Twitter (LV thạc sĩ)Khai phá quan điểm dữ liệu Twitter (LV thạc sĩ)Khai phá quan điểm dữ liệu Twitter (LV thạc sĩ)Khai phá quan điểm dữ liệu Twitter (LV thạc sĩ)
HỌC VIỆN CÔNG NGHỆ BƢU CHÍNH VIỄN THÔNG
---------------------------------------
NGUYỄN THỊ HỒNG QUỲNH
KHAI PHÁ QUAN ĐIỂM
CHO DỮ LIỆU TWITTER
LUẬN VĂN THẠC SĨ KỸ THUẬT
HÀ NỘI - 2017
HỌC VIỆN CÔNG NGHỆ BƢU CHÍNH VIỄN THÔNG
---------------------------------------
NGUYỄN THỊ HỒNG QUỲNH
KHAI PHÁ QUAN ĐIỂM
CHO DỮ LIỆU TWITTER
CHUYÊN NGÀNH : KHOA HỌC MÁY TÍNH
MÃ SỐ:
0
60.48.01.01
LUẬN VĂN THẠC SĨ KỸ THUẬT
(Theo định hướng ứng dụng)
NGƢỜI HƢỚNG DẪN KHOA HỌC: TS. NGÔ XUÂN BÁCH
HÀ NỘI - 2017
i
LỜI CAM ĐOAN
Tôi cam đoan đây là công trình nghiên cứu của riêng tôi.
Các số liệu, kết quả nêu trong luận văn là trung thực và chƣa từng đƣợc ai
công bố trong bất cứ công trình nào.
TÁC GIẢ
Nguyễn Thị Hồng Quỳnh
ii
LỜI CẢM ƠN
Tôi xin chân thành cảm ơn thầy giáo TS. Ngô Xuân Bách – ngƣời hƣớng dẫn
khoa học, đã tận tình hƣớng dẫn, chỉ bảo và dìu dắt tôi trong suốt quá trình thực
hiện đề tài.
Tôi xin chân thành cảm ơn các thầy cô giáo học viện Công nghệ Bƣu chính
Viễn thông đã quan tâm, tận tình truyền thụ kiến thức và giúp đỡ tôi trong thời gian
học tập tại đây.
Tôi xin chân thành cảm ơn công ty trách nhiệm hữu hạn FPT đã tạo điều kiện
về thời gian và công việc trong suốt thời gian học tập và thực hiện đề tài.
Trong quá trình nghiên cứu và thực hiện đề tài của mình, mặc dù đƣợc sự
hƣớng dẫn rất nhiệt tình, nghiêm túc của TS. Ngô Xuân Bách cùng với sự nỗ lực
của cá nhân nhƣng cũng không thể tránh đƣợc những thiếu sót, hạn chế. Tôi rất
mong nhận đƣợc những ý kiến đóng góp, sửa chữa từ quý Thầy, Cô và các bạn bè
đồng nghiệp để đề tài đƣợc hoàn thiện và ứng dụng nhiều hơn trong thực tế.
Trân trọng cám ơn.
Tác giả
Nguyễn Thị Hồng Quỳnh
iii
MỤC LỤC
LỜI CAM ĐOAN ....................................................................................................... i
LỜI CẢM ƠN.... ........................................................................................................ ii
MỤC LỤC......... ........................................................................................................ iii
DANH MỤC THUẬT NGỮ .......................................................................................v
DANH MỤC CÁC BẢNG BIỂU ............................................................................. vi
DANH MỤC CÁC HÌNH VẼ.................................................................................. vii
LỜI MỞ ĐẦU..... ........................................................................................................1
CHƢƠNG I. CƠ SỞ LÝ LUẬN ............................................................................3
1.1
Giới thiệu về xử lý ngôn ngữ tự nhiên ...........................................................3
1.2
Khai phá quan điểm .......................................................................................4
1.2.1 Giới thiệu .................................................................................................4
1.2.2 Một số bài toán trong khai phá quan điểm ..............................................5
1.2.3 Một số khó khăn trong khai phá quan điểm ............................................7
1.2.4 Các cấp độ dữ liệu phân tích quan điểm..................................................7
1.3
Tổng quan bài toán khai phá quan điểm trên dữ liệu mạng xã hội Twitter ...8
1.3.1 Giới thiệu về mạng xã hội Twitter ..........................................................8
1.3.2 Phát biểu bài toán ....................................................................................9
1.3.3 Ý nghĩa bài toán.....................................................................................10
1.3.4 Khó khăn và thách thức .........................................................................10
1.4
Một số kỹ thuật trong khai phá quan điểm ..................................................11
1.4.1 Các phƣơng pháp cây quyết định ..........................................................11
1.4.2 Phƣơng pháp K-láng giềng gần nhất (K-Nearest Neighbor) .................12
1.4.3 Thuật toán SVM ....................................................................................13
1.4.4 Một số nghiên cứu liên quan .................................................................14
1.5
Kết luận chƣơng 1 ........................................................................................17
CHƢƠNG II. PHƢƠNG PHÁP PHÂN LOẠI QUAN ĐIỂM TRÊN TWITTER
SỬ DỤNG HỌC MÁY .............................................................................................19
2.1
Phƣơng pháp phân loại quan điểm ...............................................................19
2.1.1 Thu thập dữ liệu.....................................................................................21
2.1.2 Tiền xử lý dữ liệu ..................................................................................22
2.1.3 Trích chọn đặc trƣng và vector hóa dữ liệu ...........................................25
2.1.4 Sử dụng thuật toán huấn luyện tạo mô hình phân lớp ...........................27
iv
2.2
Các phƣơng pháp trích chọn đặc trƣng ........................................................27
2.2.1 Đặc trƣng N-gram..................................................................................27
2.2.2 Độ tƣơng đồng dựa trên tâm (CBS) ......................................................29
2.2.3 Đặc trƣng Log-count Ratio ....................................................................35
2.3
SVM – Support Vevtor Machine .................................................................37
2.3.1 Giới thiệu chung ....................................................................................37
2.3.2 Thuật toán SVM ....................................................................................38
2.3.3 Huấn luyện SVM ...................................................................................40
2.3.4 Các ƣu điểm của SVM trong phân lớp ..................................................41
2.3.5 Cách áp dụng thuật toán SVM vào bài toán phân lớp quan điểm .........42
2.4
Kết luận chƣơng 2 ........................................................................................42
CHƢƠNG III. THỰC NGHIỆM HỆ THỐNG KHAI PHÁ QUAN ĐIỂM CHO
DỮ LIỆU TWITTER ................................................................................................43
3.1 Dữ liệu thực nghiệm.....................................................................................43
3.2
Thiết lập thực nghiệm ..................................................................................44
3.2.1 Hƣớng tiếp cận thực nghiệm .................................................................44
3.2.2 Phƣơng pháp sử dụng các đặc trƣng trong thực nghiệm .......................45
3.2.3 Phƣơng pháp đánh giá tập dữ liệu .........................................................46
3.3
Công cụ thực nghiệm ...................................................................................49
3.3.1 Môi trƣờng thực nghiệm........................................................................49
3.3.2 Công cụ phần mềm ................................................................................49
3.3.3 Giới thiệu LibSVM ................................................................................50
3.4
Kết quả thực nghiệm ....................................................................................53
3.4.1 Kết quả...................................................................................................53
3.4.2 Đánh giá kết quả ....................................................................................54
3.5
Kết luận chƣơng 3 ........................................................................................56
KẾT LUẬN....... ........................................................................................................57
TÀI LIỆU THAM KHẢO .........................................................................................59
v
DANH MỤC THUẬT NGỮ
Viết tắt
Tiếng Anh
Tiếng Việt
CBS
Center-base similarity
Độ tƣơng đồng dựa trên tâm
SVM
Support Vector Machines
Máy véc tơ hỗ trợ
BOW
Bag of word
Thuật toán túi từ
KNN
K Nearest neighbors
K láng giềng gần nhất
K-fold cross validation
Đánh giá chéo dựa trên k phần
Natural Language Processing
Xử lý ngôn ngữ tự nhiên
K-FOLD
NLP
vi
DANH MỤC CÁC BẢNG BIỂU
Bảng 2.1 Ví dụ về biểu tƣợng cảm xúc trong từ điển ...............................................23
Bảng 2.2 Ví dụ từ điển chuẩn hóa .............................................................................24
Bảng 2.3 Ví dụ về từ điển viết tắt .............................................................................25
Bảng 2.4 Các đặc trƣng sử dụng trong bộ phân lớp quan điểm ................................26
Bảng 2.5 Các độ đo tƣơng tự cho đặc trƣng CBS .....................................................35
Bảng 3.1 Bảng số liệu đối với bộ dữ liệu sử dụng ....................................................44
Bảng 3.2 Bảng các đặc trƣng sử dụng.......................................................................45
Bảng 3.3 Bảng danh sách kết hợp đặc trƣng .............................................................46
Bảng 3.4 Bảng ma trận nhầm lẫn ..............................................................................49
Bảng 3.5 Bảng cấu hình phần cứng ..........................................................................49
Bảng 3.6 Bảng công cụ phần mềm ..........................................................................49
Bảng 3.7 Danh sách tham số trong LibSVM ............................................................52
Bảng 3.8 Bảng so sánh số liệu trƣớc và sau tiền xử lý .............................................53
Bảng 3.9 Bảng số kết quả thực nghiệm.....................................................................53
Bảng 3.10 Thống kê độ chính xác phân loại theo nhãn ............................................55
vii
DANH MỤC CÁC HÌNH VẼ
Hình 1.1 Mặt phẳng phân chia dữ liệu thành Mặt phẳng phân chia dữ liệu thành 2
lớp trong SVM với khoảng cách biên lớn nhất. ........................................................14
Hình 2.1 Sơ đồ giai đoạn huấn luyện ........................................................................20
Hình 2.2 Sơ đồ giai đoạn phân lớp............................................................................21
Hình 2.3 Mặt phẳng phân chia tập dữ liệu thành hai lớp dƣơng và âm ....................38
Hình 3.2 Minh họa K-fold cross validation .............................................................47
Hình 3.3 Hình ảnh giới thiệu LibSVM .....................................................................50
Hình 3.4 Biểu đồ độ chính xác theo đặc trƣng ..........................................................54
Hình 3.5 Biểu đồ chất lƣợng phân loại của các nhãn ................................................56
1
LỜI MỞ ĐẦU
Sự bùng nổ ngày càng mạnh mẽ của mạng xã hội mở ra nhiều cơ hội cho các
tổ chức, cá nhân thu thập, tìm kiếm thông tin cũng nhƣ xử lý chúng và nhiều bài
toán đƣợc đặt ra để khai thác nguồn thông tin dồi dào từ mạng xã hội.
Khai phá quan điểm là một trong các bài toán khai thác thông tin nằm trong
ứng dụng của xử lý ngôn ngữ tự nhiên, giúp thu thập đƣợc những thông tin mong
muốn về quan điểm của dữ liệu. Bài toán phân tích các đánh giá cho một chủ đề
nhất định, hoặc sự kiện, sản phẩm để tự động phân loại đánh giá theo hƣớng tích
cực, tiêu cực của quan điểm. Bài toán còn bao gồm nội dung tổng hợp quan điểm từ
các tài liệu quan điểm thu đƣợc.
Với sự phát triển nhanh chóng và mạnh mẽ, mạng xã hội Twitter đã trở thành
một nguồn cung cấp nhiều thông tin quan điểm cho những ngƣời nghiên cứu về lĩnh
vực này. Đã có nhiều công trình nghiên cứu liên quan đến bài toán khai phá quan
điểm theo các phƣơng pháp khác nhau từ nhiều nguồn dữ liệu [2], [4], [8], mà
Twitter là một nguồn dữ liệu phổ biến.
Đánh giá về quan điểm của bài viết trong Twitter vào một trong hai lớp Tích
cực hoặc Tiêu cực mang lại nhiều ý nghĩa cho nhiều lĩnh vực nhƣ kinh tế, quảng
cáo v.v... Một trong những cách tiếp cận là sử dụng học máy thống kê. Trong cách
tiếp cận này, biểu diễn đặc trƣng đóng vai trò quan trọng, ảnh hƣởng trực tiếp tới độ
chính xác của bộ phân lớp. Thông qua tìm hiểu, phân tích các phƣơng pháp khai
phá quan điểm trên tập dữ liệu Twitter, chúng tôi tập trung tới ba phƣơng pháp biểu
diễn đặc trƣng: N-gram[7], Độ đặc trƣng dựa trên tâm (Center-base similarity –
CBS) [6] và Log-count ratio[9] để thực hiện đề tài luận văn có tên: “Khai phá quan
điểm cho dữ liệu Twitter”.
Nội dung luận văn gồm 4 phần nhƣ sau:
Chương 1: Cơ sở lý luận
Nội dung của chƣơng này trình bày một số kiến thức tổng quan về lĩnh
vực xử lý ngôn ngữ tự nhiên, đồng thời giới thiệu bài toán khai phá quan điểm
2
cho dữ liệu Twitter. Chƣơng này cũng giới thiệu một số kỹ thuật đƣợc sử dụng
trong khai phá quan điểm.
Chương 2: Khai phá quan điểm và hệ thống học máy
Chƣơng này trình bày về việc áp dụng phƣơng pháp học máy và phƣơng
pháp biểu diễn đặc trƣng trong giải quyết bài toán khai phá quan điểm trên miền
dữ liệu Twitter. Trong chƣơng này, chúng tôi trình bày cụ thể về thuật toán học
máy SVM, các mô hình N-gram, đặc trƣng Log-count ratio và đặc trƣng Độ
tƣơng đồng dựa trên tâm (CBS).
Chương 3: Thực nghiệm và đánh giá kết quả
Trong chƣơng này, chúng tôi đề cập đến tập dữ liệu đƣợc sử dụng trong
đề tài, xây dựng mô hình bài toán, cách thức tiến hành thực nghiệm với tập dữ
liệu, đƣa ra kết quả thực nghiệm bài toán với các phƣơng pháp mà chúng tôi đã
lựa chọn ở chƣơng 2. Cuối cùng, chúng tôi đƣa ra phân tích, đánh giá dựa trên
kết quả của bài toán.
Phần kết luận
Tổng kết thành quả nghiên cứu và phƣơng hƣớng mở rộng.
3
CHƢƠNG I.
CƠ SỞ LÝ LUẬN
Chương này của luận văn trình bày bốn nội dung chính là:
-
Giới thiệu chung về lĩnh vực xử lý ngôn ngữ tự nhiên và các ứng dụng
trong thực tế.
-
Giới thiệu về bài toán khai phá quan điểm và phân loại một số dạng bài
toán trong khai phá quan điểm.
-
Giới thiệu về mạng xã hội Twitter và tổng quan về bài toán khai phá quan
điểm cho mạng xã hội này.
-
Giới thiệu tổng quan về một số kỹ thuật khai phá quan điểm. Đồng thời,
trình bày các nghiên cứu liên quan đến các kỹ thuật khai phá quan điểm.
1.1 Giới thiệu về xử lý ngôn ngữ tự nhiên
Xử lý ngôn ngữ tự nhiên (natural language processing – NLP) là một lĩnh
vực nghiên cứu của trí tuệ nhân tạo, tập trung vào nghiên cứu các phƣơng pháp, kỹ
thuật cho phép xử lý ngôn ngữ tự nhiên bằng máy tính, từ đó xây dựng các chƣơng
trình, hệ thống máy tính xử lý ngôn ngữ của con ngƣời.
Xử lý ngôn ngữ tự nhiên đƣợc áp dụng trong nhiều bài toán và ứng dụng
thực tế, trong nhiều lĩnh vực:
Nhận dạng chữ viết: Có hai kiểu nhận dạng. Thứ nhất là nhận dạng chữ in.
Thứ hai, phức tạp hơn là nhận dạng chữ viết tay, có khó khăn bởi vì chữ viết tay
không có khuôn dạng rõ ràng và thay đổi từ ngƣời này sang ngƣời khác. Với
chƣơng trình nhận dạng chữ viết in có thể chuyển hàng ngàn đầu sách trong thƣ
viện thành văn bản điện tử trong thời gian ngắn. Nhận dạng chữ viết của con ngƣời
có ứng dụng trong khoa học hình sự và bảo mật thông tin (nhận dạng chữ ký điện
tử).
Nhận dạng tiếng nói: Nhận dạng tiếng nói rồi chuyển chúng thành văn bản
tƣơng ứng. Giúp thao tác của con ngƣời trên các thiết bị nhanh hơn và đơn giản
hơn. Đây cũng là bƣớc đầu tiên cần phải thực hiện trong ƣớc mơ thực hiện giao tiếp
giữa con ngƣời với robot. Nhận dạng tiếng nói có khả năng trợ giúp ngƣời khiếm thị
rất nhiều.
4
Tổng hợp tiếng nói: Từ một văn bản tự động tổng hợp thành tiếng nói. Giống
nhƣ nhận dạng tiếng nói, tổng hợp tiếng nói là sự trợ giúp tốt cho ngƣời khiếm thị,
nhƣng ngƣợc lại nó là bƣớc cuối cùng trong giao tiếp giữa robot với ngƣời.
Dịch máy (machine translate): Nhƣ tên gọi đây là chƣơng trình dịch tự động
từ ngôn ngữ này sang ngôn ngữ khác.
Tìm kiếm và truy xuất thông tin: Đặt câu hỏi và chƣơng trình tự tìm ra nội
dung phù hợp nhất. Thông tin ngày càng đầy lên theo cấp số nhân, đặc biệt với sự
trợ giúp của internet việc tiếp cận thông tin trở lên dễ dàng hơn bao giờ hết. Việc
khó khăn lúc này là tìm đúng nhất thông tin mình cần giữa bề bộn tri thức và đặc
biệt thông tin đó phải đáng tin cậy.
Tóm tắt văn bản: Từ một văn bản dài tóm tắt thành một văn bản ngắn hơn
theo mong muốn nhƣng vẫn chứa những nội dung thiết yếu nhất.
Khai phá dữ liệu: Từ rất nhiều tài liệu khác nhau phát hiện ra tri thức mới.
Thực tế để làm đƣợc điều này rất khó, nó gần nhƣ là mô phỏng quá trình học tập,
khám phá khoa học của con ngƣời, đây là lĩnh vực đang trong giai đoạn đầu phát
triển.
1.2 Khai phá quan điểm
1.2.1 Giới thiệu
Khai phá quan điểm là một trong các lĩnh vực khai thác thông tin nằm trong
ứng dụng của xử lý ngôn ngữ tự nhiên, giúp thu thập đƣợc những thông tin mong
muốn về quan điểm của dữ liệu. Bài toán phân tích các đánh giá cho một chủ đề
nhất định, hoặc sự kiện, sản phẩm để tự động phân loại đánh giá theo hƣớng tích
cực, tiêu cực của quan điểm. Bài toán còn bao gồm nội dung tổng hợp quan điểm từ
các tài liệu quan điểm thu đƣợc.
Khai phá quan điểm có ảnh hƣởng lớn đến hành vi của con ngƣời trong
tƣơng lai vì nó là nhận thức, niềm tin của con ngƣời về vấn đề thực tế và phụ thuộc
vào cách nhìn của mỗi ngƣời.
5
Bất cứ khi nào cần đƣa ra quyết định, chúng ta thƣờng tham khảo ý kiến của
ngƣời khác, đối với cá nhân, lấy ý kiến từ cha mẹ, bạn bè, đối với tổ chức có thể là
các cuộc điều tra, khảo sát hay các cuộc thăm dò dƣ luận.
Khai phá quan điểm là kỹ thuật để phát hiện và trích xuất thông tin về tình
cảm của con ngƣời đƣợc lƣu trong cơ sở dữ liệu, để làm đƣợc việc này vấn đề quan
trọng là phân cực đƣợc tình cảm, quan điểm đối với vấn đề, hay nói cách khác đó là
gán nhãn cho tài liệu, đánh giá đó là tích cực hay tiêu cực với đối tƣợng mục tiêu
(chủ đề). Các ý kiến quan điểm có thể thể hiện theo hai hƣớng:
-
Quan điểm trực tiếp: cho ý kiến hoặc là tích cực, hoặc là tiêu cực trực
tiếp về các đối tƣợng quan tâm.
-
Quan điểm gián tiếp: so sánh các đối tƣợng quan tâm với đối tƣợng
tƣơng tự khác để đƣa ra ý kiến cá nhân.
Với mỗi vấn đề trao đổi, mỗi ý kiến đều là quan điểm chủ quan của cá nhân
đƣa ra, không đủ cơ sở nhận định chung cho vấn đề. Do vậy, cần thu thập dữ liệu
chứa ý kiến, quan điểm từ nhiều ngƣời, sau đó tổng hợp các ý kiến, quan điểm để
rút ra cái nhìn tổng quan cho toàn vấn đề.
1.2.2 Một số bài toán trong khai phá quan điểm
a) Bài toán xác định quan điểm
Phát biểu bài toán:
Đầu vào: Văn bản đầu vào (thƣờng là một câu).
Đầu ra: Đánh giá văn bản vào một trong hai lớp: khách quan và chủ quan.
Bài toán này tƣơng đƣơng với việc xác định xem văn bản đầu vào có mang
quan điểm hay đánh giá về quan điểm hay không. Vấn đề này đôi khi khó khăn hơn
so với phân lớp phân cực. Tính chủ quan của từ và cụm từ có thể phụ thuộc vào
hoàn cảnh của văn bản đó, và một tài liệu khách quan có thể chứa câu chủ quan (ví
dụ, một bài báo trích dẫn ý kiến của ngƣời dân).
6
b) Bài toán phân loại quan điểm
Phát biểu bài toán:
Đầu vào: Văn bản đầu vào mang quan điểm chủ quan.
Đầu ra: Đánh giá quan điểm của văn bản vào một trong hai lớp: tích cực và
tiêu cực.
Với bài toán này có thể coi khai phá quan điểm nhƣ bài toán phân lớp văn
bản. Bài toán phân lớp một văn bản đánh giá là tích cực hay tiêu cực. Ví dụ: với
một đánh giá sản phẩm, hệ thống xác định xem nhận xét về sản phẩm ấy là tốt hay
xấu. Phân lớp này thƣờng là phân lớp ở mức tài liệu. Thông tin đƣợc phát hiện
không mô tả chi tiết về những gì mọi ngƣời thích hay không thích.
c) Bài toán khai phá quan điểm theo đặc trƣng, khía cạnh
Phát biểu bài toán:
Đầu vào: Văn bản đầu vào.
Đầu ra: Đánh giá quan điểm của văn bản theo đặc trƣng khía cạnh.
Bài toán này xác định những ý kiến hay những cảm xúc thể hiện trên những
đặc trƣng khác nhau hoặc khía cạnh khác của các thực thể, ví dụ, một chiếc điện
thoại di động, một cái máy ảnh kỹ thuật số hoặc một ngân hàng. Một đặc trƣng hay
khía cạnh là một thuộc tính hoặc một thành phần của thực thể, ví dụ, màn hình của
một chiếc điện thoại di động hoặc chất lƣợng hình ảnh của máy ảnh. Ƣu điểm của
phân tích quan điểm dựa theo đặc trƣng, khía cạnh là việc khả năng nắm bắt đƣợc
những sắc thái về các đối tƣợng quan tâm.
d) Bài toán tóm tắt quan điểm
Phát biểu bài toán:
Đầu vào: Văn bản đầu vào.
Đầu ra: Bản đánh giá tổng hợp quan điểm về đối tƣợng đƣợc đề cập.
7
Trong luận văn này, chúng tôi tập trung vào bài toán phân loại quan điểm
trên miền dữ liệu Twitter.
1.2.3 Một số khó khăn trong khai phá quan điểm
Phong cách viết của mỗi người là khác nhau: Mỗi cá nhân con ngƣời là khác
nhau, cách thức diễn đạt và sử dụng ngôn ngữ cũng khác nhau. Sự phong phú của
ngôn ngữ dẫn đến đa dạng hóa cách thể hiện quan điểm của từng ngƣời. Hơn thế
nữa, quan điểm của từng ngƣời còn phụ thuộc vào nhiều yếu tố nhƣ: tính cách, trình
độ, tuổi tác v.v...
Sự phụ thuộc vào bối cảnh và thời gian: Cùng một từ, một câu nói ở tình
huống này thể hiện tính chất tích cực, nhƣng cũng chính từ đó, câu nói đó trong tình
huống khác lại thể hiện tính chất tiêu cực. Các lối nói ẩn dụ, hay đặc biệt là trong
các hoàn cảnh với ngụ ý mỉa mai, châm biếm có thể gây ra sự hiểu lầm về quan
điểm. Quan điểm về một bộ phận của vấn đề cũng làm ảnh hƣởng đến quan điểm về
toàn bộ vấn đề nói chung.
Tồn tại nhiều quan điểm mâu thuẫn trong cùng một tài liệu: Trong cùng một
tài liệu, cụ thể nhƣ một bài viết, một bình luận có thể chứa nhiều quan điểm trái
ngƣợc nhau, bao gồm cả tích cực lẫn tiêu cực. Đây cũng là một trong những vấn đề
gây khó khăn trong việc khai phá quan điểm.
1.2.4 Các cấp độ dữ liệu phân tích quan điểm
a) Cấp độ tài liệu
Trong tài liệu phân tích có thể có rất nhiều câu không thể hiện quan điểm
tình cảm đối với thực thể đang xét do đó chủ đề hay đối tƣợng rất là quan trọng
trong việc phân loại ở cấp độ này, còn những câu không phù hợp phải đƣợc loại bỏ
ra khỏi quá trình xử lý để giảm độ phức tạp của tài liệu.
Tần suất từ hay cụm từ nói lên quan điểm là những đặc trƣng để phân loại ở
cấp độ tài liệu.
8
Ƣu điểm: Có thể lấy đƣợc toàn bộ các quan điểm khác nhau của thực thể đặc
biệt của tài liệu.
Nhƣợc điểm: Những cảm xúc khác nhau về các đặc tính khác nhau của thực
thể không đƣợc trích rút riêng biệt.
b) Cấp độ câu
Phƣơng pháp phân loại cũng giống nhƣ ở cấp độ tài liệu song khai thác đƣợc
mức độ quan điểm hơn. Cần tìm ra các đối tƣợng và chủ đề trong câu chứa các từ
thể hiện ý kiến. Sau đó thì phân cực quan điểm của câu là tích cực, tiêu cực hay
trung lập. Câu đơn giản mang một ý kiến về thực thể, song với câu phức tạp rất khó
cực quan điểm tiêu cực hay tiêu cực, khó xác định đặc tính của đối tƣợng trong câu.
Lợi thế của phân loại cấp độ câu nằm trong việc phân loại các chủ đề, đối
tƣợng, sử dụng các thuật toán truyền thống để huấn luyện.
c) Cấp độ cụm từ
Phân loại cụm từ hoàn thành khi tìm ra các từ chứa ý kiến, quan điểm tiêu
cực hay tích cực đƣợc xác định từ triết xuất các đặc trƣng.
1.3 Tổng quan bài toán khai phá quan điểm trên dữ liệu mạng xã hội
Twitter
1.3.1 Giới thiệu về mạng xã hội Twitter
Mạng xã hội twitter ra đời vào ngày 21/3/2006 bởi Jack Dorsey và July, tính
đến tháng 5 năm 2016, Twitter có hơn 1.3 tỉ ngƣời dùng, trong đó có hơn 310 triệu
ngƣời dùng tích cực trong tháng và trung bình trên mỗi ngƣời dùng có 208 ngƣời
theo dõi. Trung bình có hơn 500 triệu tweet đƣợc tạo ra trên một ngày. Điều đó có
nghĩa có 6000 tweet mỗi giây. Có 80% ngƣời sử dụng truy cập qua điện thoại, có
65.8% các công ty ở Mỹ với hơn 100 ngƣời làm sử dụng Twitter để tiếp thị, quảng
bá.
9
Từ một số thông tin trên, ta cũng có thể nhận thấy Twitter mà một kênh
truyền tải thông tin nhanh chóng, đa dạng, thể hiện quan điểm của ngƣời dùng trên
nhiều khía cạnh khác nhau trong cuộc sống.
Dƣới đây là một số khái niệm đƣợc sử dụng trong Twitter:
-
Twitter: là 1 trang micro-blog và cũng là một mạng nhắn tin.
-
Tweet: là một đoạn văn (một SMS) của ngƣời dùng tạo ra.
-
Follow: theo dõi
-
Follower: ngƣời đang theo dõi bạn
-
Following: ngƣời bạn đang theo dõi
-
Reply: là một từ hoặc một cụm từ bắt đầu bằng các ký hiệu “@”, là hành
động tag tên ngƣời dùng để trả lời hoặc đề cập đến ngƣời đó.
-
Hashtag: là một từ hoặc một cụm từ bắt đầu bằng các ký hiệu “#” đƣợc
gọi là biểu tƣợng băm, nó là một hình thức thẻ siêu dữ liệu, các tweets có
thể đƣợc gắn thẻ bằng một hay nhiều từ. Ví dụ “#Wikipedia is an
#encyclopedia”.
-
Url (link) trên các tweets đều đƣợc rút gọn lại để tránh các kiểu lợi dụng
đƣờng link nhằm lừa đảo hay phát tán phần mềm độc hại và để giúp hiện
thị tốt trên tweet (vì tweet chỉ có 140 ký tự). Công cụ của twitter rút gọn
link nhƣng vẫn hiện thị tên miền đầy đủ để ngƣời dùng có thể biết họ
bấm vào đƣờng link nào.
1.3.2 Phát biểu bài toán
Bài toán khai phá quan điểm trên dữ liệu mạng xã hội Twitter là bài toán
khai phá quan điểm với miền dữ liệu trong phạm vi là mạng xã hội Twitter. Mỗi
tweet đƣợc phân loại vào ba loại tích cực, tiêu cực và trung lập.
Đầu vào: Một câu trên mạng xã hội Twitter.
10
Đầu ra: Đánh giá về quan điểm của câu đầu vào thành các loại tích cực và
tiêu cực.
Mạng xã hội ngày càng phát triển một cách mạnh mẽ. Trong đó, Twitter là
một trong top 15 mạng xã hội phổ biến nhất. Tuy nhiên, do Twitter hạn chế số
lƣợng ký tự (tối đa là 140) và lƣợng ngƣời dùng ở Việt Nam cũng tƣơng đối ít. Do
đó, luận văn chỉ xét với bài toán khai phá quan điểm trên miền dữ liệu Twitter là
tiếng anh.
1.3.3 Ý nghĩa bài toán
Mạng xã hội Twitter ngày càng lớn mạnh, cùng với đó, việc thể hiện quan
điểm trên mạng xã hội này cũng càng phổ biến. Việc khai phá quan điểm trên mạng
xã hội này có nhiều ý nghĩa, giúp ta thấy quan điểm của một ngƣời về một vấn đề
nào đó.
Khai phá quan điểm cho thấy quan điểm chung của một cộng đồng về một
thực thể. Nếu xét một vấn đề theo thời gian, ta còn có thể nhận thấy quá trình nhìn
nhận, thay đổi quan điểm của cộng đồng về vấn đề đó. Điều này rất quan trọng
trong đánh giá và dự đoán xu hƣớng của mọi ngƣời trong một lĩnh vực nhất định.
Đối với doanh nghiệp hay tổ chức, bài toán này mang ý nghĩa lớn trong việc
định hƣớng sản phẩm, định hƣớng kinh doanh, đƣa ra các chiến lƣợc hoạt động...
Đối với cá nhân, chẳng hạn nhƣ với ngƣời nổi tiếng, hoặc có vai trò quan trọng
trong xã hội, bài toán này nhƣ một dạng đánh giá danh tiếng. Những ví dụ trên cho
thấy bài toán khai phá quan điểm trên mạng xã hội Twitter có ý nghĩa vô cùng lớn.
1.3.4 Khó khăn và thách thức
Việc phân loại quan điểm với dữ liệu Twitter gặp khá nhiều khó khăn và
thách thức.
Các tweet có đặc điểm riêng khác so với các dạng văn bản truyền thống hay
dữ liệu trên các forum, mạng xã hội khác nhƣ Facebook. Số ký tự tối đa nhỏ, từ viết
tắt, từ lóng, từ sai chính tả, hơn nữa, chất lƣợng và độ tin cậy thấp. Nhiều đặc điểm
11
của dữ liệu Twitter làm giảm hiệu quả khai phá quan điểm dựa trên những kỹ thuật
xử lý ngôn ngữ tự nhiên truyền thống.
1.4 Một số kỹ thuật trong khai phá quan điểm
1.4.1 Các phương pháp cây quyết định
Cây quyết định (Decision Tree) là cấu trúc cây có dạng biểu đồ luồng, mỗi
nút trong là kiểm định trên một thuộc tính, mỗi nhánh đại diện cho một kết quả
kiểm định, các nút lá đại diện cho các lớp. Nút cao nhất trên cây là nút gốc.
Để phân loại một mẫu chƣa biết, các giá trị thuộc tính của mẫu sẽ đƣợc kiểm
định trên cây. Đƣờng đi từ gốc tới một nút lá cho biết dự đoán lớp đối với mẫu đó.
Cây quyết định có thể dễ dàng chuyển đổi thành các luật phân loại.
Với kỹ thuật phân lớp dựa trên cây quyết định, kết quả của quá trình xây
dựng mô hình sẽ cho ra một cây quyết định. Cây này đƣợc sử dụng trong quá trình
phân lớp các đối tƣợng dữ liệu chƣa biết hoặc đánh giá độ chính xác của mô hình.
Tƣơng ứng với hai giai đoạn trong quá trình phân lớp là quá trình xây dựng và sử
dụng cây quyết định.
Quá trình xây dựng cây quyết định bắt đầu từ một nút đơn biểu diễn tất cả
các mẫu dữ liệu. Sau đó, các mẫu sẽ đƣợc phân chia một cách đệ quy dựa vào việc
lựa chọn các thuộc tính. Nếu các mẫu có cùng một lớp thì nút sẽ trở thành lá, ngƣợc
lại sử dụng một độ đo thuộc tính để chọn ra thuộc tính tiếp theo làm cơ sở để phân
chia các mẫu ra các lớp. Theo từng giá trị của thuộc tính vừa chọn, tạo ra các nhánh
tƣơng ứng và phân chia các mẫu vào các nhánh đã tạo. Lặp lại quá trình trên cho tới
khi tạo ra đƣợc cây quyết định, tất cả các nút triển khai thành lá và đƣợc gán nhãn.
Quá trình đệ quy sẽ dừng lại khi một trong các điều kiện sau đƣợc thỏa mãn:
(1) Tất cả các mẫu thuộc cùng một nút; (2) Không còn một thuộc tính nào để lựa
chọn; (3) Nhánh không chứa mẫu nào.
Phần lớn các giải thuật sinh cây quyết định đều có hạn chế chung là sử dụng
nhiều bộ nhớ. Lƣợng bộ nhớ sử dụng tỷ lệ thuận với kích thƣớc của mẫu dữ liệu
- Xem thêm -