Tài liệu Khai phá quan điểm dữ liệu Twitter (LV thạc sĩ)

  • Số trang: 69 |
  • Loại file: PDF |
  • Lượt xem: 1589 |
  • Lượt tải: 0
huynguyen816485

Tham gia: 12/10/2017

Mô tả:

Khai phá quan điểm dữ liệu Twitter (LV thạc sĩ)Khai phá quan điểm dữ liệu Twitter (LV thạc sĩ)Khai phá quan điểm dữ liệu Twitter (LV thạc sĩ)Khai phá quan điểm dữ liệu Twitter (LV thạc sĩ)Khai phá quan điểm dữ liệu Twitter (LV thạc sĩ)Khai phá quan điểm dữ liệu Twitter (LV thạc sĩ)Khai phá quan điểm dữ liệu Twitter (LV thạc sĩ)Khai phá quan điểm dữ liệu Twitter (LV thạc sĩ)Khai phá quan điểm dữ liệu Twitter (LV thạc sĩ)Khai phá quan điểm dữ liệu Twitter (LV thạc sĩ)Khai phá quan điểm dữ liệu Twitter (LV thạc sĩ)Khai phá quan điểm dữ liệu Twitter (LV thạc sĩ)Khai phá quan điểm dữ liệu Twitter (LV thạc sĩ)Khai phá quan điểm dữ liệu Twitter (LV thạc sĩ)Khai phá quan điểm dữ liệu Twitter (LV thạc sĩ)Khai phá quan điểm dữ liệu Twitter (LV thạc sĩ)Khai phá quan điểm dữ liệu Twitter (LV thạc sĩ)Khai phá quan điểm dữ liệu Twitter (LV thạc sĩ)Khai phá quan điểm dữ liệu Twitter (LV thạc sĩ)Khai phá quan điểm dữ liệu Twitter (LV thạc sĩ)Khai phá quan điểm dữ liệu Twitter (LV thạc sĩ)Khai phá quan điểm dữ liệu Twitter (LV thạc sĩ)Khai phá quan điểm dữ liệu Twitter (LV thạc sĩ)Khai phá quan điểm dữ liệu Twitter (LV thạc sĩ)Khai phá quan điểm dữ liệu Twitter (LV thạc sĩ)Khai phá quan điểm dữ liệu Twitter (LV thạc sĩ)Khai phá quan điểm dữ liệu Twitter (LV thạc sĩ)Khai phá quan điểm dữ liệu Twitter (LV thạc sĩ)Khai phá quan điểm dữ liệu Twitter (LV thạc sĩ)
HỌC VIỆN CÔNG NGHỆ BƢU CHÍNH VIỄN THÔNG --------------------------------------- NGUYỄN THỊ HỒNG QUỲNH KHAI PHÁ QUAN ĐIỂM CHO DỮ LIỆU TWITTER LUẬN VĂN THẠC SĨ KỸ THUẬT HÀ NỘI - 2017 HỌC VIỆN CÔNG NGHỆ BƢU CHÍNH VIỄN THÔNG --------------------------------------- NGUYỄN THỊ HỒNG QUỲNH KHAI PHÁ QUAN ĐIỂM CHO DỮ LIỆU TWITTER CHUYÊN NGÀNH : KHOA HỌC MÁY TÍNH MÃ SỐ: 0 60.48.01.01 LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) NGƢỜI HƢỚNG DẪN KHOA HỌC: TS. NGÔ XUÂN BÁCH HÀ NỘI - 2017 i LỜI CAM ĐOAN Tôi cam đoan đây là công trình nghiên cứu của riêng tôi. Các số liệu, kết quả nêu trong luận văn là trung thực và chƣa từng đƣợc ai công bố trong bất cứ công trình nào. TÁC GIẢ Nguyễn Thị Hồng Quỳnh ii LỜI CẢM ƠN Tôi xin chân thành cảm ơn thầy giáo TS. Ngô Xuân Bách – ngƣời hƣớng dẫn khoa học, đã tận tình hƣớng dẫn, chỉ bảo và dìu dắt tôi trong suốt quá trình thực hiện đề tài. Tôi xin chân thành cảm ơn các thầy cô giáo học viện Công nghệ Bƣu chính Viễn thông đã quan tâm, tận tình truyền thụ kiến thức và giúp đỡ tôi trong thời gian học tập tại đây. Tôi xin chân thành cảm ơn công ty trách nhiệm hữu hạn FPT đã tạo điều kiện về thời gian và công việc trong suốt thời gian học tập và thực hiện đề tài. Trong quá trình nghiên cứu và thực hiện đề tài của mình, mặc dù đƣợc sự hƣớng dẫn rất nhiệt tình, nghiêm túc của TS. Ngô Xuân Bách cùng với sự nỗ lực của cá nhân nhƣng cũng không thể tránh đƣợc những thiếu sót, hạn chế. Tôi rất mong nhận đƣợc những ý kiến đóng góp, sửa chữa từ quý Thầy, Cô và các bạn bè đồng nghiệp để đề tài đƣợc hoàn thiện và ứng dụng nhiều hơn trong thực tế. Trân trọng cám ơn. Tác giả Nguyễn Thị Hồng Quỳnh iii MỤC LỤC LỜI CAM ĐOAN ....................................................................................................... i LỜI CẢM ƠN.... ........................................................................................................ ii MỤC LỤC......... ........................................................................................................ iii DANH MỤC THUẬT NGỮ .......................................................................................v DANH MỤC CÁC BẢNG BIỂU ............................................................................. vi DANH MỤC CÁC HÌNH VẼ.................................................................................. vii LỜI MỞ ĐẦU..... ........................................................................................................1 CHƢƠNG I. CƠ SỞ LÝ LUẬN ............................................................................3 1.1 Giới thiệu về xử lý ngôn ngữ tự nhiên ...........................................................3 1.2 Khai phá quan điểm .......................................................................................4 1.2.1 Giới thiệu .................................................................................................4 1.2.2 Một số bài toán trong khai phá quan điểm ..............................................5 1.2.3 Một số khó khăn trong khai phá quan điểm ............................................7 1.2.4 Các cấp độ dữ liệu phân tích quan điểm..................................................7 1.3 Tổng quan bài toán khai phá quan điểm trên dữ liệu mạng xã hội Twitter ...8 1.3.1 Giới thiệu về mạng xã hội Twitter ..........................................................8 1.3.2 Phát biểu bài toán ....................................................................................9 1.3.3 Ý nghĩa bài toán.....................................................................................10 1.3.4 Khó khăn và thách thức .........................................................................10 1.4 Một số kỹ thuật trong khai phá quan điểm ..................................................11 1.4.1 Các phƣơng pháp cây quyết định ..........................................................11 1.4.2 Phƣơng pháp K-láng giềng gần nhất (K-Nearest Neighbor) .................12 1.4.3 Thuật toán SVM ....................................................................................13 1.4.4 Một số nghiên cứu liên quan .................................................................14 1.5 Kết luận chƣơng 1 ........................................................................................17 CHƢƠNG II. PHƢƠNG PHÁP PHÂN LOẠI QUAN ĐIỂM TRÊN TWITTER SỬ DỤNG HỌC MÁY .............................................................................................19 2.1 Phƣơng pháp phân loại quan điểm ...............................................................19 2.1.1 Thu thập dữ liệu.....................................................................................21 2.1.2 Tiền xử lý dữ liệu ..................................................................................22 2.1.3 Trích chọn đặc trƣng và vector hóa dữ liệu ...........................................25 2.1.4 Sử dụng thuật toán huấn luyện tạo mô hình phân lớp ...........................27 iv 2.2 Các phƣơng pháp trích chọn đặc trƣng ........................................................27 2.2.1 Đặc trƣng N-gram..................................................................................27 2.2.2 Độ tƣơng đồng dựa trên tâm (CBS) ......................................................29 2.2.3 Đặc trƣng Log-count Ratio ....................................................................35 2.3 SVM – Support Vevtor Machine .................................................................37 2.3.1 Giới thiệu chung ....................................................................................37 2.3.2 Thuật toán SVM ....................................................................................38 2.3.3 Huấn luyện SVM ...................................................................................40 2.3.4 Các ƣu điểm của SVM trong phân lớp ..................................................41 2.3.5 Cách áp dụng thuật toán SVM vào bài toán phân lớp quan điểm .........42 2.4 Kết luận chƣơng 2 ........................................................................................42 CHƢƠNG III. THỰC NGHIỆM HỆ THỐNG KHAI PHÁ QUAN ĐIỂM CHO DỮ LIỆU TWITTER ................................................................................................43 3.1 Dữ liệu thực nghiệm.....................................................................................43 3.2 Thiết lập thực nghiệm ..................................................................................44 3.2.1 Hƣớng tiếp cận thực nghiệm .................................................................44 3.2.2 Phƣơng pháp sử dụng các đặc trƣng trong thực nghiệm .......................45 3.2.3 Phƣơng pháp đánh giá tập dữ liệu .........................................................46 3.3 Công cụ thực nghiệm ...................................................................................49 3.3.1 Môi trƣờng thực nghiệm........................................................................49 3.3.2 Công cụ phần mềm ................................................................................49 3.3.3 Giới thiệu LibSVM ................................................................................50 3.4 Kết quả thực nghiệm ....................................................................................53 3.4.1 Kết quả...................................................................................................53 3.4.2 Đánh giá kết quả ....................................................................................54 3.5 Kết luận chƣơng 3 ........................................................................................56 KẾT LUẬN....... ........................................................................................................57 TÀI LIỆU THAM KHẢO .........................................................................................59 v DANH MỤC THUẬT NGỮ Viết tắt Tiếng Anh Tiếng Việt CBS Center-base similarity Độ tƣơng đồng dựa trên tâm SVM Support Vector Machines Máy véc tơ hỗ trợ BOW Bag of word Thuật toán túi từ KNN K Nearest neighbors K láng giềng gần nhất K-fold cross validation Đánh giá chéo dựa trên k phần Natural Language Processing Xử lý ngôn ngữ tự nhiên K-FOLD NLP vi DANH MỤC CÁC BẢNG BIỂU Bảng 2.1 Ví dụ về biểu tƣợng cảm xúc trong từ điển ...............................................23 Bảng 2.2 Ví dụ từ điển chuẩn hóa .............................................................................24 Bảng 2.3 Ví dụ về từ điển viết tắt .............................................................................25 Bảng 2.4 Các đặc trƣng sử dụng trong bộ phân lớp quan điểm ................................26 Bảng 2.5 Các độ đo tƣơng tự cho đặc trƣng CBS .....................................................35 Bảng 3.1 Bảng số liệu đối với bộ dữ liệu sử dụng ....................................................44 Bảng 3.2 Bảng các đặc trƣng sử dụng.......................................................................45 Bảng 3.3 Bảng danh sách kết hợp đặc trƣng .............................................................46 Bảng 3.4 Bảng ma trận nhầm lẫn ..............................................................................49 Bảng 3.5 Bảng cấu hình phần cứng ..........................................................................49 Bảng 3.6 Bảng công cụ phần mềm ..........................................................................49 Bảng 3.7 Danh sách tham số trong LibSVM ............................................................52 Bảng 3.8 Bảng so sánh số liệu trƣớc và sau tiền xử lý .............................................53 Bảng 3.9 Bảng số kết quả thực nghiệm.....................................................................53 Bảng 3.10 Thống kê độ chính xác phân loại theo nhãn ............................................55 vii DANH MỤC CÁC HÌNH VẼ Hình 1.1 Mặt phẳng phân chia dữ liệu thành Mặt phẳng phân chia dữ liệu thành 2 lớp trong SVM với khoảng cách biên lớn nhất. ........................................................14 Hình 2.1 Sơ đồ giai đoạn huấn luyện ........................................................................20 Hình 2.2 Sơ đồ giai đoạn phân lớp............................................................................21 Hình 2.3 Mặt phẳng phân chia tập dữ liệu thành hai lớp dƣơng và âm ....................38 Hình 3.2 Minh họa K-fold cross validation .............................................................47 Hình 3.3 Hình ảnh giới thiệu LibSVM .....................................................................50 Hình 3.4 Biểu đồ độ chính xác theo đặc trƣng ..........................................................54 Hình 3.5 Biểu đồ chất lƣợng phân loại của các nhãn ................................................56 1 LỜI MỞ ĐẦU Sự bùng nổ ngày càng mạnh mẽ của mạng xã hội mở ra nhiều cơ hội cho các tổ chức, cá nhân thu thập, tìm kiếm thông tin cũng nhƣ xử lý chúng và nhiều bài toán đƣợc đặt ra để khai thác nguồn thông tin dồi dào từ mạng xã hội. Khai phá quan điểm là một trong các bài toán khai thác thông tin nằm trong ứng dụng của xử lý ngôn ngữ tự nhiên, giúp thu thập đƣợc những thông tin mong muốn về quan điểm của dữ liệu. Bài toán phân tích các đánh giá cho một chủ đề nhất định, hoặc sự kiện, sản phẩm để tự động phân loại đánh giá theo hƣớng tích cực, tiêu cực của quan điểm. Bài toán còn bao gồm nội dung tổng hợp quan điểm từ các tài liệu quan điểm thu đƣợc. Với sự phát triển nhanh chóng và mạnh mẽ, mạng xã hội Twitter đã trở thành một nguồn cung cấp nhiều thông tin quan điểm cho những ngƣời nghiên cứu về lĩnh vực này. Đã có nhiều công trình nghiên cứu liên quan đến bài toán khai phá quan điểm theo các phƣơng pháp khác nhau từ nhiều nguồn dữ liệu [2], [4], [8], mà Twitter là một nguồn dữ liệu phổ biến. Đánh giá về quan điểm của bài viết trong Twitter vào một trong hai lớp Tích cực hoặc Tiêu cực mang lại nhiều ý nghĩa cho nhiều lĩnh vực nhƣ kinh tế, quảng cáo v.v... Một trong những cách tiếp cận là sử dụng học máy thống kê. Trong cách tiếp cận này, biểu diễn đặc trƣng đóng vai trò quan trọng, ảnh hƣởng trực tiếp tới độ chính xác của bộ phân lớp. Thông qua tìm hiểu, phân tích các phƣơng pháp khai phá quan điểm trên tập dữ liệu Twitter, chúng tôi tập trung tới ba phƣơng pháp biểu diễn đặc trƣng: N-gram[7], Độ đặc trƣng dựa trên tâm (Center-base similarity – CBS) [6] và Log-count ratio[9] để thực hiện đề tài luận văn có tên: “Khai phá quan điểm cho dữ liệu Twitter”. Nội dung luận văn gồm 4 phần nhƣ sau:  Chương 1: Cơ sở lý luận Nội dung của chƣơng này trình bày một số kiến thức tổng quan về lĩnh vực xử lý ngôn ngữ tự nhiên, đồng thời giới thiệu bài toán khai phá quan điểm 2 cho dữ liệu Twitter. Chƣơng này cũng giới thiệu một số kỹ thuật đƣợc sử dụng trong khai phá quan điểm.  Chương 2: Khai phá quan điểm và hệ thống học máy Chƣơng này trình bày về việc áp dụng phƣơng pháp học máy và phƣơng pháp biểu diễn đặc trƣng trong giải quyết bài toán khai phá quan điểm trên miền dữ liệu Twitter. Trong chƣơng này, chúng tôi trình bày cụ thể về thuật toán học máy SVM, các mô hình N-gram, đặc trƣng Log-count ratio và đặc trƣng Độ tƣơng đồng dựa trên tâm (CBS).  Chương 3: Thực nghiệm và đánh giá kết quả Trong chƣơng này, chúng tôi đề cập đến tập dữ liệu đƣợc sử dụng trong đề tài, xây dựng mô hình bài toán, cách thức tiến hành thực nghiệm với tập dữ liệu, đƣa ra kết quả thực nghiệm bài toán với các phƣơng pháp mà chúng tôi đã lựa chọn ở chƣơng 2. Cuối cùng, chúng tôi đƣa ra phân tích, đánh giá dựa trên kết quả của bài toán.  Phần kết luận Tổng kết thành quả nghiên cứu và phƣơng hƣớng mở rộng. 3 CHƢƠNG I. CƠ SỞ LÝ LUẬN Chương này của luận văn trình bày bốn nội dung chính là: - Giới thiệu chung về lĩnh vực xử lý ngôn ngữ tự nhiên và các ứng dụng trong thực tế. - Giới thiệu về bài toán khai phá quan điểm và phân loại một số dạng bài toán trong khai phá quan điểm. - Giới thiệu về mạng xã hội Twitter và tổng quan về bài toán khai phá quan điểm cho mạng xã hội này. - Giới thiệu tổng quan về một số kỹ thuật khai phá quan điểm. Đồng thời, trình bày các nghiên cứu liên quan đến các kỹ thuật khai phá quan điểm. 1.1 Giới thiệu về xử lý ngôn ngữ tự nhiên Xử lý ngôn ngữ tự nhiên (natural language processing – NLP) là một lĩnh vực nghiên cứu của trí tuệ nhân tạo, tập trung vào nghiên cứu các phƣơng pháp, kỹ thuật cho phép xử lý ngôn ngữ tự nhiên bằng máy tính, từ đó xây dựng các chƣơng trình, hệ thống máy tính xử lý ngôn ngữ của con ngƣời. Xử lý ngôn ngữ tự nhiên đƣợc áp dụng trong nhiều bài toán và ứng dụng thực tế, trong nhiều lĩnh vực: Nhận dạng chữ viết: Có hai kiểu nhận dạng. Thứ nhất là nhận dạng chữ in. Thứ hai, phức tạp hơn là nhận dạng chữ viết tay, có khó khăn bởi vì chữ viết tay không có khuôn dạng rõ ràng và thay đổi từ ngƣời này sang ngƣời khác. Với chƣơng trình nhận dạng chữ viết in có thể chuyển hàng ngàn đầu sách trong thƣ viện thành văn bản điện tử trong thời gian ngắn. Nhận dạng chữ viết của con ngƣời có ứng dụng trong khoa học hình sự và bảo mật thông tin (nhận dạng chữ ký điện tử). Nhận dạng tiếng nói: Nhận dạng tiếng nói rồi chuyển chúng thành văn bản tƣơng ứng. Giúp thao tác của con ngƣời trên các thiết bị nhanh hơn và đơn giản hơn. Đây cũng là bƣớc đầu tiên cần phải thực hiện trong ƣớc mơ thực hiện giao tiếp giữa con ngƣời với robot. Nhận dạng tiếng nói có khả năng trợ giúp ngƣời khiếm thị rất nhiều. 4 Tổng hợp tiếng nói: Từ một văn bản tự động tổng hợp thành tiếng nói. Giống nhƣ nhận dạng tiếng nói, tổng hợp tiếng nói là sự trợ giúp tốt cho ngƣời khiếm thị, nhƣng ngƣợc lại nó là bƣớc cuối cùng trong giao tiếp giữa robot với ngƣời. Dịch máy (machine translate): Nhƣ tên gọi đây là chƣơng trình dịch tự động từ ngôn ngữ này sang ngôn ngữ khác. Tìm kiếm và truy xuất thông tin: Đặt câu hỏi và chƣơng trình tự tìm ra nội dung phù hợp nhất. Thông tin ngày càng đầy lên theo cấp số nhân, đặc biệt với sự trợ giúp của internet việc tiếp cận thông tin trở lên dễ dàng hơn bao giờ hết. Việc khó khăn lúc này là tìm đúng nhất thông tin mình cần giữa bề bộn tri thức và đặc biệt thông tin đó phải đáng tin cậy. Tóm tắt văn bản: Từ một văn bản dài tóm tắt thành một văn bản ngắn hơn theo mong muốn nhƣng vẫn chứa những nội dung thiết yếu nhất. Khai phá dữ liệu: Từ rất nhiều tài liệu khác nhau phát hiện ra tri thức mới. Thực tế để làm đƣợc điều này rất khó, nó gần nhƣ là mô phỏng quá trình học tập, khám phá khoa học của con ngƣời, đây là lĩnh vực đang trong giai đoạn đầu phát triển. 1.2 Khai phá quan điểm 1.2.1 Giới thiệu Khai phá quan điểm là một trong các lĩnh vực khai thác thông tin nằm trong ứng dụng của xử lý ngôn ngữ tự nhiên, giúp thu thập đƣợc những thông tin mong muốn về quan điểm của dữ liệu. Bài toán phân tích các đánh giá cho một chủ đề nhất định, hoặc sự kiện, sản phẩm để tự động phân loại đánh giá theo hƣớng tích cực, tiêu cực của quan điểm. Bài toán còn bao gồm nội dung tổng hợp quan điểm từ các tài liệu quan điểm thu đƣợc. Khai phá quan điểm có ảnh hƣởng lớn đến hành vi của con ngƣời trong tƣơng lai vì nó là nhận thức, niềm tin của con ngƣời về vấn đề thực tế và phụ thuộc vào cách nhìn của mỗi ngƣời. 5 Bất cứ khi nào cần đƣa ra quyết định, chúng ta thƣờng tham khảo ý kiến của ngƣời khác, đối với cá nhân, lấy ý kiến từ cha mẹ, bạn bè, đối với tổ chức có thể là các cuộc điều tra, khảo sát hay các cuộc thăm dò dƣ luận. Khai phá quan điểm là kỹ thuật để phát hiện và trích xuất thông tin về tình cảm của con ngƣời đƣợc lƣu trong cơ sở dữ liệu, để làm đƣợc việc này vấn đề quan trọng là phân cực đƣợc tình cảm, quan điểm đối với vấn đề, hay nói cách khác đó là gán nhãn cho tài liệu, đánh giá đó là tích cực hay tiêu cực với đối tƣợng mục tiêu (chủ đề). Các ý kiến quan điểm có thể thể hiện theo hai hƣớng: - Quan điểm trực tiếp: cho ý kiến hoặc là tích cực, hoặc là tiêu cực trực tiếp về các đối tƣợng quan tâm. - Quan điểm gián tiếp: so sánh các đối tƣợng quan tâm với đối tƣợng tƣơng tự khác để đƣa ra ý kiến cá nhân. Với mỗi vấn đề trao đổi, mỗi ý kiến đều là quan điểm chủ quan của cá nhân đƣa ra, không đủ cơ sở nhận định chung cho vấn đề. Do vậy, cần thu thập dữ liệu chứa ý kiến, quan điểm từ nhiều ngƣời, sau đó tổng hợp các ý kiến, quan điểm để rút ra cái nhìn tổng quan cho toàn vấn đề. 1.2.2 Một số bài toán trong khai phá quan điểm a) Bài toán xác định quan điểm Phát biểu bài toán: Đầu vào: Văn bản đầu vào (thƣờng là một câu). Đầu ra: Đánh giá văn bản vào một trong hai lớp: khách quan và chủ quan. Bài toán này tƣơng đƣơng với việc xác định xem văn bản đầu vào có mang quan điểm hay đánh giá về quan điểm hay không. Vấn đề này đôi khi khó khăn hơn so với phân lớp phân cực. Tính chủ quan của từ và cụm từ có thể phụ thuộc vào hoàn cảnh của văn bản đó, và một tài liệu khách quan có thể chứa câu chủ quan (ví dụ, một bài báo trích dẫn ý kiến của ngƣời dân). 6 b) Bài toán phân loại quan điểm Phát biểu bài toán: Đầu vào: Văn bản đầu vào mang quan điểm chủ quan. Đầu ra: Đánh giá quan điểm của văn bản vào một trong hai lớp: tích cực và tiêu cực. Với bài toán này có thể coi khai phá quan điểm nhƣ bài toán phân lớp văn bản. Bài toán phân lớp một văn bản đánh giá là tích cực hay tiêu cực. Ví dụ: với một đánh giá sản phẩm, hệ thống xác định xem nhận xét về sản phẩm ấy là tốt hay xấu. Phân lớp này thƣờng là phân lớp ở mức tài liệu. Thông tin đƣợc phát hiện không mô tả chi tiết về những gì mọi ngƣời thích hay không thích. c) Bài toán khai phá quan điểm theo đặc trƣng, khía cạnh Phát biểu bài toán: Đầu vào: Văn bản đầu vào. Đầu ra: Đánh giá quan điểm của văn bản theo đặc trƣng khía cạnh. Bài toán này xác định những ý kiến hay những cảm xúc thể hiện trên những đặc trƣng khác nhau hoặc khía cạnh khác của các thực thể, ví dụ, một chiếc điện thoại di động, một cái máy ảnh kỹ thuật số hoặc một ngân hàng. Một đặc trƣng hay khía cạnh là một thuộc tính hoặc một thành phần của thực thể, ví dụ, màn hình của một chiếc điện thoại di động hoặc chất lƣợng hình ảnh của máy ảnh. Ƣu điểm của phân tích quan điểm dựa theo đặc trƣng, khía cạnh là việc khả năng nắm bắt đƣợc những sắc thái về các đối tƣợng quan tâm. d) Bài toán tóm tắt quan điểm Phát biểu bài toán: Đầu vào: Văn bản đầu vào. Đầu ra: Bản đánh giá tổng hợp quan điểm về đối tƣợng đƣợc đề cập. 7 Trong luận văn này, chúng tôi tập trung vào bài toán phân loại quan điểm trên miền dữ liệu Twitter. 1.2.3 Một số khó khăn trong khai phá quan điểm Phong cách viết của mỗi người là khác nhau: Mỗi cá nhân con ngƣời là khác nhau, cách thức diễn đạt và sử dụng ngôn ngữ cũng khác nhau. Sự phong phú của ngôn ngữ dẫn đến đa dạng hóa cách thể hiện quan điểm của từng ngƣời. Hơn thế nữa, quan điểm của từng ngƣời còn phụ thuộc vào nhiều yếu tố nhƣ: tính cách, trình độ, tuổi tác v.v... Sự phụ thuộc vào bối cảnh và thời gian: Cùng một từ, một câu nói ở tình huống này thể hiện tính chất tích cực, nhƣng cũng chính từ đó, câu nói đó trong tình huống khác lại thể hiện tính chất tiêu cực. Các lối nói ẩn dụ, hay đặc biệt là trong các hoàn cảnh với ngụ ý mỉa mai, châm biếm có thể gây ra sự hiểu lầm về quan điểm. Quan điểm về một bộ phận của vấn đề cũng làm ảnh hƣởng đến quan điểm về toàn bộ vấn đề nói chung. Tồn tại nhiều quan điểm mâu thuẫn trong cùng một tài liệu: Trong cùng một tài liệu, cụ thể nhƣ một bài viết, một bình luận có thể chứa nhiều quan điểm trái ngƣợc nhau, bao gồm cả tích cực lẫn tiêu cực. Đây cũng là một trong những vấn đề gây khó khăn trong việc khai phá quan điểm. 1.2.4 Các cấp độ dữ liệu phân tích quan điểm a) Cấp độ tài liệu Trong tài liệu phân tích có thể có rất nhiều câu không thể hiện quan điểm tình cảm đối với thực thể đang xét do đó chủ đề hay đối tƣợng rất là quan trọng trong việc phân loại ở cấp độ này, còn những câu không phù hợp phải đƣợc loại bỏ ra khỏi quá trình xử lý để giảm độ phức tạp của tài liệu. Tần suất từ hay cụm từ nói lên quan điểm là những đặc trƣng để phân loại ở cấp độ tài liệu. 8 Ƣu điểm: Có thể lấy đƣợc toàn bộ các quan điểm khác nhau của thực thể đặc biệt của tài liệu. Nhƣợc điểm: Những cảm xúc khác nhau về các đặc tính khác nhau của thực thể không đƣợc trích rút riêng biệt. b) Cấp độ câu Phƣơng pháp phân loại cũng giống nhƣ ở cấp độ tài liệu song khai thác đƣợc mức độ quan điểm hơn. Cần tìm ra các đối tƣợng và chủ đề trong câu chứa các từ thể hiện ý kiến. Sau đó thì phân cực quan điểm của câu là tích cực, tiêu cực hay trung lập. Câu đơn giản mang một ý kiến về thực thể, song với câu phức tạp rất khó cực quan điểm tiêu cực hay tiêu cực, khó xác định đặc tính của đối tƣợng trong câu. Lợi thế của phân loại cấp độ câu nằm trong việc phân loại các chủ đề, đối tƣợng, sử dụng các thuật toán truyền thống để huấn luyện. c) Cấp độ cụm từ Phân loại cụm từ hoàn thành khi tìm ra các từ chứa ý kiến, quan điểm tiêu cực hay tích cực đƣợc xác định từ triết xuất các đặc trƣng. 1.3 Tổng quan bài toán khai phá quan điểm trên dữ liệu mạng xã hội Twitter 1.3.1 Giới thiệu về mạng xã hội Twitter Mạng xã hội twitter ra đời vào ngày 21/3/2006 bởi Jack Dorsey và July, tính đến tháng 5 năm 2016, Twitter có hơn 1.3 tỉ ngƣời dùng, trong đó có hơn 310 triệu ngƣời dùng tích cực trong tháng và trung bình trên mỗi ngƣời dùng có 208 ngƣời theo dõi. Trung bình có hơn 500 triệu tweet đƣợc tạo ra trên một ngày. Điều đó có nghĩa có 6000 tweet mỗi giây. Có 80% ngƣời sử dụng truy cập qua điện thoại, có 65.8% các công ty ở Mỹ với hơn 100 ngƣời làm sử dụng Twitter để tiếp thị, quảng bá. 9 Từ một số thông tin trên, ta cũng có thể nhận thấy Twitter mà một kênh truyền tải thông tin nhanh chóng, đa dạng, thể hiện quan điểm của ngƣời dùng trên nhiều khía cạnh khác nhau trong cuộc sống. Dƣới đây là một số khái niệm đƣợc sử dụng trong Twitter: - Twitter: là 1 trang micro-blog và cũng là một mạng nhắn tin. - Tweet: là một đoạn văn (một SMS) của ngƣời dùng tạo ra. - Follow: theo dõi - Follower: ngƣời đang theo dõi bạn - Following: ngƣời bạn đang theo dõi - Reply: là một từ hoặc một cụm từ bắt đầu bằng các ký hiệu “@”, là hành động tag tên ngƣời dùng để trả lời hoặc đề cập đến ngƣời đó. - Hashtag: là một từ hoặc một cụm từ bắt đầu bằng các ký hiệu “#” đƣợc gọi là biểu tƣợng băm, nó là một hình thức thẻ siêu dữ liệu, các tweets có thể đƣợc gắn thẻ bằng một hay nhiều từ. Ví dụ “#Wikipedia is an #encyclopedia”. - Url (link) trên các tweets đều đƣợc rút gọn lại để tránh các kiểu lợi dụng đƣờng link nhằm lừa đảo hay phát tán phần mềm độc hại và để giúp hiện thị tốt trên tweet (vì tweet chỉ có 140 ký tự). Công cụ của twitter rút gọn link nhƣng vẫn hiện thị tên miền đầy đủ để ngƣời dùng có thể biết họ bấm vào đƣờng link nào. 1.3.2 Phát biểu bài toán Bài toán khai phá quan điểm trên dữ liệu mạng xã hội Twitter là bài toán khai phá quan điểm với miền dữ liệu trong phạm vi là mạng xã hội Twitter. Mỗi tweet đƣợc phân loại vào ba loại tích cực, tiêu cực và trung lập. Đầu vào: Một câu trên mạng xã hội Twitter. 10 Đầu ra: Đánh giá về quan điểm của câu đầu vào thành các loại tích cực và tiêu cực. Mạng xã hội ngày càng phát triển một cách mạnh mẽ. Trong đó, Twitter là một trong top 15 mạng xã hội phổ biến nhất. Tuy nhiên, do Twitter hạn chế số lƣợng ký tự (tối đa là 140) và lƣợng ngƣời dùng ở Việt Nam cũng tƣơng đối ít. Do đó, luận văn chỉ xét với bài toán khai phá quan điểm trên miền dữ liệu Twitter là tiếng anh. 1.3.3 Ý nghĩa bài toán Mạng xã hội Twitter ngày càng lớn mạnh, cùng với đó, việc thể hiện quan điểm trên mạng xã hội này cũng càng phổ biến. Việc khai phá quan điểm trên mạng xã hội này có nhiều ý nghĩa, giúp ta thấy quan điểm của một ngƣời về một vấn đề nào đó. Khai phá quan điểm cho thấy quan điểm chung của một cộng đồng về một thực thể. Nếu xét một vấn đề theo thời gian, ta còn có thể nhận thấy quá trình nhìn nhận, thay đổi quan điểm của cộng đồng về vấn đề đó. Điều này rất quan trọng trong đánh giá và dự đoán xu hƣớng của mọi ngƣời trong một lĩnh vực nhất định. Đối với doanh nghiệp hay tổ chức, bài toán này mang ý nghĩa lớn trong việc định hƣớng sản phẩm, định hƣớng kinh doanh, đƣa ra các chiến lƣợc hoạt động... Đối với cá nhân, chẳng hạn nhƣ với ngƣời nổi tiếng, hoặc có vai trò quan trọng trong xã hội, bài toán này nhƣ một dạng đánh giá danh tiếng. Những ví dụ trên cho thấy bài toán khai phá quan điểm trên mạng xã hội Twitter có ý nghĩa vô cùng lớn. 1.3.4 Khó khăn và thách thức Việc phân loại quan điểm với dữ liệu Twitter gặp khá nhiều khó khăn và thách thức. Các tweet có đặc điểm riêng khác so với các dạng văn bản truyền thống hay dữ liệu trên các forum, mạng xã hội khác nhƣ Facebook. Số ký tự tối đa nhỏ, từ viết tắt, từ lóng, từ sai chính tả, hơn nữa, chất lƣợng và độ tin cậy thấp. Nhiều đặc điểm 11 của dữ liệu Twitter làm giảm hiệu quả khai phá quan điểm dựa trên những kỹ thuật xử lý ngôn ngữ tự nhiên truyền thống. 1.4 Một số kỹ thuật trong khai phá quan điểm 1.4.1 Các phương pháp cây quyết định Cây quyết định (Decision Tree) là cấu trúc cây có dạng biểu đồ luồng, mỗi nút trong là kiểm định trên một thuộc tính, mỗi nhánh đại diện cho một kết quả kiểm định, các nút lá đại diện cho các lớp. Nút cao nhất trên cây là nút gốc. Để phân loại một mẫu chƣa biết, các giá trị thuộc tính của mẫu sẽ đƣợc kiểm định trên cây. Đƣờng đi từ gốc tới một nút lá cho biết dự đoán lớp đối với mẫu đó. Cây quyết định có thể dễ dàng chuyển đổi thành các luật phân loại. Với kỹ thuật phân lớp dựa trên cây quyết định, kết quả của quá trình xây dựng mô hình sẽ cho ra một cây quyết định. Cây này đƣợc sử dụng trong quá trình phân lớp các đối tƣợng dữ liệu chƣa biết hoặc đánh giá độ chính xác của mô hình. Tƣơng ứng với hai giai đoạn trong quá trình phân lớp là quá trình xây dựng và sử dụng cây quyết định. Quá trình xây dựng cây quyết định bắt đầu từ một nút đơn biểu diễn tất cả các mẫu dữ liệu. Sau đó, các mẫu sẽ đƣợc phân chia một cách đệ quy dựa vào việc lựa chọn các thuộc tính. Nếu các mẫu có cùng một lớp thì nút sẽ trở thành lá, ngƣợc lại sử dụng một độ đo thuộc tính để chọn ra thuộc tính tiếp theo làm cơ sở để phân chia các mẫu ra các lớp. Theo từng giá trị của thuộc tính vừa chọn, tạo ra các nhánh tƣơng ứng và phân chia các mẫu vào các nhánh đã tạo. Lặp lại quá trình trên cho tới khi tạo ra đƣợc cây quyết định, tất cả các nút triển khai thành lá và đƣợc gán nhãn. Quá trình đệ quy sẽ dừng lại khi một trong các điều kiện sau đƣợc thỏa mãn: (1) Tất cả các mẫu thuộc cùng một nút; (2) Không còn một thuộc tính nào để lựa chọn; (3) Nhánh không chứa mẫu nào. Phần lớn các giải thuật sinh cây quyết định đều có hạn chế chung là sử dụng nhiều bộ nhớ. Lƣợng bộ nhớ sử dụng tỷ lệ thuận với kích thƣớc của mẫu dữ liệu
- Xem thêm -