Tài liệu Khai phá dữ liệu phương tiện truyền thông xã hội để hiểu kinh nghiệm học tập của sinh viên

.PDF

171

102

sakura Báo vi phạm

Tải xuống 102

Mô tả:

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN VĂN THÀNH KHAI PHÁ DỮ LIỆU PHƯƠNG TIỆN TRUYỀN THÔNG XÃ HỘI ĐỂ HIỂU KINH NGHIỆM HỌC TẬP CỦA SINH VIÊN LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN Hà Nội - 2016 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN VĂN THÀNH KHAI PHÁ DỮ LIỆU PHƯƠNG TIỆN TRUYỀN THÔNG XÃ HỘI ĐỂ HIỂU KINH NGHIỆM HỌC TẬP CỦA SINH VIÊN Ngành: Hệ thống Thông Tin Chuyên ngành: Hệ thống Thông Tin Mã số chuyên ngành: 60480104 LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. Trần Thị Oanh Hà Nội – 2016 i LỜI CAM ĐOAN Tôi xin cam đoan: 1. Những nội dung trong luận văn này là do tôi thực hiện dưới sự hướng dẫn của TS. Trần Thị Oanh. 2. Mọi tham khảo dùng trong luận văn đều được trích dẫn rõ ràng tên tác giả, thời gian, địa điểm công bố. 3. Mọi sao chép không hợp lệ, vi phạm quy chế đào tạo, tôi xin chịu hoàn toàn trách nhiệm. Hà Nội, ngày tháng năm 2016 HỌC VIÊN Nguyễn Văn Thành ii LỜI CẢM ƠN Trước hết, tôi xin bày tỏ lòng biết ơn sâu sắc và chân thành đến giáo viên hướng dẫn TS. Trần Thị Oanh, người đã tận tình chỉ bảo tôi trong định hướng nghiên cứu, đề xuất các ý tưởng và giúp đỡ về mặt phương pháp luận cũng như việc kiểm tra cuối cùng đối với luận văn này. Tôi xin chân thành cảm ơn các thày cô trong khoa Công nghệ Thông tin – Đại học Công nghệ - Đại học Quốc gia Hà Nội, khoa Công nghệ Thông tin - Viện Đại học Mở Hà Nội đã giúp đỡ tôi rất nhiều trong quá trình học tập, nghiên cứu và tạo điều kiện giúp tôi trong công tác để tôi có thời gian thực hiện việc học tập và hoàn thành luận văn. Cuối cùng, tôi xin bày tỏ lòng kính trọng và biết ơn sâu sắc tới bố mẹ những người động viên tôi về mặt tinh thần và hỗ trợ nhiều về mọi mặt. HỌC VIÊN Nguyễn Văn Thành iii MỤC LỤC DANH MỤC KÝ HIỆU VÀ TỪ VIẾT TẮT ...................................................................vi DANH MỤC CÁC BẢNG............................................................................................... vii DANH MỤC HÌNH VẼ, ĐỒ THỊ ................................................................................. viii MỞ ĐẦU .............................................................................................................................. 1 Chương 1: Tổng quan về vấn đề nghiên cứu ................................................................... 3 Khai phá dữ liệu ...................................................................................................... 3 1.1.1 Khái niệm ......................................................................................................... 3 1.1.2 Quy trình khai phá dữ liệu................................................................................ 4 Bài toán khai phá quan điểm trên mạng truyền thông ............................................ 5 1.2.1 Khái quát khai phá quan điểm .......................................................................... 6 1.2.2 Khai phá quan điểm với mạng truyền thông .................................................... 7 Khai phá quan điểm sinh viên trên phương tiện truyền thông xã hội ..................... 8 1.3.1 Giới thiệu bài toán ............................................................................................ 8 1.3.2 Tình hình nghiên cứu trên thế giới ................................................................... 9 1.3.3 Tình hình nghiên cứu tại Việt Nam................................................................ 10 1.3.4 Ý nghĩa và mục tiêu của bài toán ................................................................... 11 Kết luận chương 1 ................................................................................................. 12 Chương 2: Các kiến thức nền tảng ................................................................................. 13 Giới thiệu .............................................................................................................. 13 2.1.1 Tổng quan về bài toán phân loại .................................................................... 13 2.1.2 Các bước giải quyết bài toán phân loại .......................................................... 13 2.1.3 Bài toán phân lớp văn bản .............................................................................. 14 Bài toán phân lớp đa nhãn..................................................................................... 14 Một số phương pháp phân lớp đa nhãn ................................................................. 15 2.3.1 Phương pháp chuyển đổi bài toán .................................................................. 16 2.3.2 Phương pháp thích nghi thuật toán ................................................................ 18 Một số mô hình học máy được sử dụng cho bài toán ........................................... 20 iv 2.4.1 Phân lớp Bayes ............................................................................................... 20 2.4.2 Cây quyết định ............................................................................................... 22 Kết luận chương 2 ................................................................................................. 26 Chương 3: Một mô hình giải quyết bài toán khai phá dữ liệu mạng truyền thông để hiểu kinh nghiệm học tập sinh viên................................................................................. 27 Mô hình hoá bài toán ............................................................................................ 27 3.1.1 Xác định vấn đề và không gian dữ liệu .......................................................... 27 3.1.2 Phát biểu bài toán theo góc độ toán học ......................................................... 27 Một mô hình giải quyết bài toán ........................................................................... 28 3.2.1 Mô hình tổng thể ............................................................................................ 28 3.2.2 Môi trường thực nghiệm ................................................................................ 31 Kết luận chương 3 ................................................................................................. 32 Chương 4: Kết quả thực nghiệm ..................................................................................... 33 Thu thập và tiền xử lý dữ liệu ............................................................................... 33 4.1.1 Thu thập dữ liệu ............................................................................................. 33 4.1.2 Tiền xử lý dữ liệu ........................................................................................... 34 4.1.3 Lựa chọn tập nhãn và gán nhãn dữ liệu ......................................................... 36 4.1.4 Một số thống kê về bộ dữ liệu ........................................................................ 38 Các công cụ phân tích được sử dụng trong luận văn ............................................ 42 4.2.1 MEKA ............................................................................................................ 42 4.2.2 vnTokenizer .................................................................................................... 42 Thiết lập thực nghiệm ........................................................................................... 43 4.3.1 Chuyển đổi dữ liệu ......................................................................................... 43 4.3.2 Chia tách dữ liệu cho mục đích tập huấn và thử nghiệm ............................... 44 4.3.3 Các độ đo đánh giá thực nghiệm .................................................................... 45 Huấn luyện mô hình và kiểm tra ........................................................................... 46 4.4.1 Thực nghiệm với Zero Rule để làm cơ sở cho bộ phân lớp ........................... 46 4.4.2 Thực nghiệm với Binary Relevance ............................................................... 46 4.4.3 Thực nghiệm với Label Combination ............................................................ 47 v Kết quả thực nghiệm ............................................................................................. 47 4.5.1 Thực nghiệm với Zero Rule để làm cơ sở cho bộ phân lớp ........................... 47 4.5.2 Thực nghiệm với Binary Relevance ............................................................... 48 4.5.3 Thực nghiệm với Label Combination ............................................................ 50 Phân tích lỗi .......................................................................................................... 52 Kết luận chương 4 ................................................................................................. 53 Chương 5: Kết luận và hướng phát triển tiếp theo ....................................................... 54 TÀI LIỆU THAM KHẢO................................................................................................ 56 vi DANH MỤC KÝ HIỆU VÀ TỪ VIẾT TẮT Chữ viết tắt Ý nghĩa 1. Tiếng Việt 2. Tiếng Anh MLC Multi Label Classification BR Binary Relevance LP Label Power-Set LC Label Combination BP-MLL Backpropagation for Multi-Label Learning vii DANH MỤC CÁC BẢNG Bảng 1.1. So sánh phân lớp đa lớp và phân lớp đa nhãn ...................................................... 9 Bảng 2.1. Mẫu bộ dữ liệu đa nhãn ...................................................................................... 16 Bảng 2.2. Dữ liệu được chuyển đổi bẳng phương pháp Select Transformation ................ 16 Bảng 2.3. Dữ liệu được chuyển đổi bẳng phương pháp Ignore Transformation................ 17 Bảng 2.4. So sánh kết quả đầu ra của AdaBoost.MH và AdaBoost.MR ........................... 19 Bảng 3.1 Thông số phần cứng môi trường thực nghiệm .................................................... 32 viii DANH MỤC HÌNH VẼ, ĐỒ THỊ Hình 1.1: Quá trình khám phá tri thức.................................................................................. 4 Hình 1.2: Quy trình khai phá dữ liệu .................................................................................... 4 Hình 2.1: Phương pháp chuyển đổi với Binary Relevance ................................................ 17 Hình 2.2: Phân phối xác suất bởi LP .................................................................................. 18 Hình 3.1: Mô hình khai phá dữ liệu trao đổi, thảo luận của sinh viên trên diễn đàn ......... 28 Hình 3.2 Mô hình xử lý của chương trình Crawler ............................................................ 29 Hình 3.3 Mô tả quá trình chuyển đổi dữ liệu sang định dạng ARFF ................................. 30 Hình 4.1: Dữ liệu sau khi tách từ........................................................................................ 35 Hình 4.2: Cấu trúc tệp tin CSV chứa dữ liệu đã gán nhãn ................................................. 37 Hình 4.3: Biểu đồ thống kê các nhãn trong bộ dữ liệu ....................................................... 39 Hình 4.4: Giao diện công cụ MEKA .................................................................................. 42 Hình 4.5: Cấu trúc tệp tin ARFF của bộ dữ liệu ................................................................ 43 Hình 4.6: Cấu trúc tệp tin ARFF đã được chuyển sang dạng vector .................................. 44 Hình 4.7: Minh hoạ cross-validation với k=5 .................................................................... 45 Hình 4.8: Giao diện chức năng phân lớp văn bản của công cụ MEKA với phương pháp kfold và Zero Rule ................................................................................................................ 46 Hình 4.9: Giao diện chức năng phân lớp văn bản của công cụ MEKA với phương pháp kfold ...................................................................................................................................... 47 Hình 4.10: Giao diện chức năng phân lớp văn bản của công cụ MEKA với phương pháp k-fold .................................................................................................................................. 47 Hình 4.11: Thống kê kết quả phương pháp k-fold với Label Combination và Zero Rule . 48 Hình 4.12: Thống kê kết quả phương pháp k-fold với Binary Relevance và Multinomial Naïve Bayes ........................................................................................................................ 48 Hình 4.13 Thống kê độ đo của từng nhãn (Threshold=0.9) với Binary Relevance và Multinomial Naïve Bayes ................................................................................................... 49 Hình 4.14: Thống kê kết quả phương pháp k-fold với Binary Relevance và J48 .............. 49 Hình 4.15 Thống kê độ đo của từng nhãn (Threshold=0.1) với Binary Relevance và J48 50 Hình 4.16: Thống kê kết quả phương pháp k-fold với Label Combination và Multinomial Naïve Bayes ........................................................................................................................ 50 Hình 4.17 Thống kê độ đo từng nhãn với Label Combination và Multinomial Naïve Bayes ............................................................................................................................................ 51 Hình 4.18: Thống kê kết quả phương pháp k-fold với Label Combination và J48............ 51 Hình 4.19 Thống kê độ đo từng nhãn với Label Combination và J48 ............................... 52 1 MỞ ĐẦU Trong việc ứng dụng khai phá dữ liệu vào nhiều lĩnh vực khác nhau của đời sống, khai phá dữ liệu trong lĩnh vực giáo dục đang dần có được sự quan tâm đúng mức. Cần phải nhìn nhận thẳng rằng giáo dục là nhân tố quyết định sự phát triển của đất nước về nhiều mặt. Mục tiêu phát triển xã hội một cách bền vững đang đặt ra cho giáo dục những yêu cầu mới. Giáo dục đào tạo có nhiệm vụ định hướng và hoạch định chính sách cho đối tượng chính của giáo dục là thế hệ trẻ, là lực lượng kế thừa của việc xây dựng, bảo vệ và phát triển đất nước trong tương lai một cách đúng đắn và kịp thời. Sự phát triển bùng nổ của Internet trong thế kỷ 21 mang tới sự đa dạng về các phương tiện trao đổi, thảo luận và chia sẻ các hoạt động xã hội trên toàn thế giới. Các trang web truyền thông xã hội như Twitter, Facebook, YouTube và các diễn đàn cung cấp địa điểm tuyệt vời cho sinh viên để chia sẻ niềm vui, nỗi buồn cũng như giải toả cảm xúc và tìm kiếm sự trợ giúp từ mọi người. Trên nhiều trang web truyền thông xã hội, sinh viên thảo luận và chia sẻ các vấn đề học tập hàng ngày của họ một cách không gò bó và rất chân thực. Các dấu chân kỹ thuật số của sinh viên cung cấp một số lượng lớn các kiến thức tiềm ẩn và một quan điểm hoàn toàn mới cho các nhà nghiên cứu giáo dục để hiểu được kinh nghiệm của sinh viên bên ngoài môi trường lớp học có kiểm soát. Sự phong phú của dữ liệu truyền thông xã hội cung cấp cơ hội để hiểu kinh nghiệm của sinh viên, nhưng cũng đặt ra những khó khăn về phương pháp luận trong việc đưa ra ý nghĩa của dữ liệu truyền thông xã hội cho mục đích giáo dục. Việc phân tích bằng tay thuần tuý không thể đối phó với quy mô ngày càng tăng của dữ liệu, trong khi các thuật toán tự động thuần tuý thường không thể nắm bắt được ý nghĩa sâu sắc trong dữ liệu. Qua việc quan sát và đánh giá dữ liệu từ các trang diễn đàn của sinh viên, chúng tôi nhận thấy các vấn đề mà sinh viên gặp phải trong học tập rơi vào một số loại nhất định như các vấn đề về áp lực thi cử học hành, thiếu nguồn tài liệu tham khảo, lo lắng về định hướng nghề nghiệp, các cảm xúc tiêu cực và tâm lý đời sống. Căn cứ vào điều này để thấy được sự cần thiết của việc áp dụng một thuật toán phân lớp đa nhãn đối với miền dữ liệu đa dạng về ngữ nghĩa trên các phương tiện truyền thông xã hội. Việc phân lớp dữ liệu có 3 hướng tiếp cận chính là thông qua quy luật, mô hình hóa và học máy. Trong phương pháp tiếp cận thì học máy có nhiều ưu điểm như không mất thời gian đưa ra các luật, học từ dữ liệu huấn luyện, dễ dàng mở rộng và tái cấu trúc. Các bộ phân loại thường sử dụng trong phương pháp học máy là Support Vector Machine(SVM), Naive Bayes, Maximum Entropy, Decision Tree, Nearest-Neighbors, Sparse Network of Winnows(SNoW). Dựa trên sự hiểu biết về các vấn đề, khó khăn trong cuộc sống và kinh nghiệm học tập của sinh viên, các nhà hoạch định chính sách và các nhà giáo dục có thể đưa ra quyết định chính xác hơn về sự can thiệp kịp thời và các dịch vụ thích hợp giúp sinh viên vượt qua rào cản trong học tập. Do đó, chúng tôi tiến hành nghiên cứu đề tài “Khai phá dữ liệu phương tiện truyền thông xã hội để hiểu kinh nghiệm học tập của sinh viên”, với mục đích đề xuất một mô hình khai phá dữ liệu hiệu quả cho phân tích các quan điểm, kinh nghiệm và vấn đề gặp phải trong học tập, đời sống của sinh viên. Dữ liệu cho bài toán này được 2 lấy từ diễn đàn sinh viên của trường Đại học Bách khoa Hà Nội. Bố cục luận văn gồm 4 chương: Chương 1: Tổng quan về vấn đề nghiên cứu Giới thiệu khái quát bài toán khai phá quan điểm và bài toán cụ thể với miền tin tức từ các phương tiện truyền thông xã hội. Chương 2: Các kiến thức nền tảng Giới thiệu về các kiến thức nền tảng của bài toán khai phá quan điểm trên thế giới và phương pháp phân lớp văn bản dựa trên mô hình học máy. Chương 3: Một mô hình giải quyết bài toán khai phá dữ liệu mạng truyền thông để hiểu kinh nghiệm học tập sinh viên Trên các kiến thức cơ sở đã trình bày ở chương 2, đưa ra mô hình áp dụng cho bài toán khai phá kinh nghiệm học tập của sinh viên trên phương tiện truyền thông xã hội. Chương 4: Kết quả thực nghiệm Trình bày quá trình thực nghiệm với công cụ Meka trong gán nhãn dữ liệu và các kết quả thực nghiệm thu được. Bên cạnh đó, đưa ra các nhận định về nghiên cứu và các phân tích ưu nhược cũng như các trường hợp lỗi của kết quả thực nghiệm. Chương 5: Kết luận và hướng phát triển tiếp theo Tóm lược những nội dung chính đã đạt được của luận văn , đồng thời chỉ ra những hướng cần khắc phục và đưa ra định hướng nghiên cứu tiếp theo. 3 Chương 1: Tổng quan về vấn đề nghiên cứu Trong chương này, chúng tôi giới thiệu về các vấn đề nghiên cứu của đề tài. Với những khái niệm cơ bản về khai phá dữ liệu, chúng tôi sẽ hướng cụ thể vào tổng quan lĩnh vực nghiên cứu khai phá quan điểm. Thêm vào đó, quan trọng hơn hơn cả là trình bày hướng tiếp cận cũng như ý nghĩa và mục tiêu của đề tài với việc khai thác quan điểm sinh viên trên các phương tiện truyền thông. Khai phá dữ liệu 1.1.1 Khái niệm Khai phá dữ liệu là quá trình trích xuất những thông tin tiềm ẩn và có giá trị bên trong một lượng lớn dữ liệu được lưu trữ trong các kho dữ liệu hoặc cơ sở dữ liệu, … [6] Dựa trên các thông tin được trích xuất dưới dạng các tri thức đó, các nhà nghiên cứu hoặc các nhà quản lý chiến lược có thể dễ dàng đưa ra quyết định hoặc đánh giá một vấn đề nào đó. Ngoài thuật ngữ này, người ta còn dùng một số thuật ngữ khác với ý nghĩa tương tự: khai phá tri thức từ dữ liệu, trích lọc dữ liệu, phân tích dữ liệu, phân tích mẫu. Bên cạnh khái niệm về khai phá dữ liệu, còn có một thuật ngữ thông dụng khác là khám phá tri thức. Xét trên thực tế thì khai phá dữ liệu chỉ là một bước trong quá trình khám phá tri thức. Dưới đây là các bước lặp của một quá trình khám phá tri thức [6]:  Bước 1: Làm sạch dữ liệu (Data cleaning): các nhiễu và dữ liệu không thích hợp sẽ bị loại bỏ.  Bước 2: Tích hợp dữ liệu (Data intergration): kết hợp dữ liệu từ nhiều nguồn khác nhau: tệp tin văn bản, cơ sở dữ liệu, kho dữ liệu …  Bước 3: Chọn dữ liệu (Data selection): dữ liệu liên quan đến nhiệm vụ phân tích sẽ được truy vấn và thu thập từ nhiều nguồn ban đầu.  Bước 4: Chuyển đổi dữ liệu (Data transformation): chuyển đổi dữ liệu về các dạng phù hợp cho việc khai phá bằng cách thực hiện các thao tác tập hợp hoặc nhóm.  Bước 5: Khai phá dữ liệu (Data mining): áp dụng các phương pháp thông minh để trích xuất ra các mẫu dữ liệu.  Bước 6: Đánh giá mẫu (Pattern evaluation): sử dụng một số phép đo để đánh giá sự hữu ích của các mẫu biển diễn tri thức.  Bước 7: Trình diễn dữ liệu (Knowledge presentation): sử dụng các công cụ và kỹ thuật trình diễn, trực quan hoá dữ liệu để biểu diễn tri thức đã được khai phá. 4 Hình 1.1: Quá trình khám phá tri thức 1.1.2 Quy trình khai phá dữ liệu Khai phá dữ liệu là một quy trình sáng tạo yêu cầu nhiều kỹ năng và tri thức khác nhau của người nghiên cứu. Để đảm bảo sự thành công và tính độc lập trong cộng tác nghiên cứu, dự án CRISP-DM (Cross Industry Standard Process for Data Mining) được thực hiện để thống nhất về mặt định nghĩa của một quy trình khai phá dữ liệu đối với nhiều lĩnh vực khác nhau [6]. Hình 1.2: Quy trình khai phá dữ liệu  Business understanding: nắm rõ các mục tiêu của yêu cầu nghiệp vụ và tìm hiểu chính xác những gì mà bài toán nghiệp vụ đặt ra. Phân tích tình trạng hiện thời của các tài nguyên, ràng buộc và các yếu tố quan trọng khác cần được xem xét. 5  Data understanding: thu thập dữ liệu từ các nguồn khác nhau dựa trên các phân tích ở bước trên. Đồng thời đưa ra một số đánh giá về chất lượng và tính khả dụng dữ liệu hiện có.  Data preparation: tiến hành chuyển đổi, làm sạch và kết hợp dữ liệu về một định dạng chung.  Modeling: lựa chọn các mô hình phù hợp với bài toán cần giải quyết. Sau đó thực hiện xây dựng và đánh giá mô hình với tập dữ liệu đã chuẩn bị.  Evaluation: kết quả của mô hình trên sẽ được phân tích và đánh giá cụ thể. Nếu bài toán nghiệp vụ có phát sinh ở giai đoạn này thì quá trình khai phá dữ liệu sẽ được thực hiện lặp lại.  Deployment: dựa trên kết quả những phân tích và đánh giá trên, bước này sẽ xây dựng những báo cáo và các bảng dữ liệu cần thiết. Bên cạnh đó, việc bảo trì và giám sát các đầu ra cũng sẽ được đưa vào giai đoạn này. Bài toán khai phá quan điểm trên mạng truyền thông Phân tích tâm lý hay cũng được gọi là khai phá quan điểm, là lĩnh vực nghiên cứu phân tích ý kiến, đánh giá, thẩm định, thái độ và cảm xúc của con người đối với các thực thể như các sản phẩm, dịch vụ, các tổ chức, cá nhân, các vấn đề, sự kiện, chủ đề và các thuộc tính của chúng. Nó đại diện cho một không gian vấn đề lớn hơn. Ngoài ra còn có rất nhiều tên gọi và nhiệm vụ khác nhau, ví dụ như phân tích tâm lý, khai phá quan điểm, trích lọc quan điểm, khai phá cảm xúc, khai phá các nhận xét, v.v. Tuy nhiên tất cả những nhiệm vụ nghiên cứu này được đặt chung dưới khái niệm khai phá quan điểm. Trong các ngành công nghiệp, thuật ngữ phân tích tâm lý thường được sử dụng nhiều hơn, nhưng trong các nghiên cứu học thuật cả hai thuật ngữ này cũng thường xuyên được sử dụng. Về cơ bản chúng đại diện cho cùng một lĩnh vực nghiên cứu [5, tr.7]. Thuật ngữ phân tích tâm lý có lẽ lần đầu tiên xuất hiện trong (Nasukawa và Yi, 2003), và thuật ngữ khai phá quan điểm lần đầu tiên xuất hiện trong (Dave, Laurence và Pennock, 2003). Tuy nhiên, các nghiên cứu về tâm lý và quan điểm đã được xuất hiện từ trước đó (Das và Chen, 2001; Pang, Lee và Vaithyanathan, 2002; Tong, 2001; Turney, 2002; Wiebe, 2000). Quan điểm có vai trò rất quan trọng trong quá trình đưa ra quyết định của con người. Thông thường, chúng ta sẽ đặt ra những câu hỏi mang chủ đề chính là “Người khác nghĩ về vấn đề đó như thế nào?”. Ví dụ như khi bạn muốn mua một chiếc xe ô tô bạn sẽ muốn tham vấn bạn bè và những người có cùng dự định như mình “Có nên mua xe ô tô khi sống tại Hà Nội không? Dòng xe giá rẻ từ Nga có ổn không? Tuổi thọ và độ hao mòn của xe ô tô chịu sự ảnh hưởng như thế nào từ thời tiết nhiệt đới tại Việt Nam?..v.v”. Có thể dễ dàng nhận thấy từ việc nắm được quan điểm của người khác, các cá nhân có thể đưa ra các quyết định dễ dàng hơn dựa trên những thông tin đã thu thập được. Bên cạnh đó, khai phá quan điểm giúp các doanh nghiệp, tổ chức biết được các ý kiến, quan điểm của một bộ phận người quan tâm và sử dụng dịch vụ của doanh nghiệp, tổ chức. Từ đó doanh 6 nghiệp, tổ chức sẽ dễ dàng nhìn ra được các vấn đề còn tồn tại và cải thiện trong chất lượng dịch vụ của mình. Ở Việt Nam, con số những người sử dụng Internet ngày càng lớn. Theo thống kê của VNNIC về thị trường Inernet tại Việt Nam năm 2015, tỉ lệ người dân sử dụng Internet ngày càng gia tăng chóng mặt. Việt Nam có dân số 90,7 triệu người trong đó: 39,8 triệu người sử dụng Internet (tương đương với 44%), 28 triệu người sở hữu tài khoản mạng xã hội (chiếm 31%), 128,3 triệu người có kết nối mạng di động (tương đương với 141%). Mức tăng trưởng trung bình của người dùng Internet tại Việt nam là 10% kể từ 1/1/2014, con số này đối với tài khoản mạng xã hội là 40%. Thời gian sử dụng Internet trung bình một ngày là trên 5 giờ đối với máy tính và trên 2 giờ đối với điện thoại. Sự bùng nổ mạnh mẽ của Internet và World Wide Web mang tới nguồn dữ liệu khổng lồ về các thông tin cá nhân, quan điểm cá nhân được đưa lên Internet thông qua các mạng xã hội, blog. Đây là một lợi thế cho việc tổng hợp và khai phá quan điểm ở nhiều lĩnh vực của đời sống. 1.2.1 Khái quát khai phá quan điểm Trong nghiên cứu của mình, Bing Liu [5, tr.17-21] đã trình bày khái quát về các khái niệm và các loại bài toán được dùng trong khai phá quan điểm: Một số khái niệm dùng trong khai phá quan điểm:  Đối tượng: để chỉ các thực thể (người, sự kiện, chủ đề, sản phẩm…) được xét tới trong đánh giá. Mỗi đối tượng bao gồm một tập các thành phần và các thuộc tính hay còn gọi là các đặc trưng. Các thành phần hoặc thuộc tính lại có một tập các thành phần con hoặc thuộc tính con. Do đó, có thể biểu diễu một đối tượng O bằng một cập {T,A}: o T: cấu trúc phân cấp thành phần cha – thành phần con o A: là tập các thuộc tính của đối tượng O Ví dụ: Máy vi tính có tập các thành phần là: màn hình, bộ nguồn, ổ đĩa cứng, CPU, chuột, bàn phím… và các thuộc tính: khối lượng, điện áp, tốc độ. Thành phần màn hình có các thuộc tính con như: độ phân giải, tỉ lệ tương phản…  Các đặc trưng ẩn và hiện: Mỗi một đánh giá r bao gồm một tập các câu nhận xét r={s1,s2, …, sm}. Ta gọi f là đặc trưng trong r, nếu đặc trưng f xuất hiện trong r thì có thể nói f là đặc trưng hiện và ngược lại f là đặc trưng ẩn Ví dụ: “Tốc độ của máy vi tính này rất nhanh”: trong đó đặc trưng “tốc độ” là đặc trưng. “Máy vi tính này quá nặng”: đặc trưng “khối lượng” là đặc trưng ẩn  Đoạn đánh giá về một đặc trưng: đoạn đánh giá về một đặc trưng f của đối tượng O trong r là tập các câu liên tiếp trong r mô tả quan điểm tích cực hoặc tiêu cực về đặc trưng đó. Mỗi đoạn đánh giá bao gồm tối thiểu ít nhất một câu. Các loại bài toán trong khai phá quan điểm 7 Khai phá quan điểm (hay còn gọi là phân lớp nhận định) thông thường có 3 bài toán điển hình nhất là [9, tr.44-62]:  Bài toán phân lớp quan điểm: giống bài toán phân lớp văn bản, trong đó mỗi văn bản sau khi tiến hành phân lớp sẽ thuộc về một trong các lớp đã được xác định trước. Trong bài toán phân lớp quan điểm xác định hai lớp tích cực hoặc tiêu cực. Việc phân loại này thông thường ở mức tài liệu và không quan tâm đến các vấn đề chi tiết hơn như người đánh giá đối tượng thích hay không thích đặc trưng nào đó của đối tượng.  Bài toán khai phá và tổng hợp quan điểm dựa trên đặc trưng: bài toán này sẽ chú trọng đi chi tiết vào mức câu để làm rõ đối tượng mà người đưa ra quan điểm có thích hay không.  Bài toán khai phá quan hệ (so sánh): một cách đánh giá khác ngoài cách biểu diễn các quan điểm bằng việc trực tiếp nhận xét về đối tượng là bằng cách so sánh đối tượng mà chủ thể muốn nhận xét với một đối tượng tương tự khác. Ví dụ, thường mỗi khi nói về một cái gì đó là tốt hay xấu, người ta thường đưa ra ý kiến “so với cái gì ?”. 1.2.2 Khai phá quan điểm với mạng truyền thông Sự phát triển của Internet và công nghệ Web mới đã mang tới nhiều loại hình và phương tiện của các mạng truyền thông. Từ những công cụ đầu tiên mang trong mình khả năng giúp con người truyền tải các thông điệp với nhau như thư điện tử, các trang báo tĩnh trên mạng, hiện nay các mạng xã hội đã làm thay đổi hoàn toàn bộ mặt của truyền thông trên mạng. Con người có thể thực hiện rất nhiều hoạt động “ảo” nhưng tham chiếu tới chuyện xảy ra ngoài đời thực trên mạng xã hội. Thậm chí chỉ với một nút “like” cũng dễ dàng trở thành trào lưu truyền thông thịnh hành trên các mạng truyền thông ngày nay. Từ đó, ta có thể thấy rằng các hoạt động trên mạng xã hội phần lớn đều phản ảnh quan điểm tích cực hoặc tiêu cực của người dùng về một vấn đề nào đó. Xét cụ thể hơn, các ý kiến đó có thể là quan điểm về chuyện cá nhân, một sản phẩm điện tử đời mới, một sự kiện nóng hổi như các buổi trình diễn ca nhạc, các cuộc viếng thăm của các nguyên thủ quốc gia hàng đầu thế giới. Thậm chí gần đây nhất, trong toàn bộ quá trình diễn ra bầu cử Tổng thống tại Mỹ năm 2016, hai ứng cử viên nặng ký nhất cho chiếc ghế Tổng thống là Donal Trump và Hillary Clinton đều có một đội ngũ truyền thông khai thác mạnh mẽ các công cụ mạng xã hội để đưa ra các chiến lược hợp lí tại từng thời điểm. Điều đó cho thấy sức mạnh và tiềm năng của việc khai phá quan điểm trên mạng truyền thông là rất lớn. Tuy nhiên, đặc thù của dữ liệu trên các mạng xã hội nói riêng cũng như các mạng truyền thông nói chung là sự đa dạng về mặt ngôn ngữ diễn đạt cũng như sự thiếu thống nhất về mặt ngữ nghĩa, quan điểm. Đây là một thách thức đối với bài toán khai phá quan điểm trên mạng truyền thông, và cũng vừa là một điểm mạnh khi chúng ta có thể khai thác được nhiều tri thức từ nguồn dữ liệu khổng lồ này. 8 Khai phá quan điểm sinh viên trên phương tiện truyền thông xã hội 1.3.1 Giới thiệu bài toán Trong thế giới ngày nay, chúng ta chủ yếu sử dụng các trang web cho mạng xã hội, giáo dục, tiếp thị, giải trí, kinh doanh, mua sắm, và rất nhiều điều khác để làm cho cuộc sống trở nên dễ dàng và thú vị hơn. Ngày nay, cơn sốt các phương tiện truyền thông xã hội được gắn lên một tầm cao của sự thành công cho mỗi cá nhân. Thanh niên là những người sử dụng phổ biến nhất và hầu hết trong số họ là sinh viên. Sinh viên chỉ cần bình luận, chia sẻ, thích và gửi cảm xúc của mình trên phương tiện truyền thông xã hội như Twitter, Facebook và Youtube. Sinh viên cảm thấy tự do để thảo luận và chia sẻ kinh nghiệm của họ trên phương tiện truyền thông xã hội theo những cách không chính thức và không thường xuyên, mà không xem xét cách viết và ngữ pháp chính xác. Do đó, dữ liệu truyền thông xã hội đa phần là không có cấu trúc. Những phương tiện truyền thông xã hội cung cấp rất nhiều kiến thức bổ ích và thông tin về các cảm xúc của sinh viên, kinh nghiệm và cuộc đấu tranh trong các nghiên cứu của họ bên ngoài lớp học. Vì vậy, theo dõi các sinh viên trên các phương tiện truyền thông xã hội là một triển vọng thú vị cho các nhà nghiên cứu để hiểu kinh nghiệm học tập của sinh viên bên ngoài lớp học truyền thống. Sự hiểu biết này sẽ phát hiện ra rất nhiều kinh nghiệm chưa biết mà không được đề cập tới trong khi thảo luận trên lớp. Sự hiểu biết này về kinh nghiệm của họ cung cấp dữ liệu có ích cho sự tiến bộ của sinh viên trong quá trình ra quyết định, tăng cường chất lượng giáo dục, đào tạo, mở rộng sự khuyến khích và vinh danh thành tích. Số lượng lớn dữ liệu truyền thông xã hội cung cấp cơ hội để hiểu kinh nghiệm của học sinh, nhưng cũng có những khó khăn về phương pháp luận để sử dụng dữ liệu truyền thông xã hội cho mục đích giáo dục. Trong các nghiên cứu về lớp học, để hiểu quan điểm của sinh viên các cuộc điều tra nhằm xem xét, đánh giá, thảo luận nhóm, phỏng vấn đã được thực hiện. Các khái niệm sáng tạo của việc sử dụng dữ liệu truyền thông xã hội tập trung vào các thông tin cần thiết và kiến thức để trích xuất cho mục đích giáo dục bằng sự hiểu biết kinh nghiệm của sinh viên là một hướng đi mới. Các dữ liệu phương tiện truyền thông xã hội như các nhận xét sinh viên, bài viết và cảm xúc có thể được sử dụng cho sự nắm bắt kinh nghiệm học tập của sinh viên với mục tiêu nghiên cứu: - Để tìm và phân loại sinh viên trong vấn đề học tập của họ. - Theo dõi kinh nghiệm tốt hay xấu của sinh viên. Khai thác dữ liệu truyền thông xã hội như những cảm xúc của sinh viên sẽ dẫn đến phân loại các nhóm sinh viên theo kinh nghiệm của họ và xác định các vấn đề của họ được giải quyết để nâng cao chất lượng giáo dục. Khai thác các tập tin văn bản định hướng là kỹ thuật mang tính đột phá cung cấp trí tuệ tính toán và kỹ thuật này được ứng dụng trong các lĩnh vực đa ngành, chẳng hạn như giải cứu thông tin, điều tra văn bản, xử lý ngôn ngữ tự nhiên, và trong phân loại trình tự dựa trên các sự tương đồng hợp lý và không nhỏ từ bộ dữ liệu khổng lồ. Việc khai thác dữ liệu được thực hiện trên dữ liệu truyền thông xã hội bao gồm các trang web xã hội như Twitter, Facebook, Youtube, các diễn đàn thảo luận. Khai phá các 9 tập tin có chứa văn bản có thể được sử dụng để khai thác dữ liệu của các phương tiện truyền thông xã hội. Chủ yếu các dữ liệu truyền thông xã hội là định dạng không có cấu trúc và việc tìm kiếm thông tin từ đó là phức tạp do bao gồm một lượng dữ liệu khổng lồ. Vì vậy, nó đòi hỏi các phương pháp xử lý cụ thể và các thuật toán để trích xuất thông tin hữu ích từ dữ liệu web xã hội. Chúng tôi xin đưa ra sự so sánh của 2 phương tiếp cận chủ yếu ở lĩnh vực này ở Bảng 1.1 dưới đây. Bảng 1.1. So sánh phân lớp đa lớp và phân lớp đa nhãn MỤC ĐÍCH TÍNH CHẤT BẢN CHẤT VÍ DỤ PHÂN LỚP ĐA LỚP Điều này có nghĩa là một nhiệm vụ phân lớp với nhiều hơn hai lớp những không phải tại cùng một thời điểm Nó tạo ra sự giả định rằng mỗi ví dụ được gán với một và chỉ một nhãn Loại trừ lẫn nhau Một loại quả có thể là quả táo hoặc quả xoài nhưng không thể là quả táo hoặc quả xoài tại cùng một thời điểm PHÂN LỚP ĐA NHÃN Điều này có nghĩa là một nhiệm vụ phân lớp với nhiều hơn hai lớp tại một thời điểm Nó sẽ dự đoán thuộc tính của một điểm dữ liệu Không loại trừ lẫn nhau Một văn bản có thể tồn tại trên bất cứ tài liệu nào tại một thời điểm 1.3.2 Tình hình nghiên cứu trên thế giới Ở phần này chúng tôi xin trình bày tóm lược một số bài báo nghiên cứu điển hình trên thế giới về vấn đề tương tự 1.3.2.1 Hiểu khách hàng với việc sử dụng các trang Facebook: Khai phá dữ liệu người dùng sử dụng phân tich văn bản Đây là nghiên cứu có tên “Understanding customers using Facebook Pages: Data mining users feedback using text analysis” của nhóm tác giả Hsin-Ying Wu, KuanLiang Liu và Charles Trappey, được xuất bản năm 2014 trên tạp chí IEEE. Nghiên cứu này tập trung vào khai phá dữ liệu văn bản trên các mạng xã hội, cụ thể là các trang quảng cáo Facebook. Các dịch vụ mạng xã hội cung cấp một giải pháp mang tính kinh tế hơn đối với các công ty mới thành lập trong việc quảng bá diện rộng. Bằng việc diễn giải và phân tích các ý kiến của khách hàng trên các trang quảng cáo Facebook, các nhà chiến lược kinh doanh có thể tạo ra những chiến dịch hoặc yếu tố thu hút khách hàng, cũng như phản ứng kịp thời với những thay đổi từ phía khách hàng. Phương pháp của nghiên cứu này tập trung vào việc thu thập các thông tin phản hồi của người tiêu dùng trên các trang Facebook, sau đó thực hiện các biện pháp mô hình hoá, phân cụm và phân tích các điểm quan trọng của văn bản. Nhóm tác giả cũng áp dụng phương pháp CKIP (Chinese Knowledge and Information Processing) để trích xuất các cụm từ quan trọng từ các cuộc đối thoại tiếng Trung Quốc. Với việc phân tích này, các 10 doanh nhân có thể hiểu rõ hơn cách làm thế nào có thể tăng cương truyền thông tiếp thi và gia tăng thị phần doanh nghiệp. 1.3.2.2 Khai phá dữ liệu truyền thông xã hội để hiểu kinh nghiệm học tập của sinh viên Bài báo với tên “Mining Social Media Data for Understanding Students’ Learning Experiences” của nhóm tác giả Xin Chen, Mihaela Vorvoreanu, và Krishna Madhavan, xuất bản năm 2013 trên tạp chí IEEE. Nghiên cứu này tập trung vào việc phân tích các cuộc đối thoại giữa sinh viên tên các phương tiện truyền thông xã hội về các vấn đề có liên quan tới kinh nghiệm giáo dục như: quan điểm, cảm xúc và những băn khoăn về quá trình học tập. Việc khai phá dữ liệu mạng xã hội mang tới những thử thách cả về nội dung đa dạng và khối lượng dữ liệu khổng lồ. Bài báo mang tới giải pháp giải quyết cả hai vấn đề đó với mô hình đề xuất phân lớp đa nhãn quy mô lớn, thuật toán được sử dụng là Naïve Bayes kết hợp với chiến lược “one versus all”. Dữ liệu của bài báo được thu thập từ Twitter với đa phần là sinh viên của trường Đại học Purdue. 1.3.2.3 Phân lớp xu hướng chủ đề trên Twitter Đề tài nghiên cứu có tên “Twitter Trending Topic Classification” của nhóm tác giả Kathy Lee, Diana Palsetia, Ramanathan Narayanan, Md. Mostofa Ali Patwary, Ankit Agrawal, và Alok Choudhary, xuất bản năm 2011 trên tạp chí IEEE. Với sự phổ biến ngày càng tăng của các trang blog, tính đến tháng 6 năm 2011 có khoảng 200 triệu “tweet” được tạo ra mỗi ngày. Mặc dù Twitter cung cấp một danh sách các chủ đề phổ biến nhất mà người dùng tạo ra hay còn gọi là xu chướng chủ đề thời gian thực, tuy nhiên nó thường rất khó hiểu để có thể quy về các chủ đề cụ thể. Do đó, điều quan trọng và cần thiết là phân loại các chủ đề này về các mục chung với độ chính xác cao hơn. Đề giải quyết vấn đề này, nhóm tác giả phân loại các xu hướng chủ đề trên Twitter về 18 danh mục chung như thể thao, chính trị, công nghệ, … Nhóm tác giả đã thử nghiệm với 2 phương pháp để phân loại là Bag-of Words cho phân loại văn bản và phân loại dựa trên mạng. Bằng việc xây dựng các vector từ với các độ đo trọng số TF-IDF sử dụng bộ phân lớp đa thức Naïve Bayes. Các chuyên mục của các chủ đề tương tự và số lượng người dùng có ảnh hưởng chung giữa các chủ dề tương tự đó được phân lớp với thuật toán C5.0. Các thí nghiệm được thực hiện trên một cơ sở dữ liệu của các lựa chọn ngẫu nhiên 768 xu hướng chủ đề (hơn 18 lớp) cho thấy độ chính xác phân loại lên dến 65% và có thể đạt tới 70% bằng cách sử dụng dựa trên văn bản và mô hình phân loại dựa trên mạng tương ứng. 1.3.3 Tình hình nghiên cứu tại Việt Nam Nghiên cứu giáo dục đã được sử dụng theo cách cũ như khảo sát, phỏng vấn, các nhóm tập trung, hoạt động lớp học để thu thập dữ liệu liên quan đến kinh nghiệm học tập của sinh viên. Một số cách khảo sát lấy ý kiến thủ công như:

- Xem thêm -

Tài liệu Khai phá dữ liệu phương tiện truyền thông xã hội để hiểu kinh nghiệm học tập của sinh viên

Tài liệu liên quan

Tài liệu vừa đăng

Tài liệu xem nhiều nhất