Đăng ký Đăng nhập
Trang chủ Phân tích quan điểm cho các bài viết chính trị từ mạng xã hội ...

Tài liệu Phân tích quan điểm cho các bài viết chính trị từ mạng xã hội

.PDF
86
1
71

Mô tả:

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÀ RỊA-VŨNG TÀU TRANG MẠCH HOÀNG NGUYÊN PHÂN TÍCH QUAN ĐIỂM CHO CÁC BÀI VIẾT CHÍNH TRỊ TỪ MẠNG XÃ HỘI LUẬN VĂN THẠC SỸ Bà Rịa-Vũng Tàu, tháng 4 năm 2021 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÀ RỊA-VŨNG TÀU TRANG MẠCH HOÀNG NGUYÊN PHÂN TÍCH QUAN ĐIỂM CHO CÁC BÀI VIẾT CHÍNH TRỊ TỪ MẠNG XÃ HỘI LUẬN VĂN THẠC SỸ Chuyên ngành: Công nghệ thông tin. Mã số: 8480201 CÁN BỘ HƯỚNG DẪN KHOA HỌC: Tiến sĩ. Huỳnh Ngọc Tín. Bà Rịa-Vũng Tàu, tháng 4 năm 2021 i LỜI CAM ĐOAN Tôi là Trang Mạch Hoàng Nguyên, MSHV 18110046 học viên lớp MIT18K1, ngành Công nghệ thông tin. Tôi xin cam đoan luận văn Phân tích quan điểm cho các bài viết chính trị từ mạng xã hội sau đây là công trình nghiên cứu của riêng tôi dưới sự dẫn đắt, hướng dẫn của Tiến sĩ Huỳnh Ngọc Tín. Luận văn không phải sự sao chép từ các tài liệu, công trình nghiên cứu của người khác, các số liệu, kết quả nêu trong luận văn là trung thực và chưa từng được ai công bố trong bất kỳ công trình nào khác. Tôi xin chịu trách nhiệm về lời cam đoan này. Tôi xin cam đoan rằng mọi sự giúp đỡ cho việc thực hiện Luận văn này đã được cảm ơn và các thông tin trích dẫn trong Luận văn đã được chỉ rõ nguồn gốc. Tác giả luận văn Trang Mạch Hoàng Nguyên ii LỜI CẢM ƠN Tôi xin gửi lời cảm ơn chân thành đến Tiến sĩ Huỳnh Ngọc Tín là người đã nhiệt tình giúp đỡ tôi trong quá trình làm Đề tài và hoàn thành luận văn này. Thầy luôn quan tâm, chỉ bảo và giúp đỡ trong suốt thời xây dựng luận văn này. Tôi cũng xin gửi lời cảm ơn chân thành đến Ban Giám hiệu trường Đại học Bà Rịa – Vũng Tàu, Viện Đào tạo Quốc tế và sau Đại học và các Thầy, Cô của trường đã giúp đỡ tôi cùng các học viên của lớp MIT18K1 đã hỗ trợ, truyền đạt kiến thức giúp cho các học viên hoàn thành khóa học được tốt nhất. Trang Mạch Hoàng Nguyên iii MỤC LỤC LỜI CAM ĐOAN .............................................................................................. i LỜI CẢM ƠN................................................................................................... ii MỤC LỤC ....................................................................................................... iii DANH MỤC CÁC TỪ VIẾT TẮT .............................................................. vii DANH MỤC CÁC HÌNH ............................................................................ viii DANH MỤC CÁC BẢNG .............................................................................. x TÓM TẮT ........................................................................................................ 1 Chương 1 . TỔNG QUAN ĐỀ TÀI ............................................................... 3 1.1. Dẫn nhập .................................................................................................... 3 1.2. Mục tiêu...................................................................................................... 8 1.3. Nội dung thực hiện ..................................................................................... 8 1.4. Phạm vi thực hiện ....................................................................................... 9 1.5. Kết quả đạt được ........................................................................................ 9 1.6. Bố cục báo cáo ......................................................................................... 10 1.7. Kết chương ............................................................................................... 10 Chương 2 . CÁC NGHIÊN CỨU LIÊN QUAN ......................................... 11 2.1. Mở đầu ..................................................................................................... 11 2.2. Bài toán Phân tích Quan điểm chính trị từ mạng xã hội .......................... 11 2.2.1. Thực trạng ............................................................................................. 11 2.2.2. Phát biểu bài toán .................................................................................. 11 2.3. Một số phương pháp phân tích quan điểm ............................................... 13 2.3.1. Phương pháp sử dụng từ điển ............................................................... 14 iv 2.3.2. Phương pháp học máy giám sát ............................................................ 15 2.3.3. Phương pháp học máy kết hợp sử dụng từ điển .................................... 16 2.3.4. Một số nghiên cứu liên quan ................................................................. 17 2.3.4.1. Phân tích cảm xúc với dữ liệu từ mạng Twitter ................................. 17 2.3.4.2. Phân tích cảm xúc trong giáo dục đại học qua các thông tin tiếng Việt trên Web .......................................................................................................... 17 2.3.4.3. Nghiên cứu kỹ thuật phân tích cảm xúc ứng dụng vào cải tiến chất lượng đào tạo đại học ...................................................................................... 18 2.3.4.4. Phân tích cảm xúc tiếng Việt trong viễn cảnh Big Data: Hướng tiếp cận Deep Learning .......................................................................................... 18 2.3.4.5. Phân lớp chủ đề và đánh giá cảm xúc cho tiếng Việt ........................ 19 2.4. Nhận định về các nghiên cứu và phương pháp phân loại quan điểm ...... 19 2.5. Kết chương ............................................................................................... 20 Chương 3 . TIẾP CẬN DÙNG WORD EMBEDING................................ 21 3.1. Mở đầu ..................................................................................................... 21 3.2. Thu thập dữ liệu ....................................................................................... 23 3.2.1. Tổng quan về dữ liệu............................................................................. 23 3.2.2. Quá trình thu thập dữ liệu ..................................................................... 24 3.2.3. Giới thiệu về Selenium.......................................................................... 25 3.2.4. Sử dụng Selenium để thu thập dữ liệu .................................................. 26 3.3. Gán nhãn dữ liệu ...................................................................................... 26 3.3.1. Tổng quan về các khía cạnh của dữ liệu ............................................... 26 3.3.2. Các bước gán nhãn dữ liệu .................................................................... 27 3.3.3. Một số nguyên tắc để gán nhãn dữ liệu ................................................ 28 3.4. Tiền xử lý ................................................................................................. 29 v 3.4.1. Tổng quan về quá trình tiền xử lý ......................................................... 29 3.4.2. Giới thiệu về các bộ từ điển .................................................................. 31 3.5. Mã hóa dữ liệu.......................................................................................... 34 3.5.1. Tổng quan về quá trình mã hóa dữ liệu ................................................ 34 3.5.2. Tổng quan về Word2Vec ...................................................................... 34 3.5.3. Sử dụng Word2Vec để mã hóa dữ liệu ................................................. 37 3.6. Xây dựng mô hình áp dụng LSTM .......................................................... 37 3.6.1. Giới thiệu về RNN ................................................................................ 38 3.6.2. Giới thiệu về mô hình LSTM ................................................................ 39 3.6.3. Quá trình huấn luyện của mạng LSTM ................................................. 43 3.7. Sử dụng mô hình để huấn luyện phân tích quan điểm ............................. 46 3.8. Kết chương ............................................................................................... 48 Chương 4 . KẾT QUẢ THỰC NGHIỆM VÀ ĐÁNH GIÁ ....................... 49 4.1. Mở đầu ..................................................................................................... 49 4.2. Dữ liệu thực nghiệm (Dataset) ................................................................. 49 4.2.1. Tập huấn luyện cho mô hình đánh giá quan điểm ................................ 50 4.2.2. Tập kiểm thử cho mô hình đánh giá quan điểm.................................... 51 4.3. Thiết lập thực nghiệm .............................................................................. 51 4.4. Phương pháp đánh giá .............................................................................. 52 4.4.1. Phương pháp đánh giá ........................................................................... 52 4.4.2. Các độ do sử dụng ................................................................................. 53 4.5. Kết quả thực nghiệm ................................................................................ 54 4.6. So sánh với một số phương pháp khác .................................................... 61 vi 4.7. Phân tích lỗi.............................................................................................. 63 4.8. Nhận định và bàn luận.............................................................................. 64 4.8.1. Nhận định .............................................................................................. 64 4.8.2. Bàn luận................................................................................................. 65 4.9. Kết chương ............................................................................................... 65 KẾT LUẬN VÀ KIẾN NGHỊ ...................................................................... 67 TÀI LIỆU THAM KHẢO ............................................................................ 68 QUYẾT ĐỊNH GIAO ĐỀ TÀI LUẬN VĂN............................................... 70 PHỤ LỤC 1. THƯ VIỆN XỬ LÝ NGÔN NGỮ TỰ NHIÊN UNDERTHESEA .......................................................................................... 73 PHỤ LỤC 2. THƯ VIỆN VÀ MÔ HÌNH NGÔN NGỮ TIẾNG VIỆT FASTTEX ...................................................................................................... 74 vii DANH MỤC CÁC TỪ VIẾT TẮT Natural Language Understanding - NLU Natural Language Processing - NLP Machine Learning - ML Artificial Intelligence - AI Deep Learning – DL Recurrent Neural Network – RNN Long Short Term Memory – LSTM Word to Vector - Word2Vec viii DANH MỤC CÁC HÌNH Hình 1-1 Các trang mạng xã hội ....................................................................... 5 Hình 2-1 Mô hình của bài toán phân tích quan điểm. ..................................... 12 Hình 2-2 Sơ đồ phân lớp quan điểm sử dụng từ điển ..................................... 14 Hình 2-3 Sơ đồ phân lớp quan điểm sử dụng Học máy .................................. 15 Hình 2-4 Sơ đồ phân lớp quan điểm sử dụng Học máy kết hợp từ điển ........ 16 Hình 3-1 Các bước thực hiện .......................................................................... 23 Hình 3-2 Các bước xử lý ngôn ngữ tự nhiên .................................................. 30 Hình 3-3 Một vài ví dụ Từ điển hư từ ............................................................. 33 Hình 3-4 Mô hình Word2Vec ......................................................................... 35 Hình 3-5 Mô hình sử dụng Word2Vec mã hóa dữ liệu .................................. 37 Hình 3-6 Một mạng RNN và mở ra thời gian tính toán liên quan chuyển tiếp – (nguồn: Internet. sites.google.com/site/vncoder95/machine-learning/rnn-la-gi) ......................................................................................................................... 39 Hình 3-7 Mô hình LSTM – nguồn Internet..................................................... 40 Hình 3-8. Mô hình LSTM ............................................................................... 41 Hình 3-9 Mô hình xử lý vanishing gradient .................................................... 42 Hình 3-10 Cấu trúc để huấn luyện và kiểm thử mô hình phân tích quan điểm ......................................................................................................................... 47 Hình 4-1 Confusion Matrix của mô hình trên tập kiểm thử ........................... 54 Hình 4-2 Normalized Confusion Matrix của mô hình trên tập kiểm thử ....... 55 Hình 4-3 Giao diện của Chương trình............................................................. 56 ix Hình 4-4 Bài viết về liên quan phòng chống dịch bệnh Covid – 19. .............. 57 Hình 4-5 Một số bình luận liên quan đến bài viết ........................................... 58 Hình 4-6 Đầu vào của chương trình ................................................................ 59 Hình 4-7 Kết quả của đoạn bình luận được chương trình phân tích ............... 59 Hình 4-8 Đầu vào của chương trình với bình luần có hướng Tiêu cực .......... 60 Hình 4-9 Kết quả của chương trình sau khi phân tích mang quan điểm Tiêu cực ................................................................................................................... 61 x DANH MỤC CÁC BẢNG Bảng 4-1 Bảng thống kê tập huấn luyện ......................................................... 50 Bảng 4-2 Bảng thống kê tập kiểm thử ............................................................ 51 Bảng 4-3 Thể hiện Confusion Matrix ............................................................. 53 Bảng 4-4 Bảng so sánh một số phương pháp .................................................. 62 1 TÓM TẮT Khai thác thế mạnh của mạng xã hội các Chính phủ hay các tổ chức quản lý nhà nước hiện nay cũng thường dùng các mạng xã hội như Facebook, Switter, Weibo, Lotus… để đăng tải các thông tin nhằm cung cấp cho người dân, các tổ chức, cá nhân những thông tin kịp thời, cũng như đưa ra các quyết sách giải pháp hoặc các dự thảo chính sách để các tổ chức, cá nhân tham khảo, đóng góp ý kiến. Trong đó chính là sự tương tác của người đọc, những bình luận trong một nội dung lĩnh vực cụ thể nào đó sẽ thể hiện được cách nhìn nhận, tiếp cận, bày tỏ suy nghĩ của họ còn được gọi là thể hiện quan điểm. Trong cùng một một nội dung về lĩnh vực nào đó những người tham gia bình luận sẽ thể hiện nhiều quan điểm khác nhau trong đó sẽ có các bình luận mang quan điểm Tích cực, có các bình luận mang quan điểm Tiêu cực, hoặc có những bình luận không thể hiện quan điểm nào cụ thể (mang tính Trung lập hoặc Trung hòa). Nghiên cứu, phân tích được các loại quan điểm giúp chúng ta có được sự nhìn nhận trực quan với vấn đề, lĩnh vực đó ảnh hướng đến người đọc, người bình luận như thế nào. Một trong những lĩnh vực mang tầm quan trọng mà chúng ta cần phải nghiên cứu và phân tích đó chính là quan điểm thể hiện qua các bài viết trong lĩnh vực chính trị. - Mục tiêu nghiên cứu: Như đã nói bên trên, phân tích được các quan điểm bình luận mạng tính tích cực, tiêu cực và trung lập trong các lĩnh vực mà trong phạm vi của Luận văn này là các bài viết trong lĩnh vực chính trị trên mạng xã hội giúp chúng ta nhận thức được cảm xúc và tóm lược được ý kiến liên quan đến bài viết, phục vụ cho công tác đánh giá quan điểm của các đối tượng tác động từ đó đề ra các phương hướng, giải pháp, chính sách tốt hơn. 2 - Phương pháp nghiên cứu: Sử dụng hướng tiếp cận học máy sử dụng RNN (Recurrent Neural Network) và mô hình LSTM (Long Short Term Memory) bởi sự phù hợp đối với dữ liệu đầu vào dưới dạng văn bản/ chuỗi ký tự (có thể là câu văn hoặc đoạn văn) và hứa hẹn độ chính xác cao (căn cứ trên các nghiên cứu từ trước) để phân tích được các quan điểm tích cực, tiêu cực, trung lập cho các bài viết thuộc lĩnh vực chính trị. - Kết quả nghiên cứu: Xây dựng bộ dữ liệu lên đến hơn 21 nghìn đơn vị về quan điểm chính trị từ nguồn mạng xã hội để phục vụ cho việc huấn luyện, kiểm thử và đánh giá. Thiết kế, xây dựng và đánh giá mô hình phân tích quan điểm sử dụng phương pháp học sâu, cụ thể là ứng dụng Word2Vec và mạng LSTM. Chương trình phân tích quan điểm được đánh giá có kết quả tốt, độ chính xác cao (75%) trong việc phân tích quan điểm theo các nhãn Tích cực (0.71%), nhãn Tiêu cực (0,83%) và Trung lập (0,71%). - Hàm ý quản trị: Phân tích quan điểm cho các bài viết chính trị từ mạng xã hội phù hợp trong công tác quản lý, quản trị của một cơ quan, tổ chức Nhà nước, qua phân tích được các quan điểm tích cực, tiêu cực, hoặc trung lập cho một bài viết chính trị giúp người làm công tác quản lý nhà nước có thể xem xét, hoàn thiện, hoặc điều chỉnh các chính sách quản lý phù hợp hơn đối với thực tế. - Hạn chế & hướng nghiên cứu tiếp theo: Luận văn Phân tích quan điểm cho các bài viết chính trị từ mạng xã hội về cơ bản đã đạt được những yêu cầu đề ra trong khuôn khổ của khóa luận. Để đạt được tính ứng dụng cao hơn, mở rộng ra cho các lĩnh vực khác không chỉ trong lĩnh vực chính trị và cho các loại hình hệ thống mạng xã hội khác nhau thì cần có thời gian, cũng như quá trình thu thập mở rộng hệ thống, trong đó chú trọng nhiều hơn cho nguồn cơ sở dữ liệu thu thập đủ lớn để quá trình huấn luyện, kiểm thử sẽ đạt được độ chính xác cao hơn nữa. 3 Chương 1 . TỔNG QUAN ĐỀ TÀI 1.1. Dẫn nhập Cùng với sự phát triển của cuộc cách mạng công nghiệp lần thứ 4, sự bùng nổ về công nghệ đặc biệt trong lĩnh vực công nghệ thông tin, sự phát triển của Internet đã tạo ra một xã hội mới trên không gian mạng với đặc tính không biên giới. Do vậy, việc tận dụng, khai thác, sử dụng môi trường mạng xã hội này mang tính thời đại đối với mọi tổ chức, đặc biệt trong các tổ chức nhà nước với sự khai thác trong nhiều lĩnh vực như: văn hóa - giáo dục, kinh tế- xã hội, an ninh – chính trị v.v… Hiện nay, trên mạng Internet thông qua các diễn đàn, mạng xã hội, báo điện tử v.v…người dân, tổ chức bày tỏ các ý kiến về vấn đề như xã hội, giáo dục, chính trị v.v… trên cơ sở các bài báo, tin tức mang tính chính thống thì hiện nay các trang mạng xã hội như Facebook, Switter, Weibo, Lotus… cũng là các nguồn cung cấp nhiều thông tin. Tuy nhiên, đa phần các nguồn thông tin trên các trang mạng xã hội là chưa được kiểm chứng, hoặc thông tin mang tính chủ quan của người đăng nhằm vào các mục đích khác nhau, nên người dùng cũng cần phải biết lựa chọn tham gia những trang mạng xã hội, những diễn đàn mang tính chính thống cho mình. Một trong những tầm quan trọng trong quản lý, điều hành của một tổ chức, đơn vị và rộng hơn là trong quản lý Nhà nước nói chung là nắm bắt được các quan điểm của các đối tượng tham gia trong guồng máy đó. Trước đây, để có thể nắm bắt được quan điểm của một lĩnh vực nào đó các tổ chức phải thông qua việc lấy phiếu điều tra gửi đến các đối tượng cần thiết việc đó đồi hỏi phải có bộ máy nhân lực, vật lực và thời gian khi đã có kết quả thì nhiều vấn đề đã không còn “nóng”. Đặc biệt trong các vấn đề có liên quan đến lĩnh vực chính trị. - Trước tiên ta cần phải hiểu chính trị là gì? 4 Theo định nghĩa của Từ điển Bách Khoa Việt Nam (http://bachkhoatoanthu.vass.gov.vn/noidung/tudien/Lists/GiaiNghia/View_D etail.aspx?TuKhoa=&ChuyenNganh=0&DiaLy=0&ItemID=31103), nguyên văn: "CHÍNH TRỊ: toàn bộ những hoạt động có liên quan đến các mối quan hệ giữa các giai cấp, giữa các dân tộc, các tầng lớp xã hội, mà cốt lõi của nó là vấn đề giành chính quyền, duy trì và sử dụng quyền lực nhà nước, sự tham gia vào công việc của nhà nước, sự xác định hình thức tổ chức, nhiệm vụ, nội dung hoạt động của nhà nước". Theo định nghĩa trên thì bài viết mang tính chính trị mang một ý nghĩ phạm trụ rộng lớn. Vì vậy để giới hạn trong phạm vi đề tài xin định nghĩa các bài viết mang tính chính trị là các bài viết mang nội dung có liên quan đến “nhiệm vụ, nội dung hoạt động điều hành, quản lý của nhà nước Việt Nam”. - Mạng xã hội: Cùng với sự phát triển của cuộc cách mạng công nghiệp lần thứ 4, sự bùng nổ về công nghệ đặc biệt trong lĩnh vực công nghệ thông tin, sự phát triển của Internet đã tạo ra một xã hội mới trên không gian mạng với đặc tính không biên giới. Mạng xã hội hay gọi là mạng xã hội ảo (Social Network) là dịch vụ nối kết các thành viên cùng sở thích trên internet lại với nhau với nhiều mục đích khác nhau không phân biệt không gian và thời gian. Mạng xã hội có những tính năng như chat, e-mail, phim ảnh, voice chat, chia sẻ files, blog, và xã luận. Mạng đổi mới hoàn toàn cách cư dân mạng liên kết với nhau và trở thành một phần tất yếu của mỗi ngày cho hàng trăm triệu thành viên khắp thế giới. Các dịch vụ này có nhiều phương cách để các thành viên tìm kiếm bạn bè, đối tác: dựa theo Groups (ví dụ như tên trường hoặc tên thành phố), dựa trên thông tin cá nhân (như địa chỉ e-mail hoặc screen name), hoặc 5 dựa trên sở thích cá nhân (như thể thao, phim ảnh, sách báo, hoặc ca nhạc), lĩnh vực quan tâm: xã hội, giáo dục, chính trị, kinh doanh, mua bán... Hình 1-1 Các trang mạng xã hội Khai thác được thế mạnh của mạng xã hội, Chính phủ, các tổ chức quản lý nhà nước hiện nay cũng đã thường dùng các mạng xã hội như Facebook, Switter, Weibo, Lotus.v.v…để đăng tải các thông tin nhằm cung cấp cho người dân, các tổ chức, cá nhân những thông tin kịp thời, cũng như đưa ra các quyết sách giải pháp hoặc các dự thảo chính sách để các tổ chức, cá nhân tham khảo, đóng góp ý kiến. Trong Luận văn này tôi xin giới hạn phạm vi về những tin tức bài viết trên mạng xã hội mang tính chính trị, từ đó phân tích đưa ra các quan điểm của người viết, người tương tác, bình luận (comment). - Bài viết chính trị trong mạng xã hội: là các bài viết trên các trang mạng xã hội có các nội dung liên quan đến nhiệm vụ, nội dung hoạt động điều hành, quản lý của nhà nước Việt Nam nói chung. 6 - Tại sao chúng ta lại phải phân tích quan điểm cho bài viết chính trị? Sự tương tác của người đọc, người bình luận trong một nội dung lĩnh vực chính trị cụ thể nào đó, đều đó sẽ thể hiện được cách nhìn nhận, tiếp cận, bày tỏ suy nghĩ của họ gọi là quan điểm. Trong cùng một một nội dung về lĩnh vực chính trị những người tham gia bình luận có thể thể hiện nhiều quan điểm khác nhau trong đó sẽ có các bình luận mang quan điểm Tích cực (Positive), có các bình luận mang quan điểm Tiêu cực (Negative), hoặc có những bình luận không thể hiện quan điểm nào cụ thể mang tính Trung lập hoặc Trung hòa (Neutral). Vài ví dụ liên quan: Ví dụ 1: - Bài viết mang tính chính trị 1: “ Quốc hội đang thông qua dự thảo Luật An ninh mạng” Bình luận: Bình luận 1: “- Tại sao phải có luật an ninh mạng, luật này để các ông theo dỗi người dân ah ?!!” Bình luận 2:“- Ủng hộ dự thảo Luật, cần sớm ban hành” Bình luận 3: “- Phải có cơ sở để xử lý các thông tin sai lệt trên mạng xã hội chứ, để các ông mạnh ai náy đưa thông tin không biết có chính thống hay không thì có mà toang ah” - Bài viết mang tính chính trị 2: “ Tình hình dịch bệnh Covid – 19 của Việt Nam, Chính phủ đang triển khai các biện pháp phòng chống mạnh mẽ” Bình luận: Bình luận 1: “- Việt Nam toan rồi các ông ah!” 7 Bình luận 2:“- Tôi tin chắc chúng ta sẽ chống dịch thành công, mọi người hãy cùng nhau thực hiện giãng cách xã hội” Trên đây là một vài ví dụ, thực tế thì có vô số những tin tức, bài viết bình luận với nhiều tâm thái, quan điểm khác nhau, trái chiều nhau. Vậy, phân tích được các quan điểm tích cực, tiêu cực giúp chúng ta nhìn nhận được, đánh giá được nhận thức, cảm xúc và tóm lược được ý kiến là các thông điệp mang tính chính trị có ảnh hưởng đến đời sống của người dân. Từ kết quả phân tích được, các nhà quản lý thông tin và đặc biệt trong quản lý nhà nước sẽ có thể nắm được ý kiến của cộng đồng, của xã hội thể hiện trạng thái đồng tình hay phê phán các chủ trương, đường lối, chính sách hoạt động điều hành của Nhà nước qua đó đưa ra các giải pháp quản lý đất nước linh hoạt, hiệu quả phù hợp với thực tiễn đời sống người dân. - Vì sao phải xây dựng chương trình phân tích quan điểm cho lĩnh vực chính trị? Như đã đề cập ở trên, trong thời buổi công nghệ thông tin phát triển mạnh mẽ thì xây dựng một chương trình để thay thế các biện pháp thủ công trước đây phải là điều hiển nhiên là xu thế của thời đại. Trước đây, để thu thập, lấy ý kiến hay quan điểm người ta thường sử dụng các biện pháp truyền thống như: Sử dụng phiếu lấy ý kiến, thăm dò ý kiên trên các trang thông tin, hội họp v.v...và nó đòi hỏi phải tốn nhiều thời gian, nhân lực để hình thành các nội dung cần đề cập đến và sau khi lấy được dữ liệu phải tốn nhiều thời gian, công sức phân loại, đánh giá và phạm vi hạn hẹp đều này đã không còn phù hợp với xu thế hiện nay. 8 Vì vậy, việc xây dựng một phần mềm ứng dụng để Phân tích quan điểm cho các bài viết Chính trị từ mạng xã hội là việc cần thiết, khắc phục các hạn chế của phương pháp truyền thống. 1.2. Mục tiêu Mục tiêu của đề tài này là tìm hiểu kiến thức trong xử lý văn bản, bài toán phân loại văn bản, phân loại các quan điểm được truyền đạt trong văn bản. Hiểu các bước xử lý, tiến hành thử nghiệm và sử dụng các thuật toán xây dựng mô hình và phần mềm. Hệ thống phần mềm được xây dựng có khả năng phân tích được quan điểm chính trị theo các mức độ tích cực, tiêu cực của các bình luận tại các bài viết về lĩnh vực chính trị từ mạng xã hội. 1.3. Nội dung thực hiện - Tìm hiểu về bài toán Phân tích quan điểm và các nghiên cứu liên quan trong và ngoài nước về Phân tích quan điểm. - Tìm hiểu các kiến thức cần thiết và liên quan trong các lĩnh vực để phục vụ quá trình nghiên cứu đề tài và xây dựng hệ thống. - Xây dựng hệ thống phân tích quan điểm chính trị phục vụ cho nhu cầu của các tổ chức chính trị: + Xây dựng kiến trúc hệ thống nền tảng qua các công cụ lập trình. + Tổng hợp các dữ liệu, thông tin, công trình cần thiết tạo nên danh sách từ điển về Social Language và danh sách các hư từ trong ngôn ngữ tiếng Việt. + Thu thập các dữ liệu cần thiết cho quá trình huấn luyện, kiểm thử. + Xây dựng giao diện cho người dùng. + Triển khai và vận hành hệ thống.
- Xem thêm -

Tài liệu liên quan

Tài liệu xem nhiều nhất