Tài liệu Phân loại chủ đề bản tin online sử dụng máy học

.PDF

118

thanhphoquetoi Báo vi phạm

Tải xuống 98

Mô tả:

ĈҤI HӐC QUӔC GIA TP. HCM 75ѬӠ1*ĈҤI HӐC BÁCH KHOA -------------------- TÔ NGUYӈ13+ѬӞC VINH PHÂN LOҤI CHӪ Ĉӄ BҦN TIN ONLINE SӰ DӨNG MÁY HӐC TOPIC CLASSIFICATION OF ONLINE NEWS ARTICLES USING MACHINE LEARNING Chuyên ngành: Kӻ Thuұt ViӉn Thông Mã sӕ: 8520208 LUҰ19Ă17+Ҥ&6Ƭ TP. HӖ CHÍ MINH, tháng 8 QăP &Ð1*75Î1+ĈѬӦC HOÀN THÀNH TҤI: 75ѬӠ1*ĈҤI HӐC BÁCH KHOA ± Ĉ+4*-HCM Cán EӝKѭӟQJGүQNKRDKӑF3*676+j+RjQJ.KD &iQEӝFKҩPQKұQ[pW769}7XҩQ.LӋW &iQEӝFKҩPQKұQ[pW761JX\ӉQĈuQK/RQJ /XұQYăQWKҥFVƭÿѭӧFEҧRYӋWҥL7UѭӡQJĈҥLKӑF%iFK.KRDĈ+4*7S+&0 QJj\WKiQJQăP WUӵFWX\ӃQ. Thành phҫQ+ӝLÿӗQJÿiQKJLiOXұQYăQWKҥFVƭJӗP &Kӫ7ӏFK*676/r7LӃQ7KѭӡQJ 7Kѭ.ê3*6769}1JX\ӉQ4XӕF%ҧR 3KҧQ%LӋQ769}7XҩQ.LӋW 3KҧQ%LӋQ761JX\ӉQĈuQK/RQJ Ӫ\9LrQ3*676Ĉӛ+ӗQJ7XҩQ ;iFQKұQFӫD&KӫWӏFK+ӝL ÿӗQJÿiQKJLi/9Yj7UѭӣQJ.KRDTXҧQOêFKX\rQ QJjQKVDXNKLOXұQYăQÿmÿѭӧFVӱDFKӳDQӃXFy &+Ӫ7ӎ&++Ӝ,ĈӖ1* *676/Ç7,ӂ17+ѬӠ1* 75ѬӢ1*.+2$Ĉ,ӊ1± Ĉ,ӊ17Ӱ ĐẠI HỌC QUỐC GIA TP.HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự do - Hạnh phúc NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: TÔ NGUYỄN PHƯỚC VINH MSHV: 1870325 Ngày, tháng, năm sinh: 06/06/1995 Nơi sinh: Đồng Tháp Chuyên ngành: Kỹ thuật Viễn thông Mã số : 8520208 I. TÊN ĐỀ TÀI: Tiếng Việt: PHÂN LOẠI CHỦ ĐỀ BẢN TIN ONLINE SỬ DỤNG MÁY HỌC Tiếng Anh: TOPIC CLASSIFICATION OF ONLINE NEWS ARTICLES USING MACHINE LEARNING II. NHIỆM VỤ VÀ NỘI DUNG:  Thực hiện thu thập, và xây dựng cơ sở dữ liệu bản tin online.  Khảo sát và nghiên cứu một số phương pháp trích xuất đặc trưng phổ biến trong phân loại văn bản.  Đề xuất phương pháp trích xuất đặc trưng mới cho bản tin online.  Khảo sát các thuật toán máy học, và xây dựng mô hình máy học áp dụng cho phân loại bản tin online. III. NGÀY GIAO NHIỆM VỤ : (Ghi theo trong QĐ giao đề tài) 22/02/2021 IV. NGÀY HOÀN THÀNH NHIỆM VỤ: (Ghi theo trong QĐ giao đề tài) 05/12/2021 V. CÁN BỘ HƯỚNG DẪN (Ghi rõ học hàm, học vị, họ, tên): PGS.TS. HÀ HOÀNG KHA Tp. HCM, ngày . . . . tháng .. . . năm 20.... CÁN BỘ HƯỚNG DẪN (Họ tên và chữ ký) CHỦ NHIỆM BỘ MÔN ĐÀO TẠO (Họ tên và chữ ký) TRƯỞNG KHOA ĐIỆN - ĐIỆN TỬ (Họ tên và chữ ký) i LỜI CẢM ƠN Đầu tiên xin gửi lời cảm ơn sâu sắc nhất đến công ơn sinh thành và nuôi dưỡng của cha mẹ. Tình yêu thương vô bờ bến của cha mẹ là nguồn sức mạnh to lớn cho hành trình trên chặn đường dài trong tương lai. Xin cảm ơn rất nhiều đến giảng viên hướng dẫn là Thầy PGS. TS. Hà Hoàng Kha - người đã dành thời gian quý báu của mình để gặp gỡ, thảo luận, nghiên cứu và giải quyết các vấn đề khó khăn. Luôn theo sát quá trình và đưa ra những góp ý kịp thời từ những ngày đầu khi nhận đề tài luận văn thạc sĩ. Cảm ơn Thầy đã luôn tận tình chỉ bảo, luôn hối thúc để tiến độ công việc được hoàn thành đúng hạn. Cảm ơn Thầy đã ủng hộ tinh thần, cũng như hỗ trợ về chuyên môn, đóng góp những ý kiến. Ngoài những lời góp ý sâu sắc sau mỗi buổi báo cáo để luận văn được hoàn hảo, thầy còn cho những kinh nghiệm vô giá trong học tập và nghiên cứu; cũng như những lời khuyên vô cùng bổ ích về cuộc sống và định hướng phát triển trong tương lai. Cũng vô cùng biết ơn đến ban chủ nhiệm khoa Điện - Điện tử; cũng như ban chủ nhiệm bộ môn Viễn thông nói riêng đã tạo điều kiện về cơ sở vật chất như phòng thí nghiệm, máy móc, thiết bị, bàn ghế,... để việc học tập và nghiên cứu được thuận lợi. Cuối cùng, xin gửi lời cảm ơn đến các công sự, bạn bè đã luôn chia sẻ, giúp đỡ trong suốt quá trình thực hiện luận văn. Tp. Hồ Chí Minh, ngày 19 tháng 07 năm 2021 Tô Nguyễn Phước Vinh ii TÓM TẮT Trong hơn nhiều thập kỷ qua, sự chuyển đổi mạnh của các trang báo in sang báo điện tử làm cho mỗi ngày có hàng ngàn bài báo của các cơ quan báo điện tử khác nhau được đăng tải lên Internet. Khác với báo in, báo điện tử cần chia rõ danh sách các bản tin dựa theo chủ đề mà chúng đề cập đến. Việc này sẽ tốn một lượng lớn thời gian của các biên tập viên cho việc phân loại chủ đề. Cùng với đó, sự phát triển liên tục của các mô hình máy học đã thúc đẩy các ý tưởng áp dụng các mô hình này vào trong việc phân loại chủ đề các bản tin online, nhằm giảm đi thời gian phân loại thủ công của các biên tập viên. Trong số các mô hình máy học, mô hình neural networks (NN) và mô hình support vector machine (SVM) được xem là hai mô hình mạnh mẽ nhất. Chính vì những điều đó đã thúc đẩy, tạo động lực để luận văn đóng góp nghiên cứu, phát triển một mô hình kết hợp của hai mô hình máy học mạnh mẽ này cho vấn đề phân loại bản tin online tiếng Việt. Cụ thể hơn, luận văn đã xây dựng một bộ dữ liệu mới cho các bản tin online tiếng Việt được thu thập từ các trang báo điện tử lớn và uy tín tại Việt Nam với số lượng lớn các chủ đề. Các chủ đề này còn được phân chia một cách hợp lý theo đúng mong muốn của các biên tập viên nhằm tránh sự nhầm lẫn giữa các chủ đề với nhau và xa rời quyết định của các biên tập viên giàu kinh nghiệm. Tiếp đến luận văn trình bày các bước tiền xử lý. Sau đó, các bản tin đã được tiền xử lý sẽ được áp dụng phương pháp Term Frequency - Inverse Document Frequency (TF-IDF) để biến đổi các từ trong bản tin thành các số thực, và tạo ra vector đặc trưng TF-IDF cho việc phân lớp. Tuy nhiên, điểm yếu của vector đặc trưng này là vector TF-IDF là một vector thưa và có tính phân lớp khá yếu. Do đó, luận văn đề xuất sử dụng mô hình NN để tạo ra vector đặc trưng mới có tính phân lớp cao với số chiều thấp hơn rất nhiều từ vector TF-IDF. Mô hình phân loại SVM sẽ được tận dụng để phân loại các bản tin với vector đặc trưng ngõ vào là các đặc trưng được lấy ra từ NN. Cuối cùng, luận văn so sánh với các phương pháp giảm chiều dữ liệu kinh điển được sử dụng nhiều trong các nghiên cứu trước đây. Các kết quả mô phỏng đã cho thấy mô hình kết hợp NN-SVM đề xuất cho kết quả tốt hơn nhiều so với các phương pháp trước đây cả về mặt hiệu quả phân loại và thời gian huấn luyện. iii ABSTRACT During the last decades, the traditional news articles have changed into the online news, which results in a thousand news articles have been uploaded onto the Internet everyday. Apart from traditional newspaper, online news articles need to be categorized their appropriate topics before publishing on news websites. As a result, editors should spend a lot of time and efforts to accomplish this task. At the same time, machine learning models have exponentially thrived that encourages to apply those models into the online news article topic classification task in order to reduce editors’ workloads. Among many impressive machine learning models, neural network models (NN) and support vector machine (SVM) are most powerful. For these points, the contribution of this thesis is to research and develop a combination of these two best models NN and SVM for Vietnamese online news articles topic classification. To be more specific, this thesis has contributed a Vietnamese online news article dataset which is collected from the famous official online news websites in Vietnam with the large number of topics. The topics in this dataset is appropriately divided following editors’ wishes to avoid mislabeling and conflicting with experienced editors’ decisions. The first basic preprocessing step is to eliminate noise in the collected news articles. The Term Frequency - Inverse Document Frequency (TF-IDF) method has been then applied to transform the list of words in articles into the real number vectors called TF-IDF feature vectors. However, the drawback of these feature vectors is that TF-IDF vectors is the sparse vectors and less discriminating power. Therefore, the NN models have been proposed in this thesis as a solution to generate the more discriminating feature vectors with the smaller dimension than TF-IDF feature vectors’ one. The SVM classifiers is utilized to label topics for Vietnamese online news articles from these improved feature vectors which is the output of NN model. Finally, this thesis compares the efficiency between traditional dimensional reduction methods and the proposed method with NN models. The experimental results have shown that the proposed combination of NN and SVM models outperforms the traditional methods in both accuracy and time. iv LỜI CAM ĐOAN Tôi tên Tô Nguyễn Phước Vinh, là học viên cao học chuyên ngành Kỹ thuật Viễn Thông, khóa 2018, tại Đại Học Quốc Gia TP.HCM - Trường Đại Học Bách Khoa Thành Phố Hồ Chí Minh. Tôi xin cam đoan những nội dung sau đều là sự thật: - Công trình nghiên cứu này hoàn toàn do chính tôi thực hiện trong suốt quá trình thực hiện đề tài dưới sự hướng dẫn của PGS. TS. Hà Hoàng Kha. - Các tài liệu và các trích dẫn trong luận văn đều được tham khảo từ các nguồn thực tế, uy tín và có độ chính xác cao. - Các số liệu và kết quả mô phỏng được thực hiện một cách độc lập và hoàn toàn trung thực. Tp. Hồ Chí Minh, ngày 19 tháng 07 năm 2021 Tô Nguyễn Phước Vinh v Mục lục NHIỆM VỤ LUẬN VĂN i LỜI CẢM ƠN ii TÓM TẮT iii ABSTRACT iv LỜI CAM ĐOAN v DANH MỤC BẢNG BIỂU ix DANH MỤC HÌNH ẢNH x DANH MỤC CÁC TỪ VIẾT TẮT xiii DANH MỤC LƯU ĐỒ GIẢI THUẬT xv 1 MỞ ĐẦU 1.1 Đặt vấn đề nghiên cứu . . . . . . . . . . . 1.1.1 Tổng quan . . . . . . . . . . . . . . 1.1.2 Tình hình nghiên cứu . . . . . . . . 1.2 Lý do chọn đề tài . . . . . . . . . . . . . . 1.3 Mục tiêu và nhiệm vụ của luận văn . . . . 1.4 Đối tượng và phạm vi nghiên cứu . . . . . 1.4.1 Đối tượng nghiên cứu . . . . . . . . 1.4.2 Phạm vi nghiên cứu . . . . . . . . 1.5 Phương pháp nghiên cứu . . . . . . . . . . 1.6 Bố cục của luận văn . . . . . . . . . . . . 1.7 Các bài báo đã hoàn thành trong luận văn vi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1 1 2 6 6 7 7 7 8 8 9 MỤC LỤC 2 TỔNG QUAN CÁC VẤN ĐỀ NGHIÊN CỨU VÀ LÝ THUYẾT LIÊN QUAN 2.1 Nhúng từ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.1 One-hot vector . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.2 Mô hình Skip-gram . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.3 Mô hình Continuous Bag of Words . . . . . . . . . . . . . . . . . . 2.1.4 Mô hình nhúng từ với vectors toàn cục . . . . . . . . . . . . . . . . 2.2 Chọn lọc đặc trưng . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.1 Mutual Information . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.2 Chi square . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.3 Information gain . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.4 Frequency-based feature selection . . . . . . . . . . . . . . . . . . . 2.2.5 Orthogonal centroid feature selection . . . . . . . . . . . . . . . . . 2.3 Lý thuyết toán tối ưu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3.1 Tối ưu không ràng buộc . . . . . . . . . . . . . . . . . . . . . . . . 2.3.2 Momentum gradient descent . . . . . . . . . . . . . . . . . . . . . . 2.3.3 Tối ưu ràng buộc . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3.4 Tối ưu lồi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.4 Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 MÔ 3.1 3.2 3.3 . . . . . . . . 33 34 35 38 38 40 48 64 68 4 KẾT QUẢ THỰC NGHIỆM 4.1 Thực nghiệm chọn mô hình Neural Networks cho phân loại chủ đề bản tin 4.2 Kết quả phân lớp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3 Kết quả thực nghiệm trên các bộ phân lớp khác nhau . . . . . . . . . . . . 70 70 79 90 3.4 3.5 3.6 HÌNH KẾT HỢP NN VÀ SVM Bộ dữ liệu bản tin online tiếng Việt . . . . . . . . . . . . . . . . . . . Tiền xử lý dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Trích xuất đặc trưng Term Frequency - Inverse Document Frequency 3.3.1 Phân tách từ . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.2 Biến đổi Term Frequency - Inverse Document Frequency . . . Neural Networks cho giảm chiều dữ liệu . . . . . . . . . . . . . . . . . Bộ phân lớp sử dụng Support Vector Machine . . . . . . . . . . . . . Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 10 10 11 13 15 19 19 20 20 21 21 21 22 25 28 30 32 5 KẾT LUẬN CHUNG 5.1 Kết luận chung . . 5.2 Hướng phát triển . 5.2.1 Bộ dữ liệu . VÀ HƯỚNG NGHIÊN CỨU . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . vii . . . . . . . . . . . . . . . . KẾ TIẾP 93 . . . . . . . . . . . . 93 . . . . . . . . . . . . 94 . . . . . . . . . . . . 94 MỤC LỤC 5.2.2 5.2.3 5.2.4 Trích xuất đặc trưng . . . . . . . . . . . . . . . . . . . . . . . . . . 95 Mô hình Neural Networks . . . . . . . . . . . . . . . . . . . . . . . 95 Bộ phân lớp Support Vector Machine . . . . . . . . . . . . . . . . . 95 DANH MỤC CÔNG TRÌNH ĐÃ CÔNG BỐ 96 TÀI LIỆU THAM KHẢO 97 viii DANH MỤC BẢNG BIỂU 2.1 Bảng ví dụ xác suất các từ trong bộ dữ liệu . . . . . . . . . . . . . . . . . 17 3.1 3.2 Bảng thống kê số lượng bản tin thu được theo từng trang mạng. . . . . . . 34 Bảng các hàm kernel thông dụng. . . . . . . . . . . . . . . . . . . . . . . . 68 4.1 4.2 4.3 4.4 4.5 4.6 4.7 4.8 4.9 4.10 4.11 4.12 4.13 Kết quả huấn luyện NN với 2 lớp ẩn sử dụng hàm kích hoạt ReLU . . . . . Kết quả huấn luyện NN với 2 lớp ẩn sử dụng hàm kích hoạt tanh . . . . . Kết quả huấn luyện NN với 3 lớp ẩn sử dụng hàm kích hoạt ReLU . . . . . Kết quả huấn luyện NN với 3 lớp ẩn sử dụng hàm kích hoạt tanh . . . . . Kết quả huấn luyện NN với 4 lớp ẩn sử dụng hàm kích hoạt ReLU . . . . . Kết quả huấn luyện NN với 4 lớp ẩn sử dụng hàm kích hoạt tanh . . . . . Kết quả huấn luyện NN với 5 lớp ẩn sử dụng hàm kích hoạt ReLU . . . . . Kết quả huấn luyện NN với 5 lớp ẩn sử dụng hàm kích hoạt tanh . . . . . Bảng định nghĩa True Positive, True Negative, False Positive, False Negative Kết quả nhận dạng mô hình M1 trong ví dụ. . . . . . . . . . . . . . . . . . Kết quả nhận dạng mô hình M2 trong ví dụ. . . . . . . . . . . . . . . . . . Kết quả tính toán F1 score của hai mô hình M1 và M2 trong ví dụ. . . . . Thời gian huấn luyện và kiểm tra cho bộ phân lớp SVM của các phương pháp giảm chiều dữ liệu khác nhau với K = 128. . . . . . . . . . . . . . . . 4.14 So sánh mô hình SVM và NN cho phân loại. . . . . . . . . . . . . . . . . . iv 71 72 73 74 75 76 77 78 81 81 81 81 90 92 DANH MỤC HÌNH ẢNH 1.1 1.2 1.3 1.4 Biểu đồ số lượng các cơ quan báo điện tử tại Việt Nam tính đến năm 2019. Mô hình phân loại bản tin online được nghiên cứu trong bài báo [9]. . . . . Mô hình NN sử dụng trong nghiên cứu [20]. . . . . . . . . . . . . . . . . . Bộ dữ liệu tiếng Ả Rập được sử dụng trong nghiên cứu [23]. . . . . . . . . 2.1 Mô hình skip-gram sử dụng central target word để tính xác suất có điều kiện của việc tạo ra những context words về ngữ nghĩa. . . . . . . . . . . Mô hình CBOW quan tâm tới xác suất có điều kiện của việc tạo central target word từ những context words đã cho. . . . . . . . . . . . . . . . . Minh họa phương pháp gradient descent. . . . . . . . . . . . . . . . . . . Gradient descent trên cho mặt phẳng 2 chiều. . . . . . . . . . . . . . . . Minh họa chọn tốc độ học không phù hợp. . . . . . . . . . . . . . . . . . Minh họa phương pháp momentum gradient descent. . . . . . . . . . . . Minh họa phương pháp Nesterov momentum gradient descent. . . . . . . Minh họa tập lồi và tập không lồi trong hình học. . . . . . . . . . . . . . Minh họa hàm lồi và hàm không lồi trong hình học. . . . . . . . . . . . . 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.9 3.10 Phân bố số lượng bản tin theo từng chủ đề. . . . . . . . . . . . . . . . . Ví dụ về nhiễu HTML tags có trong các bản tin thu thập. . . . . . . . . Kết quả loại bỏ những ký tự đặc biệt trong đoạn văn. . . . . . . . . . . . Kết quả hoàn tất quá trình tiền xử lý đoạn văn. . . . . . . . . . . . . . . Các phương pháp N-gram khác nhau cho tách từ. . . . . . . . . . . . . . Ví dụ tách từ của một câu theo mô hình kết hợp uni-gram và bi-gram. . Ví dụ tập dữ liệu với ba bản tin ngắn được tiền xử lý. . . . . . . . . . . . Kết quả của quá trình trích xuất đặc trưng từ bộ dữ liệu mẫu. . . . . . . Vector đặc trưng của các bản tin mẫu với K = 164 chiều. . . . . . . . . . Mô phỏng phân bố vectors đặc trưng TF-IDF của các bản tin trong chủ đề “tennis”, “thế giới động vật”, “xe”, “giao thông”, “bóng đá” trong mặt phẳng 2 chiều. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . x 2 4 4 5 . 12 . . . . . . . . 14 22 24 24 26 26 31 32 . . . . . . . . . 35 36 36 37 39 40 45 45 46 . 47 DANH MỤC HÌNH ẢNH 3.11 Mô phỏng phân bố vectors đặc trưng TF-IDF của các bản tin trong chủ đề “chứng khoán”, “điện ảnh”, “ẩm thực”, “âm nhạc”, “bất động sản” trong mặt phẳng 2 chiều. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.12 Mô phỏng phân bố vectors đặc trưng TF-IDF của các bản tin trong chủ đề “thị trường”, “chính trị”, “môi trường”, “pháp luật”, “khởi nghiệp” trong mặt phẳng 2 chiều. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.13 Mô phỏng phân bố vectors đặc trưng TF-IDF của các bản tin trong chủ đề “du lịch”, “quân sự”, “quốc phòng”, “kinh doanh quốc tế”, “công nghệ” trong mặt phẳng 2 chiều. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.14 Mô phỏng phân bố vectors đặc trưng TF-IDF của các bản tin trong chủ đề “làm đẹp”, “thời trang”, “giới tính”, “y tế”, “ khỏe đẹp” trong mặt phẳng 2 chiều. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.15 Mô phỏng phân bố vectors đặc trưng TF-IDF của các bản tin trong chủ đề “văn học”, “cuộc sống đó đây”, “kiều bào”, “du học”, “tuyển sinh” trong mặt phẳng 2 chiều. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.16 Mô hình NN được huấn luyện cho giảm chiều dữ liệu. . . . . . . . . . . . 3.17 Sơ đồ mô tả lan truyền thuận và lan truyền ngược ở lớp ngõ ra. . . . . . 3.18 Sơ đồ mô tả lan truyền thuận và lan truyền ngược ở lớp ẩn thứ l. . . . . 3.19 Minh họa phương pháp SVM lề mềm. . . . . . . . . . . . . . . . . . . . . 3.20 Sơ đồ hệ thống đề xuất trong luân văn. . . . . . . . . . . . . . . . . . . . 4.1 4.2 4.3 4.4 4.5 4.6 4.7 4.8 4.9 Kết quả huấn luyện NN với 2 lớp ẩn sử dụng hàm kích hoạt ReLU . . . . Kết quả huấn luyện NN với 2 lớp ẩn sử dụng hàm kích hoạt tanh . . . . Kết quả huấn luyện NN với 3 lớp ẩn sử dụng hàm kích hoạt ReLU . . . . Kết quả huấn luyện NN với 3 lớp ẩn sử dụng hàm kích hoạt tanh . . . . Kết quả huấn luyện NN với 4 lớp ẩn sử dụng hàm kích hoạt ReLU . . . . Kết quả huấn luyện NN với 4 lớp ẩn sử dụng hàm kích hoạt tanh . . . . Kết quả huấn luyện NN với 5 lớp ẩn sử dụng hàm kích hoạt ReLU . . . . Kết quả huấn luyện NN với 5 lớp ẩn sử dụng hàm kích hoạt tanh . . . . Mô phỏng phân bố vectors đặc trưng mới của các bản tin trong chủ đề “tennis”, “thế giới động vật”, “xe”, “giao thông”, “bóng đá” trong mặt phẳng 2 chiều. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.10 Mô phỏng phân bố vectors đặc trưng mới của các bản tin trong chủ đề “chứng khoán”, “điện ảnh”, “ẩm thực”, “âm nhạc”, “bất động sản” trong mặt phẳng 2 chiều. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.11 Mô phỏng phân bố vectors đặc trưng mới của các bản tin trong chủ đề “thị trường”, “chính trị”, “môi trường”, “pháp luật”, “khởi nghiệp” trong mặt phẳng 2 chiều. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xi . 48 . 50 . 51 . 52 . . . . . . 53 54 58 61 64 69 . . . . . . . . 71 72 73 74 75 76 77 78 . 82 . 83 . 84 DANH MỤC HÌNH ẢNH 4.12 Mô phỏng phân bố vectors đặc trưng mới của các bản tin trong chủ đề “du lịch”, “quân sự”, “quốc phòng”, “kinh doanh quốc tế”, “công nghệ” trong mặt phẳng 2 chiều. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.13 Mô phỏng phân bố vectors đặc trưng mới của các bản tin trong chủ đề “làm đẹp”, “thời trang”, “giới tính”, “y tế”, “ khỏe đẹp” trong mặt phẳng 2 chiều. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.14 Mô phỏng phân bố vectors đặc trưng mới của các bản tin trong chủ đề “văn học”, “cuộc sống đó đây”, “kiều bào”, “du học”, “tuyển sinh” trong mặt phẳng 2 chiều. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.15 Kết quả khảo sát các kernel khác nhau trong mô hình phân loại SVM sử dụng kỹ thuật “one-vs-rest”. . . . . . . . . . . . . . . . . . . . . . . . . . 4.16 Kết quả khảo sát các kernel khác nhau trong mô hình phân loại SVM sử dụng kỹ thuật “one-vs-one”. . . . . . . . . . . . . . . . . . . . . . . . . . 4.17 Kết quả so sánh phương pháp giảm chiều dữ liệu đề xuất với hai phương pháp hiệu quả nhất trong [9]. . . . . . . . . . . . . . . . . . . . . . . . . 4.18 Kết quả thực nghiệm phân loại bản tin online tiếng Việt trên các bộ phân lớp khác nhau. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xii . 85 . 86 . 87 . 88 . 88 . 90 . 91 DANH MỤC TỪ VIẾT TẮT χ2 Chi Square Adam Adaptive Moment Estimation Ước Lượng Moment Thích Nghi BoW Bag of Words Túi Từ CBOW Continuous Bag of Words Túi Từ Liên Tục DF Document Frequency Tần Suất Văn Bản DT Decision Tree Cây Quyết Định FFS Frequency-based Feature Selection Chọn Lọc Đặc Trưng Theo Tần Suất GloVe Global Vectors for Word Representation Vectors Từ Toàn Cục IG Information Gain Độ Lợi Thông Tin KNN K-Nearest Neighbor K-Điểm Gần Nhất LR Logistic Regression Hồi Quy Logistic MI Mutual Information Thông Tin Tương Hỗ NB Naive Bayesian NLP Natural Language Processing Xử Lý Ngôn Ngữ Tự Nhiên xiii DANH MỤC TỪ VIẾT TẮT NN Neural Networks Mạng Neural OCFS Orthogonal Centroid Feature Selection Tâm Trực Giao Chọn Lọc Đặc Trưng OR Odd Ratio Tỷ Số Odd RF Random Forest Rừng Ngẫu Nhiên RS Relevancy Score Hệ Số Tương Quan SGD Stochastic Gradient Descent Gradient Ngẫu Nhiên SVM Support Vector Machine Máy Vector Hỗ Trợ TC Text Classification Phân loại văn bản TF-IDF Term Frequency - Inverse Document Frequency Thành Phần Tần Suất - Nghịch Đảo Tần Suất Văn Bản xiv DANH MỤC LƯU ĐỒ GIẢI THUẬT 1 2 3 4 5 6 7 8 9 Thuật toán chọn lọc đặc trưng cơ bản để chọn ra k đặc trưng tốt nhất. . Thuật toán chọn lọc đặc trưng OCFS. . . . . . . . . . . . . . . . . . . . Thuật toán SGD với momentum. . . . . . . . . . . . . . . . . . . . . . . Thuật toán SGD với Nesterov momentum. . . . . . . . . . . . . . . . . . Thuật toán N-gram tạo từ điển cho một bản tin. . . . . . . . . . . . . . . Thuật toán tính giá trị TF của một phần tử trong bản tin. . . . . . . . . Thuật toán tính giá trị IDF của một phần tử trong bản tin. . . . . . . . Thuật toán Batch Normalization cho quá trình huấn luyện. . . . . . . . . Thuật toán cập nhật hệ số học với mini-batch dựa trên Adam gradient descent. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xv . . . . . . . . 19 21 27 28 39 41 43 55 . 58 Chương 1 MỞ ĐẦU 1.1 1.1.1 Đặt vấn đề nghiên cứu Tổng quan Trong những thập kỷ qua, sự bùng nổ về công nghệ số đã thúc đẩy việc chuyển đổi từ báo in cổ điển sang các bản tin online. Báo điện tử ngày nay không còn xa lạ với mọi người, nó đã xuất hiện trong mọi nhà và được sử dụng hàng ngày. Tại Việt Nam, tính đến cuối năm 2019 đã có 116 cơ quan báo điện tử, 52 báo, tạp chí điện tử của các cơ quan báo in, 23 báo, tạp chí điện tử độc lập, 207 trang thông tin điện tử tổng hợp của các cơ quan báo chí . Ngoài ra, trong thời đại hiện nay, các tin tức được cập nhật và thêm mới theo mỗi phút trên các trang báo điện tử. Như vậy, mỗi ngày một lượng rất lớn các bản tin được đăng tải lên, giúp cho người đọc có thể tìm kiếm được các thông tin mong muốn [1]. Bên cạnh đó, máy học đã và đang phát triển vượt trội [2] từ việc nổ lực huấn luyện máy tính thực hiện việc nhận dạng các ký tự viết tay, đến việc nhận dạng các vật thể khác nhau trong đời sống; cũng như hiểu được ý nghĩa của một đoạn văn bản. Cùng với sự phát triển mạnh mẻ đó, xử lý ngôn ngữ tự nhiên (NLP) là một lĩnh vực quan trọng trong máy học cũng có nhiều ứng dụng rất hữu ích cho cuộc sống. Trong đó, phân loại văn bản (TC) đã được triển khai rộng rãi như là một phần quan trọng trong lĩnh vực NLP [3]. Một số các ứng dụng thực tế của NLP như nhận dạng email rác (spam email detection) [4], nhận dạng những tin tức phản cảm (hate-speech detection) [5], tự động phân loại chủ đề bản tin (auto-tagging articles) [6], hay chatbot [7]. 1 1. MỞ ĐẦU Hình 1.1: Biểu đồ số lượng các cơ quan báo điện tử tại Việt Nam tính đến năm 2019. Việc áp dụng máy học vào phân loại bản tin online không chỉ giúp giảm thời gian phân loại chủ đề cho các bản tin, mà còn giúp xây dựng các nền tảng nhằm cung cấp các đề xuất đúng đắn các chủ đề bản tin cho người đọc cũng như giảm đi việc quá tải thông tin [8]. Theo báo cáo hồi tháng 2 của trang VnExpress - trang báo điện tử Tiếng Việt được nhiều người xem nhất, những công nghệ mới trong lĩnh vực AI đang được áp dụng tự đề nghị chủ đề, tin liên quan sau khi biên tập viên hoàn thành bài viết đã hỗ trợ đắc lực trong việc sản xuất tin bài của phóng viên. Nhờ những lợi ích trên mà trong nhiều năm qua đã có rất nhiều nghiên cứu để đưa ra các thuật toán vận dụng máy học để phân loại các bản tin online. 1.1.2 Tình hình nghiên cứu Trong nghiên cứu [9] được thực hiện vào năm 2007, nhóm tác giả đã khảo sát hai phương pháp TC phổ biến lúc đó là mô hình Bag-of-Words (BoW) và mô hình thống kê Ngram để phân loại hai bộ dữ liệu các bản tin online tiếng Việt được thu thập từ các trang báo online tiếng Việt nổi tiếng. Hình 1.2 tóm tắt lại hai phương pháp nghiên cứu được nhóm tác giả thực hiện. Đặc biệt trong mô hình đâu tiên, nhóm tác giả thực hiện việc khảo sát các phương pháp giảm chiều của vectors đặc trưng như information gain (IG), mutual information (MI), GSS coefficient, chi-square (χ2 ), odds ratio (OR), DIA 2 1. MỞ ĐẦU association factor, relevancy score (RS) tương tự như cách [10] đã khảo sát cho việc TC. Ngoài ra, nhóm tác giả còn áp dụng nghiên cứu trong [11] - phương pháp giảm chiều dữ liệu Optimal Orthogonal Centroid Feature Selection (OCFS) phục vụ cho TC tiếng Việt. Kết quả của nghiên cứu là hai phương pháp giảm chiều đặc trưng OCFS và χ2 là hai phương pháp cho kết quả tốt nhất trong việc phân loại các bản tin online tiếng Việt. Một cải tiến trong phương pháp tách từ được thực hiện vào năm 2009 bởi nhóm tác giả trong [12]. Nhóm đã nổ lực để xây dựng một bộ phân lớp hiệu quả nhất cho phân loại các văn bản tiếng Việt bằng cách thực hiện một cách mới để tạo ra từ điển gồm các phần tử có trong một văn bản tiếng Việt, đó là kết hợp các phương pháp trích xuất từ điển uni-gram và bi-gram. Tương ứng với mỗi phần tử là một và hai từ tiếng Việt gần kề nhau. Nghiên cứu cũng sử dụng phương pháp IG để giảm chiều vectors đặc trưng, sau đó khảo sát trên các bộ phân lớp khác nhau như Naive Bayes [13], K-Nearest Neigbour (KNN) [14], và máy véc tơ hỗ trợ (SVM) [15]. Tương tự, nghiên cứu [16] các tác giả đã nổ lực cải tiến phương pháp giảm chiều dữ liệu cho vectors đặc trưng bằng cách kết hợp hai phương pháp χ2 và IG được gọi là SIGCHI để phân loại chủ đề các bài báo online tiếng Việt. Bộ dữ liệu được sử dụng trong nghiên cứu là bộ dữ liệu được thu thập bởi [17], [18], và của nghiên cứu [9]. Bên cạnh đó, phương pháp giảm chiều dữ liệu document frequency (DF) [19] cũng được áp dụng như một phương pháp so sánh với phương pháp đề xuất. Một hướng tiếp cận khác là áp dụng mô hình NN cho phân loại bản tin online tiếng Việt được nhóm tác giả trong [20] đề xuất. Bằng phương pháp trích xuất đặc trưng mới là key-words extraction cho tiếng Việt gọi tắt là KEBoW lên bộ dữ liệu của [9]. Nhóm nghiên cứu đã áp dụng mô hình NN với 6 lớp ẩn áp dụng hàm kích hoạt tanh với ngõ vào là vectors đặc trưng KEBoW cho tác vụ phân loại bản tin trực tiếng Việt như trong Hình 1.3. Gần đây nhất, nhóm tác giả trong [21] đã cung cấp thêm một bộ dữ liệu các bản tin online Tiếng Việt mới với 25 chủ đề khác nhau gọi là VNNews-01. Nghiên cứu còn thực hiện một loạt khảo sát độ hiệu quả của nhiều bộ phân lớp khác nhau lên tập dữ liệu đề xuất như multinomial NB, multinomial Bernouli NB, logistic regression (LR), KNN, decision tree (DT), random forest (RF), SVM. 3

- Xem thêm -

Tài liệu Phân loại chủ đề bản tin online sử dụng máy học

Tài liệu liên quan

Tài liệu vừa đăng

Tài liệu xem nhiều nhất