Tài liệu Một số phương pháp học máy hiệu quả trong môi trường luồng dữ liệu liên tục

.PDF

141

108

dangvantuan Báo vi phạm

Tải xuống 108

Mô tả:

MỤC LỤC LỜI CAM ĐOAN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . i LỜI CẢM ƠN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ii MỤC LỤC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . iii DANH MỤC CÁC TỪ VIẾT TẮT VÀ THUẬT NGỮ . . . . . . . . . . vi DANH MỤC HÌNH VẼ. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . viii DANH MỤC BẢNG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xi DANH MỤC KÝ HIỆU TOÁN HỌC . . . . . . . . . . . . . . . . . . . . . . . . . . xii MỞ ĐẦU . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . CHƯƠNG 1. KIẾN THỨC NỀN TẢNG . . . . . . . . . . . . . . . . . . . . . . 1 15 1.1. Mô hình Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 1.1.1. Mô hình Bayes tổng quát . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 1.1.2. Mô hình chủ đề ẩn (Latent Dirichlet Allocation (LDA)) . . . . . . . . 17 1.1.3. Mô hình Naive Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 1.2. Tổng quan học mô hình Bayes trên luồng dữ liệu . . . . . . . . . . . . . . . . . . 20 1.3. Các phương pháp học mô hình Bayes trên luồng dữ liệu . . . . . . . . . . . 23 1.4. Tập dữ liệu và độ đo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 1.4.1. Các tập dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 1.4.2. Độ đo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 1.5. Mạng đồ thị tích chập (Graph Convolutional Networks (GCN)) . . . . 31 1.6. Kết luận chương 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 CHƯƠNG 2. KHAI THÁC TRI THỨC TIÊN NGHIỆM TRONG LUỒNG DỮ LIỆU . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 2.1. Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 2.2. Biến đổi tri thức tiên nghiệm trong môi trường luồng dữ liệu. . . . . . . 35 2.2.1. Đề xuất phương pháp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 2.2.2. Một số tính chất của TPS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 iii 2.3. Khai thác tri thức tiên nghiệm dưới dạng vectơ từ . . . . . . . . . . . . . . . . . 41 2.4. Khai thác tri thức tiên nghiệm dưới dạng đồ thị . . . . . . . . . . . . . . . . . . . 43 2.5. Thử nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 2.5.1. Thử nghiệm TPS với Word2vec . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 2.5.2. Thử nghiệm về GCTM với đồ thị tri thức . . . . . . . . . . . . . . . . . . . . . . 53 2.6. Kết luận chương 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 CHƯƠNG 3. DROPOUT VỚI KHẢ NĂNG TỰ THÍCH NGHI CHO LUỒNG DỮ LIỆU . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 3.1. Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 3.2. Dropout với khả năng tự thích nghi cho luồng dữ liệu . . . . . . . . . . . . . . 67 3.2.1. Dropout vô hạn cho dữ liệu luồng . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 3.2.2. Dropout vô hạn với với khả năng tự thích nghi aiDropout . . . . . . 70 3.3. Áp dụng aiDropout cho các mô hình Bayes . . . . . . . . . . . . . . . . . . . . . . . . 72 3.3.1. Áp dụng 1: LDA là mô hình cơ sở . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 3.3.2. Áp dụng 2: NB là mô hình cơ sở . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 3.4. Một số thảo luận về aiDropout . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76 3.5. Thử nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82 3.5.1. Thử nghiệm trên dữ liệu ngắn và nhiễu . . . . . . . . . . . . . . . . . . . . . . . . 82 3.5.2. Đương đầu với sự thay đổi đột ngột của dòng dữ liệu . . . . . . . . . . 87 3.6. Kết luận chương 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88 CHƯƠNG 4. CÂN BẰNG GIỮA TÍNH ỔN ĐỊNH VÀ MỀM DẺO 90 4.1. Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90 4.2. Cân bằng giữa tính ổn định và tính mềm dẻo . . . . . . . . . . . . . . . . . . . . . . 92 4.2.1. Mô hình cân bằng giữa tính ổn định và mềm dẻo (BSP). . . . . . . . 92 4.2.2. Quá trình huấn luyện của BSP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94 4.2.3. Một số tính chất của BSP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96 4.3. Thử nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99 4.3.1. Thử nghiệm trên tập văn bản ngắn và nhiễu . . . . . . . . . . . . . . . . . . 100 4.3.2. Tính ổn định và mềm dẻo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105 4.3.3. Đánh giá ảnh hưởng của các tham số . . . . . . . . . . . . . . . . . . . . . . . . . 107 4.4. Kết luận chương 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109 iv KẾT LUẬN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111 DANH MỤC CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ . . . . . . . . . . . 113 TÀI LIỆU THAM KHẢO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114 v DANH MỤC CÁC TỪ VIẾT TẮT VÀ THUẬT NGỮ Viết tắt Tiếng Anh Tiếng Việt aiDropout Adaptive infinite Dropout Phương pháp Dropout vô hạn với khả năng thích nghi trên luồng dữ liệu BSP Balancing stability and plasticity Phương pháp cân bằng giữa tính ổn định và tính mềm dẻo ELBO Evidence lower bound Cận dưới của chứng cứ EWC Elastic weight consolidation Phương pháp trọng số quan trọng GCN Graph convolutional networks Mạng đồ thị tích chập GCTM Graph convolutional Topic Model Mô hình chủ đề dựa trên đồ thị tích chập HPP Hierarchical Power Priors Tri thức tiên nghiệm dạng luỹ thừa phân cấp iDropout Infinite Dropout for Data Phương pháp Dropout vô hạn trên Streams luồng dữ liệu KL Kullback-Leibler divergence Độ sai khác giữa hai phân phối KPS Keeping Prior for Data Streams Phương pháp giữ tri thức tiên nghiệm trong học luồng dữ liệu LDA Latent Dirichlet Allocation Mô hình LDA LPP Log predictive probability Độ đo xác suất phán đoán Mini-batch Mini-batch Tập nhỏ dữ liệu thu được trong một khoảng thời gian MLP Multi-layer percepton Mạng lan truyền tiến kết nối đầy đủ NPMI Normalized pointwise mutual in- Độ đo thông tin tương hỗ formation PCA Principal component analysis Phương pháp phân tích thành phần cơ bản PVB Population Variational Bayes Suy diễn biến phân Bayes quần thể SVB Streaming Variational Bayes Suy diễn biến phân luồng vi SVB-PP Streaming Variational Bayes with Suy diễn biến phân luồng với tri Power Priors thức tiên nghiệm dạng luỹ thừa SVI Stochastic variational inference Suy diễn biến phân ngẫu nhiên TPS Transformation of Prior Knowl- Phương pháp biến đổi tri thức tiên edge for Data Streams nghiệm cho dữ liệu luồng VCL Variational continual learning Phương pháp biến phân liên tục VI Variational inference Suy diễn biến phân Word2vec Word2vec Biểu diễn vector cho từ vii DANH MỤC HÌNH VẼ 1 Tính tổng quát hóa của các phương pháp khi làm việc với dữ liệu thưa và nhiễu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 2 Tính tổng quát hóa của các phương pháp khi xảy ra sự thay đổi đột ngột của dòng dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . 8 1.1 Biểu diễn đồ thị cho một mô hình Bayes tổng quát B(β, z, x) . . . . . 16 1.2 Biểu diễn đồ thị của mô hình chủ đề (Latent Dirichlet Allocation (LDA)) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 1.3 Biểu diễn đồ thị của SV B khi học dữ liệu luồng. . . . . . . . . . . . . 23 1.4 Biểu diễn đồ thị của KP S . . . . . . . . . . . . . . . . . . . . . . . . . . 24 2.1 Mô hình đồ thị biểu diễn cho TPS . . . . . . . . . . . . . . . . . . . . 37 2.2 TPS cho mô hình LDA. Tri thức tiên nghiệm η được sử dụng trong mỗi mini-batch thông qua hàm biến đổi tri thức được tham số hóa bằng π . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 2.3 Mô hình đồ thị biểu diễn cho GCTM . . . . . . . . . . . . . . . . . . . 44 2.4 Khả năng tổng quát hóa của phương pháp TPS khi so với các phương pháp cơ sở SVB [1], SVB-PP [2], PVB [3] và KPS [4]. LPP càng cao càng tốt. . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 2.5 Tính gắn kết chủ đề của phương pháp TPS khi so với các phương pháp cơ sở SVB [1], SVB-PP [2], PVB [3] và KPS [4]. NPMI càng cao càng tốt. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 2.6 Phân tích vai trò của cơ chế truyền tri thức và tri thức tiên nghiệm. LPP càng cao càng tốt. . . . . . . . . . . . . . . . . . . . . . . 52 2.7 Phân tích tính nhạy cảm của TPS theo σ 2 . . . . . . . . . . . . . . . . 52 2.8 Độ nhạy của TPS với tham số số chủ đề K. . . . . . . . . . . . . . . . 53 2.9 Độ nhạy của TPS với kích thước của mini-batch. . . . . . . . . . . . 54 2.10 Hiệu quả của các phương pháp đề xuất GCTM-WN và GCTMW2V so với các phương pháp cơ sở SVB [1], SVB-PP [2] và PVB [3] xét theo tính tổng quát hóa khi học từ nhiều dữ liệu hơn. LPP càng cao càng tốt. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 viii 2.11 Hiệu quả của các phương pháp đề xuất GCTM-WN và GCTMW2V so với các phương pháp cơ sở SVB [1], SVB-PP [2] và PVB [3] trên dữ liệu Irishtimes. Trong khi hình (a) và (b) thể hiện kết quả trên dữ liệu với nhãn thời gian và không có nhãn thời gian tương ứng. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 2.12 Tính tổng quát hóa khi làm việc với dữ liệu nhiễu của các phương pháp đề xuất GCTM-WN và GCTM-W2V so với các phương pháp cơ sở SVB [1], SVB-PP [2] và PVB [3]. LPP càng cao càng tốt. 59 2.13 Hiệu quả của phương pháp đề xuất GCTM-WN so với các phương pháp cơ sở SVB [1], SVB-PP [2] và PVB [3] khi làm việc với sự thay đổi đột ngột. LPP càng cao càng tốt. . . . . . . . . . . . . . . . . 60 2.14 Hiệu quả của phương pháp đề xuất GCTM-WN so với các phương pháp cơ sở SVB [1], SVB-PP [2] và PVB [3] khi làm việc với sự thay đổi đột ngột. Thứ tự các nhãn lớp thay đổi. LPP càng cao càng tốt. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 2.15 Kết quả của GCTM-WN-W2V khi kết hợp cả đồ thị Wordnet và thuộc tính đỉnh từ Word2vec so sánh với GCTM-WN và GCTMW2V. LPP càng cao càng tốt. . . . . . . . . . . . . . . . . . . . . . . . 62 2.16 Kết quả so sánh của các kiến trúc mạng GCN và MLP. LPP càng cao càng tốt. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 3.1 Mô hình đồ thị biểu diễn cho iDropout và aiDropout. . . . . . . . . . 69 3.2 Kết quả LPP của các phương pháp đề xuất iDropout và aiDropout so với các phương pháp cơ sở SVB [1], SVB-PP [2] và PVB [3] trên các bộ dữ liệu không có nhãn thời gian. LPP càng cao càng tốt. 84 3.3 Kết quả NPMI của các phương pháp đề xuất iDropout và aiDropout so với các phương pháp cơ sở SVB [1], SVB-PP [2] và PVB [3] trên các bộ dữ liệu không có nhãn thời gian. NPMI càng cao càng tốt. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 3.4 Hiệu năng của các phương pháp đề xuất iDropout và aiDropout so với các phương pháp cơ sở SVB [1], SVB-PP [2] và PVB [3] trên tập dữ liệu có nhãn thời gian. LDA là mô hình cơ sở. LPP càng cao càng tốt. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 3.5 Hiệu năng của các phương pháp đề xuất iDropout và aiDropout so với các phương pháp cơ sở SVB [1], SVB-PP [2] và PVB [3] trên tập dữ liệu có nhãn thời gian. NB là mô hình cơ sở. . . . . . . . 86 ix 3.6 Hiệu năng của aiDropout so với iDropout với các tỷ lệ Dropout thay đổi. NB là mô hình cơ sở. . . . . . . . . . . . . . . . . . . . . . . 86 3.7 Hiệu năng của các phương pháp đề xuất iDropout và aiDropout so với các phương pháp cơ sở SVB [1], SVB-PP [2] và PVB [3] khi đối mặt với sự thay đổi đột ngột từ dòng dữ liệu. LDA là mô hình cơ sở. LPP càng cao càng tốt. . . . . . . . . . . . . . . . . . . . . 88 4.1 Hiện tượng quên nghiêm trọng của của các phương pháp học trên luồng dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91 4.2 Mô hình đồ thị của BSP . . . . . . . . . . . . . . . . . . . . . . . . . . 93 4.3 Hiệu năng của phương pháp đề xuất BSP so với các phương pháp cơ sở SVB [1], SVB-PP [2], PVB [3], TPS, iDropout và GCTM về tính tổng quát hóa trên 6 bộ dữ liệu không có nhãn thời gian. LPP càng cao càng tốt. . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 4.4 Chỉ số LPP của phương pháp đề xuất BSP so với các phương pháp cơ sở SVB [1], SVB-PP [2], PVB [3], TPS, iDropout và GCTM trên các tập dữ liệu chứa nhãn thời gian. LPP càng cao càng tốt. . . 103 4.5 Kết quả của phương pháp đề xuất BSP so với các phương pháp cơ sở SVB [1], SVB-PP [2], PVB [3], TPS, iDropout và GCTM khi đối mặt với hiện tượng thay đổi đột ngột của dòng dữ liệu. LPP càng cao càng tốt. . . . . . . . . . . . . . . . . . . . . . . . . . . . 104 4.6 Kiểm tra hiện tượng quên nghiêm trọng của phương pháp đề xuất BSP so với các phương pháp cơ sở SVB [1], SVB-PP [2], PVB [3], TPS, iDropout và GCTM sau khi huấn luyện xong mỗi lớp . . . . . . 105 4.7 Sự thay đổi của mô hình với các giá trị khác nhau của tỉ lệ Dropout khi đối mặt với hiện tượng thay đổi đột ngột của dòng dữ liệu. . . . . 107 4.8 Sự thay đổi của mô hình với các giá trị khác nhau của tỉ lệ Dropout khi đối mặt với hiện tượng quên nghiêm trọng. LPP càng cao càng tốt. Avg LPP càng cao càng tốt. . . . . . . . . . . . . . . . . . . . . . 108 4.9 Hiệu quả của việc tích lũy tất cả các thông tin trong quá khứ khi đối mặt với hiện tượng thay đổi đột ngột của dòng dữ liệu. LPP càng cao càng tốt. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109 4.10 Hiệu quả của việc tích lũy tất cả các thông tin trong quá khứ khi đối mặt với hiện tượng quên nghiêm trọng. Avg LPP càng cao càng tốt.109 7.11 Độ chính xác phân loại của 3 phương pháp trên NB. . . . . . . . . . . 3 x DANH MỤC BẢNG 1.1 Thống kê của các tập dữ liệu . . . . . . . . . . . . . . . . . . . . . . . 29 2.1 Hiệu quả của các phương pháp đề xuất GCTM-WN và GCTMW2V so với các phương pháp cơ sở SVB [1], SVB-PP [2] và PVB [3] theo tính gắn kết chủ đề theo độ đo NPMI. Giá trị NPMI càng cao càng tốt. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 2.2 Tính gắn kết chủ đề của các phương pháp đề xuất GCTM-WN và GCTM-W2V so với các phương pháp cơ sở SVB [1], SVB-PP [2] và PVB [3] trên Irishtimes với nhãn thời gian và không có nhãn thời gian theo độ đo NPMI. . . . . . . . . . . . . . . . . . . . . . . . . 58 2.3 Tính gắn kết chủ đề của các phương pháp đề xuất GCTM-WN và GCTM-W2V so với các phương pháp cơ sở SVB [1], SVB-PP [2] và PVB [3] khi làm việc với dữ liệu nhiễu theo độ đo NPMI. Giá trị NPMI càng cao càng tốt. . . . . . . . . . . . . . . . . . . . . . 60 4.1 Kết quả chỉ số NPMI của phương pháp đề xuất BSP so với các phương pháp cơ sở SVB [1], SVB-PP [2], PVB [3], TPS, iDropout và GCTM. NPMI càng cao càng tốt. . . . . . . . . . . . . . . . . . . . 102 4.2 Chỉ số NPMI của phương pháp đề xuất BSP so với các phương pháp cơ sở SVB [1], SVB-PP [2], PVB [3], TPS, iDropout và GCTM trên tập dữ liệu theo trình tự thời gian. NPMI càng cao càng tốt. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102 7.3 Một số chủ đề về quân đội học được từ bộ dữ liệu Grolier. . . . . . . 3 7.4 Chủ đề về kinh doanh học được từ bộ dữ liệu Irishtimes. . . . . . . . 4 xi DANH MỤC KÝ HIỆU TOÁN HỌC Ký hiệu Ý nghĩa AT Chuyển vị của ma trận A A−1 Ma trận nghịch đảo của ma trận A ∥x∥ Chuẩn của vectơ x diag(v) Ma trận chéo với các phần tử trên đường chéo bằng vectơ v I[k = i] Hàm chỉ thị trả lại 1 khi k = i và 0 nếu ngược lại log(x) Logarit tự nhiên của số thực dương x x⊙y Phép nhân từng cặp thành phần tương ứng (element-wise product) của x và y exp(x) Hàm mũ ex sof tmax Hàm softmax ψ Hàm di-gamma Dir Phân phối Dirichlet M ult Phân phối đa thức Ber Phân phối Bernoulli N (.) Phân phối Gauss KL Độ đo sai khác giữa hai phân phối likelihood Xác suất xảy ra prior Xác suất tiên nghiệm posterior Xác suất hậu nghiệm ⟨M1 , M2 ⟩ Tích vô hướng của dạng vectơ hóa 2 ma trận M1 và M2 xii MỞ ĐẦU 1. Bối cảnh nghiên cứu Trong các ứng dụng hiện đại ngày nay như báo mạng, diễn đàn, mạng xã hội, thương mại điện tử, v.v, dữ liệu được sinh ra liên tục và có thể thu thập trong vô hạn các tập dữ liệu nhỏ (mini-batch). Chúng được biết đến như môi trường luồng. Khả năng phân tích dữ liệu từ môi trường luồng đóng vai trò quan trọng trong thực tế. Dựa trên kết quả phân tích liên tục từ các dữ liệu mới đến, chúng ta có thể thu được các đặc trưng, khuôn mẫu mới để sử dụng cho các phán đoán tương lai. Ví dụ, thông tin tương tác của người dùng trên các trang thương mại điện tử như xem các sản phẩm, thêm sản phẩm vào giỏ hàng, mua các sản phẩm, v.v, được thu thập để phân tích sở thích ngắn hạn và dài hạn của người dùng. Từ đó, hệ thống có thể đưa ra gợi ý các sản phẩm phù hợp tiếp theo cho họ. Trong khi đó, các thuật toán học máy truyền thống không khả thi khi làm việc trên môi trường luồng. Bởi vì, chúng yêu cầu thực hiện một thủ tục lặp trên toàn bộ dữ liệu, trong khi dữ liệu luồng có thể đến liên tục và vô hạn. Phát triển một phương pháp học máy hiệu quả cho luồng dữ liệu đã trở nên vô cùng cấp thiết. Trong môi trường luồng, một phương pháp học máy phải làm việc tốt trên dữ liệu mới đến và không được duyệt lại quá nhiều dữ liệu trong quá khứ. Đây là một chủ đề được quan tâm lớn từ cộng đồng nghiên cứu và có rất nhiều phương pháp được đề xuất [5, 6, 7]. Các phương pháp thường dựa theo một thủ tục lặp: Thu thập dữ liệu mới xuất hiện (theo khoảng thời gian hoặc kích thước tập dữ liệu) và cập nhật mô hình trên dữ liệu mới đó. Các chiến lược học nhanh trên dữ liệu mới và giữ lại tri thức đã học từ liệu cũ trở thành yếu tố cốt lõi trong các phương pháp học luồng. Một số cách tiếp cận đã được sử dụng phổ biến cho mục đích này như sau: Sử dụng chiến lược tối ưu hóa ngẫu nhiên (stochastic approximation), đệ quy Bayes (recursive Bayesian strategy), hiệu chỉnh (regularization), chiến lược mở rộng kiến trúc (architecture strategy), chiến lược huấn luyện lại (rehearsal strategy). Đầu tiên, hướng tối ưu hóa ngẫu nhiên [5, 8, 9, 10, 11] sử dụng các phương pháp tối ưu ngẫu nhiên như dựa trên hướng đạo hàm (như SGD (stochastic gradient descent), NSGD (natural stochastic gradient descent)) để có thể huấn luyện các mô hình trên lần lượt từng 1 mini-batch. Thứ hai, cách tiếp cận dựa trên đệ quy Bayes (recursive Bayesian strategy) [12, 13, 1, 14, 4] và hiệu chỉnh [7, 15, 16] đặt các rằng buộc để giúp tham số mô hình học ở thời điểm hiện tại phải gần với tham số mô hình đã học được ở thời điểm trước đó. Thứ ba, chiến lược mở rộng kiến trúc (architecture strategy) [7, 6, 17] hướng tới giữ lại (đóng băng) các thành phần kiến trúc, tham số quan trọng mà học được từ dữ liệu quá khứ. Đồng thời, kiến trúc sẽ được mở rộng để học các đặc trưng mới từ dữ liệu mới. Cuối cùng, chiến lược huấn luyện lại (rehearsal strategy) [7, 18, 19] sẽ dựa trên việc lưu trữ một số mẫu quan trọng hoặc xây dựng mô hình sinh để sinh lại các mẫu đặc trưng. Từ đó, mô hình sẽ được học trên cả dữ liệu mới và dữ liệu cũ. Các chiến lược này có thể giúp các phương pháp học máy truyền thống làm việc được trong môi trường luồng. 2. Một số thách thức khi học từ luồng dữ liệu Tuy nhiên, việc xây dựng phương pháp học máy để giúp chuyển từ học trong môi trường tĩnh sang làm việc được với luồng dữ liệu là chưa đủ. Luồng dữ liệu đặt ra nhiều thách thức hơn thế rất nhiều [20], ví dụ: Thách thức từ dữ liệu thưa và nhiễu; thách thức về tính khó (intractability) của bài toán suy diễn, thách thức về sự thay đổi đột ngột trong dòng, thách thức về quên nghiêm trọng, thách thức về những đảm bảo lý thuyết của giải thuật học, v.v. Luận án này tập trung vào khảo sát 3 thách thức lớn sau: Thách thức từ luồng dữ liệu thưa và nhiễu (sparse and noisy data), thách thức từ sự thay đổi đột ngột trong luồng dữ liệu (concept drifts), thách thức từ việc quên tri thức cũ khi học trên dữ liệu mới (catastrophic forgetting). Thứ nhất, dữ liệu thưa và nhiễu (sparse and noisy data) gây ra khó khăn lớn cho các phương pháp học máy [21, 22, 23]. Những dữ liệu thưa và nhiễu xuất hiện phổ biến trong thực tế, đặc biệt với thời đại bùng nổ dữ liệu như hiện nay. Ví dụ, văn bản ngắn chỉ bao gồm một vài từ như bình luận trên mạng xã hội, phản ứng của khách hàng trên các cửa hàng trực tuyến hoặc câu hỏi trên các diễn đàn hỏi đáp. Biểu diễn của văn bản theo vectơ từ (như mô hình túi từ, tần suất xuất hiện) là rất thưa khi mà hầu hết các giá trị của các chiều bằng 0, chỉ vài chiều có giá trị khác 0. Mặt khác, các văn bản nhiễu chứa các từ viết tắt, biệt ngữ, từ lóng, lỗi chính tả. Ví dụ khác với hệ gợi ý, các phương pháp học máy thường sử dụng dữ liệu lịch sử tương tác của người dùng như mua hàng, xem hàng để phát hiện ra sở thích của người dùng. Tuy nhiên, lịch sử mua hàng của người dùng trong một hệ thống thương mại điện tử thường rất ít so với một 2 số lượng lớn các sản phẩm trong hệ thống. Hầu hết người dùng chỉ mua một vài món hàng, chỉ một số ít người dùng mua nhiều hàng. Độ thưa thống kê dựa trên tỉ lệ số lượng sản phẩm chưa mua trên tổng số sản phẩm thường lên tới trên 99% [24, 25]. Họ chỉ thực hiện các thao tác nhấp chuột để xem sản phẩm nhiều hơn là mua sản phẩm. Hơn nữa, dữ liệu nhấp chuột xem hàng của người dùng có thể chứa nhiễu như nhấp chuột nhầm, nhấp vào sản phẩm không thích vì chưa xem được chi tiết. Rõ ràng, dữ liệu thưa không cung cấp một ngữ cảnh đầy đủ và dữ liệu nhiễu có thể định hướng sai việc học mô hình. Vì vậy, tính tổng quát hóa của mô hình học được sẽ bị giới hạn khi làm việc với dữ liệu thưa và nhiễu. Thứ hai, sự thay đổi đột ngột của luồng dữ liệu (concept drifts) [26, 27] có thể xuất hiện thường xuyên trong môi trường luồng. Sự thay đổi đột ngột để chỉ sự biến đổi phân phối dữ liệu (p(x)) hoặc thay đổi phân phối xác suất có điều kiện của nhãn khi cho biết trước dữ liệu (p(y|x)) trong môi trường luồng. Ví dụ, trong học chủ đề ẩn không giám sát trên tập dữ liệu tin tức, khi có sự kiện mới (như các tin giật gân) xuất hiện, các chủ đề mới khác biệt nhiều các chủ đề của ngày trước đó sẽ xuất hiện. Hoặc, trong bài toán lái ô tô tự động có giám sát, hệ thống vẫn phải quyết định các hành động tiếp theo (nhãn là sang trái, sang phải, tăng tốc, giảm tốc, v.v) khi xe chuyển từ đường cao tốc sang đường nội đô. Những ví dụ này chỉ ra sự thay đổi đột ngột của dữ liệu trong dòng và dẫn tới yêu cầu các phương pháp phải thích nghi nhanh với sự thay đổi. Tuy nhiên, các phương pháp truyền thống thường giả thiết rằng chỉ có một mô hình duy nhất sinh ra toàn bộ dữ liệu (tương tự giả thiết p(x) không đổi trong toàn bộ quá trình học). Giả thiết này chỉ hợp lý với môi trường tĩnh, nhưng không phù hợp với môi trường luồng dữ liệu. Mô hình nên được thay đổi phù hợp theo các khoảng thời gian. Những đặc trưng mới có thể xuất hiện bất cứ lúc nào trong luồng dữ liệu nên một phương pháp học cần mềm dẻo để thích nghi nhanh với chúng. Thứ ba, việc huấn luyện một mô hình học máy trong môi trường luồng dữ liệu gặp phải một thách thức lớn về việc quên tri thức đã học (catastrophic forgetting) trước đây sau khi học từ nhiều dữ liệu mới hơn. Trong điều kiện luồng dữ liệu, việc truy cập lại dữ liệu cũ là không thực tế vì nó đòi hỏi rất nhiều bộ nhớ và tính toán. Rõ ràng, quên là một vấn đề khó tránh khỏi ở cả con người và hệ thống học máy. Giữ tri thức quá khứ là quan trọng trong thực tế. Nguồn tri thức học từ dữ liệu quá khứ sẽ giúp phương pháp làm việc tốt với dữ liệu có đặc trưng, khuôn mẫu tương tự với cái đã gặp trước đó. Hiện tượng quên nghiêm trọng [28] xảy ra khi một mô hình đã huấn luyện làm việc kém 3 trên dữ liệu với đặc trưng đã gặp trong quá khứ. Một điều thật đáng ngạc nhiên rằng vấn đề quên nghiêm trọng lại không được quan tâm nhiều trong học luồng dữ liệu. Đây là chủ đề chính trong nhánh nghiên cứu học liên tục (continual learning) [29, 30, 15, 31] mà ở đó người ta xem xét học mạng nơ-ron nhân tạo trên một chuỗi nhiều tác vụ khác nhau. Khi đó, các mô hình học máy thường bị quên (không làm việc tốt với tác vụ cũ như trước) khi học các tác vụ mới. Trong một bài báo gần đây [19], các tác giả cũng bày tỏ sự ngạc nhiên của mình về vấn đề này. Sau đó, họ xây dựng một phương pháp tìm ra những dữ liệu quan trọng để lưu trữ lại trong bộ nhớ đệm cho quá trình học lại. Việc tránh quên nằm ở chỗ luyện tập lại trên dữ liệu quá khứ. Tuy nhiên, giải pháp lưu trữ dường như cũng kém khả thi khi luồng dữ liệu lớn và có thể đến vô hạn. 3. Phạm vi nghiên cứu Phát triển các phương pháp học cho luồng dữ liệu là chủ đề lớn trong học máy để giúp cho các mô hình truyền thống làm việc tốt với luồng dữ liệu. Luận án này chỉ tập trung vào xây dựng các phương pháp học cho lớp các mô hình Bayes mà sử dụng ngôn ngữ xác suất để mã hóa các giả thiết về dữ liệu. Cụ thể hơn, luận án tập trung vào các giải pháp để giúp học mô hình Bayes hiệu quả khi đương đầu với 3 thách thức: Luồng dữ liệu thưa và nhiễu; sự thay đổi đột ngột trong luồng dữ liệu; và vấn đề quên nghiêm trọng khi học trong luồng dữ liệu. 3.1. Mô hình Bayes và học mô hình Bayes từ luồng dữ liệu Mô hình Bayes đã trở thành một công cụ mạnh mẽ trong học máy để mô hình hóa sự không chắc chắn của dữ liệu thực tế. Dựa trên các giả thiết về dữ liệu, chúng ta có thể dễ dàng xây dựng một mô hình với các dữ liệu quan sát được (observations), các biến ẩn (hidden variables) và mã hóa quan hệ giữa chúng. Phân phối hậu nghiệm (posterior distribution) sẽ tiết lộ các đặc trưng của dữ liệu và từ đó được sử dụng trong các ứng dụng thực tế. Hơn nữa, một số lượng lớn các phương pháp suy diễn (inference methods) [32, 33] được đề xuất để học một mô hình Bayes tổng quát trong môi trường tĩnh (môi trường không có sự xuất hiện thêm dữ liệu mới trong suốt quá trình huấn luyện). Vì vậy, cách tiếp cận Bayes được sử dụng rộng rãi trong nhiều ứng dụng như khai phá văn bản [34, 35], thị giác máy tính [36], tin sinh [37], v.v. Trong môi trường luồng, các phương pháp học mô hình Bayes thường được chia vào 2 nhóm chính: Tối ưu hóa ngẫu nhiên (stochastic optimization) [38, 39, 4 11, 3, 10] và đệ quy Bayes (recursive Bayesian approach) [12, 13, 1, 3, 14, 4, 29, 40]. Tối ưu hóa ngẫu nhiên [41, 42] là nhóm phương pháp tối ưu với hàm mục tiêu có yếu tố ngẫu nhiên xuất hiện. Khi đó, hàm mục tiêu thường được viết dưới dạng kỳ vọng theo yếu tố ngẫu nhiên. Hướng thứ nhất lợi dụng sức mạnh của tối ưu hóa ngẫu nhiên để làm việc cho luồng dữ liệu. Các phương pháp giả thiết rằng dữ liệu được sinh ngẫu nhiên từ một phân phối dữ liệu và các phương pháp khác nhau thường đưa ra giả thiết khác nhau về phân phối này. Hàm mục tiêu là kỳ vọng theo phân phối dữ liệu. Mỗi mini-batch đến được xem như là dữ liệu sinh ra từ phân phối dữ liệu và dùng cho quá trình học tham số mô hình. Trong khi đó, ý tưởng chính của cách tiếp cận đệ quy Bayes là: Phân phối hậu nghiệm (posterior distribution) học được từ thời điểm hiện tại sẽ được sử dụng làm phân phối tiên nghiệm (prior distribution) của thời điểm tiếp theo. Ý tưởng này hoàn toàn tự nhiên trong thực tế: Tri thức chúng ta học được ngày hôm nay sẽ thành nền tảng để chúng ta làm việc ngày mai. Thông thường, cả hai hướng tiếp cận đều áp dụng dễ dàng cho một lớp các mô hình Bayes có tính liên hợp (conjugate prior) [43]. Vì thế, chúng giúp mô hình thiết kế ban đầu trong môi trường tĩnh có thể làm việc được với luồng dữ liệu. Mức độ phức tạp, khó khăn sẽ tăng lên trong việc đưa ra thuật toán học khi áp dụng chúng cho mô hình không có tính liên hợp (non-conjugate prior) [43]. 3.2. Học mô hình Bayes khi đương đầu với ba thách thức từ luồng dữ liệu Thứ nhất, với luồng dữ liệu thưa và nhiễu, Hình 1 minh họa kết quả về tính tổng quát hóa khi dự đoán trên dữ liệu kiểm tra của 3 phương pháp phổ biến: Phương pháp suy diễn biến phân luồng (Streaming Variational Bayes (SVB)) [1], suy diễn biến phân luồng với tri thức tiên nghiệm dạng luỹ thừa (Streaming Variational Bayes with Power Priors (SVB-PP)) [2] và phương pháp suy diễn biến phân Bayes quần thể (Population Variational Bayes (PVB)) [3] khi đương đầu với luồng dữ liệu thưa và nhiễu. Trong thử nghiệm này1 , mô hình chủ đề (Latent Dirichlet allocation (LDA)) [34] với 100 chủ đề ẩn được học trên tập dữ liệu diễn đàn Yahoo-title2 . Hình 1 chỉ ra rằng cả 3 phương pháp đều làm việc không hiệu quả với luồng dữ liệu thưa và nhiễu dựa trên độ đo xác suất phán đoán (Log Predictive Probability (LPP)) [11]. Mặc dù dữ liệu đến càng nhiều, hiệu năng của chúng không tốt lên mà còn bị đi xuống. Các chứng minh lý thuyết [44, 45] cũng chỉ ra rằng một số mô hình Bayes không thể thu được 1 2 Trình bày về thử nghiệm chi tiết hơn sẽ xuất hiện trong chương 2 https://answers.yahoo.com/ 5 Yahoo −8.75 LPP −9.00 −9.25 −9.50 −9.75 0 20 PVB 40 60 Minibatch 80 SVB-PP SVB 100 Hình 1: Tính tổng quát hóa của SVB [1], SVB-PP [2] và PVB [3] tính theo khả năng dự đoán của mô hình học được trên tập dữ liệu Yahoo-title chứa dữ liệu thưa và nhiễu. Độ đo sử dụng là xác suất phán đoán LPP (Log Predictive Probability) [11] và được tính dựa trên phán đoán khả năng xảy ra của phần văn bản còn lại khi cho trước một phần văn bản. LPP càng cao càng tốt. hiệu quả tốt trên dữ liệu thưa và nhiễu dù cho dữ liệu huấn luyện có rất lớn. Để đương đầu với dữ liệu thưa và nhiễu, có hai cách chính được quan tâm từ đông đảo cộng đồng nghiên cứu: Khai thác tri thức tiên nghiệm (prior/external knowledge) [46, 47, 48] và tổng hợp dữ liệu ngắn [49, 50, 51, 21]. Tri thức tiên nghiệm là các nguồn tri thức từ bên ngoài được thêm vào để làm giàu, định hướng cho việc học mô hình Bayes. Trong khi đó, cách thứ hai hướng tới tổng hợp các dữ liệu thưa (ngắn) tương đồng với nhau lại thành một dữ liệu dày (dài) hơn. Tiếp cận này đặc biệt phù hợp trong xử lý văn bản. Chú ý rằng khai thác tri thức tiên nghiệm có thể cải thiện hiệu quả cho cách thứ hai. Tuy nhiên, các phương pháp học mô hình Bayes thường bỏ qua nguồn tri thức tiên nghiệm khi học trên luồng dữ liệu. Lý do cho vấn đề này có thể vì khi dữ liệu là đủ lớn thì tri thức tiên nghiệm không còn quan trọng. Luận án sẽ tập trung vào xem xét liệu tri thức tiên nghiệm có quan trọng trong học mô hình Bayes từ luồng dữ liệu hay không, đặc biệt với dữ liệu thưa và nhiễu. Thứ hai, vấn đề thay đổi đột ngột của dòng dữ liệu, trong khi hướng nghiên cứu dựa trên tối ưu hóa ngẫu nhiên chưa quan tâm đến chủ đề này, tiếp cận dựa trên đệ quy Bayes trở nên thiếu mềm dẻo để có thể thích nghi với sự thay đổi đột ngột. Các phương pháp dựa trên đệ quy Bayes thường gặp phải vấn đề quá tự tin (overconfidence) [52, 53] sau khi chúng học trên một lượng dữ liệu đủ lớn từ luồng. Cụ thể, phương sai của phân phối hậu nghiệm học được thường bị thu 6 nhỏ lại tới dần giá trị 0. Điều này dẫn tới phân phối hậu nghiệm chỉ tập trung giá trị tại một điểm và mất đi khả năng mã hóa sự không chắc chắn của dữ liệu mới. Đây là một trong những vấn đề lớn cần được giải quyết. Một số nghiên cứu [54, 14, 2, 53, 55] đã hướng đến vấn đề quá tự tin của cách tiếp cận đệ quy Bayes thông qua đề xuất các cơ chế cập nhật mới mềm dẻo hơn. Chúng thường đưa thêm các biến ẩn để xác định xác suất xảy ra thay đổi tại mỗi thời điểm của luồng dữ liệu. Hình 2 minh họa kết quả về tính dự đoán của 3 phương pháp: SVB [1], SVB-PP [2] và PVB [3] khi đương đầu với sự thay đổi đột ngột. Mô hình chủ đề LDA [34] với 100 chủ đề ẩn được sử dụng để học trên tập dữ liệu Irishtime3 . Trong thử nghiệm này, có một số lần dữ liệu thay đổi đặc trưng đột ngột. Hình 2 chỉ ra rằng cách tiếp cận đệ quy Bayes truyền thống trong SVB không thể hồi phục hiệu năng sau lần thay đổi thứ hai trong luồng dữ liệu. Cũng khoảng thời gian đó, SVB-PP khắc phục vấn đề quá tự tin của SVB nên nó có thể khôi phục hiệu năng tốt hơn chỉ sau một số lượt dữ liệu mới đến (mini-batch). PVB tiếp cận theo tối ưu hóa ngẫu nhiên và cũng không gặp vấn đề như SVB. Mặc dù, SVB-PP thu được kết quả tốt nhất nhưng nhóm các phương pháp tăng cường tính mềm dẻo hiện tại vẫn có những hạn chế nhất định. Bởi vì đưa thêm các biến ẩn để mã hóa cho sự thay đổi của luồng dữ liệu, các mô hình thường trở nên mất tính liên hợp (non-conjugate prior) và yêu cầu nhiều nỗ lực để tìm lời giải xấp xỉ. Hơn nữa, việc tính xác suất xảy ra thay đổi tại mỗi thời điểm phụ thuộc vào xác suất xảy ra thay đổi trong thời gian quá khứ. Điều đó dẫn đến các giải pháp này yêu cầu thực hiện khối lượng tính toán lớn [53, 14, 2]. Trong nhiều trường hợp, các phương pháp [54, 55] yêu cầu lưu trữ nhiều mô hình ứng với khả năng xảy ra thay đổi trong chuỗi thời gian của luồng dữ liệu. Mặc dù các chiến lược cắt tỉa bớt các khả năng xảy ra thấp được đề ra để giảm lưu trữ, nhưng chúng vẫn tốn kém và khó triển khai với mô hình lớn. Một giải pháp dễ thực hiện và không cần lưu trữ nhiều mô hình sẽ có ý nghĩa lớn trong thực tế. Cuối cùng, các phương pháp học máy cho mô hình Bayes trong luồng dữ liệu vẫn chưa quan tâm nhiều tới vấn đề quên nghiêm trọng. Mặc dù, các phương pháp học trên luồng dữ liệu thuộc cả 2 nhóm: Tối ưu ngẫu nhiên và đệ quy Bayes đều có cơ chế giữ lại tri thức của mini-batch trước đó cho việc học tốt trên dữ liệu hiện tại. Tuy nhiên, các cơ chế này thường chỉ ràng buộc giữa 2 mini-batch kế tiếp nhau, nên chúng dễ bị quên tri thức ở xa hơn. Đây là một vấn đề mà luận án sẽ hướng tới nhằm xây dựng cơ chế tích hợp tri thức từ quá khứ xa hơn. 3 https://www.kaggle.com/therohk/ireland-historical-news/ 7 Irish −8.5 Times LPP −9.0 −9.5 −10.0 −10.5 0 100 200 300 400 500 600 700 Minibatch PVB SVB-PP SVB Hình 2: Tính tổng quát hóa của SVB [1], SVB-PP [2] và PVB [3] tính theo khả năng dự đoán của mô hình học được trên tập dữ liệu Irishtime khi một số thời điểm xảy ra sự thay đổi đột ngột (tại các mini-batch 356, 410, 521, 559, 650). LPP càng cao càng tốt. 4. Động lực nghiên cứu Khai thác tri thức tiên nghiệm và sử dụng kỹ thuật Dropout là các cách tiếp cận tiềm năng để đương đầu với các thách thức về dữ liệu thưa, ngắn và thay đổi đột ngột của luồng dữ liệu. Rõ ràng, tri thức tiên nghiệm [56, 57, 58] đến từ con người hoặc thu được sau khi huấn luyện mô hình (pre-trained model) trên tập dữ liệu rất lớn có thể cung cấp những thông tin giá trị. Vì vậy, nó đóng vai trò quan trọng để làm giàu cho một mô hình Bayes khi làm việc với dữ liệu thưa và nhiễu. Hơn nữa, các nguồn tri thức từ con người như Wordnet hoặc tri thức dưới dạng các mô hình huấn luyện trên dữ liệu lớn thường mang thông tin toàn cục, tổng thể. Chúng chứa đựng nhiều ngữ cảnh mà có thể liên quan trực tiếp tới những đặc trưng mới xuất hiện trong luồng dữ liệu chúng ta đang phải làm việc. Vì thế, khai thác nguồn tri thức tiên nghiệm có thể đương đầu với sự thay đổi đột ngột của luồng dữ liệu. Trong khi đó, Dropout [59] được biết đến rộng rãi như một kỹ thuật hiệu chỉnh (regularization) hiệu quả để tránh hiện tượng quá khớp [60]. Hơn nữa, Dropout cung cấp một cách hiệu quả để kết hợp một số lượng hàm mũ các mô hình [61]. Tính chất này của Dropout giống như một dạng của học kết hợp (ensemble learning). Vì thế, Dropout cũng có thể làm việc tốt với dữ liệu thưa và nhiễu cũng như có sự thay đổi đột ngột. Mặc dù cả hai cách tiếp cận dựa trên khai thác tri thức tiên nghiệm và Dropout là tiềm năng, nhưng chúng chưa được xem xét đầy đủ trong môi trường 8 luồng dữ liệu, đặc biệt cho mô hình Bayes. Dưới góc nhìn của cách tiếp cận Bayes, tri thức từ phân phối tiên nghiệm không đóng vai trò quan trọng khi dữ liệu huấn luyện đủ lớn. Cụ thể, khi dữ liệu lớn lượng tri thức học được từ dữ liệu sẽ vượt trội từ tri thức tiên nghiệm. Tuy nhiên, luồng dữ liệu được thu thập vào trong các mini-batch liên tiếp và huấn luyện mô hình được thực hiện trên từng mini-batch thay vì huấn luyện trên toàn bộ dữ liệu của luồng. Khi đó, sử dụng tri thức tiên nghiệm sẽ cải thiện chất lượng mô hình học được trên từng mini-batch. Hơn nữa, chúng ta cũng không biết đến khi nào thì dữ liệu là đủ nhiều để không cần sử dụng đến tri thức tiên nghiệm. Vì vậy, khai thác tri thức tiên nghiệm vẫn cần được nghiên cứu cẩn thận trong môi trường luồng. Mặt khác, các ứng dụng của Dropout vẫn hạn chế trong môi trường dữ liệu tĩnh. Gần đây, Guzy và các cộng sự [17] đã chỉ ra rằng Dropout có thể làm việc tốt với luồng dữ liệu. Đặc biệt, Dropout cải thiện hiệu quả rõ ràng khi làm việc với luồng dữ liệu có sự thay đổi đột ngột bởi vì nó hướng tới sử dụng các mô hình con trong tập các mô hình kết hợp để làm việc phù hợp với các đặc trưng mới. Tuy nhiên, công việc này cũng chỉ tập trung vào các mạng nơ-ron thông thường và nó cũng chưa xem xét một cơ chế điều chỉnh tỷ lệ Dropout tự động. Mặt khác, với thách thức quên tri thức đã học, xây dựng cơ chế hiệu chỉnh ràng buộc trên tri thức từ tất cả thời điểm quá khứ có thể là giải pháp hiệu quả để tránh quên. Cách tiếp cận học luồng dữ liệu trước đây dựa trên tối ưu hóa ngẫu nhiên và đệ quy Bayes thường chỉ xây dựng ràng buộc trên 2 mini-batch liên tiếp. Điều đó dẫn đến việc quên tri thức cũ dễ dàng xảy ra. Tuy nhiên, khi thiết lập không khéo léo một đại lượng hiệu chỉnh trên toàn bộ các mô hình từ quá khứ sẽ dẫn đến việc phải lưu trữ tất cả các mô hình trước đó. Điều này là không khả thi với luồng dữ liệu. Hơn nữa, ràng buộc quá nhiều trên mô hình quá khứ cũng có thể dẫn đến hạn chế khi nó quá ổn định và thiếu mềm dẻo để làm việc với sự thay đổi đột ngột trong luồng. Một cơ chế hiệu chỉnh tốt sẽ đóng vai trò quan trọng để mô hình làm việc tốt với luồng dữ liệu. 5. Vấn đề nghiên cứu Luận án này hướng tới xây dựng các phương pháp có thể học một mô hình Bayes tổng quát cho một tác vụ trên luồng dữ liệu. Các phương pháp này có thể làm việc hiệu quả với các thách thức đưa ra. Luận án sẽ tập trung vào ba vấn đề nghiên cứu chính sau: • Thứ nhất, liệu tri thức tiên nghiệm có giúp mô hình Bayes đương đầu tốt với các thách thức về dữ liệu thưa và nhiễu cũng như sự thay đổi đột ngột 9 của luồng? Nhiều nguồn tri thức giá trị đang tồn tại sẵn có cho sử dụng như tri thức mã hóa trong các mô hình đã được huấn luyện trên các tập dữ liệu lớn (pre-trained model), đồ thị tri thức Wordnet, Wikipedia, các mạng ngữ nghĩa. Khai thác hiệu quả các nguồn tri thức này có thể làm giàu cho mô hình Bayes để đương đầu với các thách thức từ luồng dữ liệu. Tuy nhiên, chúng chỉ được xem xét khai thác trong môi trường tĩnh. Trong môi trường luồng dữ liệu, chỉ phương pháp giữ lại tri thức tiên nghiệm (Keeping prior for data streams (KPS)) [4, 62] xem xét vai trò của tri thức tiên nghiệm. Mặc dù vậy, KPS có 2 hạn chế cần được khắc phục: Không khai khác được nhiều kiểu tri thức tiên nghiệm và không có cơ chế cân bằng giữa tri thức tiên nghiệm và tri thức học từ trước đó. Để đưa ra một phương pháp khai thác tri thức tiên nghiệm với nhiều dạng biểu diễn khác nhau (như vectơ, ma trận, đồ thị) hiệu quả trong môi trường luồng, sẽ có hai vấn đề cần giải quyết. Thứ nhất, cần xây dựng một cơ chế tổng quát cho phép biến đổi tri thức tiên nghiệm với các dạng biểu diễn khác nhau về dạng phù hợp với một mô hình Bayes cho trước. Thứ hai là kỹ thuật phát triển các thuật toán học trên luồng dữ liệu cho một lớp rộng lớn các mô hình Bayes. Điều kỳ vọng lớn ở đây là chúng sẽ chỉ cần thực hiện thay đổi một phần của thuật toán gốc (được thiết kế cho dữ liệu tĩnh) để phù hợp cho luồng dữ liệu. Phần thuật toán thiết kế cho từng điểm dữ liệu cục bộ nên được kế thừa hoặc giữ nguyên, sự thay đổi chỉ nên thực hiện trên biến toàn cục liên kết giữa các mini-batch. Điều này có thể mang lại lợi ích lớn khi có thể áp dụng giải pháp đề xuất cho một lớp lớn các mô hình Bayes đã hiệu quả cho dữ liệu tĩnh. • Thứ hai, liệu Dropout có thể tăng tính mềm dẻo và khái quát hóa khi sử dụng cho mô hình Bayes trên luồng dữ liệu? Vấn đề nghiên cứu này hướng đến tận dụng các điểm mạnh của Dropout để đương đầu với các thách thức về dữ liệu thưa và nhiễu cũng như sự thay đổi đột ngột của luồng. Dropout giúp giảm bớt vấn đề quá khớp do dữ liệu thưa và nhiễu gây ra. Nó cũng có cơ chế học kết hợp nhiều mô hình để làm việc tốt với sự thay đổi đột ngột của luồng dữ liệu. Song song với công việc trong luận án, nghiên cứu gần đây [17] đã sử dụng Dropout trong môi trường luồng dữ liệu và tìm thấy sự hiệu quả của nó đối mặt với thay đổi đột ngột trên luồng. Tuy nhiên, hệ số Dropout trong công việc này vẫn phải điều chỉnh thủ công và sử dụng cho mạng nơ-ron tất định (không có tham số là biến ngẫu nhiên). Rõ ràng, dữ liệu luồng thay đổi khó đoán biết, một cơ chế tự thích nghi trên hệ số 10

- Xem thêm -

Tài liệu Một số phương pháp học máy hiệu quả trong môi trường luồng dữ liệu liên tục

Tài liệu liên quan

Tài liệu vừa đăng

Tài liệu xem nhiều nhất