MỤC LỤC
LỜI CAM ĐOAN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
i
LỜI CẢM ƠN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
ii
MỤC LỤC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
iii
DANH MỤC CÁC TỪ VIẾT TẮT VÀ THUẬT NGỮ . . . . . . . . . .
vi
DANH MỤC HÌNH VẼ. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
viii
DANH MỤC BẢNG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
xi
DANH MỤC KÝ HIỆU TOÁN HỌC . . . . . . . . . . . . . . . . . . . . . . . . . .
xii
MỞ ĐẦU . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
CHƯƠNG 1. KIẾN THỨC NỀN TẢNG . . . . . . . . . . . . . . . . . . . . . .
1
15
1.1. Mô hình Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
15
1.1.1. Mô hình Bayes tổng quát . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
15
1.1.2. Mô hình chủ đề ẩn (Latent Dirichlet Allocation (LDA)) . . . . . . . .
17
1.1.3. Mô hình Naive Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
20
1.2. Tổng quan học mô hình Bayes trên luồng dữ liệu . . . . . . . . . . . . . . . . . .
20
1.3. Các phương pháp học mô hình Bayes trên luồng dữ liệu . . . . . . . . . . .
23
1.4. Tập dữ liệu và độ đo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
28
1.4.1. Các tập dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
28
1.4.2. Độ đo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
30
1.5. Mạng đồ thị tích chập (Graph Convolutional Networks (GCN)) . . . .
31
1.6. Kết luận chương 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
32
CHƯƠNG 2. KHAI THÁC TRI THỨC TIÊN NGHIỆM TRONG
LUỒNG DỮ LIỆU . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
33
2.1. Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
33
2.2. Biến đổi tri thức tiên nghiệm trong môi trường luồng dữ liệu. . . . . . .
35
2.2.1. Đề xuất phương pháp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
35
2.2.2. Một số tính chất của TPS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
38
iii
2.3. Khai thác tri thức tiên nghiệm dưới dạng vectơ từ . . . . . . . . . . . . . . . . .
41
2.4. Khai thác tri thức tiên nghiệm dưới dạng đồ thị . . . . . . . . . . . . . . . . . . .
43
2.5. Thử nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
47
2.5.1. Thử nghiệm TPS với Word2vec . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
49
2.5.2. Thử nghiệm về GCTM với đồ thị tri thức . . . . . . . . . . . . . . . . . . . . . .
53
2.6. Kết luận chương 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
63
CHƯƠNG 3. DROPOUT VỚI KHẢ NĂNG TỰ THÍCH NGHI CHO
LUỒNG DỮ LIỆU . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
65
3.1. Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
65
3.2. Dropout với khả năng tự thích nghi cho luồng dữ liệu . . . . . . . . . . . . . .
67
3.2.1. Dropout vô hạn cho dữ liệu luồng . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
67
3.2.2. Dropout vô hạn với với khả năng tự thích nghi aiDropout . . . . . .
70
3.3. Áp dụng aiDropout cho các mô hình Bayes . . . . . . . . . . . . . . . . . . . . . . . .
72
3.3.1. Áp dụng 1: LDA là mô hình cơ sở . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
73
3.3.2. Áp dụng 2: NB là mô hình cơ sở . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
75
3.4. Một số thảo luận về aiDropout . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
76
3.5. Thử nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
82
3.5.1. Thử nghiệm trên dữ liệu ngắn và nhiễu . . . . . . . . . . . . . . . . . . . . . . . .
82
3.5.2. Đương đầu với sự thay đổi đột ngột của dòng dữ liệu . . . . . . . . . .
87
3.6. Kết luận chương 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
88
CHƯƠNG 4. CÂN BẰNG GIỮA TÍNH ỔN ĐỊNH VÀ MỀM DẺO
90
4.1. Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
90
4.2. Cân bằng giữa tính ổn định và tính mềm dẻo . . . . . . . . . . . . . . . . . . . . . .
92
4.2.1. Mô hình cân bằng giữa tính ổn định và mềm dẻo (BSP). . . . . . . .
92
4.2.2. Quá trình huấn luyện của BSP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
94
4.2.3. Một số tính chất của BSP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
96
4.3. Thử nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
99
4.3.1. Thử nghiệm trên tập văn bản ngắn và nhiễu . . . . . . . . . . . . . . . . . .
100
4.3.2. Tính ổn định và mềm dẻo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
105
4.3.3. Đánh giá ảnh hưởng của các tham số . . . . . . . . . . . . . . . . . . . . . . . . .
107
4.4. Kết luận chương 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
109
iv
KẾT LUẬN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
111
DANH MỤC CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ . . . . . . . . . . .
113
TÀI LIỆU THAM KHẢO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
114
v
DANH MỤC CÁC TỪ VIẾT TẮT
VÀ THUẬT NGỮ
Viết tắt
Tiếng Anh
Tiếng Việt
aiDropout
Adaptive infinite Dropout
Phương pháp Dropout vô hạn với
khả năng thích nghi trên luồng dữ
liệu
BSP
Balancing stability and plasticity Phương pháp cân bằng giữa tính ổn
định và tính mềm dẻo
ELBO
Evidence lower bound
Cận dưới của chứng cứ
EWC
Elastic weight consolidation
Phương pháp trọng số quan trọng
GCN
Graph convolutional networks
Mạng đồ thị tích chập
GCTM
Graph convolutional Topic Model Mô hình chủ đề dựa trên đồ thị tích
chập
HPP
Hierarchical Power Priors
Tri thức tiên nghiệm dạng luỹ thừa
phân cấp
iDropout
Infinite
Dropout
for
Data Phương pháp Dropout vô hạn trên
Streams
luồng dữ liệu
KL
Kullback-Leibler divergence
Độ sai khác giữa hai phân phối
KPS
Keeping Prior for Data Streams
Phương pháp giữ tri thức tiên
nghiệm trong học luồng dữ liệu
LDA
Latent Dirichlet Allocation
Mô hình LDA
LPP
Log predictive probability
Độ đo xác suất phán đoán
Mini-batch Mini-batch
Tập nhỏ dữ liệu thu được trong một
khoảng thời gian
MLP
Multi-layer percepton
Mạng lan truyền tiến kết nối đầy đủ
NPMI
Normalized pointwise mutual in- Độ đo thông tin tương hỗ
formation
PCA
Principal component analysis
Phương pháp phân tích thành phần
cơ bản
PVB
Population Variational Bayes
Suy diễn biến phân Bayes quần thể
SVB
Streaming Variational Bayes
Suy diễn biến phân luồng
vi
SVB-PP
Streaming Variational Bayes with Suy diễn biến phân luồng với tri
Power Priors
thức tiên nghiệm dạng luỹ thừa
SVI
Stochastic variational inference
Suy diễn biến phân ngẫu nhiên
TPS
Transformation of Prior Knowl- Phương pháp biến đổi tri thức tiên
edge for Data Streams
nghiệm cho dữ liệu luồng
VCL
Variational continual learning
Phương pháp biến phân liên tục
VI
Variational inference
Suy diễn biến phân
Word2vec
Word2vec
Biểu diễn vector cho từ
vii
DANH MỤC HÌNH VẼ
1
Tính tổng quát hóa của các phương pháp khi làm việc với dữ liệu
thưa và nhiễu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2
Tính tổng quát hóa của các phương pháp khi xảy ra sự thay đổi
đột ngột của dòng dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.1
Biểu diễn đồ thị cho một mô hình Bayes tổng quát B(β, z, x) . . . . . 16
1.2
Biểu diễn đồ thị của mô hình chủ đề (Latent Dirichlet Allocation
(LDA)) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.3
Biểu diễn đồ thị của SV B khi học dữ liệu luồng. . . . . . . . . . . . . 23
1.4
Biểu diễn đồ thị của KP S . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.1
Mô hình đồ thị biểu diễn cho TPS . . . . . . . . . . . . . . . . . . . . 37
2.2
TPS cho mô hình LDA. Tri thức tiên nghiệm η được sử dụng
trong mỗi mini-batch thông qua hàm biến đổi tri thức được tham
số hóa bằng π . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
2.3
Mô hình đồ thị biểu diễn cho GCTM . . . . . . . . . . . . . . . . . . . 44
2.4
Khả năng tổng quát hóa của phương pháp TPS khi so với các
phương pháp cơ sở SVB [1], SVB-PP [2], PVB [3] và KPS [4].
LPP càng cao càng tốt. . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
2.5
Tính gắn kết chủ đề của phương pháp TPS khi so với các phương
pháp cơ sở SVB [1], SVB-PP [2], PVB [3] và KPS [4]. NPMI càng
cao càng tốt. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
2.6
Phân tích vai trò của cơ chế truyền tri thức và tri thức tiên
nghiệm. LPP càng cao càng tốt. . . . . . . . . . . . . . . . . . . . . . . 52
2.7
Phân tích tính nhạy cảm của TPS theo σ 2 . . . . . . . . . . . . . . . . 52
2.8
Độ nhạy của TPS với tham số số chủ đề K. . . . . . . . . . . . . . . . 53
2.9
Độ nhạy của TPS với kích thước của mini-batch.
. . . . . . . . . . . 54
2.10 Hiệu quả của các phương pháp đề xuất GCTM-WN và GCTMW2V so với các phương pháp cơ sở SVB [1], SVB-PP [2] và PVB
[3] xét theo tính tổng quát hóa khi học từ nhiều dữ liệu hơn. LPP
càng cao càng tốt. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
viii
2.11 Hiệu quả của các phương pháp đề xuất GCTM-WN và GCTMW2V so với các phương pháp cơ sở SVB [1], SVB-PP [2] và PVB
[3] trên dữ liệu Irishtimes. Trong khi hình (a) và (b) thể hiện kết
quả trên dữ liệu với nhãn thời gian và không có nhãn thời gian
tương ứng. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
2.12 Tính tổng quát hóa khi làm việc với dữ liệu nhiễu của các phương
pháp đề xuất GCTM-WN và GCTM-W2V so với các phương
pháp cơ sở SVB [1], SVB-PP [2] và PVB [3]. LPP càng cao càng tốt. 59
2.13 Hiệu quả của phương pháp đề xuất GCTM-WN so với các phương
pháp cơ sở SVB [1], SVB-PP [2] và PVB [3] khi làm việc với sự
thay đổi đột ngột. LPP càng cao càng tốt. . . . . . . . . . . . . . . . . 60
2.14 Hiệu quả của phương pháp đề xuất GCTM-WN so với các phương
pháp cơ sở SVB [1], SVB-PP [2] và PVB [3] khi làm việc với sự
thay đổi đột ngột. Thứ tự các nhãn lớp thay đổi. LPP càng cao
càng tốt. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
2.15 Kết quả của GCTM-WN-W2V khi kết hợp cả đồ thị Wordnet và
thuộc tính đỉnh từ Word2vec so sánh với GCTM-WN và GCTMW2V. LPP càng cao càng tốt. . . . . . . . . . . . . . . . . . . . . . . . 62
2.16 Kết quả so sánh của các kiến trúc mạng GCN và MLP. LPP càng
cao càng tốt. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
3.1
Mô hình đồ thị biểu diễn cho iDropout và aiDropout. . . . . . . . . . 69
3.2
Kết quả LPP của các phương pháp đề xuất iDropout và aiDropout
so với các phương pháp cơ sở SVB [1], SVB-PP [2] và PVB [3]
trên các bộ dữ liệu không có nhãn thời gian. LPP càng cao càng tốt. 84
3.3
Kết quả NPMI của các phương pháp đề xuất iDropout và aiDropout
so với các phương pháp cơ sở SVB [1], SVB-PP [2] và PVB [3]
trên các bộ dữ liệu không có nhãn thời gian. NPMI càng cao càng
tốt. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
3.4
Hiệu năng của các phương pháp đề xuất iDropout và aiDropout
so với các phương pháp cơ sở SVB [1], SVB-PP [2] và PVB [3]
trên tập dữ liệu có nhãn thời gian. LDA là mô hình cơ sở. LPP
càng cao càng tốt. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
3.5
Hiệu năng của các phương pháp đề xuất iDropout và aiDropout
so với các phương pháp cơ sở SVB [1], SVB-PP [2] và PVB [3]
trên tập dữ liệu có nhãn thời gian. NB là mô hình cơ sở. . . . . . . . 86
ix
3.6
Hiệu năng của aiDropout so với iDropout với các tỷ lệ Dropout
thay đổi. NB là mô hình cơ sở. . . . . . . . . . . . . . . . . . . . . . . 86
3.7
Hiệu năng của các phương pháp đề xuất iDropout và aiDropout
so với các phương pháp cơ sở SVB [1], SVB-PP [2] và PVB [3]
khi đối mặt với sự thay đổi đột ngột từ dòng dữ liệu. LDA là mô
hình cơ sở. LPP càng cao càng tốt. . . . . . . . . . . . . . . . . . . . . 88
4.1
Hiện tượng quên nghiêm trọng của của các phương pháp học trên
luồng dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
4.2
Mô hình đồ thị của BSP . . . . . . . . . . . . . . . . . . . . . . . . . . 93
4.3
Hiệu năng của phương pháp đề xuất BSP so với các phương pháp
cơ sở SVB [1], SVB-PP [2], PVB [3], TPS, iDropout và GCTM
về tính tổng quát hóa trên 6 bộ dữ liệu không có nhãn thời gian.
LPP càng cao càng tốt. . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
4.4
Chỉ số LPP của phương pháp đề xuất BSP so với các phương pháp
cơ sở SVB [1], SVB-PP [2], PVB [3], TPS, iDropout và GCTM
trên các tập dữ liệu chứa nhãn thời gian. LPP càng cao càng tốt. . . 103
4.5
Kết quả của phương pháp đề xuất BSP so với các phương pháp
cơ sở SVB [1], SVB-PP [2], PVB [3], TPS, iDropout và GCTM
khi đối mặt với hiện tượng thay đổi đột ngột của dòng dữ liệu.
LPP càng cao càng tốt. . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
4.6
Kiểm tra hiện tượng quên nghiêm trọng của phương pháp đề xuất
BSP so với các phương pháp cơ sở SVB [1], SVB-PP [2], PVB [3],
TPS, iDropout và GCTM sau khi huấn luyện xong mỗi lớp . . . . . . 105
4.7
Sự thay đổi của mô hình với các giá trị khác nhau của tỉ lệ Dropout
khi đối mặt với hiện tượng thay đổi đột ngột của dòng dữ liệu. . . . . 107
4.8
Sự thay đổi của mô hình với các giá trị khác nhau của tỉ lệ Dropout
khi đối mặt với hiện tượng quên nghiêm trọng. LPP càng cao càng
tốt. Avg LPP càng cao càng tốt. . . . . . . . . . . . . . . . . . . . . . 108
4.9
Hiệu quả của việc tích lũy tất cả các thông tin trong quá khứ khi
đối mặt với hiện tượng thay đổi đột ngột của dòng dữ liệu. LPP
càng cao càng tốt. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
4.10 Hiệu quả của việc tích lũy tất cả các thông tin trong quá khứ khi
đối mặt với hiện tượng quên nghiêm trọng. Avg LPP càng cao càng tốt.109
7.11 Độ chính xác phân loại của 3 phương pháp trên NB. . . . . . . . . . . 3
x
DANH MỤC BẢNG
1.1
Thống kê của các tập dữ liệu . . . . . . . . . . . . . . . . . . . . . . . 29
2.1
Hiệu quả của các phương pháp đề xuất GCTM-WN và GCTMW2V so với các phương pháp cơ sở SVB [1], SVB-PP [2] và PVB
[3] theo tính gắn kết chủ đề theo độ đo NPMI. Giá trị NPMI càng
cao càng tốt. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
2.2
Tính gắn kết chủ đề của các phương pháp đề xuất GCTM-WN và
GCTM-W2V so với các phương pháp cơ sở SVB [1], SVB-PP [2]
và PVB [3] trên Irishtimes với nhãn thời gian và không có nhãn
thời gian theo độ đo NPMI. . . . . . . . . . . . . . . . . . . . . . . . . 58
2.3
Tính gắn kết chủ đề của các phương pháp đề xuất GCTM-WN
và GCTM-W2V so với các phương pháp cơ sở SVB [1], SVB-PP
[2] và PVB [3] khi làm việc với dữ liệu nhiễu theo độ đo NPMI.
Giá trị NPMI càng cao càng tốt. . . . . . . . . . . . . . . . . . . . . . 60
4.1
Kết quả chỉ số NPMI của phương pháp đề xuất BSP so với các
phương pháp cơ sở SVB [1], SVB-PP [2], PVB [3], TPS, iDropout
và GCTM. NPMI càng cao càng tốt. . . . . . . . . . . . . . . . . . . . 102
4.2
Chỉ số NPMI của phương pháp đề xuất BSP so với các phương
pháp cơ sở SVB [1], SVB-PP [2], PVB [3], TPS, iDropout và
GCTM trên tập dữ liệu theo trình tự thời gian. NPMI càng cao
càng tốt. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
7.3
Một số chủ đề về quân đội học được từ bộ dữ liệu Grolier. . . . . . . 3
7.4
Chủ đề về kinh doanh học được từ bộ dữ liệu Irishtimes. . . . . . . . 4
xi
DANH MỤC KÝ HIỆU TOÁN HỌC
Ký hiệu Ý nghĩa
AT
Chuyển vị của ma trận A
A−1
Ma trận nghịch đảo của ma trận A
∥x∥
Chuẩn của vectơ x
diag(v)
Ma trận chéo với các phần tử trên đường chéo
bằng vectơ v
I[k = i]
Hàm chỉ thị trả lại 1 khi k = i và 0 nếu ngược
lại
log(x)
Logarit tự nhiên của số thực dương x
x⊙y
Phép nhân từng cặp thành phần tương ứng
(element-wise product) của x và y
exp(x)
Hàm mũ ex
sof tmax
Hàm softmax
ψ
Hàm di-gamma
Dir
Phân phối Dirichlet
M ult
Phân phối đa thức
Ber
Phân phối Bernoulli
N (.)
Phân phối Gauss
KL
Độ đo sai khác giữa hai phân phối
likelihood Xác suất xảy ra
prior
Xác suất tiên nghiệm
posterior
Xác suất hậu nghiệm
⟨M1 , M2 ⟩
Tích vô hướng của dạng vectơ hóa 2 ma trận
M1 và M2
xii
MỞ ĐẦU
1. Bối cảnh nghiên cứu
Trong các ứng dụng hiện đại ngày nay như báo mạng, diễn đàn, mạng xã
hội, thương mại điện tử, v.v, dữ liệu được sinh ra liên tục và có thể thu thập
trong vô hạn các tập dữ liệu nhỏ (mini-batch). Chúng được biết đến như môi
trường luồng. Khả năng phân tích dữ liệu từ môi trường luồng đóng vai trò quan
trọng trong thực tế. Dựa trên kết quả phân tích liên tục từ các dữ liệu mới đến,
chúng ta có thể thu được các đặc trưng, khuôn mẫu mới để sử dụng cho các
phán đoán tương lai. Ví dụ, thông tin tương tác của người dùng trên các trang
thương mại điện tử như xem các sản phẩm, thêm sản phẩm vào giỏ hàng, mua
các sản phẩm, v.v, được thu thập để phân tích sở thích ngắn hạn và dài hạn
của người dùng. Từ đó, hệ thống có thể đưa ra gợi ý các sản phẩm phù hợp tiếp
theo cho họ. Trong khi đó, các thuật toán học máy truyền thống không khả thi
khi làm việc trên môi trường luồng. Bởi vì, chúng yêu cầu thực hiện một thủ tục
lặp trên toàn bộ dữ liệu, trong khi dữ liệu luồng có thể đến liên tục và vô hạn.
Phát triển một phương pháp học máy hiệu quả cho luồng dữ liệu đã trở nên vô
cùng cấp thiết.
Trong môi trường luồng, một phương pháp học máy phải làm việc tốt trên
dữ liệu mới đến và không được duyệt lại quá nhiều dữ liệu trong quá khứ. Đây
là một chủ đề được quan tâm lớn từ cộng đồng nghiên cứu và có rất nhiều
phương pháp được đề xuất [5, 6, 7]. Các phương pháp thường dựa theo một
thủ tục lặp: Thu thập dữ liệu mới xuất hiện (theo khoảng thời gian hoặc kích
thước tập dữ liệu) và cập nhật mô hình trên dữ liệu mới đó. Các chiến lược
học nhanh trên dữ liệu mới và giữ lại tri thức đã học từ liệu cũ trở thành yếu
tố cốt lõi trong các phương pháp học luồng. Một số cách tiếp cận đã được sử
dụng phổ biến cho mục đích này như sau: Sử dụng chiến lược tối ưu hóa ngẫu
nhiên (stochastic approximation), đệ quy Bayes (recursive Bayesian strategy),
hiệu chỉnh (regularization), chiến lược mở rộng kiến trúc (architecture strategy),
chiến lược huấn luyện lại (rehearsal strategy). Đầu tiên, hướng tối ưu hóa ngẫu
nhiên [5, 8, 9, 10, 11] sử dụng các phương pháp tối ưu ngẫu nhiên như dựa
trên hướng đạo hàm (như SGD (stochastic gradient descent), NSGD (natural
stochastic gradient descent)) để có thể huấn luyện các mô hình trên lần lượt từng
1
mini-batch. Thứ hai, cách tiếp cận dựa trên đệ quy Bayes (recursive Bayesian
strategy) [12, 13, 1, 14, 4] và hiệu chỉnh [7, 15, 16] đặt các rằng buộc để giúp
tham số mô hình học ở thời điểm hiện tại phải gần với tham số mô hình đã học
được ở thời điểm trước đó. Thứ ba, chiến lược mở rộng kiến trúc (architecture
strategy) [7, 6, 17] hướng tới giữ lại (đóng băng) các thành phần kiến trúc, tham
số quan trọng mà học được từ dữ liệu quá khứ. Đồng thời, kiến trúc sẽ được
mở rộng để học các đặc trưng mới từ dữ liệu mới. Cuối cùng, chiến lược huấn
luyện lại (rehearsal strategy) [7, 18, 19] sẽ dựa trên việc lưu trữ một số mẫu
quan trọng hoặc xây dựng mô hình sinh để sinh lại các mẫu đặc trưng. Từ đó,
mô hình sẽ được học trên cả dữ liệu mới và dữ liệu cũ. Các chiến lược này có thể
giúp các phương pháp học máy truyền thống làm việc được trong môi trường
luồng.
2. Một số thách thức khi học từ luồng dữ liệu
Tuy nhiên, việc xây dựng phương pháp học máy để giúp chuyển từ học trong
môi trường tĩnh sang làm việc được với luồng dữ liệu là chưa đủ. Luồng dữ liệu
đặt ra nhiều thách thức hơn thế rất nhiều [20], ví dụ: Thách thức từ dữ liệu thưa
và nhiễu; thách thức về tính khó (intractability) của bài toán suy diễn, thách
thức về sự thay đổi đột ngột trong dòng, thách thức về quên nghiêm trọng,
thách thức về những đảm bảo lý thuyết của giải thuật học, v.v. Luận án này tập
trung vào khảo sát 3 thách thức lớn sau: Thách thức từ luồng dữ liệu thưa và
nhiễu (sparse and noisy data), thách thức từ sự thay đổi đột ngột trong luồng
dữ liệu (concept drifts), thách thức từ việc quên tri thức cũ khi học trên dữ liệu
mới (catastrophic forgetting).
Thứ nhất, dữ liệu thưa và nhiễu (sparse and noisy data) gây ra khó khăn lớn
cho các phương pháp học máy [21, 22, 23]. Những dữ liệu thưa và nhiễu xuất
hiện phổ biến trong thực tế, đặc biệt với thời đại bùng nổ dữ liệu như hiện nay.
Ví dụ, văn bản ngắn chỉ bao gồm một vài từ như bình luận trên mạng xã hội,
phản ứng của khách hàng trên các cửa hàng trực tuyến hoặc câu hỏi trên các
diễn đàn hỏi đáp. Biểu diễn của văn bản theo vectơ từ (như mô hình túi từ, tần
suất xuất hiện) là rất thưa khi mà hầu hết các giá trị của các chiều bằng 0, chỉ
vài chiều có giá trị khác 0. Mặt khác, các văn bản nhiễu chứa các từ viết tắt,
biệt ngữ, từ lóng, lỗi chính tả. Ví dụ khác với hệ gợi ý, các phương pháp học
máy thường sử dụng dữ liệu lịch sử tương tác của người dùng như mua hàng,
xem hàng để phát hiện ra sở thích của người dùng. Tuy nhiên, lịch sử mua hàng
của người dùng trong một hệ thống thương mại điện tử thường rất ít so với một
2
số lượng lớn các sản phẩm trong hệ thống. Hầu hết người dùng chỉ mua một
vài món hàng, chỉ một số ít người dùng mua nhiều hàng. Độ thưa thống kê dựa
trên tỉ lệ số lượng sản phẩm chưa mua trên tổng số sản phẩm thường lên tới
trên 99% [24, 25]. Họ chỉ thực hiện các thao tác nhấp chuột để xem sản phẩm
nhiều hơn là mua sản phẩm. Hơn nữa, dữ liệu nhấp chuột xem hàng của người
dùng có thể chứa nhiễu như nhấp chuột nhầm, nhấp vào sản phẩm không thích
vì chưa xem được chi tiết. Rõ ràng, dữ liệu thưa không cung cấp một ngữ cảnh
đầy đủ và dữ liệu nhiễu có thể định hướng sai việc học mô hình. Vì vậy, tính
tổng quát hóa của mô hình học được sẽ bị giới hạn khi làm việc với dữ liệu thưa
và nhiễu.
Thứ hai, sự thay đổi đột ngột của luồng dữ liệu (concept drifts) [26, 27] có
thể xuất hiện thường xuyên trong môi trường luồng. Sự thay đổi đột ngột để chỉ
sự biến đổi phân phối dữ liệu (p(x)) hoặc thay đổi phân phối xác suất có điều
kiện của nhãn khi cho biết trước dữ liệu (p(y|x)) trong môi trường luồng. Ví dụ,
trong học chủ đề ẩn không giám sát trên tập dữ liệu tin tức, khi có sự kiện mới
(như các tin giật gân) xuất hiện, các chủ đề mới khác biệt nhiều các chủ đề của
ngày trước đó sẽ xuất hiện. Hoặc, trong bài toán lái ô tô tự động có giám sát,
hệ thống vẫn phải quyết định các hành động tiếp theo (nhãn là sang trái, sang
phải, tăng tốc, giảm tốc, v.v) khi xe chuyển từ đường cao tốc sang đường nội
đô. Những ví dụ này chỉ ra sự thay đổi đột ngột của dữ liệu trong dòng và dẫn
tới yêu cầu các phương pháp phải thích nghi nhanh với sự thay đổi. Tuy nhiên,
các phương pháp truyền thống thường giả thiết rằng chỉ có một mô hình duy
nhất sinh ra toàn bộ dữ liệu (tương tự giả thiết p(x) không đổi trong toàn bộ
quá trình học). Giả thiết này chỉ hợp lý với môi trường tĩnh, nhưng không phù
hợp với môi trường luồng dữ liệu. Mô hình nên được thay đổi phù hợp theo các
khoảng thời gian. Những đặc trưng mới có thể xuất hiện bất cứ lúc nào trong
luồng dữ liệu nên một phương pháp học cần mềm dẻo để thích nghi nhanh với
chúng.
Thứ ba, việc huấn luyện một mô hình học máy trong môi trường luồng dữ
liệu gặp phải một thách thức lớn về việc quên tri thức đã học (catastrophic
forgetting) trước đây sau khi học từ nhiều dữ liệu mới hơn. Trong điều kiện
luồng dữ liệu, việc truy cập lại dữ liệu cũ là không thực tế vì nó đòi hỏi rất
nhiều bộ nhớ và tính toán. Rõ ràng, quên là một vấn đề khó tránh khỏi ở cả
con người và hệ thống học máy. Giữ tri thức quá khứ là quan trọng trong thực
tế. Nguồn tri thức học từ dữ liệu quá khứ sẽ giúp phương pháp làm việc tốt với
dữ liệu có đặc trưng, khuôn mẫu tương tự với cái đã gặp trước đó. Hiện tượng
quên nghiêm trọng [28] xảy ra khi một mô hình đã huấn luyện làm việc kém
3
trên dữ liệu với đặc trưng đã gặp trong quá khứ. Một điều thật đáng ngạc nhiên
rằng vấn đề quên nghiêm trọng lại không được quan tâm nhiều trong học luồng
dữ liệu. Đây là chủ đề chính trong nhánh nghiên cứu học liên tục (continual
learning) [29, 30, 15, 31] mà ở đó người ta xem xét học mạng nơ-ron nhân tạo
trên một chuỗi nhiều tác vụ khác nhau. Khi đó, các mô hình học máy thường bị
quên (không làm việc tốt với tác vụ cũ như trước) khi học các tác vụ mới. Trong
một bài báo gần đây [19], các tác giả cũng bày tỏ sự ngạc nhiên của mình về vấn
đề này. Sau đó, họ xây dựng một phương pháp tìm ra những dữ liệu quan trọng
để lưu trữ lại trong bộ nhớ đệm cho quá trình học lại. Việc tránh quên nằm ở
chỗ luyện tập lại trên dữ liệu quá khứ. Tuy nhiên, giải pháp lưu trữ dường như
cũng kém khả thi khi luồng dữ liệu lớn và có thể đến vô hạn.
3. Phạm vi nghiên cứu
Phát triển các phương pháp học cho luồng dữ liệu là chủ đề lớn trong học
máy để giúp cho các mô hình truyền thống làm việc tốt với luồng dữ liệu. Luận
án này chỉ tập trung vào xây dựng các phương pháp học cho lớp các mô hình
Bayes mà sử dụng ngôn ngữ xác suất để mã hóa các giả thiết về dữ liệu. Cụ thể
hơn, luận án tập trung vào các giải pháp để giúp học mô hình Bayes hiệu quả
khi đương đầu với 3 thách thức: Luồng dữ liệu thưa và nhiễu; sự thay đổi đột
ngột trong luồng dữ liệu; và vấn đề quên nghiêm trọng khi học trong luồng dữ
liệu.
3.1. Mô hình Bayes và học mô hình Bayes từ luồng dữ liệu
Mô hình Bayes đã trở thành một công cụ mạnh mẽ trong học máy để mô hình
hóa sự không chắc chắn của dữ liệu thực tế. Dựa trên các giả thiết về dữ liệu,
chúng ta có thể dễ dàng xây dựng một mô hình với các dữ liệu quan sát được
(observations), các biến ẩn (hidden variables) và mã hóa quan hệ giữa chúng.
Phân phối hậu nghiệm (posterior distribution) sẽ tiết lộ các đặc trưng của dữ
liệu và từ đó được sử dụng trong các ứng dụng thực tế. Hơn nữa, một số lượng
lớn các phương pháp suy diễn (inference methods) [32, 33] được đề xuất để học
một mô hình Bayes tổng quát trong môi trường tĩnh (môi trường không có sự
xuất hiện thêm dữ liệu mới trong suốt quá trình huấn luyện). Vì vậy, cách tiếp
cận Bayes được sử dụng rộng rãi trong nhiều ứng dụng như khai phá văn bản
[34, 35], thị giác máy tính [36], tin sinh [37], v.v.
Trong môi trường luồng, các phương pháp học mô hình Bayes thường được
chia vào 2 nhóm chính: Tối ưu hóa ngẫu nhiên (stochastic optimization) [38, 39,
4
11, 3, 10] và đệ quy Bayes (recursive Bayesian approach) [12, 13, 1, 3, 14, 4, 29,
40]. Tối ưu hóa ngẫu nhiên [41, 42] là nhóm phương pháp tối ưu với hàm mục
tiêu có yếu tố ngẫu nhiên xuất hiện. Khi đó, hàm mục tiêu thường được viết
dưới dạng kỳ vọng theo yếu tố ngẫu nhiên. Hướng thứ nhất lợi dụng sức mạnh
của tối ưu hóa ngẫu nhiên để làm việc cho luồng dữ liệu. Các phương pháp giả
thiết rằng dữ liệu được sinh ngẫu nhiên từ một phân phối dữ liệu và các phương
pháp khác nhau thường đưa ra giả thiết khác nhau về phân phối này. Hàm mục
tiêu là kỳ vọng theo phân phối dữ liệu. Mỗi mini-batch đến được xem như là dữ
liệu sinh ra từ phân phối dữ liệu và dùng cho quá trình học tham số mô hình.
Trong khi đó, ý tưởng chính của cách tiếp cận đệ quy Bayes là: Phân phối hậu
nghiệm (posterior distribution) học được từ thời điểm hiện tại sẽ được sử dụng
làm phân phối tiên nghiệm (prior distribution) của thời điểm tiếp theo. Ý tưởng
này hoàn toàn tự nhiên trong thực tế: Tri thức chúng ta học được ngày hôm nay
sẽ thành nền tảng để chúng ta làm việc ngày mai. Thông thường, cả hai hướng
tiếp cận đều áp dụng dễ dàng cho một lớp các mô hình Bayes có tính liên hợp
(conjugate prior) [43]. Vì thế, chúng giúp mô hình thiết kế ban đầu trong môi
trường tĩnh có thể làm việc được với luồng dữ liệu. Mức độ phức tạp, khó khăn
sẽ tăng lên trong việc đưa ra thuật toán học khi áp dụng chúng cho mô hình
không có tính liên hợp (non-conjugate prior) [43].
3.2. Học mô hình Bayes khi đương đầu với ba thách thức từ luồng dữ
liệu
Thứ nhất, với luồng dữ liệu thưa và nhiễu, Hình 1 minh họa kết quả về tính
tổng quát hóa khi dự đoán trên dữ liệu kiểm tra của 3 phương pháp phổ biến:
Phương pháp suy diễn biến phân luồng (Streaming Variational Bayes (SVB))
[1], suy diễn biến phân luồng với tri thức tiên nghiệm dạng luỹ thừa (Streaming
Variational Bayes with Power Priors (SVB-PP)) [2] và phương pháp suy diễn
biến phân Bayes quần thể (Population Variational Bayes (PVB)) [3] khi đương
đầu với luồng dữ liệu thưa và nhiễu. Trong thử nghiệm này1 , mô hình chủ đề
(Latent Dirichlet allocation (LDA)) [34] với 100 chủ đề ẩn được học trên tập
dữ liệu diễn đàn Yahoo-title2 . Hình 1 chỉ ra rằng cả 3 phương pháp đều làm
việc không hiệu quả với luồng dữ liệu thưa và nhiễu dựa trên độ đo xác suất
phán đoán (Log Predictive Probability (LPP)) [11]. Mặc dù dữ liệu đến càng
nhiều, hiệu năng của chúng không tốt lên mà còn bị đi xuống. Các chứng minh
lý thuyết [44, 45] cũng chỉ ra rằng một số mô hình Bayes không thể thu được
1
2
Trình bày về thử nghiệm chi tiết hơn sẽ xuất hiện trong chương 2
https://answers.yahoo.com/
5
Yahoo
−8.75
LPP
−9.00
−9.25
−9.50
−9.75
0
20
PVB
40
60
Minibatch
80
SVB-PP
SVB
100
Hình 1: Tính tổng quát hóa của SVB [1], SVB-PP [2] và PVB [3] tính theo
khả năng dự đoán của mô hình học được trên tập dữ liệu Yahoo-title chứa dữ
liệu thưa và nhiễu. Độ đo sử dụng là xác suất phán đoán LPP (Log Predictive
Probability) [11] và được tính dựa trên phán đoán khả năng xảy ra của phần
văn bản còn lại khi cho trước một phần văn bản. LPP càng cao càng tốt.
hiệu quả tốt trên dữ liệu thưa và nhiễu dù cho dữ liệu huấn luyện có rất lớn.
Để đương đầu với dữ liệu thưa và nhiễu, có hai cách chính được quan tâm từ
đông đảo cộng đồng nghiên cứu: Khai thác tri thức tiên nghiệm (prior/external
knowledge) [46, 47, 48] và tổng hợp dữ liệu ngắn [49, 50, 51, 21]. Tri thức tiên
nghiệm là các nguồn tri thức từ bên ngoài được thêm vào để làm giàu, định
hướng cho việc học mô hình Bayes. Trong khi đó, cách thứ hai hướng tới tổng
hợp các dữ liệu thưa (ngắn) tương đồng với nhau lại thành một dữ liệu dày (dài)
hơn. Tiếp cận này đặc biệt phù hợp trong xử lý văn bản. Chú ý rằng khai thác
tri thức tiên nghiệm có thể cải thiện hiệu quả cho cách thứ hai. Tuy nhiên, các
phương pháp học mô hình Bayes thường bỏ qua nguồn tri thức tiên nghiệm khi
học trên luồng dữ liệu. Lý do cho vấn đề này có thể vì khi dữ liệu là đủ lớn thì
tri thức tiên nghiệm không còn quan trọng. Luận án sẽ tập trung vào xem xét
liệu tri thức tiên nghiệm có quan trọng trong học mô hình Bayes từ luồng dữ
liệu hay không, đặc biệt với dữ liệu thưa và nhiễu.
Thứ hai, vấn đề thay đổi đột ngột của dòng dữ liệu, trong khi hướng nghiên
cứu dựa trên tối ưu hóa ngẫu nhiên chưa quan tâm đến chủ đề này, tiếp cận dựa
trên đệ quy Bayes trở nên thiếu mềm dẻo để có thể thích nghi với sự thay đổi
đột ngột. Các phương pháp dựa trên đệ quy Bayes thường gặp phải vấn đề quá
tự tin (overconfidence) [52, 53] sau khi chúng học trên một lượng dữ liệu đủ lớn
từ luồng. Cụ thể, phương sai của phân phối hậu nghiệm học được thường bị thu
6
nhỏ lại tới dần giá trị 0. Điều này dẫn tới phân phối hậu nghiệm chỉ tập trung
giá trị tại một điểm và mất đi khả năng mã hóa sự không chắc chắn của dữ liệu
mới. Đây là một trong những vấn đề lớn cần được giải quyết.
Một số nghiên cứu [54, 14, 2, 53, 55] đã hướng đến vấn đề quá tự tin của
cách tiếp cận đệ quy Bayes thông qua đề xuất các cơ chế cập nhật mới mềm dẻo
hơn. Chúng thường đưa thêm các biến ẩn để xác định xác suất xảy ra thay đổi
tại mỗi thời điểm của luồng dữ liệu. Hình 2 minh họa kết quả về tính dự đoán
của 3 phương pháp: SVB [1], SVB-PP [2] và PVB [3] khi đương đầu với sự thay
đổi đột ngột. Mô hình chủ đề LDA [34] với 100 chủ đề ẩn được sử dụng để học
trên tập dữ liệu Irishtime3 . Trong thử nghiệm này, có một số lần dữ liệu thay
đổi đặc trưng đột ngột. Hình 2 chỉ ra rằng cách tiếp cận đệ quy Bayes truyền
thống trong SVB không thể hồi phục hiệu năng sau lần thay đổi thứ hai trong
luồng dữ liệu. Cũng khoảng thời gian đó, SVB-PP khắc phục vấn đề quá tự tin
của SVB nên nó có thể khôi phục hiệu năng tốt hơn chỉ sau một số lượt dữ liệu
mới đến (mini-batch). PVB tiếp cận theo tối ưu hóa ngẫu nhiên và cũng không
gặp vấn đề như SVB. Mặc dù, SVB-PP thu được kết quả tốt nhất nhưng nhóm
các phương pháp tăng cường tính mềm dẻo hiện tại vẫn có những hạn chế nhất
định. Bởi vì đưa thêm các biến ẩn để mã hóa cho sự thay đổi của luồng dữ liệu,
các mô hình thường trở nên mất tính liên hợp (non-conjugate prior) và yêu cầu
nhiều nỗ lực để tìm lời giải xấp xỉ. Hơn nữa, việc tính xác suất xảy ra thay đổi
tại mỗi thời điểm phụ thuộc vào xác suất xảy ra thay đổi trong thời gian quá
khứ. Điều đó dẫn đến các giải pháp này yêu cầu thực hiện khối lượng tính toán
lớn [53, 14, 2]. Trong nhiều trường hợp, các phương pháp [54, 55] yêu cầu lưu
trữ nhiều mô hình ứng với khả năng xảy ra thay đổi trong chuỗi thời gian của
luồng dữ liệu. Mặc dù các chiến lược cắt tỉa bớt các khả năng xảy ra thấp được
đề ra để giảm lưu trữ, nhưng chúng vẫn tốn kém và khó triển khai với mô hình
lớn. Một giải pháp dễ thực hiện và không cần lưu trữ nhiều mô hình sẽ có ý
nghĩa lớn trong thực tế.
Cuối cùng, các phương pháp học máy cho mô hình Bayes trong luồng dữ liệu
vẫn chưa quan tâm nhiều tới vấn đề quên nghiêm trọng. Mặc dù, các phương
pháp học trên luồng dữ liệu thuộc cả 2 nhóm: Tối ưu ngẫu nhiên và đệ quy
Bayes đều có cơ chế giữ lại tri thức của mini-batch trước đó cho việc học tốt
trên dữ liệu hiện tại. Tuy nhiên, các cơ chế này thường chỉ ràng buộc giữa 2
mini-batch kế tiếp nhau, nên chúng dễ bị quên tri thức ở xa hơn. Đây là một
vấn đề mà luận án sẽ hướng tới nhằm xây dựng cơ chế tích hợp tri thức từ quá
khứ xa hơn.
3
https://www.kaggle.com/therohk/ireland-historical-news/
7
Irish
−8.5
Times
LPP
−9.0
−9.5
−10.0
−10.5
0
100
200
300
400
500
600
700
Minibatch
PVB
SVB-PP
SVB
Hình 2: Tính tổng quát hóa của SVB [1], SVB-PP [2] và PVB [3] tính theo khả
năng dự đoán của mô hình học được trên tập dữ liệu Irishtime khi một số thời
điểm xảy ra sự thay đổi đột ngột (tại các mini-batch 356, 410, 521, 559, 650).
LPP càng cao càng tốt.
4. Động lực nghiên cứu
Khai thác tri thức tiên nghiệm và sử dụng kỹ thuật Dropout là các cách tiếp
cận tiềm năng để đương đầu với các thách thức về dữ liệu thưa, ngắn và thay
đổi đột ngột của luồng dữ liệu. Rõ ràng, tri thức tiên nghiệm [56, 57, 58] đến từ
con người hoặc thu được sau khi huấn luyện mô hình (pre-trained model) trên
tập dữ liệu rất lớn có thể cung cấp những thông tin giá trị. Vì vậy, nó đóng vai
trò quan trọng để làm giàu cho một mô hình Bayes khi làm việc với dữ liệu thưa
và nhiễu. Hơn nữa, các nguồn tri thức từ con người như Wordnet hoặc tri thức
dưới dạng các mô hình huấn luyện trên dữ liệu lớn thường mang thông tin toàn
cục, tổng thể. Chúng chứa đựng nhiều ngữ cảnh mà có thể liên quan trực tiếp
tới những đặc trưng mới xuất hiện trong luồng dữ liệu chúng ta đang phải làm
việc. Vì thế, khai thác nguồn tri thức tiên nghiệm có thể đương đầu với sự thay
đổi đột ngột của luồng dữ liệu. Trong khi đó, Dropout [59] được biết đến rộng
rãi như một kỹ thuật hiệu chỉnh (regularization) hiệu quả để tránh hiện tượng
quá khớp [60]. Hơn nữa, Dropout cung cấp một cách hiệu quả để kết hợp một
số lượng hàm mũ các mô hình [61]. Tính chất này của Dropout giống như một
dạng của học kết hợp (ensemble learning). Vì thế, Dropout cũng có thể làm việc
tốt với dữ liệu thưa và nhiễu cũng như có sự thay đổi đột ngột.
Mặc dù cả hai cách tiếp cận dựa trên khai thác tri thức tiên nghiệm và
Dropout là tiềm năng, nhưng chúng chưa được xem xét đầy đủ trong môi trường
8
luồng dữ liệu, đặc biệt cho mô hình Bayes. Dưới góc nhìn của cách tiếp cận Bayes,
tri thức từ phân phối tiên nghiệm không đóng vai trò quan trọng khi dữ liệu
huấn luyện đủ lớn. Cụ thể, khi dữ liệu lớn lượng tri thức học được từ dữ liệu
sẽ vượt trội từ tri thức tiên nghiệm. Tuy nhiên, luồng dữ liệu được thu thập
vào trong các mini-batch liên tiếp và huấn luyện mô hình được thực hiện trên
từng mini-batch thay vì huấn luyện trên toàn bộ dữ liệu của luồng. Khi đó, sử
dụng tri thức tiên nghiệm sẽ cải thiện chất lượng mô hình học được trên từng
mini-batch. Hơn nữa, chúng ta cũng không biết đến khi nào thì dữ liệu là đủ
nhiều để không cần sử dụng đến tri thức tiên nghiệm. Vì vậy, khai thác tri thức
tiên nghiệm vẫn cần được nghiên cứu cẩn thận trong môi trường luồng. Mặt
khác, các ứng dụng của Dropout vẫn hạn chế trong môi trường dữ liệu tĩnh.
Gần đây, Guzy và các cộng sự [17] đã chỉ ra rằng Dropout có thể làm việc tốt
với luồng dữ liệu. Đặc biệt, Dropout cải thiện hiệu quả rõ ràng khi làm việc với
luồng dữ liệu có sự thay đổi đột ngột bởi vì nó hướng tới sử dụng các mô hình
con trong tập các mô hình kết hợp để làm việc phù hợp với các đặc trưng mới.
Tuy nhiên, công việc này cũng chỉ tập trung vào các mạng nơ-ron thông thường
và nó cũng chưa xem xét một cơ chế điều chỉnh tỷ lệ Dropout tự động.
Mặt khác, với thách thức quên tri thức đã học, xây dựng cơ chế hiệu chỉnh
ràng buộc trên tri thức từ tất cả thời điểm quá khứ có thể là giải pháp hiệu quả
để tránh quên. Cách tiếp cận học luồng dữ liệu trước đây dựa trên tối ưu hóa
ngẫu nhiên và đệ quy Bayes thường chỉ xây dựng ràng buộc trên 2 mini-batch
liên tiếp. Điều đó dẫn đến việc quên tri thức cũ dễ dàng xảy ra. Tuy nhiên, khi
thiết lập không khéo léo một đại lượng hiệu chỉnh trên toàn bộ các mô hình từ
quá khứ sẽ dẫn đến việc phải lưu trữ tất cả các mô hình trước đó. Điều này là
không khả thi với luồng dữ liệu. Hơn nữa, ràng buộc quá nhiều trên mô hình
quá khứ cũng có thể dẫn đến hạn chế khi nó quá ổn định và thiếu mềm dẻo để
làm việc với sự thay đổi đột ngột trong luồng. Một cơ chế hiệu chỉnh tốt sẽ đóng
vai trò quan trọng để mô hình làm việc tốt với luồng dữ liệu.
5. Vấn đề nghiên cứu
Luận án này hướng tới xây dựng các phương pháp có thể học một mô hình
Bayes tổng quát cho một tác vụ trên luồng dữ liệu. Các phương pháp này có
thể làm việc hiệu quả với các thách thức đưa ra. Luận án sẽ tập trung vào ba
vấn đề nghiên cứu chính sau:
• Thứ nhất, liệu tri thức tiên nghiệm có giúp mô hình Bayes đương đầu tốt
với các thách thức về dữ liệu thưa và nhiễu cũng như sự thay đổi đột ngột
9
của luồng? Nhiều nguồn tri thức giá trị đang tồn tại sẵn có cho sử dụng như
tri thức mã hóa trong các mô hình đã được huấn luyện trên các tập dữ liệu
lớn (pre-trained model), đồ thị tri thức Wordnet, Wikipedia, các mạng ngữ
nghĩa. Khai thác hiệu quả các nguồn tri thức này có thể làm giàu cho mô
hình Bayes để đương đầu với các thách thức từ luồng dữ liệu. Tuy nhiên,
chúng chỉ được xem xét khai thác trong môi trường tĩnh. Trong môi trường
luồng dữ liệu, chỉ phương pháp giữ lại tri thức tiên nghiệm (Keeping prior
for data streams (KPS)) [4, 62] xem xét vai trò của tri thức tiên nghiệm.
Mặc dù vậy, KPS có 2 hạn chế cần được khắc phục: Không khai khác được
nhiều kiểu tri thức tiên nghiệm và không có cơ chế cân bằng giữa tri thức
tiên nghiệm và tri thức học từ trước đó. Để đưa ra một phương pháp khai
thác tri thức tiên nghiệm với nhiều dạng biểu diễn khác nhau (như vectơ,
ma trận, đồ thị) hiệu quả trong môi trường luồng, sẽ có hai vấn đề cần giải
quyết. Thứ nhất, cần xây dựng một cơ chế tổng quát cho phép biến đổi tri
thức tiên nghiệm với các dạng biểu diễn khác nhau về dạng phù hợp với
một mô hình Bayes cho trước. Thứ hai là kỹ thuật phát triển các thuật
toán học trên luồng dữ liệu cho một lớp rộng lớn các mô hình Bayes. Điều
kỳ vọng lớn ở đây là chúng sẽ chỉ cần thực hiện thay đổi một phần của
thuật toán gốc (được thiết kế cho dữ liệu tĩnh) để phù hợp cho luồng dữ
liệu. Phần thuật toán thiết kế cho từng điểm dữ liệu cục bộ nên được kế
thừa hoặc giữ nguyên, sự thay đổi chỉ nên thực hiện trên biến toàn cục liên
kết giữa các mini-batch. Điều này có thể mang lại lợi ích lớn khi có thể áp
dụng giải pháp đề xuất cho một lớp lớn các mô hình Bayes đã hiệu quả cho
dữ liệu tĩnh.
• Thứ hai, liệu Dropout có thể tăng tính mềm dẻo và khái quát hóa khi sử
dụng cho mô hình Bayes trên luồng dữ liệu? Vấn đề nghiên cứu này hướng
đến tận dụng các điểm mạnh của Dropout để đương đầu với các thách thức
về dữ liệu thưa và nhiễu cũng như sự thay đổi đột ngột của luồng. Dropout
giúp giảm bớt vấn đề quá khớp do dữ liệu thưa và nhiễu gây ra. Nó cũng có
cơ chế học kết hợp nhiều mô hình để làm việc tốt với sự thay đổi đột ngột
của luồng dữ liệu. Song song với công việc trong luận án, nghiên cứu gần
đây [17] đã sử dụng Dropout trong môi trường luồng dữ liệu và tìm thấy
sự hiệu quả của nó đối mặt với thay đổi đột ngột trên luồng. Tuy nhiên, hệ
số Dropout trong công việc này vẫn phải điều chỉnh thủ công và sử dụng
cho mạng nơ-ron tất định (không có tham số là biến ngẫu nhiên). Rõ ràng,
dữ liệu luồng thay đổi khó đoán biết, một cơ chế tự thích nghi trên hệ số
10
- Xem thêm -