ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC BÁCH KHOA
KHOA KHOA HỌC & KỸ THUẬT MÁY TÍNH
BK
TP.HCM
LUẬN VĂN TỐT NGHIỆP ĐẠI HỌC
PHÂN LỚP NHANH HÌNH ẢNH
TẾ BÀO BẠCH CẦU DỰA VÀO
ĐẶC TRƯNG SÂU VÀ TỐI ƯU HÓA BẦY ĐÀN
NGÀNH: KHOA HỌC MÁY TÍNH
HỘI ĐỒNG: KHOA HỌC MÁY TÍNH 9
GVHD: TS. LÊ HỒNG TRANG
GVPB: THS. LÊ THỊ BẢO THU
SVTH 1: THÁI TIỂU PHƯƠNG 1710250
SVTH 2: NGUYỄN BÌNH YÊN 1714074
TP. Hồ Chí Minh, tháng 10/2021
ĐẠI HỌC QUỐC GIA TP.HCM
---------TRƯỜNG ĐẠI HỌC BÁCH KHOA
KHOA: KH & KT Máy tính ___
BỘ MÔN: HTTT ____________
CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập - Tự do - Hạnh phúc
NHIỆM VỤ LUẬN ÁN TỐT NGHIỆP
Chú ý: Sinh viên phải dán tờ này vào trang nhất của bản thuyết trình
HỌ VÀ TÊN: Thái Tiểu Phương ______________________ MSSV: 1710250 ______
HỌ VÀ TÊN: Nguyễn Bình Yên ______________________ MSSV: 1714047 ______
HỌ VÀ TÊN: _____________________________________ MSSV: _____________
NGÀNH: Khoa học máy tính ___________________ LỚP: ______________________
1. Đầu đề luận án:
Phân lớp nhanh hình ảnh tế bào bạch cầu dựa vào đặc trưng sâu và tối ưu bầy đàn
___________________________________________________________________________
2. Nhiệm vụ (yêu cầu về nội dung và số liệu ban đầu):
- Tìm hiểu tổng quan về bài toán phân lớp tế bào bạch cầu ____________________________
- Tìm hiểu về trích xuất dùng mạng nơ-ron sâu và lựa chọn đặc trưng dùng tối ưu hoá bầy đàn
- Đề xuất cải thiện mô hình phân loại hình ảnh tế bào bạch cầu dùng đặc trưng sâu và cải tiến
lựa chọn đặc trưng ____________________________________________________________
- Hiện thực, thực nghiệm và đánh giá các kết quả ___________________________________
___________________________________________________________________________
___________________________________________________________________________
3. Ngày giao nhiệm vụ luận án: 01/03/2021
4. Ngày hoàn thành nhiệm vụ: 28/06/2021
5. Họ tên giảng viên hướng dẫn: TS. Lê Hồng Trang
Phần hướng dẫn: Toàn bộ
1) __________________________________________________________________________
2) __________________________________________________________________________
3) __________________________________________________________________________
Nội dung và yêu cầu LVTN đã được thông qua Bộ môn.
Ngày 15 tháng 08 năm 2021
CHỦ NHIỆM BỘ MÔN
GIẢNG VIÊN HƯỚNG DẪN CHÍNH
(Ký và ghi rõ họ tên)
(Ký và ghi rõ họ tên)
PGS. TS. Trần Minh Quang
TS. Lê Hồng Trang
PHẦN DÀNH CHO KHOA, BỘ MÔN:
Người duyệt (chấm sơ bộ): ________________________
Đơn vị: _______________________________________
Ngày bảo vệ: ___________________________________
Điểm tổng kết: _________________________________
Nơi lưu trữ luận án: _____________________________
TRƯỜNG ĐẠI HỌC BÁCH KHOA
KHOA KH & KT MÁY TÍNH
CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập - Tự do - Hạnh phúc
---------------------------Ngày 10 tháng 08 năm 2021
PHIẾU CHẤM BẢO VỆ LVTN
(Dành cho người hướng dẫn/phản biện)
1. Họ và tên SV: Thái Tiểu Phương và Nguyễn Bình Yên
MSSV: 1710250 và 1714074
Ngành (chuyên ngành): KHMT
2. Đề tài: Phân lớp nhanh hình ảnh tế bào bạch cầu dựa vào đặc trưng sâu và tối ưu hoá bầy đàn
3. Họ tên người hướng dẫn/phản biện: Lê Hồng Trang
4. Tổng quát về bản thuyết minh:
Số trang:
Số chương:
Số bảng số liệu
Số hình vẽ:
Số tài liệu tham khảo:
Phần mềm tính toán:
Hiện vật (sản phẩm)
5. Tổng quát về các bản vẽ:
- Số bản vẽ:
Bản A1:
Bản A2:
Khổ khác:
- Số bản vẽ vẽ tay
Số bản vẽ trên máy tính:
6. Những ưu điểm chính của LVTN:
-
-
Luận văn xét khó khăn của bài toán phân lớp hình ảnh tế bào khi sử dụng kính hiển vi, do
hình thái tế bào ác tính và lành tính khá giống nhau khi nhìn bằng mắt thường.
Phương pháp đề xuất chú trọng vào hai yếu tố quan trọng. Việc trích xuất dựa vào mạng
VGG19. Các đặc trưng sau đó được lựa chọn bằng việc áp dụng tối ưu bầy đàn. Đây là một
kỹ thuật thú vị. Nhóm không chỉ sử dụng lại mô hình tối ưu đã có mà còn đề xuất cải tiến
thông qua hàm fitness.
Mô hình đề xuất và các giải thuật cải tiến được hiện thực, thực nghiệm với tập dữ liệu ALLIDB và C-NMC.
Nhóm đã tiến hành các thực nghiệm để phân tích/đánh giá chi tiết về các thành phần trong
mô hình đề xuất, cũng như sự ảnh hưởng của các bộ tham số khác nhau tác động lên hiệu
năng của mô hình. Cuối cùng nhóm đã thực nghiệm trên nhiều bộ phân lớp để đánh giá mô
hình trích xuất, lựa chọn đặc trưng đã đề xuất. Các thực nghiệm được mô tả rõ ràng.
7. Những thiếu sót chính của LVTN:
-
Một số nội dung ở phần đầu, nhóm có thể bổ sung thêm một số thông tin để luận văn hoàn
thiện hơn và đầy đủ hơn.
8. Đề nghị: Được bảo vệ R
Bổ sung thêm để bảo vệ o
9. 3 câu hỏi SV phải trả lời trước Hội đồng:
a.
10. Đánh giá chung (bằng chữ: giỏi, khá, TB): Giỏi
Không được bảo vệ o
Điểm: 10/10
Ký tên (ghi rõ họ tên)
TS. Lê Hồng Trang
75ѬӠ1*ĈҤ,+Ӑ&%È&+.+2$
KHOA KH & KT MÁY TÍNH
&Ӝ1*+Ñ$;+Ӝ,&+Ӫ1*+Ƭ$9,ӊ71$0
ĈӝF OұS- 7ӵGR- +ҥQKSK~F
---------------------------Ngày 12
tháng 08
QăP 2021
3+,ӂ8&+Ҩ0%Ҧ29ӊ/971
'jQKFKRQJ˱ͥLK˱ͣQJG̳QSK̫QEL͏Q
1. +ӑYjWên SV1: Thái TiӇX3KѭѫQJ
+ӑYjWrQ69NguyӉQBình Yên
MSSV: 1710250
MSSV: 1714074
Ngành (chuyên ngành): .KRDKӑF0i\WtQK
2ĈӅWjL 3KkQOӟSQKDQKKuQKҧQKWӃEjREҥFKFҫXGӵDYjRÿһF ÿѭQJVkXYjWӕLѭXKyDEҫ\
ÿjn
+ӑWrQQJѭӡLKѭӟQJGүQSKҧQELӋQ ThS Lê Thӏ%ҧRThu««««««««««««
7әQJTXiWYӅEҧQWhu\ӃWPLQK
6ӕWUDQJ
6ӕFKѭѫQJ
6ӕEҧQJVӕOLӋX
6ӕKuQKYӁ
6ӕWjLOLӋXWKDPNKҧR
3KҫQPӅPWtQKWRiQ
+LӋQYұWVҧQSKҭP
5. 7әQJTXiWYӅFiFEҧQYӁ
- 6ӕEҧQYӁ
%ҧQ$
%ҧn A2:
.KәNKiF
- 6ӕEҧQYӁYӁ tay
6ӕEҧQYӁ trên máy tính:
1KӳQJѭXÿLӇPFKtQK FӫD/971
- 6LQKYLrQÿm tìm hi͋Xcác nghiêm cͱXOLên quan v͉bài toán phân lͣS t͇Eào b̩FKF̯XGD
trên 2 cách ti͇SF̵Q: h͕Fmáy và h͕FVâu, lDFK͕Qÿ̿FWU˱QJGDWUên gi̫LWKX̵WW͙L˱XKRá
b̯\ÿjQ.
- Ĉ͉xṷWP͡WSK˱˯QJán trích xṷWÿ̿FWU˱QJE̹QJm̩QJ&11 (VGGNet) sau ÿó lDFK͕Q
ÿ̿FWU˱QJb̹QJJL̫LWKX̵W66$F̫LWL͇Q (thêm tr͕QJV͙quán tính nâng cao ch̭WO˱ͫQJK͡LWͭ,
s͵Gͭng các transfer function).
- Ti͇QKành thFQJKL͏P, ÿánh giá trên t̵S dͷOL͏XALL-IDB , C-NMC cho th̭\SK˱˯QJSKáp
ÿ͍[X̭Wÿ̩Wÿ˱ͫFKL͏XVṷW phân lͣSW͙W h˯Qtài nguyên tính toán ít h˯Q(gi̫PV͙O˱ͫQJÿ̿F
tr˱QJ) trong khi ÿ͡FKính xác phân lo̩Lcao h˯Qso vͣLFác nghiên cͱXWU˱ͣFÿó.
- Báo cáo chi ti͇WNKRDK͕F
1KӳQJWKLӃXVyWFKtQKFӫD/971 ................................................................................................
- Th͵QJKL͏Pÿánh giá trên m͡WV͙ dataset khác.
ĈӅQJKӏĈѭӧFEҧRYӋ_
%әVXQJWKrPÿӇEҧRYӋ
FkXKӓL69SKҧLWUҧOӡLWUѭӟF+ӝLÿӗQJ
a.
b.
c.
ĈiQKJLiFKXQJEҵQJFKӳJLӓLNKá, TB): gi͗L
.K{QJÿѭӧFEҧRYӋ
ĈLӇP 10 /10
.êWrQJKLU}KӑWrQ
ThS. Lê Th͓%̫R7KX
LỜI CAM ĐOAN
Chúng tôi xin cam đoan đây là công trình nghiên cứu do chính chúng tôi thực hiện dưới sự
hướng dẫn của TS. Lê Hồng Trang. Ngoại trừ các kết quả tham khảo từ các công trình khác có
liên quan đã được ghi rõ trong luận văn, nội dung nghiên cứu và các kết quả là trung thực và
chưa có phần nội dung nào được nộp để lấy bằng cấp ở một trường khác. Các số liệu được sử
dụng cho quá trình phân tích, nhận xét được chính chúng tôi tìm hiểu và thu thập từ nhiều nguồn
khác nhau và sẽ được ghi rõ trong phần tài liệu tham khảo. Tất cả đều có trích dẫn và chú thích
nguồn gốc.
TP. HCM, NGÀY 26 THÁNG 07 NĂM 2021.
LỜI CẢM ƠN
Đầu tiên, chúng tôi xin gửi lời cảm ơn chân thành nhất đến TS. Lê Hồng Trang, thầy đã giúp
đỡ chúng tôi trong quá trình chuẩn bị đề cương và hoàn thành luận văn trong suốt năm học vừa
qua. Xin cảm ơn sự hướng dẫn tận tình của thầy, chính nhờ những kiến thức và kinh nghiệm mà
thầy truyền đạt đã giúp chúng tôi có được cái nhìn tổng quan về đề tài, định hướng đúng đắn và
hoàn thành tốt luận văn này.
Xin gửi lời cảm ơn đến các thầy cô trường Đại học Bách Khoa Thành phố Hồ Chí Minh, đặc
biệt là các thầy cô bộ môn trong khoa Khoa học và Kỹ thuật Máy tính đã truyền đạt những kiến
thức quý báu trong bốn năm học qua.
Cuối cùng, chúng tôi xin cảm ơn gia đình, bạn bè, những người đã giúp đỡ, hỗ trợ chúng tôi hết
mình trong suốt thời gian hoàn thành chương trình bậc Đại học.
TÁC GIẢ.
iii
TÓM TẮT
Phân loại tế bào thông qua xử lý hình ảnh gần đây đã thu hút được sự quan tâm dựa trên quan
điểm xây dựng các công cụ chẩn đoán với sự hỗ trợ của máy tính đối với các bệnh rối loạn máu
như bệnh bạch cầu. Để đi đến kết luận chẩn đoán bệnh và mức độ tiến triển, việc xác định tế
bào ác tính với độ chính xác cao là rất quan trọng. Thách thức được đặt ra là phải chẩn đoán
bệnh sớm để tăng khả năng chữa khỏi bệnh của các đối tượng mắc bệnh ung thư. Mặc dù trong
thực tiễn đã tồn tại các phương pháp tiên tiến như kỹ thuật đếm tế bào dòng chảy, chúng rất đắt
tiền và không được cung cấp rộng rãi trong các phòng thí nghiệm giải phẫu hoặc bệnh viện, đặc
biệt là ở những vùng nông thôn. Mặt khác, một giải pháp dựa trên máy tính có thể được triển
khai dễ dàng với chi phí thấp hơn nhiều. Do đó, đề tài này là một nỗ lực nhằm xây dựng một
phương pháp phân loại hình ảnh tế bào bạch cầu hiệu quả sử dụng học sâu và giải thuật tối ưu
hóa bầy đàn, khắc phục các vấn đề liên quan đến việc triển khai máy móc phức tạp, hỗ trợ các
nhà nghiên cứu bệnh lý học và ung thư học đưa ra các suy luận nhanh hơn dựa trên dữ liệu.
MỤC LỤC
Tóm tắt
iii
Danh mục hình ảnh
vi
Danh mục bảng biểu
vii
Danh mục chữ viết tắt
viii
Chương 1 TỔNG QUAN
1.1 Giới thiệu đề tài . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2 Mục tiêu và phạm vi đề tài . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3 Cấu trúc luận văn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Chương 2 NHỮNG NGHIÊN CỨU LIÊN QUAN
2.1 Phân lớp hình ảnh tế bào bạch cầu . . . . . . . . . . . . . . .
2.2 Tổng quan các cách tiếp cận bài toán phân lớp tế bào bạch cầu
2.2.1 Những phương pháp truyền thống dựa trên học máy . .
2.2.2 Một số hướng tiếp cận dựa trên học sâu . . . . . . . .
2.2.3 Đánh giá tổng quan về các cách tiếp cận bài toán . . .
2.3 Lựa chọn đặc trưng dựa trên giải thuật tối ưu hóa bầy đàn . . .
2.3.1 PSO trong bài toán phân lớp . . . . . . . . . . . . . .
2.3.2 ACO trong bài toán phân lớp . . . . . . . . . . . . . .
2.4 Những thách thức phổ biến của các phương pháp hiện nay . . .
Chương 3 KIẾN THỨC NỀN TẢNG
3.1 Học sâu và đặc trưng sâu . . . . . . . . . . . . . . . . . . . .
3.2 Mạng nơ-ron tích chập - Convolutional Neural Network (CNN)
3.3 Transfer learning . . . . . . . . . . . . . . . . . . . . . . . .
3.4 Kiến trúc mạng VGG19 . . . . . . . . . . . . . . . . . . . . .
3.5 Một số bộ phân lớp được dùng để chẩn đoán ALL . . . . . . .
3.6 Tổng quan về tối ưu hóa bầy đàn . . . . . . . . . . . . . . . .
3.7 Một số phương pháp nổi bật trong tối ưu hóa bầy đàn . . . . .
3.7.1 Particle Swarm Optimization (PSO) . . . . . . . . . .
3.7.2 Ant Colony Optimization (ACO) . . . . . . . . . . . .
3.7.3 Salp Swarm Algorithm (SSA) . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
2
2
2
.
.
.
.
.
.
.
.
.
4
5
6
6
7
8
9
9
10
11
.
.
.
.
.
.
.
.
.
.
12
13
13
14
15
16
18
19
19
19
21
Chương 4 PHƯƠNG PHÁP THỰC HIỆN
4.1 Tổng quan phương pháp phân lớp tế bào bạch cầu đề xuất . . . . . . . . . . . .
4.2 Trích xuất đặc trưng (Feature Extraction) . . . . . . . . . . . . . . . . . . . . .
4.3 Lựa chọn đặc trưng (Feature Extraction) sử dụng Salp Swarm Algorithm (SSA)
4.3.1 Biểu diễn bài toán phân lớp bằng giải thuật SSA cho công đoạn lựa chọn
đặc trưng . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.3.2 Những cải tiến trên giải thuật SSA để tăng hiệu quả lựa chọn đặc trưng .
26
27
27
29
29
31
v
MỤC LỤC
Chương 5 KẾT QUẢ HIỆN THỰC
5.1 Tập dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.1.1 Đặc điểm hình thái của phôi bào ALL . . . . . . . . . . . . . . .
5.1.2 Tập dữ liệu ALL-IDB . . . . . . . . . . . . . . . . . . . . . . . .
5.1.3 Tập dữ liệu C-NMC . . . . . . . . . . . . . . . . . . . . . . . . .
5.2 Một số tiêu chuẩn đánh giá hệ thống phân lớp . . . . . . . . . . . . . . .
5.3 Phương pháp thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . .
5.4 Đánh giá các kết quả đạt được . . . . . . . . . . . . . . . . . . . . . . .
5.4.1 Đánh giá bộ đặc trưng trích xuất từ VGGNet . . . . . . . . . . . .
5.4.2 Đánh giá ảnh hưởng của các chỉ số α và β đối với hàm mục tiêu .
5.4.3 Thống kê ảnh hưởng của các phiên bản Transfer Function đối với
thuật SSA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.4.4 Đánh giá độ hiệu quả khi thực hiện lựa chọn đặc trưng . . . . . .
5.4.5 Đánh giá độ hiệu quả của ISSA so với SSA . . . . . . . . . . . .
5.5 Nhận xét chung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
35
36
36
36
37
37
38
38
38
39
. . .
. . .
. . .
. . .
. . .
. . .
. . .
. . .
. . .
giải
. . .
. . .
. . .
. . .
40
41
42
43
Chương 6 TỔNG KẾT
6.1 Các kết quả đạt được . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.2 Những hạn chế, khó khăn . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.3 Định hướng trong tương lai . . . . . . . . . . . . . . . . . . . . . . . . . . . .
44
45
45
46
Tài liệu tham khảo
46
DANH
2.1
2.2
3.1
3.2
3.3
3.4
3.5
3.6
3.7
3.8
3.9
MỤC HÌNH ẢNH
Mẫu WBCs lành tính và ác tính . . . . . . . . . . . . . . . . . . . . . . . . . .
Sơ đồ khối của phương pháp phát hiện bệnh bạch cầu dựa trên quá trình end-toend learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
So sánh giữa học máy truyền thống và transfer learning . . . . . . . . . . . . .
Biểu diễn kiến trúc mạng của VGG19 . . . . . . . . . . . . . . . . . . . . . .
Chuỗi Salp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Đồ thị hàm số của C1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Mã giả thuật toán Salp Swarm Algorithm . . . . . . . . . . . . . . . . . . . .
Mô phỏng các bước lặp của thuật toán trong không gian 2 chiều . . . . . . . . .
Mô phỏng vị trí của chuỗi salp qua 100 lần lặp của thuật toán trong không gian
2 chiều . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Mô phỏng các bước lặp của thuật toán trong không gian 3 chiều . . . . . . . . .
Mô phỏng vị trí của chuỗi salp qua 100 lần lặp của thuật toán trong không gian
3 chiều . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
6
9
14
15
21
22
22
24
24
25
25
4.1
4.2
4.3
4.4
4.5
4.6
4.7
Flowchart tổng quan của phương pháp phân lớp . . . . . . . . . . .
Cấu trúc các tầng của VGGNet và các thông số tương ứng . . . . . .
Flowchart lựa chọn đặc trưng bằng SSA . . . . . . . . . . . . . . .
Một ví dụ về một tập đặc trưng con . . . . . . . . . . . . . . . . . .
Biểu diễn toán học các hàm transfer function . . . . . . . . . . . . .
Đồ thị các hàm transfer function . . . . . . . . . . . . . . . . . . .
Phương pháp sử dụng transfer function để đưa SSA về dạng nhị phân
.
.
.
.
.
.
.
27
28
30
33
33
34
34
5.1
5.2
Biến đổi hình thái phôi bào theo FAB . . . . . . . . . . . . . . . . . . . . . . .
Thời gian trích xuất đặc trưng và độ chính xác . . . . . . . . . . . . . . . . . .
36
39
DANH
5.1
5.2
5.3
5.4
5.5
5.6
MỤC BẢNG BIỂU
Danh sách các tham số của giải thuật . . . . . . . . . . . . . . . . . . . . . . .
Ảnh hưởng của α và β đến độ chính xác phân loại . . . . . . . . . . . . . . . .
Ảnh hưởng của α và β đến tỷ lệ giảm số lượng đặc trưng . . . . . . . . . . . .
Ảnh hưởng của các phiên bản TF đối với giải thuật SSA . . . . . . . . . . . . .
Thống kê các chỉ số đánh giá tính hiệu quả của bộ đặc trưng dựa trên 6 giải thuật
phân lớp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
So sánh SSA với ISSA đã cải tiến . . . . . . . . . . . . . . . . . . . . . . . . .
38
40
40
40
41
42
DANH MỤC CHỮ VIẾT TẮT
Danh sách dưới đây liệt kê các chữ cái viết tắt sẽ được sử dụng về sau trong nội dung cuốn luận
văn này.
ACO
Ant Colony Optimization
ALL
Acute Lymphoblastic Leukemia
CNN
Convolutional Neural Network
ISSA
Improved Salp Swarm Algorithm
KNN
K-Nearest Neighbor
MLP
Multilayer Perceptron
PSO
Particle Swarm Optimization
SSA
Salp Swarm Algorithm
SV M
Support Vector Machine
T BBC
Tế Bào Bạch Cầu
TF
Transfer Function
1
TỔNG
QUAN
Trong chương này, chúng tôi xin giới thiệu sơ lược về nội dung đề tài và cấu trúc luận văn.
Mục lục
1.1
Giới thiệu đề tài . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2
1.2
Mục tiêu và phạm vi đề tài . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2
1.3
Cấu trúc luận văn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2
2
CHƯƠNG 1 TỔNG QUAN
1.1
Giới thiệu đề tài
Tế bào bạch cầu (TBBC) Leukemia được sản sinh quá mức trong tủy xương, việc phát hiện các
tế bào ác tính dựa trên hình ảnh hiển vi là rất quan trọng. Các công cụ hỗ trợ của máy tính có
thể rất hữu ích trong việc tự động hóa quá trình phân đoạn và nhận dạng tế bào. Việc xác định
tế bào ác tính so với tế bào bình thường từ hình ảnh hiển vi là khó khăn vì về mặt hình thái, cả
hai loại tế bào đều có vẻ giống nhau.
Mạng nơ-ron tích chập (Convolutional Neural Network - CNN) là một trong những phương
pháp tiên tiến nhất hiện nay dùng để phân loại hình ảnh, nhưng chi phí tính toán cho việc huấn
luyện và hiện thực là khá cao. Do đó, luận văn này sẽ đề xuất một phương pháp lai cải tiến để
phân lớp hình ảnh bạch cầu một cách hiệu quả. Trích xuất đặc trưng sâu bằng một kiến trúc
CNN hiện đại được huấn luyện trước trên tập dữ liệu ImageNet và cải tiến một giải thuật tối ưu
hóa bầy đàn để lựa chọn đặc trưng là cách tiếp cận mà chúng tôi đề xuất để huấn luyện một mô
hình phân lớp đạt được độ chính xác cao và giảm độ phức tạp tính toán.
1.2
Mục tiêu và phạm vi đề tài
Mục tiêu của đề tài này bao gồm:
• Trích xuất đặc trưng sâu từ các tập dữ liệu hình ảnh hiển vi của tế bào bạch cầu để phục
vụ cho thuật toán phân lớp.
• Cải thiện về chất lượng và số lượng của bộ đặc trưng bằng phương pháp lựa chọn đặc
trưng sử dụng một giải thuật tối ưu hóa bầy đàn.
• Đề xuất cải tiến giải thuật SSA.
• Hiện thực phương pháp, thử nghiệm trên nhiều bộ tham số khác nhau để tìm ra kết quả
tối ưu nhất.
• Đánh giá phương pháp phân lớp đã đề xuất.
1.3
Cấu trúc luận văn
Chương 1. Tổng quan.
tài và cấu trúc luận văn.
Trong chương này, chúng tôi xin giới thiệu sơ lược về nội dung đề
Chương 2. Những nghiên cứu liên quan. Trong chương này, chúng tôi sẽ trình bày một số
nghiên cứu liên quan của bài toán phân lớp hình ảnh tế bào bạch cầu.
Chương 3. Kiến thức nền tảng. Trong chương này, chúng tôi sẽ trình bày những kiến thức
nền tảng được sử dụng trong quá trình thực hiện luận văn, bao gồm đặc trưng sâu, kiến trúc
mạng nơ-ron tích chập (Convolutional Neural Network), khái niệm transfer learning, một cấu
CHƯƠNG 1 TỔNG QUAN
3
trúc mạng tích chập hiện đại (VGG19), ý tưởng tổng quan của tối ưu hóa bầy đàn và giải thuật
Salp Swarm Algorithm (SSA).
Chương 4. Phương pháp thực hiện. Trong chương này, chúng tôi sẽ mô tả chi tiết bài toán
phân lớp tế bào bạch cầu, từ đó xây dựng phương pháp phân loại bao gồm hai bước: trích xuất
đặc trưng sâu bằng một mạng CNN hiện đại và lựa chọn đặc trưng sử dụng một cải tiến của giải
thuật Salp Swarm Algorithm (SSA).
Chương 5. Kết quả hiện thực. Trong chương này, chúng tôi xin mô tả các tập dữ liệu sẽ sử
dụng, các tiêu chuẩn đánh giá, phương pháp thực nghiệm và đánh giá các kết quả đạt được.
Chương 6. Tổng kết. Trong chương này, chúng tôi xin trình bày các kết quả đạt được, những
hạn chế và khó khăn trong quá trình làm luận văn và hướng phát triển trong tương lai của đề tài
sau khi kết thúc luận văn.
2
NHỮNG
NGHIÊN CỨU LIÊN QUAN
Trong chương này, chúng tôi sẽ trình bày một số nghiên cứu liên quan của bài toán phân lớp
hình ảnh tế bào bạch cầu.
Mục lục
2.1
Phân lớp hình ảnh tế bào bạch cầu . . . . . . . . . . . . . . . . . . . . . . . . . .
5
2.2
Tổng quan các cách tiếp cận bài toán phân lớp tế bào bạch cầu . . . . . . . . . . .
6
2.3
Lựa chọn đặc trưng dựa trên giải thuật tối ưu hóa bầy đàn . . . . . . . . . . . . . .
9
2.4
Những thách thức phổ biến của các phương pháp hiện nay . . . . . . . . . . . . .
11
CHƯƠNG 2 NHỮNG NGHIÊN CỨU LIÊN QUAN
2.1
5
Phân lớp hình ảnh tế bào bạch cầu
Máu chủ yếu chứa ba loại tế bào: hồng cầu, tiểu cầu và bạch cầu. Tế bào hồng cầu đóng vai
trò quan trọng trong việc vận chuyển oxy từ tim đến các mô và mang đi carbon dioxide. Chúng
chiếm tới 50% thể tích máu. Tế bào bạch cầu có chức năng quan trọng đối với hệ miễn dịch, vì
chúng bảo vệ cơ thể chống lại nhiễm trùng và bệnh tật. Do đó việc phân loại tế bào bạch cầu
là rất quan trọng. Hàng triệu người bị ảnh hưởng bởi bệnh bạch cầu (Leukemia), được xem như
là một khối u ác tính. Nó hình thành từ tủy xương và sau đó phân phối đến tế bào máu trong
toàn bộ cơ thể. Thông thường, bạch cầu phát triển dựa trên nhu cầu cơ thể, nhưng trong trường
hợp bệnh bạch cầu, chúng được sản sinh một cách bất thường và kém hiệu quả. Mặc dù có thể
được phát hiện bởi vẻ ngoài giống như màu tím sẫm, việc phân tích và xử lý thêm rất phức tạp
do những thay đổi về hình dạng và kết cấu. Hơn nữa, tế bào bạch cầu được bao quanh bởi các
thành phần máu khác như hồng cầu và tiểu cầu nên việc phân biệt bằng hình dạng và kích thước
trở nên không có hiệu quả.
Phân loại tế bào thông qua xử lý hình ảnh gần đây đã thu hút được sự quan tâm dựa trên quan
điểm xây dựng các công cụ chẩn đoán với sự hỗ trợ của máy tính đối với các bệnh rối loạn máu
như bệnh bạch cầu. Để đi đến kết luận chẩn đoán bệnh và mức độ tiến triển, việc xác định tế
bào ác tính với độ chính xác cao là rất quan trọng. Các công cụ hỗ trợ của máy tính có thể rất
hữu ích trong việc tự động hóa quá trình phân đoạn và nhận dạng tế bào. Việc xác định tế bào
ác tính so với tế bào bình thường từ hình ảnh hiển vi là khó khăn vì về mặt hình thái, cả hai loại
tế bào đều có vẻ giống nhau.
Điều quan trọng là phải chẩn đoán bệnh sớm để tăng khả năng chữa khỏi bệnh của các đối
tượng mắc bệnh ung thư. Mặc dù các phương pháp tiên tiến như kỹ thuật đếm tế bào dòng chảy
là sẵn có, chúng rất đắt tiền và không được cung cấp rộng rãi trong các phòng thí nghiệm giải
phẫu hoặc bệnh viện, đặc biệt là ở những vùng nông thôn. Mặt khác, một giải pháp dựa trên
máy tính có thể được triển khai dễ dàng với chi phí thấp hơn nhiều.
Do đó, đây là một nỗ lực nhằm xây dựng một bộ phân loại tự động khắc phục các vấn đề
liên quan đến việc triển khai máy móc phức tạp, hỗ trợ các nhà nghiên cứu bệnh lý học và ung
thư học đưa ra các suy luận nhanh hơn dựa trên dữ liệu.
Tế bào bạch cầu lympho (Lymphocytes) có hình dạng bình thường, hạt nhân của chúng có
các cạnh trơn nhẵn, ngược lại tế bào lympho của bệnh nhân tăng lympho bào cấp tính (Acute
Lymphoblastic Leukaemia - ALL) có ít cạnh bao bình thường hơn và xuất hiện các khoang nhỏ
trong tế bào chất, được gọi là không bào, và các hạt tròn trong nhân của chúng, được gọi là
nucleoli. Phân lớp ALL là một bài toán phân lớp mẫu dựa trên các đặc trưng trích xuất từ hình
ảnh hiển vi của phết máu. Phân lớp là một kỹ thuật học có giám sát sử dụng dữ liệu huấn luyện
để huấn luyện mô hình và kiểm tra trên tập dữ liệu test để tính toán hiệu suất của mô hình.
CHƯƠNG 2 NHỮNG NGHIÊN CỨU LIÊN QUAN
6
Hình 2.1: Một số mẫu hình ảnh tế bào bạch cầu lành tính (trên) và ác tính (dưới) trích từ tập dữ
liệu ALL-IDB2
2.2
2.2.1
Tổng quan các cách tiếp cận bài toán phân lớp tế bào
bạch cầu
Những phương pháp truyền thống dựa trên học máy
Sajjad và cộng sự [1] đã đề xuất một framework với sự hỗ trợ của điện toán đám mây di động
để phân đoạn và phân loại bạch cầu thành năm lớp. Framework bắt đầu từ công đoạn phân đoạn
các tế bào bạch cầu (WBCs) bằng thuật toán K-means để loại bỏ những thành phần không liên
quan thông qua các phép toán hình thái. Nhiều loại đặc trưng bao gồm hình học, thống kê và
kết cấu được trích xuất bằng phép phân tích thành phần chính (Principal Component Analysis).
Việc phân loại được thực hiện bởi Support Vector Machine (SVM) trên tập dữ liệu gồm 1030
hình ảnh WBC phết máu. Kumar và cộng sự [2] đã giới thiệu một hệ thống phát hiện tự động
cho bệnh bạch cầu cấp tính. Hệ thống bắt đầu bằng tiền xử lý nhiễu và mờ trong các bức ảnh kỹ
thuật số. Một loạt các đặc trưng bao gồm màu sắc, hình học, kết cấu và thống kê đã được trích
xuất và phân loại là lành tính hoặc ác tính. Hai mô hình phân lớp KNN và Naive Bayes được sử
dụng, thử nghiệm trên tập dữ liệu gồm 60 mẫu máu cho thấy tính ưu việt của KNN với độ chính
xác phân loại 92,8%.
Supardi và cộng sự [3] đã giới thiệu một hệ thống phân loại giúp phân biệt giữa hai loại bệnh
bạch cầu cấp tính: bệnh bạch cầu nguyên bào tủy cấp tính (AML) và bệnh bạch cầu nguyên bào
lympho cấp tính (ALL). Mười hai đặc trưng đã được trích xuất thủ công từ các mẫu hình ảnh.
Các thử nghiệm trên tập dữ liệu gồm 1500 hình ảnh sử dụng bộ phân lớp KNN cho ra độ chính
xác 86%. Madhukar và cộng sự [4] cũng đề xuất một phương pháp phân loại AML giúp tăng
cường độ tương phản của hình ảnh và trích xuất năm đặc trưng. Thử nghiệm trên tập dữ liệu
gồm 50 hình ảnh với SVM tạo ra độ chính xác phân loại 93,5%.
Setiawan và cộng sự [5] đã giới thiệu một hệ thống có thể phân loại các cell trong tập AML
thành các nhóm nhỏ M4, M5 và M7. Đầu tiên, các cell được phân đoạn bằng thuật toán Kmeans. Sau đó, sáu đặc trưng thống kê được trích xuất và nhập vào bộ phân loại SVM nhiều
CHƯƠNG 2 NHỮNG NGHIÊN CỨU LIÊN QUAN
7
lớp. Kết quả cho ra độ chính xác phân đoạn khoảng 87% và độ chính xác phân loại 92,9% trong
trường hợp tốt nhất. Faivdullah và cộng sự [6] đề xuất một framework với ba tầng trích xuất đặc
trưng, mã hóa và phân loại. Với một hình ảnh phết máu của một bệnh nhân nhất định, mục tiêu
của phương pháp này là quyết định xem một bệnh nhân có bị bệnh bạch cầu hay không và xác
định loại nào. SIFT (Scale-invariant feature transform) được sử dụng để trích xuất đặc trưng.
Kích thước của các vectơ đặc trưng này sẽ bị giảm đi trong tầng mã hóa. Thử nghiệm bằng bộ
phân loại SVM nhiều lớp trên tập dữ liệu 400 mẫu cho độ chính xác phân loại 79,38%.
Laosai và Chamnongthai [7] đã trình bày một hệ thống phân loại AML phân chia các hạt nhân
bằng K-means và phương pháp chữ ký đường viền (contour signature). Trích xuất các đặc trưng
về kích thước, màu sắc, v.v. của tế bào được thực hiện thông qua hình thái học. Thử nghiệm trên
tập dữ liệu gồm 100 hình ảnh cho thấy bộ phân loại SVM có độ chính xác lên đến 92%.
Dwivedi [8] đã giới thiệu một hướng tiếp cận để phân biệt giữa ALL và AML bằng cách sử
dụng cấu hình gen microarray và mạng nơ-ron nhân tạo để phân loại. Hệ thống này được đánh
giá với một tập dữ liệu trong tổng số 46 mẫu với độ chính xác 98%, bộ phân lớp dựa trên mạng
nơ-ron nhân tạo đã đạt được kết quả tốt nhất trong tất cả các mô hình. Công trình phát hiện
AML được đề xuất bởi Abdeldaim và cộng sự [9]. Các bức ảnh bạch cầu được phân đoạn bằng
sự kết hợp của nhiều phương pháp, bao gồm cân bằng histogram (histogram equalization) và
thuật toán Zack. Những đặc trưng khác nhau bao gồm màu sắc, hình dạng và kết cấu được trích
xuất và chuẩn hóa. Hệ thống được đánh giá với tập dữ liệu gồm 260 hình ảnh với độ chính xác
96.01%, kết quả tốt nhất đạt được bởi bộ phân lớp KNN.
2.2.2
Một số hướng tiếp cận dựa trên học sâu
Yu và cộng sự [10] đã giới thiệu một hệ thống phân loại cho tế bào bạch cầu bằng cách áp dụng
một số mạng học sâu. Hệ thống này được đánh giá với bộ dữ liệu gồm 2000 hình ảnh hiển vi
của 7 loại bạch cầu và so sánh nó với một số phương pháp truyền thống. Với độ chính xác trung
bình là 88,5%, kết quả thu được đã khẳng định tính ưu việt của việc sử dụng CNN. Thanh và
cộng sự [11] đề xuất một phương pháp dựa trên CNN để phân biệt giữa hình ảnh tế bào máu
bình thường và bất thường để phát hiện bệnh bạch cầu ở giai đoạn đầu. Được đánh giá với tập
dữ liệu gồm 1188 hình ảnh, phương pháp đề xuất đạt độ chính xác phân loại 96,6%.
Vogado và cộng sự [12] đã giới thiệu một hệ thống chẩn đoán bệnh bạch cầu được thực hiện
trên 377 hình ảnh. Hệ thống này sử dụng phương pháp transfer learning và mạng CNN để trích
xuất các đặc trưng phân biệt. Sau đó, lựa chọn tính năng sử dụng thu được thông tin. Cuối cùng,
bộ phân loại dựa trên SVM đã thực hiện phân loại. Với ba bộ dữ liệu không đồng nhất được sử
dụng để xác nhận, hệ thống này đạt được độ chính xác phân loại xấp xỉ 99%. Zhao và cộng sự
[13] đề xuất một hệ thống để phát hiện và phân loại các tế bào bạch cầu, lần đầu tiên chúng
được phát hiện trong hình ảnh dạng hiển vi bằng một số phương pháp tiếp cận. Sau đó, một
CNN đã được sử dụng để trích xuất các đặc trưng. Cuối cùng, một bộ phân loại SVM và một bộ
phân loại random forest đã được sử dụng chung để phân loại. Hệ thống đề xuất được đánh giá
bởi một tập dữ liệu là tập hợp của một số tập dữ liệu tiêu chuẩn. Kết quả cho ra độ chính xác
phân loại trung bình là 92,8%.
Habibzadeh và cộng sự [14] đã trình bày một mô hình phân loại cho tế bào bạch cầu dựa trên
cả transfer learning và deep learning. Phương pháp được đề xuất bắt đầu với một bước tiền xử
lý, sau đó sử dụng transfer learning để trích xuất các đặc trưng. Cuối cùng, phân loại được thực
CHƯƠNG 2 NHỮNG NGHIÊN CỨU LIÊN QUAN
8
hiện bằng cách sử dụng deep networks Inception và ResNet. Phương pháp được đánh giá với
tập dữ liệu là 1244 tế bào bạch cầu. Kết quả đạt được độ chính xác 99,84% trong trường hợp tốt
nhất. Lin và cộng sự [15] đã trình bày một hệ thống phân loại bạch cầu. Thứ nhất, một phương
pháp cải tiến đã chiết xuất các bạch cầu phức tạp theo một biến thể của thuật toán k-mean. Sau
đó, phân loại được thực hiện bởi CNN. Một tập dữ liệu gồm 368 hình ảnh đã được sử dụng để
đánh giá. Kết quả đạt độ chính xác phân loại 98,96%.
Rehman và cộng sự [16] đề xuất một hệ thống phân loại cho cho tập dữ liệu ALL. Đầu tiên,đối
tượng phân loại (nguyên bào lympho) được phân đoạn từ hình ảnh tủy xương bằng phương pháp
ngưỡng đơn giản. Sau đó, Network AlexNet được sử dụng để phân loại. Đánh giá sử dụng tập
dữ liệu gồm 330 hình ảnh. Kết quả đạt độ chính xác phân loại 97,78%. Shafique và Tehsin
[17] đã phân loại tập dữ liệu ALL bằng cách sử dụng AlexNet được đào tạo trước. Tập dữ liệu
ALL-IDB2, bao gồm 260 hình ảnh, được sử dụng để đánh giá. Kết quả đạt được độ chính xác
phân loại trung bình là 96,06%.
Wang và cộng sự [18] đã đưa ra một phương pháp để phát hiện và phân loại tế bào bạch cầu theo
một bộ phân loại tổng hợp để kết hợp đầu ra của một số CNN. Các thử nghiệm với tập dữ liệu
gồm 3000 hình ảnh cho mỗi lớp đã tạo ra độ chính xác phân loại trung bình là 99,37% trong
trường hợp tốt nhất. Pansombut và cộng sự [19] đề xuất một phương pháp khác để phân loại tập
dữ liệu bằng cách sử dụng mạng CNN được gọi là ConVNet. Một tập dữ liệu gồm 363 hình ảnh
đã được sử dụng để đánh giá và đạt được độ chính xác 80%. Các thí nghiệm đã khẳng định tính
ưu việt của phương pháp này so với vô số phương pháp truyền thống.
Sawada và cộng sự [20] đề xuất một cách tiếp cận học sâu để thay đổi các vectơ mục tiêu.
Learning to move có thể đưa ra giải pháp cho vấn đề này. Phương pháp tiêu chuẩn làm tăng hiệu
quả của việc phân loại, nhưng nó không xem xét mối quan hệ giữa các vectơ của mối quan hệ.
Từ quan điểm này, việc sửa đổi đề xuất của vectơ quan hệ dựa trên các lực đẩy bị hạn chế theo
từng cặp. Kết quả của phương pháp đề xuất của họ chỉ ra rằng lớp cụ thể của nhiệm vụ có thể
được sử dụng lại bằng cách ước lượng thích hợp các vectơ quan hệ.
2.2.3
Đánh giá tổng quan về các cách tiếp cận bài toán
Chất lượng kết quả của bài toán phân lớp phụ thuộc chủ yếu vào chất lượng của các đặc trưng
được sử dụng. Các phương pháp tiếp cận trước đây dựa vào học máy và xử lý hình ảnh truyền
thống, mất nhiều thời gian và tỷ lệ lỗi nhận dạng tương đối cao, đặc biệt là đối với các loại bạch
cầu hiếm.
Để hỗ trợ các kỹ thuật học hiện đại, deep learning và các giải pháp mạnh mẽ cho việc học hành
vi chung, thông qua học tăng cường, có thể được sử dụng để tạo mô hình cho các quá trình học
tập bao gồm cả sự xuất hiện của đối tượng và chiến lược tìm kiếm. Kết quả ban đầu trong nhiệm
vụ phát hiện mốc đã chứng minh rằng kiểu tiếp cận này rất có triển vọng về độ chính xác và
mạnh mẽ. Ngoài ra, tốc độ được cải thiện bằng cách tránh các thói quen quét kém hiệu quả điển
hình.
Sự phát triển của deep neural network đã góp phần vào sự phát triển của loại phương pháp phát
hiện bệnh bạch cầu thứ hai được gọi là phương pháp dựa trên học tập end-to-end. Ý tưởng đằng
sau danh mục này là thiết kế và xây dựng một mạng nơ-ron sâu lấy hình ảnh đầu vào và trả về
lớp đầu ra mà không phải trải qua các nhiệm vụ thách thức khác nhau liên quan đến các phương
- Xem thêm -