Đăng ký Đăng nhập
Trang chủ Phân lớp nhanh hình ảnh tế bào bạch cầu dựa vào đặc trưng sâu và tối ưu hóa bầy ...

Tài liệu Phân lớp nhanh hình ảnh tế bào bạch cầu dựa vào đặc trưng sâu và tối ưu hóa bầy đàn

.PDF
62
1
128

Mô tả:

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA KHOA KHOA HỌC & KỸ THUẬT MÁY TÍNH BK TP.HCM LUẬN VĂN TỐT NGHIỆP ĐẠI HỌC PHÂN LỚP NHANH HÌNH ẢNH TẾ BÀO BẠCH CẦU DỰA VÀO ĐẶC TRƯNG SÂU VÀ TỐI ƯU HÓA BẦY ĐÀN NGÀNH: KHOA HỌC MÁY TÍNH HỘI ĐỒNG: KHOA HỌC MÁY TÍNH 9 GVHD: TS. LÊ HỒNG TRANG GVPB: THS. LÊ THỊ BẢO THU SVTH 1: THÁI TIỂU PHƯƠNG 1710250 SVTH 2: NGUYỄN BÌNH YÊN 1714074 TP. Hồ Chí Minh, tháng 10/2021 ĐẠI HỌC QUỐC GIA TP.HCM ---------TRƯỜNG ĐẠI HỌC BÁCH KHOA KHOA: KH & KT Máy tính ___ BỘ MÔN: HTTT ____________ CỘNG HÒA Xà HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự do - Hạnh phúc NHIỆM VỤ LUẬN ÁN TỐT NGHIỆP Chú ý: Sinh viên phải dán tờ này vào trang nhất của bản thuyết trình HỌ VÀ TÊN: Thái Tiểu Phương ______________________ MSSV: 1710250 ______ HỌ VÀ TÊN: Nguyễn Bình Yên ______________________ MSSV: 1714047 ______ HỌ VÀ TÊN: _____________________________________ MSSV: _____________ NGÀNH: Khoa học máy tính ___________________ LỚP: ______________________ 1. Đầu đề luận án: Phân lớp nhanh hình ảnh tế bào bạch cầu dựa vào đặc trưng sâu và tối ưu bầy đàn ___________________________________________________________________________ 2. Nhiệm vụ (yêu cầu về nội dung và số liệu ban đầu): - Tìm hiểu tổng quan về bài toán phân lớp tế bào bạch cầu ____________________________ - Tìm hiểu về trích xuất dùng mạng nơ-ron sâu và lựa chọn đặc trưng dùng tối ưu hoá bầy đàn - Đề xuất cải thiện mô hình phân loại hình ảnh tế bào bạch cầu dùng đặc trưng sâu và cải tiến lựa chọn đặc trưng ____________________________________________________________ - Hiện thực, thực nghiệm và đánh giá các kết quả ___________________________________ ___________________________________________________________________________ ___________________________________________________________________________ 3. Ngày giao nhiệm vụ luận án: 01/03/2021 4. Ngày hoàn thành nhiệm vụ: 28/06/2021 5. Họ tên giảng viên hướng dẫn: TS. Lê Hồng Trang Phần hướng dẫn: Toàn bộ 1) __________________________________________________________________________ 2) __________________________________________________________________________ 3) __________________________________________________________________________ Nội dung và yêu cầu LVTN đã được thông qua Bộ môn. Ngày 15 tháng 08 năm 2021 CHỦ NHIỆM BỘ MÔN GIẢNG VIÊN HƯỚNG DẪN CHÍNH (Ký và ghi rõ họ tên) (Ký và ghi rõ họ tên) PGS. TS. Trần Minh Quang TS. Lê Hồng Trang PHẦN DÀNH CHO KHOA, BỘ MÔN: Người duyệt (chấm sơ bộ): ________________________ Đơn vị: _______________________________________ Ngày bảo vệ: ___________________________________ Điểm tổng kết: _________________________________ Nơi lưu trữ luận án: _____________________________ TRƯỜNG ĐẠI HỌC BÁCH KHOA KHOA KH & KT MÁY TÍNH CỘNG HÒA Xà HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự do - Hạnh phúc ---------------------------Ngày 10 tháng 08 năm 2021 PHIẾU CHẤM BẢO VỆ LVTN (Dành cho người hướng dẫn/phản biện) 1. Họ và tên SV: Thái Tiểu Phương và Nguyễn Bình Yên MSSV: 1710250 và 1714074 Ngành (chuyên ngành): KHMT 2. Đề tài: Phân lớp nhanh hình ảnh tế bào bạch cầu dựa vào đặc trưng sâu và tối ưu hoá bầy đàn 3. Họ tên người hướng dẫn/phản biện: Lê Hồng Trang 4. Tổng quát về bản thuyết minh: Số trang: Số chương: Số bảng số liệu Số hình vẽ: Số tài liệu tham khảo: Phần mềm tính toán: Hiện vật (sản phẩm) 5. Tổng quát về các bản vẽ: - Số bản vẽ: Bản A1: Bản A2: Khổ khác: - Số bản vẽ vẽ tay Số bản vẽ trên máy tính: 6. Những ưu điểm chính của LVTN: - - Luận văn xét khó khăn của bài toán phân lớp hình ảnh tế bào khi sử dụng kính hiển vi, do hình thái tế bào ác tính và lành tính khá giống nhau khi nhìn bằng mắt thường. Phương pháp đề xuất chú trọng vào hai yếu tố quan trọng. Việc trích xuất dựa vào mạng VGG19. Các đặc trưng sau đó được lựa chọn bằng việc áp dụng tối ưu bầy đàn. Đây là một kỹ thuật thú vị. Nhóm không chỉ sử dụng lại mô hình tối ưu đã có mà còn đề xuất cải tiến thông qua hàm fitness. Mô hình đề xuất và các giải thuật cải tiến được hiện thực, thực nghiệm với tập dữ liệu ALLIDB và C-NMC. Nhóm đã tiến hành các thực nghiệm để phân tích/đánh giá chi tiết về các thành phần trong mô hình đề xuất, cũng như sự ảnh hưởng của các bộ tham số khác nhau tác động lên hiệu năng của mô hình. Cuối cùng nhóm đã thực nghiệm trên nhiều bộ phân lớp để đánh giá mô hình trích xuất, lựa chọn đặc trưng đã đề xuất. Các thực nghiệm được mô tả rõ ràng. 7. Những thiếu sót chính của LVTN: - Một số nội dung ở phần đầu, nhóm có thể bổ sung thêm một số thông tin để luận văn hoàn thiện hơn và đầy đủ hơn. 8. Đề nghị: Được bảo vệ R Bổ sung thêm để bảo vệ o 9. 3 câu hỏi SV phải trả lời trước Hội đồng: a. 10. Đánh giá chung (bằng chữ: giỏi, khá, TB): Giỏi Không được bảo vệ o Điểm: 10/10 Ký tên (ghi rõ họ tên) TS. Lê Hồng Trang 75ѬӠ1*ĈҤ,+Ӑ&%È&+.+2$ KHOA KH & KT MÁY TÍNH &Ӝ1*+Ñ$;­+Ӝ,&+Ӫ1*+Ƭ$9,ӊ71$0 ĈӝF OұS- 7ӵGR- +ҥQKSK~F ---------------------------Ngày 12 tháng 08 QăP 2021 3+,ӂ8&+Ҩ0%Ҧ29ӊ/971 'jQKFKRQJ˱ͥLK˱ͣQJG̳QSK̫QEL͏Q 1. +ӑYjWên SV1: Thái TiӇX3KѭѫQJ +ӑYjWrQ69NguyӉQBình Yên MSSV: 1710250 MSSV: 1714074 Ngành (chuyên ngành): .KRDKӑF0i\WtQK 2ĈӅWjL 3KkQOӟSQKDQKKuQKҧQKWӃEjREҥFKFҫXGӵDYjRÿһF ÿѭQJVkXYjWӕLѭXKyDEҫ\ ÿjn +ӑWrQQJѭӡLKѭӟQJGүQSKҧQELӋQ ThS Lê Thӏ%ҧRThu«««««««««««« 7әQJTXiWYӅEҧQWhu\ӃWPLQK 6ӕWUDQJ 6ӕFKѭѫQJ 6ӕEҧQJVӕOLӋX 6ӕKuQKYӁ 6ӕWjLOLӋXWKDPNKҧR 3KҫQPӅPWtQKWRiQ +LӋQYұW VҧQSKҭP 5. 7әQJTXiWYӅFiFEҧQYӁ - 6ӕEҧQYӁ %ҧQ$ %ҧn A2: .KәNKiF - 6ӕEҧQYӁYӁ tay 6ӕEҧQYӁ trên máy tính: 1KӳQJѭXÿLӇPFKtQK FӫD/971 - 6LQKYLrQÿm tìm hi͋Xcác nghiêm cͱXOLên quan v͉bài toán phân lͣS t͇Eào b̩FKF̯XG͹D trên 2 cách ti͇SF̵Q: h͕Fmáy và h͕FVâu, l͹DFK͕Qÿ̿FWU˱QJG͹DWUên gi̫LWKX̵WW͙L˱XKRá b̯\ÿjQ. - Ĉ͉xṷWP͡WSK˱˯QJán trích xṷWÿ̿FWU˱QJE̹QJm̩QJ&11 (VGGNet) sau ÿó l͹DFK͕Q ÿ̿FWU˱QJb̹QJJL̫LWKX̵W66$F̫LWL͇Q (thêm tr͕QJV͙quán tính nâng cao ch̭WO˱ͫQJK͡LWͭ, s͵Gͭng các transfer function). - Ti͇QKành th͹FQJKL͏P, ÿánh giá trên t̵S dͷOL͏XALL-IDB , C-NMC cho th̭\SK˱˯QJSKáp ÿ͍[X̭Wÿ̩Wÿ˱ͫFKL͏XVṷW phân lͣSW͙W h˯Qtài nguyên tính toán ít h˯Q(gi̫PV͙O˱ͫQJÿ̿F tr˱QJ) trong khi ÿ͡FKính xác phân lo̩Lcao h˯Qso vͣLFác nghiên cͱXWU˱ͣFÿó. - Báo cáo chi ti͇WNKRDK͕F 1KӳQJWKLӃXVyWFKtQKFӫD/971 ................................................................................................ - Th͵QJKL͏Pÿánh giá trên m͡WV͙ dataset khác. ĈӅQJKӏĈѭӧFEҧRYӋ_ %әVXQJWKrPÿӇEҧRYӋ† FkXKӓL69SKҧLWUҧOӡLWUѭӟF+ӝLÿӗQJ a. b. c. ĈiQKJLiFKXQJ EҵQJFKӳJLӓLNKá, TB): gi͗L .K{QJÿѭӧFEҧRYӋ† ĈLӇP 10 /10 .êWrQ JKLU}KӑWrQ ThS. Lê Th͓%̫R7KX LỜI CAM ĐOAN Chúng tôi xin cam đoan đây là công trình nghiên cứu do chính chúng tôi thực hiện dưới sự hướng dẫn của TS. Lê Hồng Trang. Ngoại trừ các kết quả tham khảo từ các công trình khác có liên quan đã được ghi rõ trong luận văn, nội dung nghiên cứu và các kết quả là trung thực và chưa có phần nội dung nào được nộp để lấy bằng cấp ở một trường khác. Các số liệu được sử dụng cho quá trình phân tích, nhận xét được chính chúng tôi tìm hiểu và thu thập từ nhiều nguồn khác nhau và sẽ được ghi rõ trong phần tài liệu tham khảo. Tất cả đều có trích dẫn và chú thích nguồn gốc. TP. HCM, NGÀY 26 THÁNG 07 NĂM 2021. LỜI CẢM ƠN Đầu tiên, chúng tôi xin gửi lời cảm ơn chân thành nhất đến TS. Lê Hồng Trang, thầy đã giúp đỡ chúng tôi trong quá trình chuẩn bị đề cương và hoàn thành luận văn trong suốt năm học vừa qua. Xin cảm ơn sự hướng dẫn tận tình của thầy, chính nhờ những kiến thức và kinh nghiệm mà thầy truyền đạt đã giúp chúng tôi có được cái nhìn tổng quan về đề tài, định hướng đúng đắn và hoàn thành tốt luận văn này. Xin gửi lời cảm ơn đến các thầy cô trường Đại học Bách Khoa Thành phố Hồ Chí Minh, đặc biệt là các thầy cô bộ môn trong khoa Khoa học và Kỹ thuật Máy tính đã truyền đạt những kiến thức quý báu trong bốn năm học qua. Cuối cùng, chúng tôi xin cảm ơn gia đình, bạn bè, những người đã giúp đỡ, hỗ trợ chúng tôi hết mình trong suốt thời gian hoàn thành chương trình bậc Đại học. TÁC GIẢ. iii TÓM TẮT Phân loại tế bào thông qua xử lý hình ảnh gần đây đã thu hút được sự quan tâm dựa trên quan điểm xây dựng các công cụ chẩn đoán với sự hỗ trợ của máy tính đối với các bệnh rối loạn máu như bệnh bạch cầu. Để đi đến kết luận chẩn đoán bệnh và mức độ tiến triển, việc xác định tế bào ác tính với độ chính xác cao là rất quan trọng. Thách thức được đặt ra là phải chẩn đoán bệnh sớm để tăng khả năng chữa khỏi bệnh của các đối tượng mắc bệnh ung thư. Mặc dù trong thực tiễn đã tồn tại các phương pháp tiên tiến như kỹ thuật đếm tế bào dòng chảy, chúng rất đắt tiền và không được cung cấp rộng rãi trong các phòng thí nghiệm giải phẫu hoặc bệnh viện, đặc biệt là ở những vùng nông thôn. Mặt khác, một giải pháp dựa trên máy tính có thể được triển khai dễ dàng với chi phí thấp hơn nhiều. Do đó, đề tài này là một nỗ lực nhằm xây dựng một phương pháp phân loại hình ảnh tế bào bạch cầu hiệu quả sử dụng học sâu và giải thuật tối ưu hóa bầy đàn, khắc phục các vấn đề liên quan đến việc triển khai máy móc phức tạp, hỗ trợ các nhà nghiên cứu bệnh lý học và ung thư học đưa ra các suy luận nhanh hơn dựa trên dữ liệu. MỤC LỤC Tóm tắt iii Danh mục hình ảnh vi Danh mục bảng biểu vii Danh mục chữ viết tắt viii Chương 1 TỔNG QUAN 1.1 Giới thiệu đề tài . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Mục tiêu và phạm vi đề tài . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3 Cấu trúc luận văn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Chương 2 NHỮNG NGHIÊN CỨU LIÊN QUAN 2.1 Phân lớp hình ảnh tế bào bạch cầu . . . . . . . . . . . . . . . 2.2 Tổng quan các cách tiếp cận bài toán phân lớp tế bào bạch cầu 2.2.1 Những phương pháp truyền thống dựa trên học máy . . 2.2.2 Một số hướng tiếp cận dựa trên học sâu . . . . . . . . 2.2.3 Đánh giá tổng quan về các cách tiếp cận bài toán . . . 2.3 Lựa chọn đặc trưng dựa trên giải thuật tối ưu hóa bầy đàn . . . 2.3.1 PSO trong bài toán phân lớp . . . . . . . . . . . . . . 2.3.2 ACO trong bài toán phân lớp . . . . . . . . . . . . . . 2.4 Những thách thức phổ biến của các phương pháp hiện nay . . . Chương 3 KIẾN THỨC NỀN TẢNG 3.1 Học sâu và đặc trưng sâu . . . . . . . . . . . . . . . . . . . . 3.2 Mạng nơ-ron tích chập - Convolutional Neural Network (CNN) 3.3 Transfer learning . . . . . . . . . . . . . . . . . . . . . . . . 3.4 Kiến trúc mạng VGG19 . . . . . . . . . . . . . . . . . . . . . 3.5 Một số bộ phân lớp được dùng để chẩn đoán ALL . . . . . . . 3.6 Tổng quan về tối ưu hóa bầy đàn . . . . . . . . . . . . . . . . 3.7 Một số phương pháp nổi bật trong tối ưu hóa bầy đàn . . . . . 3.7.1 Particle Swarm Optimization (PSO) . . . . . . . . . . 3.7.2 Ant Colony Optimization (ACO) . . . . . . . . . . . . 3.7.3 Salp Swarm Algorithm (SSA) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 2 2 2 . . . . . . . . . 4 5 6 6 7 8 9 9 10 11 . . . . . . . . . . 12 13 13 14 15 16 18 19 19 19 21 Chương 4 PHƯƠNG PHÁP THỰC HIỆN 4.1 Tổng quan phương pháp phân lớp tế bào bạch cầu đề xuất . . . . . . . . . . . . 4.2 Trích xuất đặc trưng (Feature Extraction) . . . . . . . . . . . . . . . . . . . . . 4.3 Lựa chọn đặc trưng (Feature Extraction) sử dụng Salp Swarm Algorithm (SSA) 4.3.1 Biểu diễn bài toán phân lớp bằng giải thuật SSA cho công đoạn lựa chọn đặc trưng . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3.2 Những cải tiến trên giải thuật SSA để tăng hiệu quả lựa chọn đặc trưng . 26 27 27 29 29 31 v MỤC LỤC Chương 5 KẾT QUẢ HIỆN THỰC 5.1 Tập dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.1.1 Đặc điểm hình thái của phôi bào ALL . . . . . . . . . . . . . . . 5.1.2 Tập dữ liệu ALL-IDB . . . . . . . . . . . . . . . . . . . . . . . . 5.1.3 Tập dữ liệu C-NMC . . . . . . . . . . . . . . . . . . . . . . . . . 5.2 Một số tiêu chuẩn đánh giá hệ thống phân lớp . . . . . . . . . . . . . . . 5.3 Phương pháp thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . 5.4 Đánh giá các kết quả đạt được . . . . . . . . . . . . . . . . . . . . . . . 5.4.1 Đánh giá bộ đặc trưng trích xuất từ VGGNet . . . . . . . . . . . . 5.4.2 Đánh giá ảnh hưởng của các chỉ số α và β đối với hàm mục tiêu . 5.4.3 Thống kê ảnh hưởng của các phiên bản Transfer Function đối với thuật SSA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.4.4 Đánh giá độ hiệu quả khi thực hiện lựa chọn đặc trưng . . . . . . 5.4.5 Đánh giá độ hiệu quả của ISSA so với SSA . . . . . . . . . . . . 5.5 Nhận xét chung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 36 36 36 37 37 38 38 38 39 . . . . . . . . . . . . . . . . . . . . . . . . . . . giải . . . . . . . . . . . . 40 41 42 43 Chương 6 TỔNG KẾT 6.1 Các kết quả đạt được . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.2 Những hạn chế, khó khăn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.3 Định hướng trong tương lai . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 45 45 46 Tài liệu tham khảo 46 DANH 2.1 2.2 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.9 MỤC HÌNH ẢNH Mẫu WBCs lành tính và ác tính . . . . . . . . . . . . . . . . . . . . . . . . . . Sơ đồ khối của phương pháp phát hiện bệnh bạch cầu dựa trên quá trình end-toend learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . So sánh giữa học máy truyền thống và transfer learning . . . . . . . . . . . . . Biểu diễn kiến trúc mạng của VGG19 . . . . . . . . . . . . . . . . . . . . . . Chuỗi Salp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Đồ thị hàm số của C1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Mã giả thuật toán Salp Swarm Algorithm . . . . . . . . . . . . . . . . . . . . Mô phỏng các bước lặp của thuật toán trong không gian 2 chiều . . . . . . . . . Mô phỏng vị trí của chuỗi salp qua 100 lần lặp của thuật toán trong không gian 2 chiều . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Mô phỏng các bước lặp của thuật toán trong không gian 3 chiều . . . . . . . . . Mô phỏng vị trí của chuỗi salp qua 100 lần lặp của thuật toán trong không gian 3 chiều . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 9 14 15 21 22 22 24 24 25 25 4.1 4.2 4.3 4.4 4.5 4.6 4.7 Flowchart tổng quan của phương pháp phân lớp . . . . . . . . . . . Cấu trúc các tầng của VGGNet và các thông số tương ứng . . . . . . Flowchart lựa chọn đặc trưng bằng SSA . . . . . . . . . . . . . . . Một ví dụ về một tập đặc trưng con . . . . . . . . . . . . . . . . . . Biểu diễn toán học các hàm transfer function . . . . . . . . . . . . . Đồ thị các hàm transfer function . . . . . . . . . . . . . . . . . . . Phương pháp sử dụng transfer function để đưa SSA về dạng nhị phân . . . . . . . 27 28 30 33 33 34 34 5.1 5.2 Biến đổi hình thái phôi bào theo FAB . . . . . . . . . . . . . . . . . . . . . . . Thời gian trích xuất đặc trưng và độ chính xác . . . . . . . . . . . . . . . . . . 36 39 DANH 5.1 5.2 5.3 5.4 5.5 5.6 MỤC BẢNG BIỂU Danh sách các tham số của giải thuật . . . . . . . . . . . . . . . . . . . . . . . Ảnh hưởng của α và β đến độ chính xác phân loại . . . . . . . . . . . . . . . . Ảnh hưởng của α và β đến tỷ lệ giảm số lượng đặc trưng . . . . . . . . . . . . Ảnh hưởng của các phiên bản TF đối với giải thuật SSA . . . . . . . . . . . . . Thống kê các chỉ số đánh giá tính hiệu quả của bộ đặc trưng dựa trên 6 giải thuật phân lớp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . So sánh SSA với ISSA đã cải tiến . . . . . . . . . . . . . . . . . . . . . . . . . 38 40 40 40 41 42 DANH MỤC CHỮ VIẾT TẮT Danh sách dưới đây liệt kê các chữ cái viết tắt sẽ được sử dụng về sau trong nội dung cuốn luận văn này. ACO Ant Colony Optimization ALL Acute Lymphoblastic Leukemia CNN Convolutional Neural Network ISSA Improved Salp Swarm Algorithm KNN K-Nearest Neighbor MLP Multilayer Perceptron PSO Particle Swarm Optimization SSA Salp Swarm Algorithm SV M Support Vector Machine T BBC Tế Bào Bạch Cầu TF Transfer Function 1 TỔNG QUAN Trong chương này, chúng tôi xin giới thiệu sơ lược về nội dung đề tài và cấu trúc luận văn. Mục lục 1.1 Giới thiệu đề tài . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.2 Mục tiêu và phạm vi đề tài . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.3 Cấu trúc luận văn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 2 CHƯƠNG 1 TỔNG QUAN 1.1 Giới thiệu đề tài Tế bào bạch cầu (TBBC) Leukemia được sản sinh quá mức trong tủy xương, việc phát hiện các tế bào ác tính dựa trên hình ảnh hiển vi là rất quan trọng. Các công cụ hỗ trợ của máy tính có thể rất hữu ích trong việc tự động hóa quá trình phân đoạn và nhận dạng tế bào. Việc xác định tế bào ác tính so với tế bào bình thường từ hình ảnh hiển vi là khó khăn vì về mặt hình thái, cả hai loại tế bào đều có vẻ giống nhau. Mạng nơ-ron tích chập (Convolutional Neural Network - CNN) là một trong những phương pháp tiên tiến nhất hiện nay dùng để phân loại hình ảnh, nhưng chi phí tính toán cho việc huấn luyện và hiện thực là khá cao. Do đó, luận văn này sẽ đề xuất một phương pháp lai cải tiến để phân lớp hình ảnh bạch cầu một cách hiệu quả. Trích xuất đặc trưng sâu bằng một kiến trúc CNN hiện đại được huấn luyện trước trên tập dữ liệu ImageNet và cải tiến một giải thuật tối ưu hóa bầy đàn để lựa chọn đặc trưng là cách tiếp cận mà chúng tôi đề xuất để huấn luyện một mô hình phân lớp đạt được độ chính xác cao và giảm độ phức tạp tính toán. 1.2 Mục tiêu và phạm vi đề tài Mục tiêu của đề tài này bao gồm: • Trích xuất đặc trưng sâu từ các tập dữ liệu hình ảnh hiển vi của tế bào bạch cầu để phục vụ cho thuật toán phân lớp. • Cải thiện về chất lượng và số lượng của bộ đặc trưng bằng phương pháp lựa chọn đặc trưng sử dụng một giải thuật tối ưu hóa bầy đàn. • Đề xuất cải tiến giải thuật SSA. • Hiện thực phương pháp, thử nghiệm trên nhiều bộ tham số khác nhau để tìm ra kết quả tối ưu nhất. • Đánh giá phương pháp phân lớp đã đề xuất. 1.3 Cấu trúc luận văn Chương 1. Tổng quan. tài và cấu trúc luận văn. Trong chương này, chúng tôi xin giới thiệu sơ lược về nội dung đề Chương 2. Những nghiên cứu liên quan. Trong chương này, chúng tôi sẽ trình bày một số nghiên cứu liên quan của bài toán phân lớp hình ảnh tế bào bạch cầu. Chương 3. Kiến thức nền tảng. Trong chương này, chúng tôi sẽ trình bày những kiến thức nền tảng được sử dụng trong quá trình thực hiện luận văn, bao gồm đặc trưng sâu, kiến trúc mạng nơ-ron tích chập (Convolutional Neural Network), khái niệm transfer learning, một cấu CHƯƠNG 1 TỔNG QUAN 3 trúc mạng tích chập hiện đại (VGG19), ý tưởng tổng quan của tối ưu hóa bầy đàn và giải thuật Salp Swarm Algorithm (SSA). Chương 4. Phương pháp thực hiện. Trong chương này, chúng tôi sẽ mô tả chi tiết bài toán phân lớp tế bào bạch cầu, từ đó xây dựng phương pháp phân loại bao gồm hai bước: trích xuất đặc trưng sâu bằng một mạng CNN hiện đại và lựa chọn đặc trưng sử dụng một cải tiến của giải thuật Salp Swarm Algorithm (SSA). Chương 5. Kết quả hiện thực. Trong chương này, chúng tôi xin mô tả các tập dữ liệu sẽ sử dụng, các tiêu chuẩn đánh giá, phương pháp thực nghiệm và đánh giá các kết quả đạt được. Chương 6. Tổng kết. Trong chương này, chúng tôi xin trình bày các kết quả đạt được, những hạn chế và khó khăn trong quá trình làm luận văn và hướng phát triển trong tương lai của đề tài sau khi kết thúc luận văn. 2 NHỮNG NGHIÊN CỨU LIÊN QUAN Trong chương này, chúng tôi sẽ trình bày một số nghiên cứu liên quan của bài toán phân lớp hình ảnh tế bào bạch cầu. Mục lục 2.1 Phân lớp hình ảnh tế bào bạch cầu . . . . . . . . . . . . . . . . . . . . . . . . . . 5 2.2 Tổng quan các cách tiếp cận bài toán phân lớp tế bào bạch cầu . . . . . . . . . . . 6 2.3 Lựa chọn đặc trưng dựa trên giải thuật tối ưu hóa bầy đàn . . . . . . . . . . . . . . 9 2.4 Những thách thức phổ biến của các phương pháp hiện nay . . . . . . . . . . . . . 11 CHƯƠNG 2 NHỮNG NGHIÊN CỨU LIÊN QUAN 2.1 5 Phân lớp hình ảnh tế bào bạch cầu Máu chủ yếu chứa ba loại tế bào: hồng cầu, tiểu cầu và bạch cầu. Tế bào hồng cầu đóng vai trò quan trọng trong việc vận chuyển oxy từ tim đến các mô và mang đi carbon dioxide. Chúng chiếm tới 50% thể tích máu. Tế bào bạch cầu có chức năng quan trọng đối với hệ miễn dịch, vì chúng bảo vệ cơ thể chống lại nhiễm trùng và bệnh tật. Do đó việc phân loại tế bào bạch cầu là rất quan trọng. Hàng triệu người bị ảnh hưởng bởi bệnh bạch cầu (Leukemia), được xem như là một khối u ác tính. Nó hình thành từ tủy xương và sau đó phân phối đến tế bào máu trong toàn bộ cơ thể. Thông thường, bạch cầu phát triển dựa trên nhu cầu cơ thể, nhưng trong trường hợp bệnh bạch cầu, chúng được sản sinh một cách bất thường và kém hiệu quả. Mặc dù có thể được phát hiện bởi vẻ ngoài giống như màu tím sẫm, việc phân tích và xử lý thêm rất phức tạp do những thay đổi về hình dạng và kết cấu. Hơn nữa, tế bào bạch cầu được bao quanh bởi các thành phần máu khác như hồng cầu và tiểu cầu nên việc phân biệt bằng hình dạng và kích thước trở nên không có hiệu quả. Phân loại tế bào thông qua xử lý hình ảnh gần đây đã thu hút được sự quan tâm dựa trên quan điểm xây dựng các công cụ chẩn đoán với sự hỗ trợ của máy tính đối với các bệnh rối loạn máu như bệnh bạch cầu. Để đi đến kết luận chẩn đoán bệnh và mức độ tiến triển, việc xác định tế bào ác tính với độ chính xác cao là rất quan trọng. Các công cụ hỗ trợ của máy tính có thể rất hữu ích trong việc tự động hóa quá trình phân đoạn và nhận dạng tế bào. Việc xác định tế bào ác tính so với tế bào bình thường từ hình ảnh hiển vi là khó khăn vì về mặt hình thái, cả hai loại tế bào đều có vẻ giống nhau. Điều quan trọng là phải chẩn đoán bệnh sớm để tăng khả năng chữa khỏi bệnh của các đối tượng mắc bệnh ung thư. Mặc dù các phương pháp tiên tiến như kỹ thuật đếm tế bào dòng chảy là sẵn có, chúng rất đắt tiền và không được cung cấp rộng rãi trong các phòng thí nghiệm giải phẫu hoặc bệnh viện, đặc biệt là ở những vùng nông thôn. Mặt khác, một giải pháp dựa trên máy tính có thể được triển khai dễ dàng với chi phí thấp hơn nhiều. Do đó, đây là một nỗ lực nhằm xây dựng một bộ phân loại tự động khắc phục các vấn đề liên quan đến việc triển khai máy móc phức tạp, hỗ trợ các nhà nghiên cứu bệnh lý học và ung thư học đưa ra các suy luận nhanh hơn dựa trên dữ liệu. Tế bào bạch cầu lympho (Lymphocytes) có hình dạng bình thường, hạt nhân của chúng có các cạnh trơn nhẵn, ngược lại tế bào lympho của bệnh nhân tăng lympho bào cấp tính (Acute Lymphoblastic Leukaemia - ALL) có ít cạnh bao bình thường hơn và xuất hiện các khoang nhỏ trong tế bào chất, được gọi là không bào, và các hạt tròn trong nhân của chúng, được gọi là nucleoli. Phân lớp ALL là một bài toán phân lớp mẫu dựa trên các đặc trưng trích xuất từ hình ảnh hiển vi của phết máu. Phân lớp là một kỹ thuật học có giám sát sử dụng dữ liệu huấn luyện để huấn luyện mô hình và kiểm tra trên tập dữ liệu test để tính toán hiệu suất của mô hình. CHƯƠNG 2 NHỮNG NGHIÊN CỨU LIÊN QUAN 6 Hình 2.1: Một số mẫu hình ảnh tế bào bạch cầu lành tính (trên) và ác tính (dưới) trích từ tập dữ liệu ALL-IDB2 2.2 2.2.1 Tổng quan các cách tiếp cận bài toán phân lớp tế bào bạch cầu Những phương pháp truyền thống dựa trên học máy Sajjad và cộng sự [1] đã đề xuất một framework với sự hỗ trợ của điện toán đám mây di động để phân đoạn và phân loại bạch cầu thành năm lớp. Framework bắt đầu từ công đoạn phân đoạn các tế bào bạch cầu (WBCs) bằng thuật toán K-means để loại bỏ những thành phần không liên quan thông qua các phép toán hình thái. Nhiều loại đặc trưng bao gồm hình học, thống kê và kết cấu được trích xuất bằng phép phân tích thành phần chính (Principal Component Analysis). Việc phân loại được thực hiện bởi Support Vector Machine (SVM) trên tập dữ liệu gồm 1030 hình ảnh WBC phết máu. Kumar và cộng sự [2] đã giới thiệu một hệ thống phát hiện tự động cho bệnh bạch cầu cấp tính. Hệ thống bắt đầu bằng tiền xử lý nhiễu và mờ trong các bức ảnh kỹ thuật số. Một loạt các đặc trưng bao gồm màu sắc, hình học, kết cấu và thống kê đã được trích xuất và phân loại là lành tính hoặc ác tính. Hai mô hình phân lớp KNN và Naive Bayes được sử dụng, thử nghiệm trên tập dữ liệu gồm 60 mẫu máu cho thấy tính ưu việt của KNN với độ chính xác phân loại 92,8%. Supardi và cộng sự [3] đã giới thiệu một hệ thống phân loại giúp phân biệt giữa hai loại bệnh bạch cầu cấp tính: bệnh bạch cầu nguyên bào tủy cấp tính (AML) và bệnh bạch cầu nguyên bào lympho cấp tính (ALL). Mười hai đặc trưng đã được trích xuất thủ công từ các mẫu hình ảnh. Các thử nghiệm trên tập dữ liệu gồm 1500 hình ảnh sử dụng bộ phân lớp KNN cho ra độ chính xác 86%. Madhukar và cộng sự [4] cũng đề xuất một phương pháp phân loại AML giúp tăng cường độ tương phản của hình ảnh và trích xuất năm đặc trưng. Thử nghiệm trên tập dữ liệu gồm 50 hình ảnh với SVM tạo ra độ chính xác phân loại 93,5%. Setiawan và cộng sự [5] đã giới thiệu một hệ thống có thể phân loại các cell trong tập AML thành các nhóm nhỏ M4, M5 và M7. Đầu tiên, các cell được phân đoạn bằng thuật toán Kmeans. Sau đó, sáu đặc trưng thống kê được trích xuất và nhập vào bộ phân loại SVM nhiều CHƯƠNG 2 NHỮNG NGHIÊN CỨU LIÊN QUAN 7 lớp. Kết quả cho ra độ chính xác phân đoạn khoảng 87% và độ chính xác phân loại 92,9% trong trường hợp tốt nhất. Faivdullah và cộng sự [6] đề xuất một framework với ba tầng trích xuất đặc trưng, mã hóa và phân loại. Với một hình ảnh phết máu của một bệnh nhân nhất định, mục tiêu của phương pháp này là quyết định xem một bệnh nhân có bị bệnh bạch cầu hay không và xác định loại nào. SIFT (Scale-invariant feature transform) được sử dụng để trích xuất đặc trưng. Kích thước của các vectơ đặc trưng này sẽ bị giảm đi trong tầng mã hóa. Thử nghiệm bằng bộ phân loại SVM nhiều lớp trên tập dữ liệu 400 mẫu cho độ chính xác phân loại 79,38%. Laosai và Chamnongthai [7] đã trình bày một hệ thống phân loại AML phân chia các hạt nhân bằng K-means và phương pháp chữ ký đường viền (contour signature). Trích xuất các đặc trưng về kích thước, màu sắc, v.v. của tế bào được thực hiện thông qua hình thái học. Thử nghiệm trên tập dữ liệu gồm 100 hình ảnh cho thấy bộ phân loại SVM có độ chính xác lên đến 92%. Dwivedi [8] đã giới thiệu một hướng tiếp cận để phân biệt giữa ALL và AML bằng cách sử dụng cấu hình gen microarray và mạng nơ-ron nhân tạo để phân loại. Hệ thống này được đánh giá với một tập dữ liệu trong tổng số 46 mẫu với độ chính xác 98%, bộ phân lớp dựa trên mạng nơ-ron nhân tạo đã đạt được kết quả tốt nhất trong tất cả các mô hình. Công trình phát hiện AML được đề xuất bởi Abdeldaim và cộng sự [9]. Các bức ảnh bạch cầu được phân đoạn bằng sự kết hợp của nhiều phương pháp, bao gồm cân bằng histogram (histogram equalization) và thuật toán Zack. Những đặc trưng khác nhau bao gồm màu sắc, hình dạng và kết cấu được trích xuất và chuẩn hóa. Hệ thống được đánh giá với tập dữ liệu gồm 260 hình ảnh với độ chính xác 96.01%, kết quả tốt nhất đạt được bởi bộ phân lớp KNN. 2.2.2 Một số hướng tiếp cận dựa trên học sâu Yu và cộng sự [10] đã giới thiệu một hệ thống phân loại cho tế bào bạch cầu bằng cách áp dụng một số mạng học sâu. Hệ thống này được đánh giá với bộ dữ liệu gồm 2000 hình ảnh hiển vi của 7 loại bạch cầu và so sánh nó với một số phương pháp truyền thống. Với độ chính xác trung bình là 88,5%, kết quả thu được đã khẳng định tính ưu việt của việc sử dụng CNN. Thanh và cộng sự [11] đề xuất một phương pháp dựa trên CNN để phân biệt giữa hình ảnh tế bào máu bình thường và bất thường để phát hiện bệnh bạch cầu ở giai đoạn đầu. Được đánh giá với tập dữ liệu gồm 1188 hình ảnh, phương pháp đề xuất đạt độ chính xác phân loại 96,6%. Vogado và cộng sự [12] đã giới thiệu một hệ thống chẩn đoán bệnh bạch cầu được thực hiện trên 377 hình ảnh. Hệ thống này sử dụng phương pháp transfer learning và mạng CNN để trích xuất các đặc trưng phân biệt. Sau đó, lựa chọn tính năng sử dụng thu được thông tin. Cuối cùng, bộ phân loại dựa trên SVM đã thực hiện phân loại. Với ba bộ dữ liệu không đồng nhất được sử dụng để xác nhận, hệ thống này đạt được độ chính xác phân loại xấp xỉ 99%. Zhao và cộng sự [13] đề xuất một hệ thống để phát hiện và phân loại các tế bào bạch cầu, lần đầu tiên chúng được phát hiện trong hình ảnh dạng hiển vi bằng một số phương pháp tiếp cận. Sau đó, một CNN đã được sử dụng để trích xuất các đặc trưng. Cuối cùng, một bộ phân loại SVM và một bộ phân loại random forest đã được sử dụng chung để phân loại. Hệ thống đề xuất được đánh giá bởi một tập dữ liệu là tập hợp của một số tập dữ liệu tiêu chuẩn. Kết quả cho ra độ chính xác phân loại trung bình là 92,8%. Habibzadeh và cộng sự [14] đã trình bày một mô hình phân loại cho tế bào bạch cầu dựa trên cả transfer learning và deep learning. Phương pháp được đề xuất bắt đầu với một bước tiền xử lý, sau đó sử dụng transfer learning để trích xuất các đặc trưng. Cuối cùng, phân loại được thực CHƯƠNG 2 NHỮNG NGHIÊN CỨU LIÊN QUAN 8 hiện bằng cách sử dụng deep networks Inception và ResNet. Phương pháp được đánh giá với tập dữ liệu là 1244 tế bào bạch cầu. Kết quả đạt được độ chính xác 99,84% trong trường hợp tốt nhất. Lin và cộng sự [15] đã trình bày một hệ thống phân loại bạch cầu. Thứ nhất, một phương pháp cải tiến đã chiết xuất các bạch cầu phức tạp theo một biến thể của thuật toán k-mean. Sau đó, phân loại được thực hiện bởi CNN. Một tập dữ liệu gồm 368 hình ảnh đã được sử dụng để đánh giá. Kết quả đạt độ chính xác phân loại 98,96%. Rehman và cộng sự [16] đề xuất một hệ thống phân loại cho cho tập dữ liệu ALL. Đầu tiên,đối tượng phân loại (nguyên bào lympho) được phân đoạn từ hình ảnh tủy xương bằng phương pháp ngưỡng đơn giản. Sau đó, Network AlexNet được sử dụng để phân loại. Đánh giá sử dụng tập dữ liệu gồm 330 hình ảnh. Kết quả đạt độ chính xác phân loại 97,78%. Shafique và Tehsin [17] đã phân loại tập dữ liệu ALL bằng cách sử dụng AlexNet được đào tạo trước. Tập dữ liệu ALL-IDB2, bao gồm 260 hình ảnh, được sử dụng để đánh giá. Kết quả đạt được độ chính xác phân loại trung bình là 96,06%. Wang và cộng sự [18] đã đưa ra một phương pháp để phát hiện và phân loại tế bào bạch cầu theo một bộ phân loại tổng hợp để kết hợp đầu ra của một số CNN. Các thử nghiệm với tập dữ liệu gồm 3000 hình ảnh cho mỗi lớp đã tạo ra độ chính xác phân loại trung bình là 99,37% trong trường hợp tốt nhất. Pansombut và cộng sự [19] đề xuất một phương pháp khác để phân loại tập dữ liệu bằng cách sử dụng mạng CNN được gọi là ConVNet. Một tập dữ liệu gồm 363 hình ảnh đã được sử dụng để đánh giá và đạt được độ chính xác 80%. Các thí nghiệm đã khẳng định tính ưu việt của phương pháp này so với vô số phương pháp truyền thống. Sawada và cộng sự [20] đề xuất một cách tiếp cận học sâu để thay đổi các vectơ mục tiêu. Learning to move có thể đưa ra giải pháp cho vấn đề này. Phương pháp tiêu chuẩn làm tăng hiệu quả của việc phân loại, nhưng nó không xem xét mối quan hệ giữa các vectơ của mối quan hệ. Từ quan điểm này, việc sửa đổi đề xuất của vectơ quan hệ dựa trên các lực đẩy bị hạn chế theo từng cặp. Kết quả của phương pháp đề xuất của họ chỉ ra rằng lớp cụ thể của nhiệm vụ có thể được sử dụng lại bằng cách ước lượng thích hợp các vectơ quan hệ. 2.2.3 Đánh giá tổng quan về các cách tiếp cận bài toán Chất lượng kết quả của bài toán phân lớp phụ thuộc chủ yếu vào chất lượng của các đặc trưng được sử dụng. Các phương pháp tiếp cận trước đây dựa vào học máy và xử lý hình ảnh truyền thống, mất nhiều thời gian và tỷ lệ lỗi nhận dạng tương đối cao, đặc biệt là đối với các loại bạch cầu hiếm. Để hỗ trợ các kỹ thuật học hiện đại, deep learning và các giải pháp mạnh mẽ cho việc học hành vi chung, thông qua học tăng cường, có thể được sử dụng để tạo mô hình cho các quá trình học tập bao gồm cả sự xuất hiện của đối tượng và chiến lược tìm kiếm. Kết quả ban đầu trong nhiệm vụ phát hiện mốc đã chứng minh rằng kiểu tiếp cận này rất có triển vọng về độ chính xác và mạnh mẽ. Ngoài ra, tốc độ được cải thiện bằng cách tránh các thói quen quét kém hiệu quả điển hình. Sự phát triển của deep neural network đã góp phần vào sự phát triển của loại phương pháp phát hiện bệnh bạch cầu thứ hai được gọi là phương pháp dựa trên học tập end-to-end. Ý tưởng đằng sau danh mục này là thiết kế và xây dựng một mạng nơ-ron sâu lấy hình ảnh đầu vào và trả về lớp đầu ra mà không phải trải qua các nhiệm vụ thách thức khác nhau liên quan đến các phương
- Xem thêm -

Tài liệu liên quan