Đăng ký Đăng nhập
Trang chủ Ngoại ngữ Kiến thức tổng hợp Ứng dụng thuật toán cnn vào dự đoán hình ảnh x rays hỗ trợ chẩn đoán bệnh xương ...

Tài liệu Ứng dụng thuật toán cnn vào dự đoán hình ảnh x rays hỗ trợ chẩn đoán bệnh xương khớp

.PDF
62
1
60

Mô tả:

BỘ GIÁO DỤC VÀ ĐÀO TAO TRƢỜNG ĐẠI HỌC QUY NHƠN NGỤY VŨ NAM ỨNG DỤNG THUẬT TOÁN CNN VÀO DỰ ĐOÁN HÌNH ẢNH X-RAYS HỖ TRỢ CHẨN ĐOÁN BỆNH XƢƠNG KHỚP LUẬN VĂN THẠC SĨ KHOA HỌC DỮ LIỆU ỨNG DỤNG Bình Định – Năm 2022 BỘ GIÁO DỤC VÀ ĐÀO TAO TRƢỜNG ĐẠI HỌC QUY NHƠN NGỤY VŨ NAM ỨNG DỤNG THUẬT TOÁN CNN VÀO DỰ ĐOÁN HÌNH ẢNH XRAYS HỖ TRỢ CHẨN ĐOÁN BỆNH XƢƠNG KHỚP Chuyên ngành: Khoa học dữ liệu ứng dụng Mã số: 8904648 LUẬN VĂN THẠC SĨ KHOA HỌC DỮ LIỆU ỨNG DỤNG Ngƣời hƣớng dẫn khoa học: TS. NGUYỄN TẤN TRUNG Bình Định – Năm 2022 LỜI CAM ĐOAN Tôi xin cam đoan đây là công trình nghiên cứu và thực hiện luận văn thực sự của riêng tôi, dƣới sự hƣớng dẫn của TS. Nguyễn Tấn Trung. Mọi tham khảo từ các nguồn tài liệu, công trình nghiên cứu liên quan trong nƣớc và quốc tế đều đƣợc trích dẫn một cách rõ ràng trong luận văn. Mọi sao chép không hợp lệ hay vi phạm quy chế tôi xin hoàn toàn chịu trách nhiệm và chịu mọi kỷ luật của trƣờng Đại học Quy Nhơn. Bình Định, ngày 20 tháng 08 năm 2022. Học viên Ngụy Vũ Nam LỜI CẢM ƠN Trong quá trình thực hiện và hoàn thiện luận văn này, tôi xin gửi lời cảm ơn chân thành nhất đến các thầy cô trong Khoa Toán – Thống kê và Khoa công nghệ thông tin trƣờng Đại học Quy Nhơn cũng nhƣ các thầy thính giảng ở các trƣờng, các viện ở Thành phố Hồ Chính Minh đã cung cấp cho tôi những kiến thức quý báu trong suốt 2 năm học vừa qua. Đặc biệt, tôi xin gửi lời cảm ơn sâu sắc nhất tới TS. Nguyễn Tấn Trung đã cho tôi những gợi ý và chỉ dẫn quý báu trong quá trình nghiên cứu và hoàn thiện luận văn thạc sĩ. Tôi xin chân thành cảm ơn! Bình Định, ngày 20 tháng 08 năm 2022. Học viên Ngụy Vũ Nam MỤC LỤC TRANG PHỤ BÌA LỜI CAM ĐOAN LỜI CẢM ƠN MỤC LỤC DANH MỤC CÁC BẢNG DANH MỤC HÌNH VẼ MỞ ĐẦU............................................................................................................................................ 1 1. CHƢƠNG 1: TỔNG QUAN ...................................................................................................... 3 1.1 Trí tuệ nhân tạo ........................................................................................................................ 3 1.2 Học máy (Machine learning) ................................................................................................... 4 1.2.1 Định nghĩa................................................................................................................................4 1.2.2 Học có giám sát........................................................................................................................6 1.2.3 Học không giám sát ..................................................................................................................7 1.2.4 Học tăng cường ........................................................................................................................7 1.3 Học sâu (Deep learning): ......................................................................................................... 7 1.3.1 Mạng nơ-ron nhân tạo .............................................................................................................8 1.3.2 Định nghĩa..............................................................................................................................11 1.3.3 Những thành công của học sâu trong thời gian gần đây .......................................................11 1.4 Ứng dụng trí tuệ nhân tạo trong y tế ...................................................................................... 12 1.4.1 Thử nghiệm lâm sàng .............................................................................................................13 1.4.2 Phân tích y tế..........................................................................................................................14 1.4.3 Robot y tế ...............................................................................................................................16 1.4.4 Y tế di động ............................................................................................................................17 1.4.5 Chăm sóc người già ...............................................................................................................18 1.5 Kết luận .................................................................................................................................. 19 2. CHƢƠNG 2 MẠNG NƠ-RON TÍCH CHẬP .......................................................................... 19 2.1. Kiến trúc Mạng nơ-ron tích chập .......................................................................................... 20 2.2 Lớp tích chập.......................................................................................................................... 21 2.3 Lớp lấy mẫu (Pooling) ........................................................................................................... 22 2.4 Lớp kết nối đầy đủ (Fully connected layer) ........................................................................... 23 2.5 Lớp chuẩn hóa theo lô (Batch normalization)........................................................................ 24 2.6 Hàm kích hoạt phi tuyến tính: ................................................................................................ 24 2.6.1 Hàm Sigmod ...........................................................................................................................25 2.6.2 Hàm Tanh ...............................................................................................................................26 2.6.3 Hàm RELU .............................................................................................................................27 2.6.4 Hàm ELU ...............................................................................................................................28 1.6.5 Hàm LeakyReLU ....................................................................................................................29 2.7 Phép tích chập tách biệt theo chiều sâu và MobileNet ........................................................... 29 2.8 Kết luận .................................................................................................................................. 30 3. CHƢƠNG 3: MÔ HÌNH PHÁT HIỆN BẤT THƢỜNG TỪ ẢNH X-QUANG XƢƠNG CHI TRÊN ............................................................................................................................................... 31 3.1 Bệnh lý về xƣơng khớp .......................................................................................................... 31 3.2 Phƣơng pháp chụp X-quang (X-rays) .................................................................................... 34 3.3 Phân tích bộ dữ liệu hình ảnh X-quang MURA: .................................................................... 35 3.4 Xây dựng mô hình phân lớp ảnh X-quang ............................................................................. 40 3.5 Huấn luyện mô hình ............................................................................................................... 41 3.6 Đánh giá mô hình ................................................................................................................... 44 3.7 Triển khai mô hình ................................................................................................................. 46 3.8 Kết luận .................................................................................................................................. 48 KẾT LUẬN ...................................................................................................................................... 49 TÀI LIỆU THAM KHẢO................................................................................................................ 51 QUYẾT ĐỊNH GIAO ĐỀ TÀI LUẬN VĂN .................................................................................. 54 DANH MỤC HÌNH VẼ Hình 1.1 Cấu trúc mạng nơ-ron nhân tạo[12] ........................................................................................9 Hình 1.2 Sơ đồ nguyên lý hoạt động của nút mạng nơ-ron nhân tạo .............................................. 10 Hình 1.3 Đồ thị các hàm kích hoạt phổ biến và đạo hàm của chúng [4] ........................................... 10 Hình 2.1 Cấu trúc Mạng nơ-ron tích chập[15] .................................................................................... 21 Hình 2.2 Mô phỏng phép tích chập chạy trên ma trận đầu vào ...................................................... 22 Hình 2.3 Một bộ lọc phát hiện nét cong ............................................................................................. 22 Hình 2.4 Cách lấy mẫu tối đa và mẫu trung bình [17] ........................................................................ 23 Hình 2.5 Lớp kết nối đầy đủ ............................................................................................................... 24 Hình 2.6 Đồ thị hàm Sigmoid .............................................................................................................. 26 Hình 2.7 Đồ thị hàm Tanh ................................................................................................................... 27 Hình 2.8 Đồ thị hàm RELU ................................................................................................................. 28 Hình 2.9 Đồ thị hàm ELU .................................................................................................................... 28 Hình 2.10 Đồ thị hàm LeakyReLU ..................................................................................................... 29 Hình 2.11 Bên trái: tích chập tiêu chuẩn với chuẩn hóa và hàm kích hoạt ReLU. Bên phải: phép tích chập phân tách theo chiều sâu với phép nhân theo chiều sâu và phép nhân từng điểm theo sau là chuẩn hóa và hàm kích hoạt ReLU [9] .................................................................... 30 Hình 3.1 Các vị trí xƣơng đƣợc nghiên cứu[2] .................................................................................... 36 Hình 3.2 Ví dụ ảnh trong bộ dữ liệu ................................................................................................... 37 Hình 3.3 File CVS lƣu đƣờng dẫn và nhãn của dữ liệu .................................................................... 39 Hình 3.4 Biểu đồ số ảnh ở mỗi vị trí chụp khác nhau ....................................................................... 40 Hình 3.5 Quy trình dự đoán của mô hình .......................................................................................... 41 Hình 3.6 Lần huấn luyện đầu, mô hình dừng ở epoch 17, lấy trọng số tốt nhất ở epoch 15 ......... 43 Hình 3.7 Huấn luyện toàn bộ trọng số, mô hình đạt đƣợc chỉ số đồng thuận trên 0.6 .................. 44 Hình 3.8 Mã QR để tải tập tin cài đặt chƣơng trình ......................................................................... 46 Hình 3.9 Mô hình đƣợc triển khai trên điện thoại thông minh Redmi Note 4X phiên bản Android 7 (trái) với Ram 2GB và Xiaomi Redmi Note 10S phiên bản Android 12 ....................... 47 Hình 3.10 Phân bố hình ảnh trên tập dữ liệu kiểm nghiệm ............................................................. 45 DANH MỤC BẢNG BIỂU Bảng 1.1 Các nhánh nghiên cứu thuộc Trí tuệ nhân tạo .....................................................................3 Bảng 2.1 So sánh giữa MobileNet và GoogleNet, VGG 16[9] ............................................................ 29 Bảng 3.1 Chỉ số đo độ hiệu quả của mô hình trên từng vị trí kiểm tra ........................................... 45 1 MỞ ĐẦU Chăm sóc y tế (healthcare) đã và luôn là ƣu tiên hàng đầu trong phát triển xã hội ở hầu hết các quốc gia trên thế giới. Đặc biệt, trong tình hình biến động lớn của thế giới bởi đại dịch, vấn đề chăm sóc y tế và sức khỏe cộng đồng lại ngày càng trở nên cấp thiết và cần những sự hỗ trợ đắc lực hơn từ máy móc khi nhân lực các nƣớc đều bị quá tải trong khám và chữa bệnh.[5] Sự phát triển mạnh mẽ những năm gần đây của trí tuệ nhân tạo (AI) [8][13] trên nền tảng dữ liệu lớn (Big Data) đang mang tới những tiềm năng và hỗ trợ to lớn trong việc giải quyết các vấn đề về y tế, chăm sóc sức khỏe, khám chữa bệnh… [6] Thông qua một ví dụ về tình hình quá tải trong việc khám chữa bệnh ở Việt Nam, một nhu cầu cần đƣợc đặt ra và giải quyết sớm là việc hỗ trợ các y bác sĩ trong khám chữa bệnh mà AI có thể hỗ trợ nhƣ một trợ lý bác sĩ ảo. Một số hỗ trợ mà AI có thể giúp ích và cho hiệu quả ngay lập tức có thể kể đến chẩn đoán ảnh y khoa. [14] Với việc hồ sơ bệnh nhân đã đƣợc khám sàng lọc bởi trợ lý bác sĩ ảo, công việc của bác sĩ chính sẽ đƣợc giảm thiểu đáng kể khi chỉ cần ngồi kiểm tra lại kết quả chẩn đoán của máy, đồng thời rút ngắn đáng kể thời gian khám chữa bệnh và tăng số lƣợng bệnh nhân có thể hỗ trợ trong ngày lên hơn nhiều lần. [7] Các tình trạng cơ xƣơng khớp ảnh hƣởng đến hơn 1,7 tỷ ngƣời trên toàn thế giới, [11] và là nguyên nhân phổ biến nhất gây ra các cơn đau và tàn tật lâu dài, nghiêm trọng, với 30 triệu lƣợt khám tại khoa cấp cứu hàng năm và ngày càng tăng. Trong khi đó bác sĩ X-quang giàu kinh nghiệm không phải lúc nào cũng sẵn sàng đầy đủ để chẩn đoán. Do đó cần thiết có công nghệ hình ảnh y tế có thể chẩn đoán ở cấp độ chuyên gia, hƣớng tới cải thiện khả 2 năng tiếp cận chăm sóc sức khỏe ở những nơi trên thế giới hạn chế khả năng tiếp cận với các bác sĩ X-quang có tay nghề cao. Phù hợp với xu thế phát triển của học máy, để đáp ứng nhu cầu thiếu thốn về nhân lực y tế đƣợc nêu trên, đề tài tiến hành áp dụng triển khai thuật toán mạng học sâu tích chập để chẩn đoán sơ bộ ảnh chụp X-quang xƣơng chi trên. Nếu đƣợc triển khai tốt, đề tài đƣợc mong đợi sẽ góp phần hỗ trợ các nhân viên y tế trong việc chẩn đoán và điều trị bệnh, góp một phần nhỏ vào quá trình tự động hóa việc khám chữa bệnh nhờ ứng dụng trí tuệ nhân tạo. Luận văn gồm 3 chƣơng:  Chƣơng 1: Trình bày những khái niệm cơ bản từ học máy cho tới học sâu và ứng dụng trí tuệ nhân tạo trong y tế, cho cái nhìn khái quát toàn cảnh về học máy.  Chƣơng 2: Trình bày cụ thể hơn về mạng nơ-ron tích chập, các Lớp (layer) thƣờng gặp của mạng.  Chƣơng 3: Trình bày việc triển khai ứng dụng mạng thần kinh tích chập để giải quyết bài toán phân loại ảnh X-quang. Cuối cùng là phần kết luận cho phép tóm tắt kết quả đã đạt đƣợc và nêu ra những tồn tại, dựa vào đó để đƣa ra những mục tiêu và phƣơng hƣớng phát triển cho hệ thống sau này. 3 1. CHƢƠNG 1: TỔNG QUAN 1.1 Trí tuệ nhân tạo Trí tuệ nhân tạo (Artificial Intelligence hay AI) là thuật ngữ trong khoa học máy tính dùng để chỉ trí thông minh thể hiện bằng máy móc. Có thể nói trí tuệ nhân tạo bao hàm mọi hành động của máy móc đƣợc cho là cần trí tuệ con ngƣời. Những khả năng quan trọng của con ngƣời mà lĩnh vực Trí tuệ nhân tạo rất quan tâm là: khả năng học, khả năng biểu diễn tri thức và suy diễn, khả năng nghe-nhìn, khả năng sử dụng ngôn ngữ và khả năng thể hiện cử chỉ. Trí tuệ nhân tạo khác với việc lập trình logic truyền thống ở việc ứng dụng các hệ thống Học máy để mô phỏng trí tuệ của con ngƣời trong các xử lý mà con ngƣời làm tốt hơn máy tính. Cụ thể, trí tuệ nhân tạo giúp máy tính có đƣợc những trí tuệ của con ngƣời nhƣ: biết suy nghĩ và lập luận để giải quyết vấn đề, biết giao tiếp do hiểu ngôn ngữ, tiếng nói, biết học và tự thích nghi. Trí tuệ nhân tạo bắt đầu đƣợc nghiên cứu vào những năm 1940, trải qua nhiều thăng trầm và hiện tại rất thành công, ứng dụng hữu ích vào nhiều lĩnh vực khác nhau trong cuộc sống. Hiện nay lĩnh vực Trí tuệ nhân tạo đã đƣợc chia ra làm nhiều nhánh nghiên cứu con, mỗi nhánh quan tâm đến một vài khả năng của con ngƣời nhƣ đƣợc trình bày ở bảng bên dƣới. Bảng 1.1 Các nhánh nghiên cứu thuộc Trí tuệ nhân tạo Khả năng Nhánh nghiên cứu Mục tiêu Khả năng học Học máy, Học sâu Học máy nghiên cứu và phát 4 triển các kỹ thuật giúp cho máy tính có thể học tri thức từ dữ liệu đầu vào. Khả năng biểu diễn Các phƣơng pháp Nhánh cung cấp cơ sở để tri thức và suy diễn biểu diễn tri thức và máy tính có thể thực hiện suy diễn việc suy diễn nhƣ con ngƣời. Khả năng nghe nhìn Thị giác máy tính, Các nhánh này nghiên cứu và Xử lý tiếng nói phát triển các kỹ thuật để giúp máy tính có thể nghe và nhìn nhƣ con ngƣời. Khả năng sử dụng Xử lý ngôn ngữ tự Nhánh nghiên cứu này giúp ngôn ngữ nhiên cho máy tính có thể hiểu đƣợc ngôn ngữ mà con ngƣời đang sử dụng. Khả năng thể hiện Robotics Nhánh này giúp robot thể cử chỉ hiện các hành động và cử chỉ nhƣ con ngƣời. 1.2 Học máy (Machine learning) 1.2.1 Định nghĩa Học máy (Machine learning) là một lĩnh vực của trí tuệ nhân tạo liên quan đến việc nghiên cứu và xây dựng các kĩ thuật cho phép các hệ thống tự mình ―học‖ từ dữ liệu để giải quyết những vấn đề cụ thể. Các thuật toán học máy xây dựng một mô hình dựa trên dữ liệu mẫu, đƣợc gọi là dữ liệu đào tạo, để đƣa ra dự đoán hoặc quyết định mà không 5 đƣợc lập trình rõ ràng để làm nhƣ vậy. Các thuật toán học máy đƣợc ứng dụng trong nhiều lĩnh vực mà trong đó việc phát triển các thuật toán logic truyền thống để thực hiện là không khả thi, chẳng hạn nhƣ trong y học, lọc email, nhận dạng giọng nói và thị giác máy tính. Ví dụ nhƣ các máy có thể "học" cách nhận diện ảnh chó và mèo dựa trên bộ dữ liệu ảnh chó và ảnh mèo đƣợc dán nhãn. Học máy có sự tƣơng đồng lớn với suy diễn thống kê (statistical inference) tuy có khác nhau về thuật ngữ. Một nhánh của học máy là học sâu phát triển rất mạnh mẽ gần đây và có những kết quả vƣợt trội so với các phƣơng pháp học máy khác. Học máy có liên quan đến thống kê, vì cả hai lĩnh vực đều nghiên cứu việc phân tích dữ liệu, nhƣng không phải tất cả học máy đều là học thống kê. Khác với thống kê, học máy tập trung vào sự phức tạp của các giải thuật trong việc thực thi tính toán. Với con ngƣời, học là khả năng rất quan trọng, nhờ học tập mà một ngƣời có thể sở hữu kiến thức và kỹ năng cụ thể nào đó. Tƣơng tự nhƣ vậy, Học máy cung cấp những kỹ thuật và phƣơng pháp để hiện thực nhiều khả năng khác của máy móc; nhiều ứng dụng trong các nhánh con nhƣ Thị giác máy tính, Xử lý tiếng nói và Xử lý ngôn ngữ tự nhiên đƣợc hiện thực nhờ vào các kỹ thuật trong Học máy. Học máy thƣờng đƣợc dùng để thay thế con ngƣời để giải quyết các vấn đề thiếu nhân lực, chuyên gia nhƣ chẩn đoán y khoa, phân tích thị trƣờng chứng khoán, dự báo thời tiết hay nhận diện chữ viết, dịch tự động… Học máy có khả năng linh động với các bài toán thực tế, xử lí tốt các dữ liệu phi cấu trúc. Song song đó cũng có vấn đề về sự thiên lệch do thiên vị dữ liệu, thuật toán đƣợc lựa chọn kém dẫn đến việc các chƣơng trình học máy thƣờng không mang lại kết quả nhƣ mong đợi. Những nhiệm vụ học máy có thể phân loại theo các cách khác nhau, phổ biến nhất là phân loại thành 3 kiểu chính: học có giám sát, học không giám sát và học tăng cƣờng. 6 1.2.2 Học có giám sát Các thuật toán học có giám sát xây dựng một mô hình toán học của một tập hợp dữ liệu chứa cả đầu vào và đầu ra mong muốn.[10] Dữ liệu đƣợc gọi là dữ liệu đào tạo và bao gồm một tập hợp các ví dụ đào tạo. Mỗi ví dụ đào tạo có một hoặc nhiều đầu vào và đầu ra mong muốn, còn đƣợc gọi là tín hiệu giám sát. Trong mô hình toán học, mỗi ví dụ đào tạo đƣợc biểu diễn bằng một mảng hoặc véc-tơ, đôi khi đƣợc gọi là véc-tơ tính năng và dữ liệu đào tạo đƣợc biểu diễn bằng một ma trận. Thông qua tối ƣu hóa hàm mất mát, các thuật toán học tập có giám sát sẽ học đƣợc một hàm có thể đƣợc sử dụng để dự đoán đầu ra liên quan đến đầu vào mới. Một hàm đã đƣợc tối ƣu sẽ cho phép thuật toán xác định chính xác đầu ra cho các đầu vào không phải là một phần của dữ liệu đào tạo. Một thuật toán cải thiện độ chính xác của đầu ra hoặc dự đoán của nó theo thời gian đƣợc cho là đã học đƣợc cách thực hiện nhiệm vụ đó. Các thuật toán học có giám sát còn đƣợc tiếp tục chia nhỏ ra thành hai loại chính: là phân loại và hồi quy. Thuật toán phân loại đƣợc sử dụng khi đầu ra bị giới hạn trong một tập hợp giá trị giới hạn và thuật toán hồi quy đƣợc sử dụng khi đầu ra có thể có bất kỳ giá trị số nào trong một phạm vi. Một ví dụ cho học có giám sát là máy tính đƣợc ―dạy‖ để phân biệt hình ảnh của mèo và chó. Một số hình ảnh về mèo và chó đƣợc gắn thẻ tƣơng ứng với "mèo" hoặc "chó". Việc gắn nhãn thƣờng đƣợc con ngƣời thực hiện thủ công để đảm bảo độ chính xác cao của dữ liệu. Bộ dữ liệu hình và nhãn sau đó đƣợc sử dụng để "giám sát" thuật toán trong việc tìm cách phân loại hình ảnh phù hợp. Khi ―máy‖ đã học đƣợc cách phân loại chúng, ―máy‖ có thể đƣợc sử dụng trên dữ liệu mới và dự đoán các nhãn (trong trƣờng hợp này là ―mèo‖ hoặc ―chó‖) trên các hình ảnh chƣa nhìn thấy trƣớc đó. 7 1.2.3 Học không giám sát Các thuật toán học không giám sát lấy một tập hợp dữ liệu chỉ chứa đầu vào và tìm cấu trúc trong dữ liệu, nhƣ phân nhóm hoặc phân cụm các điểm dữ liệu.[10] Nó khác biệt với học có giám sát ở chỗ là đầu ra đúng tƣơng ứng cho mỗi đầu vào là không biết trƣớc. Một ứng dụng quan trọng của học không giám sát là trong lĩnh vực ƣớc tính mật độ trong thống kê, chẳng hạn nhƣ tìm hàm mật độ xác suất. Học không giám sát cũng bao gồm các lĩnh vực khác liên quan đến nén dữ liệu và giải thích các tính năng dữ liệu ví dụ nhƣ giảm chiều của dữ liệu. Học không giám sát ứng dụng trong phát hiện bất thƣờng (giúp phát hiện các lỗi sai kĩ thuật, phát hiện hack, phát hiện gian lận…), giảm chiều dữ liệu hay hệ thống gợi ý sản phẩm (hỗ trợ tiếp thị điện tử). 1.2.4 Học tăng cường Học tăng cƣờng nghiên cứu cách thức một agent thực hiện các hành động trong môi trƣờng để cực đại hóa một phần thƣởng tích lũy trong thời gian lâu dài.[10] Do tính tổng quát của nó, lĩnh vực này đƣợc nghiên cứu trong nhiều lĩnh vực khác, chẳng hạn nhƣ lý thuyết trò chơi, lý thuyết điều khiển, nghiên cứu hoạt động, lý thuyết thông tin, tối ƣu hóa dựa trên mô phỏng, hệ thống đa tác nhân, trí thông minh bầy đàn, thống kê và thuật toán di truyền. Trong học máy, môi trƣờng thƣờng đƣợc thể hiện dƣới dạng quy trình quyết định Markov (MDP). Nhiều thuật toán học tăng cƣờng sử dụng các kỹ thuật lập trình động. Các thuật toán học tăng cƣờng không giả định kiến thức về một mô hình toán học chính xác của MDP và đƣợc sử dụng khi các mô hình chính xác là không khả thi. Các thuật toán học tăng cƣờng đƣợc sử dụng trong các phƣơng tiện tự hành hoặc trong học cách chơi trò chơi với đối thủ là con ngƣời nhƣ cờ vây, game chiến lƣợc thời gian thực. 1.3 Học sâu (Deep learning): 8 1.3.1 Mạng nơ-ron nhân tạo Mạng nơ-ron nhân tạo (ANN – Artificial Neural Network) có thể coi là một mô hình Học sâu đơn giản nhất. là một mô phỏng xử lý thông tin, lấy cảm hứng từ hệ thống thần kinh của con ngƣời, mô phỏng cách bộ não để xử lý thông tin. Mạng nơ-ron nhân tạo bao gồm số lƣợng lớn các mối gắn kết cấp cao để xử lý các thông tin trong mối liên hệ rõ ràng. Nó có khả năng học bởi kinh nghiệm từ huấn luyện, lƣu những kinh nghiệm thành tri thức và áp dụng trong những dữ liệu mới trong tƣơng lai. Mỗi nơ-ron (còn gọi là nút mạng) là yếu tố cơ bản nhất cấu tạo nên mạng nơ-ron, tham gia vào xử lý thông tin trong mạng. Các nơ-ron trong mạng liên kết với nhau, xử lý và chuyển tiếp thông tin dựa trên các trọng số liên kết và hàm kích hoạt. Mạng nơ-ron nhân tạo gồm nhiều lớp, mỗi lớp kết nối với nhau đầy đủ (fully connected), mỗi lớp là tập hợp các nút mạng (nơron) nhận thông tin từ lớp trƣớc nó và tính toán trả về thông tin đƣa đến lớp sau. 9 Hình 1.1 Cấu trúc mạng nơ-ron nhân tạo [12] Cấu trúc mạng nơ ron nhân tạo về cơ bản gồm ba lớp: lớp đầu vào (input layer), các lớp ẩn (hidden layers) và lớp đầu ra (output layer) đƣợc minh họa nhƣ hình trên. Khi một mạng ANN có nhiều hơn hai lớp ẩn thì đƣợc gọi là một mạng nơ-ron sâu (Deep neural network hay DNN) [4]. Cụ thể hơn, một đơn vị nút mạng sẽ nhận thông tin giá trị từ các nút mạng trƣớc đó, nhân với trong số, tổng tuyến tính đó sẽ đi qua hàm kích hoạt phi tuyến tính trả về kết quả để nạp vào các nút mạng ở lớp sau. Hàm kích hoạt rất quan trọng và đôi khi là nhân tố gây đột phá trong hiệu quả mô hình vì nó đóng vai trò biến đổi kết quả đầu ra thành phi tuyến để hợp với tính chất phi tuyến của tự nhiên. Một mạng thần kinh nhân tạo mà không có các hàm kích hoạt thì cũng chỉ là một mô hình hồi quy tuyến tính. 10 Hình 1.2 Sơ đồ nguyên lý hoạt động của nút mạng nơ-ron nhân tạo Ngoài ra một hàm kích hoạt tốt có thể tính đạo hàm nhanh cũng góp phần lớn vào cải thiện thời gian tính toán và yêu cầu khả năng tính toán của máy tính. Một số hàm kích hoạt thƣờng đƣợc sử dụng là hàm bƣớc nhảy (Step function), hàm Logit (hay hàm Sigmoid), hàm Tanh và hàm Rectified Linear Unit (ReLU). [4] Hình 1.3 Đồ thị các hàm kích hoạt phổ biến và đạo hàm của chúng [4] 11 1.3.2 Định nghĩa Deep learning là một lớp các thuật toán học máy[10] sử dụng nhiều lớp để dần dần trích xuất các tính năng cấp cao hơn từ đầu vào thô. Từ "deep" trong Deep learning đề cập đến việc sử dụng nhiều lớp trong mạng. Xuất phát từ việc những mô hình đơn giản nhƣ Hồi quy logistic không thể thể hiện đƣợc các thuộc tính của các hiện tƣợng tự nhiên phức tạp. Học sâu xếp nhiều lớp mạng nối nhau, lồng nhiều hàm tuyến tính và phi tuyến với nhau giúp thể hiện tốt hơn các quy luật phức tạp trong tự nhiên. Ví dụ: trong xử lý hình ảnh, các lớp đầu tiên có thể xác định các cạnh, trong khi các lớp sâu hơn có thể xác định các khái niệm tổng quát hơn nhƣ chữ số hoặc chữ cái hoặc khuôn mặt. 1.3.3 Những thành công của học sâu trong thời gian gần đây Xử lý tiếng nói Hai bài toán cơ bản của Xử lý tiếng nói là Nhận dạng tiếng nói và Tổng hợp tiếng nói. Nhận dạng Tiếng nói chuyển một tín hiệu âm dạng số sang dạng văn bản gồm các tiếng có trong đoạn âm, còn Tổng hợp tiếng nói làm công việc ngƣợc lại, chuyển văn bản thành âm thanh, đọc tự động. Hiện nay đã có những sản phẩm cung cấp hai khả năng này với độ chính xác và tốc độ rất cao, thậm chí cho Tiếng việt - Google search: cung cấp dịch vụ tìm kiếm bằng giao tiếp qua ngôn ngữ tự nhiên, Google search hỗ trợ khá nhiều ngôn ngữ (có Tiếng việt). Ở một số mẫu câu Google hiểu đƣợc ý của ngƣời hỏi, nó có thể tổng hợp câu trả dƣới dạng âm thanh và đọc lại cho ngƣời hỏi. - Siri: Một sản phẩm tƣơng tự nhƣ Google Search đó là Siri của hãng Apple, sản phẩm này đƣợc cài đặt mặc định trên hệ điều hành iOS của Apple. 12 - Các trang tin tức: Rất nhiều kênh tin tức Tiếng Anh có hỗ trợ tổng hợp tiếng nói (Tiếng Anh) và đọc lại cho ngƣời nghe, nhƣ VOA News. Xử lý ngôn ngữ tự nhiên Ngoài các chức năng đơn giản nhƣ kiểm tra tính đúng đắn về mặt từ vựng và cú pháp đã đƣợc phát triển từ lâu, hiện nay việc dịch máy - tức là chuyển một đoạn văn (bài văn) từ ngôn ngữ này sang ngôn ngữ khác - đã có thể thực hiện dễ dàng bởi ứng dụng Google Translate, với kết quả rất tốt. Gần đây, một dạng ứng dụng khác liên quan đến khả năng hiểu ngôn ngữ tự nhiên cũng rất đƣợc quan tâm đó là chatbot. Các chatbot có thể hiểu đƣợc ý của ngƣời đang nói chuyện và nó cũng có thể đƣa ra câu trả lời phù hợp với ngữ cảnh đang nói. Do đó, nếu kết hợp với khả năng nhận dạng và tổng hợp tiếng nói nhƣ đã đề cập ở trên, máy tính có thể giao tiếp tự nhiên với con ngƣời. Hiện nay chatbot đã đƣợc khá nhiều công ty sử dụng làm trợ lý ảo trên các trang mua sắm và các diễn đàn. Thị giác máy tính Việc trang bị khả năng nhìn cho máy tính đã đƣợc nghiên cứu từ vài thập niên gần đây, tuy vậy, cho đến trƣớc năm 2012 các kết quả đạt đƣợc còn khá hạn chế về độ chính xác, về tính bền vững với môi trƣờng làm việc và về tốc độ tính toán. Với sự hỗ trợ từ Học sâu, hiện nay máy tính có khả năng thực hiện các bài toán trong Thị giác máy tính với tốc độ và độ chính xác cao. 1.4 Ứng dụng trí tuệ nhân tạo trong y tế Y tế từ lâu đã đƣợc xem nhƣ là một miền đất đầy hứa hẹn cho việc ứng dụng các công nghệ Trí tuệ nhân tạo. Các ứng dụng dựa trên Trí tuệ nhân tạo có thể cải thiện các kết quả sức khỏe và chất lƣợng cuộc sống cho hàng triệu ngƣời trong những năm sắp tới - nhƣng chỉ khi chúng có đƣợc sự tin tƣởng
- Xem thêm -

Tài liệu liên quan