ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC Y DƯỢC
LÊ TRẦN ĐẠT
CHẨN ĐOÁN BỆNH LÝ TIM MẠCH
DỰA TRÊN DỮ LIỆU THĂM KHÁM LÂM SÀNG,
CẬN LÂM SÀNG BẰNG TRÍ TUỆ NHÂN TẠO
KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC NGÀNH DƯỢC HỌC
Hà Nội - 2022
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC Y DƯỢC
Người thực hiện: LÊ TRẦN ĐẠT
CHẨN ĐOÁN BỆNH LÝ TIM MẠCH
DỰA TRÊN DỮ LIỆU THĂM KHÁM LÂM SÀNG,
CẬN LÂM SÀNG BẰNG TRÍ TUỆ NHÂN TẠO
KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC NGÀNH DƯỢC HỌC
Khóa: QH.2017.Y
Cán bộ hướng dẫn 1: ThS. BS. NGUYỄN THÁI HÀ DƯƠNG
Cán bộ hướng dẫn 2: ThS. BS. LÊ ĐÌNH KHIẾT
Hà Nội - 2022
LỜI CẢM ƠN
Đối với một sinh viên, khóa luận tốt nghiệp là nơi đúc kết lại các kiến thức đã học
và giúp các giảng viên đánh giá được năng lực và trình độ nghiên cứu khoa học của sinh
viên đó. Trong thời gian thực hiện khóa luận, em đã học được nhiều điều cũng như nhận
được nhiều sự giúp đỡ từ các thầy cô hướng dẫn và các em, các bạn học cùng trường.
Lời đầu tiên, em xin gửi lời cảm ơn tới các thầy cô giáo giảng viên trong Trường
đại học Y Dược - ĐHQGHN đã truyền tải cho em nhiều kiến thức thuộc chuyên ngành
của mình trong suốt 5 năm qua.
Tiếp theo, em xin gửi lời cảm ơn sâu sắc đến ThS. Nguyễn Thái Hà Dương và
ThS. Lê Đình Khiết là 2 giảng viên hướng dẫn cho em thực hiện khóa luận này, 2 thầy đã
giúp đỡ em rất nhiều trong quá trình nghiên cứu, tạo điều kiện tốt nhất để em tìm hiểu và
nắm rõ các vấn đề liên quan đến khóa luận cũng như hướng dẫn thực hiện và trình bày
một bài báo cáo khoa học.
Xin cảm ơn đến các bạn, các em thuộc nhóm MI-lab đã tích cực giúp đỡ trong
những công việc xử lý số liệu và trợ giúp thực hiện khóa luận.
Trong quá trình làm khóa luận tốt nghiệp, em cảm thấy rằng mình đã học tập và
trải nghiệm được nhiều điều vô cùng hữu ích. Từ đó để em học hỏi và rút kinh nghiệm
cho quá trình làm việc sau này của mình.
Khóa luận của em có thể còn nhiều hạn chế và thiếu sót. Em rất mong nhận được
những nhận xét và góp ý từ quý thầy cô và các bạn học cùng lớp giúp khóa luận hoàn
thiện hơn.
Em xin chân thành cảm ơn!
Hà Nội, ngày 06 tháng 06 năm 2022
Sinh viên
Lê Trần Đạt
DANH MỤC KÝ HIỆU VÀ CHỮ VIẾT TẮT
Ký hiệu
Ý nghĩa
DT
Decision tree
DST
Dempster - Shafer theory
ECG
Điện tâm đồ
FN
False negative (âm tính giả)
FP
False positive (dương tính giả)
KNN
K-nearest neighbor
ML
Multi-layer Perception
NV
Naive Bayes
RF
Random forest
SVM
Support vector machine
TN
True negative (âm tính thật)
TP
True positive (dương tính thật)
DANH MỤC HÌNH VẼ
Hình 1.1
Vị trí giải phẫu của tim . . . . . . . . . . . . . . . . . . . . . . .
4
Hình 1.2
Giải phẫu mạch vành . . . . . . . . . . . . . . . . . . . . . . . .
5
Hình 1.3
Hình ảnh nội soi huỳnh quang mạch vành . . . . . . . . . . . . .
8
Hình 1.4
Trí tuệ nhân tạo trong chăm sóc sức khỏe . . . . . . . . . . . . .
9
Hình 2.1
Sơ đồ các bước nghiên cứu . . . . . . . . . . . . . . . . . . . . .
16
Hình 3.1
Ma trận lỗi của phương pháp DST kết hợp GD [p{0; 1}] . . . . . .
27
Hình 3.2
Ma trận lỗi của phương pháp DST kết hợp GD [p0 , p1 ] . . . . . .
29
Hình 3.3
Ma trận lỗi của mô hình logistic regression cho các biến phân loại
31
Hình 3.4
Ma trận lỗi của phép kết hợp mô hình . . . . . . . . . . . . . . .
32
DANH MỤC BẢNG BIỂU
Bảng 2.1
Thống kê số bệnh nhân trong từng bộ dữ liệu . . . . . . . . . . .
14
Bảng 2.2
Ma trận lỗi . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
23
Bảng 3.1
Kết quả tổng quát của nghiên cứu . . . . . . . . . . . . . . . . .
26
Bảng 3.2
Các tham số sau khi tối ưu hóa GD [p{0;1} ] . . . . . . . . . . . .
28
Bảng 3.3
Các tham số sau khi tối ưu hóa GD [p0 , p1 ] . . . . . . . . . . . .
30
Bảng 3.4
Độ chính xác từng mô hình . . . . . . . . . . . . . . . . . . . . .
33
Bảng 3.5
Phần không chắc chắn từng mô hình sau khi tối ưu hóa . . . . . .
33
Bảng 3.6
Độ chính xác từng mô hình . . . . . . . . . . . . . . . . . . . . .
34
Mục lục
MỞ ĐẦU
1
CHƯƠNG 1: TỔNG QUAN TÀI LIỆU
4
1.1. Cấu tạo hệ tim mạch . . . . . . . . . . . . . . . . . . . . . . . . .
4
1.2. Bệnh lý mạch vành . . . . . . . . . . . . . . . . . . . . . . . . . .
5
1.2.1. Tổng quan về bệnh lý mạch vành . . . . . . . . . . . . .
5
1.2.2. Các yếu tố nguy cơ của bệnh lý mạch vành
. . . . . . .
6
1.2.3. Chẩn đoán bệnh lý mạch vành . . . . . . . . . . . . . .
6
1.3. Trí tuệ nhân tạo và ứng dụng trong y học . . . . . . . . . . . . . .
8
1.4. Lý thuyết bằng chứng Dempster - Shafer . . . . . . . . . . . . . .
10
1.5. Các nghiên cứu liên quan . . . . . . . . . . . . . . . . . . . . . .
11
CHƯƠNG 2: ĐỐI TƯỢNG VÀ PHƯƠNG PHÁP NGHIÊN CỨU
13
2.1. Đối tượng nghiên cứu . . . . . . . . . . . . . . . . . . . . . . . .
13
2.2. Số mẫu và phương pháp lấy mẫu . . . . . . . . . . . . . . . . . .
14
2.3. Nội dung nghiên cứu . . . . . . . . . . . . . . . . . . . . . . . . .
15
2.4. Phương pháp nghiên cứu . . . . . . . . . . . . . . . . . . . . . . .
17
2.4.1. Tiền xử lý dữ liệu . . . . . . . . . . . . . . . . . . . . .
17
2.4.2. Các mô hình sử dụng . . . . . . . . . . . . . . . . . . .
17
2.4.3. Phương pháp đánh giá . . . . . . . . . . . . . . . . . . .
23
CHƯƠNG 3: KẾT QUẢ NGHIÊN CỨU
3.1. Kết quả mô hình mô hình xây dựng dựa trên lý thuyết DST . . . .
26
26
3.1.1. Tối ưu hóa p{0;1} (uncertainty) bằng gradient descent . . .
26
3.1.2. Tối ưu hóa [p0 , p1 ] bằng gradient descent . . . . . . . . .
28
3.2. Kết quả mô hình logistic regression cho các biến phân loại . . . . .
30
3.3. Kết quả kết hợp mô hình . . . . . . . . . . . . . . . . . . . . . . .
31
CHƯƠNG 4: BÀN LUẬN
35
4.1. Đánh giá mô hình và phép kết hợp mô hình . . . . . . . . . . . . .
35
4.1.1. Mô hình logistic regression . . . . . . . . . . . . . . . .
35
4.1.2. Mô hình xây dựng dựa trên DST . . . . . . . . . . . . . .
35
4.1.3. Kết hợp mô hình . . . . . . . . . . . . . . . . . . . . . .
36
4.2. Đánh giá các tham số của mô hình dựa theo DST . . . . . . . . . .
36
4.2.1. Phương pháp tối ưu hóa p{0;1} . . . . . . . . . . . . . . .
36
4.2.1. Phương pháp tối ưu hóa [p0 , p1 ] . . . . . . . . . . . . . .
37
4.3. Đánh giá ảnh hưởng của dữ liệu thiếu tới mô hình . . . . . . . . .
37
4.4. So sánh với các nghiên cứu đã thực hiện trên thế giới . . . . . . . .
38
4.4.1. Bộ dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . .
38
4.4.2. Kết quả nghiên cứu . . . . . . . . . . . . . . . . . . . .
38
4.5. Một số điểm hạn chế của nghiên cứu . . . . . . . . . . . . . . . .
38
4.6. Ý nghĩa của nghiên cứu . . . . . . . . . . . . . . . . . . . . . . .
39
KẾT LUẬN
41
1. Đánh giá ứng dụng DST trong xây dựng mô hình chẩn đoán . . . . .
41
2. Đánh giá ứng dụng DST trong kết hợp mô hình chẩn đoán . . . . . .
41
3. Kết luận . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
42
4. Hướng nghiên cứu tương lai . . . . . . . . . . . . . . . . . . . . . .
42
TÀI LIỆU THAM KHẢO
PHỤ LỤC
MỞ ĐẦU
Hệ tim mạch là hệ cơ quan quan trọng của cơ thể con người. Trái tim thực hiện
nhiệm vụ bơm máu vào động mạch và nhận máu từ tĩnh mạch. Hệ thống mạch đóng vai
trò là đường đi của máu, giúp máu tuần hoàn trong toàn cơ thể. Từ các chức năng trên, có
thể thấy hệ thống tim mạch đảm nhận vai trò vận chuyển các chất theo đường tuần hoàn
đi khắp cơ thể nhằm duy trì sự sống, ngoài ra hệ tim mạch còn đảm nhận các chức năng
khác như bảo vệ và duy trì cân bằng các yếu tố bên trong cơ thể.
Do đảm nhận chức năng quan trọng như vậy, các bệnh lý liên quan đến tim mạch
ảnh hưởng rất lớn đến đời sống sức khỏe của bệnh nhân và tạo ra gánh nặng rất lớn cho
toàn xã hội. Theo WHO, các bệnh tim mạch là nguyên nhân hàng đầu gây tử vong trên
toàn cầu. Ước tính có 17,9 triệu người tử vong do bệnh tim mạch vào năm 2019, chiếm
32% tổng số ca tử vong trên toàn cầu. Trong đó, hơn 75% số ca tử vong do bệnh tim
mạch xảy ra ở các nước thu nhập trung bình hoặc thấp. Một nghiên cứu tại Mỹ vào năm
2016 của S. Nelson và L. Whitsel dự báo rằng đến năm 2035 sẽ có ít nhất 132 triệu người
Mỹ mắc ít nhất một bệnh tim mạch và chi phí mà xã hội phải chi trả để điều trị bệnh tim
mạch vào năm 2035 là 368 tỷ đô la. Tại Việt Nam, theo thông kê của WHO, số người
tử vong do bệnh tim mạch vào năm 2016 là 170 nghìn người, chiếm 31% số ca tử vong
trong cùng năm đó. Với tính chất như trên, việc chẩn đoán nhanh chóng và chính xác
bệnh tim mạch trở nên quan trọng nhằm sớm đưa ra hướng chữa trị và giảm tỷ lệ tử vong
cho bệnh nhân.
Hiện nay, thực trạng chẩn đoán bệnh tim mạch vẫn còn nhiều khó khăn như: bệnh
nhân thường đến bệnh viện khi bệnh đã tiến triển vào giai đoạn nặng, đã xuất hiện các
triệu chứng nặng; việc phân tích các dấu hiệu nhằm chẩn đoán bệnh phải được tiến hành
bởi các chuyên gia có kiến thức và kinh nghiệm, việc chẩn đoán tốn thời gian, đồng thời
số lượng bệnh nhân lớn vượt quá khả năng xử lý của đội ngũ y tế và điều kiện cơ sở vật
chất của nhưng cơ sở y tế địa phương còn gây khó khăn trong việc chẩn đoán và sàng lọc
bệnh nhân bị bệnh tim mạch. Những khó khăn này có thể khiến việc chẩn đoán trở nên
khó khăn và chậm trễ, điều này làm ảnh hưởng đến việc đưa ra hướng điều trị kịp thời
cho bệnh nhân. Vì vậy, việc đưa ra một phương pháp chẩn đoán một cách chính xác và
1
nhanh chóng cho những người bị bệnh tim mạch là điều cần thiết. Việc ứng dụng trí tuệ
nhân tạo để phục vụ chẩn đoán bệnh tim mạch được xem là giải pháp cho vấn đề trên,
trên cơ sở kết hợp khả năng phân tích nhanh chóng từ máy tính và kiến thức y học cùng
với tư duy con người để phát triển một mô hình dự đoán bệnh tim mạch chính xác, nhanh
chóng dựa vào những dữ liệu thu thập được.
Trong những năm gần đây, với sự phát triển nhanh chóng của công nghệ, việc áp
dụng trí tuệ nhân tạo nhằm phục vụ các lĩnh vực trong đời sống nói riêng và y học nói
chung đang ngày càng được chú ý và đẩy mạnh nghiên cứu nhờ vào những ưu điểm của
lĩnh vực này. Việc ứng dụng trí tuệ nhân tạo vào chẩn đoán bệnh lý tim mạch có thể cho
chúng ta một phương pháp chẩn đoán nhanh và chính xác, góp phần hỗ trợ nhân viên y
tế trong việc đưa ra quyết định điều trị và chăm sóc sức khỏe cho bệnh nhân, đồng thời
hạn chế các sai sót trong chẩn đoán. Một ưu điểm khác của việc ứng dụng trí tuệ nhân
tạo phục vụ chẩn đoán là máy tính có thể tiếp cận và xử lý được nguồn thông tin y khoa
khổng lồ mà con người không thể xử lý hết được, điều này cho phép đưa ra được chẩn
đoán chính xác và cập nhật nhất dựa trên nguồn dữ liệu y khoa mà máy tính được tiếp
cận và xử lý. Nhờ những ưu điểm trên, ứng dụng trí tuệ nhân tạo trong chẩn đoán bệnh
tim mạch là một hướng tiếp cận rất có tiềm năng. Các nghiên cứu về chủ đề này sẽ mang
lại giá trị rất lớn trong việc phục vụ chẩn đoán các bệnh lý tim mạch. Tuy nhiên, một vấn
đề lớn được đặt ra là làm thế nào để xác định được dự đoán mà máy tính đưa ra là chính
xác hay chưa và có thể tin tưởng để áp dụng vào lĩnh vực y khoa hay không.
Hiện nay, do sự đa dạng của các loại dữ liệu thu được nên phần lớn các nghiên cứu
về trí tuệ nhân tạo trên thế giới đều sử dụng các mô hình riêng biệt để xử lý các dạng số
liệu khác nhau và kết hợp chúng dựa theo phương pháp kết hợp truyền thống như major
voting hoặc tính trung bình Bayes. Điểm chung của các phương pháp này là xem độ tin
cậy của các mô hình là như nhau. Tuy nhiên, gần đây các nhà khoa học đang dần quan
tâm hơn đến tính chắc chắn của từng mô hình khi kết hợp khi không phải các mô hình
đều có độ tin cậy như nhau. Sự quyết định mức độ đáng tin của từng mô hình ảnh hưởng
rất lớn đến kết quả cuối cùng được đưa ra. Do vậy, việc tìm ra một cách kết hợp mô hình
hiệu quả khi tính đến độ đáng tin cậy của từng mô hình là cần thiết.
Từ những điều trên, lý thuyết Dempster - Shafer đang dần được chú ý để xây dựng
các mô hình machine learning mới do sự phù hợp trong việc xử lý các dữ liệu thực tế,
2
song song với đó là việc diễn tả sự đáng tin cậy của các bằng chứng trong lý thuyết này.
Chính vì vậy, chúng tôi tiến hành nghiên cứu “Chẩn đoán bệnh lý tim mạch dựa trên
dữ liệu thăm khám lâm sàng, cận lâm sàng bằng trí tuệ nhân tạo” nhằm mục đích:
• Xây dựng mô hình phân loại nhị phân và phép kết hợp mô hình dựa theo lý thuyết
Dempster - Shafer, đánh giá và so sánh mô hình và phép kết hợp xây dựng được so
với các mô hình và phép kết hợp truyền thống.
• Giải thích quá trình xử lý dữ liệu của máy tính để đưa ra được kết quả, dựa vào đó
để đánh giá hiệu quả và tính tối ưu của mô hình đã xây dựng và các thuật toán được
ứng dụng trong nghiên cứu.
• Xác định ảnh hưởng của bộ dữ liệu đưa vào với kết quả đầu ra và độ chính xác của
kết quả.
3
CHƯƠNG 1: TỔNG QUAN TÀI LIỆU
1.1. Cấu tạo hệ tim mạch
Hệ thống tim mạch gồm có tim và hệ mạch máu. Đảm nhiệm 3 chức năng chính
bao gồm: vận chuyển oxi, chất dinh dưỡng, hormone và các enzyme đi nuôi cơ thể, vận
chuyển chất thải đến các cơ quan để đào thải ra ngoài cơ thể; chức năng bảo vệ: các tế
bào miễn dịch và các kháng thể được máu vận chuyển đi khắp cơ thể có nhiệm vụ bảo vệ
cơ thể đối với các yếu tố từ bên ngoài; điều chỉnh nhiệt độ, pH cơ thể [1].
Trái tim là một khối cơ nằm ở giữa 2 lá phổi và trung thất trước với mỏm tim nằm
lệch về phía bên trái. Có chức năng hút máu từ tĩnh mạch phổi và tĩnh mạch chủ, bơm
máu và dộng mạch phổi và động mạch chủ [2]. Trái tim có 4 buồng, 2 tâm nhĩ ở trên
và 2 tâm thất ở dưới. Buồng nhĩ có thành mỏng, làm nhiệm vụ chứa máu được hút về
từ tĩnh mạch phổi và tĩnh mạch chủ, 2 tâm nhĩ được ngăn cách nhau bởi vách ngăn liên
nhĩ. Buồng thất có thành dày hơn, có nhiệm vụ cung cấp lực đẩy để bơm máu từ tim vào
mạch máu, 2 tâm thất được ngăn cách với nhau bởi vách liên thất. Hệ thống van tim bao
gồm các van ngăn cách giữa nhĩ - thất và giữa thất - động mạch. Các van tim có nhiệm
vụ điều hướng cho dòng máu chảy trong tim, cho máu chảy một chiều và ngăn máu chảy
theo chiều ngược lại.
Hình 1.1: Vị trí giải phẫu của tim [1]
4
Hệ thống mạch vành là hệ thống mạch đặc biệt bao quanh trái tim có chức năng
duy trì dinh dưỡng cho cơ tim. Hệ động mạch vành bao gồm 2 động mạch lớn và các vi
mạch, có chức năng nuôi dưỡng cho tim. Hai động mạch chính ở hệ động mạch vành là
động mạch vành trái và động mạch vành phải, cả 2 động mạch vành này đều có gốc từ
động mạch chủ. Cấu tạo và phân nhánh của các động mạch vành này rất biến động tùy
từng cá thể [3].
Hình 1.2: Giải phẫu mạch vành [4]
1.2. Bệnh lý mạch vành
1.2.1. Tổng quan về bệnh lý mạch vành
Bệnh mạch vành, hay còn gọi là bệnh tim thiếu máu cục bộ là thuật ngữ dùng để
chỉ tình trạng thiếu máu của cơ tim. Biểu hiện của bệnh tim thiếu máu cục bộ là các cơn
đau thắt ngực (ổn định hoặc không ổn định), nhồi máu cơ tim hoặc ngưng tim đột ngột do
thiếu máu [5].Tình trạng này gây ra do sự hẹp hoặc tắc lòng động mạch vành, ảnh hưởng
đến sự cung cấp máu cho cơ tim. Nguyên nhân chính dẫn đến tình trạng hẹp mạch vành
là do tình trạng xơ vữa động mạch. Ngoài ra, sự hẹp tắc lòng mạch có thể gây ra bởi các
yếu tố khác như: bệnh cơ tim phì đại, các khiếm khuyết bẩm sinh, chấn thương,...
5
1.2.2. Các yếu tố nguy cơ của bệnh lý mạch vành
Các yếu tố nguy cơ của bệnh lý mạch vành rất đa dạng và phức tạp, các yếu tố này
bao gồm:
• Yếu tố di truyền: các nghiên cứu cho thấy có nhưng gene chịu trách nhiệm cho việc
thúc đẩy sự tạo thành của mảng xơ vữa. Các gene này bao gồm: gene gây bệnh, gene
mẫn cảm với các yếu tố gây bệnh, gen liên kết gây bệnh [6].
• Các yếu tố có thể kiểm soát: béo phì, chế độ ăn và sinh hoạt, stress,...
• Các yếu tố không thể kiểm soát: tuổi tác, giới tính,...
1.2.3. Chẩn đoán bệnh lý mạch vành
Hiện nay, việc chẩn đoán bệnh tim thiếu máu cục bộ dựa vào các triệu chứng lâm
sàng và xét nghiệm cận lâm sàng như sau [5, 7]:
• Đau thắt ngực: triệu chứng lâm sàng điển hình của bệnh tim thiếu máu cục bộ là
biểu hiện đau thắt ngực, triệu chứng này có thể xảy ra lúc vận động mạnh hoặc ngay
cả lúc nghỉ ngơi tùy theo mức độ nặng của bệnh. Tuy nhiên, ở một số bệnh nhân có
thể không biểu hiện triệu chứng này (thiếu máu cơ tim thầm lặng).
• Một số triệu chứng khác đi kèm với đau thắt ngực có thể là hụt hơi, khó thở, buồn
nôn, đổ mồ hôi.
• Đo huyết áp, nhịp tim: xác định sự bất thường trong nhịp tim và huyết áp giúp đánh
giá các yếu tố nguy cơ có thể dẫn đến bệnh mạch vành, đồng thời bước đầu xác định
vị trí tổn thương của tim (VD: thiếu máu cơ tim ở thành dưới sẽ làm chậm nhịp tim
do nút nhĩ thất không được cung cấp máu đầy đủ).
Triệu chứng đau thắt ngực cũng là triệu chứng điển hình của một số bệnh tim
khác. Vậy nên, việc chẩn đoán xác định bệnh tim thiếu máu cục bộ cần phải dựa rất nhiều
vào kết quả cận lâm sàng. Các xét nghiệm cận lâm sàng cung cấp thông tin nhằm chẩn
đoán xác định bệnh tim thiếu máu cục bộ bao gồm:
6
• Điện tâm đồ: đo điện tâm đồ lúc nghỉ ngơi và khi vận động được khuyến cáo cho tất
cả các trường hợp nghi ngờ mắc bệnh tim thiếu máu cục bộ. Điện tâm đồ cung cấp
thông tin về sự phì đại cơ tim, đây là một bằng chứng góp phần chẩn đoán cho bệnh
nhân nghi ngờ mắc bệnh. Ngoài ra, sự thay đổi đoạn ST-T và sóng T trên bản ghi
điện tâm đồ phản ánh sự thay đổi điện tim liên quan đến bệnh lý thiếu máu cơ tim.
• Nồng độ cholesterol máu: nồng độ cholesterol trong máu phản ánh nguy cơ xơ
vữa động mạch và hình thành các mảng bám làm hẹp lòng mạch. Thông thường,
ở bệnh nhân mắc bệnh tim thiếu máu cục bộ có nồng độ cholesterol trong máu cao
(>120mg/dl).
• Các kỹ thuật cận lâm sàng nhằm quan sát tim và hệ thống mạch vành: các kỹ thuật
này thường được sử dụng nhằm phát hiện các bất thường của tim nói chung và hệ
thống mạch vành nói riêng, các bất thường đó phản ánh nguy cơ mắc bệnh ở các cá
nhân khác nhau. Ngoài ra, kết quả thu được còn giúp chẩn đoán phân biệt bệnh tim
thiếu máu cục bộ với một số bệnh khác.
Các kỹ thuật theo dõi điện tâm đồ và các kỹ thuật quan sát hình ảnh tim và hệ thống
mạch vành có thể được thực hiện lúc bệnh nhân vận động hoặc nghỉ ngơi. Các kỹ thuật
này đều cung cấp những bằng chứng về hoạt động của hệ tim mạch để góp phần phục vụ
chẩn đoán.
Ngoài các triệu chứng lâm sàng và các kỹ thuật cận lâm sàng nêu trên, việc điều
tra về tiền sử bệnh, các bệnh nền và chế độ sinh hoạt của bệnh nhân cũng góp phần rất
quan trọng trong chẩn đoán bệnh tim thiếu máu cục bộ.
7
Hình 1.3: Hình ảnh nội soi huỳnh quang mạch vành [8]
1.3. Trí tuệ nhân tạo và ứng dụng trong y học
Trí tuệ nhân tạo là một nhánh của khoa học máy tính. Hiện có rất nhiều định nghĩa
cho thuật ngữ trí tuệ nhân tạo, tuy nhiên ta có thể hiểu trí tuệ nhân tạo là ngành khoa học
nhằm nghiên cứu và tạo ra trí thông minh giống với trí thông minh của con người. Cụ thể
ở đây là giúp máy tính có thể hiểu và học được từ tập dữ liệu cung cấp từ trước mà không
qua từng bước xử lý được con người quy định sẵn như trong lập trình truyền thống. Kể
từ khi lần đầu được định nghĩa năm 1956, cho đến nay trí tuệ nhân tạo đã phát triển vượt
bậc và được ứng dụng trong nhiều lĩnh vực của đời sống như: nhận dạng (ký tự, khuôn
mặt, vân tay, giọng nói. . . ), công nghiệp tự động hóa (ô tô, máy móc. . . ) và đặc biệt là
trong phân tích dữ liệu.
Ứng dụng trí tuệ nhân tạo trong y học được biết đến với thuật ngữ medical infomatics (health infomatics). Đây là ngành khoa học mới, bắt đầu phát triển từ khi các khái
niệm về trí tuệ nhân tạo được hình thành và ứng dụng trong các lĩnh vực đời sống.Kể từ
lần đầu khái niệm trí tuệ nhân tạo hình thành, người ta nhận thấy được tiềm năng rất lớn
của trí tuệ nhân tạo khi ứng dụng vào y học. Ngành y học hiện đại đang phải đối mặt với
thách thức lớn trong việc thu thập, phân tích và xử lý dữ liệu. Với sự phát triển của mạng
internet, các dữ liệu y học càng trở nên ngày một nhiều, vượt quá khả năng tiếp thu của
con người. Cùng với việc phân tích các dữ liệu phức tạp và đòi hỏi tính chính xác cao như
điện tim đồ, các hình ảnh y tế như siêu âm hay hình ảnh X-quang khiến việc chẩn đoán
và điều trị cho bệnh nhân ngày càng khó khăn hơn, trí tuệ nhân tạo được xem là phương
8
pháp tiếp cận hiệu quả để có thể giúp ngành y tế giải quyết được các vấn đề nêu trên.
Các ứng dụng trong lĩnh vực y học của trí tuệ nhân tạo bao gồm: phục vụ chẩn đoán (thu
thập, lưu trữ, sắp xếp và quản lý dữ liệu, phân tích dữ liệu), chăm sóc và điều trị bệnh
nhân (các thiết bị chăm sóc y tế, robot chăm sóc sức khỏe, robot trợ giúp phẫu thuật,...).
Hình 1.4: Trí tuệ nhân tạo trong chăm sóc sức khỏe [9]
Trong lĩnh vực tim mạch, ứng dụng chủ yếu của trí tuệ nhân tạo là phục vụ chẩn
đoán. Trong bệnh tim mạch, việc chẩn đoán sớm có vai trò quan trọng trong điều trị và
giảm thiểu nguy cơ tử vong của người bệnh. Yếu tố trên kết hợp với các cơ sở dữ liệu mở
về bệnh tim mạch vô cùng đa dạng khiến việc ứng dụng trí tuệ nhân tạo vào chẩn đoán
bệnh tim mạch trở thành một hướng tiếp cận đầy tiềm năng. Hiện tại trên thế giới đã có
rất nhiều nghiên cứu nhằm áp dụng trí tuệ nhân tạo phục vụ chẩn đoán bệnh tim mạch
và thu được những kết quả khả quan. Các nghiên cứu ứng dụng nhiều cách thức xử lý
dữ liệu khác nhau và các mô hình thuật toán khác nhau, có thể kể đến một số thuật toán
thường được sử dụng bao gồm: Decision tree, naive Bayes, k-means clustering, artificial
neural network,...
Tuy vậy, các nghiên cứu hiện nay chưa thể làm rõ được cách thức mà thuật toán
9
hoạt động, điều này ảnh hưởng lớn đến tính chính xác và sự đáng tin cậy của mô hình
xây dựng được khi phân tích các dữ liệu không thuộc bộ dữ liệu ban đầu sử dụng để xây
dựng mô hình. Điều này đặt ra vấn đề cần giải quyết là phải hiểu được các mô hình xây
dựng được từ nghiên cứu thật sự đã học được gì từ bộ dữ liệu đưa vào và mô hình đã thao
tác gì với từng phần trong dữ liệu đó, sự quan trọng của từng yếu tố trong bộ dữ liệu với
mô hình xây dựng được. Những điều trên cần được làm sáng tỏ nhằm đánh giá kết quả
nghiên cứu một cách chính xác và điều chỉnh mô hình khi cần thiết. Song song với khả
năng diễn dịch của mô hình, hiện nay các nghiên cứu đang dần quan tâm hơn đến vấn đề
kết hợp giữa các mô hình với nhau do các mô hình xây dựng hiện nay đều xử lý dữ liệu
riêng rẽ và phép kết hợp truyền thống dường như gặp khó khăn trong việc quyết định tính
đáng tin cậy của từng mô hình trong phép kết hợp để đưa ra kết quả cuối cùng.
1.4. Lý thuyết bằng chứng Dempster - Shafer
Hiện nay, ứng dụng của trí tuệ nhân tạo trong lĩnh vực y học đang ngày càng được
nghiên cứu một cách rộng rãi. Điểm chung của phần lớn các nghiên cứu là sử dụng các
mô hình dựa trên công thức xác suất hậu nghiệm Bayes. Các nghiên cứu hiện nay đều
có kết quả chẩn đoán có độ chính xác rất cao và ngày càng được cải thiện. Tuy nhiên,
việc sử dụng mô hình xây dựng dựa trên công thức Bayes có hạn chế là không tính đến
phần không chắc chắn của dữ liệu và một số mô hình rất nhạy cảm với dữ liệu nhiễu hoặc
thiếu, điều này ảnh hưởng rất nhiều đến kết quả thu được.
Trong những năm gần đây, các nghiên cứu đang dần chú trọng hơn vào việc xây
dựng mô hình học máy có thể giải thích. Một trong những lý thuyết được ứng dụng nhằm
xây dựng mô hình là lý thuyết bằng chứng Dempster - Shafer. DST là sự tổng quát hóa
của lý thuyết Bayes khi đã tính đến phần không chắc chắn của bằng chứng. Đối với các
bằng chứng không có dữ liệu, DST sẽ không tính đến bằng chứng này khi kết hợp xác
suất. Đây là điểm quan trọng khi ứng dụng để xây dựng mô hình machine learning: nhờ
vào sự không chắc chắn có thể đánh giá được tầm quan trọng của biến đến kết quả đầu
ra, từ đó giải thích cho mô hình được xây dựng. Ngoài ra, DST còn phù hợp với dữ liệu
thu thập được trong y khoa: các bằng chứng có thể không chắc chắn để khẳng định kết
luận, một số bằng chứng có thể bị thiếu dữ liệu ở từng bệnh nhân khác nhau. Từ những
điều trên, có thể thấy được ứng dụng DST trong việc xây dựng mô hình học máy để xử
10
lý dữ liệu y khoa có tiềm năng rất lớn.
Lý thuyết Dempster - Shafer được A.P.Dempster đề xuất lần đầu năm 1968 [10],
sau đó được Glenn Shafer phát triển và tổng quát hóa thành một lý thuyết hoàn chỉnh
và trình bày trong cuốn "Mathematical Theory of Evidence". Đây được xem là lý thuyết
tổng quát hóa cho lý thuyết xác suất Bayes. Điểm đặc trưng của DST là kết hợp các xác
suất của các bằng chứng dựa trên sự không chắc chắn của bằng chứng đó. Điều này thể
hiện rõ ưu thế của lý thuyết Dempster - Shafer đối với các trường hợp dữ liệu thu được
từ thực tế khi không phải mọi bằng chứng đều có độ tin tưởng như nhau. Một khía cạnh
khác của DST được quan tâm một cách đặc biệt là DST có thể xây dựng phép kết hợp mô
hình, các mô hình kết hợp có thể là riêng rẽ, xây dựng từ cùng một bộ dữ liệu hay từ các
bộ dữ liệu khác nhau. Ngoài ra, DST còn thể hiện sự phù hợp khi kết hợp các mô hình
xây dựng để xử lý các dạng biến khác nhau trong cùng một bộ dữ liệu. Một đặc điểm của
DST là có thể kết hợp các mô hình xây dựng dựa trên các lý thuyết thống kê khác nhau
dựa trên hàm niềm tin gán cho từng mô hình. Những điều trên cho thấy xây dựng mô
hình học máy và phép kết hợp mô hình dựa trên DST có thể là một hướng tiếp cận tiềm
năng để phát triển trí tuệ nhân tạo nói chung và tin học y tế nói riêng.
1.5. Các nghiên cứu liên quan
Năm 2014, S.Bashir và các đồng nghiệp đã xây dựng mô hình machine learning
nhằm phân loại bệnh nhân bị mắc bệnh mạch vành. Thuật toán được sử dụng trong thí
nghiệm bao gồm Support vector machine (SVM), decision tree, naive Bayes. Bộ dữ liệu
được sử dụng là bộ dữ liệu Cleveland nằm trong tập dữ liệu UCI heart disease dataset,
bộ dữ liệu này gồm 303 mẫu và 14 thuộc tính, trong đó các dữ liệu thiếu được xử lý bằng
cách thay thế các giá trị trung bình trong cùng thuộc tính. Dữ liệu sau khi được phân
loại bằng cả 3 mô hình sẽ được tổng hợp và đưa ra kết luận bằng cách bỏ phiếu. Kết quả
cho thấy các thuật mô hình naive Bayes, decision tree và SVM có độ chính xác lần lượt
là 78,79%, 72,73% và 75,76%. Độ chính xác của phép kết hợp 3 mô hình bằng cách bỏ
phiếu là 81,82% [11].
Năm 2019, G.T. Reddy và các cộng sự đã phát triển một mô hình hỗn hợp nhằm
chẩn đoán bệnh nhân bị bệnh tim mạch. Trong nghiên cứu này, tập dữ liệu được lấy
từ 3 tập dữ liệu có trong UCI heart disease dataset bao gồm: Cleveland, Hungarian và
11
- Xem thêm -