BỘ GIÁO DỤC VÀ ĐÀO TẠO
VIỆN HÀN LÂM KHOA HỌC
VÀ CÔNG NGHỆ VIỆT NAM
HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
Họ và tên tác giả: Phạm Văn Tứ
NGHIÊN CỨU PHƯƠNG PHÁP PHÁT HIỆN TỰ ĐỘNG POLYP DỰA
TRÊN LỌC HESSIAN, BIẾN ĐỔI HOUGH VÀ ĐẶC TRƯNG BIÊN
TRONG ẢNH Y HỌC
LUẬN VĂN THẠC SĨ NGÀNH MÁY TÍNH
Hà Nội – 2021
BỘ GIÁO DỤC VÀ ĐÀO TẠO
VIỆN HÀN LÂM KHOA HỌC
VÀ CÔNG NGHỆ VIỆT NAM
HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
Họ và tên tác giả: Phạm Văn Tứ
NGHIÊN CỨU PHƯƠNG PHÁP PHÁT HIỆN TỰ ĐỘNG POLYP DỰA
TRÊN LỌC HESSIAN, BIẾN ĐỔI HOUGH VÀ ĐẶC TRƯNG BIÊN
TRONG ẢNH Y HỌC
Chuyên ngành: Máy tính
Mã số: 8480104
LUẬN VĂN THẠC SĨ NGÀNH MÁY TÍNH
CÁN BỘ HƯỚNG DẪN KHOA HỌC
Hướng dẫn 1: TS. NGÔ TRƯỜNG GIANG
Hướng dẫn 2: PGS.TS. NGÔ QUỐC TẠO
Hà Nội – 2021
LỜI CAM ĐOAN
Tôi là Phạm Văn Tứ, học viên khóa 2019B, ngành Máy tính, chuyên ngành
Công nghệ thông tin. Tôi xin cam đoan luận văn “Nghiên cứu phương pháp phát
hiện tự động Polyp dựa trên lọc Hessian, biến đổi Hough và đặc trưng biên
trong ảnh Y học” là do tôi nghiên cứu, tìm hiểu và phát triển dưới sự hướng dẫn
của TS. Ngô Trường Giang và PGS.TS Ngô Quốc Tạo, không phải sự sao chép
từ các tài liệu, công trình nghiên cứu của người khác mà không ghi rõ trong tài
liệu tham khảo. Tôi xin chịu trách nhiệm về lời cam đoan này.
Hà Nội, ngày
tháng
năm 2021
Tác giả
Phạm Văn Tứ
LỜI CẢM ƠN
Để hoàn thành khóa luận tốt nghiệp với đề tài là “Nghiên cứu phương pháp
phát hiện tự động Polyp dựa trên lọc Hessian, biến đổi Hough và đặc trưng biên
trong ảnh Y học”, bên cạnh sự cố gắng nỗ lực không ngừng của bản thân, tôi xin
được bày tỏ lòng biết ơn chân thành đến:
- Các thầy cô Học viện khoa học và Công nghệ Việt Nam, Viện Công nghệ
thông tin, Viện Hàn lâm Khoa học và Công nghệ Việt Nam nói chung và các thầy
cô trong bộ môn Hệ thống thông tin cũng như khoa Công nghệ thông tin nói riêng
đã giảng dạy và truyền đạt những kiến thức quý báu trong suốt khoá cao học vừa
qua, giúp tôi có những kiến thức chuyên môn nền tảng để làm cơ sở lý luận khoa
học cho luận văn này.
- Đặc biệt tôi xin chân thành cảm ơn thầy TS. Ngô Trường Giang và
PGS.TS Ngô Quốc Tạo đã dìu dắt và hướng dẫn tôi trong suốt quá trình làm luận
văn, sự chỉ bảo và định hướng của thầy giúp tôi tự tin nghiên cứu những vấn đề
mới và giải quyết bài toán một cách khoa học.
Tôi xin trân trọng cảm ơn Ban giám hiệu Học viện khoa học công nghệ Việt
Nam - Viện Hàn lâm khoa học và công nghệ Việt Nam đã tạo các điều kiện cho
tôi được học tập và làm luận văn một cách thuận lợi.
Luận văn này được hỗ trợ bởi đề tài CS21.04 của Viện Công nghệ thông
tin (IOIT), Viện Hàn lâm Khoa học và Công nghệ Việt Nam (VAST), Hà Nội,
Việt Nam.
Tuy nhiên, vì kiến thức chuyên môn vẫn còn nhiều hạn chế cùng với việc
bản thân chưa có nhiều kinh nghiệm nên luận văn không khỏi những thiếu sót.
Kính mong nhận được sự góp ý và chỉ bảo của quý thầy cô và mọi người.
Hà Nội, ngày
tháng
năm 2021
Tác giả
Phạm Văn Tứ
MỤC LỤC
DANH MỤC KÝ HIỆU VÀ CÁC CHỮ VIẾT TẮT ........................................... 1
DANH MỤC HÌNH VẼ ....................................................................................... 3
MỞ ĐẦU ............................................................................................................... 4
1. Tính cấp thiết của đề tài ............................................................................. 4
2. Mục tiêu luận văn ........................................................................................ 4
3. Cấu trúc luận văn ........................................................................................ 5
CHƯƠNG 1. GIỚI THIỆU VỀ ẢNH, ẢNH TRONG Y HỌC, PHÁT HIỆN
ĐỐI TƯỢNG TRONG ẢNH ............................................................................... 6
1.1 Giới thiệu về ảnh, các khái niệm cơ bản trong xử lý ảnh ..................... 6
1.1.1 Điểm ảnh, Ảnh số ................................................................................. 6
1.1.2 Mức xám ............................................................................................... 6
1.1.3 Biểu đồ xám (Histogram), Cân bằng sáng (histogram equalization) ... 6
1.1.4 Phóng đại ảnh (Scale ảnh) .................................................................... 8
1.1.5 Làm mờ ảnh (blur) ................................................................................ 8
1.1.6 Gradient (độ dốc) ................................................................................ 11
1.1.7 Biên..................................................................................................... 11
1.2 Ảnh trong y học ....................................................................................... 16
1.2.1 Giới thiệu ............................................................................................ 16
1.2.2 Chẩn đoán dựa trên hình ảnh .............................................................. 17
1.2.3 Các chuẩn hình ảnh ứng dụng trong y tế ............................................ 18
1.2.4 Polyp ................................................................................................... 19
1.3 Phát hiện đối tượng (object detection) trong ảnh ................................. 20
1.4 Non Maximum Suppression ................................................................... 21
1.5 Kết luận chương ...................................................................................... 23
CHƯƠNG 2. PHƯƠNG PHÁP PHÁT HIỆN TỰ ĐỘNG POLYP DỰA TRÊN
LỌC HESSIAN, BIẾN ĐỔI HOUGH VÀ ĐẶC TRƯNG BIÊN ..................... 24
2.1 Phương pháp trích đặc trưng HOG (Histogram of oriented gradients)
......................................................................................................................... 24
2.2 Phương pháp lọc Hessian ....................................................................... 29
2.3 Phương pháp biến đổi Hough ................................................................ 32
2.4 Phân loại dựa trên phương pháp SVM ................................................. 36
2.5 Đánh giá mô hình phân lớp .................................................................... 40
2.6 Overfitting và Underfitting .................................................................... 41
2.7 Kết luận chương ...................................................................................... 42
CHƯƠNG 3. ỨNG DỤNG VÀ THỬ NGHIỆM VỚI ẢNH ĐẠI TRÀNG ..... 43
3.1 Giới thiệu bài toán ................................................................................... 43
3.2 Mô tả dữ liệu thử nghiệm ....................................................................... 43
3.3 Xây dựng chương trình thử nghiệm ...................................................... 44
3.4 Đánh giá các kỹ thuật ............................................................................. 47
3.5 Kết luận .................................................................................................... 48
TÀI LIỆU THAM KHẢO .................................................................................. 49
DANH MỤC KÝ HIỆU VÀ CÁC CHỮ VIẾT TẮT
Từ viết tắt
Từ chuẩn
Diễn giải
NBF
Normalized Box Filter
Lọc trung bình
CIE-Lab
Commission Internationale de
l’Eclairage
Hệ màu – CIE
CT
Computed Tomography
Siêu âm, chụp cắt lớp vi tính
MRI
Magnetic Resonance Imagin
Chụp cộng hưởng từ
KTV
Kỹ thuật viên
Kỹ thuật viên
CNTT
Công nghệ thông tin
Công nghệ thông tin
PACS
Picture Archiving and
Communication System
Hệ thống lưu trữ, xử lý và truyền
ảnh động, hoặc mạng xử lý
DICOM
Digital Imaging and
Communications in Medicine
Truyền ảnh số hoá
CNN
Convolutional Neural Network Mạng nơ-ron phức hợp
R-CNNs
Regions with Convolutional
Neural Network
Họ các mô hình object detection
dựa trên Convolutional Neural
Network
Non-Maximum Suppression
Thuật toán để loại bỏ đi các
bounding box dư thừa của cùng
một đối tượng tượng trong ảnh
IoU
Intersection over Union
Là một thông số được sử dụng để
đánh giá độ che lấp lên nhau giữa 2
bounding boxes
HT
Hough Transform
Biến đổi Hough
CTH
Circle Hough Transform
Biến đổi Hough cho hình tròn
NMS
1
EHT
Ellipse Hough Transform
Biến đổi Hough cho hình elip
ML
Machine Learning
Học máy, máy có khả năng học tập
CVPR
Computer Vision and Pattern Hội nghị hàng đầu về Thị Giác
Máy tính
Recognition
HOG
Histogram of oriented gradients Biểu đồ hướng của gradient
SVM
Vector Support Machine
Máy vector hỗ trợ
2
DANH MỤC HÌNH VẼ
Hình 1.1 Ví dụ Histogram của ảnh. ..................................................................... 7
Hình
Hình
Hình
Hình
Hình
1.2 Kết quả phát hiện biên sử dụng các toán tử khác nhau. ...................... 15
1.3 Các chuẩn truyền ảnh trên mạng. ....................................................... 18
1.4 Ví dụ Polyp. ........................................................................................ 19
1.5 Ví dụ về Object Detection. ................................................................. 20
2.1 Các bước xây dựng mô hình phát hiện đối tượng với HOG và SVM. 24
Hình 2.2 Chia ảnh thành các khối, ô. ................................................................. 26
Hình 2.3 Rời rạc hóa độ lớn vào bin tương ứng. ............................................... 27
Hình 2.4 Biểu đồ Histogram of Gradient gồm 9 bins tương ứng với một ô vuông
trong lưới ô vuông. ............................................................................................. 27
Hình 2.5 Biểu diễn nhóm véc tơ histogram trên các lưới ô vuông của hình ảnh
gốc. Các phương véc tơ phổ biến là chiều dọc trùng với chiều bức ảnh. ........... 29
Hình 2.6 Ảnh gốc(bên trái) và ảnh lọc low-pass(bên phải). .............................. 30
Hình 2.7 Ảnh gốc (bên trái) và ảnh đã được tăng cường(bên phải). ................. 31
Hình 2.8 Ảnh được phân đoạn. .......................................................................... 31
Hình 2.9 Vùng ứng cử viên polyp. .................................................................... 32
Hình
Hình
Hình
Hình
Hình
2.10 Minh họa biến đổi Hough cho hình tròn. .......................................... 33
2.11 Sự xác định của trục elip................................................................... 36
2.12 Ví dụ dữ liệu trong SVM. ................................................................. 37
2.13 So sánh lề(margin). ........................................................................... 39
2.14 Ví dụ kết quả thuật toán SVM (hình bên trái là lề cứng và hình bên
phải là lề mềm). .................................................................................................. 39
Hình
Hình
Hình
Hình
2.15 Một số ví dụ về lõi của SVM. ........................................................... 40
3.1 Dự đoán polyp trong hình ảnh nội soi đại tràng. ................................ 43
3.2. Ví dụ về cấu trúc thư mục tập dữ liệu ảnh nội soi đại tràng. ............. 44
3.3. Mô hình phát hiện đối tượng trong ảnh. ............................................ 44
Hình 3.4 Các bước huấn luyện. ......................................................................... 45
Hình 3.5 Các bước phát hiện polyp trong ảnh đầu vào. .................................... 46
Hình 3.6 Kết quả dự đoán thực nghiệm polyp ảnh nội soi đại tràng. ............... 47
3
MỞ ĐẦU
Một trong những lĩnh vực quan trọng của Trí tuệ nhân tạo là thị giác máy.
Thị giác máy tính là một lĩnh vực bao gồm các phương pháp thu nhận, xử lý ảnh
kỹ thuật số, phân tích và nhận dạng các hình ảnh, phát hiện các đối tượng, tạo ảnh,
siêu phân giải hình ảnh và nhiều hơn vậy. Phát hiện đối tượng có lẽ là khía cạnh
sâu sắc nhất của thị giác máy do số lần sử dụng trong thực tế.
Phát hiện đối tượng đề cập đến khả năng của hệ thống máy tính và phần
mềm để định vị các đối tượng trong một hình ảnh và xác định từng đối tượng.
Phát hiện đối tượng đã được sử dụng rộng rãi để phát hiện khuôn mặt, phát hiện
xe, đếm số người đi bộ, hệ thống bảo mật và xe không người lái,... Có nhiều cách
để nhận diện đối tượng cũng như được ứng dụng trong nhiều lĩnh vực thực tế.
Trong Y học việc chẩn đoán bệnh dựa trên hình ảnh thì kết quả phát hiện sẽ là yếu
tố tiên quyết trong việc chẩn đoán.
1. Tính cấp thiết của đề tài
Hiện nay tại các bệnh viện hầu hết các thiết bị như: máy chụp X quang, siêu
âm màu, nội soi, chụp cắt lớp vi tính (CT. Scanner), cộng hưởng từ hạt nhân
(MRL),... chỉ dừng ở mức chụp ảnh, việc chẩn đoán thì do các chuyên gia y tế.
Việc sàng lọc thủ công các đối tượng như polyp, ung thư, viêm, loét, khối u,...
bằng con người có thể gặp lỗi “mù thoáng qua”, “mù không chủ ý” gây bỏ sót. Để
giảm yếu tố lỗi của con người đòi hỏi phải bao gồm một người quan sát thứ hai
gây tốn nhân lực...
Từ những thực tế nêu trên việc Nghiên cứu phương pháp phát hiện tự động
đối tượng dựa trên lọc Hessian, biến đổi Hough và đặc trưng biên trong ảnh Y học
là cần thiết. Giúp hỗ trợ chẩn đoán tự động, giảm lỗi và gánh nặng con người.
2. Mục tiêu luận văn
- Nghiên cứu một số phương pháp tiền xử lý ảnh, nâng cao chất lượng ảnh
- Nghiên cứu một số phương pháp nhận dạng, phát hiện đối tượng
- Nghiên cứu đặc trưng HOG, phương pháp lọc Hessian, biến đổi Hough
- Nghiên cứu phương pháp phân loại SVM trong Machine Learning, các kỹ
thuật nâng cao chất lượng mô hình phân loại.
- Áp dụng nghiên cứu vào trong thực tiễn: phát hiện tự động polyp dựa trên
lọc Hessian, biến đổi Hough và đặc trưng biên trong ảnh Y học.
4
- Phân tích, đánh giá kết quả thu được;
3. Cấu trúc luận văn
MỞ ĐẦU: Giới thiệu và đưa ra hướng nghiên cứu bài toán phát hiện tự
động polyp.
CHƯƠNG 1: Giới thiệu về ảnh, ảnh trong y học, phát hiện đối tượng
trong ảnh: Trong chương này sẽ trình bày các khái niệm cơ bản trong xử lý ảnh,
ảnh trong y học, khái niệm polyp, bài toán phát hiện đối tượng và cách tiếp tận
giải bài toán phát hiện đối tượng trong ảnh.
CHƯƠNG 2: Phương pháp phát hiện tự động Polyp dựa trên lọc
Hessian, biến đổi Hough và đặc trưng biên: Trong chương này sẽ trình bày
phương pháp phát hiện Polyp dựa trên đặc trưng biên HOG, lọc Hessian, biến đổi
Hough, thuật toán phân loại SVM và kỹ thuật đánh giá mô hình phân loại.
CHƯƠNG 3: Ứng dụng và thử nghiệm với ảnh đại tràng: Chương này
sẽ mô tả từng bước xây dựng bài toán phát hiện Polyp, đánh giá các thuật toán,
kết quả thực nghiệm, đưa ra những kết luận và định hướng nghiên cứu tiếp theo.
TÀI LIỆU THAM KHẢO: Liệt kê các tài liệu mà luận văn tham khảo
trên nhiều nguồn khác nhau.
5
CHƯƠNG 1. GIỚI THIỆU VỀ ẢNH, ẢNH TRONG Y HỌC, PHÁT HIỆN
ĐỐI TƯỢNG TRONG ẢNH
Trong chương này sẽ trình bày các khái niệm cơ bản trong xử lý ảnh, ảnh
trong y học, khái niệm polyp, bài toán phát hiện đối tượng và cách tiếp tận giải
bài toán phát hiện đối tượng trong ảnh bao gồm:
1.1 Giới thiệu về ảnh, các khái niệm cơ bản trong xử lý ảnh
1.1.1 Điểm ảnh, Ảnh số
Ảnh tự nhiên là ảnh liên tục về không gian và độ sáng. Để xử lý bằng máy
tính, ảnh cần phải được số hoá. Số hoá ảnh là sự biến đổi gần đúng một ảnh liên
tục thành một tập điểm phù hợp với ảnh thật về vị trí (không gian) và độ sáng
(mức xám). Khoảng cách giữa các điểm ảnh đó được thiết lập sao cho mắt người
không phân biệt được ranh giới giữa chúng. Mỗi một điểm như vậy gọi là điểm
ảnh - Picture element hay gọi tắt là Pixel. Trong khuôn khổ ảnh hai chiều, mỗi
pixel ứng với cặp tọa độ (x, y) và mức xám. Ảnh số là tập hợp các điểm ảnh với
mức xám phù hợp dùng để mô tả ảnh gần với ảnh thật.
1.1.2 Mức xám
Mức xám của điểm ảnh là cường độ sáng của nó được gán bằng giá trị số
tại điểm đó. Các thang giá trị mức xám thông thường: 16, 32, 64, 128, 256 (Mức
256 là mức phổ dụng. Lý do: từ kỹ thuật máy tính dùng 1 byte (8 bit) để biểu diễn
mức xám: Mức xám dùng 1 byte biểu diễn: 28=256 mức, tức là từ 0 đến 255).
Ảnh đen trắng: là ảnh có hai màu đen, trắng (không chứa màu khác) với
mức xám ở các điểm ảnh có thể khác nhau.
Ảnh nhị phân: ảnh chỉ có 2 mức đen trắng phân biệt tức dùng 1 bit mô tả
21 mức khác nhau. Nói cách khác: mỗi điểm ảnh của ảnh nhị phân chỉ có thể là 0
hoặc 1.
Ảnh màu: trong khuôn khổ lý thuyết ba màu (Red, Blue, Green) để tạo nên
thế giới màu, người ta thường dùng 3 byte để mô tả mức màu, khi đó các giá trị
màu: 28*3 = 224 ≈ 16,7 triệu màu.
1.1.3 Biểu đồ xám (Histogram), Cân bằng sáng (histogram equalization)
Histogram của ảnh (intensity histogram) là biểu đồ cột thống kê số lần xuất
hiện của các mức sáng trong ảnh.
6
•
•
•
Nói cách khác, histogram là biểu đồ thống kê tần suất xuất hiện của mức
sáng.
Histogram thường được chuẩn hóa bằng cách: lấy mỗi cột chia cho giá trị
tổng è sau khi chuẩn hóa, tổng các giá trị cột trong histogram sẽ bằng 1.
Histogram đã chuẩn hóa mang ý nghĩa xác suất xuất hiện của các mức sáng
trong ảnh.
Hình 1.1 Ví dụ Histogram của ảnh.
Cân bằng histogram (histogram equalization) là sự điều chỉnh histogram về
trạng thái cân bằng, làm cho phân bố (distribution) giá trị pixel không bị co cụm
tại một khoảng hẹp mà được "kéo dãn" ra. Trong thực tế, camera thường chịu tác
động từ điều kiện sáng. Điều đó khiến cho nhiều ảnh bị tối hoặc quá sáng. Cân
bằng histogram là một phương pháp tiền/hậu xử lí ảnh rất mạnh mẽ. Đặc biệt trong
nhiều bài toán trong lĩnh vực thị giác máy tính, phương pháp tiền xử lý ảnh này
cho chất lượng dữ liệu rất cao, cải thiện chất lượng mô hình rất nhiều.
Histogram equalization thường được dùng:
•
•
•
•
Ở bước tiền xử lý.
Nhằm giảm sự ảnh hưởng do chiếu sáng (chói), thiếu ánh sáng (ảnh tối)
Chuẩn hóa ảnh đầu vào trước khi tiến hành xử lý.
Các giải thuật xử lý ảnh thường nhạy cảm với ánh sáng, cùng nội dung
ảnh nhưng với các điều kiện ánh sáng khác nhau có thể làm sai lệch kết
quả xử lý (giả sử trong bài toán phát hiện đối tượng, bài toán nhận dạng,
bài toán đếm đối tượng, …). Do đó, cân bằng sáng ở bước tiền xử lý là
một trong những cách giúp làm giảm các ảnh hưởng này.
7
Thuật toán cân bằng sáng:
Bước 1: Thống kê số lượng pixel cho từng mức sáng, ta được histogram
H(i)
Bước 2: Tính "hàm tích lũy" Z cho từng mức sáng theo công thức:
𝑍(𝑖) = ∑!"#$ 𝐻(𝑖)
(1.1)
Trong đó Z(i) chính là tổng số pixel có giá trị ⩽ i.
Bước 3: Hàm biến đổi K tại một mức sáng i về [0, 255] được tính như sau:
𝐾(𝑖) = )+,(%)()!*(%) ∗ 255
%(!)()!*(%)
(1.2)
1.1.4 Phóng đại ảnh (Scale ảnh)
Scale ảnh là việc thay đổi kích thước dài, rộng của ảnh không làm thay đổi
tính chất song song của các đoạn thẳng trên ảnh gốc so với các trục tọa độ x và y.
Theo định nghĩa về phép biến đổi hình học thì một biến đổi phóng đại các
chiều (x, y) theo hệ số (a1, a2) sẽ có ma trận dịch chuyển M là ma trận đường chéo.
Tức là ma trận vuông có đường chéo chính là [𝑎! , 𝑎" ] và các phần tử còn lại bằng
0. Khi đó phép dịch chuyển sẽ là:
𝑎
𝑥
𝑇(𝑥, 𝑦) = 𝐌 . / = . !
𝑦
0
0 𝑥
𝑎 𝑥
/. / = . ! /
𝑎" 𝑦
𝑎" 𝑦
(1.3)
Scale ảnh rất thường xuyên được sử dụng trong các mô hình phân loại ảnh
vì mỗi một mô hình đều có một kích thước đầu vào tiêu chuẩn.
1.1.5 Làm mờ ảnh (blur)
Trong xử lý ảnh, phép làm mờ ảnh được dùng rất nhiều và có vai trò quan
trọng. Hiệu ứng làm mờ mang lại:
• Giảm nhiễu (noise) trong ảnh
• Làm trơn ảnh (smooth). Việc làm trơn ảnh sẽ giảm sắc nét của cạnh, thay
vào đó, vùng trơn sẽ lan ra
Có rất nhiều kĩ thuật làm mờ ảnh mà không làm mờ các cạnh:
v Lọc trung bình (Normalized Box Filter)
Đây là bộ lọc đơn giản nhất. Nó được xây dựng dựa trên ý tưởng tính
giá trị một điểm ảnh bằng trung bình cộng các điểm ảnh xung quanh nó.
Ma trận lọc của lọc trung bình có dạng:
8
𝐾=.
-
width ⋅.height
1 1 1 … 1
1 1 1 … 1
1
. . . … 1
1 1 1 … 1
(1.4)
Cách lọc này thường được áp dụng cho làm trơn ảnh vẫn muốn giữ
lại biên không bị mờ.
v Bộ lọc Gausian
Bộ lọc Gauss được cho là bộ lọc hữu ích nhất, được thực hiện bằng
cách nhân chập ảnh đầu vào với một ma trận lọc Gauss sau đó cộng
chúng lại để tạo thành ảnh đầu ra.
Ý tưởng chung là giá trị mỗi điểm ảnh sẽ phụ thuộc nhiều vào các
điểm ảnh ở gần hơn là các điểm ảnh ở xa. Trọng số của sự phụ thuộc
được lấy theo hàm Gauss.
Dưới đây là biểu diễn ma trận lọc Gauss:
Giả sử ảnh là một chiều. Điểm ảnh ở trung tâm sẽ có trọng số lớn
nhất. Các điểm ảnh ở càng xa trung tâm sẽ có trọng số giảm dần khi
khoảng cách từ chúng tới điểm trung tâm tăng lên. Như vậy điểm càng
gần trung tâm sẽ càng đóng góp nhiều hơn vào giá trị điểm trung tâm.
Trên thực tế, việc lọc ảnh dựa trên hàm Gauss hai chiều (ngang và
dọc). Phân phối chuẩn hai chiều có thể biểu diễn dưới dạng:
𝐺! (𝑥, 𝑦) = 𝐴𝑒
"($"%! )"
'(!"
+
"
")*"%# +
'(#"
(1.5)
Trong đó 𝜇 là trung bình (đỉnh), 𝜎 " là phương sai của các biến số x
và y. Tham số 𝜇 quyết định tác dụng của bộ lọc Gauss lên ảnh. Độ lớn
của ma trận lọc (kernel) cần được lựa chọn cho đủ rộng.
9
v Lọc trung vị
Phép lọc trung vị cũng được thực hiện với các ma trận lọc. Tuy nhiên
nó tính trung vị tất cả các giá trị điểm ảnh trong vùng ma trận lọc và sử
dụng trung vị này cho giá trị điểm trung tâm. Một điều khá thú vị là với
các cách lọc ở trên, giá trị điểm trung tâm được tính mới (có thể bằng
hoặc khác với giá trị một điểm trong vùng ma trận lọc), còn với phép lọc
trung vị, giá trị điểm trung tâm luôn được thay bằng một giá trị điểm ảnh
trong bức ảnh đầu vào. Do vậy, phương pháp lọc này có khả năng loại
bỏ nhiễu muối tiêu (salt-and-pepper noise ) khá tốt.
Có một điểm cũng cần được chú ý là phép lọc trung bình và lọc Gauss
là phép lọc tuyến tính, nhưng phép lọc trung vị không phải là một phép
lọc tuyến tính.
v Bộ lọc Bilateral
Bilateral là một bộ lọc hiệu quả cao trong việc loạt bỏ nhiễu mà vẫn
giữ lại được các đường viền (cạnh) trong ảnh.
Như chúng ta đã biết, bộ lọc Gauss quyết định giá trị một điểm ảnh
bằng cách lấy trung bình theo hàm Gauss các giá trị điểm ảnh xung quanh
điểm đó. Hàm trọng số Gauss chỉ phụ thuộc vào khoảng cách trong
không gian so với điểm ảnh trung tâm, không quan tâm đến sự tương
quan giữa mức xám của điểm trung tâm với các điểm xung quanh đó. Nó
cũng không quan tâm rằng điểm ảnh trung tâm có nằm tại một đường
biên trong ảnh không, vì thế làm nhòe luôn các đường biên trong ảnh.
Bộ lọc Bilateral cũng sử dụng một bộ lọc Gauss với khoảng cách đến
điểm trung tâm, đảm bảo chỉ có các điểm ở gần tham gia vào giá trị của
điểm ảnh trung tâm. Tuy vậy nó sử dụng thêm một hàm Gauss cho mức
xám, đảm bảo chỉ các điểm ảnh có mức xám tương đồng với điểm ảnh
trung tâm tham gia vào quá trình làm mịn. Vì thế bộ lọc Bilateral bảo
toàn được các đường biên trong ảnh bởi vì điểm ảnh ở biên có sự thay
đổi về mức xám rất rõ ràng. Hơn nữa, thay vì hoạt động trên các kênh
màu một cách riêng rẽ như bộ lọc trung bình hay bộ lọc Gauss, bộ lọc
Bilateral có thể thi hành việc đo đạc màu sắc có chủ đích trong không
gian màu CIE-Lab, làm mượt màu và bảo toàn các biên theo hướng phù
hợp hơn với nhận thức con người.
Tuy vậy, bộ lọc Bilateral có nhược điểm chậm hơn các bộ lọc khác.
10
1.1.6 Gradient (độ dốc)
Trong xử lý ảnh, độ dốc (tức gradient) là độ dốc về mức sáng. Hay nói cách
khác chính là sự thay đổi các giá trị pixel trong ảnh.
Vùng ảnh trơn (smooth) thì các pixel trong vùng ảnh đó có giá trị xấp xỉ
gần bằng nhau, vì vậy khi tính toán đạo hàm sẽ gần bằng 0. Đạo hàm bằng 0 thể
hiện không có biến thiên về giá trị (mức sáng). Điều này có nghĩa là độ dốc của
các pixel trong vùng ảnh trơn gần bằng 0. Đạo hàm dương tại một pixel thể hiện
rằng biến thiên mức sáng đang ở chiều hướng đi lên, ngược lại đạo hàm âm tại
một pixel cho biết biến thiên mức sáng tại đó đang giảm dần. Nói tóm gọn lại
gradient của ảnh chính là đạo hàm ảnh.
1.1.7 Biên
Một điểm ảnh được coi là điểm biên nếu có sự thay đổi nhanh hoặc đột ngột
về mức xám (hoặc màu). Ví dụ trong ảnh nhị phân, điểm đen gọi là điểm biên nếu
lân cận nó có ít nhất một điểm trắng.
Tập hợp các điểm biên liên tiếp tạo thành một đường biên. Đường biên là
một loại đặc trưng cục bộ tiêu biểu trong phân tích, nhận dạng ảnh. Người ta sử
dụng biên làm phân cách các vùng xám (màu) cách biệt.
Phát hiện biên là một công cụ quan trọng trong xử lý ảnh số. Nó làm giảm
một cách đáng kể khối lượng dữ liệu cần tính toán, chỉ giữ lại một số ít những
thông tin cần thiết đồng thời vẫn bảo toàn được những cấu trúc quan trọng trong
bức ảnh.
Các kỹ thuật phát hiện biên:
a. Kỹ thuật phát hiện biên Gradient
Gradient là một vectơ f(x, y) có các thành phần biểu thị tốc độ thay đổi mức
xám của điểm ảnh (theo hai hướng x, y trong bối cảnh xử lý ảnh hai chiều)
,-($,*)
,$
,-($,*)
,*
= 𝑓$/ ≈
= 𝑓*/ ≈
-($01$,*)"-($,*)
1$
-($,*01*)"-($,*)
(1.6)
1*
Trong đó, dx, dy là khoảng cách (tính bằng số điểm) theo hướng x và y.
Tuy nói là lấy đạo hàm nhưng thực chất chỉ là mô phỏng và xấp xỉ đạo hàm bằng
các kỹ thuật nhân chập vì ảnh số là tín hiệu rời rạc nên đạo hàm không tồn tại
(thực tế chọn dx= dy=1).
11
Theo định nghĩa về Gradient, nếu áp dụng nó vào xử lý ảnh, việc tính toán
sẽ rất phức tạp. Để đơn giản mà không mất tính chất của phương pháp Gradient,
người ta sử dụng kỹ thuật Gradient dùng cặp mặt nạ H1, H2 trực giao (theo 2
hướng vuông góc).
Ø Mặt nạ Prewitt
- Kỹ thuật sử dụng 2 mặt nạ nhân chập xấp xỉ đạo hàm theo hai hướng
x và y là:
- Tính I Ä Hx+ I Ä Hy để ra được kết quả
- Ví dụ:
0 0 0 0 0 0
5 5 5 5 0 0
⎛
⎞
5 5 5 5 0 0
𝐼=⎜
⎜5 5 5 5 0 0⎟
⎟
0 0 0 0 0 0
⎝0 0 0 0 0 0⎠
15
0
⎛
−15
I ⊗ H! + I ⊗ H" = ⎜
⎜−15
∗
⎝ ∗
Ø Mặt nạ Sobel
15
0
−15
−15
∗
∗
0
−15
−20
−15
∗
∗
−5
−15
−15
−10
∗
∗
∗
∗
∗
∗
∗
∗
∗
∗
⎞
∗
⎟
∗⎟
∗
∗⎠
Sobel sử dụng hai mặt nạ có kích thước [3 x 3] trong đó một
mặt nạ chỉ đơn giản là sự quay của mặt nạ kia đi một góc 900. Các mặt
nạ này được thiết kế để tìm ra các đường biên theo chiều đứng và
chiều ngang một cách tốt nhất. Khi thực hiện phép nhân chập giữa ảnh
và các mặt nạ này sẽ nhận được các gradient theo chiều đứng và chiều
ngang Gx, Gy.
- 2 mặt nạ nhân chập xấp xỉ đạo hàm theo 2 hướng x và y là:
12
- Tính I Ä Hx+ I Ä Hy để ra được kết quả
Ø Kỹ thuật la bàn
- Kỹ thuật sử dụng 8 mặt nạ nhân chập theo 8 hướng 00, 450, 900, 1350,
1800, 2250, 2700, 3150.
5
5 −3
5
5
5
4
2
H# = 2 5
H
=
0 −3
−3 0 −34
$
−3 −3 −3
−3 −3 −3
−3 5
5
−3 −3 5
H% = 2−3 0
4
H
=
2
5
−3 0 54
&
−3 −3 −3
−3 −3 5
−3 −3 −3
−3 −3 −3
H' = 2−3 0
5 4 H( = 2−3 0 −34
−3 5
5
5
5
5
−3 −3 −3
5 −3 −3
H) = 2 5
0 −34 H* = 25 0 −34
5
5 −3
5 −3 −3
- Kết quả thu được bằng cách tính: ∑#$%! 𝐼 Ä H
(1.8)
(1.9)
b. Kỹ thuật phát hiện biên Laplacian of Gaussian
Dùng phương pháp gradient sẽ cho kết quả là ảnh nhận được có cấu trúc
không rõ nét do tạo nên những đường biên dày, không sắc nét. Để nhận được các
đường biên mỏng và rõ nét phải tiến hành các bước xử lý tiếp theo như loại bỏ
những điểm không phải là cực trị (nonmaximum suppression) đồng thời áp dụng
kỹ thuật liên kết biên (edge linking). Ngoài ra còn gặp phải vấn đề là làm thế nào
để xác định được mức ngưỡng một cách chính xác. Việc chọn đúng giá trị ngưỡng
phụ thuộc rất nhiều vào nội dung của từng bức ảnh. Nếu tăng gấp đôi kích thước
của một bức ảnh mà không thay đổi giá trị cường độ của các điểm ảnh, sẽ nhận
được gradients bị suy giảm đi một nửa. Mặt khác kích thước của mặt nạ (masks)
cũng ảnh hưởng nhiều đến giá trị của gradients trong ảnh.
Phương pháp gradient chỉ thích hợp cho các vùng ảnh độ tương phản thay
đổi có tính nhảy bậc, điều này gây khó khăn cho phát hiện các đường thẳng. Để
khắc phục nhược điểm này ta thường dùng đạo hàm bậc hai. Phương pháp
13
Laplacian cho phép xác định đường biên dựa vào giá trị 0 của đạo hàm bậc hai
của ảnh.
Laplacian của một ảnh tại điểm I(x,y) được tính theo:
𝐿(𝑥, 𝑦) =
," 2
,$ "
+
," 2
(1.10)
,* "
Laplacian được kết hợp với bộ lọc làm mịn ảnh để tìm biên. Xét công thức
sau:
ℎ(𝑟) = −𝑒
$"
"%"
"
(1.11)
Ở đây 𝑟 " = 𝑥 " + 𝑦 " và 𝜎 là độ lệch chuẩn (standard deviation). Nếu thực
hiện phép tích chập của hàm này với ảnh cần tìm biên, kết quả là ảnh sẽ bị mờ đi,
mức độ mờ phụ thuộc vào giá trị của 𝜎. Laplacian của h tức đạo hàm bậc hai của
h theo r là:
3 " "( "
∇' ℎ(𝑟) = − 2
(&
3𝑒
$"
"%"
"
(1.12)
Hàm này thường được gọi là Laplacian of a Gaussian (LoG).
Trong phương pháp này, bộ lọc Gaussian được kết hợp với Laplacian cho
phép hiển thị những vùng ảnh có cường độ thay đổi nhanh do đó làm tăng hiệu
quả phát hiện biên. Nó cho phép làm việc với một diện tích rộng hơn xung quanh
điểm ảnh đang được nghiên cứu nhằm phát hiện chính xác hơn vị trí của đường
biên. Nhược điểm của phương pháp này là không xác định được hướng của biên
do sử dụng hai bộ lọc Laplacian quá khác nhau có dạng như sau:
0
H# = 2 −1
0
−1
4
−1
0
−1
−14 H$ = 2−1
0
−1
−1
8
−1
−1
1
−14 H% = 2 −2
−1
1
−2
4
−2
1
−2 4
1
c. Kỹ thuật phát hiện biên Canny
Phương pháp này sử dụng hai mức ngưỡng cao và thấp. Ban đầu ta dùng
mức ngưỡng cao để tìm điểm bắt đầu của biên, sau đó chúng ta xác định hướng
phát triển của biên dựa vào các điểm ảnh liên tiếp có giá trị lớn hơn mức ngưỡng
thấp. Ta chỉ loại bỏ các điểm có giá trị nhỏ hơn mức ngưỡng thấp. Các đường biên
yếu sẽ được chọn nếu chúng được liên kết với các đường biên khỏe.
Đây là thuật toán tương đối tốt, có khả năng đưa ra đường biên mảnh, và phát
hiện chính xác điểm biên với điểm nhiễu.
Ta có thuật toán như sau:
14
- Xem thêm -