BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
TÊN ĐỀ TÀI:
NGHIÊN CỨU XÂY DỰNG VÀ PHÁT TRIỂN CÁC
THUẬT TOÁN NHẬN DẠNG CHỮ VIẾT TAY
Chuyên ngành: Kỹ thuật Điện tử
LUẬN VĂN THẠC SĨ KỸ THUẬT
Học viên: Nguyễn Duy Minh
Người hướng dẫn: TS. Nguyễn Hữu Phát
HÀ NỘI - 2018
MỤC LỤC
Lời cam đoan ............................................................................................................ 3
Danh mục các ký hiệu, các chữ viết tắt .................................................................. 4
Danh mục các bảng .................................................................................................. 5
Danh mục các hình vẽ, đồ thị .................................................................................. 6
MỞ ĐẦU ................................................................................................................... 8
CHƯƠNG 1: GIỚI THIỆU .................................................................................. 10
1.1. Mục tiêu .....................................................................................................10
1.2. Thách thức .................................................................................................10
1.3. Thực trạng triển khai..................................................................................10
1.4. Cấu trúc của luận văn.................................................................................11
CHƯƠNG 2: TỔNG QUAN VỀ NHẬN DẠNG NÓI CHUNG ........................ 12
2.1. Giới thiệu về nhận dạng nói chung ............................................................12
2.1.1. Nhận dạng mẫu..................................................................................12
2.1.2. Quy trình nhận dạng mẫu ..................................................................14
2.1.3. So sánh giữa các phương thức phân loại ...........................................20
2.2. Giới thiệu về nhận dạng chữ viết tay .........................................................21
2.2.1. Nhận dạng chữ in ..............................................................................24
2.2.2. Nhận dạng chữ viết tay......................................................................25
2.3. Các ứng dụng dựa trên nhận dạng chữ viết tay .........................................27
2.4. Kết luận chương .........................................................................................30
CHƯƠNG 3: THUẬT TOÁN NHẬN DẠNG CHỮ VIẾT TAY ....................... 31
3.1. Tiền xử lý ảnh ............................................................................................31
3.1.1. Chuyển ảnh màu sang ảnh xám .........................................................32
1
3.1.2. Làm mờ ảnh.......................................................................................33
3.1.3. Lọc ảnh sau khi làm mờ ....................................................................35
3.1.4. Nhị phân hóa .....................................................................................37
3.1.5. Lọc ảnh sau khi nhị phân...................................................................38
3.2. Phân tách từ ngữ thành các chữ cái riêng rẽ ..............................................39
3.3. Thuật toán nhận dạng các chữ cái riêng rẽ ................................................42
3.3.1. Chuẩn hóa ảnh ...................................................................................42
3.3.2. Trung tâm hóa đối tượng trong ảnh...................................................42
3.3.3. Nhận dạng các chữ cái ......................................................................44
3.4. Kết luận chương .........................................................................................58
CHƯƠNG 4: MÔ PHỎNG ĐÁNH GIÁ KẾT QUẢ .......................................... 59
4.1. Thiết lập .....................................................................................................59
4.1.1. Xây dựng chương trình .....................................................................59
4.1.2. Lấy mẫu chữ viết tay .........................................................................65
4.2. Kết quả mô phỏng ......................................................................................68
4.3. Nhận xét và đánh giá kết quả mô phỏng....................................................72
4.4. Kết luận chương .........................................................................................73
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN CỦA ĐỀ TÀI ................................... 74
TÀI LIỆU THAM KHẢO ..................................................................................... 75
PHỤ LỤC ............................................................................................................... 77
2
Lời cam đoan
Tôi xin cam đoan các kết quả nghiên cứu trong luận văn là của riêng tôi và
chưa được công bố trong bất kì công trình nghiên cứu nào.
Hà nội, ngày 03 tháng 03 năm 2018
Học viên
Nguyễn Duy Minh
3
Danh mục các ký hiệu, các chữ viết tắt
Số thứ tự Ký hiệu, viết tắt
Tên đầy đủ
Giải thích
1
SVM
Support Vector Machine Máy vector hỗ trợ
2
ART
Adaptive Resonance
Lý thuyết cộng hưởng
Theory
thích nghi
Fuzzy Invariant Vector
Vector bất biến mờ
3
FIV
4
Danh mục các bảng
Bảng 2-1: So sánh các phương pháp phân loại .........................................................21
Bảng 4-1: Kịch bản chạy chương trình đánh giá tham số số lượng nơ-ron lớp ấn ...69
Bảng 4-2: Kết quả đánh giá số nơ-ron lớp ẩn sau 10 lần chạy .................................69
Bảng 4-3: Kịch bản chạy chương trình đánh giá tham số hệ số học.........................70
Bảng 4-4: Kết quả đánh giá hệ số học qua 10 lần chạy ............................................70
Bảng 4-5: Kịch bản chạy chương trình đánh giá kích thước một đợt đầu vào .........71
Bảng 4-6: Kết quả đánh giá kích thước một đợt đầu vào sau 10 lần chạy................71
5
Danh mục các hình vẽ, đồ thị
Hình 2-1: Quy trình nhận dạng mẫu ảnh..................................................................12
Hình 2-2: a) Ảnh gốc b) Phân tách dựa trên năng lượng Fermi c) Phân tách sử
dụng phương thức Otsu d) Phân tách sử dụng thuật toán k-means [6] ....................15
Hình 2-3: Các đặc trưng của kịch bản ngôn ngữ [11] ..............................................23
Hình 2-4: Các phân vùng của nhận dạng chữ [15]...................................................24
Hình 2-5: Quy trình số hóa tài liệu [16] ...................................................................28
Hình 2-6: Ứng dụng Handwritting Input của Google [ảnh: Google] ......................28
Hình 2-7: Ứng dụng Smart Select của Samsung (gọi điện nhanh tới số được viết
tay) .............................................................................................................................29
Hình 3-1: Ví dụ về ảnh thô đầu vào .........................................................................32
Hình 3-2: Sơ đồ các bước tiền xử lý ảnh .................................................................32
Hình 3-3: Số chiều của ảnh sẽ giảm khi chuyển đổi sang ảnh xám .........................33
Hình 3-4: So sánh ảnh gốc và ảnh xám (a) ảnh gốc b) ảnh xám) ...........................33
Hình 3-5: Đồ thị hàm Gaussian ................................................................................34
Hình 3-6: So sánh làm mờ Gaussian và làm mờ trung bình ....................................35
Hình 3-7:Mô tả biến đổi hình thái học: a) ảnh gốc b) ảnh qua phép xói mòn c) ảnh
qua phép trương nở [14] ............................................................................................36
Hình 3-8: Tác dụng của hàm opening [14] ..............................................................36
Hình 3-9: Sử dụng hàm opening trong đề tài (a) ảnh sau làm mờ Gausian b) ảnh
sau opening) ..............................................................................................................37
Hình 3-10: Hoạt động của thuật toán Otsu [14] .......................................................38
Hình 3-11: Áp dụng thuật toán Otsu vào đề tài .......................................................38
Hình 3-12: Tác dụng của hàm closing [14]..............................................................39
Hình 3-13: Áp dụng hàm closing vào đề tài ............................................................39
Hình 3-14: Mô tả đường khung viền bao quanh các chữ cái trong ảnh ...................41
Hình 3-15: Các chữ cái được tách ra thành các ảnh riêng biệt ................................41
Hình 3-16: Co ảnh về kích thước 20x20 ..................................................................42
Hình 3-17: Minh họa trọng tâm của vật thể .............................................................43
6
Hình 3-18: Phương thức trung tâm hóa đối tượng trong ảnh ...................................44
Hình 3-19: Ví dụ chuỗi ký tự viết tay ......................................................................44
Hình 3-20: Mẫu dạy .................................................................................................45
Hình 3-21: Cách thức perceptron hoạt động [13] ....................................................46
Hình 3-22: Mạng perceptron nhiều lớp [13] ............................................................47
Hình 3-23: Phương thức học mạng [13] ..................................................................48
Hình 3-24: Đồ thị hàm sigmoid ...............................................................................49
Hình 3-25: Đồ thị hàm bước nhảy đơn vị ................................................................50
Hình 3-26: Kiến trúc mạng nơ-ron [13] ...................................................................51
Hình 3-27: Mạng nơ-ron sử dụng trong nhận dạng chữ viết tay .............................52
Hình 3-28: Đồ thị hàm C(v) có 2 biến .....................................................................53
Hình 3-29: Phương thức hoạt động của thuật toán gradient descent .......................56
Hình 4-1: Quy trình xử lý và chuẩn hóa ảnh ............................................................59
Hình 4-2: Mẫu giấy xin chữ .....................................................................................66
Hình 4-3: Hình ảnh mẫu thu thập được....................................................................67
Hình 4-4: Lưu trữ mẫu ảnh ......................................................................................67
Hình 4-5: Cơ sở dữ liệu ............................................................................................68
Hình 4-6: Các kết quả trung bình khi đánh giá số lượng nơ-ron lớp ẩn ..................69
Hình 4-7: Các kết quả khi đánh giá hệ số học .........................................................70
Hình 4-8: Các kết quả khi đánh giá kích thước một đợt đầu vào ............................72
7
MỞ ĐẦU
Trong thời gian gần đây, công nghệ phát triển mạnh mẽ đặc biệt trong lĩnh
vực trí thông minh nhân tạo. Thị giác máy tính là một lĩnh vực liên ngành giải quyết
việc làm thế nào để máy tính có thể đạt được sự hiểu biết cấp cao từ các ảnh và
video kỹ thuật số. Từ quan điểm kỹ thuật, nó tìm cách tự động hóa các tác vụ mà hệ
thống thị giác con người có thể làm. Thị giác máy tính bao gồm các phương thức
thu nhận, xử lý, phân tích và hiểu các ảnh kỹ thuật số, và trích xuất các dữ liệu đa
chiều từ thế giới thực để cho ra các thông tin số hoặc biểu tượng. Việc phát triển
lĩnh vực này trong bối cảnh từ việc sao chép khả năng thị giác của con người cho sự
nhận diện và hiểu biết một hình ảnh kỹ thuật số của máy tính. Các lĩnh vực con của
thị giác máy tính bao gồm tái cấu trúc cảnh, phát hiện sự kiện, theo dấu trong video,
nhận dạng đối tượng, nhận dạng mẫu, ước lượng cử chỉ 3 chiều, ước lượng chuyển
động, phục hồi ảnh,…
Xét về khía cạnh khác, nhận dạng mẫu cũng là một ngành thuộc lĩnh vực học
máy. Nó nhằm phân loại dữ liệu (là các mẫu) dựa trên hoặc là kiến thức tiên nghiệm
hoặc là thông tin thống kê được trích rút từ ác mẫu có sẵn. Trong đó, nhận diện chữ
viết tay cung cấp cho máy tính khả năng phân tích và xác định các ký tự. Đây là
hướng phát triển rất có ý nghĩa và tiềm năng khi mà có thể ứng dụng trong một số
lĩnh vực như: số hóa tài liệu, đọc địa chỉ bưu cục, giúp ra lệnh rô bốt hỗ trợ con
người (đặc biệt với người khuyết tật) và nói chung là giúp chuyển đổi thông tin từ
dạng ảnh số sang dạng văn bản (text). Từ suy nghĩ đó, tôi chọn nghiên cứu và thực
hiện đề tài: “Nghiên cứu xây dựng và phát triển các thuật toán nhận dạng chữ viết
tay”, và đối tượng được sử dụng trong nghiên cứu để xác định độ chính xác của
thuật toán là chữ viết tay trên giấy trắng.
Trong luận văn này, các thuật toán nhận dạng chữ viết tay sẽ trược trình bày,
từ việc phân tách chữ, tiền xử lý, chuẩn hóa đến nhận dạng ký tự. Các kết quả mô
phỏng, kiểm thử cũng được đề cập cùng với các sự so sánh khi thiết lập các thông
số cho mạng nơ-ron sử dụng để nhận dạng ký tự.
8
Dưới sự hướng dẫn của thầy TS. Nguyễn Hữu Phát tôi xây dựng và phát
triển các thuật toán nhận dạng chữ viết tay. Tổng quan về nhận dạng, thực trạng
triển khai hay những cơ sở lý thuyết, các thuật toán và kết quả đạt được, cũng như
những đánh giá cải tiến sẽ được trình bày trong luận văn trong những phần kế tiếp
Tôi xin chân thành cảm ơn thầy TS. Nguyễn Hữu Phát đã giúp đỡ và chỉ dẫn
cho tôi để tôi có thể hoàn thành luận văn này. Tôi cũng cảm ơn gia đình, bạn bè đã
luôn ủng hộ giúp đỡ, động viên tôi trong quá trình nghiên cứu cũng như thực hiện
luận văn này.
9
CHƯƠNG 1: GIỚI THIỆU
1.1. Mục tiêu
Với những tiềm năng phát triển của học máy, thị giác máy tính, cụ thể hơn là
nhận dạng mẫu, mục tiêu của đề tài là khai thác một nhánh nhỏ trong bài toán nhận
dạng. Đó là nhận dạng chữ, ký tự viết tay. Đề tài tập trung vào nghiên cứu và phát
triển các thuật toán nhận dạng chữ viết tay. Thông tin sẽ được chuyển qua dạng số
bằng việc sử dụng camera chụp lại các chữ viết tay. Sau đó các ảnh thu được sẽ
được xử lý và đưa vào nhận dạng để được thông tin dưới dạng văn bản (text).
1.2. Thách thức
Việc xác định và trích xuất thông tin viết tay vẫn là thách thức trong việc xử
lý quét. Lý do của những thách thức này có rất nhiều, khách quan cũng như chủ
quan đối với người viết:
Chất lượng giấy kém
Chất lượng máy ảnh kém
Chữ viết bị nghiêng quá nhiều
Độ dày nét bút không đều nhau
Các chữ cái nối với nhau
Thậm chí có những chữ cái có thể viết gần giống nhau như ‘e’ với ‘c’, ‘l’,
‘r’ với ‘v’.
Ngoài ra, thiếu các cơ sở dữ liệu mẫu, phải tự xây dựng.
1.3. Thực trạng triển khai
Vì phải đối mặt với rất nhiều thách thức, nên thực trạng triển khai không
nhiều trên thế giới cũng như trong nước. Các bài toán nhận dạng chữ chủ yếu khai
thác văn bản chữ in với độ chính xác rất cao, ví dụ như phần mềm FineReader 14
của ABBYY hỗ trợ đến 192 ngôn ngữ, hỗ trợ rất nhiều định dạng khác nhau. Ở Việt
Nam cũng có phần mềm nhận dạng chữ Việt của phòng nhận dạng và công nghệ tri
10
thức – Viện công nghệ thông tin Hà Nội. Phần mềm VnDOCR 4.0 nhận dạng chữ in
từ nhiều loại sách báo, định dạng (BMP, GIF, JPG,…) với độ chính xác khoảng
98%.
Tuy nhiên chữ viết tay vẫn còn là thách thức rất lớn khi phải phụ thuộc rất
nhiều vào người viết.
1.4. Cấu trúc của luận văn
Với những yêu cầu và mục tiêu đã đề ra ở trên, cấu trúc của luận văn sẽ bao
gồm các nội dung sau đây:
Chương 1: Giới thiệu
Chương 2: Tổng quan về nhận dạng nói chung
Chương 3: Thuật toán nhận dạng chữ viết tay
Chương 4: Mô phỏng đánh giá kết quả
11
CHƯƠNG 2: TỔNG QUAN VỀ NHẬN DẠNG NÓI
CHUNG
2.1. Giới thiệu về nhận dạng nói chung
2.1.1. Nhận dạng mẫu
Nhận dạng mẫu đang trở thành phổ biến và quan trọng với chúng ta, nó đem
lại sự hấp dẫn, chú ý từ các lĩnh vực rộng hơn. Các bước xử lý chung của nhận
dạng mẫu được thảo luận, đầu tiên là từ bước tiền xử lý, sau đó là trích xuất đặc
trưng, và cuối cùng là phân loại. Một số phương pháp đã được sử dụng cho mỗi
bước chẳng hạn như phân đoạn, loại bỏ nhiễu trong tiền xử lý, biến đổi wavelet
Gabor cho trích xuất đặc trưng, Support Vector Machines (SVM) cho phân loại,…
Một vài phương pháp nhận dạng mẫu và ứng dụng của nó sẽ được trình bày.
Tiền xử lý
Trích xuất đặc trưng
Phân loại
Hình 2-1: Quy trình nhận dạng mẫu ảnh
Nhận dạng mẫu có thể được coi như là một tiến trình phân loại. Mục tiêu
cuối cùng của nó là trích xuất các mẫu dựa trên một số điều kiện nhất định và sau
đó phân biệt một nhóm từ các nhóm khác. Ứng dụng của nhận dạng mẫu có thể tìm
thấy ở mọi nơi, ví dụ như: phân loại bệnh tật, kiểm duyệt dấu vân tay, nhận diện
giọng nói, nhận diện khuôn mặt, ... Thiết kế một hệ thống nhận dạng mẫu nên xem
xét miền ứng dụng của nó.
Tiền xử lý ảnh là một bước quan trọng trong tất cả các hệ thống nhận dạng
mẫu để cải thiện hiệu suất. Nó có vai trò trích xuất lấy vùng cần thiết từ ảnh nền, áp
dụng thêm các thuật toán lọc nhiễu, làm trơn mịn, chuẩn hóa ảnh về dạng ít phụ
thuộc vào thay đổi của môi trường nhất.
Trích xuất đặc trưng là bước quan trọng trong nhận dạng mẫu bất biến. Nói
chung, một đặc trưng tốt phải thỏa mãn các yêu cầu sau đây. Một, sự sai khác trong
12
một nhóm (class) phải nhỏ, điều đó có nghĩa là đặc trưng có được từ các mẫu khác
nhau trong cùng một nhóm phải càng gần giống nhau. Hai, sự sai khác giữa các
nhóm khác nhau phải lớn, đặc trưng lấy từ các mẫu trong các nhóm khác nhau phải
khác biệt đáng kể. Vấn đề chính liên quan đế nhận dạng mẫu là số chiều của dữ
liệu. Có hai lý do giải thích cho việc số chiều của vector đặc trưng không thể quá
lớn: độ phức tạp tính toán sẽ cao, và hiệu năng sẽ giảm. Đề giảm chiều của vector
đặc trưng có hai cách tiếp cần khác nhau. Một là loại bỏ các thành phần nhất định
và giữ nguyên phần đại diện ý nghĩa nhất, gọi là chọn đặc trưng. Một cách khác là
trích xuất đặc trưng, mà ở đó vector đặc chưng sẽ được biến đổi sang một dạng khác
có số chiều nhỏ hơn. Hơn nữa, ở những hệ thống tốt, đặc trưng không nên phụ
thuộc vào kích thước, hướng và vị trí của mẫu. Để làm được điều này chúng ta cần
sử dụng các phép dịch, xoay, co dãn giữ nguyên tỉ lệ. Việc chọn cách trích xuất đặc
trưng sao cho nó có tính phân biệt và độc lập là chìa khóa cho bài toán nhận dạng
thành công. Một số đặc trưng có thể được sử dụng: màu sắc, hình dạng, kích thước,
cấu tạo, vị trí, đường nét,…Bên cạnh đó cũng tồn tại rất nhiều thuật toán trích xuất
đặc trưng như phân tích thành phần chính không tuyến tính (tiếng Anh: nonliner
principal components analysis), phân tích thành phần chính (tiếng Anh: principle
components analysis), biến đổi Fourier (tiếng Anh: Fourier transform), biến đổi
Radon (tiếng Anh: Radon transform),…[4]
Sau bước trích xuất đặc trưng, việc phân loại được thực hiện. Bước này cho
phép chúng ta nhận diện một đối tượng hoặc một mẫu bằng sử dụng một vài đặc
trưng có được từ các bước trước đó. Trong đó chúng ta cố gắng gán mỗi giá trị đầu
vào của vector đặc trưng vào một lớp trong một tập các lớp được đưa ra. Lấy ví dụ
trong nhận diện khuôn mặt, khi xác định liệu rằng có khuôn mặt trong bức ảnh hay
không, vấn đề sẽ là phân loại một khuôn mặt hoặc không có khuôn mặt. Các lớp
hay nhóm là một tập các mẫu có các vector đặc trưng gần giống nhau. Nhận dạng
mẫu thông thường được phân loại theo kiểu học được sử dụng để sinh đầu ra trong
bước này. Học có giám sát (tiếng Anh: supervised learning) giả thiết rằng chúng ta
có một tập dữ liệu dạy được đánh nhãn tương ứng với đầu ra mong muốn. Thuật
13
toán học có giám sát phân tích dữ liệu dạy và tạo ra một hàm suy luận, hàm này
được sử dụng để ánh xạ một mẫu mới. Yêu cầu của thuật toán là tổng quát hóa dữ
liệu dạy để có thể dự đoán được những tình huống chưa gặp phải theo một cách hợp
lý nhất. Học không giám sát giả thiết rằng chúng ta có một tập dữ liệu dạy không
được đánh nhãn, và cố gắng tìm ra các mẫu cố hữu trong dữ liệu mà có thể sử dụng
được để xác định đầu ra đúng cho một dữ liệu đầu vào mới. Hai tác vụ có thể thực
hiện với học không giám sát là phân nhóm dữ liệu thành các nhóm mà ở đó có sự
tương đồng và giảm số chiều dữ liệu qua đó nén dữ liệu trong khi vẫn giữ được cấu
trúc và giá trị của dữ liệu. Các kỹ thuật phân loại có thể là Support Vector Machine
(SVM), mạng nơ-ron (Neural networks), K-nearest neighbor, Fuzzy ART, Markov
random file models, CLAss-Featuring Information Compressing (CLAFIC),…
2.1.2. Quy trình nhận dạng mẫu
Nhận dạng mẫu đã được phát triển trong nhiều năm nay. Nó bao gồm rất
nhiều các phương thức thúc đẩy sự phát triển của một loạt các ứng dụng trong các
lĩnh vực khác nhau. Các thành phần cơ bản trong nhận dạng mẫu là tiền xử lý, trích
xuất đặc trưng, và phân loại. Khi một tập dữ liệu được yêu cầu, nó được tiền xử lý
để mà phù hợp với các công đoạn sau đó. Bước tiếp theo mà trích xuất đặc trưng
chuyển đổi tập dữ liệu sang một tập các vector đặc trưng đại diện cho dữ liệu gốc.
Những đặc trưng này được sử dụng trong bước phân loại để phân biệt dữ liệu thành
các lớp khác nhau phụ thuộc vào bài toán.
2.1.2.1. Tiền xử lý
Như đã đề cập ở trên, tiền xử lý ảnh là bước rất được quan tâm trong mọi hệ
thống nhận dạng để cải thiện hiệu năng. Nó được sử dụng để giảm các biến thể và
tạo ra một bộ dữ liệu nhất quán hơn. Tiền xử lý ảnh có thể bao gồm lọc nhiễu, làm
trơn mịn, chuẩn hóa ảnh từ các điều kiện ánh sáng khác nhau. Ngoài ra, phân tách,
phân mảnh ảnh cũng được thực hiện trong giai đoạn này, tác dụng thông thường là
để xác định và khoanh vùng đối tượng. Qua đó, phân tách đối tượng là một cách
chuyển đổi ảnh sang một đại diện có ý nghĩa hơn và dễ dàng phân tích hơn. Trong
14
một số ứng dụng, việc phân tách các mẫu quan tâm trong ảnh gốc khỏi nền là rất
quan trọng.
Hình 2-2: a) Ảnh gốc b) Phân tách dựa trên năng lượng Fermi c) Phân tách sử
dụng phương thức Otsu d) Phân tách sử dụng thuật toán k-means [6]
Rất nhiều phương thức có thể sử dụng để phân tách ảnh, phương thức phân
tách dựa trên năng lượng Fermi (Fermi energy-based segmentation) cho chúng ta
khả năng xác định các vùng đặc biệt bằng sử dụng các thành phần màu sắc trong
ảnh, năng lượng tại mỗi điểm ảnh sẽ được tính toán và so sánh với một giá trị
ngưỡng. Bên cạnh đó còn có các phương thức Otsu, hay thuật toán k-means.
2.1.2.2. Trích xuất đặc trưng
Như đã đề cập trước đó, trích xuất đặc trưng được sử dụng để khắc phục vấn
đề số chiều quá lớn của tập mẫu đầu vào trong việc nhận dạng. Do đó, dữ liệu đầu
vào sẽ được chuyển đổi sang một dạng có số chiều ít hơn đại diện là các vector đặc
trưng. Chỉ những thông tin thích hợp từ dữ liệu đầu vào được trích xuất để làm đại
diện thay vì sử dụng dữ liệu gốc. Và hiện tay tồn tại rất nhiều phương thức giúp
thực hiện việc này.
15
Biến đổi Fourier
Biến đổi Fourier có khả năng phân tích tín hiệu trong miền tần số. Một sự
dịch chuyển của một hàm chiều hoặc hai chiều không ảnh hưởng đến độ lớn của hệ
số Fourier (thuộc tính dịch), nhưng một sự xoay của một hàm sẽ xoay sự biến đổi
Fourier một góc tương ứng (thuộc tính xoay). Nó được sử dụng để loại bỏ hiệu ứng
dịch vòng trong miền đặc trưng bằng việc lấy cường độ phổ của các hệ số Fourier
rồi sau đó trích xuất các vector đặc trưng không biến đổi theo chiều xoay[2].
Biến đổi Radon
Biến đổi Radon là một ánh xạ từ các tọa độ (x,y) trong hệ tọa độ Đề-các sang
khoảng cách và một góc hay còn gọi là tọa độ cực. Sử dụng biến đổi Radon trên
một ảnh đại diện bằng hàm f(x,y) cho một tập các góc có thể được coi là tính toán
sự chiếu xuống của hình ảnh dọc theo các góc đó. Các hình chiếu thu được là tổng
của cường độ các điểm ảnh theo mỗi hướng. Biến đổi này có thể bắt được hiệu quả
các đặc trưng hướng trong một mẫu ảnh bằng việc chiếu mẫu ảnh đó lên các mặt
định hướng khác nhau. Ngoài ra, biến đổi Radon cũng có thể được thực hiện trong
miền Fourier[2].
Biến đổi Gabor wavelet
Biến đổi Gabor wavelet là biến đổi được xây dựng dựa trên biến đổi wavelet,
có thể sử dụng cho trích xuất đặc trưng. Biến đổi này cung cấp giải pháp tối ưu cho
cả miền thời gian và miền tần số cho các phân tích thời gian-tần số. Biến đổi nãy
cũng có nền tảng tối ưu cho trích xuất các đặc trưng cục bộ cho nhận dạng mẫu và
nó có ba sự thúc đẩy: sinh học, toán học và thực nghiệm. Do sự tương đồng sinh
học với hệ thống thị giác con người, biến đổi Gabor wavelet được sử dụng rộng rãi
trong các ứng dụng nhận dạng đối tượng. Với một tập các Gabor wavelet được chọn
các tham số ban đầu, một cách tiếp cận thông thường để trích xuất đặc trưng là xây
dựng một vector đặc trưng bằng kết nối các thành phần bên trong của một bức ảnh
với mỗi wavelet. Thay vì tìm kiếm một tập các Gabor wavelet xấp xỉ ảnh đã cho,
16
chúng ta tìm các Gabor wavelet được hiệu chỉnh để phân biệt một đối tượng với
những đối tượng khác. Điều này làm giảm tính toán và bộ nhớ sử dụng. Các thuật
toán tăng tốc có thể được sử dụng để lựa chọn chỉ những Gabor wavelet thích hợp,
chúng có những mục tiêu trong lựa chọn một số lượng các phân loại yếu để tổng
hợp thành một phân loại mạnh mẽ hơn[5].
Vector bất biến mờ – Fuzzy invariant vector
Khi một vector đặc trưng bất biến được trích xuất, sau đó được chuyển đổi
sang vector bất biến mờ. Việc chuyển đổi này có thể tăng tính phân biệt và làm
giảm tác động của nhiễu tần số thấp. Vector bất biến mờ được tính toán sử dụng các
số mờ. Thông thường, phổ năng lượng của một mẫu đầu vào được tính toán với
biến đổi Fourier sẽ có rất ít các tần số chính, sẽ ảnh hưởng đến việc phân biệt các
mẫu. Với vector bất biến mờ, mọi sóng hài (tiếng Anh: harmonic) của một mẫu đầu
vào đều có phân bố tương tự nhau và một đặc trưng, cái cho sự phân biệt tốt hơn
vector bất biến gốc. Thêm vào đó, khi thêm nhiễu tần số thấp vào ảnh, một vài sóng
hài cho thấy giá trị cao hơn hoặc nhỏ hơn dải bình thường trong phổ năng lượng của
mẫu. Với một hàm mờ, năng lượng của mỗi hài của mẫu đầu vào được ánh xạ giống
hệt nhau đến một vài số mờ, những giá trị này được ánh xạ đến 1 hoặc 0. Do đó ảnh
hưởng của nhiễu tần số thấp được lược giảm đi.
2.1.2.3. Phân loại
Trong quá trình tiến hành phân loại, hệ thống sử dụng các đặc trưng đã trích
xuất trong giai đoạn trước từ mỗi mẫu để nhận dạng chúng và phân loại chúng vào
các lớp thích hợp. Bộ phân loại chứa các hiểu biết về mỗi loại mẫu, cũng như tiêu
chí, số liệu để phân biệt các mẫu về các lớp khác nhau, là các bộ phân loại thuộc
nhóm học có giám sát. Loại học không có giám sát, ở đó các tham số được thay đổi
thích nghi bằng việc chỉ sử dụng thông tin của đầu vào, ràng buộc bởi các quy luật
nội bộ được quy định trước, các bộ phân loại thuộc loại này cố gắng tìm các mẫu cố
hữu trong dữ liệu có thể sử dụng được để tìm đầu ra đúng khi đầu vào là mới.
17
Lý thuyết cộng hưởng thích nghi mờ - Fuzzy ART
Mạng nơ-ron lý thuyết cộng hưởng thích nghi mở có thể được sử dụng như
một bộ phân loại vector không có giám sát. Lý thuyết cộng hưởn thích nghi mờ
tương thích với bộ não con người trong việc xử lý thông tin, nó có khả năng học và
nhớ một lượng lớn các khái niệm theo cách thức mà không nhất thiết dẫn tới sự tồn
tại những thứ sẽ bị lãng quên. Lý thuyết cộng hưởng thích nghi mờ có khả năng
phân loại các vector đầu vào giống nhau. Ngoài ra nó có thể thích nghi tạo ra một
cái mới tương ứng với một mẫu đầu vào nếu nó không giống với bất kỳ loại hiện có
nào. ART1 là mô hình đầu tiên của ART có thể học ổn định làm thế nào để phân
loại mẫu đầu vào nhị phân được thể hiện theo trình tự tùy ý. Lý thuyết các tập mờ
có thể bắt chước quá trình suy nghĩ sâu, rộng của con người. Do đó mô hình lý
thuyết cộng hưởng mờ kết hợp các tính toán từ lý thuyết tập mờ vào mạng nơ-ron
ART1, có khả năng học nhanh với những chuỗi tùy ý của các mẫu đầu vào là tương
tự hoặc nhị phân. Ngưỡng nhận dạng là một tham số ảnh hưởng đến hiệu năng của
Fuzzy ART, nó được đánh giá qua tỉ lệ nhận dạng. Sự kết hợp Fuzzy ART và Vecto
bất biến mờ (FIV) mang lại hiệu quả cao.
Mạng nơ-ron
Cách tiếp cận mạng nơ-ron áp dụng các khái niệm sinh học vào trong máy
tính để nhận dạng mẫu. Đây là một công cụ mạnh có hiệu năng cao trong bài toán
nhận dạng. mạng nơ-ron nhân tạo được xây dựng dựa trên những hiểu biết về sinh
lý của bộ não con người. Mạng nơ-ron bao gồm một loạt các đơn vị liên kết khác
nhau, nó là một ánh xạ giữa tập đầu vào và tập đầu ra. Vì vấn đề phân loại là ánh xạ
từ không gian đặc trưng đến một vài tập đầu ra, chúng ta có thể chính thức hóa
mạng nơ-ron, đặc biệt mạng nơ-ron hai lớp là một bộ phân loại. Mặc dù phương
pháp thông thường là chọn một mạng tốt nhất trong số các mạng ứng viên, tuy
nhiên cách tiếp cận tốt hơn là giữ nhiều mạng và chạy chúng với một chiến lược
thích hợp. Nhiều mạng kết hợp cho kết quả cao hơn. Ý tưởng cơ bản của việc sử
dụng nhiều mạng là để phát triển N mạng nơ-ron được dạy độc lập với các đặc
18
trưng liên quan và để phân loại một mẫu đầu vào bằng sử dụng kết hợp các phương
pháp để phân loại tập hợp. Một phương thức lai có thể được sử dụng để kết hợp các
mạng, cung cấp một phương tiện hiệu quả để xác định các tham số trọng số tối ưu,
sau đó nhân với đầu ra của mạng (được coi như các hệ số). Nó xem xét sự khác
nhau hiệu năng giữa các mạng để tổ hợp các mạng. Nơ-ron có giá trị lớn nhất sẽ
tương ứng với lớp phân loại. hai cách tiếp cận chung cho tổ hợp nhiều mạng nơ-ron
là kỹ thuật tổng hợp nơi mà việc phân loại một giá trị đầu vào phụ thuộc vào một
tập các phép đo giá trị trực; hoặc kỹ thuật bỏ phiếu xem xét kết quả của mỗi mạng
như là đánh giá của chuyên gia.
Trường ngẫu nhiên Markov
Các mô hình trường ngẫu nhiên Markov có bản chất đa chiều, để nhận dạng
mẫu, chúng tổ hợp các thông tin thống kê và thông tin cấu trúc. Các trạng thái được
sử dụng để mô hình các thông tin thống kê và các mối quan hệ giữa các trạng thái
được sử dụng để đại diện cho thông tin về cấu trúc. Chỉ các tập trạng thái tốt nhất
nên được xem xét. Các hàm năng lượng toàn cục hợp lý nhất có thể được viết lại
với hai phần, một được sử dụng để mô hình thông tin cấu trúc (thông tin được bô tả
bởi mối quan hệ giữa các trạng thái), phần còn lại mô hình thông tin thống kê bởi vì
nó là xác suất đầu ra của một quan sát và trạng thái. Quá trình nhận dạng là để tối
hiểu hóa hàm năng lượng hợp lý (likelihood energy function), hàm tổng của các
hàm đơn[1].
Máy vector hỗ trợ - Support vector machine
Bộ phân loại máy vector hỗ trợ (SVM) đã được chứng minh là rất thành công
trong nhiều ứng dụng. Sức mạnh của SVM là khả năng xử lý không chỉ dữ liệu có
thể phân chia tuyến tính mà còn dữ liệu có thể phân chia không tuyến tính bằng sử
dụng các hàm hạt nhân (kernel functions). Hàm hạt nhân có thể ánh xạ các mẫu dạy
trong không gian đầu vào tới một không gian đặc trưng để mà các mẫu dạy được
ánh xạ này là có thể phân chia tuyến tính. Các hạt nhân SVM được sử dụng thường
19
- Xem thêm -