ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
NGUYỄN NGỌC TUẤN
NHẬN DẠNG CHỮ CHO ẢNH MÀU THƯƠNG HIỆU
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
Hà Nội - 2015
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
NGUYỄN NGỌC TUẤN
NHẬN DẠNG CHỮ CHO ẢNH MÀU THƯƠNG HIỆU
Ngành: Công nghệ thông tin
Chuyên ngành: Khoa Học Máy Tính
Mã số: 60480101
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. LÊ THANH HÀ
Hà Nội - 2015
Lời cam đoan
Tôi xin cam đoan đây là phần nghiên cứu và thực hiện khóa luận của riêng tôi, dưới sự
hướng dẫn của TS Lê Thanh Hà, không sao chép từ các công trình nghiên cứu khác. Tôi
đã trích dẫn đầy đủ các tài liệu tham khảo, các công trình nghiên cứu liên quan ở trong
nước và quốc tế. Nếu sai tôi xin chịu hoàn toàn trách nhiệm và chịu mọi kỷ luật của
ĐHQG Hà Nội và Nhà trường.
Hà Nội, ngày 22 tháng 6 năm 2015
Học viên ........................................................................
2
Lời cảm ơn
Lời đầu tiên em xin bày tỏ lòng biết ơn sâu sắc tới TS. Lê Thanh Hà,
người đã hướng dẫn em tận tình trong suốt quá trình học tập, nghiên cứu
và viết luận văn. Đồng thời giúp em lựa chọn hướng đi cho riêng mình.
Một lần nữa em xin được nói lời cảm ơn với Thầy.
Em xin bày tỏ lòng biết ơn tới các thầy cô giáo trong Khoa Công Nghệ
Thông Tin - Đại Học Công Nghệ - ĐHQGHN. Các thầy cô đã dạy bảo,
chỉ dẫn chúng em và luôn tạo điều kiện tốt nhất cho chúng em trong quá
trình học tập, đặc biệt trong thời gian làm luận văn tốt nghiệp.
Em xin cảm ơn các anh chị em lớp K17KHMT trường Đại Học Công
Nghệ và các anh chị em trong lớp KHMT, đã giúp đỡ em trong suốt quá
trình học tập.
Cuối cùng con xin gửi tới bố mẹ và toàn thể gia đình lòng biết ơn và
tình cảm yêu thương
Hà Nội ngày 22 tháng 6 năm 2015
Nguyễn Ngọc Tuấn
3
MỞ ĐẦU
Nhận dạng chữ in nói chung và nhận dạng chữ in trên ảnh màu là những
bài toán có nhiều ứng dụng trong thực tế và thu hút được nhiều sự quan
tâm nghiên cứu. Máy tính tự động nhận dạng, xử lý ảnh đầu vào tạo ra
các dữ liệu văn bản phục vụ lưu trữ, tìm kiếm, phân tích... Nhờ đó giúp
chúng ta tiết kiệm chi phí, thời gian, công sức so với nhập liệu thủ công.
Ngày nay, dưới sự cạnh tranh mạnh mẽ về kinh tế, việc xây dựng hình
ảnh doanh nghiệp và truyền tải đến người tiêu dùng ngày càng trở nên
quan trọng. Ảnh thương hiệu (logo) là một phần không thể thiếu của quá
trình này, và luôn được bổ sung vào cơ sở dữ liệu về các doanh nghiệp.
Để khai thác thông tin ảnh thương hiệu trong các cơ sở dữ liệu, có thể
dựa vào hai thành phần chính: phần hình ảnh và phần chữ (text). Trong
đó, phần text có thể chứa nhiều thông tin hữu ích như tên sản phẩm, tên
doanh nghiệp, khẩu hiệu (slogan)..., phục vụ đắc lực cho việc tìm kiếm,
phân tích, lưu trữ... Phương pháp được đề cập trong luận văn này nhằm
giải quyết vấn đề trích xuất dữ liệu text từ ảnh thương hiệu một cách tự
động, nâng cao độ chính xác và giảm thiểu chi phí cho hoạt động nhập
liệu.
Quan sát một số cơ sở dữ liệu ảnh thương hiệu, có thể thấy ảnh thương
hiệu chỉ bao gồm thông tin dạng văn bản (text) chiếm một phần đáng kể,
và có thể giải quyết bằng phương pháp nhận dạng chữ thông thường. Tuy
nhiên, một phần không nhỏ ảnh màu thương hiệu ngoài text thường có các
yếu tố hình họa đi kèm, chính sự nhập nhằng giữa vùng chữ in và vùng
hình họa làm sự khó khăn khi trích xuất text tăng lên rất nhiều so với nhận
dạng chữ in trên ảnh xám truyền thống. Để giải quyết vấn đề đó, luận văn
đã đề xuất giải pháp kết hợp giữa phương pháp grayscale và phân đoạn
ảnh cải tiến, dựa trên chính sự khác biệt về màu sắc và cảm nhận của mắt
người, một nguyên tắc thường thấy trong thiết kế ảnh màu thương hiệu.
Bài toán nhận dạng chữ in trên ảnh màu gồm ba công đoạn chủ yếu:
tiền xử lý, nhận dạng kí tự và hậu xử lý. Trong luận văn này tập trung
chủ yếu vào giai đoạn tiền xử lý, cụ thể là quá trình grayscale và phân
đoạn ảnh, nhằm đưa ra những cải tiến để cải thiện độ chính xác của kết
quả nhận dạng sau cùng. Đồng thời cũng sử dụng máy nhận dạng văn bản
Tesseract để xây dựng thành một hệ thống hoàn chỉnh.
Trong phần thực nghiệm của luận văn, chúng tôi tiến hành nhận dạng
4
chữ in trên ảnh màu thương hiệu với nhiều kích cỡ chữ, font chữ và màu
sắc khác nhau. Kết quả sau cùng của hệ thống nhận dạng chữ in được cải
thiện rõ rệt khi so sánh với các phương pháp phân đoạn khác và hệ thống
nhận dạng hiện tại.
Từ khóa: Nhận dạng chữ in, ảnh thương hiệu màu, biểu đồ Histogram,
phân đoạn ảnh, nhị phân hóa.
5
Mục lục
1 TỔNG QUAN
1.1 Đặt vấn đề . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2 Nội dung nghiên cứu của luận văn . . . . . . . . . . . . . .
1.3 Cấu trúc luận văn . . . . . . . . . . . . . . . . . . . . . . .
10
10
10
11
2 Cơ
2.1
2.2
2.3
2.4
2.5
2.6
2.7
.
.
.
.
.
.
.
13
13
15
17
17
18
20
21
. . . . .
. . . . .
. . . . .
. . . . .
tự động
. . . . .
24
24
28
28
29
29
30
4 Thực nghiệm và đánh giá
4.1 Môi trường thực nghiệm . . . . . . . . . . . . . . . . . . .
4.2 Thực nghiệm về phân đoạn ảnh . . . . . . . . . . . . . . .
4.3 Thực nghiệm nhận dạng . . . . . . . . . . . . . . . . . . .
33
33
33
35
5 Kết luận
38
sở lý thuyết cho phân đoạn ảnh
Ảnh màu thương hiệu . . . . . . . . . .
Không gian màu (color space) . . . . . .
Biểu đồ Histogram . . . . . . . . . . . .
Chuyển đổi ảnh màu sang ảnh mức xám
Phân đoạn ảnh . . . . . . . . . . . . . .
Một số phương pháp phân đoạn . . . . .
Máy nhận dạng văn bản Tesseract . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3 Phân đoạn ảnh màu thương hiệu
3.1 Pha 1: Chuyển đổi ảnh màu sang ảnh mức xám .
3.2 Pha 2: Phân đoạn ảnh phân cấp . . . . . . . . . .
3.2.1 Xác định khoảng cách cụm . . . . . . . . .
3.2.2 Hòa nhập cụm . . . . . . . . . . . . . . .
3.2.3 Thuật toán Arifin cải tiến lựa chọn ngưỡng
3.3 Pha 3: Nhận dạng ký tự . . . . . . . . . . . . . .
6
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Danh mục hình vẽ
2.1
2.2
2.3
2.4
2.5
Ảnh thương hiệu màu . . . . . . . . .
Không gian màu HSV . . . . . . . . .
Phân cụm phân ngưỡng trên Histogram
Ảnh gốc và vùng ảnh sau phân đoạn .
Cấu trúc của Tesseract . . . . . . . . .
.
.
.
.
.
14
16
18
19
22
3.1
3.2
Sơ đồ hệ nhận dạng ký tự cho ảnh màu thương hiệu . . . .
Chuyển đổi ảnh màu sang ảnh mức xám; (a): ảnh gốc, (b)
ảnh độ sáng, (c) ảnh mức xám áp dụng phương pháp của
Rasche, (d) ảnh mức xám áp dụng phương pháp của Mark
Ảnh màu thương hiệu . . . . . . . . . . . . . . . . . . . .
Ảnh mức xám sau khi biến đổi sử dụng phương pháp của
Mark . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
(a) Biểu đồ Histogram và quá trình hòa nhập cụm (b) . . .
Nhận dạng văn bản trên ảnh đã phân đoạn bằng Tesseract
25
3.3
3.4
3.5
3.6
4.1
4.2
4.3
4.4
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Ảnh thương hiệu sau phân đoạn áp dụng phương pháp Otsu
Ảnh thương hiệu sau phân đoạn bằng phương pháp phân
cấp Arafin . . . . . . . . . . . . . . . . . . . . . . . . . . .
Ảnh thương hiệu sau phân đoạn bằng phương pháp phân
cấp K-means . . . . . . . . . . . . . . . . . . . . . . . . .
Kết quả nhận dạng với các chỉ số RCR, RJR và ER cho mỗi
mô hình . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7
26
27
27
29
30
34
34
35
36
Danh mục bảng biểu
4.1
Bảng so sánh kết quả thực nghiệm . . . . . . . . . . . . .
8
37
Danh sách các từ viết tắt
OCR
RGB
HSV
CMYK
CIE
LAB
LA*B*
RCR
RJR
ER
NOIP
Optical Character Recognition
Red Green Blue
Hue Saturation Value
Cyan Magenta Yellow Key
International Commission on Illumination
Lightness a b
Lightness a* b*
Recognition rate
Rejection rate
Error rate
National Office of Intellectual Property
9
Chương 1
TỔNG QUAN
1.1
Đặt vấn đề
Nhận dạng kí tự quang học (OCR - Optical Character Recognition)
là quá trình chuyển đổi hình ảnh của văn bản thành văn bản máy tính.
Hiện nay, nhận dạng chữ in nói chung và nhận dạng chữ in trên ảnh màu
là những bài toán có nhiều ứng dụng trong thực tế, giúp tiết kiệm rất
nhiều các chi phí và thời gian cho việc nhập liệu. Trong một số điều kiện
thuận lợi, nhận dạng chữ in đạt độ chính xác rất cao cho các hệ chữ phổ
thông[12]. Tuy nhiên khi áp dụng ảnh màu, đặc biệt ảnh thương hiệu màu,
rất nhiều vấn đề khó khăn của bài toán vẫn chưa được giải quyết triệt để.
Vì vậy nhận được nhiều sự quan tâm nghiên cứu của con con người.
Để cải thiện kết quả nhận dạng, nhiều nghiên cứu đề cập đến nâng cao
chất lượng của giai đoạn tiền xử lý, nhằm cung cấp đầu vào tốt hơn cho
các giai đoạn nhận dạng tiếp theo. Một trong các khó khăn gặp phải là sự
nhập nhằng giữa các vùng văn bản và nền, gây ra sự sai lệch dữ liệu nhận
dạng và giảm độ chính xác chung toàn bộ quá trình. Thực nghiệm cho
thấy một số hệ nhận dạng mã nguồn mở đến thương mại như Tesseract
của Google[20], OmniPage của Nuance[21] gặp phải vấn đề tương tự.
Bài toán nhận dạng ký tự được thực hiện qua ba giai đoạn chính: Phân
đoạn ảnh, nhận dạng và hậu xử lý. Trong luận văn này tôi đi sâu vào cải
tiến công đoạn phân đoạn ảnh. Bên cạnh đó kết hợp modul nhận dạng
Tesseract để xây dựng thành một hệ thống nhận dạng văn bản hoàn thiện.
1.2
Nội dung nghiên cứu của luận văn
Bài toán nhận dạng ký tự được thực hiện qua ba giai đoạn chính: Phân
đoạn ảnh, nhận dạng và hậu xử lý. Luận văn này nghiên cứu lý thuyết cơ
bản về các kỹ thuật phân đoạn có sẵn, đồng thời đi sâu vào cải tiến và kết
hợp các phương pháp phân đoạn để đưa ra phương án có độ chính xác cao
10
nhất. Bên cạnh đó kết hợp modul nhận dạng Tesseract để xây dựng thành
một hệ thống nhận dạng văn bản hoàn thiện.
Phân đoạn là quá trình quan trọng của tiền xỷ lý. Đầu ra của quá
trình này có ảnh hưởng rất lớn đến độ chính xác các tiếp theo, cũng như
toàn hệ thống. Đối với ảnh màu thương hiệu, hai thành phần chính là
text và hình ảnh thường có sự kết hợp và đan xen lẫn nhau, việc phân
tách rõ ràng các thành phần này gặp nhiều trở ngại. Tuy nhiên các ảnh
thương hiệu màu vẫn có chung những nguyên tắc khi thiết kế có thể khai
thác như: sự tương phản và đồng nhất về màu sắc, sự ảnh hưởng màu
sắc lên thị giác con người, khả năng đơn giản hóa dễ nắm bắt... Luận văn
đã nghiên cứu đánh giá một số phương pháp được sử dụng trong phân
đoạn ảnh, và áp dụng vào bài toán nhận dạng chữ trên ảnh thương hiệu
màu, nhằm tách biệt vùng chứa text ra các lớp riêng biệt, từ đó đưa vào
máy nhận dạng có sẵn nhằm nâng khả năng nhận dạng. Trong giai đoạn
nhận dạng ký tự, máy nhận dạng Tesseract được đề xuất cho giai đoạn này.
Quá trình phân đoạn trải qua hai bước:
1. Biến đổi grayscale: đưa ảnh thương hiệu màu ban đầu (có các
điểm ảnh trong hệ màu RGB) sang ảnh mức xám. Mức xám (gray
level) của ảnh đích được tính toán dựa trên yếu tố màu sắc, thứ tự
độ sáng, sự liên tục đường nét...
2. Phân đoạn ảnh phân cấp: Sau khi đưa về ảnh mức xám, phân
đoạn ảnh phân cấp phân các điểm ảnh có mức xám tương đương
nhau về các cụm riêng biệt, từ đó tách ra các lớp để tạo ra ảnh đầu
vào của quá trình nhận dạng.
Sau khi trải qua các bước trên từ ảnh thương hiệu ban đầu ta thu được
các văn bản chứa text của ảnh. Việc đánh giá phương pháp trong luận văn
dựa trên 3 yếu tố: tỉ lệ kí tự nhận dạng đúng, tỉ lệ kí tự nhận dạng sai và
tỉ lệ kí tự không nhận dạng được so với kết quả từ mắt người.
1.3
Cấu trúc luận văn
Các phần còn lại của luận vặn có cấu trúc như sau:
Chương 2: trình bày cơ sở lý thuyết của phân đoạn ảnh, bao gồm các
khái niệm cơ bản, các kỹ thuật cơ bản được sử dụng trong chuyển đổi ảnh
màu về ảnh mức xám và phân đoạn ảnh.
Chương 3: trình bày chi tiết về phân đoạn ảnh cho ảnh thương hiệu
màu. Đồng thời đưa ra giải pháp tách ngưỡng tự động cho quá trình phân
11
đoạn, bao gồm các thuật toán hòa nhập cụm, xác định khoảng cách giữa
các cụm với nhau và lựa chọn tổng khoảng cách tối ưu các tập cụm.
Chương 3: trình bày về kết quả thực nghiệm của hệ thống nhận dạng
sau khi đã ghép nối các thành phần lại với nhau, đồng thời mô tả tập dữ
liệu đầu vào và môi trường thực nghiệm.
Chương 4: Kết luận.
12
Chương 2
Cơ sở lý thuyết cho phân
đoạn ảnh
2.1
Ảnh màu thương hiệu
Ảnh thương hiệu (hay còn được gọi logo, biểu trưng) là một yếu tố đồ
họa (kí hiệu, chữ biểu thị, biểu tượng, hình tượng...) kết hợp với cách thức
thể hiện để tạo thành hình ảnh đại diện cho một công ty hay các tổ chức
thương mại, nhãn hiệu, thương hiệu... nào đó. Nói cách khác, ảnh thương
hiệu được tạo ra nhằm ấn tượng bên ngoài giúp dễ dàng nhận ra thương
hiệu, đồng thời gợi lên tất cả những thông tin và trông đợi gắn với sản
phẩm hoặc dịch vụ có thương hiệu đó.
Thông thường, ảnh thương hiệu phải được đảm bảo một số yêu cầu
sau:
-Nội dung: gồm hai phần chính là hình họa (phần không đọc được)
và text (phần đọc được). Phần không đọc được bao gồm những yếu tố
không đọc được mà chỉ có thể cảm nhận được bằng thị giác như hình vẽ,
biểu tượng (hình bông sen của Vietnam Airlines), màu sắc (màu xanh của
Nokia, đỏ của Coca-Cola, hay kiểu dáng thiết kế, bao bì (kiểu chai bia
Henniken) và các yếu tố nhận biết (bằng mắt) khác. Phần đọc được bao
gồm những yếu tố có thể đọc được, tác động vào thị giác con người như
tên công ty, doanh nghiệp (ví dụ như: Gateway, PGrand, 3M...), tên sản
phẩm (555, Coca-Cola...), câu khẩu hiệu, đặc trưng... Thông thường, ảnh
thương hiệu kết hợp cả hai thành phần với nhau để tăng khả năng nhận
dạng và truyền tải thông tin. Một số ảnh thương hiệu lại sử dụng chính
hình ảnh cách điệu của phần đọc được để giảm bớt số lượng chi tiết trong
ảnh. Phần còn lại chỉ sử dụng một trong hai thành phần chính để tạo nên
ảnh thương hiệu.
-Màu sắc: Màu sắc thường đơn giản, dễ dàng nhận thấy và ghi nhớ.
Thông thường khi thiết kế có thể ưu tiên vẽ màu trắng và đen, sau đó
13
Hình 2.1: Ảnh thương hiệu màu
đến các màu sắc nổi bật có thể đặt cạnh nhau như vàng-đỏ, xanh lá-đỏ...
Thực tế số lượng màu sắc trong ảnh thương hiệu thường bị hạn chế để dễ
ghi nhớ, đôi khi chỉ bao gồm các văn bản với hai màu đen và trắng. Các
thương hiệu nổi tiếng chỉ sử dụng một hoặc hai màu cơ bản như màu vàng
của Kodak, McDonanld, màu xanh da trời của IBM, hay màu đỏ của Coca
Cola.
-Sự khác biệt: có những dấu hiệu đặc biệt gây ấn tượng thị giác mạnh,
dễ phân biệt. Đây là chức năng quan trọng của biểu trưng, giúp phân biệt
thương hiệu hay sản phẩm với thương hiệu hay sản phẩm cạnh tranh. Sự
khác biệt cũng làm cho thương hiệu dễ đi vào tâm trí của khách hàng hơn.
Thông thường, để tạo sự khác biệt, ảnh thương hiệu tránh sử dụng những
hình cơ bản, phổ biến và được dùng nhiều.
-Hình dáng: thường tạo khả năng dễ chấp nhận, dễ suy diễn, đơn giản
và dễ nhớ. Trong một khoảng thời gian quan sát ngắn là người xem có
thể hình dung lại đường nét biểu trưng trong trí nhớ. Trong bối cảnh rất
nhiều sản phẩm cạnh tranh cùng được khuếch trương trên các phương tiện
thông tin đại chúng, biểu trưng của thương hiệu sẽ không được khách hàng
biết đến nếu nó phức tạp và khó nhớ, dù là bằng tên gọi, ký hiệu hay chữ
viết. Hầu hết các thương hiệu nổi tiếng thế giới đều sử dụng những dấu
hiệu thương hiệu rất đơn giản. Các ví dụ thường thấy như Kodak sử dụng
chữ K được viết cách điệu, McDonald sử dụng chữ M hình cánh cổng màu
vàng, Nike sử dụng nét phết, IBM sử dụng tên thượng hiệu viết cách điệu.
14
-Khả năng thích nghi: có khả năng thích nghi trong các thị trường
thuộc khu vực khác nhau, các nền văn hoá hay ngôn ngữ khác nhau. Trên
thực tế, khách hàng ở các nước khác nhau, có nền văn hoá khác nhau và
ngôn ngữ khác nhau, vì vậy họ thường có cách hiểu khác nhau đối với các
hình ảnh hay ký hiệu. Do đó các biểu trưng thương mại quốc tế ít dùng
hình ảnh mang ý nghĩa sẵn có theo một nền văn hoá hay ngôn ngữ nào
mà sử dụng những hình ảnh mới rồi gắn chúng với các liên tưởng về sản
phẩm.
-Ý nghĩa: biểu thị được những nét đặc trưng cho sản phẩm hay các
chủ đề liên quan. Thực tế là những biểu trưng có ý nghĩa tự thân về sản
phẩm lại thường không tạo nên cảm giác khác biệt. Hơn nữa, sản phẩm
ngày nay thường quá phức tạp khiến tên gọi hay hình ảnh có ý nghĩa thì
lại khó khác biệt, dễ nhớ và đảm bảo tính tượng trưng. Cho nên trong thực
tế tính ý nghĩa này thường được tạo ra qua các liên tưởng về thương hiệu
hơn là tự thân thương hiệu.
2.2
Không gian màu (color space)
Không gian màu là một mô hình toán học dùng để mô tả các màu sắc
trong thực tế được biểu diễn dưới dạng số học. Trong thực tế có rất nhiều
không gian màu khác nhau được mô hình để sử dụng vào những mục đích
khác nhau. Các không gian màu cơ bản và sử dụng trong luận văn gồm có
hệ không gian màu RGB, HSV và CMYK.
Không gian màu RGB
RGB là không gian màu rất phổ biến được dùng trong đồ họa máy tính
và nhiều thiết bị kĩ thuật số khác. Ý tưởng chính của không gian màu này
là sự kết hợp của 3 màu sắc cơ bản : màu đỏ (R, Red), xanh lục (G, Green)
và xanh lơ (B, Blue) để mô tả tất cả các màu sắc khác.
Nếu như một ảnh số được mã hóa bằng 24bit, trong đó 8 bit cho kênh R,
8 bit cho kênh G, 8 bit cho kênh B, thì mỗi kênh này màu này sẽ nhận giá
trị từ 0-255. Với mỗi giá trị khác nhau của các kênh màu kết hợp với nhau
ta sẽ được một màu khác nhau, ví dụ: màu đen là sự kết hợp của các kênh
màu (R, G, B) với giá trị tương ứng (0, 0, 0) màu trắng có giá trị (255, 255,
255), màu vàng có giá trị (255, 255, 0), màu tím đậm có giá trị (64, 0, 128)...
Không gian màu CMYK
CMYK là không gian màu được sử dụng phổ biến trong ngành công
nghiệp in ấn. Ý tưởng cơ bản của hệ không gian này là dùng 4 màu sắc cơ
bản để phục vụ cho việc pha trộn mực in. Trong thực tế, người ta dùng 3
15
Hình 2.2: Không gian màu HSV
màu là C (Cyan, xanh lơ), M (Magenta, hồng sẫm), và Y (Yellow, vàng)
để biểu diễn các màu sắc khác nhau. Nếu lấy màu hồng sẫm cộng với vàng
sẽ ra màu đỏ, màu sẫm kết hợp với xanh lơ sẽ cho xanh lam ... Sự kết hợp
của 3 màu trên sẽ cho ra màu đen, tuy nhiên màu đen ở đây khôn phải là
đen tuyệt đối và thường có độ tương phản lớn, nên trong ngành in, để tiết
kiệm mực in người ta thêm vào màu đen để in những chi tiết có màu đen
thay vì phải kết hợp 3 màu sắc trên. Và như vậy ta có hệ màu CMYK.
Nguyên lý làm việc của hệ màu này như sau : Trên một nền giấy trắng,
khi mỗi màu này được in lên sẽ loại bỏ dần đi thành phần màu trắng. 3
màu C, M, Y khác nhau in theo những tỉ lệ khác nhau sẽ loại bỏ đi thành
phần đó một cách khác nhau và cuối cùng cho ta màu sắc cần in. Khi cần
in màu đen, thay vì phải in cả 3 màu người ta dùng màu đen để in lên.
Nguyên lý này khác với nguyên lý làm việc của hệ RGB ở chỗ hệ RGB là
sự kết hợp của các thành phần màu, còn hệ CMYK là sự loại bỏ lẫn nhau
của các thành phần màu.
Không gian màu HSV
HSV là không gian màu được dùng nhiều trong việc chỉnh sữa ảnh, phân
tích ảnh và một phần của lĩnh vực thị giác máy tính. Hệ không gian này
dựa vào 3 thông số sau để mô tả màu sắc H (Hue: màu sắc), S (Saturation,
độ đậm đặc, sự bảo hòa), V (value, giá trị cường độ sáng).
Không gian màu này thường được biểu diễn dưới dạng hình trụ hoặc
hình nón. Theo đó, đi theo vòng tròn từ 0-360 độ là trường biểu diễn màu
sắc (Hue). Trường này bắt đầu từ màu đỏ đầu tiên (red primary) tới màu
xanh lục đầu tiên (green primary) nằm trong khoảng 0-120 độ, từ 120-240
độ là màu xanh lục tới xanh lơ (green primary - blue primary). Từ 240 360 là từ màu đen tới lại màu đỏ.
Theo như cách biểu diễn không gian màu theo hình trụ như trên, đi từ
giá trị độ sáng (V) được biểu diễn bằng cách đi từ dưới đáy hình trụ lên
và nằm trong khoảng từ 0 -1. Ở đáy hình trụ V có giá trị là 0, là tối nhất
16
và trên đỉnh hình trụ là độ sáng lớn nhất (V = 1). Đi từ tâm hình trụ ra
mặt trụ là giá trị bão hòa của màu sắc (S). S có giá trị từ 0 - 1. 0 ứng với
tâm hình trụ là chỗ mà màu sắc là nhạt nhất. S = 1 ở ngoài mặt trụ, là
nơi mà giá trị màu sắc là đậm đặc nhất. Như vậy với mỗi giá trị (H, S, V)
sẽ cho ta một màu sắc mà ở đó mô tả đầy đủ thông tin về màu sắc, độ
đậm đặc và độ sáng của màu đó.
2.3
Biểu đồ Histogram
Biểu đồ Histogram (còn được gọi là biểu đồ phân bố tần số) là biểu đồ
phân bố giá trị mức xám của một ảnh hoặc một vùng ảnh số. Nhìn vào
biểu đồ histogram chúng ta có thể đánh giá về sắc thái và mức độ tương
phản của bức ảnh. Biểu đồ này được sử dụng rộng rãi trong các ứng dụng
đồ họa và các thiết bị thu hình.
• Histogram của một ảnh số với mức xám thuộc dải xám {0, L − 1} là
h(rk ) = nk với rk là mức xám thứ k, nk là số điểm ảnh có cùng mức
xám thứ k.
• Biểu đồ Histogram có trục tung Oy biểu diễn số điểm ảnh của mức
xám nk và trục hoành Ox biểu diễn mức xám rk .
• Xác suất của mức xám: p(rk ) = nk /N với N là tổng số điểm ảnh
Tương tự với ảnh màu, histogram là biểu đồ cột thể hiện phân bố tần số
của các màu cơ bản được gộp lại với nhau.
Phân cụm trên biểu đồ histogram: Là quá trình gộp các các pixel
có mức xám kề nhau trên biểu đồ histogram về cùng một cụm.
Ngưỡng (Thresholding): Ranh giới phân chia giữa các cụm với nhau.
Giả sử histogram h(rk ) được chia làm hai cụm C1 và C2 , ngưỡng phân chia
giữa hai cụm có giá trị là t, việc xác định điểm ảnh có mức xám rk thuộc
cụm nào dựa theo công thức:
IF rk < t THEN k ∈ C1
ELSE k ∈ C2
Hình 2.3 mô tả sự phân chia histogram thành hai cụm C1 và C1 sử
dụng ngưỡng có giá trị k.
2.4
Chuyển đổi ảnh màu sang ảnh mức xám
Là quá trình biến đổi ảnh màu (điểm ảnh nhiều kênh) sang ảnh mức
xám. Có rất nhiều các nghiên cứu về việc biến đổi từ ảnh màu sang ảnh
mức xám với mục đích khác nhau. Nguyên tắc chung các phương pháp này
17
Hình 2.3: Phân cụm phân ngưỡng trên Histogram
là đưa yếu tố độ sáng (luminance) của ảnh màu về mức xám tương ứng
của ảnh đích. Một số phương pháp chuyển đổi thông dụng có thể kể đến:
CIE 1931
Y = 0.2121R + 0.7152G + 0.114B
(2.1)
Trong đó Y là mức xám của ảnh đích.
CIE XYZ
Y = 0.2126R + 0.7152G + 0.0722B
Y là mức xám của ảnh đích.
CIE XYZ.Rec 709 với điểm trắng D65
0.412453 0.357580 0.180423
R
X
Y = 0.212671 0.715160 0.072169 G
Z
0.019334 0.119193 0.950227 B
(2.2)
(2.3)
Y là mức xám của ảnh đích.
Phương pháp của Fairchild
∗
H
−
90
L∗∗ = L∗ + (2.5 − 0.025L∗ ) × 0.016 | sin
| +0.085 C ∗ (2.4)
2
2.5
Phân đoạn ảnh
Để phân tích được các đối tượng trong ảnh, chúng ta cần phải phân biệt
được các đối tượng cần quan tâm với phần còn lại của ảnh, hay còn gọi là
nền ảnh. Phân đoạn ảnh là quá trình phân vùng ảnh thành các vùng rời
rạc và đồng nhất với nhau. Các vùng ảnh đồng nhất này thông thường sẽ
tương ứng với toàn bộ hay từng phần của các đối tượng thật sự bên trong
ảnh. Mỗi một vùng ảnh có đường biên và các đặc tính đồng nhất tạo nên
18
Hình 2.4: Ảnh gốc và vùng ảnh sau phân đoạn
vector đặc trưng riêng (feature vectors) của nó, giúp chúng ta phân biệt
được nó với các vùng xung quanh. Hình 2.4 minh họa ảnh gốc và các vùng
ảnh sau khi được phân đoạn. Trong hầu hết các ứng dụng của lĩnh vực xử
lý ảnh, phân đoạn ảnh luôn đóng một vai trò quan trọng và thường là bước
tiền xử lý đầu tiên trong toàn bộ quá trình trước khi thực hiện các thao
tác khác ở mức cao hơn như nhận dạng. Đối với ảnh màu thương hiệu, việc
phân đoạn giúp ta có thể tách vùng ký tự ra khỏi nền hay họa tiết khác
của ảnh, từ đó nâng cao chất lượng đầu vào cho các bước tiếp theo.
Có rất nhiều kỹ thuật phân đoạn ảnh, nhưng nhìn chung chúng ta có
thể chia thành sáu nhóm sau:
• Các phương pháp dựa vào hình dạng của histogram (Histogram
Shape-Based Thresholding Methods): Chia ngưỡng cường độ và gán
điểm ảnh vào từng lớp khác nhau. Cách giải quyết dựa trên histogram của ảnh. Ưu điểm của các phương pháp này là thời gian thực
thi ngắn, và dùng cho phân đoạn sơ bộ. Tuy nhiên phương pháp này
lại không thích hợp cho ảnh nhiễu.
• Các phương pháp dựa vào việc chia nhóm (Clustering-Based Thresholding Methods): Dựa trên cường độ điểm ảnh nhưng xét thêm quan
hệ giữa các điểm ảnh lân cận khi phân nhóm, và cập nhật giá trị đại
diện mỗi nhóm.
• Các phương pháp dựa vào entropy (Entropy-Based Thresholding
Methods).
19
- Xem thêm -