Một trong những bước tiến vĩ đại của Khoa học Kỹ thuật cuối thế kỷ XX là đã tạo
ra nền tảng vững chắc để xây dựng hạ tầng cơ sở Xã hội Thông tin. Trong đó Viễn
thông và Công nghệ thông tin đóng vai trò quan trọng, mở đầu cho giai đoạn hình
thành và phát triển nền kinh tế tri thức thế giới.
Việc tiếp cận và đón đầu các thành tựu Khoa học và Công nghệ tiên tiến của thế
giới trong lĩnh vực Tin học - Viễn thông - Công nghệ Thông tin, chuẩn bị nguồn
nhân lực đủ sức tiếp cận, nghiên cứu và áp dụng vào mạng Công nghệ Thông tin
Việt Nam đã trở nên thiết thực.
Một trong những vấn đề đã và đang được nhiều nước trên thế giới quan tâm là
truyền thông ảnh và ảnh động video. Trước khi nghiên cứu ảnh động, rất nhiều
người đã làm quen với thuật ngữ xử lý ảnh tĩnh, tuy nhiên việc áp dụng những công
cụ đó đối với ảnh động là rất hạn chế đặc biệt trong các lĩnh vực truyền thông có
liên quan đến vấn đề ảnh động, mô hình 3 chiều, ảnh đa điểm nhìn…. Ngoài ra mục
đích nghiên cứu vấn đề này đang được áp dụng rất nhiều trong mọi lĩnh vực của đời
sống thực tế như giáo dục, quân sự, y học, và các ngành kinh tế khác…
Đã và đang nghiên cứu chuyên ngành Công nghệ Thông tin do vậy tôi đã chọn đề
tài luận văn tốt nghiệp Cao học có tựa đề: “Nghiên cứu ảnh đa điểm nhìn, các
phương pháp xử lý và ứng dụng”
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
-------------------------------
KHÚC NAM HẢI
NGHIÊN CỨU ẢNH ĐA ĐIỂM NHÌN, CÁC PHƯƠNG
PHÁP XỬ LÝ VÀ ỨNG DỤNG
LUẬN VĂN THẠC SỸ KỸ THUẬT
CHUYÊN NGÀNH: CÔNG NGHỆ THÔNG TIN
Hà Nội – 2004
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
-------------------------------
KHÚC NAM HẢI
NGHIÊN CỨU ẢNH ĐA ĐIỂM NHÌN, CÁC PHƯƠNG
PHÁP XỬ LÝ VÀ ỨNG DỤNG
LUẬN VĂN THẠC SỸ KỸ THUẬT
CHUYÊN NGÀNH: CÔNG NGHỆ THÔNG TIN
NGƯỜI HƯỚNG DẪN KHOA HỌC:TS. NGUYỄN THỊ HOÀNG LAN
Hà Nội – 2004
1
LỜI CẢM ƠN
Trong thời gian là sinh viên chuyên ngành Công nghệ Thông tin dưới mái trường
Đại học Bách Khoa Hà Nội, chúng tôi đã được các thầy cô nhiệt tình giảng dạy,
truyền thụ kiến thức về những phương pháp tiếp cận, nghiên cứu Khoa học, và
Công nghệ hiện đại. Nhân dịp này tôi xin bày tỏ lòng biết ơn sâu sắc tới tất cả các
thầy cô trong khoa Công nghệ Thông tin, các thầy cô đã trực tiếp giảng dạy và giúp
đỡ tôi hoàn thành khóa học. Đặc biệt tôi xin trân trọng cảm ơn PGS.TS. Nguyễn Thị
Hoàng Lan, đã trực tiếp hướng dẫn, giúp đỡ tôi hoàn thành luận văn tốt nghiệp này.
Cảm ơn các bạn cùng lớp. Bày tỏ lòng biết ơn sâu sắc tới cha, mẹ, những người đã
có công sinh thành và giáo dưỡng tôi để có được như ngày hôm nay .
2
MỤC LỤC
LỜI CẢM ƠN ........................................................................................................................ 1
DANH SÁCH HÌNH VẼ ....................................................................................................... 4
DANH SÁCH CÁC BẢNG ................................................................................................... 7
DANH SÁCH CÁC TỪ VIẾT TẮT...................................................................................... 8
LỜI MỞ ĐẦU ........................................................................................................................ 9
CHƯƠNG I .......................................................................................................................... 11
XỬ LÝ ẢNH - LÝ THUYẾT CHUNG............................................................................... 11
I.1. Các bước xử lý ảnh thuần túy .................................................................................... 11
I.1.1 Lẫy mẫu và lượng tử hóa ..................................................................................... 11
I.2. Video đơn điểm nhìn - đa điểm nhìn ......................................................................... 14
I.2.1. Khái niệm video, ảnh động................................................................................. 14
I.2.2. Đặc điểm và cấu trúc dữ liệu video số ............................................................... 14
CHƯƠNG II ........................................................................................................................ 20
BÀI TOÁN THU NHẬN ẢNH ........................................................................................... 20
II.1. Kiến thức chung về hệ thống thu nhận thông tin hình ảnh ...................................... 20
II.1.1. Hệ tọa độ ........................................................................................................... 20
II.1.2. Chuyển động khối ............................................................................................. 21
II.2. Phép chiếu ............................................................................................................ 23
II.3. Thiết bị thu - Camera ........................................................................................... 25
CHƯƠNG III ....................................................................................................................... 28
BÀI TOÁN XỬ LÝ ẢNH ĐA ĐIỂM NHÌN ...................................................................... 28
III.1. Thu nhận ảnh trực diện từ các frame thu nhận từ các camera ................................ 28
III.2. Bài toán 2 camera hội tụ ......................................................................................... 29
III.2.1. Phương pháp đối sánh khối bù chênh lệch ...................................................... 30
III.2.2. Ước lượng độ chênh lệch cho các cặp ảnh đồng phẳng ................................... 32
III.2.3. Căn chỉnh và cải thiện ảnh thu nhận từ hệ các camera hội tụ .......................... 46
CHƯƠNG IV ....................................................................................................................... 52
NGHIÊN CỨU ĐỐI SÁNH ẢNH LẬP THỂ ..................................................................... 52
IV.1. Giới thiệu chung ..................................................................................................... 52
IV.2. Dữ liệu tiêu chuẩn ................................................................................................... 54
3
IV.3. Giải thuật đối sánh lập thể trên cơ sở EOFC: phép loại suy chuyển động ............. 55
IV.3.1. Các ràng buộc chuyển động............................................................................. 57
IV.3.2. EOFC trong bài toán đối sánh lập thể.............................................................. 58
IV.3.3. Giải thuật và quá trình thực hiện ..................................................................... 64
IV.3.4. Kết quả thực nghiệm........................................................................................ 66
IV.3.5. Thảo luận chung .............................................................................................. 71
IV.4. Đối sánh lập thể trên cơ sở luật - phương pháp phân cấp ....................................... 72
IV.4.1. Ý tưởng cơ sở .................................................................................................. 73
IV.4.2. Giải thuật và trình tự thực hiện ........................................................................ 74
IV.4.3. Kết quả thử nghiệm các phương pháp của tác giả ........................................... 79
IV.4.4 Thảo luận chung ............................................................................................... 83
IV.5. Làm việc cộng tác trên cơ sở phân vùng ảnh: một phương pháp tối ưu tổng thể ... 85
IV.5.1. Các giả thiết ban đầu ....................................................................................... 86
IV.5.2. Giải thuật và quá trình thực hiện ..................................................................... 88
IV.5.3. Kết quả thử nghiệm ......................................................................................... 90
CHƯƠNG V ........................................................................................................................ 91
XÂY DỰNG CHƯƠNG TRÌNH THỬ NGHIỆM .............................................................. 91
V.1. Đặt vấn đề ................................................................................................................ 91
V.2. Thực thi giải pháp .................................................................................................... 91
V.2.1. Giới thiệu chung................................................................................................ 91
V.2.2. Trình tự thực hiện ............................................................................................. 92
V.2.3. Một vài kết quả thử nghiệm .............................................................................. 97
V.2.4. Bình luận, nhận xét và đánh giá ........................................................................ 97
Kết luận và hướng phát triển.............................................................................................. 100
TÀI LIỆU THAM KHẢO ................................................................................................. 102
Phụ lục ............................................................................................................................... 104
4
DANH SÁCH HÌNH VẼ
Hình I.1: Lấy mẫu ................................................................................................................ 12
Hình I.2: Xác suất sai số lượng tử ....................................................................................... 13
Hình I.3: Các hài tạo bởi sai số lượng tử tất định ................................................................ 13
Hình I.4: Sơ đồ các lớp video .............................................................................................. 17
Hình I.5: Thứ tự lưu trữ các frame trong video ................................................................... 18
Hình I.6: Các cấu trúc lấy mẫu ............................................................................................ 18
Hình I.7: Bộ tiền xử lý video ............................................................................................... 18
Hình II.1: Quá trình chuyển đổi tọa độ ................................................................................ 21
Hình II.2: Phép chiếu phối cảnh .......................................................................................... 24
Hình II.3: Phép chiếu vuông góc ......................................................................................... 24
Hình II.4: Định hướng tương đối ......................................................................................... 25
Hình II.5: Hiệu chỉnh hệ hai điểm nhìn [10]........................................................................ 27
Hình III.1: Hệ thống quan sát với 3 điểm nhìn .................................................................... 29
Hình III.2: Mô tả cấu trúc lưới 3 chiều và các hàm tham chiếu giữa các thành phần tương
ứng trong cặp ảnh lập thể. ............................................................................................ 33
Hình III.3: Nút n với việc tổ chức 4 thành phần lưới và 8 nút căn chỉnh. .......................... 35
Hình III.4: Chuỗi ảnh kiểm chứng “MAN”. Ảnh gốc phải (a), ảnh gốc trái (b), bản đồ nền
phải (c), bản đồ nền trái (d).......................................................................................... 40
Hình III.5: Tiên đoán bù chênh lệch cho chuỗi ảnh MAN. (a): lưới phủ lên ảnh gốc trái. (b)
lưới tương ứng trên ảnh phải được xác định bởi chiến lược ước lượng độ chênh lệch
trên cơ sở lưới được đề xuất. (c) khung hình phải được tiên đoán dựa trên phương
pháp đối sánh khối (16x16, phạm vi tìm kiếm ±100 điểm ảnh, PSNR là 32,02 dB), (d)
khung hình phải được tiên đoán dựa trên sự tương ứng giữa các nút (PSNR là
27,48dB). ..................................................................................................................... 41
Hình III.6: Tiên đoán bù chênh lệch đối với chuỗi ảnh lập thể ANNE ............................... 43
Hình III.7: Tổng hợp khung hình trực diện cho chuỗi ảnh lập thể ANNE. (a) khung hình
trái, (b) khung hình trực diện được tổng hợp, (c) khung hình phải ............................. 43
Hình III.8: Tổng hợp khung hình trực diện cho chuỗi ảnh lập thể MAN. (a) khung hình
trái, (b) khung hình trực diện được tổng hợp, (c) khung hình phải. ............................ 43
5
Hình III.9: Minh họa các bước thực hiện giải thuật tiên đoán bù chênh lệch và tổng hợp
khung hình trực diện qua mỗi dòng quét, khi đó chỉ tồn tại độ chênh lệch theo chiều
ngang. ........................................................................................................................... 45
Hình III.10: Mô phỏng việc điều chỉnh trục tọa độ cho bài toán căn chỉnh ảnh. ................ 48
Hình III.11: Căn chỉnh chuỗi ảnh “GWEN” ........................................................................ 49
Hình III.12: Cặp ảnh lập thể GWEN và các bước tiên đoán ............................................... 50
Hình IV.1: Tsukuba head: (a) khung hình trái, (b) khung hình phải, (c) Ground truth ....... 54
Hình IV.2: CMU Shrub: (a) khung hình trái, (b) khung hình phải ...................................... 55
Hình IV.3: Cặp ảnh lập thể nhân tạo: (a) khung hình trái, (b) khung hình phải .................. 62
HÌnh IV.4: Ước lượng độ chênh lệch chuyển động với cặp ảnh lập thể nhân tạo: (a) lặp 16
lần, (b) lặp 128 lần, (c) lặp 256 lần, (d) kết quả cuối cùng .......................................... 63
Hình IV.5: Kết quả trường chênh lệch khi áp dụng trực tiếp việc thay đổi giá trị của EOFC
trên cặp ảnh lập thể có độ chênh lệch lớn. ................................................................... 64
Hình IV.6: Cặp ảnh lập thể nhân tạo: (a) ảnh trái, (b) ảnh phải .......................................... 67
Hình IV.7: Bản đồ độ chênh lệch của cặp ảnh nhân tạo: (b) kết quả của giải thuật
Birchfield [IJCV99], (c) Roy [ICCV98], (d) giải thuật mà chúng ta nghiên cứu, (a)
ảnh tham chiếu ............................................................................................................. 68
Hình IV.8: Cặp ảnh lập thể GEOS của Hurrican Luis: (a) ảnh trái, (b) ảnh phải ................ 69
Hình IV.9: Bản đồ độ chênh lệch trên cặp ảnh GEOS: (b) Birchfield [IJVC99], (c) Joy
[ICCV98], (d) giải thuật chúng ta đang nghiên cứu, (a) ảnh tham chiếu .................... 70
Hình IV.10: Kết quả áp dụng với cảnh Tsukuba: (a) bản đồ độ chênh lệch khởi tạo được
tính sử dụng phương pháp trực tiếp, (b) kết quả được sinh bằng cách sử dụng EOFC
trên cơ sở lập thể. ......................................................................................................... 71
Hình IV.11: Bản đồ độ chênh lệch áp dụng đối với cặp ảnh lập thể chuẩn. ........................ 71
Hình IV.12: Kết quả của giải thuật trên cơ sở tập luật đối với cặp ảnh Tsukuba. ............... 81
Hình IV.13: Kết quả đối với cặp ảnh CMU trên cơ sở tập luật. .......................................... 82
Hình IV.14: Kết quả đối sánh ảnh lập thể dựa trên cơ sở tập luật ....................................... 83
Hình IV.15: Các vùng hạn chế độ quan sát được mô tả trên một lớp cắt của các điểm đối
sánh (trục y là hằng số). ............................................................................................... 87
Hình IV.16: Sơ đồ luồng của giải thuật cộng tác dựa trên cơ sở phân vùng ảnh. ............... 88
Hình IV.17: Quá trình phân vùng ảnh ................................................................................. 90
Hình IV.18: Kết quả thử nghiệm giải thuật CMU. .............................................................. 90
6
Hình V.1: Sơ đồ khối của IMS ............................................................................................ 92
Hình V.3: (a) ảnh đỉnh, (b) ảnh trái, (c) ảnh phải (ảnh tham chiếu) .................................... 97
Hình V.4: (a) chuỗi ảnh thu nhận qua camera tham chiếu (chuỗi ảnh với khung nhìn 3
chiều); (b), (c) và (d) là cấu trúc cảnh thu nhận được qua các giải thuật IMS, EGS-F1
và EGS-F2 tương ứng. ............................................................................................... 104
Hình V.5: Trường thông lượng trong cảnh 3 chiều từ frame 1 đến frame 10 được xác định
qua các phương pháp IMS (a), EGS-F1 (b) và EGS-F2 (c). Biều diễn bề mặt 2 chiều
và mật độ phân bố, hướng và độ lớn của vector vận tốc z......................................... 105
7
DANH SÁCH CÁC BẢNG
Bảng I.1: Tốc độ bit cho phần tín hiệu tích cực ................................................................... 14
Bảng III.1: Thời gian xử lý được xác định qua thời gian CPU được yêu cầu cho mỗi cặp
ảnh ................................................................................................................................ 39
Bảng IV.1: Tần suất lỗi trong các giải thuật, áp dụng với cặp ảnh lập thể nhân tạo ........... 69
Bảng IV.2: Tần suất lỗi của 3 giải thuật khi áp dụng với cặp ảnh lập thể thực tế GOES ... 70
Bảng V.1: So sánh kết quả thử nghiệm giải thuật EGS và IMS .......................................... 99
8
DANH SÁCH CÁC TỪ VIẾT TẮT
STT
Các từ viết tắt
Ý nghĩa
01
DCP
Disparity Compensated Prediction
02
DMS
Digital Storage Media
03
DTC
Discrete Cosine Transformation
04
ES
Elementary Steam
05
FIR
Finite Impulse Response
06
GOP
Group of Picture
07
JPEG
Joint Photographic Experts Group
08
MB
MacroBlock
09
MPEG
Moving Picture Expert Group
10
NTSC
National Television System Committee
11
PAL
Phase Alternating Line
9
LỜI MỞ ĐẦU
Một trong những bước tiến vĩ đại của Khoa học Kỹ thuật cuối thế kỷ XX là đã tạo
ra nền tảng vững chắc để xây dựng hạ tầng cơ sở Xã hội Thông tin. Trong đó Viễn
thông và Công nghệ thông tin đóng vai trò quan trọng, mở đầu cho giai đoạn hình
thành và phát triển nền kinh tế tri thức thế giới.
Việc tiếp cận và đón đầu các thành tựu Khoa học và Công nghệ tiên tiến của thế
giới trong lĩnh vực Tin học - Viễn thông - Công nghệ Thông tin, chuẩn bị nguồn
nhân lực đủ sức tiếp cận, nghiên cứu và áp dụng vào mạng Công nghệ Thông tin
Việt Nam đã trở nên thiết thực.
Một trong những vấn đề đã và đang được nhiều nước trên thế giới quan tâm là
truyền thông ảnh và ảnh động video. Trước khi nghiên cứu ảnh động, rất nhiều
người đã làm quen với thuật ngữ xử lý ảnh tĩnh, tuy nhiên việc áp dụng những công
cụ đó đối với ảnh động là rất hạn chế đặc biệt trong các lĩnh vực truyền thông có
liên quan đến vấn đề ảnh động, mô hình 3 chiều, ảnh đa điểm nhìn…. Ngoài ra mục
đích nghiên cứu vấn đề này đang được áp dụng rất nhiều trong mọi lĩnh vực của đời
sống thực tế như giáo dục, quân sự, y học, và các ngành kinh tế khác…
Đã và đang nghiên cứu chuyên ngành Công nghệ Thông tin do vậy tôi đã chọn đề
tài luận văn tốt nghiệp Cao học có tựa đề: “Nghiên cứu ảnh đa điểm nhìn, các
phương pháp xử lý và ứng dụng”.
Nội dung của luận văn được trình bày trong 5 chương như sau:
Chương I: Xử lý ảnh - Lý thuyết chung.
Chương II: Bài toán thu nhận ảnh.
Chương III: Bài toán xử lý ảnh đa điểm nhìn.
Chương IV: Nghiên cứu đối sánh ảnh lập thể
Chương V: Xây dựng ứng dụng thử nghiệm.
Bố cục các chương đều có phần đặt vấn đề và giải quyết vấn đề. Các chương được
trình bày một cách ngắn gọn, tuân theo một logic giúp người đọc dễ dàng theo dõi
và nắm bắt vấn đề một cách nhanh nhất.
10
11
CHƯƠNG I
XỬ LÝ ẢNH - LÝ THUYẾT CHUNG
1
I.1. Các bước xử lý ảnh thuần túy
I.1.1 Lẫy mẫu và lượng tử hóa
Việc xử dụng ảnh tương tự đã và đang vấp phải rất nhiều khó khăn, đặc biệt là
những khó khăn trong quá trình xử lý, lưu trữ và truyền tải thông tin. Mặt khác, tất
cả những ai quan tâm hay làm về Công nghệ Thông tin đều biết rằng, hầu hết các
quá trình thu nhận thông tin hình ảnh từ các thiết bị ngoại vi đều ở dạng tín hiệu
tương tự có nghĩa là các khâu xử lý, truyền tải và phân tích thông tin dữ liệu sẽ phải
đối mặt với nhiều trở ngại về mặt kỹ thuật. Công nghệ số hóa ra đời nhằm biến cái
không thể thành cái có thể đó là đơn giản hóa việc xử lý dữ liệu đa phương tiện trên
các thiết bị lưu trữ và truyền tải thông tin hình ảnh.
Bất kỳ một dạng lưu trữ ảnh nào khi được số hóa đều với mục đích giảm thiểu các
chức năng tính toán, không gian lưu trữ và tốc độ truyền tải thông tin. Quá trình số
hóa bao gồm hai giai đoạn được biểu diễn như sau:
-
Lấy mẫu: có hai kiểu lấy mẫu phổ biến hiện nay là lấy mẫu theo lưới vuông
và lấy mẫu theo lưới lục giác.
-
Lượng tử hóa: quá trình lượng tử hóa được thể hiện bằng hàm lượng tử tuyến
tính hay phi tuyến.
Cụ thể như sau:
I.1.1.1 Lấy mẫu
Việc biến đổi từ tín hiệu tương tự sang tín hiệu số được gọi là quá trình lấy mẫu
(sampling). Trên thực tế, tính chất tương tự của tín hiệu video không đảm bảo đúng
với kích thước theo chiều thẳng đứng của ảnh, do một dòng hình ảnh theo chiều
đứng được chia thành một số mẫu rời rạc tương đương với một số dòng quét trong
nó. Qua đó cung cấp đầu mối cho tốc độ lấy mẫu được dùng theo dòng. Trong khi
lấy mẫu tín hiệu theo dòng với một tốc độ được xác định bằng tỷ lệ lấy mẫu theo
chiều đứng, thì chúng ta vẫn phải để ý đến các thông số khác. Thông số đầu tiên
12
chúng ta cần lưu ý đến đó là thành phần tần số cực đại của tín hiệu cần số hóa, theo
lý thuyết của Nyquist cho phép tần số lấy mẫu No ≥ 2*N. Hình I.1 dưới đây mô tả
trực quan tín hiệu tương tự và tín hiệu được số hóa:
Hình I.1: Lấy mẫu
I.1.1.2. Lượng tử hóa
a. Định nghĩa
Việc các thông số ảnh hưởng đến độ chính xác trong việc biến đổi từ tín hiệu tương
tự sang tín hiệu số được gọi là lượng tử hóa (quatization) và các thông số đó được
gọi là các thông số lượng tử hóa.
b. Tính toán lượng tử
Do tín hiệu gốc là biến thiên liên tục trong cùng một phạm vi hẹp, điều đó cũng có
nghĩa là độ chênh lệch đo tại bất kỳ một thời điểm nào (ví du: tại thời điểm lấy mẫu)
phụ thuộc hoàn toàn vào độ chính xác của thiết bị đo. Thiết bị biến đổi tín hiệu từ
tương tự sang số chia phạm vi tín hiệu thành một số khoảng lượng tử. Các khoảng
lượng tử có thể đều hoặc không đều tùy theo công cụ điều chế và mục đích sử dụng.
Tuy nhiên để lượng tử hóa tín hiệu hình ảnh thì chúng ta thường sử dụng khoảng
lượng tử đều nhằm đạt được ảnh số có độ đồng đều về chất lượng, và cũng vì lẽ đó
ảnh số thu được sẽ rất đơn giản trong quá trình xử lý và lọc sau quá trình biến đổi.
Đối với mỗi giá trị đầu vào cho trước, bộ lượng tử hóa sẽ tạo ra một giá trị số tương
đương với khoảng lượng tử mà tín hiệu đầu vào rơi vào đó. Điều này sẽ dẫn đến sai
số, tuy nhiên sai số cho phép không bao giờ vượt quá ½ khoảng lượng tử. Một tín
13
hiệu ngẫu nhiên qua khoảng lượng tử hóa sẽ tạo ra một sai số lượng tử giữa -0.5 và
+0.5 khoảng lượng tử đều. Hình I.2 dưới đây là xác suất phân bố các lỗi lượng tử
thường gặp trong quá trình lượng tử hóa tín hiệu ảnh.
Xác suất
-0.5Q
0
+0.5Q
Hình I.2: Xác suất sai số lượng tử
Các lỗi này được phân biệt với nhiễu thông thường có trong thiết bị thu tín hiệu
tương tự, ví dụ nhiễu có phân bố Gauss. Do đó, tính tỉ số tín hiệu trên nhiễu cho
một bộ số hóa trên cơ sở số bít tạo ra từ mã là không có hiệu quả. Các nhà nghiên
cứu đã chỉ ra rằng, việc tính toán bằng toán học chỉ có thể được nếu phân bố xác
suất của sai số lượng tử là đều. Tại các mức tín hiệu thấp, sai số lượng tử không còn
là ngẫu nhiên. Nó trở thành một hàm của tín hiệu vào. Nếu tín hiệu nhiễu là một
hàm tất định của tín hiệu vào, thì nó có thể được xem là méo hơn là nhiễu. Đối với
các mức tín hiệu vào nhỏ hơn đầu vào tương tự, méo lượng tử trở nên quan trọng
hơn và ít nhiễu ngẫu nhiên hơn. Việc các hài xuất hiện do các hàm méo lượng tử tất
định có thể tạo ra chập phổ trong phổ tần số cơ bản được thể hiện trong hình I.3
dưới đây.
Dạng sóng
+0.5 Q
+0.5 Q
Sai số
Hình I.3: Các hài tạo bởi sai số lượng tử tất định
14
c. Sai số
Điều hiển nhiên là quá trình thu nhận và tạo tín hiệu không thể là hoàn hảo. Thông
tin nhận được từ các thiết bị thu đã bị sai lệch và hao hụt so với thực tế do các
nguyên nhân như: nhiễu, sai số lượng tử, sai số lấy mẫu…Ngoài ra trong quá trình
xử lý dữ liệu camera số chúng ta còn gặp phải những sai lệch do biến dạng ống
kính… Đó là một vấn đề hết sức quan trọng trong bài toán xử lý ảnh đa điểm nhìn,
nên chúng ta sẽ đề cập sâu hơn trong phần sau.
I.2. Video đơn điểm nhìn - đa điểm nhìn
I.2.1. Khái niệm video, ảnh động
Video, ở dạng tương tự hay dạng số, đều là sự biểu diễn điện tử của một chuỗi các
ảnh liên tiếp. Những ảnh này được gọi là các frame. Chuỗi các frame xuất hiện với
tốc độ nhanh hơn trong các lần trình diễn ảnh sẽ tạo ra cảm giác đó là những hình
ảnh chuyển động liên tục. Mặc dù mỗi frame đều có sự khác nhau, nên cần thiết
phải có tốc độ frame cao để đạt được cảm giác chuyển động thực sự. Tốc độ frame
và độ phân giải của mỗi frame là các nhân tố quan trọng ảnh hưởng trực tiếp đến
chất lượng của ảnh.
I.2.2. Đặc điểm và cấu trúc dữ liệu video số
I.2.2.1. Đặc điểm
Mỗi ảnh video chứa một số lượng hữu hạn các điểm ảnh. Trong truyền hình số
NTSC và PAL (tiêu chuẩn 4:2:2), mỗi dòng video tích cực chứa 720 điểm ảnh,
NTSC có 486 dòng tích cực trên một ảnh và 30 ảnh/giây. Hệ PAL có 576 dòng tích
cực trên ảnh và 25 ảnh/giây. Mỗi một điểm ảnh là tổ hợp 8 bits cho phần tín hiệu độ
chói. 4 bits cho phần màu (R-Y) và 4 bits cho phần màu (B-Y). Tổng cộng là 16
bits. Tốc độ bit cho phần tín hiệu tích cực (tín hiệu video) được cho trong bảng sau:
NTSC
PAL
720 x 486 x 29,97 x 16=168 Mb/s
720 x 576 x 25 x 16=166 Mb/s
Bảng I.1: Tốc độ bit cho phần tín hiệu tích cực
15
Công nghệ sử dụng máy tính trong truyền thông đã giúp chúng ta tiết kiệm được
thời gian cũng như dung lượng bộ nhớ mà vẫn đảm bảo chất lượng hình ảnh được
truyền. Mục đích của khuôn dạng video MPEG (Moving Picture Expert Group)
trong việc mã hóa tín hiệu hình ảnh và âm thanh cho DMS (Digital Storage Media)
là giảm tốc độ bit trong 2 vùng ảnh động. Vùng thứ nhất là thông tin chứa trong mỗi
ảnh (không gian: quan hệ về không gian, ví dụ như: cảnh bầu trời xanh là dư thừa
trong tất cả các frame ảnh tiếp theo của một cảnh), vùng thứ hai là các chi tiết
không thay đổi từ frame hiện tại sang frame liên tiếp sau đó (thời gian: quan hệ với
thời gian).
I.2.2.2. Cấu trúc dữ liệu
Cấu trúc cú pháp dòng bit của video [4] được chia theo phân cấp thành các lớp với
mục đích hỗ trợ quản lý lỗi truy cập ngẫu nhiên, dựng hình và đồng bộ, các lớp
được sắp xếp theo trình tự như sau:
-
Block: là các khối điểm ảnh 8x8 của tín hiệu độ chói và màu được sử dụng
trong biến đổi DTC.
-
Macroblock: một macroblock là một nhóm các khối DTC (sắp xếp theo nội
dung thông tin) trong ảnh gốc. Phần header của macroblock chứa thông tin
về các khối độ chói, độ tương phản màu sắc và thông tin bù chuyển động. Có
3 loại macroblock (được phân loại theo phương pháp mã hóa macroblock):
o Skipped MB: sử dụng dự đoán từ frame giải mã trước đó với véc tơ
chuyển động bằng 0. Không có thông tin về macroblock được mã hóa
cũng như được truyền đến nơi nhận.
o Inter MB: sử dụng dự đoán bù chuyển động từ frame trước đó. Do đó,
cần truyền đi kiểu MB, địa chỉ MB, véc tơ chuyển động, các hệ số
DTC và kích thước bước lượng tử.
o Intra MB: không sử dụng dự đoán từ frame trước đó. Nên chỉ cần
truyền kiểu MB, địa chỉ MB, các hệ số DTC và kích thước bước
lượng tử đến nơi nhận.
16
-
Slice: slice cung cấp khả năng phòng tránh sự sai lệch dữ liệu. Khi gặp lỗi
trong dòng bit của một ảnh, bộ giải mã có thể khôi phục bằng cách đợi slice
tiếp theo mà không phải hủy bỏ toàn bộ ảnh. Slice chứa header và một hoặc
nhiều macroblock liên tiếp. Kích thước slice cực đại có thể là toàn cảnh, kích
thước cực tiểu có thể chỉ là một macroblock. Header của slice chứa thông tin
về vị trí của nó trong ảnh và hệ số thang độ của phân bố lượng tử hóa.
-
Picture (frame): một ảnh tương ứng với một frame của video. Có 3 kiểu ảnh
chính là I, P, B. Những loại ảnh này không độc lập mà có một sự ràng buộc
với nhau thông qua việc biểu diễn video. Qua đó thứ tự dòng bits (tức là thứ
tự các ảnh được truyền, lưu trữ và khôi phục) không tuân theo thứ tự hiển thị,
mà là thứ tự cho phép bộ giải mã có thể giải mã dòng bit được. Lớp ảnh bao
gồm phần header và một hoặc nhiều slice. Header chỉ thị sự sắp xếp để
truyền frame, cho phép bộ giải mã hiển thị frame theo đúng bậc, kiểu ảnh và
thông tin mã hóa.
-
GOP (Group of Picture): một nhóm ảnh là một điểm truy cập ngẫu nhiên
và là đơn vị mã hóa nhỏ nhất có thể được giải mã độc lập, bao gồm phần
header và các hình ảnh. Header chứa thông tin thời gian và dựng hình. Một
nhóm ảnh GOP được hình thành từ liên kết một hoặc nhiều frame I, và các
frame B và/hoăc P.Cấu trúc GOP được biểu diễn qua hai thông số sau:
o n: số frame trong GOP.
o m: khoảng cách dự đoán.
Thông thường giá trị của n và m tương ứng sẽ là 15 và 3. Mỗi GOP bắt đầu
bằng một frame I. Thứ tự các ảnh trong dòng mã là thứ tự mà qua quá trình
giải mã sẽ giúp chúng ta khôi phục lại được video ban đầu mà không bị mất
thông tin. Đặc biệt, ảnh B trong dòng giải mã được đưa ngay ra màn hình,
ảnh mã cuối cùng của nhóm ảnh (trong thứ tự trình diễn) là một ảnh I hoặc P.
-
Chuỗi Video (Video sequence): là lớp cao nhất của phân cấp mã hóa ảnh
video. Chuỗi chứa một header là kích thước theo chiều ngang và đứng của
mỗi ảnh, tỉ lệ điểm ảnh, tốc độ bit của từng ảnh trong chuỗi (thông thường là
17
bằng nhau), tốc độ ảnh và kích thước tối thiểu của bộ nhớ cho một bộ giải
mã, để khởi gán trạng thái của bộ giải mã. Chuỗi video và thông tin header
tạo thành dòng bit mã hóa, được gọi là dòng sơ cấp video ES (Elementary
Stream).
Các lớp video được mô tả sơ bộ trong hình dưới đây:
4:2:0
Khổi điếm ảnh
CB CR
Y
Macroblock
Frame
Slice
1
2
3
4
5
Nhóm ảnh GOP
Chuỗi video
Hình I.4: Sơ đồ các lớp video
I.2.2.3. Các loại frame video
Căn cứ vào đặc tính của video có sự dư thừa về không gian và thời gian nên trong
quá trình nén ảnh, cách lưu trữ video được bố trí dưới các dạng frame sau:
-
Frame I: là frame đầu tiên trong chuỗi videom frame này được mã hóa độc
lập và tương tự như mã hóa ảnh tĩnh theo tiêu chuẩn JPEG. Frame I có thể sử
dụng làm điểm truy cập ngẫu nhiên trong chuỗi cho bộ giải mã
-
Fame P: qua frame I bộ mã hóa có thể dự đoán được hình dạng của frame
tiếp theo. Frame được dự đoán gọi là frame P.
-
Frame B: được gọi là frame dự đoán nội suy 2 chiều và dựa vào cặp frame I
- P hoặc P - P. Frame B cho tỉ lệ nén cao nhất và không được sử dụng làm
fame tham chiếu.
Thứ tự lưu trữ các frame trong chuỗi video được thể hiện trong hình II.5 như sau:
18
I
B B P B B P B B
I
Hình I.5: Thứ tự lưu trữ các frame trong video
I.2.2.4. Cơ cấu số hóa tín hiệu video
720
RGB
576
R
G
B
360
YUV 4:2:2
Y
YUV 4:2:0
Y
Y
Y
Y
Y 288
180
YUV 4:1:1
Y
YY
Hình I.6: Các cấu trúc lấy mẫu
Quá trình thu nhận video không phải lúc nào cũng cho chúng ta chất lượng tốt nhất,
chính vì vậy việc tiền xử lý video là rất cần thiết cho các hệ thống có tính ứng dụng
thực tế cao. Dưới đây chúng ta sẽ cũng nhau tìm hiểu mô hình tổng quát áp dụng
cho bài toán tiền xử lý ảnh video. Các bước thực hiện của bộ tiền xử lý được mô tả
trong hình II.3 như sau [4]:
RED
A/D
Sửa
A/D
Sửa
A/D
Sửa
GREEN
BLUE
Fir Filter
Thành
YC1C2
Fir Filter
Tiểu lấy mẫu 2x
Fir Filter
Tiểu lấy mẫu 2x
Hình I.7: Bộ tiền xử lý video
- Xem thêm -