Tài liệu Nghiên cứu ảnh đa điểm nhìn, các phương pháp xủ lý và ứng dụng

  • Số trang: 107 |
  • Loại file: PDF |
  • Lượt xem: 410 |
  • Lượt tải: 0
anhnguyen504008

Tham gia: 10/04/2017

Mô tả:

Một trong những bước tiến vĩ đại của Khoa học Kỹ thuật cuối thế kỷ XX là đã tạo ra nền tảng vững chắc để xây dựng hạ tầng cơ sở Xã hội Thông tin. Trong đó Viễn thông và Công nghệ thông tin đóng vai trò quan trọng, mở đầu cho giai đoạn hình thành và phát triển nền kinh tế tri thức thế giới. Việc tiếp cận và đón đầu các thành tựu Khoa học và Công nghệ tiên tiến của thế giới trong lĩnh vực Tin học - Viễn thông - Công nghệ Thông tin, chuẩn bị nguồn nhân lực đủ sức tiếp cận, nghiên cứu và áp dụng vào mạng Công nghệ Thông tin Việt Nam đã trở nên thiết thực. Một trong những vấn đề đã và đang được nhiều nước trên thế giới quan tâm là truyền thông ảnh và ảnh động video. Trước khi nghiên cứu ảnh động, rất nhiều người đã làm quen với thuật ngữ xử lý ảnh tĩnh, tuy nhiên việc áp dụng những công cụ đó đối với ảnh động là rất hạn chế đặc biệt trong các lĩnh vực truyền thông có liên quan đến vấn đề ảnh động, mô hình 3 chiều, ảnh đa điểm nhìn…. Ngoài ra mục đích nghiên cứu vấn đề này đang được áp dụng rất nhiều trong mọi lĩnh vực của đời sống thực tế như giáo dục, quân sự, y học, và các ngành kinh tế khác… Đã và đang nghiên cứu chuyên ngành Công nghệ Thông tin do vậy tôi đã chọn đề tài luận văn tốt nghiệp Cao học có tựa đề: “Nghiên cứu ảnh đa điểm nhìn, các phương pháp xử lý và ứng dụng”
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI ------------------------------- KHÚC NAM HẢI NGHIÊN CỨU ẢNH ĐA ĐIỂM NHÌN, CÁC PHƯƠNG PHÁP XỬ LÝ VÀ ỨNG DỤNG LUẬN VĂN THẠC SỸ KỸ THUẬT CHUYÊN NGÀNH: CÔNG NGHỆ THÔNG TIN Hà Nội – 2004 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI ------------------------------- KHÚC NAM HẢI NGHIÊN CỨU ẢNH ĐA ĐIỂM NHÌN, CÁC PHƯƠNG PHÁP XỬ LÝ VÀ ỨNG DỤNG LUẬN VĂN THẠC SỸ KỸ THUẬT CHUYÊN NGÀNH: CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC:TS. NGUYỄN THỊ HOÀNG LAN Hà Nội – 2004 1 LỜI CẢM ƠN Trong thời gian là sinh viên chuyên ngành Công nghệ Thông tin dưới mái trường Đại học Bách Khoa Hà Nội, chúng tôi đã được các thầy cô nhiệt tình giảng dạy, truyền thụ kiến thức về những phương pháp tiếp cận, nghiên cứu Khoa học, và Công nghệ hiện đại. Nhân dịp này tôi xin bày tỏ lòng biết ơn sâu sắc tới tất cả các thầy cô trong khoa Công nghệ Thông tin, các thầy cô đã trực tiếp giảng dạy và giúp đỡ tôi hoàn thành khóa học. Đặc biệt tôi xin trân trọng cảm ơn PGS.TS. Nguyễn Thị Hoàng Lan, đã trực tiếp hướng dẫn, giúp đỡ tôi hoàn thành luận văn tốt nghiệp này. Cảm ơn các bạn cùng lớp. Bày tỏ lòng biết ơn sâu sắc tới cha, mẹ, những người đã có công sinh thành và giáo dưỡng tôi để có được như ngày hôm nay . 2 MỤC LỤC LỜI CẢM ƠN ........................................................................................................................ 1 DANH SÁCH HÌNH VẼ ....................................................................................................... 4 DANH SÁCH CÁC BẢNG ................................................................................................... 7 DANH SÁCH CÁC TỪ VIẾT TẮT...................................................................................... 8 LỜI MỞ ĐẦU ........................................................................................................................ 9 CHƯƠNG I .......................................................................................................................... 11 XỬ LÝ ẢNH - LÝ THUYẾT CHUNG............................................................................... 11 I.1. Các bước xử lý ảnh thuần túy .................................................................................... 11 I.1.1 Lẫy mẫu và lượng tử hóa ..................................................................................... 11 I.2. Video đơn điểm nhìn - đa điểm nhìn ......................................................................... 14 I.2.1. Khái niệm video, ảnh động................................................................................. 14 I.2.2. Đặc điểm và cấu trúc dữ liệu video số ............................................................... 14 CHƯƠNG II ........................................................................................................................ 20 BÀI TOÁN THU NHẬN ẢNH ........................................................................................... 20 II.1. Kiến thức chung về hệ thống thu nhận thông tin hình ảnh ...................................... 20 II.1.1. Hệ tọa độ ........................................................................................................... 20 II.1.2. Chuyển động khối ............................................................................................. 21 II.2. Phép chiếu ............................................................................................................ 23 II.3. Thiết bị thu - Camera ........................................................................................... 25 CHƯƠNG III ....................................................................................................................... 28 BÀI TOÁN XỬ LÝ ẢNH ĐA ĐIỂM NHÌN ...................................................................... 28 III.1. Thu nhận ảnh trực diện từ các frame thu nhận từ các camera ................................ 28 III.2. Bài toán 2 camera hội tụ ......................................................................................... 29 III.2.1. Phương pháp đối sánh khối bù chênh lệch ...................................................... 30 III.2.2. Ước lượng độ chênh lệch cho các cặp ảnh đồng phẳng ................................... 32 III.2.3. Căn chỉnh và cải thiện ảnh thu nhận từ hệ các camera hội tụ .......................... 46 CHƯƠNG IV ....................................................................................................................... 52 NGHIÊN CỨU ĐỐI SÁNH ẢNH LẬP THỂ ..................................................................... 52 IV.1. Giới thiệu chung ..................................................................................................... 52 IV.2. Dữ liệu tiêu chuẩn ................................................................................................... 54 3 IV.3. Giải thuật đối sánh lập thể trên cơ sở EOFC: phép loại suy chuyển động ............. 55 IV.3.1. Các ràng buộc chuyển động............................................................................. 57 IV.3.2. EOFC trong bài toán đối sánh lập thể.............................................................. 58 IV.3.3. Giải thuật và quá trình thực hiện ..................................................................... 64 IV.3.4. Kết quả thực nghiệm........................................................................................ 66 IV.3.5. Thảo luận chung .............................................................................................. 71 IV.4. Đối sánh lập thể trên cơ sở luật - phương pháp phân cấp ....................................... 72 IV.4.1. Ý tưởng cơ sở .................................................................................................. 73 IV.4.2. Giải thuật và trình tự thực hiện ........................................................................ 74 IV.4.3. Kết quả thử nghiệm các phương pháp của tác giả ........................................... 79 IV.4.4 Thảo luận chung ............................................................................................... 83 IV.5. Làm việc cộng tác trên cơ sở phân vùng ảnh: một phương pháp tối ưu tổng thể ... 85 IV.5.1. Các giả thiết ban đầu ....................................................................................... 86 IV.5.2. Giải thuật và quá trình thực hiện ..................................................................... 88 IV.5.3. Kết quả thử nghiệm ......................................................................................... 90 CHƯƠNG V ........................................................................................................................ 91 XÂY DỰNG CHƯƠNG TRÌNH THỬ NGHIỆM .............................................................. 91 V.1. Đặt vấn đề ................................................................................................................ 91 V.2. Thực thi giải pháp .................................................................................................... 91 V.2.1. Giới thiệu chung................................................................................................ 91 V.2.2. Trình tự thực hiện ............................................................................................. 92 V.2.3. Một vài kết quả thử nghiệm .............................................................................. 97 V.2.4. Bình luận, nhận xét và đánh giá ........................................................................ 97 Kết luận và hướng phát triển.............................................................................................. 100 TÀI LIỆU THAM KHẢO ................................................................................................. 102 Phụ lục ............................................................................................................................... 104 4 DANH SÁCH HÌNH VẼ Hình I.1: Lấy mẫu ................................................................................................................ 12 Hình I.2: Xác suất sai số lượng tử ....................................................................................... 13 Hình I.3: Các hài tạo bởi sai số lượng tử tất định ................................................................ 13 Hình I.4: Sơ đồ các lớp video .............................................................................................. 17 Hình I.5: Thứ tự lưu trữ các frame trong video ................................................................... 18 Hình I.6: Các cấu trúc lấy mẫu ............................................................................................ 18 Hình I.7: Bộ tiền xử lý video ............................................................................................... 18 Hình II.1: Quá trình chuyển đổi tọa độ ................................................................................ 21 Hình II.2: Phép chiếu phối cảnh .......................................................................................... 24 Hình II.3: Phép chiếu vuông góc ......................................................................................... 24 Hình II.4: Định hướng tương đối ......................................................................................... 25 Hình II.5: Hiệu chỉnh hệ hai điểm nhìn [10]........................................................................ 27 Hình III.1: Hệ thống quan sát với 3 điểm nhìn .................................................................... 29 Hình III.2: Mô tả cấu trúc lưới 3 chiều và các hàm tham chiếu giữa các thành phần tương ứng trong cặp ảnh lập thể. ............................................................................................ 33 Hình III.3: Nút n với việc tổ chức 4 thành phần lưới và 8 nút căn chỉnh. .......................... 35 Hình III.4: Chuỗi ảnh kiểm chứng “MAN”. Ảnh gốc phải (a), ảnh gốc trái (b), bản đồ nền phải (c), bản đồ nền trái (d).......................................................................................... 40 Hình III.5: Tiên đoán bù chênh lệch cho chuỗi ảnh MAN. (a): lưới phủ lên ảnh gốc trái. (b) lưới tương ứng trên ảnh phải được xác định bởi chiến lược ước lượng độ chênh lệch trên cơ sở lưới được đề xuất. (c) khung hình phải được tiên đoán dựa trên phương pháp đối sánh khối (16x16, phạm vi tìm kiếm ±100 điểm ảnh, PSNR là 32,02 dB), (d) khung hình phải được tiên đoán dựa trên sự tương ứng giữa các nút (PSNR là 27,48dB). ..................................................................................................................... 41 Hình III.6: Tiên đoán bù chênh lệch đối với chuỗi ảnh lập thể ANNE ............................... 43 Hình III.7: Tổng hợp khung hình trực diện cho chuỗi ảnh lập thể ANNE. (a) khung hình trái, (b) khung hình trực diện được tổng hợp, (c) khung hình phải ............................. 43 Hình III.8: Tổng hợp khung hình trực diện cho chuỗi ảnh lập thể MAN. (a) khung hình trái, (b) khung hình trực diện được tổng hợp, (c) khung hình phải. ............................ 43 5 Hình III.9: Minh họa các bước thực hiện giải thuật tiên đoán bù chênh lệch và tổng hợp khung hình trực diện qua mỗi dòng quét, khi đó chỉ tồn tại độ chênh lệch theo chiều ngang. ........................................................................................................................... 45 Hình III.10: Mô phỏng việc điều chỉnh trục tọa độ cho bài toán căn chỉnh ảnh. ................ 48 Hình III.11: Căn chỉnh chuỗi ảnh “GWEN” ........................................................................ 49 Hình III.12: Cặp ảnh lập thể GWEN và các bước tiên đoán ............................................... 50 Hình IV.1: Tsukuba head: (a) khung hình trái, (b) khung hình phải, (c) Ground truth ....... 54 Hình IV.2: CMU Shrub: (a) khung hình trái, (b) khung hình phải ...................................... 55 Hình IV.3: Cặp ảnh lập thể nhân tạo: (a) khung hình trái, (b) khung hình phải .................. 62 HÌnh IV.4: Ước lượng độ chênh lệch chuyển động với cặp ảnh lập thể nhân tạo: (a) lặp 16 lần, (b) lặp 128 lần, (c) lặp 256 lần, (d) kết quả cuối cùng .......................................... 63 Hình IV.5: Kết quả trường chênh lệch khi áp dụng trực tiếp việc thay đổi giá trị của EOFC trên cặp ảnh lập thể có độ chênh lệch lớn. ................................................................... 64 Hình IV.6: Cặp ảnh lập thể nhân tạo: (a) ảnh trái, (b) ảnh phải .......................................... 67 Hình IV.7: Bản đồ độ chênh lệch của cặp ảnh nhân tạo: (b) kết quả của giải thuật Birchfield [IJCV99], (c) Roy [ICCV98], (d) giải thuật mà chúng ta nghiên cứu, (a) ảnh tham chiếu ............................................................................................................. 68 Hình IV.8: Cặp ảnh lập thể GEOS của Hurrican Luis: (a) ảnh trái, (b) ảnh phải ................ 69 Hình IV.9: Bản đồ độ chênh lệch trên cặp ảnh GEOS: (b) Birchfield [IJVC99], (c) Joy [ICCV98], (d) giải thuật chúng ta đang nghiên cứu, (a) ảnh tham chiếu .................... 70 Hình IV.10: Kết quả áp dụng với cảnh Tsukuba: (a) bản đồ độ chênh lệch khởi tạo được tính sử dụng phương pháp trực tiếp, (b) kết quả được sinh bằng cách sử dụng EOFC trên cơ sở lập thể. ......................................................................................................... 71 Hình IV.11: Bản đồ độ chênh lệch áp dụng đối với cặp ảnh lập thể chuẩn. ........................ 71 Hình IV.12: Kết quả của giải thuật trên cơ sở tập luật đối với cặp ảnh Tsukuba. ............... 81 Hình IV.13: Kết quả đối với cặp ảnh CMU trên cơ sở tập luật. .......................................... 82 Hình IV.14: Kết quả đối sánh ảnh lập thể dựa trên cơ sở tập luật ....................................... 83 Hình IV.15: Các vùng hạn chế độ quan sát được mô tả trên một lớp cắt của các điểm đối sánh (trục y là hằng số). ............................................................................................... 87 Hình IV.16: Sơ đồ luồng của giải thuật cộng tác dựa trên cơ sở phân vùng ảnh. ............... 88 Hình IV.17: Quá trình phân vùng ảnh ................................................................................. 90 Hình IV.18: Kết quả thử nghiệm giải thuật CMU. .............................................................. 90 6 Hình V.1: Sơ đồ khối của IMS ............................................................................................ 92 Hình V.3: (a) ảnh đỉnh, (b) ảnh trái, (c) ảnh phải (ảnh tham chiếu) .................................... 97 Hình V.4: (a) chuỗi ảnh thu nhận qua camera tham chiếu (chuỗi ảnh với khung nhìn 3 chiều); (b), (c) và (d) là cấu trúc cảnh thu nhận được qua các giải thuật IMS, EGS-F1 và EGS-F2 tương ứng. ............................................................................................... 104 Hình V.5: Trường thông lượng trong cảnh 3 chiều từ frame 1 đến frame 10 được xác định qua các phương pháp IMS (a), EGS-F1 (b) và EGS-F2 (c). Biều diễn bề mặt 2 chiều và mật độ phân bố, hướng và độ lớn của vector vận tốc z......................................... 105 7 DANH SÁCH CÁC BẢNG Bảng I.1: Tốc độ bit cho phần tín hiệu tích cực ................................................................... 14 Bảng III.1: Thời gian xử lý được xác định qua thời gian CPU được yêu cầu cho mỗi cặp ảnh ................................................................................................................................ 39 Bảng IV.1: Tần suất lỗi trong các giải thuật, áp dụng với cặp ảnh lập thể nhân tạo ........... 69 Bảng IV.2: Tần suất lỗi của 3 giải thuật khi áp dụng với cặp ảnh lập thể thực tế GOES ... 70 Bảng V.1: So sánh kết quả thử nghiệm giải thuật EGS và IMS .......................................... 99 8 DANH SÁCH CÁC TỪ VIẾT TẮT STT Các từ viết tắt Ý nghĩa 01 DCP Disparity Compensated Prediction 02 DMS Digital Storage Media 03 DTC Discrete Cosine Transformation 04 ES Elementary Steam 05 FIR Finite Impulse Response 06 GOP Group of Picture 07 JPEG Joint Photographic Experts Group 08 MB MacroBlock 09 MPEG Moving Picture Expert Group 10 NTSC National Television System Committee 11 PAL Phase Alternating Line 9 LỜI MỞ ĐẦU Một trong những bước tiến vĩ đại của Khoa học Kỹ thuật cuối thế kỷ XX là đã tạo ra nền tảng vững chắc để xây dựng hạ tầng cơ sở Xã hội Thông tin. Trong đó Viễn thông và Công nghệ thông tin đóng vai trò quan trọng, mở đầu cho giai đoạn hình thành và phát triển nền kinh tế tri thức thế giới. Việc tiếp cận và đón đầu các thành tựu Khoa học và Công nghệ tiên tiến của thế giới trong lĩnh vực Tin học - Viễn thông - Công nghệ Thông tin, chuẩn bị nguồn nhân lực đủ sức tiếp cận, nghiên cứu và áp dụng vào mạng Công nghệ Thông tin Việt Nam đã trở nên thiết thực. Một trong những vấn đề đã và đang được nhiều nước trên thế giới quan tâm là truyền thông ảnh và ảnh động video. Trước khi nghiên cứu ảnh động, rất nhiều người đã làm quen với thuật ngữ xử lý ảnh tĩnh, tuy nhiên việc áp dụng những công cụ đó đối với ảnh động là rất hạn chế đặc biệt trong các lĩnh vực truyền thông có liên quan đến vấn đề ảnh động, mô hình 3 chiều, ảnh đa điểm nhìn…. Ngoài ra mục đích nghiên cứu vấn đề này đang được áp dụng rất nhiều trong mọi lĩnh vực của đời sống thực tế như giáo dục, quân sự, y học, và các ngành kinh tế khác… Đã và đang nghiên cứu chuyên ngành Công nghệ Thông tin do vậy tôi đã chọn đề tài luận văn tốt nghiệp Cao học có tựa đề: “Nghiên cứu ảnh đa điểm nhìn, các phương pháp xử lý và ứng dụng”. Nội dung của luận văn được trình bày trong 5 chương như sau: Chương I: Xử lý ảnh - Lý thuyết chung. Chương II: Bài toán thu nhận ảnh. Chương III: Bài toán xử lý ảnh đa điểm nhìn. Chương IV: Nghiên cứu đối sánh ảnh lập thể Chương V: Xây dựng ứng dụng thử nghiệm. Bố cục các chương đều có phần đặt vấn đề và giải quyết vấn đề. Các chương được trình bày một cách ngắn gọn, tuân theo một logic giúp người đọc dễ dàng theo dõi và nắm bắt vấn đề một cách nhanh nhất. 10 11 CHƯƠNG I XỬ LÝ ẢNH - LÝ THUYẾT CHUNG 1 I.1. Các bước xử lý ảnh thuần túy I.1.1 Lẫy mẫu và lượng tử hóa Việc xử dụng ảnh tương tự đã và đang vấp phải rất nhiều khó khăn, đặc biệt là những khó khăn trong quá trình xử lý, lưu trữ và truyền tải thông tin. Mặt khác, tất cả những ai quan tâm hay làm về Công nghệ Thông tin đều biết rằng, hầu hết các quá trình thu nhận thông tin hình ảnh từ các thiết bị ngoại vi đều ở dạng tín hiệu tương tự có nghĩa là các khâu xử lý, truyền tải và phân tích thông tin dữ liệu sẽ phải đối mặt với nhiều trở ngại về mặt kỹ thuật. Công nghệ số hóa ra đời nhằm biến cái không thể thành cái có thể đó là đơn giản hóa việc xử lý dữ liệu đa phương tiện trên các thiết bị lưu trữ và truyền tải thông tin hình ảnh. Bất kỳ một dạng lưu trữ ảnh nào khi được số hóa đều với mục đích giảm thiểu các chức năng tính toán, không gian lưu trữ và tốc độ truyền tải thông tin. Quá trình số hóa bao gồm hai giai đoạn được biểu diễn như sau: - Lấy mẫu: có hai kiểu lấy mẫu phổ biến hiện nay là lấy mẫu theo lưới vuông và lấy mẫu theo lưới lục giác. - Lượng tử hóa: quá trình lượng tử hóa được thể hiện bằng hàm lượng tử tuyến tính hay phi tuyến. Cụ thể như sau: I.1.1.1 Lấy mẫu Việc biến đổi từ tín hiệu tương tự sang tín hiệu số được gọi là quá trình lấy mẫu (sampling). Trên thực tế, tính chất tương tự của tín hiệu video không đảm bảo đúng với kích thước theo chiều thẳng đứng của ảnh, do một dòng hình ảnh theo chiều đứng được chia thành một số mẫu rời rạc tương đương với một số dòng quét trong nó. Qua đó cung cấp đầu mối cho tốc độ lấy mẫu được dùng theo dòng. Trong khi lấy mẫu tín hiệu theo dòng với một tốc độ được xác định bằng tỷ lệ lấy mẫu theo chiều đứng, thì chúng ta vẫn phải để ý đến các thông số khác. Thông số đầu tiên 12 chúng ta cần lưu ý đến đó là thành phần tần số cực đại của tín hiệu cần số hóa, theo lý thuyết của Nyquist cho phép tần số lấy mẫu No ≥ 2*N. Hình I.1 dưới đây mô tả trực quan tín hiệu tương tự và tín hiệu được số hóa: Hình I.1: Lấy mẫu I.1.1.2. Lượng tử hóa a. Định nghĩa Việc các thông số ảnh hưởng đến độ chính xác trong việc biến đổi từ tín hiệu tương tự sang tín hiệu số được gọi là lượng tử hóa (quatization) và các thông số đó được gọi là các thông số lượng tử hóa. b. Tính toán lượng tử Do tín hiệu gốc là biến thiên liên tục trong cùng một phạm vi hẹp, điều đó cũng có nghĩa là độ chênh lệch đo tại bất kỳ một thời điểm nào (ví du: tại thời điểm lấy mẫu) phụ thuộc hoàn toàn vào độ chính xác của thiết bị đo. Thiết bị biến đổi tín hiệu từ tương tự sang số chia phạm vi tín hiệu thành một số khoảng lượng tử. Các khoảng lượng tử có thể đều hoặc không đều tùy theo công cụ điều chế và mục đích sử dụng. Tuy nhiên để lượng tử hóa tín hiệu hình ảnh thì chúng ta thường sử dụng khoảng lượng tử đều nhằm đạt được ảnh số có độ đồng đều về chất lượng, và cũng vì lẽ đó ảnh số thu được sẽ rất đơn giản trong quá trình xử lý và lọc sau quá trình biến đổi. Đối với mỗi giá trị đầu vào cho trước, bộ lượng tử hóa sẽ tạo ra một giá trị số tương đương với khoảng lượng tử mà tín hiệu đầu vào rơi vào đó. Điều này sẽ dẫn đến sai số, tuy nhiên sai số cho phép không bao giờ vượt quá ½ khoảng lượng tử. Một tín 13 hiệu ngẫu nhiên qua khoảng lượng tử hóa sẽ tạo ra một sai số lượng tử giữa -0.5 và +0.5 khoảng lượng tử đều. Hình I.2 dưới đây là xác suất phân bố các lỗi lượng tử thường gặp trong quá trình lượng tử hóa tín hiệu ảnh. Xác suất -0.5Q 0 +0.5Q Hình I.2: Xác suất sai số lượng tử Các lỗi này được phân biệt với nhiễu thông thường có trong thiết bị thu tín hiệu tương tự, ví dụ nhiễu có phân bố Gauss. Do đó, tính tỉ số tín hiệu trên nhiễu cho một bộ số hóa trên cơ sở số bít tạo ra từ mã là không có hiệu quả. Các nhà nghiên cứu đã chỉ ra rằng, việc tính toán bằng toán học chỉ có thể được nếu phân bố xác suất của sai số lượng tử là đều. Tại các mức tín hiệu thấp, sai số lượng tử không còn là ngẫu nhiên. Nó trở thành một hàm của tín hiệu vào. Nếu tín hiệu nhiễu là một hàm tất định của tín hiệu vào, thì nó có thể được xem là méo hơn là nhiễu. Đối với các mức tín hiệu vào nhỏ hơn đầu vào tương tự, méo lượng tử trở nên quan trọng hơn và ít nhiễu ngẫu nhiên hơn. Việc các hài xuất hiện do các hàm méo lượng tử tất định có thể tạo ra chập phổ trong phổ tần số cơ bản được thể hiện trong hình I.3 dưới đây. Dạng sóng +0.5 Q +0.5 Q Sai số Hình I.3: Các hài tạo bởi sai số lượng tử tất định 14 c. Sai số Điều hiển nhiên là quá trình thu nhận và tạo tín hiệu không thể là hoàn hảo. Thông tin nhận được từ các thiết bị thu đã bị sai lệch và hao hụt so với thực tế do các nguyên nhân như: nhiễu, sai số lượng tử, sai số lấy mẫu…Ngoài ra trong quá trình xử lý dữ liệu camera số chúng ta còn gặp phải những sai lệch do biến dạng ống kính… Đó là một vấn đề hết sức quan trọng trong bài toán xử lý ảnh đa điểm nhìn, nên chúng ta sẽ đề cập sâu hơn trong phần sau. I.2. Video đơn điểm nhìn - đa điểm nhìn I.2.1. Khái niệm video, ảnh động Video, ở dạng tương tự hay dạng số, đều là sự biểu diễn điện tử của một chuỗi các ảnh liên tiếp. Những ảnh này được gọi là các frame. Chuỗi các frame xuất hiện với tốc độ nhanh hơn trong các lần trình diễn ảnh sẽ tạo ra cảm giác đó là những hình ảnh chuyển động liên tục. Mặc dù mỗi frame đều có sự khác nhau, nên cần thiết phải có tốc độ frame cao để đạt được cảm giác chuyển động thực sự. Tốc độ frame và độ phân giải của mỗi frame là các nhân tố quan trọng ảnh hưởng trực tiếp đến chất lượng của ảnh. I.2.2. Đặc điểm và cấu trúc dữ liệu video số I.2.2.1. Đặc điểm Mỗi ảnh video chứa một số lượng hữu hạn các điểm ảnh. Trong truyền hình số NTSC và PAL (tiêu chuẩn 4:2:2), mỗi dòng video tích cực chứa 720 điểm ảnh, NTSC có 486 dòng tích cực trên một ảnh và 30 ảnh/giây. Hệ PAL có 576 dòng tích cực trên ảnh và 25 ảnh/giây. Mỗi một điểm ảnh là tổ hợp 8 bits cho phần tín hiệu độ chói. 4 bits cho phần màu (R-Y) và 4 bits cho phần màu (B-Y). Tổng cộng là 16 bits. Tốc độ bit cho phần tín hiệu tích cực (tín hiệu video) được cho trong bảng sau: NTSC PAL 720 x 486 x 29,97 x 16=168 Mb/s 720 x 576 x 25 x 16=166 Mb/s Bảng I.1: Tốc độ bit cho phần tín hiệu tích cực 15 Công nghệ sử dụng máy tính trong truyền thông đã giúp chúng ta tiết kiệm được thời gian cũng như dung lượng bộ nhớ mà vẫn đảm bảo chất lượng hình ảnh được truyền. Mục đích của khuôn dạng video MPEG (Moving Picture Expert Group) trong việc mã hóa tín hiệu hình ảnh và âm thanh cho DMS (Digital Storage Media) là giảm tốc độ bit trong 2 vùng ảnh động. Vùng thứ nhất là thông tin chứa trong mỗi ảnh (không gian: quan hệ về không gian, ví dụ như: cảnh bầu trời xanh là dư thừa trong tất cả các frame ảnh tiếp theo của một cảnh), vùng thứ hai là các chi tiết không thay đổi từ frame hiện tại sang frame liên tiếp sau đó (thời gian: quan hệ với thời gian). I.2.2.2. Cấu trúc dữ liệu Cấu trúc cú pháp dòng bit của video [4] được chia theo phân cấp thành các lớp với mục đích hỗ trợ quản lý lỗi truy cập ngẫu nhiên, dựng hình và đồng bộ, các lớp được sắp xếp theo trình tự như sau: - Block: là các khối điểm ảnh 8x8 của tín hiệu độ chói và màu được sử dụng trong biến đổi DTC. - Macroblock: một macroblock là một nhóm các khối DTC (sắp xếp theo nội dung thông tin) trong ảnh gốc. Phần header của macroblock chứa thông tin về các khối độ chói, độ tương phản màu sắc và thông tin bù chuyển động. Có 3 loại macroblock (được phân loại theo phương pháp mã hóa macroblock): o Skipped MB: sử dụng dự đoán từ frame giải mã trước đó với véc tơ chuyển động bằng 0. Không có thông tin về macroblock được mã hóa cũng như được truyền đến nơi nhận. o Inter MB: sử dụng dự đoán bù chuyển động từ frame trước đó. Do đó, cần truyền đi kiểu MB, địa chỉ MB, véc tơ chuyển động, các hệ số DTC và kích thước bước lượng tử. o Intra MB: không sử dụng dự đoán từ frame trước đó. Nên chỉ cần truyền kiểu MB, địa chỉ MB, các hệ số DTC và kích thước bước lượng tử đến nơi nhận. 16 - Slice: slice cung cấp khả năng phòng tránh sự sai lệch dữ liệu. Khi gặp lỗi trong dòng bit của một ảnh, bộ giải mã có thể khôi phục bằng cách đợi slice tiếp theo mà không phải hủy bỏ toàn bộ ảnh. Slice chứa header và một hoặc nhiều macroblock liên tiếp. Kích thước slice cực đại có thể là toàn cảnh, kích thước cực tiểu có thể chỉ là một macroblock. Header của slice chứa thông tin về vị trí của nó trong ảnh và hệ số thang độ của phân bố lượng tử hóa. - Picture (frame): một ảnh tương ứng với một frame của video. Có 3 kiểu ảnh chính là I, P, B. Những loại ảnh này không độc lập mà có một sự ràng buộc với nhau thông qua việc biểu diễn video. Qua đó thứ tự dòng bits (tức là thứ tự các ảnh được truyền, lưu trữ và khôi phục) không tuân theo thứ tự hiển thị, mà là thứ tự cho phép bộ giải mã có thể giải mã dòng bit được. Lớp ảnh bao gồm phần header và một hoặc nhiều slice. Header chỉ thị sự sắp xếp để truyền frame, cho phép bộ giải mã hiển thị frame theo đúng bậc, kiểu ảnh và thông tin mã hóa. - GOP (Group of Picture): một nhóm ảnh là một điểm truy cập ngẫu nhiên và là đơn vị mã hóa nhỏ nhất có thể được giải mã độc lập, bao gồm phần header và các hình ảnh. Header chứa thông tin thời gian và dựng hình. Một nhóm ảnh GOP được hình thành từ liên kết một hoặc nhiều frame I, và các frame B và/hoăc P.Cấu trúc GOP được biểu diễn qua hai thông số sau: o n: số frame trong GOP. o m: khoảng cách dự đoán. Thông thường giá trị của n và m tương ứng sẽ là 15 và 3. Mỗi GOP bắt đầu bằng một frame I. Thứ tự các ảnh trong dòng mã là thứ tự mà qua quá trình giải mã sẽ giúp chúng ta khôi phục lại được video ban đầu mà không bị mất thông tin. Đặc biệt, ảnh B trong dòng giải mã được đưa ngay ra màn hình, ảnh mã cuối cùng của nhóm ảnh (trong thứ tự trình diễn) là một ảnh I hoặc P. - Chuỗi Video (Video sequence): là lớp cao nhất của phân cấp mã hóa ảnh video. Chuỗi chứa một header là kích thước theo chiều ngang và đứng của mỗi ảnh, tỉ lệ điểm ảnh, tốc độ bit của từng ảnh trong chuỗi (thông thường là 17 bằng nhau), tốc độ ảnh và kích thước tối thiểu của bộ nhớ cho một bộ giải mã, để khởi gán trạng thái của bộ giải mã. Chuỗi video và thông tin header tạo thành dòng bit mã hóa, được gọi là dòng sơ cấp video ES (Elementary Stream). Các lớp video được mô tả sơ bộ trong hình dưới đây: 4:2:0 Khổi điếm ảnh CB CR Y Macroblock Frame Slice 1 2 3 4 5 Nhóm ảnh GOP Chuỗi video Hình I.4: Sơ đồ các lớp video I.2.2.3. Các loại frame video Căn cứ vào đặc tính của video có sự dư thừa về không gian và thời gian nên trong quá trình nén ảnh, cách lưu trữ video được bố trí dưới các dạng frame sau: - Frame I: là frame đầu tiên trong chuỗi videom frame này được mã hóa độc lập và tương tự như mã hóa ảnh tĩnh theo tiêu chuẩn JPEG. Frame I có thể sử dụng làm điểm truy cập ngẫu nhiên trong chuỗi cho bộ giải mã - Fame P: qua frame I bộ mã hóa có thể dự đoán được hình dạng của frame tiếp theo. Frame được dự đoán gọi là frame P. - Frame B: được gọi là frame dự đoán nội suy 2 chiều và dựa vào cặp frame I - P hoặc P - P. Frame B cho tỉ lệ nén cao nhất và không được sử dụng làm fame tham chiếu. Thứ tự lưu trữ các frame trong chuỗi video được thể hiện trong hình II.5 như sau: 18 I B B P B B P B B I Hình I.5: Thứ tự lưu trữ các frame trong video I.2.2.4. Cơ cấu số hóa tín hiệu video 720 RGB 576 R G B 360 YUV 4:2:2 Y YUV 4:2:0 Y Y Y Y Y 288 180 YUV 4:1:1 Y YY Hình I.6: Các cấu trúc lấy mẫu Quá trình thu nhận video không phải lúc nào cũng cho chúng ta chất lượng tốt nhất, chính vì vậy việc tiền xử lý video là rất cần thiết cho các hệ thống có tính ứng dụng thực tế cao. Dưới đây chúng ta sẽ cũng nhau tìm hiểu mô hình tổng quát áp dụng cho bài toán tiền xử lý ảnh video. Các bước thực hiện của bộ tiền xử lý được mô tả trong hình II.3 như sau [4]: RED A/D Sửa A/D Sửa A/D Sửa GREEN BLUE Fir Filter Thành YC1C2 Fir Filter Tiểu lấy mẫu 2x Fir Filter Tiểu lấy mẫu 2x Hình I.7: Bộ tiền xử lý video
- Xem thêm -