Nén ảnh trong thông tin số thế hệ sau luận án tiến sĩ kỹ thuật

  • Số trang: 130 |
  • Loại file: PDF |
  • Lượt xem: 86 |
  • Lượt tải: 0
hoanggiang80

Đã đăng 24000 tài liệu

Mô tả:

Nén ảnh trong thông tin số thế hệ sau_Luận án tiến sĩ kỹ thuật
i LỜI CAM ĐOAN Tôi cam đoan các kết quả nghiên cứu đƣa ra trong luận án này dựa trên các kết quả thu đƣợc trong quá trình nghiên cứu của riêng tôi, không sao chép bất kỳ kết quả nghiên cứu nào của các tác giả khác. Nội dung của luận án có tham khảo và sử dụng một số thông tin, tài liệu từ các nguồn sách, tạp chí đƣợc liệt kê trong danh mục các tài liệu tham khảo. Trần Mạnh Tuấn ii LỜI CẢM ƠN Luận án Tiến sĩ kỹ thuật này đƣợc thực hiện tại Học viện Công nghệ Bƣu chính Viễn thông. Tôi xin chân thành cảm ơn TS. Phùng Kim Anh và TS. Nguyễn Hữu Hậu đã trực tiếp tận tình hƣớng dẫn, giúp đỡ, tạo mọi điều kiện thuận lợi cho tôi trong suốt quá trình nghiên cứu. Tôi xin cảm ơn Ban lãnh đạo Học viện Công nghệ Bƣu chính Viễn thông, khoa Quốc tế và Sau đại học đã giúp đỡ tôi rất nhiều trong quá trình nghiên cứu, tạo mọi điều kiện thuận lợi về mặt thủ tục cho hoạt động nghiên cứu của tôi. Tôi xin cảm ơn tập thể lãnh đạo Cục Viễn thông - Bộ Thông tin và Truyền thông cùng các đồng nghiệp đã luôn động viên, tạo điều kiện thuận lợi để tôi hoàn thành luận án. Cuối cùng, tôi xin đƣợc bày tỏ lòng biết ơn sâu sắc tới toàn thể gia đình, bạn bè đã luôn động viên, khích lệ tinh thần để tôi có đủ nghị lực hoàn thành luận án. Trần Mạnh Tuấn iii MỤC LỤC LỜI CAM ĐOAN ....................................................................................................... i LỜI CẢM ƠN ............................................................................................................ ii MỤC LỤC ................................................................................................................. iii DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT ..............................................v DANH MỤC CÁC BẢNG....................................................................................... vii DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ ................................................................. viii MỞ ĐẦU .....................................................................................................................1 CHƢƠNG 1: TỔNG QUAN VỀ NÉN VIDEO..........................................................7 1.1. Giới thiệu........................................................................................................7 1.2. Độ dƣ trong tín hiệu video, nhu cầu cần thiết nén video ...............................8 1.2.1. Độ dƣ trong tín hiệu video ...................................................................8 1.2.2. Nhu cầu cần thiết nén video ...............................................................13 1.3. Khái niệm về nén video ...............................................................................13 1.4. Yêu cầu về ứng dụng nén video, một số kỹ thuật nén video .......................18 1.4.1. Yêu cầu về ứng dụng nén video .........................................................18 1.4.2. Một số kỹ thuật nén video ..................................................................21 1.5. Kết luận ........................................................................................................33 CHƢƠNG 2: TỔNG QUAN VỀ ƢỚC LƢỢNG CHUYỂN ĐỘNG CỦA ẢNH ....34 2.1. Giới thiệu......................................................................................................34 2.2. Ƣớc lƣợng chuyển động và các phƣơng pháp ƣớc lƣợng chuyển động ......34 2.2.1. Ƣớc lƣợng chuyển động .....................................................................34 2.2.2. Các phƣơng pháp ƣớc lƣợng chuyển động .........................................39 2.3. Kết luận ........................................................................................................62 CHƢƠNG 3: ƢỚC LƢỢNG CHUYỂN ĐỘNG BẰNG CÁC GIẢI PHÁP MỚI ...64 3.1. Giới thiệu......................................................................................................64 3.2. Ƣớc lƣợng chuyển động bằng Kalman ........................................................65 3.2.1. Đặt bài toán.........................................................................................65 3.2.2. Ƣớc lƣợng chuyển động của ảnh bằng thuật toán Kalman ................66 3.3. Ƣớc lƣợng chuyển động tối ƣu của ảnh trong video....................................72 3.3.1. Đặt bài toán.........................................................................................72 3.3.2. Ƣớc lƣợng chuyển động tối ƣu của ảnh trong video ..........................73 iv 3.4. Ƣớc lƣợng chuyển động của ảnh bằng phƣơng pháp mù ............................76 3.4.1. Đặt bài toán.........................................................................................76 3.4.2. Ƣớc lƣợng chuyển động của ảnh bằng phƣơng pháp mù ...................77 3.5. Kết luận ........................................................................................................92 CHƢƠNG 4: MỘT SỐ KẾT QUẢ TÍNH TOÁN SỐ ..............................................94 4.1. Giới thiệu......................................................................................................94 4.2. Thiết lập mô phỏng ......................................................................................94 4.2.1. Phƣơng pháp Bayes ............................................................................94 4.2.2. Phƣơng pháp Kalman .........................................................................97 4.3. Kết quả và bàn luận ....................................................................................100 4.4. Kết luận ......................................................................................................109 KẾT LUẬN VÀ KIẾN NGHỊ.................................................................................110 DANH MỤC CÔNG TRÌNH CÔNG BỐ CỦA TÁC GIẢ ....................................113 DANH MỤC TÀI LIỆU THAM KHẢO ................................................................114 v DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT BDM Block Distortion Measure Độ đo biến dạng khối BMA Block-Matching Algorithm Thuật toán phối hợp khối BMME Block-Matching Motion Estimation Ƣớc lƣợng chuyển động phối hợp khối DC Direct Current Dòng một chiều DCT Discrete Cosine Transform Biến đổi Cosine rời rạc DFD Displaced Frame Difference Hiệu dịch chuyển khung DFT Discrete Fourier Transform Biến đổi Fourier rời rạc DMS Discrete Memoryless Source Nguồn không nhớ rời rạc DPCM Differential Pulse Code Modulation Điều chế xung mã vi sai DVB-H Digital Video Broadcasting - Handheld Phát quảng bá video kỹ thuật số Thiết bị cầm tay ECC Error Correction Code Mã sửa sai FD Frame Difference Độ lệch khung FFT Fast Fourier Transform Biến đổi Fourier nhanh FT Fourier Transform Biến đổi Fourier HD Horizontal Difference Độ lệch trục ngang HDTV High Definition Television Truyền hình độ phân giải cao HVS Human Visual System Hệ thống nhìn của con ngƣời IBM Ideal Binary Mask Mặt nạ nhị phân lý tƣởng IDCT Inverse DCT Biến đổi ngƣợc DCT IDFT Inverse DFT Biến đổi ngƣợc DFT KLT Karhunen-Loève Transform Biến đổi Karhunen-Loève LMS Least Mean Square Bình phƣơng trung bình tối thiểu MAE Mean Absolute Error Sai số tuyệt đối trung bình MAP Maximum A posteriori Probability Cực đại xác suất hậu nghiệm MC Motion Compensation Bù chuyển động vi ML Maximum Likelihood Hợp lý cực đại MPEG Moving Picture Experts Group Nhóm chuyên gia về hình ảnh động MRF Markov Random Field Trƣờng ngẫu nhiên Markov MSE Mean Squared Error Sai số trung bình bình phƣơng NCCF Normalized Cross Correlation Function Hàm tƣơng quan chéo chuẩn hóa NGN Next Generation Network Mạng thế hệ kế tiếp NTSC National Television System Committee Ủy ban truyền hình quốc gia PSNR Peak Signal to Noise Ratio Tỷ số tín hiệu đỉnh trên nhiễu SAD Sum of Absolute Differences Tổng các sai phân tuyệt đối SSD Sum Squared Difference Tổng các sai phân bình phƣơng TSVQ Tree-Structured Vector Quantizers Lƣợng tử véctơ có cấu trúc cây TV Television Máy thu hình VD Vertical Difference Độ lệch trục đứng VLC Variable Length Coding Mã hóa với độ dài từ mã thay đổi VQ Vector Quantization Lƣợng tử véctơ 2D Two-Dimensional 2 chiều 3D Three-Dimensional 3 chiều 3G Third-Generation Thế hệ thứ ba vii DANH MỤC CÁC BẢNG Bảng 2.1 Độ phức tạp tính toán của SSD, SAD và NCCF với khối N  N .............51 Bảng 4.1 Bảng thống kê thời gian tính toán theo phƣơng pháp Bayes ...................107 Bảng 4.2 Bảng thống kê thời gian tính toán theo phƣơng pháp Kalman ................108 viii DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Hình 1.1 Nén video trong truyền video .......................................................................8 Hình 1.2 Hàm tự tƣơng quan theo chiều ngang của một số bức ảnh ..........................9 Hình 1.3 Phổ công suất đặc trƣng của tín hiệu TV quảng bá ...................................10 Hình 1.4 (a) khung thứ 21 và (b) khung thứ 22 của dãy ảnh “Hoa hậu Mỹ” ...........11 Hình 1.5 Hệ thống nén video tổng quát ....................................................................15 Hình 1.6 Tính chu kỳ tái cấu trúc của DFT và DCT .................................................25 Hình 1.7 Biến đổi DCT ảnh của Lena: (a) ảnh gốc, (b) ảnh tái cấu trúc ..................26 Hình 1.8 (a) Khối con 8×8 ảnh gốc của Lena; (b) Các hệ số DCT ..........................26 Hình 1.9 Ƣớc lƣợng chuyển động phối hợp tốt nhất ................................................31 Hình 1.10 Biểu diễn thuật toán tìm kiếm ba bƣớc ....................................................32 Hình 2.1 Hình chiếu chuyển động.............................................................................35 Hình 2.2 Ƣớc lƣợng chuyển động phối hợp khối .....................................................48 Hình 2.3 Tái xác lập chất lƣợng của SSD, SAD, NCCF ..........................................50 Hình 2.4 Ba loại hồi quy khác nhau ..........................................................................52 Hình 2.5 Phƣơng pháp dốc nhất ................................................................................54 Hình 2.6 Mô tả phƣơng pháp Newton-Raphson .......................................................57 Hình 4.1 a) Khung 1512 và b) Khung 1513 của videoclip-1 ..................................100 Hình 4.2 a) Khung 434 và b) Khung 435 của videoclip-2 ......................................101 Hình 4.3 Trƣờng chuyển động của videoclip-1, phƣơng pháp Bayes (λ=100) ......102 Hình 4.4 Trƣờng chuyển động của videoclip-1, phƣơng pháp Bayes (λ=1500) ....102 Hình 4.5 Trƣờng chuyển động của videoclip-1, phƣơng pháp Kalman (L=10) .....104 Hình 4.6 Trƣờng chuyển động của videoclip-1, phƣơng pháp Kalman (L=100) ...104 Hình 4.7 Trƣờng chuyển động của videoclip-2, phƣơng pháp Bayes (λ=100) ......106 Hình 4.8 Trƣờng chuyển động của videoclip-2, phƣơng pháp Kalman (L=100) ...106 Hình 4.9 Đồ thị biểu diễn thời gian tính toán theo phƣơng pháp Bayes.................107 Hình 4.10 Đồ thị biểu diễn thời gian tính toán theo phƣơng pháp Kalman ............108 1 MỞ ĐẦU Giới thiệu Nén video là chủ đề đã và đang thu hút sự quan tâm của các nhà nghiên cứu trên thế giới. Việc tìm giải pháp nén video luôn hƣớng tới mục tiêu làm sao tăng hiệu quả nén trong khi giảm thiểu sự biến dạng hình ảnh mà quá trình nén gây ra. Hai yêu cầu này thƣờng mâu thuẫn với nhau. Vì vậy, tùy ứng dụng cụ thể mà ngƣời ta chọn giải pháp nén phù hợp để dung hòa giữa hai yếu tố. Hiện nay trên thế giới cũng nhƣ ở Việt Nam đã triển khai mạng thông tin thế hệ sau. Một trong các đặc điểm của mạng thông tin thế hệ sau là truyền tải tất cả các thông tin và các dịch vụ trên cơ sở sử dụng công nghệ chuyển mạch mềm, cho phép cung cấp các dịch vụ đa phƣơng tiện đến ngƣời sử dụng. Trong đó, các dịch vụ đa phƣơng tiện sử dụng video bao gồm: điện thoại video, hội nghị truyền hình, y tế từ xa, đào tạo từ xa, xem các chƣơng trình video phát quảng bá hoặc theo yêu cầu… Các dịch vụ của mạng thông tin thế hệ sau không chỉ trong suốt trên mạng cố định mà với xu thế hội tụ cố định - di động thì chúng cũng phải trong suốt đến tận máy đầu cuối di động. Để đáp ứng yêu cầu đó, cần tìm ra các phƣơng pháp nén video hiệu quả để giải quyết một số bài toán đặt ra ở đây là: - Nguồn tài nguyên tần số của môi trƣờng vô tuyến là hữu hạn, vì vậy có giải pháp gì để tăng hiệu suất sử dụng tài nguyên đó. - Kênh truyền dẫn vô tuyến có tác động tiềm tàng của nhiễu, vì vậy có thuật toán xử lý tín hiệu mà chống đƣợc ảnh hƣởng đó không. - Thiết bị đầu cuối di động có kích thƣớc bé, nguồn năng lƣợng pin cung cấp cho nó hạn chế, vì vậy có giải pháp nào để tăng tốc độ xử lý nhằm tiết kiệm nguồn điện. Nhiều công trình nghiên cứu đã đƣợc công bố tập trung vào giải pháp nén tín hiệu video với mục tiêu là giảm băng tần cần thiết giành cho phổ tần tín hiệu video. 2 Trong đó đặc trƣng là các công trình mã tốc độ thấp [4], [15], [24], [35], [64], [68] hoặc là giải pháp ƣớc lƣợng chuyển động của ảnh trong video. Trong hệ thống nén video thì bù chuyển động là một bộ phận rất quan trọng, đóng vai trò then chốt, đƣợc Netravali và Robbins đƣa ra năm 1997. Bù chuyển động là một kỹ thuật dự đoán hƣớng theo thời gian, nó ƣớc lƣợng độ dịch chuyển của mục tiêu chuyển động từ khung tham chiếu đến khung hiện tại. Ƣớc lƣợng chuyển động thu đƣợc dự đoán bù chuyển động bằng cách tìm véctơ chuyển động giữa khung tham chiếu và khung hiện tại. Giai đoạn đầu ngƣời ta sử dụng phƣơng pháp Bayes để ƣớc lƣợng chuyển động của ảnh. Phƣơng pháp Bayes xét đặc điểm tự nhiên của nội dung ảnh và hiệu giữa các khung liên tiếp, mô tả đƣợc bản chất xuất hiện của ảnh nhƣng việc tính toán phức tạp, đặc biệt khi phân bố nhiều chiều. Đồng thời, chúng ta cũng biết rằng để sử dụng đƣợc công thức Bayes thì điều kiện tiên quyết là dãy ảnh phải là dãy xác suất đầy đủ. Đó là điều kiện tính toán khó vì phải nhận biết đƣợc dãy ảnh có thỏa mãn điều kiện “đầy đủ” hay không, nếu không thì quá trình ƣớc lƣợng sẽ phạm phải sai số đáng kể. Trong những năm gần đây, một số tác giả đã mở rộng phƣơng pháp Bayes cho ƣớc lƣợng ảnh [57]. Rất nhiều nỗ lực đã đƣợc thực hiện trong ƣớc lƣợng IBM thông qua phƣơng pháp học thống kê bằng Bayes. Tuy nhiên, nhƣợc điểm của nó là mặt nạ đƣợc ƣớc lƣợng cho từng đơn vị thời gian - tần số một cách độc lập mà không tính đến mối tƣơng quan giữa chúng. Trong [57], Shan Liang, Wenju Liu và Wei Jiang đã đề cập đến mối tƣơng quan đó bằng thông tin tƣơng quan địa phƣơng. Họ đã sử dụng những biến phụ để chỉ ra mối tƣơng quan. Phƣơng pháp này đã chứng tỏ có độ chính xác cao hơn phƣơng pháp Bayes thông thƣờng. Tuy vậy, phƣơng pháp này đã bỏ qua một số tham số thống kê bậc hai vì vậy làm hạn chế độ chính xác trong ƣớc lƣợng chuyển động. Bên cạnh những ƣu điểm của phƣơng pháp Bayes thì bản thân nó bộc lộ những điều kiện ứng dụng mà không phải dãy ảnh chuyển động nào cũng thỏa mãn, 3 đó là tính độc lập, tính đầy đủ. Vì vậy, những năm gần đây đã xuất hiện ƣớc lƣợng chuyển động của ảnh bằng lọc Kalman làm tăng tốc độ xử lý. Điển hình năm 2009, Nai-Chung Yang, Chaur Heh Hsieh và Chung Ming Kuo [50] đã công bố công trình ƣớc lƣợng chuyển động trong mã hóa video bằng lọc Kalman. Trong [50], các tác giả đã sử dụng mô hình ƣớc lƣợng ba chiều. Tuy nhiên, các tác giả đã không tính trực tiếp ba chiều trong các thuật toán Kalman mà đã giả thiết về tính độc lập để đƣa về tính trong không gian một chiều bằng phƣơng pháp hồi qui và lọc Kalman địa phƣơng. Vì vậy, [50] còn có những hạn chế sau: - Mô hình địa phƣơng chỉ trợ giúp cho biến đổi không gian và thời gian sau đó phải cải tiến biểu diễn không gian trạng thái. Biểu diễn không gian trạng thái của mô hình địa phƣơng không gian và thời gian một cách riêng biệt. - Ƣớc lƣợng chuyển động có ràng buộc tốc độ bằng lọc Kalman, mới đƣa ra hàm mục tiêu bằng cách cực tiểu hàm Lagrange, chƣa chỉ ra thuật toán. - Mới đƣa ra sơ đồ khối thuật toán ƣớc lƣợng chuyển động nâng cao kết hợp lọc Kalman với thuật toán BMA để nâng cao độ chính xác ƣớc lƣợng, chƣa chỉ ra thuật toán cụ thể. Để tăng tốc độ xử lý, cải tiến độ bám chuyển động, ngƣời ta đã đƣa ra các phƣơng pháp ƣớc lƣợng chuyển động có tốc độ nhanh hơn, có độ phối hợp tốt giữa các khung ảnh [28], [36], [37], [43], [47], [58], [70]. Tuy vậy, việc ƣớc lƣợng chuyển động vẫn chủ yếu dựa trên không gian hai chiều còn trong không gian ba chiều thì họ vẫn phải chuyển từ không gian ba chiều sang hai chiều [26]. Trong luận án này, nghiên cứu sinh sẽ tiếp tục nghiên cứu áp dụng lọc Kalman để ƣớc lƣợng chuyển động của ảnh với các giải pháp mở rộng hơn: - Ƣớc lƣợng chuyển động của ảnh bằng Kalman một bƣớc. - Ƣớc lƣợng chuyển động của ảnh bằng Kalman nhiều bƣớc, nhiều chiều. - Ƣớc lƣợng chuyển động tối ƣu của ảnh trong video bằng lọc Kalman. 4 Để giải quyết bài toán nâng cao hiệu quả sử dụng băng tần hơn nữa, đồng thời tăng độ chính xác ƣớc lƣợng trong môi trƣờng kênh có nhiễu lớn và fading, luận án đã nghiên cứu, đề xuất ứng dụng thuật toán mù. Tính cấp thiết của đề tài Hiện nay, với việc triển khai mạng thông tin thế hệ sau đã mở đƣờng cho nhiều ứng dụng mới ra đời nhƣ truyền tín hiệu video trên các phƣơng tiện thông tin di động, đa môi trƣờng. Nhƣng làm sao để nâng cao hiệu quả sử dụng tài nguyên băng tần, hạn chế tối đa tác động tiềm tàng của nhiễu trong môi trƣờng truyền dẫn vô tuyến thì bài toán đặt ra là phải nén tín hiệu video sao cho hiệu quả nhất mà vẫn đảm bảo chất lƣợng hình ảnh với sự trợ giúp đắc lực của công nghệ thông tin. Vì vậy, đề tài này là một chủ đề cấp thiết cho ứng dụng truyền video trên các mạng viễn thông đa môi trƣờng thế hệ mới. Mục tiêu nghiên cứu Luận án tìm các thuật toán hợp lý để ƣớc lƣợng chuyển động của ảnh trong video sao cho dễ tính toán, đảm bảo độ bám chuyển động của ảnh một cách tốt nhất. - Nghiên cứu đề xuất ứng dụng thuật toán ƣớc lƣợng chuyển động trong không gian nhiều chiều với nghiệm ƣớc lƣợng chuyển động tối ƣu, độ bám tốt. - Tăng hiệu quả sử dụng băng tần truyền dẫn bằng các thuật toán không cần sử dụng tín hiệu đào tạo. - Thuật toán ƣớc lƣợng làm việc ổn định trong điều kiện kênh có nhiễu. Đối tƣợng, phạm vi và phƣơng pháp nghiên cứu Luận án nghiên cứu các phƣơng pháp nén video số, ứng dụng truyền video trong mạng thông tin di động thế hệ mới. Đây là một phạm vi rộng, bao gồm: lƣợng tử hóa, ƣớc lƣợng chuyển động của ảnh, mã hóa - giải mã. Luận án tập trung vào việc nghiên cứu các thuật toán ƣớc lƣợng chuyển động của ảnh, phân tích các kết quả nghiên cứu chuyển động ảnh đã có trƣớc đây; nghiên cứu các thuật toán ƣớc lƣợng về mặt toán học từ đó tìm ra thuật toán ƣớc lƣợng hợp 5 lý để đạt mục tiêu đề ra. Từ phân tích toán học, luận án dùng công cụ mô phỏng để kiểm chứng. Ý nghĩa khoa học và thực tiễn Ý nghĩa khoa học: Làm phong phú hơn về lý luận ƣớc lƣợng chuyển động của ảnh bằng các thuật toán lặp, đó là: - Dùng thuật toán Kalman: Đây là phƣơng pháp lặp, sử dụng trong không gian nhiều chiều và chỉ ra nghiệm tối ƣu của ƣớc lƣợng chuyển động. - Dùng thuật toán mù: Đây là phƣơng pháp lặp, không cần sử dụng tham chiếu trƣớc mà chỉ cần mối tƣơng quan giữa hai khung ảnh là ƣớc lƣợng đƣợc chuyển động của ảnh. Ý nghĩa thực tiễn: Mở ra khả năng tính toán mới để ƣớc lƣợng ảnh nhanh hơn, có độ bám chuyển động tốt hơn, tránh đƣợc những thông tin dƣ thừa do độ bám chuyển động không tốt gây ra; ứng dụng trong môi trƣờng có nhiễu. Nội dung luận án Nội dung của luận án đƣợc bố cục với các phần chính nhƣ sau: Mở đầu: Giới thiệu bài toán và phƣơng pháp nghiên cứu. Chƣơng 1 - Tổng quan về nén video: Giới thiệu vai trò, vị trí, yêu cầu, mô hình hệ thống và một số kỹ thuật nén video. Chƣơng 2 - Tổng quan về ƣớc lƣợng chuyển động của ảnh: Đây là chƣơng đƣa ra những kiến thức cơ bản về ƣớc lƣợng chuyển động của ảnh, những thuật toán hiện có, đánh giá ƣu điểm và nhƣợc điểm của những thuật toán hiện có. Chƣơng 3 - Ƣớc lƣợng chuyển động bằng các giải pháp mới: Chƣơng này đề xuất áp dụng những thuật toán mới cho việc ƣớc lƣợng chuyển động của ảnh, đó là thuật toán Kalman và thuật toán mù. 6 Chƣơng 4 - Một số kết quả tính toán số: Trình bày một số kết quả mô phỏng từ đó đƣa ra nhận xét, so sánh hiệu năng giữa phƣơng pháp Bayes và phƣơng pháp Kalman. Kết luận và kiến nghị: Nêu lên các kết quả đã đạt đƣợc của luận án và chỉ ra các hƣớng nghiên cứu tiếp theo. 7 CHƢƠNG 1: TỔNG QUAN VỀ NÉN VIDEO 1.1. Giới thiệu Để truyền đƣợc các chƣơng trình video trên các hệ thống thông tin di động, một bài toán đặt ra là phải nén hình ảnh để tiết kiệm băng tần truyền dẫn mà vẫn đảm bảo chất lƣợng hình ảnh. Đây là một yêu cầu đã và đang đƣợc nhiều nhà nghiên cứu quan tâm. Truyền dẫn số tín hiệu ảnh động qua các hệ thống vệ tinh đã đƣợc nghiên cứu từ năm 1990, trong đó nén video bằng phƣơng pháp mã hoá đóng vai trò rất quan trọng. Cho đến nay, khi các hệ thống thông tin di động 3G và hệ thống NGN ra đời cho phép truyền các chƣơng trình video trên đó thì việc nghiên cứu tìm ra các giải pháp nén mới càng đòi hỏi cấp thiết hơn bao giờ hết. Nhóm chuyên gia về hình ảnh động (MPEG) đã hoàn thiện hai bộ tiêu chuẩn về mã hoá video là MPEG-1 và MPEG-2, xác định các phƣơng pháp truyền thông tin video số theo các định dạng truyền hình và đa môi trƣờng. Ngày nay MPEG-4 đang nhắm vào việc truyền video tốc độ bit rất thấp; còn MPEG-7 đƣa ra chuẩn hoá trong các dịch vụ lƣu trữ và phục hồi video. Trong hoàn cảnh mạng thế hệ mới NGN và di động thế hệ sau tiếp tục đòi hỏi phải hoàn thiện hơn các thuật toán nén - giải tín hiệu video số với mục đích làm cho chất lƣợng hình ảnh tốt hơn, băng tần truyền dẫn thấp hơn. Nén video số là một quá trình trong đó ngƣời ta tìm các giải pháp để giảm số lƣợng số liệu biểu thị hình ảnh video để đáp ứng tốc độ bit yêu cầu mà vẫn đáp ứng chất lƣợng video đƣợc khôi phục ở phía thu phải thỏa mãn yêu cầu ứng dụng và độ phức tạp tính toán. Hình 1.1 biểu thị sơ đồ khối chức năng nén số liệu video trong hệ thống truyền dẫn. Nén video có nhiệm vụ rất quan trọng vì lƣợng dƣ của số liệu trong các hình ảnh nguyên thủy thƣờng lớn hơn nhiều dung lƣợng mà các thiết bị điện tử ngày nay có thể xử lý. Ta cũng biết rằng thông tin và số liệu là hai khái niệm khác nhau nhƣng liên quan chặt chẽ với nhau. Số liệu biểu thị thông tin và chất lƣợng số liệu có thể đo đƣợc. Nội dung của số liệu video thƣờng đƣợc đo bằng số đơn vị bit; còn thông tin 8 đƣợc xác định bằng sự nhận biết. Nhƣ vậy toàn bộ số liệu biểu thị sự nhận biết, tuy vậy nó cũng có đơn vị đo của nó. Đầu vào Nén Video Truyền hoặc Lƣu trữ Tái cấu trúc số liệu Đầu ra Hình 1.1 Nén video trong truyền video Tốc độ bit hay còn gọi là tốc độ mã hóa là một tham số quan trọng trong nén video và thƣờng đƣợc biểu thị bằng đơn vị bit/giây. Trong mã hóa nguồn tin, đôi lúc tốc độ bit đƣợc biểu thị bit trên ký hiệu. Chất lƣợng hình ảnh đƣợc cấu trúc lại ở phía thu phụ thuộc vào ứng dụng vì vậy sẽ có loại nén tổn thất và nén không tổn thất. Trong ứng dụng truyền các ảnh động, các chƣơng trình truyền hình thì cho phép một lƣợng tổn thất nào đó. Từ định nghĩa này, ta có thể nhận thấy rằng nén số liệu video có một số khái niệm cơ bản bao gồm: thông tin, số liệu, chất lƣợng nhìn đƣợc của video và độ phức tạp tính toán. Chƣơng này tập trung vào một số vấn đề chính nhƣ sau: - Phân tích độ dƣ trong tín hiệu video, nhu cầu cần thiết nén video. - Khái niệm về nén video. - Yêu cầu về ứng dụng nén video và một số kỹ thuật nén video. 1.2. Độ dƣ trong tín hiệu video, nhu cầu cần thiết nén video 1.2.1. Độ dƣ trong tín hiệu video 1- Độ dƣ thống kê của ảnh Độ dƣ thống kê có thể đƣợc phân thành hai kiểu: độ dƣ giữa các pixel và độ dƣ mã hóa. Độ dƣ giữa các pixel có nghĩa là các pixel của một khung ảnh và các pixel của một nhóm các khung ảnh hoặc video liên tiếp không độc lập thống kê với nhau. Trái lại, chúng tƣơng quan với nhau theo mức độ khác nhau. Kiểu tƣơng quan giữa các pixel nhƣ vậy đƣợc coi là độ dƣ giữa các pixel. Độ dƣ giữa các pixel có thể 9 đƣợc chia thành hai loại: độ dƣ không gian và độ dƣ thời gian. Độ dƣ mã hoá là độ dƣ thống kê liên quan đến các kỹ thuật mã hóa. a) Độ dƣ không gian Độ dƣ không gian thể hiện mối tƣơng quan thống kê giữa các pixel trong một khung ảnh. Do đó nó còn đƣợc gọi là độ dƣ ngoài khung. Ta biết rằng các giá trị cƣờng độ của các pixel thuộc một hàng (hoặc một cột) có hệ số tự tƣơng quan rất cao (gần bằng độ tự tƣơng quan cực đại là 1) với các giá trị cƣờng độ của các pixel thuộc chính hàng đó (hoặc chính cột đó) nhƣng bị dịch đi một pixel. Điều này không hề bất ngờ bởi vì hầu hết các giá trị cƣờng độ thay đổi liên tục từ pixel này đến pixel khác trong một khung ảnh, ngoại trừ các miền rìa [27]. Từ những năm 1950, ngƣời ta đã bắt đầu nghiên cứu về các đặc tính thống kê của tín hiệu video nhằm mục đích hiểu đƣợc độ dƣ để loại bỏ độ dƣ. [47] đã thiết kế một số dụng cụ thực nghiệm để đo một số đại lƣợng thống kê của ảnh. Tác giả đã nhận thấy rằng độ tự tƣơng quan theo cả chiều ngang và chiều dọc đều biểu lộ tƣơng tự nhau, nhƣ đƣợc chỉ ra trên hình 1.2. Hàm tự tƣơng quan 1.0 Dịch chuyển pixel -50 -40 -30 -20 -10 0 10 20 30 40 50 Hình 1.2 Hàm tự tƣơng quan theo chiều ngang của một số bức ảnh Tác giả đã đo đƣợc các hàm tự tƣơng quan của một số bức ảnh có độ phức tạp khác nhau và nhận thấy rằng, từ ảnh này đến ảnh kia, hình dạng của các đƣờng 10 cong tự tƣơng quan sắp xếp theo thứ tự từ gần nhƣ là đƣờng thẳng tới hơi giống đƣờng hàm số mũ. Khi độ dịch pixel nhỏ, độ tự tƣơng quan cao. Độ tự tƣơng quan có thể cao tới mức 0,97 đến 0,99 với độ dịch một hoặc hai pixel. Biến đổi Fourier của hàm tự tƣơng quan, còn gọi là phổ công suất, cũng là một hàm quan trọng trong việc nghiên cứu biểu lộ đặc tính thống kê. Hình 1.3 biểu thị phổ công suất đặc trƣng của tín hiệu TV [4] và ngƣời ta cũng cho rằng phổ khá phẳng cho đến 30kHz. Ngoài tần số này phổ bắt đầu tụt xuống với tốc độ khoảng 6dB/Octave. Điều này biểu lộ rằng sự tập trung lớn của các tín hiệu video là ở các tần số thấp, có thể coi độ rộng băng tần chuẩn của video là 5MHz. Công suất tƣơng đối (db) 0 -10 -20 -30 -40 -50 f (Hz) -60 10 k 100 k 1.000 k 10.000 k Hình 1.3 Phổ công suất đặc trƣng của tín hiệu TV quảng bá Độ dƣ không gian ngụ ý rằng giá trị cƣờng độ của một pixel có thể đƣợc ƣớc lƣợng theo giá trị cƣờng độ của các pixel lân cận nó. Nói một cách khác, ngƣời ta không cần miêu tả từng pixel trong khung ảnh một cách độc lập. Thay vào đó, ngƣời ta có thể dự đoán một pixel từ các pixel ở bên cạnh nó. Mã hóa dự đoán là một loại mã hóa vi sai dựa vào nhận xét này. Thành quả trực tiếp của việc nhận biết độ dƣ không gian là bằng cách loại bỏ một số lƣợng lớn độ dƣ thừa trong một khung ảnh, chúng ta có thể tiết kiệm đƣợc rất nhiều dữ liệu trong việc biểu thị khung, vì vậy đạt đƣợc việc nén dữ liệu. 11 b) Độ dƣ thời gian Độ dƣ thời gian có liên quan với tƣơng quan thống kê giữa các pixel của các khung liên tiếp trong một dãy ảnh hoặc video theo thời gian. Vì vậy nó còn đƣợc gọi là độ dƣ giữa các khung. Xét một dãy ảnh theo thời gian, với điều kiện là khoảng thời gian giữa hai bức ảnh đủ ngắn, tức là các bức ảnh đƣợc chụp đủ dày đặc, chúng ta có thể hình dung rằng đặc điểm giống nhau giữa hai khung là rất lớn. Hình 1.4 (a) và hình 1.4 (b) tƣơng ứng với khung thứ 21 và khung thứ 22 của dãy ảnh “Hoa hậu Mỹ”. Các khung có độ phân giải là 176×144. Từ khung thứ 21 sang khung thứ 22, trong tổng số 25.344 pixel chỉ có 3,4% thay đổi giá trị xám vào khoảng hơn 1% của giá trị xám cực đại (trong trƣờng hợp này là 255). Điều này khẳng định nhận xét của Mounts trong [44]: đối với tín hiệu giống nhƣ điện thoại video có dịch chuyển vừa phải trong cảnh, trung bình có ít hơn 10% pixel thay đổi các giá trị xám giữa hai khung liên tiếp vào khoảng 1% tín hiệu đỉnh. Hình 1.4 (a) khung thứ 21 và (b) khung thứ 22 của dãy ảnh “Hoa hậu Mỹ” Điều đó dẫn ta tới suy nghĩ là có thể dự đoán một khung từ các khung cạnh nó theo miền thời gian bằng cách mã hóa dự đoán trong khung và cũng giúp nghiên cứu sinh hƣớng tới ý tƣởng sử dụng hàm tƣơng quan giữa các pixel để ƣớc lƣợng sự chuyển động của các khung kế tiếp nhau. Đó sẽ là một đề xuất của luận án sẽ đƣợc trình bày ở chƣơng 3: ƣớc lƣợng chuyển động của ảnh bằng phƣơng pháp mù. 12 Kretzmer cũng đã chỉ ra rằng những thay đổi từ một khung sang khung kế tiếp chủ yếu là do sự chuyển động của một số vật thể trong khung. Nghiên cứu thông tin chuyển động này sẽ đƣa ra đƣợc giải pháp mã dự đoán bù chuyển động. Điều này luận án sẽ nghiên cứu kỹ ở các chƣơng sau và sẽ đƣa ra giải pháp khắc phục độ dƣ thời gian, nghĩa là nén số liệu. c) Độ dƣ mã Nhƣ đã nói ở trên, độ dƣ giữa các pixel liên quan đến độ tƣơng quan giữa các pixel. Điều đó có nghĩa rằng một số thông tin liên quan đến các pixel là thừa. Độ dƣ về khả năng nhìn có liên quan đến những thông tin dƣ thừa về mặt nhìn thấy đƣợc, tức là với nó hệ thống nhìn của con ngƣời (HVS) không nhạy. Do vậy, rõ ràng cả hai độ dƣ là độ dƣ giữa các pixel và độ dƣ khả năng nhìn vì một lý do nào đó gắn với một số thông tin chứa trong hình ảnh và video. Loại bỏ các độ dƣ này hoặc sử dụng các mối tƣơng quan này bằng cách sử dụng số bit ít hơn để biểu diễn thông tin sẽ cho ta kết quả nén dữ liệu hình ảnh và video. Với nghĩa đó thì độ dƣ mã là khác, nó không thực hiện việc gì đối với sự dƣ thừa thông tin mà nó thực hiện với việc biểu diễn thông tin, nghĩa là chính việc mã hoá. Từ việc nghiên cứu độ dƣ mã, rõ ràng là chúng ta nên tìm kiếm các kỹ thuật mã hiệu quả hơn để nén dữ liệu hình ảnh và video. Mã Huffman và mã số học là hai kỹ thuật mã hóa VLC thƣờng đƣợc dùng trong xử lý ảnh và video. 2- Độ dƣ khả năng nhìn thấy Trong khi độ dƣ giữa các pixel vốn đã có trong số liệu hình ảnh và video, độ dƣ khả năng nhìn thấy bắt nguồn từ các đặc trƣng về hệ thống nhìn của con ngƣời. Ta biết rằng HVS cảm nhận đƣợc thế giới bên ngoài theo một cách thức khá phức tạp. Đáp ứng của nó đối với các tác nhân nhìn không phải là một hàm tuyến tính theo cƣờng độ của một vài thuộc tính vật lý, nhƣ độ sáng và màu. Năng lực tri giác của HVS khác hẳn với độ nhạy của camera. Trong HVS, thông tin nhìn thấy không đƣợc cảm nhận nhƣ nhau, một số thông tin có thể quan trọng hơn một số thông tin khác. Điều đó có nghĩa rằng nếu chúng ta sử dụng ít dữ liệu hơn để biểu diễn những
- Xem thêm -