Đăng ký Đăng nhập
Trang chủ Giáo dục - Đào tạo Cao đẳng - Đại học Phát triển mô hình tạp âm tương quan nhằm nâng cao hiệu năng mã hóa của kỹ thuật...

Tài liệu Phát triển mô hình tạp âm tương quan nhằm nâng cao hiệu năng mã hóa của kỹ thuật mã hóa video phân tán dvc

.PDF
52
166
124

Mô tả:

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌCGIA CÔNG ĐẠI HỌC QUỐC HÀ NGHỆ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ VŨ THỊ QUỲNH ANH Vũ Thị Quỳnh Anh PHÁTPHÁT TRIỂNTRIỂN MÔ HÌNH TẠP ÂM TƯƠNG QUANQUAN NHẰM MÔ HÌNH TẠP ÂM TƯƠNG NÂNG HIỆU NĂNG HÓAMÃ CỦA KỸCỦA THUẬT MÃ HÓA NHẰMCAO NÂNG CAO HIỆUMÃ NĂNG HÓA KỸ THUẬT VIDEO PHÂN TÁNTÁN DVCDVC MÃ HÓA VIDEO PHÂN LUẬN VĂN THẠC SỸ NGÀNH ĐIỆN TỬ VIỄN THÔNG Chuyên ngành: Kỹ thuật viễn thông LUẬN VĂN THẠC SĨ NGÀNH CÔNG NGHỆ KỸ THUẬT ĐIỆN TỬ - VIỄN THÔNG Người hướngngành: dẫn khoa TS.viễn Hoàng Văn Xiêm Chuyên Kỹhọc: thuật thông TS. Đinh Triều Dương HÀ NỘI, 2019 HÀ NỘI, 2019 LỜI CAM ĐOAN Tôi xin cam đoan đề tài “PHÁT TRIỂN MÔ HÌNH TẠP ÂM TƯƠNG QUAN NHẰM NÂNG CAO HIỆU NĂNG MÃ HÓA CỦA KỸ THUẬT MÃ HÓA VIDEO PHÂN TÁN DVC” do TS. Hoàng Văn Xiêm và TS. Đinh Triều Dương hướng dẫn là công trình nghiên cứu của tôi. Các nội dung nghiên cứu, kết quả trong luận văn này là trung thực và không sao chép các công trình của người khác. Tất cả các tài liệu tham khảo được sử dụng trong khóa luận này được ghi rõ nguồn gốc và ghi tên tác giả. Nếu có sai sót, tôi xin chịu hoàn toàn trách nhiệm. Hà Nội, ngày tháng năm 2019 Tác giả Vũ Thị Quỳnh Anh 2 LỜI CẢM ƠN Em xin bày tỏ lòng biết ơn sâu sắc đến hai thầy TS. Hoàng Văn Xiêm và TS. Đinh Triều Dương đã tận tình hướng dẫn và hỗ trợ em hoàn thành luận văn này. Em cũng xin cảm ơn các thầy cô giáo của khoa Điện tử Viễn thông, Trường Đại học Công nghệ - Đại học Quốc gia Hà Nội đã giảng dạy cho em những kiến thức bổ ích trong suốt quá trình học tập tại trường. Cuối cùng, em xin bày tỏ lòng biết ơn vô hạn với gia đình thân yêu của mình. Cảm ơn những người bạn thân thiết đã chăm sóc, khích lệ trong quá trình học tập nghiên cứu. Trong quá trình thực hiện luận văn này, do kiến thức còn hạn chế, không thể tránh khỏi những thiếu sót, em rất mong nhận được những ý kiến góp ý của các thầy cô để em có thể tiếp tục hoàn thiện và phát triển đề tài này. Hà Nội, tháng năm 2019 Vũ Thị Quỳnh Anh 3 MỤC LỤC LỜI CAM ĐOAN .......................................................................................................... 2 MỤC LỤC ...................................................................................................................... 4 DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT .................................................. 6 DANH MỤC HÌNH VẼ................................................................................................. 8 DANH MỤC BẢNG BIỂU ........................................................................................... 9 PHẦN MỞ ĐẦU .......................................................................................................... 10 PHẦN NỘI DUNG ...................................................................................................... 12 CHƯƠNG 1 .................................................................................................................. 12 1.1 Đặt vấn đề ............................................................................................................ 12 1.2 Tổng quan về mã hóa video dự đoán HEVC ....................................................... 12 1.2.1 Kiến trúc tổng quát của bộ mã hóa HEVC ....................................................... 14 1.2.2 Các kỹ thuật mã hóa video HEVC ................................................................... 17 1.2.2.1 Biểu diễn lấy mẫu ảnh ............................................................................... 17 1.2.2.2 Phân chia hình ảnh thành đơn vị cây mã hóa ............................................ 17 1.2.2.3 Phân chia CTB thành CB .......................................................................... 17 1.2.2.4 Khối dự đoán (PB) và đơn vị dự đoán (PU) .............................................. 17 1.2.2.5 Phân chia cây cấu trúc thành các đơn vị biến đổi và các khối biến đổi .... 19 1.2.2.6 Mảng (Slice) và Tile .................................................................................. 20 1.2.2.7 Dự đoán trong ảnh ..................................................................................... 21 1.2.3 Kết luận chương ............................................................................................... 23 CHƯƠNG 2 .................................................................................................................. 24 2.1. Tổng quan về mã hóa video phân tán DVC ....................................................... 24 2.2 Định lý Slepian-Wolf .......................................................................................... 25 2.3 Định lý Winer-Ziv ............................................................................................... 26 2.4 Các mô hình thực nghiệm của kỹ thuật mã hóa video phân tán .......................... 27 2.4.1 Giải pháp Stanford ........................................................................................ 27 2.4.2 Giải pháp PRISM ......................................................................................... 30 2.5 Kết luận chương .................................................................................................. 32 CHƯƠNG 3 .................................................................................................................. 33 4 3.1 Mô hình tạp âm tương quan trong mã hóa video WZ ......................................... 33 3.2 Tính toán tham số CNM miền pixel PDWZ........................................................ 34 3.2.1 Cấu trúc bộ mã hóa WZ miền Pixel ............................................................. 34 3.2.2 Ước lượng tạp âm tương quan ở mức khung (Frame level) ......................... 36 3.2.3 Ước lượng tạp âm tương quan ở mức khối (Block level) ............................ 37 3.2.4 Ước lượng tạp âm tương quan ở mức pixel (Pixel level) ............................. 38 3.3 Tính toán tham số CNM miền biến đổi TDWZ .................................................. 39 3.3.1 Cấu trúc bộ mã hóa video WZ miền biến đổi............................................... 39 3.3.2 Ước lượng tạp âm tương quan ở mức DCT trong khung (DCT band-byframe level) ............................................................................................................ 39 3.3.3 Ước lượng tạp âm tương quan ở mức hệ số trong khối (Coefficient-by-block level) ...................................................................................................................... 41 3.4 Kết luận chương .................................................................................................. 42 CHƯƠNG 4 .................................................................................................................. 43 4.1 Kết quả thực nghiệm............................................................................................ 43 4.2 Đánh giá và kết luận ............................................................................................ 49 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ................................................................. 50 TÀI LIỆU THAM KHẢO ............................................................................................. 51 5 DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT Từ viết tắt Nghĩa tiếng Việt Nghĩa tiếng Anh A AVC Advanced Video Coding Mã hóa video tiên tiến B BAC Binary Arithmetic Coding Mã hóa số học nhị phân C Content Adaptive Binary Mã hóa số học nhị phân thích nghi Arithmetic Coding theo thuộc tính Content Adaptive Variable Mã chiều dài thay đổi thích nghi Length Coding theo thuộc tính CNM Correlation Noise Model Mô hình tạp âm tương quan CPU Central Processing Unit Đơn vị xử lý trung tâm CTB Coding Tree Block Khối cây mã hóa CTU Coding Tree Unit Đơn vị cây mã hóa CU Coding Unit Đơn vị mã hóa CABAC CAVLC D DCT Discrete Cosine Transform Biến đổi Cosine rời rạc DPB Decoded Picture Buffer Bộ đệm hình ảnh đã giải mã DRAM DVC Dynamic Random Access Bộ nhớ truy cập ngẫu nhiên động Memory Distributed Video Coding Mã hóa video phân tán G GOP Group Of Picture Nhóm ảnh GMC Global Motion Compensation Bù chuyển động toàn phần H HD High Definition Độ phân giải cao HEVC High Eficiency Video Coding Mã hóa video hiệu suất cao I 6 IDCT Inverse Discrete Cosine Transform Biến đổi cosin rời rạc ngược M MCP Motion Compensation Prediction Dự đoán bù chuyển động MCFI Motion Compensated Frame Interpolation Phép nội suy khung bằng cách bù chuyển động N NAL Lớp trừu tượng hóa mạng Network Abstraction Layer P PB Prediction Block Khối dự đoán PDWZ Pixel Domain Wyner Ziv Wyner Ziv miền pixel PSNR Peak Signal to Noise Ratio Tỉ lệ tín hiệu đỉnh/ tạp âm Q QP Tham số lượng tử hóa Quantization Parameter S SI Side Information Thông tin phụ T TDWZ Transform Domain Wyner Ziv 7 Wyner Ziv miền biến đổi DANH MỤC HÌNH VẼ Hình 1. 1: Minh họa sự sai khác giữa 2 khung liên tiếp trong dãy video .....................13 Hình 1. 2: Sơ đồ khối bộ mã hóa HEVC [12] ...............................................................14 Hình 1. 3: Chế độ chia tách một CB thành PBs ............................................................18 Hình 1. 4: Chia nhỏ một CTB thành các CB .................................................................20 Hình 1. 5: Các chế độ và các hướng cho dự đoán hình trong ảnh .................................21 Hình 2. 1: Mô hình mã hóa dự đoán cổ điển .................................................................24 Hình 2. 2: Sơ đồ mã nguồn phụ thuộc thống kê ............................................................25 Hình 2. 3: Biểu đồ vùng tỉ lệ tốc độ mã giữa 2 nguồn X, Y..........................................25 Hình 2. 4: Mô tả định lý Slepian – Wolf với thông tin phụ ..........................................26 Hình 2. 5: Mã hóa mất mát thông tin với thông tin phụ ở phần giải mã .......................26 Hình 2. 6: Kiến trúc bộ mã hóa DISCOVER [2]...........................................................27 Hình 2. 7: Bộ mã hóa PRISM: (a) cấu trúc mã hóa; (b) cấu trúc giải mã .....................31 Hình 3. 1: Cấu trúc bộ mã hóa PDWZ ..........................................................................34 Hình 3. 2: Biểu đồ tương đối của phần dư (WZ-SI) cho chuỗi video Foreman ở tần số 30 Hz [11] ......................................................................................................................35 Hình 3. 3: Cấu trúc bộ mã hóa video TDWZ ................................................................39 Hình 4. 1: Khung mẫu từ các chuỗi video test: (a) Soccer (frame 1); (b) Foreman (frame 1); (c) Coastguard (frame 1); (d) Hallmonitor (frame 1) ...................................43 Hình 4. 2: Hiệu năng PSNR ứng với các tốc độ Rate khác nhau thực hiện trên chuỗi Foreman .........................................................................................................................45 Hình 4. 3: Hiệu năng PSNR ứng với các tốc độ Rate khác nhau thực hiện trên chuỗi Soccer ............................................................................................................................46 Hình 4. 4: Hiệu năng PSNR ứng với các tốc độ Rate khác nhau thực hiện trên chuỗi Coastguard .....................................................................................................................46 Hình 4. 5: Hiệu năng PSNR ứng với các tốc độ Rate khác nhau thực hiện trên Hallmonitor ....................................................................................................................47 8 DANH MỤC BẢNG BIỂU Bảng 1. 1: Phân loại, ý nghĩa và các lớp kiểu đơn vị NAL ........................................... 16 Bảng 4. 1: Hiệu năng PSNR ứng với các tốc độ Rate khác nhau thực hiện trên chuỗi Foreman ......................................................................................................................... 45 Bảng 4. 2: Hiệu năng PSNR ứng với các tốc độ Rate khác nhau thực hiện trên chuỗi Soccer ............................................................................................................................ 46 Bảng 4. 3: Hiệu năng PSNR ứng với các tốc độ Rate khác nhau thực hiện trên chuỗi 47 Bảng 4. 4: Hiệu năng PSNR ứng với các tốc độ Rate khác nhau thực hiện trên chuỗi Hallmonitor .................................................................................................................... 47 Bảng 4. 5: Bảng tổng hợp hiệu năng PSNR ứng với các tốc độ Rate khác nhau thực hiện trên các chuỗi test video và các giá trị QPs được thiết lập khác nhau................... 48 Bảng 4. 6: Bảng tổng hợp thời gian mô phỏng quá trình mã hóa và giải mã khung WZ thực hiện trên các chuỗi test video với các giá trị QPs khác nhau ................................ 48 9 PHẦN MỞ ĐẦU 1. Lý do chọn đề tài Hiện nay, với công nghệ phát triển, việc chia sẻ video trên mạng đã trở nên hết sức phổ biến, nhu cầu sử dụng dữ liệu video được dự đoán sẽ tăng trưởng ngày càng mạnh mẽ. Lưu lượng truy cập video trên thiết bị di động được dự báo sẽ tăng khoảng 50% mỗi năm cho đến năm 2022, chiếm gần 3/4 tổng lưu lượng dữ liệu di động. Ngoài ra, việc sử dụng video nhúng trong phương tiện truyền thông xã hội và các trang web tiếp tục phát triển, được thúc đẩy bởi màn hình thiết bị lớn hơn, độ phân giải cao hơn và các nền tảng mới hỗ trợ phát trực tiếp. Video nhúng trong phương tiện truyền thông xã hội và các trang web được tính là lưu lượng video. Giá trị trung bình từ các phép đo trong một số mạng HSPA và LTE thương mại được chọn ở Châu Mỹ, Châu Á và Châu Âu cho thấy, bất kể loại thiết bị nào, video là đóng góp lớn nhất cho lưu lượng truy cập. Tuy nhiên, có một sự khác biệt lớn giữa các mạng. Nhưng dữ liệu video thường là những dữ liệu có dung lượng lớn, ví dụ truyền hình có độ phân giải cao HDTV không nén thì tốc độ lên tới 1,5Gbps, để truyền tải là rất khó. Do vậy, các phương pháp để tăng hiệu năng nén video vẫn là vấn đề được quan tâm nghiên cứu, phát triển. Trong các ứng dụng mã hóa video thông thường, ví dụ: phát sóng hoặc truyền phát video, bộ giải mã video dựa trên sự mạnh mẽ bù chuyển động dựa trên khối lai và biến đổi DCT kiến trúc chủ yếu được điều khiển bởi một-nhiều mô hình với một bộ mã hóa phức tạp duy nhất và nhiều ánh sáng bộ giải mã. Gánh nặng phức tạp của bộ mã hóa (đó là thông thường cao hơn 5 lần 10 lần so với bộ giải mã) liên kết với nhiệm vụ ước tính chuyển động, chủ yếu chịu trách nhiệm về hiệu suất biến dạng tốc độ cao (RD) đạt được. Tuy nhiên, kiến trúc này đang bị thách thức bởi một số ứng dụng mới nổi như giám sát video không dây, mạng cảm biến đa phương tiện, camera PC không dây, và camera điện thoại di động. Những ứng dụng này có khác nhau. yêu cầu từ những mục tiêu của video truyền thống hơn hệ thống phân phối, ví dụ: trong các hệ thống giám sát video không dây, bộ mã hóa chi phí thấp hoặc codec, cho phép phân bổ linh hoạt độ phức tạp giữa bộ mã hóa và bộ giải mã rất quan trọng vì có rất nhiều bộ mã hóa và chỉ một hoặc vài bộ giải mã. Yêu cầu đặt ra là phát triển mô hình mã hóa thế 10 nào để đơn giản phần mã hóa mà vẫn không làm tổn thất đáng kể về hiệu suất nén so với các mô hình truyền thống. Trong nỗ lực đưa ra câu trả lời cho nhu cầu mã hóa video đáp ứng nhu cầu thực tiễn này này, một mô hình mã hóa video mới được nghiên cứu, đã và đang được phát triền hiện nay đó là mô hình mã hóa video phân tán DVC (Distributed Video Coding). 2. Mục đích nghiên cứu Luận văn tập trung tìm hiểu và nghiên cứu mô hình tạp âm tương quan và phương pháp tính toán tham số cho mô hình này để đạt hiệu quả nén mong muốn trong mô hình mã hóa video phân tán DVC có sử dụng mã hóa intra HEVC cho các khung chính. 3. Cấu trúc luận văn - Phần mở đầu - Phần nội dung: o Chương 1: Giới thiệu tổng quan về mã hóa video o Chương 2: Tổng quan về mã hóa video phân tán DVC o Chương 3: Mô hình tạp âm tương quan CNM trong bộ mã hóa DVC o Chương 4: Kết quả thực nghiệm và đánh giá - Kết luận và hướng phát triển 11 PHẦN NỘI DUNG CHƯƠNG 1 GIỚI THIỆU TỔNG QUAN VỀ MÃ HÓA VIDEO 1.1 Đặt vấn đề Ngày nay, công nghệ mã hóa video đã và đang được sử dụng rất phổ biến, từ các ứng dụng truyền thống như truyền hình quảng bá, truyền hình hội nghị đến các ứng dụng mới xuất hiện như mạng cảm biến (sensor), mạng giám sát từ xa. Trong đó, các ứng dụng mới như mô hình mạng video giám sát giao thông, camera an ninh lắp đặt trong các nhà hàng, bệnh viện… Những hệ thống này có đòi hỏi hoàn toàn khác so với hệ thống truyền hình quảng bá là yêu cầu phần phát đơn giản, gọn nhẹ, rẻ tiền trong khi phần phức tạp có thể chuyển về bộ xử lý trung tâm ở phía thu, nơi sẽ được đầu tư thiết bị tập trung và hiện đại hơn. Do đó các chuẩn mã hóa video truyền thống sẽ không còn phù hợp nữa. Yêu cầu đặt ra là phát triển mô hình mã hóa thế nào để đơn giản phần mã hóa mà vẫn không làm tổn thất đáng kể về hiệu suất nén so với các mô hình truyền thống. Trong nỗ lực đưa ra câu trả lời cho nhu cầu mã hóa video đáp ứng nhu cầu thực tiễn này này, một mô hình mã hóa video mới được nghiên cứu, đã và đang được phát triền hiện nay đó là mô hình mã hóa video phân tán DVC (Distributed Video Coding). 1.2 Tổng quan về mã hóa video dự đoán HEVC Video là một chuỗi các bức ảnh liên tiếp cùng mô tả một nội dung và chứa đựng một thông tin, câu chuyện xuyên suốt nào đó. Do vậy, giữa các bức ảnh liên tiếp trong video luôn tồn tại các mối tương quan lớn như được mô tả ở hình 1.1. 12 Hình 1. 1: Minh họa sự sai khác giữa 2 khung liên tiếp trong dãy video Nhìn vào 2 khung hình trên (trong chuỗi khung liên tiếp của video), ta có thể thấy sự khác biệt căn bản nẳm ở vị trí ô tô, do chuyển động, nên: Khi mã hóa hiệu 2 khung hình (theo pixel tương ứng) thì chỉ cần dùng một lượng bít ít hơn so với việc mã hóa toàn bộ thông tin trong ảnh thực tế. Nếu có cách dự đoán khung 2 từ khung 1 để có sự sai khác giữa khung 2 và khung dự đoán thì mã hóa còn có thể tốn ít bít mã hơn. Điều này là khả thi nếu có kỹ thuật dự đoán tốt. Tuy nhiên giá phải trả cho dự đoán tốt, như sẽ nói ở mục sau chính là sự gia tăng độ phức tạp tính toán tại phía mã hóa. Lịch sử phát triển các chuẩn nén: H.261 H.263 H.263+ H.263++ (1990) (1996) (1998) (2000) ITU-T VCEG MPEG-2 (H.262) H.264 (AVC) SVC (H.264-G) HEVC (H.265) (1995) (2004) (2007) (2013) MPEG-4 v1 MPEG-1 (1993) (1999) MPEG-4 v2 (2000) ISO/IEC MPEG MPEG-4 v3 (2001) Hình 1. 2: Lịch sử phát triển các chuẩn nén 13 1.2.1 Kiến trúc tổng quát của bộ mã hóa HEVC Các thành phần chính: - Cấu trúc đơn vị mã hóa: Một trong những đặc trưng khác biệt nhất của chuẩn H.265/HEVC so với các chuẩn trước đó như H.264/AVC hoặc MPEG-4/Video chính là chác cấu trúc lại các đơn vị mã hóa. Trong chuẩn H.264/AVC, đơn vị mã hóa cơ bản là các khối lớn (Macroblock) với kích cỡ tối đa là 16×16. Trong khi đó, chuẩn H.265/HEVC chia các khối mã hóa theo cấu trúc cây (coding tree block) với kích cỡ đa dạng hơn từ 4×4 tới 64×64. Cấu trúc này đảm bảo hiệu quả nén tốt hơn so với chuẩn H.264/AVC khi các video với kích cỡ lớn như HD, 2K hay 4K được sử dụng. Điều khiển mã hóa Mã hóa tứ phân với Khối mã hóa CB Phần dư với khối biến đổi TB Biến đổi, chia tỷ lệ và lượng tử hóa Mã hóa Entropy CABAC 010110... Bộ giải mã Chia tỷ lệ và biến đổi ngược Chia thành các khối cây mã hóa CTB Dự đoán trong ảnh Tín hiệu video đầu vào Lọc in-loop Tín hiệu video đầu ra Dự đoán liên ảnh Các khối dự đoán Ước lượng chuyển động Bộ đệm hình ảnh đã mã hóa Hình 1. 3: Sơ đồ khối bộ mã hóa HEVC [12] - Cấu trúc đơn vị dự đoán và đơn vị biến đổi: Mỗi đơn vị khối mô tả ở phía trên được phân chia thành hai cấu trúc tương ứng với hai thành phần chính của chuẩn mã hóa H.265/HEVC; đó là cấu trúc đơn vị dự đoán và cấu trúc đơn vị biến đổi. Đơn vị dự đoán (coding unit) cho phép khối mã hóa có 14 kích cỡ nhỏ nhất là 8×8 đối với thành phần xám (luma) và 4×4 với thành phần màu (chroma). Trong khi đó, đơn vị biến đổi cô sin rời rạc có kích cỡ đa dạng hơn bao gồm 4×4, 8×8, 16×16, 32×32. - Phương pháp dự đoán chuyển động nối vùng (merge mode): Đây là một phương pháp dự đoán mới xuất hiện trong chuẩn H.265/HEVC. Phương pháp này kế thừa có hiệu quả phương pháp dự đoán bỏ qua và dự đoán trực tiếp trong chuẩn H.264/AVC mô tả ở trên. Trong đó có 2 sự khác biệt chính là việc gửi thông tin về véc tơ chuyển động được lựa chọn và thông tin về khung tham khảo được sử dụng - Dự đoán ảnh trong khung: H.265/HEVC hỗ trợ tới 35 mode dự đoán (so với 9 mode trong H.264/AVC). Ngoài ra, khối dự đoán trong khung có thể được tạo ra với hai loại khối, N×N và 2N×2N. - Dự đoán ảnh liên khung: Dự đoán ảnh liên khung trong chuẩn H.265/HEVC cũng cho phép hỗ trợ dự đoán véc tơ chuyển động với độ chính xác lên tới ¼ điểm ảnh (sub-pel). Các giá trị tại vị trí sub-pel được nội suy dựa trên hai bô lọc với 7 hoặc 8 tham số cấu hình. Các khối hình sử dụng trong dự đoán ảnh liên khung cũng đa dạng, có thể đối xứng hoặc không đối xứng, ví dụ: 2N×2N, 2N×N, N×2N, N×N, 2N×nD, nL×2N. - Bù chuyển động: Cụ thể, ảnh được chia thành các CTU, mỗi CTU bao gồm các CTB chói và các CTB màu . Một CTB có kích thước là LxL ( L= 16, 32, hoặc 64), trong đó các kích thước lớn hơn cho phép nén tốt hơn. HEVC hỗ trợ việc phân chia các CTB thành các khối nhỏ hơn sử dụng cấu trúc cây và tín hiệu hóa cây tứ phân. - Mã hóa Entropy: Khác với H.264/AVC, chuẩn H.265/HEVC chỉ cho phép người dùng sử dụng mã CABAC; mục đích là tăng tối đa hiệu quả nén chuẩn H.265/HEVC. - Bộ lọc giảm nhiễu khối: Một chút thay đổi, nâng cấp được đề xuất để giảm nhiễu khối trong chuẩn H.265/HEVC. - Bộ lọc giảm nhiễu vòng: Đây là thành phần mới trong chuẩn H.265/HEVC so với các chuẩn trước kia như H.264/AVC, MPEG 2,4,… Mục đích chính là giảm nhiễu vòng xuất hiện trong mộ số khung hình xuất hiện do việc loại bỏ thành phân tần số cao ở khối lượng tử tuyến tính. 15 - Cú pháp mức-cao của HEVC chứa nhiều yếu tố thừa hưởng từ NAL của H.264 / MPEG-4 AVC. NAL cung cấp khả năng ánh xạ dữ liệu lớp mã hóa video (VCL) mà nó thể hiện nội dung của các ảnh lên các lớp vận chuyển khác nhau, bao gồm các hệ thống RTP / IP, ISO MP4, và H.222.0 / MPEG-2, và cung cấp một khuôn khổ cho khả năng phục hồi mất mát dữ liệu. Đối với các khái niệm chung của thiết kế NAL như các đơn vị NAL, các bộ tham số, các đơn vị truy cập, định dạng dòng byte, và việc định dạng đóng gói.[10] Các đơn vị NAL được phân loại thành các đơn vị VCL NAL và khôngVCL NAL tương ứng với việc chúng có chứa ảnh được mã hóa hoặc dữ liệu có liên quan. Trong chuẩn HEVC, một số loại đơn vị VLC NAL xác định các loại ảnh cho mục đích khởi tạo bộ giải mã và truy cập ngẫu nhiên. Bảng 1.1 liệt kê các loại đơn vị NAL và ý nghĩa liên quan và các lớp kiểu trong chuẩn HEVC. Bảng 1. 1: Phân loại, ý nghĩa và các lớp kiểu đơn vị NAL Kiểu Ý nghĩa Lớp 0, 1 VCL 2, 3 4, 5 Phân đoạn mảng của ảnh kế tiếp thông thường Phân đoạn mảng của ảnh TSA Phân đoạn mảng của ảnh STSA 6, 7 Phân đoạn mảng của ảnh RADL VCL 8, 9 10-15 Phân đoạn mảng của ảnh RASL Dữ trữ cho tương lai VCL VCL 16-18 19, 20 Phân đoạn mảng của ảnh BLA Phân đoạn mảng của ảnh IDR VCL VCL 21 Phân đoạn mảng của ảnh CRA VCL 22-31 32 Dữ trữ cho tương lai Bộ tham số video (VPS) VCL non-VCL 33 34 Bộ tham số trình tự (SPS) Bộ tham số ảnh (PPS) non-VCL non-VCL 35 36 Dấu phân cách đơn vị truy cập Cuối của trình tự non-VCL non-VCL 37 Cuối của dòng bit non-VCL 38 Dữ liệu đệm non-VCL 16 VCL VCL 39, 40 SEI messages non-VCL 41-47 48-63 Dữ trự cho tương lai Không xác định (có thể sử dụng hệ thống) non-VCL non-VCL 1.2.2 Các kỹ thuật mã hóa video HEVC 1.2.2.1 Biểu diễn lấy mẫu ảnh Để biểu diễn các tín hiệu video màu , HEVC sử dụng một không gian 3 màu cơ bản YCbCr với lấy mẫu 4: 2: 0. Các ảnh video lấy mẫu tăng lên với kích thước ảnh hình chữ nhật WxH, trong đó W là chiều rộng và H là chiều cao của ảnh theo quan điểm lấy mẫu chói, còn với lấy mẫu màu 4: 2: 0 sẽ là W/2xH /2. 1.2.2.2 Phân chia hình ảnh thành đơn vị cây mã hóa Một ảnh được phân chia thành các đơn vị mã hóa cây (CTU), mỗi CTU chứa các khối cây mã hóa (CTB) chói và CTB màu. Một CTB chói lấy mẫu LxL cho các thành phần chói và lấy mẫu L /2 x L/2 cho mỗi một trong hai thành phần màu. L=16, 32, hoặc 64 được xác định bởi một yếu tố cú pháp mã hóa được quy định trong SPS. 1.2.2.3 Phân chia CTB thành CB Các khối CTB chói và màu có thể được sử dụng trực tiếp như các khối mã hóa (CB) hoặc có thể phân chia tiếp thành nhiều CB. Việc phân chia được thực hiện bằng cách sử dụng cấu trúc cây. Việc phân chia cấu trúc cây trong HEVC thường được áp dụng đồng thời cho cả khối chói và màu, mặc dù các ngoại lệ áp dụng khi tiến tới kích thước tối thiểu nhất định. CTU chứa cú pháp cây tứ phân cho phép chia các CB đến một kích thước phù hợp dựa trên các đặc điểm tín hiệu của vùng mà nó được bao phủ bởi các CTB. Quá trình chia tách cây tứ phân có thể được lặp đến khi một CB chói đạt đến một kích thước tối thiểu cho phép. Kích thước này được chọn bởi bộ mã hóa sử dụng cú pháp trong SPS và luôn là 8x8 hoặc lớn hơn. 1.2.2.4 Khối dự đoán (PB) và đơn vị dự đoán (PU) Chế độ dự đoán cho CU là được báo hiệu là trong ảnh hay liên ảnh, tùy vào việc nó sử dụng dự đoán trong ảnh (theo không gian) hoặc dự đoán liên ảnh (theo thời gian). 17 Khi chế độ dự đoán được báo hiệu là trong ảnh, kích thước PB là kích thước khối tại nơi dự đoán trong ảnh được tạo sẵn có cùng kích thước với CB cho tất cả các kích thước khối ngoại trừ kích thước CB nhỏ nhất. Đối với các trường hợp sau đó, một cờ xuất hiện cho biết CB được chia thành bốn phần PB mà mỗi phần đều có dự đoán trong ảnh riêng. Lý do của việc cho phép chia tách này là tạo khả năng lựa chọn dự đoán trong ảnh cho các khối nhỏ 4x 4. Khi dự đoán trong ảnh thành phần chói hoạt động với các khối 4x4, dự đoán trong ảnh thành phần màu cũng sử dụng các khối 4x4 (4 khối thành phần chói 4x 4). Kích thước vùng hiện tại có dự đoán trong ảnh ( nó là khác so với kích thước PB có dự đoán trong ảnh được tạo sẵn) phụ thuộc vào việc phân chia mã hóa dư thừa được mô tả như sau. MxM M/2xM MxM/2 M/2xM/2 M/4xM (L) M/4xM (R) MxM/4 (U) MxM/4 (D) Hình 1. 4: Chế độ chia tách một CB thành PBs Khi dự đoán là liên ảnh, nó xác định liệu các CB thành phần chói và màu được chia thành một, hai hoặc bốn PB. Việc chia thành bốn PB chỉ được phép khi kích thước CB bằng với kích thước CB cho phép tối thiểu. Khi một CB được chia thành bốn PB, mỗi PB là một góc phần tư của CB và khi một CB được chia thành hai PB, sẽ có 6 kiểu chia tách. Các khả năng phân chia cho CB dự đoán liên ảnh được mô tả trong hình 1.4. Bốn loại phân chia cao hơn minh họa cho trường hợp chia tách CB thành kích thước Mx M, chia tách CB thành hai PB kích thước Mx M/2 hoặc M/2xM hoặc chia tách nó thành bốn PB có kích thước M/2xM/2. 4 loại phân chia thấp hơn được gọi là phân chia chuyển động bất đối xứng (AMP - asymmetric motion partitioning ), và chỉ được phép khi M ≥ 16, đối với thành phần chói. Một PB của phân chia bất đối xứng 18 có chiều cao hoặc chiều rộng là M/4 và chiều rộng hoặc chiều cao là M và các PB khác lấp đầy phần còn lại của CB bởi một chiều cao hoặc chiều rộng của 3M/4 và chiều rộng hoặc chiều cao M. Mỗi PB dự đoán liên ảnh được gán một hoặc hai vectơ chuyển động và các chỉ số ảnh tham chiếu. Để tối thiểu băng thông bộ nhớ trường hợp xấu nhất, các PB của thành phần chói 4x4 là không được phép cho dự đoán liên ảnh, và các PB của thành phần chói 4x8 và 8x4 được giới hạn cho mã hóa dự đoán đơn. Các PB thành phần chói và màu kết hợp với cú pháp dự đoán tạo thành PU. 1.2.2.5 Phân chia cây cấu trúc thành các đơn vị biến đổi và các khối biến đổi Đối với mã hóa dư thừa, một CB có thể được phân vùng 1 cách đệ quy thành các khối biến đổi (TB). Việc phân chia được báo hiệu bằng một cây tứ phân dư thừa. Phân chia CB và TB, nơi mà một khối có thể được chia 1 cách đệ quy thành các góc phần tư, như minh họa trong hình 1.5. Đối với một CB thành phần chói MxM, một cờ báo hiệu có được chia thành bốn khối có kích thước M/2xM/2 không. Độ sâu tối đa của cây tứ phân dư thừa trong SPS sẽ báo hiệu cho việc có chia tách thêm nữa không. Mỗi góc phần tư có một cờ chỉ định việc nó có được chia thành bốn góc phần tư không. Các khối nút lá từ cây tứ phân dư thừa là các khối biến đổi được xử lý tiếp bằng mã hóa biến đổi. Các bộ mã hóa chỉ ra kích thước TB thành phần chói tối thiểu và tối đa mà nó sẽ sử dụng. Việc chia tách là ngầm mặc định khi kích thước CB lớn hơn so với kích thước TB tối đa. Và việc không chia tách là ngầm mặc định khi chia tách sẽ cho kết quả là kích thước TB thành phần chói nhỏ hơn kích thước tối thiểu. Kích thước TB thành phần màu bằng một nửa kích thước TB thành phần chói ở mỗi chiều, ngoại trừ trường hơp kích thước TB chói là 4x4, trong đó trường hợp đó, một TB màu 4x4 duy nhất được bao phủ bởi bốn TB chói 4x4. Trong trường hợp các CU dự đoán trong ảnh, các mẫu được giải mã của các TB lân cận gần nhất(trong hoặc ngoài CB) được sử dụng như là dữ liệu tham chiếu cho dự đoán trong ảnh. 19 a) b) Hình 1. 5: Chia nhỏ một CTB thành các CB (a) Phân chia CTB. (b) Cây tứ phân tương ứng Đường liền chỉ ra các biên CB và đường chấm là biên TB. 1.2.2.6 Mảng (Slice) và Tile Mảng là một chuỗi các CTU được xử lý theo thứ tự của quét mành. Một ảnh được chia thành một hoặc một vài mảng như vì thế một ảnh là một tập hợp của một hoặc nhiều mảng. Mỗi mảng có thể được mã hóa sử dụng các loại mã hóa khác nhau như sau. Mảng I: tất cả CU của mảng được mã hóa chỉ sử dụng dự đoán trong ảnh. Mảng P: Ngoài các loại mã hóa của mảng I, một số CU của mảng P cũng có thể được mã hóa bằng dự đoán liên ảnh với nhiều nhất một tín hiệu dự đoán bù chuyển động cho mỗi PB ( dự đoán đơn). Mảng P chỉ sử dụng danh sách 0 ảnh tham chiếu. Mảng B: Bên cạnh các loại mã hóa có sẵn trong một mảng P, một số CU của mảng B cũng có thể được mã hóa bằng dự đoán liên ảnh với nhiều nhất hai tín hiệu dự đoán bù chuyển động cho mỗi PB (dự đoán đôi ). Mảng B sử dụng cả hai danh sách 0 và 1 ảnh tham chiếu. Mục đích chính của các mảng là đồng bộ lại sau khi dữ liệu mất. Hơn nữa, các mảng thường được hạn chế để sử dụng số bit tối đa. Vì vậy, các mảng thường có thể chứa số CTU thay đổi mức độ cao/mảng. Tile là các vùng hình chữ nhật của ảnh có khả năng giải mã độc lập. Mục đích chính của tile là cho phép sử dụng các kiến trúc xử lý song song đối với mã hóa và giải mã. Nhiều tile có thể chia sẻ thông tin tiêu đề được chứa trong cùng mảng. 20
- Xem thêm -

Tài liệu liên quan