Nghiên cứu và phát triển thuật toán ica cho các nguồn có tính tương quan

  • Số trang: 13 |
  • Loại file: PDF |
  • Lượt xem: 91 |
  • Lượt tải: 0
nganguyen

Đã đăng 34173 tài liệu

Mô tả:

HỌC VIỆN CÔNG NGHỆ BƢU CHÍNH VIỄN THÔNG --------------------------------------- VƢƠNG BẢO TRUNG NGHIÊN CỨU VÀ PHÁT TRIỂN THUẬT TOÁN ICA CHO CÁC NGUỒN CÓ TÍNH TƢƠNG QUAN Chuyên ngành: Kỹ thuật viễn thông Mã số: 60.52.02.08 TÓM TẮT LUẬN VĂN THẠC SĨ HÀ NỘI – NĂM 2014 Luận văn được hoàn thành tại: HỌC VIỆN CÔNG NGHỆ BƢU CHÍNH VIỄN THÔNG Người hướng dẫn khoa học: TS. Nguyễn Ngọc Minh (Ghi rõ học hàm, học vị) Phản biện 1: ……PGS.TS Nguyễn Tiến Ban…………………… Phản biện 2: ……PGS.TS Nguyễn Văn Khang………………… Luận văn sẽ được bảo vệ trước Hội đồng chấm luận văn thạc sĩ tại Học viện Công nghệ Bưu chính Viễn thông Vào lúc: .13. giờ .30.. ngày. 09.. tháng ...08 .. năm ..2014.... Có thể tìm hiểu luận văn tại: - Thư viện của Học viện Công nghệ Bưu chính Viễn thông 1 MỞ ĐẦU Bài toán phân tách nguồn mù trong nhiều năm trở lại đây đã được nghiên cứu rất nhiều và áp dụng cho nhiều lĩnh vưc: viễn thông, y tế, quân sự… ây là một phư ng pháp được s dụng ph biến cho mục đích đánh giá các nguồn tín hiệu ban đ u t tập hợp các tín hiệu trộn của ch ng, mà không có thông tin hay có rất ít thông tin) về quá trình trộn cũng như là tín hiệu gốc. Có nhiều phư nng pháp để tiếp cận bài toán này như là phư ng pháp phân tích thành ph n chính, phân tích hệ số, tuy nhiên trong vòng chục năm trở lại đây, người ta đã phát triển một phư ng pháp mới gi p giải bài toán tách nguồn mù Blind Source Separation – BSS) nêu trên rất hiệu quả, đó là phân tích thành ph n độc lập Independent Component Analysis – ICA). Mục đích của luận văn là nghiên cứu bài toán x lý tín hiệu mù và các ứng dụng. Luận văn có bố cục như sau: CHƢƠNG I: Tổng quan về xử lý tín hiệu mù Trình bày về khái niệm, các mô hình của bài toán phân tách nguồn mù, một vài ứng dụng của bài toán phân tách nguồn mù. CHƢƠNG II: Phƣơng pháp ICA Nghiên cứu các c sở lý thuyết, điều kiện của thuật toán ICA CHƢƠNG III: Thuật toán FastICA Thuật toán FastICA, các kết quả mô phỏng. CHƢƠNG IV: Thuật toán ICA với các nguồn tƣơng quan với nhau Phát triển thuật toán FastICA áp dụng cho những nguồn có tính tư ng quan. 2 CHƢƠNG I – TỔNG QUAN VỀ XỬ LÝ TÍN HIỆU MÙ 1.1. Bài toán xử lý tín hiệu mù. Bài toán x lý tín hiệu mù là một phư ng pháp được s dụng ph biến cho mục đích đánh giá các nguồn tín hiệu ban đ u t tập hợp các tín hiệu trộn của ch ng, mà không có thông tin (hay có rất ít thông tin) về quá trình trộn cũng như là tín hiệu gốc. 1.2. Các mô hình của bài toán. Trong khuôn kh luận văn này, ch ng ta giả thiết rằng mô hình bài toán BSS/ICA là tuyến tính với số nguồn ban đ u bằng số tín hiệu trộn M = N). Dựa trên đặc tính ma trận trộn và mối tư ng quan giữa số lượng các tín hiệu trộn và số lượng các nguồn tín hiệu ban đ u, bài toán BSP có thể được chia thành các mô hình như sau:  Mô hình tuyến tính  Mô hình trộn chập  Mô hình tuyến tính có nhiễu  Mô hình trộn chập có nhiễu 1.3. Ứng dụng của bài toán BSP. 1.3.1. Bài toán xử lý tín hiệu âm thanh. 1.3.2. Hệ thống viễn thông. 1.3.3. Xử lý văn bản text. 1.3.4. Dự báo động đất. 1.3.5. Trong quân sự. 1.3.6. Xử lý tín hiệu trong y học. 1.4. Minh hoạ bài toán phân tách nguồn. 3 CHƢƠNG II – PHƢƠNG PHÁP ICA. 2.1. Cơ sở lý thuyết. 2.1.1. Khái niệm độc lập. ộc lập thống kê của các biến xác suất hay biến cố chỉ việc giữa các biến không có quan hệ thống kê gì với nhau. Trong lý thuyết xác suất, nói rằng hai biến cố là độc lập một cách trực quan có nghĩa là việc một biến cố trong đó xảy ra không làm tăng hay giảm khả năng biến cố kia xảy ra. Trong mô hình toán học, độc lập được định nghĩa bởi hàm mật độ xác suất (Probality Density Function- PDF). Những biến ngẫu nhiên s1, s2…., sn là độc lập nếu hàm phân bố xác suất có thể tìm được th a số là : ( ) ( ) ( ) ( ) ) biểu diễn hàm phân bố xác suất của với ( (2.1) và pi(si) biểu diễn hàm phân bố xác suất của si . 2.1.2. Khái niệm bất tương quan. Bất tư ng quan được định nghĩa là: {( * +)( { })} (2.2) hoặc biểu thức { } * + { } (2.3) giá trị E{.} biểu diễn giá trị được kì vọng. 2.1.3. Phân bố Gauss. Phân phối chuẩn, còn gọi là phân phối Gauss, là một phân phối xác suất cực kì quan trọng trong nhiều lĩnh vực. Một biến ngẫu nhiên X có kỳ vọng  và phư ng sai được gọi là có phân bố Gauss nếu hàm mật độ xác suất của nó dạng: ( ) √ ( . ) / (2.4) Supper Gauss Hàm phân bố dạng Supper Gauss là hàm phân bố mật độ xác suất đặc biệt: hàm khá là lớn khi các biến có giá trị tư ng đối g n không hoặc là có giá trị lớn, tại các giá trị trung bình thì hàm mật độ xác suất khá là nhỏ Một ví dụ điển hình của Supper Gauss là phân bố Laplace. Phân bố Laplace có công thức như sau: ( ) ( ) (2.5) 4 Sub Gauss Hàm phân bố dạng Sub Gauss có phân bố xác suất dẹt, hàm phân bố rất ít ở các giá trị lớn và giá trị g n 0, phân bố nhiều ở các giá trị trung bình. Một ví dụ điển hình là phân bố uniform, thường được dùng trong giả lập máy tính: ( ) { (2.6) 2.2. Phƣơng pháp ICA. 2.2.1. Định lý giới hạn trung tâm. Tín hiệu quan sát được = m1IC1 Tiến t i Gauss phi Gauss + m2IC2 +…+ phi Gauss mnICn phi Gauss Hình 2.1: Minh họa định lý giới hạn trung tâm ịnh lý chỉ ra rằng nếu , thì sẽ có tính Gauss h n , là t hợp tuyến tính của các tín hiệu nguồn , và ngược lại sẽ có tín phi Gauss h n . 2.2.2. Điều kiện của mô hình ICA. Mô hình ICA c bản đòi hỏi các giả thiết cho việc phân tách các thành ph n độc lập:  Các nguồn tín hiệu ban đ u phải độc lập thống kê với nhau  Không có thành ph n độc lập nào (nguồn) có phân bố Gauss, hoặc tối đa chỉ có 1 nguồn có phân bố Gauss.  Ma trận trộn A là ma trận vuông (số tín hiệu nguồn bằng số tín hiệu trộn) 5 2.2.3. Một số bất định trong mô hình ICA tuyến tính.  Mô hình ICA tuyến tính không thể xác định lại được chính xác năng lượng ban đ u của của các nguồn tín hiệu nguyên thu do cả s và A đều không biết nên:  Mô hình ICA tuyến tính không thể xác định được thứ tự ban đ u các thành ph n độc lập khi phân tách do cả s và A đều không biết nên khi đ i vị trí các hàng trong s và A mô hình ICA không thay đ i. 6 CHƢƠNG III – THUẬT TOÁN FASTICA 3.1. Khái niệm Negentropy. Entropy là lý thuyết c bản của lý thuyết thông tin. Entropy của một giá trị ngẫu nhiên được liên hệ tới thông tin mà sự quan sát các giá trị đưa ra. Càng ”ngẫu nhiên”, ví dụ các giá trị không dự đoán được và không cấu tr c được, entropy của nó càng lớn. Entropy H của vecto ngẫu nhiên y với mật độ ( ) ∫ ( ) được xác định như sau: ( ) ( ) (3.1) Khái niệm negentropy ra đời để đánh giá tính phi Gauss của một phân bố ngẫu nhiên. ịnh nghĩa negentropy J của một biến vector x ngẫu nhiên N chiều như sau: ( ) ( Trong đó H là hàm entropy, ) ( ) (3.2) là một vector ngẫu nhiên N chiều có phân bố Gaussian, và có chung ma trận hiệp phư ng sai với vector x. Lý thuyết xác suất thống kê đã chứng minh được, biến ngẫu nhiên có tính phi Gauss càng lớn nếu negentropy của nó càng lớn. 3.2. ICA bằng cực đại hoá Negentropy. Phư ng pháp này gồm 3 bước: Tiền x lý dữ liệu, ấp xỉ hoá negentropy, Tối ưu hoá hàm xấp xỉ negentropy. 3.2.1. Qúa trình tiền xử lý. Quy tâm Nếu các tín hiệu chưa có giá trị trung bình bằng 0, ch ng ta có thể thực hiện quá trình tiền x lý, gọi là phép quy tâm tức tr phân bố của các biến được khảo sát với các giá trị trung bình của ch ng: – Trong đó * + (3.3) là vecto ngẫu nhiên chưa có trung bình là không. Sau khi đã ước lượng ma trận A và các thành ph n s ta có thể thêm trở lại các trị trung bình của chúng: * + Khi vecto ngẫu nhiên (3.4) hoặc s) có trị trung bình bằng không thì hiệp phư ng sai và tư ng quan của nó giống nhau. Trắng hoá * + 7 Cho các biến ngẫu nhiên, có thể đ n giản biến đ i tuyến tính ch ng thành các biến bất tư ng quan. Do đó, nó sẽ là xu hướng cố gắng ước lượng các thành ph n độc lập theo một phư ng pháp thường được gọi là trắng hóa hay sphering, và thường thực hiện bởi phư ng pháp phân tích thành ph n chính uá trình trắng hoá thực chất là một phép biến đ i tuyến tính: z=V.x . Trong đó x là dữ liệu c n làm trắng, V là ma trận trắng hoá, z là dữ liệu đã trắng hoá. Vai trò của trắng hoá Với một tín hiệu đã trắng hóa z, nhiệm vụ còn lại của ICA là tìm ra một vecto w sao cho đạt giá trị phi Gaussian cực đại dưới điều kiện ràng buộc * + . Khi đó yi sẽ tư ng ứng với một nguồn tín hiệu ban đ u. 3.2.2. Xấp xỉ hoá negentropy. ối với một biến ngẫu nhiên phân bố Gauss, negentropy luôn bằng 0 và với tất cả các loại biến còn lại phi Gauss) negentropy luôn có giá trị dư ng. Tuy nhiên vấn đề ở chỗ ch ng ta không thể tính negentropy một cách trực tiếp , mà phải đánh giá negentropy thông qua việc xấp xỉ hoá 3.3. Thuật toán FastICA. Nguyên tắc c bản của đánh giá ICA là tìm một tập hợp những tín hiệu nguồn t ước lượng tính phi gauss lớn nhất. Do đó đánh giá mô hình dữ liệu của ICA thường được thực hiện bởi một hàm gọi là hàm tối ưu và một phư ng pháp tối ưu. Như vậy ta có thể đưa ra công thức như sau: Phương pháp ICA = Hàm tối ưu + Thuật toán tối ưu 8 Thuật toán FastICA đối với dữ liệu đã trắng hoá được thực hiện theo các bước sau: Start Loại bỏ giá trị trung bình của X Khởi tạo Quy tâm Trắng hóa dữ liệu Khởi tạo cho ICA Tính toán thành phần độc lập Hội tụ No No Yes Tất cả các thành phần ? Yes In kết quả End Hình 3.1: Lƣu đồ thuật toán FastICA. 3.4. Mô phỏng ứng dụng. 3.4.1. Mô phỏng tách mù hình ảnh. 3.4.2. Mô phỏng tách nguồn mù âm thanh. 3.4.3. Mô phỏng loại bỏ nhiễu trong xử lý ảnh. 3.5. Đánh giá chất lƣợng phân tách. 9 CHƢƠNG IV – THUẬT TOÁN ICA VỚI CÁC NGUỒN CÓ TƢƠNG QUAN VỚI NHAU. Tôi đã nghiên cứu một phư ng pháp cải tiến của phư ng pháp ICA, dựa vào sự độc lập tư ng hỗ giữa các sai số của kết quả dự báo chuỗi tốt nhất Innovation Process-IP) của các tín hiệu thu để giải quyết bài toán BSS trong trường hợp số nguồn bằng số sensor 4.1. Qúa trình inovation. Tôi giả thiết mỗi nguồn tín hiệu là kết quả đ u ra khi cho một IP qua một bộ lọc tự hồi quy A định nghĩa IP giữa Autoregressive) bậc P. Với một nguồn tín hiệu xác định sj n), tôi ( ) là sai số nhỏ nhất theo phư ng pháp sai số bình phư ng cực tiểu) ( ) và dự đoán xấp xỉ tuyến tính của nó innovation” diễn đạt t P mẫu quá khứ. Thuật ngữ ( ) chứa đựng toàn bộ thông tin mới của tín hiệu tại thời điểm n. Theo định nghĩa trên, ta có: ( ) Nếu ký hiệu ( ) , ( ) ∑ ( )- và ( ) ( ( ) ) , (4.1) ( ) ( )-, do ma trận H là khả nghịch ch ng ta có b đề sau : ếu s và x th a m n m h nh tu ến t nh của ài toán th các IP c ng tho m n m h nh sau ( ) ( ) (4.2) 4.2. Ƣu điểm của quá trình innovation. S dụng IP để đánh giá sẽ thường cho kết quả tốt h n là dùng bản thân nguồn tín hiệu gốc. Ta có được điều này bởi phư ng pháp ICA là phư ng pháp tách nguồn mù với giả thiết các nguồn độc lập với nhau và chỉ có nhiều nhất một nguồn có tính Gauss. Ước lượng mô hình ICA càng chính xác khi các thành ph n được xét đến càng độc lập và càng ít có tính Gauss. Các IP thường có sự độc lập với nhau h n bản thân các tín hiệu. Bởi vì, nếu dữ liệu ban đ u là độc lập thì IP cũng sẽ độc lập, nhưng không có chiều ngược lại. Các IP thường có tính phi Gauss h n bản thân các tính hiệu gốc. 4.3. Thuật toán đề xuất. Bước đ u tiên, thực hiện quá trình trắng hoá” dữ liệu bằng ma trận trắng hoá V để dữ liệu sau trắng hoá” là bất tư ng quan và có phư ng sai đ n vị: ( ) ( ) (4.3) 10 Nhiệm vụ còn lại của ICA là xác định ma trận tách có kích thước NxN sao cho vector: ( ) , ( ) ( )- ( ) (4.4) tư ng đư ng với N thành ph n tín hiệu gốc ban đ u. Tôi sẽ s dụng IP của y n) để xác định ma trận tách . Trong thuật toán đề xuất tôi dùng mô hình A 1). Do đó quá trình innovation của vector hàng thứ i của ma trận tách ( ) Tham số ( ) ( ), với wi là trong thuật toán được xác định như sau: ( ) ( ) (4.5) được xác định theo phư ng pháp sai số bình phư ng cực tiểu: * ( ) ( ) + (4.6) Trong thuật toán đề xuất, tôi s dụng phư ng pháp ICA dựa trên sự độc lập tư ng hỗ giữa các IP. 4.4. Kết quả thực nghiệm. 4.4.1. Xử lý âm thanh 4.4.2. Xử lý hình ảnh. 11 KẾT LUẬN VÀ KIẾN NGHỊ Phân tích thành ph n độc lập ICA) là một kỹ thuật thống kê t ng quát để giải quyết bài toán BSS, ở đó dữ liệu độc lập được xem xét để tách bằng cách đưa các thành ph n độc lập lớn nhất, đã ước lượng được t những thành ph n khác nhau dưới giả thiết là không có hoặc có tối đa một nguồn có phân bố Gauss. Tuy nhiên đối với các nguồn có tính tư ng quan lớn thì kĩ thuật ước lượng FastICA không đánh giá được tốt các tín hiệu ban đ u. Trong luận văn này, ta đã nghiên cứu và phát triển một giải pháp ICA tuyến tính trong trường hợp các nguồn tín hiệu có sự tư ng quan thời gian thông qua khái niệm sai số của kết quả dự báo chuỗi tốt nhất Innovation Process-IP). Kết quả thực nghiệm cũng chỉ ra trong nhiều trường hợp việc đánh giá mô hình ICA tuyến tính bằng phư ng pháp s dụng tính độc lập tư ng hỗ giữa các IP cho kết quả tốt h n phư ng pháp ICA thông thường. Giải pháp này có thể được áp dụng cho các ứng dụng của BSS trong lĩnh vực y tế như x lý hình ảnh FM I, tín hiệu EEG, MEG và trong x lý ảnh nói chung như loại bỏ nhiễu, khôi phục ảnh... Trong thực tế, bài toán BSS rất phong ph , đa dạng tuyến tính, trộn chập, có nhiễu, không có nhiễu), đồng thời cũng có rất nhiều nghiên cứu xoay quanh vấn đề này. Bời trong khuôn kh của luận văn tôi chỉ giới thiệu, tìm hiểu, nghiên cứu về mô hình tuyến tính của BSS với số tín hiệu nguồn bằng số tín hiệu trộn. Do thời gian có hạn và những hạn chế không tránh khỏi của việc hiểu biết các vấn đề dựa trên lý thuyết là chính nên báo cáo luận văn của tôi chắc chắn không tránh khỏi những thiếu sót.Tôi rất mong có được những ý kiến đánh giá, góp ý của các th y và các bạn để đồ án thêm hoàn thiện.
- Xem thêm -