Đăng ký Đăng nhập
Trang chủ Mở rộng độ đo thông tin tương hỗ để tái tạo mạng trao đổi chất [tt]...

Tài liệu Mở rộng độ đo thông tin tương hỗ để tái tạo mạng trao đổi chất [tt]

.PDF
24
692
121

Mô tả:

Chương 1 MỞ ĐẦU 1.1 Giới thiệu Trong khoảng một thập kỷ gần đây, với sự phát triển nhanh chóng của ngành Công nghệ sinh học, dữ liệu sinh học được sinh ra ngày một nhiều. Chẳng hạn, dữ liệu biểu hiện gien (gene expression data), dữ liệu biểu sinh gien (epigenetic data), dữ liệu tương tác protein (protein interaction data), dữ liệu phổ khối lượng của mẫu sinh học (metabolomic data). Các loại dữ liệu này gọi chung là dữ liệu sinh học hệ thống (high-throughput data) và thường được coi là "ảnh chụp" của các tổ chức sinh học. Việc phân tích các dữ liệu sinh học hệ thống để từ đó có thể xây dựng lại các mạng sinh học gọi là tái tạo mạng (network reconstruction). Bài toán tái tạo mạng sinh học là một loại bài toán ngược. Đây là một bài toán quan trọng và đang là thách thức của ngành sinh học hệ thống. Việc tái tạo mạng sinh học giúp chúng ta làm sáng tỏ bản chất của các quá trình sinh học phức tạp và các cơ chế gây bệnh xảy ra bên trong tổ chức sinh học. Đặc biệt, giúp chúng ta có thể tiên lượng, chẩn đoán các tác nhân, chỉ dấu sinh học gây bệnh. Từ đó, giúp con người có thể can thiệp kịp thời và chính xác vào các quá trình đó như: lựa chọn chế độ dinh dưỡng, đưa ra phác đồ điều trị bệnh, điều chế thuốc, . . . . Trong một tổ chức sinh học, mọi tiến trình sinh học đều được điều khiển bởi các phần tử cơ bản như: gen, protein, metabolite. Quan hệ giữa các phần tử cơ bản trong tế bào sẽ quyết định đến chức năng của tế bào. Do đó, từ dữ liệu sinh học, quá trình tái tạo mạng sinh học thông qua các mối quan hệ giữa các phần tử sẽ cho chúng ta bức tranh tổng thể của sự sống. Cho đến nay, có hai cách tiếp cận tái tạo mạng sinh học: cách tiếp cận thực nghiệm trong lĩnh vực Sinh học và cách tiếp cận tính toán trong lĩnh vực Tin-Sinh. Với cách tiếp cận thực nghiệm, các nhà thực nghiệm Sinh học sử dụng các phương tiện của công nghệ sinh học để đo đạc sự liên kết giữa các phần tử, sau đó kết hợp với tri thức chuyên gia để tái tạo lại mô hình mạng sinh học. Cách tiếp cận này thường cho kết quả chính xác, nhưng chi phí thực nghiệm và thời gian tái tạo mạng sinh học hoàn chỉnh rất lớn. Cách tiếp cận tính toán trong lĩnh vực Tin-Sinh lại sử dụng sức mạnh tính toán của máy tính, các thuật toán, các mô hình để xây dựng cấu trúc mạng phù hợp với dữ liệu quan sát nhất. Kết quả là thu được mô hình mạng, ở đó các nút biểu diễn các phần tử sinh học, các cạnh biểu diễn quan hệ giữa chúng. Mặc dù, mạng tái tạo được bằng cách này có thể còn khác so với mạng được tái tạo bằng thực nghiệm, nhưng quá trình đó có ý nghĩa quan trọng trên con đường tiến tới tái tạo mạng sinh học đầy đủ. Quá trình đó sẽ giúp các nhà Sinh học có định hướng tốt hơn trong các thực nghiệm, giảm thời gian và chi phí thực nghiệm. Ngoài ra, tái tạo mạng sinh học bằng cách tiếp cận tính toán có thể dự đoán được các mối quan hệ giữa các phần tử sinh 1 học, mà có thể, với cách tiếp cận thực nghiệm chưa tìm được. Chính vì vậy, trong khuôn khổ luận án này, chúng tôi sử dụng cách tiếp cận tính toán để tái tạo mạng sinh học từ dữ liệu. 1.2 Bối cảnh thực hiện luận án Ý tưởng về mô hình hóa các quá trình sinh học bằng các mạng gồm các nút và các cạnh là một vẫn đề hấp dẫn. Việc tìm ra các cạnh nối các nút trong mạng rất quan trọng, vì từ đó sẽ xác định nhóm các phần tử cùng thực hiện một chức năng hoặc cùng tham gia vào một con đường sinh học, đây là một vấn đề quan trọng trong sinh học hệ thống. Cho đến nay, đã có nhiều hướng nghiên cứu giải quyết bài toán tái tạo mạng, mỗi hướng đều có ưu điểm và nhược điểm [He et al., 2009], [Villaverde et al., 2013], [Wang et al., 2014]. Một cách tiếp cận sử dụng mô hình toán học trong tái tạo mạng đó là dựa trên phương trình vi phân, tích phân (differential and integral equations) [Gardner et al., 2003], [Mazur et al.,2009], [Steuer et al., 2003]. Trong phương pháp này, tác động của các phần tử lên một phần tử nào đó được biểu diễn bằng một phương trình vi phân tuyến tính. Như vậy, đối với tất cả các phần tử, ta sẽ có một hệ phương trình. Mô hình này có ưu điểm là đơn giản vì đã có cách giải phương trình vi phân tuyến tính. Tuy nhiên, trong thực tế, dữ liệu biểu hiện của các phần tử trong tế bào lại thường không tuân theo qui luật đơn giản như vậy. Hơn nữa, do mô hình đòi hỏi nhiều tham số nên chi phí ước lượng lớn. Một cách tiếp cận khác để tái tạo mạng sinh học đó là sử dụng mô hình đồ thị (graphical models). Đây là cách tiếp cận được nhiều người sử dụng và đã có nhiều kết quả nghiên cứu. Mạng logic (boolean network ) là một trong những mô hình mạng sớm nhất được đề xuất năm 1969 bởi Kauffman, được biểu diễn đơn giản bằng một đồ thị có hướng. Mạng logic có ưu điểm là một mô hình đơn giản nhất để biểu diễn một mạng thực. Tuy nhiên, nhược điểm lớn nhất của mô hình này là đòi hỏi thời gian tính toán rất cao để xây dựng cấu trúc mạng đáng tin cậy. Do đó, phương pháp này thường chỉ áp dụng trên mạng nhỏ, không áp dụng để xây dựng mạng có qui mô lớn [Trairatphisan et al., 2013]. Một sự kết hợp của mô hình đồ thị và mô hình xác suất đó là mô hình đồ thị xác suất (probabilistic graphical models) [Jordan, 1998], [Kauffman et al., 2003], [Wang et al., 2014]. Đây là mô hình xác suất sử dụng đồ thị để biểu diễn sự phụ thuộc có điều kiện giữa các biến ngẫu nhiên một cách trực quan. Mục đích của cách tiếp cận mô hình đồ thị là tìm ra cấu trúc mạng phù hợp nhất với dữ liệu. Có rất nhiều mô hình đồ thị khác nhau đã được sử dụng cho bài toán tái tạo mạng. Trong đó, phải kể đến mô hình đồ thị xác suất thường được sử dụng là mô hình mạng logic xác suất (probabilistic boolean network ) [Trairatphisan et al., 2013], mô hình mạng Bayesian (Bayesian network ) và các biến thể của chúng như: mạng Bayesian động (dynamic Bayesian network ), mô hình Markov ẩn (hidden Markov model ), mạng logic Markov (Markov logic network ), trường ngẫu nhiên Markov (Markov random field ), . . . . Tuy nhiên, thời gian tính toán 2 để tìm được mô hình phù hợp nhất với dữ liệu khá cao. Ngoài ra, cách tiếp cận mô hình đồ thị hướng đến xây dựng cấu trúc mạng toàn cục, mạng được xây dựng theo kiểu top-down. Chính vì vậy, phương pháp này thường bỏ sót các quan hệ mang tính địa phương. Một hướng tiếp cận khác để tái tạo mạng là sử dụng mô hình Lý thuyết thông tin (information theory models). Ý tưởng của phương pháp này là dựa trên các độ đo để tìm ra sự phụ thuộc thống kê giữa các phần tử sinh học. Một số độ đo trong Lý thuyết thông tin, chẳng hạn độ đo Thông tin tương hỗ (mutual information), Hệ số thông tin cực đại (maximal information coefficient-MIC ) có thể phát hiện được các quan hệ cặp đôi, tức là phát hiện sự phụ thuộc giữa hai phần tử. Nhiều nghiên cứu đã sử dụng độ đo Thông tin tương hỗ để tái tạo mạng điều hòa gen và mạng tương tác protein [Butte et al. 2000], [Cakir et al., 2006], [Margolin et al., 2006]. Cách tiếp cận Lý thuyết thông tin thường hướng đến các quan hệ cục bộ, sau đó mở rộng dần dần để xây dựng mạng toàn cục. Nói cách khác, theo cách tiếp cận Lý thuyết thông tin, cấu trúc mạng được xây dựng theo kiểu bottom-up. Do đó, phương pháp này thường không bỏ sót các quan hệ mang tính địa phương. Tóm lại, có nhiều cách tiếp cận để giải quyết bài toán tái tạo mạng sinh học, mỗi cách tiếp cận đều có những ưu điểm và nhược điểm. Phần lớn các nghiên cứu trước đây chỉ tập trung vào việc tìm các quan hệ cặp đôi giữa hai phần tử và cho rằng quan hệ cặp đôi chính là cơ sở để xây dựng mạng quan hệ đa biến. Gần đây, một số nghiên cứu đã xem xét đến mối quan hệ của một phần tử với nhiều phần tử khác trong mạng sinh học. Chẳng hạn, cách tiếp cận mô hình đồ thị và độ đo Thông tin tương hỗ trong tái tạo mạng điều hòa gen [Kinney et al., 2014], [Reshef et al., 2011], [Trairatphisan et al., 2013]. Tuy nhiên, các mối quan hệ đa biến đó lại không phải là các quan hệ xảy ra đồng thời. Trong khi, một phản ứng sinh hóa trong mạng trao đổi chất lại thường chứa đựng mối quan hệ của nhiều chất, đồng thời xảy ra. Do đó, các mối quan hệ như vậy có thể sẽ không được phát hiện bằng các phương pháp đã nêu trên. 1.3 Mục tiêu nghiên cứu của luận án Để tái tạo mạng trao đổi chất, trong luận án này, chúng tôi lựa chọn hướng tiếp cận Lý thuyết thông tin, cụ thể là sử dụng các độ đo Thông tin tương hỗ. Độ đo Thông tin tương hỗ trước đây được áp dụng để phát hiện quan hệ hai biến trong mạng điều hòa gen và mạng tương tác protein do quan hệ trong các mạng này phần lớn là quan hệ hai biến hoặc các quan hệ nhiều biến nhưng có thể suy diễn từ các quan hệ hai biến. Trong mạng trao đổi chất, một phản ứng có thể có nhiều chất tham gia. Do đó, quan hệ giữa các chất thường là các quan hệ ba biến, bốn biến, . . . , hay nói cách khác là các quan hệ đa biến và hơn nữa chúng xảy ra đồng thời. Cho đến nay, một số mở rộng của độ đo Thông tin tương hỗ cũng đã xem xét đến mối quan hệ đa biến. Tuy nhiên, có những kiểu quan hệ chỉ xuất hiện khi có nhiều biến đồng thời cùng tham gia. Chính vì vậy, 3 để tái tạo mạng trao đổi chất, cần phải mở rộng độ đo Thông tin tương hỗ để có thể phát hiện được các quan hệ đa biến xảy ra đồng thời. Như vậy, mục tiêu nghiên cứu của luận án là mở rộng độ đo Thông tin tương hỗ để tái tạo mạng trao đổi chất. Để tái tạo mạng trao đổi chất từ dữ liệu sinh học, chúng tôi sẽ thực hiện hai bước, tương ứng với hai bài toán (Hình 1.1). Bài toán 1 Dữ liệu → Tái tạo quan hệ đa biến Bài toán 2 → Loại bỏ quan hệ dư thừa ⇑ ⇑ Mở rộng độ đo MI Mở rộng độ đo CMI → Mạng trao đổi chất Hình 1.1: Sơ đồ tóm tắt Mục tiêu nghiên cứu của luận án • Bài toán 1: Mở rộng độ đo Thông tin tương hỗ (MI) để tái tạo quan hệ đa biến. • Bài toán 2: Mở rộng độ đo Thông tin tương hỗ có điều kiện (CMI) để phát hiện quan hệ đa biến gián tiếp và loại bỏ quan hệ dư thừa. 1.4 Các đóng góp chính của luận án Luận án có ba đóng góp chính: Thứ nhất: Đề xuất một cách diễn giải trực quan mới và công thức mới cho Thông tin tương hỗ trong trong trường hợp hai biến và ba biến. Cách diễn giải này khắc phục được các nhược điểm của một số cách diễn giải trước đây. Thứ hai: Trên cơ sở đóng góp thứ nhất, đề xuất một công thức tổng quát cho độ đo Thông tin tương hỗ đa biến. Từ công thức tổng quát, có nhiều công thức được suy ra, mỗi công thức phản ánh một loại quan hệ tồn tại giữa các biến. Thứ ba: Đề xuất một công thức tổng quát cho độ đo Thông tin tương hỗ đa biến có điều kiện nhằm phát hiện quan hệ đa biến gián tiếp và loại bỏ các quan hệ dư thừa. 1.5 Tổ chức luận án Luận án gồm 130 trang được chia thành 4 chương. Chương 1: Giới thiệu tổng quan về bài toán tái tạo mạng sinh học, bối cảnh thực hiện luận án, mục tiêu nghiên cứu và những đóng góp chính của luận án. Chương 2: Những kiến thức nền tảng, bao gồm những khái niệm cơ bản trong Tin-Sinh học và các kiến thức liên quan đến một số độ đo trong Lý thuyết thông tin. 4 Chương 3: Giới thiệu một số mở rộng độ đo Thông tin tương hỗ của các tác giả khác. Đề xuất một diễn giải trực quan mới và công thức mới cho Thông tin tương hỗ trong trường hợp hai biến và ba biến. Từ đó, đề xuất một công thức tổng quát cho Thông tin tương hỗ trong trường hợp đa biến. Cuối cùng là một ứng dụng của các độ đo Thông tin tương hỗ đa biến vào bài toán tái tạo mạng trao đổi chất và đánh giá các độ đo này. Chương 4: Đề xuất một công thức tổng quát của độ đo Thông tin tương hỗ đa biến có điều kiện. Ứng dụng của các độ đo Thông tin tương hỗ đa biến có điều kiện trong việc phát hiện các quan hệ đa biến gián tiếp để loại bỏ các quan hệ dư thừa trong mạng trao đổi chất. Cuối cùng là phần Kết luận của luận án. Chương 2 KIẾN THỨC NỀN TẢNG 2.1 Một số khái niệm cơ bản trong Sinh học Mọi sinh vật đều được tạo thành từ vô số tế bào. Tất cả các quá trình sinh học trong tế bào đều được điều khiển bới các phần tử cơ bản trong tế bào như: gien, protein, metabolite. Các phần tử này không hoạt động riêng rẽ mà chúng thường kết hợp với nhau để tạo thành các phức hợp và thực hiện một chức năng nào đó. Tập các phần tử sinh học và các quan hệ giữa chúng tạo thành một mạng sinh học (biological network ). Về mặt hình thức, mạng sinh học thường được biểu diễn bằng đồ thị gồm các nút và các cạnh. Trong đó, nút đại diện cho các phần tử cơ bản trong tế bào, cạnh đại diện cho quan hệ giữa các phần tử cơ bản đó. Mạng tương tác protein (protein-protein interaction network-PIN ) là một mạng sinh học. Trong đó, các nút của mạng là các protein, các cạnh là các tương tác vật lý giữa các protein. Tương tác protein-protein xảy ra khi các protein kết hợp với nhau, thường là để thực hiện chức năng sinh học của chúng. Trong mạng điều hòa gien (gene regulatory network-GRN ), mỗi nút là một gien, mỗi cạnh là một quan hệ điều khiển của gien này đối với gien kia. Một trong các nguồn dữ liệu quan trọng là dữ liệu biểu hiện gien (gene expression data). Dữ liệu biểu hiện gien thường cho dưới dạng ma trận, trong đó mỗi cột tương ứng với mỗi gien và mỗi dòng tương ứng với một thời điểm lấy mẫu hay một điều kiện thí nghiệm. Mỗi ô của ma trận chứa mức độ biểu hiện của gien trong điều kiện tương ứng. Trong mạng trao đổi chất (metabolic network-MN ), mỗi nút là một chất trao đổi (metabolite), là phân tử nhỏ có trong mẫu sinh học. Các chất trao đổi này thường là các chất tham gia phản ứng, các chất xúc tác, các sản phẩm của các phản ứng hóa sinh trong cơ thể sinh học. Mỗi cạnh trong mạng biểu diễn cho một quan hệ chuyển hóa từ chất này sang chất kia. 5 Dữ liệu chuỗi thời gian (time-series) là tập hợp các dữ liệu thu được tại các mốc thời gian, cách nhau một khoảng thời gian nhất định. Dữ liệu time-series được sử dụng trong thống kê, xử lý tín hiệu, nhận dạng mẫu, tài chính, dự báo,. . . . Dựa vào dữ liệu time-series, ta có thể tìm thấy các qui luật của các sự kiện. Vì vậy, mô hình time-series còn được sử dụng để sinh ra các dữ liệu dựa trên các quan sát đã có. Trong quá trình thu thập dữ liệu thường xuất hiện các dữ liệu nhiễu (perturbation). Dữ liệu nhiễu thường sinh ra do lỗi chương trình, lỗi thiết bị dùng để thu thập dữ liệu hoặc do ảnh hưởng của điều kiện thí nghiệm, . . . . Chúng thường làm ảnh hưởng xấu đến các kết quả phân tích hoặc khai phá dữ liệu. Dữ liệu In silico là dữ liệu sinh học được sinh ra từ máy tính thông qua các mô hình mô phỏng, không phải thu được từ các thí nghiệm sinh học. Nghiên cứu In silico có khả năng làm tăng tốc độ thực hiện và đồng thời làm giảm chi phí khi tiến hành trong phòng thí nghiệm và trên các thử nghiệm lâm sàng. 2.2 Một số khái niệm cơ bản trong Lý thuyết thông tin Định nghĩa 2.1. Entropy của biến ngẫu nhiên rời rạc X, ký hiệu là H(X), đo lượng thông tin không chắc chắn của biến X, được định nghĩa như sau [Shannon, 1948]: X X 1 =− p(x) log p(x) (2.1) H(X) = p(x) log p(x) x x trong đó, p(x) là hàm phân phối xác suất (probability mass function) của X. Khi các biến là liên tục, phép tính tổng trong các công thức được thay bởi phép tính tích phân. Tính chất: H(X) ≥ 0 Định nghĩa 2.2. Entropy đồng thời (joint entropy) của cặp hai biến ngẫu nhiên rời rạc (X, Y ), ký hiệu H(X, Y ), được định nghĩa như sau: X H(X, Y ) = − p(x, y) log p(x, y) (2.2) x,y Tính chất: H(X, Y ) ≤ H(X) + H(Y ) Định nghĩa 2.3. Cho hai biến ngẫu nhiên rời rạc X và Y . Entropy có điều kiện (conditional entropy) của biến X trên điều kiện Y , ký hiệu là H(X|Y ), đo lượng thông tin không chắc chắn của biến X khi đã biết biến Y , được xác định như sau: X p(x, y) (2.3) H(X|Y ) = − p(x, y) log p(y) x,y Tính chất (i) H(X|Y ) ≥ 0 (ii) H(X, Y ) = H(X) + H(Y |X); H(X, Y ) = H(Y ) + H(X|Y ) 6 (iii) H(X|Y ) ≤ H(X) Định nghĩa 2.4. Entropy của n biến ngẫu nhiên rời rạc X1 , . . . , Xn với phân bố xác suất đồng thời p(x1 , . . . , xn ) được xác định bởi: X H(X1 , . . . , Xn ) = − p(x1 , . . . , xn ) log p(x1 , . . . , xn ) (2.4) x1 ,...,xn Tính chất: H(X1 , . . . , Xn ) ≤ n P H(Xi ) i=1 Định nghĩa 2.5. Thông tin tương hỗ (mutual information) của hai biến ngẫu nhiên X và Y , ký hiệu là M I(X, Y ), đo mức độ tương hỗ của hai biến X và Y , được định nghĩa như sau: M I(X, Y ) = X p(x, y) log x,y = p(x, y) p(x).p(y) H(X) + H(Y ) − H(X, Y ) (2.5) (2.6) Khi giá trị độ đo này lớn, có nghĩa rằng mức độ tương hỗ giữa hai biến lớn và ngược lại, giá trị của độ đo bé nghĩa là mức độ tương hỗ của hai biến nhỏ. Tính chất (i) M I(X, Y ) ≥ 0 (ii) M I(X, Y ) = M I(Y, X) (iii) M I(X, Y ) = H(X) − H(X|Y ) = H(Y ) − H(Y |X) (iv) M I(X, Y ) ≤ H(X); M I(X, Y ) ≤ H(Y ) Định nghĩa 2.6. Thông tin tương hỗ có điều kiện (conditional mutual information) của hai biến ngẫu nhiên X và Y trên điều kiện Z đo mức độ tương hỗ của hai biến X và Y khi có điều kiện Z, được định nghĩa như sau: M I(X, Y |Z) = X p(x, y, z) log x,y,z = X p(x, y|z) p(x|z).p(y|z) p(z)M I(X, Y |Z = z) (2.7) (2.8) z Một số biểu diễn khác của CMI: M I(X, Y |Z) = H(X, Z) + H(Y, Z) − H(Z) − H(X, Y, Z) (2.9) M I(X, Y |Z) = H(X|Z) + H(Y |Z) − H(X, Y |Z) (2.10) Tính chất: M I(X, Y |Z) ≥ 0 Định nghĩa 2.7. Ba biến ngẫu nhiên X, Y, Z được gọi là tạo thành chuỗi Markov (Markov chain), ký hiệu X → Y → Z, nếu: p(x, y, z) = p(x).p(y|x).p(z|y) 7 (2.11) Bổ đề 2.1. X → Y → Z khi và chỉ khi X và Z độc lập với nhau trên điều kiện Y , tức là M I(X, Z|Y ) = 0 Bổ đề 2.2. Nếu X → Y → Z thì Z → Y → X Định lý 2.1. Bất đẳng thức xử lý dữ liệu (data processing inequality-DPI) Nếu X → Y → Z thì: M I(X, Y ) ≥ M I(X, Z) (2.12) Dấu đẳng thức xảy ra khi và chỉ khi M I(X, Y |Z) = 0 Bổ đề 2.3. Nếu X → Y → Z thì M I(X, Z) ≤ min M I(X, Y ); M I(Y, Z)  (2.13) Bổ đề 2.4. Nếu X → Y → Z thì: M I(X, Y |Z) ≤ M I(X, Y ) 2.3 (2.14) Đánh giá tính chính xác của dự đoán Trong phân lớp nhị phân hay trong dự đoán, các kết quả được gán nhãn hoặc là dương (positive-P ) hoặc âm (negative-N ). Có bốn khả năng có thể xảy ra: Nếu kết quả dự đoán là P và giá trị thực tế cũng là P thì khi đó được gọi là true positive-TP. Nếu kết quả dự đoán là P mà giá trị thực là N , thì được gọi là false positive-FP. Ngược lại, nếu kết quả dự đoán và giá trị thực đều là N thì gọi là true negative-TN, và là false negative-FN khi kết quả dự đoán là N , trong khi giá trị thực tế là P . Dự đoán dương (P) Dự đoán âm (N) Quan sát dương (P) TP FN Quan sát âm (N) FP TN Có nhiều thước đo độ chính xác của dự đoán như: Precision, Recall, độ chính xác (Accuracy-ACC ), độ đo F (F-measure), đường cong ROC và diện tích dưới đường cong ROC (area under the curve-AUC ). Trong đó, P recision = TP TP + FP TP TP + FN TP + TN ACC = TP + FP + TN + FN P recision.Recall 2T P F − measure = 2 = P recision + Recall 2T P + F P + F N Recall = (2.15) (2.16) (2.17) (2.18) Một thước đo được sử dụng phổ biến nhất trong khoa học đó là đường cong ROC (Receiver Operating Characteristic). Đường cong ROC được tạo thành từ 8 tập hợp các điểm ứng với các ngưỡng khác nhau. Với mỗi ngưỡng sẽ cho ta một điểm. Mỗi điểm được xác định bởi 2 tọa độ: 1-Specificity (hay còn gọi là False Positive Rate) và Sensitivity (hay còn gọi là True Positive Rate). Trong đó, TP Sensitivity = (2.19) TP + FN FP 1 − Specif icity = (2.20) FP + TN Đường cong ROC có một tính chất quan trọng là: nếu đường cong càng đi dọc theo biên trái và rồi đi dọc theo biên phía trên của không gian ROC, thì chứng tỏ kết quả của dự đoán càng chính xác. Đường cong càng tiến tới thành đường chéo 45o trong không gian ROC, thì độ chính xác của dự đoán càng kém. Tuy nhiên, nếu căn cứ vào các đường cong ROC thì rất khó để kết luận được dự đoán nào tốt hơn. Vì vậy, người ta thường sử dụng phần diện tích dưới đường cong ROC, ký hiệu là AUC, để đánh giá tính chính xác của dự đoán. Đường cong nào có AUC càng lớn thì độ chính xác của dự đoán càng cao và ngược lại, đường cong nào có AUC càng bé thì độ chính xác của dự đoán càng thấp. Chương 3 MỞ RỘNG ĐỘ ĐO THÔNG TIN TƯƠNG HỖ ĐỂ TÁI TẠO QUAN HỆ ĐA BIẾN 3.1 Một số mở rộng độ đo Thông tin tương hỗ 3.1.1 Mở rộng của Watanabe Mở rộng đầu tiên của độ đo Thông tin tương hỗ là độ đo Tương quan tổng hợp (total correlation) do Watanabe đưa ra năm 1960 [Watanabe, 1960]. Định nghĩa 3.1. Cho n biến ngẫu nhiên X1 , . . . , Xn , tương quan tổng hợp của n biến, ký hiệu là T C(X1 , . . . , Xn ), được định nghĩa: T C(X1 , . . . , Xn ) = X p(x1 , . . . , xn ) log x1 ,...,xn = n X p(x1 , . . . , xn ) p(x1 ). . . . p(xn ) H(Xi ) − H(X1 , . . . , Xn ) (3.1) (3.2) i=1 Trong trường hợp ba biến, công thức (3.2) có dạng: T C(X, Y, Z) = H(X) + H(Y ) + H(Z) − H(X, Y, Z) (3.3) Một mở rộng nữa của Watanabe là Tương quan tổng hợp có điều kiện được định nghĩa như sau: 9 Định nghĩa 3.2. Tương quan tổng hợp có điều kiện của n biến ngẫu nhiên X1 , . . . , Xn trên điều kiện Y , ký hiệu là T C(X1 , . . . , Xn |Y ), được định nghĩa: T C(X1 , . . . , Xn |Y ) = n X H(Xi |Y ) − H(X1 , . . . , Xn |Y ) (3.4) i=1 Trong trường hợp ba biến, công thức (3.4) có dạng: T C(X, Y, Z|T ) = H(X|T ) + H(Y |T ) + H(Z|T ) − H(X, Y, Z|T ) (3.5) Độ đo Thông tin tương tác chỉ phản ánh được kiểu quan hệ đồng thời của n biến, không phản ánh được các kiểu quan hệ khác giữa các biến. 3.1.2 Mở rộng của Fano Mở rộng thứ hai của độ đo Thông tin tương hỗ là độ đo Thông tin tương tác (interaction information) do Fano đưa ra năm 1961 [Fano, 1961]. Định nghĩa 3.3. Thông tin tương tác của n biến ngẫu nhiên X1 , . . . , Xn−1 , Xn (với n > 2), được định nghĩa như sau: M I(X1 , . . . , Xn ) = n X i=1 H(Xi ) − X n+1 H(Xi , Xj ) + . . . + (−1) H(X1 , . . . , Xn ) (3.6) 1≤i - Xem thêm -

Tài liệu liên quan