Chương 1
MỞ ĐẦU
1.1
Giới thiệu
Trong khoảng một thập kỷ gần đây, với sự phát triển nhanh chóng của ngành
Công nghệ sinh học, dữ liệu sinh học được sinh ra ngày một nhiều. Chẳng hạn,
dữ liệu biểu hiện gien (gene expression data), dữ liệu biểu sinh gien (epigenetic
data), dữ liệu tương tác protein (protein interaction data), dữ liệu phổ khối
lượng của mẫu sinh học (metabolomic data). Các loại dữ liệu này gọi chung là
dữ liệu sinh học hệ thống (high-throughput data) và thường được coi là "ảnh
chụp" của các tổ chức sinh học. Việc phân tích các dữ liệu sinh học hệ thống
để từ đó có thể xây dựng lại các mạng sinh học gọi là tái tạo mạng (network
reconstruction). Bài toán tái tạo mạng sinh học là một loại bài toán ngược. Đây
là một bài toán quan trọng và đang là thách thức của ngành sinh học hệ thống.
Việc tái tạo mạng sinh học giúp chúng ta làm sáng tỏ bản chất của các quá
trình sinh học phức tạp và các cơ chế gây bệnh xảy ra bên trong tổ chức sinh
học. Đặc biệt, giúp chúng ta có thể tiên lượng, chẩn đoán các tác nhân, chỉ dấu
sinh học gây bệnh. Từ đó, giúp con người có thể can thiệp kịp thời và chính
xác vào các quá trình đó như: lựa chọn chế độ dinh dưỡng, đưa ra phác đồ điều
trị bệnh, điều chế thuốc, . . . .
Trong một tổ chức sinh học, mọi tiến trình sinh học đều được điều khiển
bởi các phần tử cơ bản như: gen, protein, metabolite. Quan hệ giữa các phần tử
cơ bản trong tế bào sẽ quyết định đến chức năng của tế bào. Do đó, từ dữ liệu
sinh học, quá trình tái tạo mạng sinh học thông qua các mối quan hệ giữa các
phần tử sẽ cho chúng ta bức tranh tổng thể của sự sống. Cho đến nay, có hai
cách tiếp cận tái tạo mạng sinh học: cách tiếp cận thực nghiệm trong lĩnh vực
Sinh học và cách tiếp cận tính toán trong lĩnh vực Tin-Sinh. Với cách tiếp cận
thực nghiệm, các nhà thực nghiệm Sinh học sử dụng các phương tiện của công
nghệ sinh học để đo đạc sự liên kết giữa các phần tử, sau đó kết hợp với tri thức
chuyên gia để tái tạo lại mô hình mạng sinh học. Cách tiếp cận này thường cho
kết quả chính xác, nhưng chi phí thực nghiệm và thời gian tái tạo mạng sinh
học hoàn chỉnh rất lớn. Cách tiếp cận tính toán trong lĩnh vực Tin-Sinh lại sử
dụng sức mạnh tính toán của máy tính, các thuật toán, các mô hình để xây
dựng cấu trúc mạng phù hợp với dữ liệu quan sát nhất. Kết quả là thu được
mô hình mạng, ở đó các nút biểu diễn các phần tử sinh học, các cạnh biểu diễn
quan hệ giữa chúng. Mặc dù, mạng tái tạo được bằng cách này có thể còn khác
so với mạng được tái tạo bằng thực nghiệm, nhưng quá trình đó có ý nghĩa
quan trọng trên con đường tiến tới tái tạo mạng sinh học đầy đủ. Quá trình đó
sẽ giúp các nhà Sinh học có định hướng tốt hơn trong các thực nghiệm, giảm
thời gian và chi phí thực nghiệm. Ngoài ra, tái tạo mạng sinh học bằng cách
tiếp cận tính toán có thể dự đoán được các mối quan hệ giữa các phần tử sinh
1
học, mà có thể, với cách tiếp cận thực nghiệm chưa tìm được. Chính vì vậy,
trong khuôn khổ luận án này, chúng tôi sử dụng cách tiếp cận tính toán để tái
tạo mạng sinh học từ dữ liệu.
1.2
Bối cảnh thực hiện luận án
Ý tưởng về mô hình hóa các quá trình sinh học bằng các mạng gồm các
nút và các cạnh là một vẫn đề hấp dẫn. Việc tìm ra các cạnh nối các nút trong
mạng rất quan trọng, vì từ đó sẽ xác định nhóm các phần tử cùng thực hiện
một chức năng hoặc cùng tham gia vào một con đường sinh học, đây là một vấn
đề quan trọng trong sinh học hệ thống. Cho đến nay, đã có nhiều hướng nghiên
cứu giải quyết bài toán tái tạo mạng, mỗi hướng đều có ưu điểm và nhược điểm
[He et al., 2009], [Villaverde et al., 2013], [Wang et al., 2014]. Một cách tiếp
cận sử dụng mô hình toán học trong tái tạo mạng đó là dựa trên phương trình
vi phân, tích phân (differential and integral equations) [Gardner et al., 2003],
[Mazur et al.,2009], [Steuer et al., 2003]. Trong phương pháp này, tác động của
các phần tử lên một phần tử nào đó được biểu diễn bằng một phương trình vi
phân tuyến tính. Như vậy, đối với tất cả các phần tử, ta sẽ có một hệ phương
trình. Mô hình này có ưu điểm là đơn giản vì đã có cách giải phương trình vi
phân tuyến tính. Tuy nhiên, trong thực tế, dữ liệu biểu hiện của các phần tử
trong tế bào lại thường không tuân theo qui luật đơn giản như vậy. Hơn nữa,
do mô hình đòi hỏi nhiều tham số nên chi phí ước lượng lớn.
Một cách tiếp cận khác để tái tạo mạng sinh học đó là sử dụng mô hình đồ
thị (graphical models). Đây là cách tiếp cận được nhiều người sử dụng và đã
có nhiều kết quả nghiên cứu. Mạng logic (boolean network ) là một trong những
mô hình mạng sớm nhất được đề xuất năm 1969 bởi Kauffman, được biểu diễn
đơn giản bằng một đồ thị có hướng. Mạng logic có ưu điểm là một mô hình
đơn giản nhất để biểu diễn một mạng thực. Tuy nhiên, nhược điểm lớn nhất
của mô hình này là đòi hỏi thời gian tính toán rất cao để xây dựng cấu trúc
mạng đáng tin cậy. Do đó, phương pháp này thường chỉ áp dụng trên mạng nhỏ,
không áp dụng để xây dựng mạng có qui mô lớn [Trairatphisan et al., 2013].
Một sự kết hợp của mô hình đồ thị và mô hình xác suất đó là mô hình đồ thị
xác suất (probabilistic graphical models) [Jordan, 1998], [Kauffman et al., 2003],
[Wang et al., 2014]. Đây là mô hình xác suất sử dụng đồ thị để biểu diễn sự
phụ thuộc có điều kiện giữa các biến ngẫu nhiên một cách trực quan. Mục đích
của cách tiếp cận mô hình đồ thị là tìm ra cấu trúc mạng phù hợp nhất với dữ
liệu. Có rất nhiều mô hình đồ thị khác nhau đã được sử dụng cho bài toán tái
tạo mạng. Trong đó, phải kể đến mô hình đồ thị xác suất thường được sử dụng
là mô hình mạng logic xác suất (probabilistic boolean network ) [Trairatphisan
et al., 2013], mô hình mạng Bayesian (Bayesian network ) và các biến thể của
chúng như: mạng Bayesian động (dynamic Bayesian network ), mô hình Markov
ẩn (hidden Markov model ), mạng logic Markov (Markov logic network ), trường
ngẫu nhiên Markov (Markov random field ), . . . . Tuy nhiên, thời gian tính toán
2
để tìm được mô hình phù hợp nhất với dữ liệu khá cao. Ngoài ra, cách tiếp cận
mô hình đồ thị hướng đến xây dựng cấu trúc mạng toàn cục, mạng được xây
dựng theo kiểu top-down. Chính vì vậy, phương pháp này thường bỏ sót các
quan hệ mang tính địa phương.
Một hướng tiếp cận khác để tái tạo mạng là sử dụng mô hình Lý thuyết
thông tin (information theory models). Ý tưởng của phương pháp này là dựa
trên các độ đo để tìm ra sự phụ thuộc thống kê giữa các phần tử sinh học. Một số
độ đo trong Lý thuyết thông tin, chẳng hạn độ đo Thông tin tương hỗ (mutual
information), Hệ số thông tin cực đại (maximal information coefficient-MIC )
có thể phát hiện được các quan hệ cặp đôi, tức là phát hiện sự phụ thuộc giữa
hai phần tử. Nhiều nghiên cứu đã sử dụng độ đo Thông tin tương hỗ để tái tạo
mạng điều hòa gen và mạng tương tác protein [Butte et al. 2000], [Cakir et al.,
2006], [Margolin et al., 2006]. Cách tiếp cận Lý thuyết thông tin thường hướng
đến các quan hệ cục bộ, sau đó mở rộng dần dần để xây dựng mạng toàn cục.
Nói cách khác, theo cách tiếp cận Lý thuyết thông tin, cấu trúc mạng được xây
dựng theo kiểu bottom-up. Do đó, phương pháp này thường không bỏ sót các
quan hệ mang tính địa phương.
Tóm lại, có nhiều cách tiếp cận để giải quyết bài toán tái tạo mạng sinh học,
mỗi cách tiếp cận đều có những ưu điểm và nhược điểm. Phần lớn các nghiên
cứu trước đây chỉ tập trung vào việc tìm các quan hệ cặp đôi giữa hai phần tử
và cho rằng quan hệ cặp đôi chính là cơ sở để xây dựng mạng quan hệ đa biến.
Gần đây, một số nghiên cứu đã xem xét đến mối quan hệ của một phần tử với
nhiều phần tử khác trong mạng sinh học. Chẳng hạn, cách tiếp cận mô hình
đồ thị và độ đo Thông tin tương hỗ trong tái tạo mạng điều hòa gen [Kinney
et al., 2014], [Reshef et al., 2011], [Trairatphisan et al., 2013]. Tuy nhiên, các
mối quan hệ đa biến đó lại không phải là các quan hệ xảy ra đồng thời. Trong
khi, một phản ứng sinh hóa trong mạng trao đổi chất lại thường chứa đựng mối
quan hệ của nhiều chất, đồng thời xảy ra. Do đó, các mối quan hệ như vậy có
thể sẽ không được phát hiện bằng các phương pháp đã nêu trên.
1.3
Mục tiêu nghiên cứu của luận án
Để tái tạo mạng trao đổi chất, trong luận án này, chúng tôi lựa chọn hướng
tiếp cận Lý thuyết thông tin, cụ thể là sử dụng các độ đo Thông tin tương hỗ.
Độ đo Thông tin tương hỗ trước đây được áp dụng để phát hiện quan hệ hai
biến trong mạng điều hòa gen và mạng tương tác protein do quan hệ trong các
mạng này phần lớn là quan hệ hai biến hoặc các quan hệ nhiều biến nhưng có
thể suy diễn từ các quan hệ hai biến. Trong mạng trao đổi chất, một phản ứng
có thể có nhiều chất tham gia. Do đó, quan hệ giữa các chất thường là các quan
hệ ba biến, bốn biến, . . . , hay nói cách khác là các quan hệ đa biến và hơn nữa
chúng xảy ra đồng thời. Cho đến nay, một số mở rộng của độ đo Thông tin
tương hỗ cũng đã xem xét đến mối quan hệ đa biến. Tuy nhiên, có những kiểu
quan hệ chỉ xuất hiện khi có nhiều biến đồng thời cùng tham gia. Chính vì vậy,
3
để tái tạo mạng trao đổi chất, cần phải mở rộng độ đo Thông tin tương hỗ để
có thể phát hiện được các quan hệ đa biến xảy ra đồng thời.
Như vậy, mục tiêu nghiên cứu của luận án là mở rộng độ đo Thông tin
tương hỗ để tái tạo mạng trao đổi chất. Để tái tạo mạng trao đổi chất từ
dữ liệu sinh học, chúng tôi sẽ thực hiện hai bước, tương ứng với hai bài toán
(Hình 1.1).
Bài toán 1
Dữ
liệu
→
Tái tạo quan hệ đa biến
Bài toán 2
→
Loại bỏ quan hệ dư thừa
⇑
⇑
Mở rộng độ đo MI
Mở rộng độ đo CMI
→
Mạng
trao
đổi
chất
Hình 1.1: Sơ đồ tóm tắt Mục tiêu nghiên cứu của luận án
• Bài toán 1: Mở rộng độ đo Thông tin tương hỗ (MI) để tái tạo quan hệ
đa biến.
• Bài toán 2: Mở rộng độ đo Thông tin tương hỗ có điều kiện (CMI) để
phát hiện quan hệ đa biến gián tiếp và loại bỏ quan hệ dư thừa.
1.4
Các đóng góp chính của luận án
Luận án có ba đóng góp chính:
Thứ nhất: Đề xuất một cách diễn giải trực quan mới và công thức mới cho
Thông tin tương hỗ trong trong trường hợp hai biến và ba biến. Cách diễn giải
này khắc phục được các nhược điểm của một số cách diễn giải trước đây.
Thứ hai: Trên cơ sở đóng góp thứ nhất, đề xuất một công thức tổng quát
cho độ đo Thông tin tương hỗ đa biến. Từ công thức tổng quát, có nhiều công
thức được suy ra, mỗi công thức phản ánh một loại quan hệ tồn tại giữa các
biến.
Thứ ba: Đề xuất một công thức tổng quát cho độ đo Thông tin tương hỗ đa
biến có điều kiện nhằm phát hiện quan hệ đa biến gián tiếp và loại bỏ các quan
hệ dư thừa.
1.5
Tổ chức luận án
Luận án gồm 130 trang được chia thành 4 chương.
Chương 1: Giới thiệu tổng quan về bài toán tái tạo mạng sinh học, bối cảnh
thực hiện luận án, mục tiêu nghiên cứu và những đóng góp chính của luận án.
Chương 2: Những kiến thức nền tảng, bao gồm những khái niệm cơ bản trong
Tin-Sinh học và các kiến thức liên quan đến một số độ đo trong Lý thuyết thông
tin.
4
Chương 3: Giới thiệu một số mở rộng độ đo Thông tin tương hỗ của các tác
giả khác. Đề xuất một diễn giải trực quan mới và công thức mới cho Thông tin
tương hỗ trong trường hợp hai biến và ba biến. Từ đó, đề xuất một công thức
tổng quát cho Thông tin tương hỗ trong trường hợp đa biến. Cuối cùng là một
ứng dụng của các độ đo Thông tin tương hỗ đa biến vào bài toán tái tạo mạng
trao đổi chất và đánh giá các độ đo này.
Chương 4: Đề xuất một công thức tổng quát của độ đo Thông tin tương hỗ
đa biến có điều kiện. Ứng dụng của các độ đo Thông tin tương hỗ đa biến có
điều kiện trong việc phát hiện các quan hệ đa biến gián tiếp để loại bỏ các quan
hệ dư thừa trong mạng trao đổi chất.
Cuối cùng là phần Kết luận của luận án.
Chương 2
KIẾN THỨC NỀN TẢNG
2.1
Một số khái niệm cơ bản trong Sinh học
Mọi sinh vật đều được tạo thành từ vô số tế bào. Tất cả các quá trình sinh
học trong tế bào đều được điều khiển bới các phần tử cơ bản trong tế bào như:
gien, protein, metabolite. Các phần tử này không hoạt động riêng rẽ mà chúng
thường kết hợp với nhau để tạo thành các phức hợp và thực hiện một chức năng
nào đó. Tập các phần tử sinh học và các quan hệ giữa chúng tạo thành một
mạng sinh học (biological network ). Về mặt hình thức, mạng sinh học thường
được biểu diễn bằng đồ thị gồm các nút và các cạnh. Trong đó, nút đại diện
cho các phần tử cơ bản trong tế bào, cạnh đại diện cho quan hệ giữa các phần
tử cơ bản đó.
Mạng tương tác protein (protein-protein interaction network-PIN ) là một
mạng sinh học. Trong đó, các nút của mạng là các protein, các cạnh là các tương
tác vật lý giữa các protein. Tương tác protein-protein xảy ra khi các protein kết
hợp với nhau, thường là để thực hiện chức năng sinh học của chúng.
Trong mạng điều hòa gien (gene regulatory network-GRN ), mỗi nút là một
gien, mỗi cạnh là một quan hệ điều khiển của gien này đối với gien kia. Một
trong các nguồn dữ liệu quan trọng là dữ liệu biểu hiện gien (gene expression
data). Dữ liệu biểu hiện gien thường cho dưới dạng ma trận, trong đó mỗi cột
tương ứng với mỗi gien và mỗi dòng tương ứng với một thời điểm lấy mẫu hay
một điều kiện thí nghiệm. Mỗi ô của ma trận chứa mức độ biểu hiện của gien
trong điều kiện tương ứng.
Trong mạng trao đổi chất (metabolic network-MN ), mỗi nút là một chất
trao đổi (metabolite), là phân tử nhỏ có trong mẫu sinh học. Các chất trao đổi
này thường là các chất tham gia phản ứng, các chất xúc tác, các sản phẩm của
các phản ứng hóa sinh trong cơ thể sinh học. Mỗi cạnh trong mạng biểu diễn
cho một quan hệ chuyển hóa từ chất này sang chất kia.
5
Dữ liệu chuỗi thời gian (time-series) là tập hợp các dữ liệu thu được tại các
mốc thời gian, cách nhau một khoảng thời gian nhất định. Dữ liệu time-series
được sử dụng trong thống kê, xử lý tín hiệu, nhận dạng mẫu, tài chính, dự
báo,. . . . Dựa vào dữ liệu time-series, ta có thể tìm thấy các qui luật của các sự
kiện. Vì vậy, mô hình time-series còn được sử dụng để sinh ra các dữ liệu dựa
trên các quan sát đã có.
Trong quá trình thu thập dữ liệu thường xuất hiện các dữ liệu nhiễu (perturbation). Dữ liệu nhiễu thường sinh ra do lỗi chương trình, lỗi thiết bị dùng
để thu thập dữ liệu hoặc do ảnh hưởng của điều kiện thí nghiệm, . . . . Chúng
thường làm ảnh hưởng xấu đến các kết quả phân tích hoặc khai phá dữ liệu.
Dữ liệu In silico là dữ liệu sinh học được sinh ra từ máy tính thông qua các
mô hình mô phỏng, không phải thu được từ các thí nghiệm sinh học. Nghiên
cứu In silico có khả năng làm tăng tốc độ thực hiện và đồng thời làm giảm chi
phí khi tiến hành trong phòng thí nghiệm và trên các thử nghiệm lâm sàng.
2.2
Một số khái niệm cơ bản trong Lý thuyết thông tin
Định nghĩa 2.1. Entropy của biến ngẫu nhiên rời rạc X, ký hiệu là H(X), đo
lượng thông tin không chắc chắn của biến X, được định nghĩa như sau [Shannon,
1948]:
X
X
1
=−
p(x) log p(x)
(2.1)
H(X) =
p(x) log
p(x)
x
x
trong đó, p(x) là hàm phân phối xác suất (probability mass function) của X.
Khi các biến là liên tục, phép tính tổng trong các công thức được thay bởi
phép tính tích phân.
Tính chất: H(X) ≥ 0
Định nghĩa 2.2. Entropy đồng thời (joint entropy) của cặp hai biến ngẫu nhiên
rời rạc (X, Y ), ký hiệu H(X, Y ), được định nghĩa như sau:
X
H(X, Y ) = −
p(x, y) log p(x, y)
(2.2)
x,y
Tính chất: H(X, Y ) ≤ H(X) + H(Y )
Định nghĩa 2.3. Cho hai biến ngẫu nhiên rời rạc X và Y . Entropy có điều
kiện (conditional entropy) của biến X trên điều kiện Y , ký hiệu là H(X|Y ), đo
lượng thông tin không chắc chắn của biến X khi đã biết biến Y , được xác định
như sau:
X
p(x, y)
(2.3)
H(X|Y ) = −
p(x, y) log
p(y)
x,y
Tính chất
(i) H(X|Y ) ≥ 0
(ii) H(X, Y ) = H(X) + H(Y |X); H(X, Y ) = H(Y ) + H(X|Y )
6
(iii) H(X|Y ) ≤ H(X)
Định nghĩa 2.4. Entropy của n biến ngẫu nhiên rời rạc X1 , . . . , Xn với phân
bố xác suất đồng thời p(x1 , . . . , xn ) được xác định bởi:
X
H(X1 , . . . , Xn ) = −
p(x1 , . . . , xn ) log p(x1 , . . . , xn )
(2.4)
x1 ,...,xn
Tính chất: H(X1 , . . . , Xn ) ≤
n
P
H(Xi )
i=1
Định nghĩa 2.5. Thông tin tương hỗ (mutual information) của hai biến ngẫu
nhiên X và Y , ký hiệu là M I(X, Y ), đo mức độ tương hỗ của hai biến X và Y ,
được định nghĩa như sau:
M I(X, Y )
=
X
p(x, y) log
x,y
=
p(x, y)
p(x).p(y)
H(X) + H(Y ) − H(X, Y )
(2.5)
(2.6)
Khi giá trị độ đo này lớn, có nghĩa rằng mức độ tương hỗ giữa hai biến lớn
và ngược lại, giá trị của độ đo bé nghĩa là mức độ tương hỗ của hai biến nhỏ.
Tính chất
(i) M I(X, Y ) ≥ 0
(ii) M I(X, Y ) = M I(Y, X)
(iii) M I(X, Y ) = H(X) − H(X|Y ) = H(Y ) − H(Y |X)
(iv) M I(X, Y ) ≤ H(X); M I(X, Y ) ≤ H(Y )
Định nghĩa 2.6. Thông tin tương hỗ có điều kiện (conditional mutual information) của hai biến ngẫu nhiên X và Y trên điều kiện Z đo mức độ tương hỗ
của hai biến X và Y khi có điều kiện Z, được định nghĩa như sau:
M I(X, Y |Z)
=
X
p(x, y, z) log
x,y,z
=
X
p(x, y|z)
p(x|z).p(y|z)
p(z)M I(X, Y |Z = z)
(2.7)
(2.8)
z
Một số biểu diễn khác của CMI:
M I(X, Y |Z) = H(X, Z) + H(Y, Z) − H(Z) − H(X, Y, Z)
(2.9)
M I(X, Y |Z) = H(X|Z) + H(Y |Z) − H(X, Y |Z)
(2.10)
Tính chất: M I(X, Y |Z) ≥ 0
Định nghĩa 2.7. Ba biến ngẫu nhiên X, Y, Z được gọi là tạo thành chuỗi
Markov (Markov chain), ký hiệu X → Y → Z, nếu:
p(x, y, z) = p(x).p(y|x).p(z|y)
7
(2.11)
Bổ đề 2.1. X → Y → Z khi và chỉ khi X và Z độc lập với nhau trên điều kiện
Y , tức là M I(X, Z|Y ) = 0
Bổ đề 2.2. Nếu X → Y → Z thì Z → Y → X
Định lý 2.1. Bất đẳng thức xử lý dữ liệu (data processing inequality-DPI)
Nếu X → Y → Z thì:
M I(X, Y ) ≥ M I(X, Z)
(2.12)
Dấu đẳng thức xảy ra khi và chỉ khi M I(X, Y |Z) = 0
Bổ đề 2.3. Nếu X → Y → Z thì
M I(X, Z) ≤ min M I(X, Y ); M I(Y, Z)
(2.13)
Bổ đề 2.4. Nếu X → Y → Z thì:
M I(X, Y |Z) ≤ M I(X, Y )
2.3
(2.14)
Đánh giá tính chính xác của dự đoán
Trong phân lớp nhị phân hay trong dự đoán, các kết quả được gán nhãn
hoặc là dương (positive-P ) hoặc âm (negative-N ). Có bốn khả năng có thể xảy
ra: Nếu kết quả dự đoán là P và giá trị thực tế cũng là P thì khi đó được gọi
là true positive-TP. Nếu kết quả dự đoán là P mà giá trị thực là N , thì được
gọi là false positive-FP. Ngược lại, nếu kết quả dự đoán và giá trị thực đều là
N thì gọi là true negative-TN, và là false negative-FN khi kết quả dự đoán là
N , trong khi giá trị thực tế là P .
Dự đoán dương (P)
Dự đoán âm (N)
Quan sát dương (P)
TP
FN
Quan sát âm (N)
FP
TN
Có nhiều thước đo độ chính xác của dự đoán như: Precision, Recall, độ chính
xác (Accuracy-ACC ), độ đo F (F-measure), đường cong ROC và diện tích dưới
đường cong ROC (area under the curve-AUC ). Trong đó,
P recision =
TP
TP + FP
TP
TP + FN
TP + TN
ACC =
TP + FP + TN + FN
P recision.Recall
2T P
F − measure = 2
=
P recision + Recall
2T P + F P + F N
Recall =
(2.15)
(2.16)
(2.17)
(2.18)
Một thước đo được sử dụng phổ biến nhất trong khoa học đó là đường cong
ROC (Receiver Operating Characteristic). Đường cong ROC được tạo thành từ
8
tập hợp các điểm ứng với các ngưỡng khác nhau. Với mỗi ngưỡng sẽ cho ta một
điểm. Mỗi điểm được xác định bởi 2 tọa độ: 1-Specificity (hay còn gọi là False
Positive Rate) và Sensitivity (hay còn gọi là True Positive Rate).
Trong đó,
TP
Sensitivity =
(2.19)
TP + FN
FP
1 − Specif icity =
(2.20)
FP + TN
Đường cong ROC có một tính chất quan trọng là: nếu đường cong càng đi
dọc theo biên trái và rồi đi dọc theo biên phía trên của không gian ROC, thì
chứng tỏ kết quả của dự đoán càng chính xác. Đường cong càng tiến tới thành
đường chéo 45o trong không gian ROC, thì độ chính xác của dự đoán càng kém.
Tuy nhiên, nếu căn cứ vào các đường cong ROC thì rất khó để kết luận
được dự đoán nào tốt hơn. Vì vậy, người ta thường sử dụng phần diện tích dưới
đường cong ROC, ký hiệu là AUC, để đánh giá tính chính xác của dự đoán.
Đường cong nào có AUC càng lớn thì độ chính xác của dự đoán càng cao và
ngược lại, đường cong nào có AUC càng bé thì độ chính xác của dự đoán càng
thấp.
Chương 3
MỞ RỘNG ĐỘ ĐO THÔNG TIN TƯƠNG HỖ ĐỂ TÁI TẠO
QUAN HỆ ĐA BIẾN
3.1
Một số mở rộng độ đo Thông tin tương hỗ
3.1.1
Mở rộng của Watanabe
Mở rộng đầu tiên của độ đo Thông tin tương hỗ là độ đo Tương quan tổng
hợp (total correlation) do Watanabe đưa ra năm 1960 [Watanabe, 1960].
Định nghĩa 3.1. Cho n biến ngẫu nhiên X1 , . . . , Xn , tương quan tổng hợp của
n biến, ký hiệu là T C(X1 , . . . , Xn ), được định nghĩa:
T C(X1 , . . . , Xn )
=
X
p(x1 , . . . , xn ) log
x1 ,...,xn
=
n
X
p(x1 , . . . , xn )
p(x1 ). . . . p(xn )
H(Xi ) − H(X1 , . . . , Xn )
(3.1)
(3.2)
i=1
Trong trường hợp ba biến, công thức (3.2) có dạng:
T C(X, Y, Z) = H(X) + H(Y ) + H(Z) − H(X, Y, Z)
(3.3)
Một mở rộng nữa của Watanabe là Tương quan tổng hợp có điều kiện được
định nghĩa như sau:
9
Định nghĩa 3.2. Tương quan tổng hợp có điều kiện của n biến ngẫu nhiên
X1 , . . . , Xn trên điều kiện Y , ký hiệu là T C(X1 , . . . , Xn |Y ), được định nghĩa:
T C(X1 , . . . , Xn |Y ) =
n
X
H(Xi |Y ) − H(X1 , . . . , Xn |Y )
(3.4)
i=1
Trong trường hợp ba biến, công thức (3.4) có dạng:
T C(X, Y, Z|T ) = H(X|T ) + H(Y |T ) + H(Z|T ) − H(X, Y, Z|T )
(3.5)
Độ đo Thông tin tương tác chỉ phản ánh được kiểu quan hệ đồng thời của
n biến, không phản ánh được các kiểu quan hệ khác giữa các biến.
3.1.2
Mở rộng của Fano
Mở rộng thứ hai của độ đo Thông tin tương hỗ là độ đo Thông tin tương
tác (interaction information) do Fano đưa ra năm 1961 [Fano, 1961].
Định nghĩa 3.3. Thông tin tương tác của n biến ngẫu nhiên X1 , . . . , Xn−1 , Xn
(với n > 2), được định nghĩa như sau:
M I(X1 , . . . , Xn ) =
n
X
i=1
H(Xi ) −
X
n+1
H(Xi , Xj ) + . . . + (−1)
H(X1 , . . . , Xn ) (3.6)
1≤i
- Xem thêm -