ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG
NGUYỄN ĐÌNH HUY
BIỂU DIỄN DỮ LIỆU MỜ
BẰNG NGÔN NGỮ XML VÀ ỨNG DỤNG
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
Thái Nguyên - Năm 2013
Soá hoùa bôûi Trung taâm Hoïc lieäu
http://lrc.tnu.edu.vn/
ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
NGUYỄN ĐÌNH HUY
BIỂU DIỄN DỮ LIỆU MỜ
BẰNG NGÔN NGỮ XML VÀ ỨNG DỤNG
Chuyên ngành: KHOA HỌC MÁY TÍNH
Mã số
: 60.48.01
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
Người hướng dẫn khoa học: PGS.TS Đoàn Văn Ban
Thái Nguyên - Năm 2013
Soá hoùa bôûi Trung taâm Hoïc lieäu
http://lrc.tnu.edu.vn/
i
LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi dưới sự hướng dẫn
trực tiếp của PGS.TS. Đoàn Văn Ban.
Mọi trích dẫn sử dụng trong báo cáo này đều được ghi rõ nguồn tài liệu tham
khảo theo đúng qui định.
Mọi sao chép không hợp lệ, vi phạm quy chế đào tạo, hay gian trá, tôi xin chịu
hoàn toàn trách nhiệm.
Thái Nguyên, ngày
tháng
Tác giả
Nguyễn Đình Huy
Soá hoùa bôûi Trung taâm Hoïc lieäu
http://lrc.tnu.edu.vn/
năm 2013
ii
MỤC LỤC
Trang
LỜI CAM ĐOAN ...................................................................................................... i
MỤC LỤC ................................................................................................................. ii
CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT ................................................................... iv
DANH MỤC BẢNG ................................................................................................. v
DANH MỤC HÌNH ................................................................................................. vi
MỞ ĐẦU ................................................................................................................... 1
CHƯƠNG 1.
CÁC MÔ HÌNH BIỂU DIỄN CƠ SỞ DỮ LIỆU MỜ ............... 4
1.1. CƠ SỞ DỮ LIỆU MỜ .................................................................................4
1.1.1. Một số khái niệm ....................................................................................4
1.1.2. Các mô hình cơ sở dữ liệu mờ ................................................................5
1.2. ĐẠI SỐ GIA TỬ ..........................................................................................8
1.2.1. Một số khái niệm ...................................................................................8
1.2.2. Các tính chất của độ đo tính mờ trong ĐSGT ......................................11
1.3. MÔ HÌNH BIỂU DIỄN CSDL MỜ THEO CÁCH TIẾP CẬN ĐSGT 12
1.3.1. Ngữ nghĩa dữ liệu dựa trên việc định lượng ĐSGT .............................13
1.3.2. Xấp xỉ dữ liệu mờ theo cách tiếp cận ĐSGT ........................................16
1.3.3. Ngữ nghĩa dữ liệu dựa trên lân cận tôpô của ĐSGT ............................23
1.4. NGÔN NGỮ ĐÁNH DẤU MỞ RỘNG XML .........................................26
1.4.1. Giới thiệu về ngôn ngữ XML ...............................................................26
1.4.2. Cấu trúc tài liệu XML ...........................................................................28
Soá hoùa bôûi Trung taâm Hoïc lieäu
http://lrc.tnu.edu.vn/
iii
1.4.3. Các thành phần cơ bản trong tài liệu XML ..........................................29
1.4.4. Định nghĩa kiểu tư liệu (DTD) .............................................................30
1.5. TỔNG KẾT CHƯƠNG .............................................................................32
CHƯƠNG 2.
BIỂU DIỄN DỮ LIỆU MỜ BẰNG NGÔN NGỮ XML .......... 33
2.1. MÔ HÌNH TỔNG QUÁT .........................................................................33
2.2. ĐỀ XUẤT GIẢI PHÁP .............................................................................34
2.2.1. Mờ hóa cơ sở dữ liệu bằng đại số gia tử ...............................................34
2.2.2. Biểu diễn dữ liệu mờ hóa bằng XML ...................................................36
2.2.3. Truy vấn trên dữ liệu mờ ......................................................................40
2.3. TỔNG KẾT CHƯƠNG .............................................................................54
CHƯƠNG 3.
XÂY DỰNG ỨNG DỤNG ............................................................ 55
3.1. MÔ TẢ ỨNG DỤNG .................................................................................55
3.2. CÔNG CỤ LỰA CHỌN ............................................................................55
3.3. PHÁT TRIỂN CÁC MODUL ..................................................................55
3.3.1. Modul biểu diễn dữ liệu mờ .................................................................55
3.3.2. Modul biểu diễn truy vấn mờ ..............................................................56
3.4. GIAO DIỆN CHƯƠNG TRÌNH ..............................................................57
3.5. THỬ NGHIỆM VÀ ĐÁNH GIÁ ..............................................................60
3.6. TỔNG KẾT CHƯƠNG .............................................................................64
KẾT LUẬN ............................................................................................................. 65
Soá hoùa bôûi Trung taâm Hoïc lieäu
http://lrc.tnu.edu.vn/
iv
CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT
Tiếng Anh
Từ viết tắt
Tên đầy đủ
Diễn giải
DTD
Doucument Type Definition
Định nghĩa kiểu tài liệu
HTML
Hypertext markup language
Ngôn ngữ đánh dấu siêu văn bản
HTTP
HyperText Transfer Protocol
Giao thức truyền tải siêu văn bản
XML
eXtensible Markup Language
Ngôn ngữ đánh dấu mở rộng
SQL
Structured Query Language
Ngôn ngữ truy vấn có cấu trúc
Tiếng Việt
CSDL
Cơ sở dữ liệu
ĐSGT
Đại số gia tử
Soá hoùa bôûi Trung taâm Hoïc lieäu
http://lrc.tnu.edu.vn/
v
DANH MỤC BẢNG
Trang
Bảng 1: Quan hệ Lý lịch
38
Bảng 2: Quan hệ Lương Tuổi
52
Bảng 3: Kết quả tìm kiếm của ví dụ (a)
54
Bảng 4: Kết quả tìm kiếm của ví dụ (b)
54
Soá hoùa bôûi Trung taâm Hoïc lieäu
http://lrc.tnu.edu.vn/
vi
DANH MỤC HÌNH
Trang
Hình 2: Mô hình tổng quát của hệ thống ..................................................................33
Hình 3: Cấu trúc một cơ sở dữ liệu mờ lylich đã được mờ hóa................................56
Hình 4: Cấu trúc file lưu trữ câu truy vấn mờ bằng XML ........................................57
Hình 5: Giao diện chính của chương trình ...............................................................58
Hình 6: Giao diện chức năng lựa chọn các trường thuộc tính mờ ...........................59
Hình 7: Giao diện chức năng cập nhật tập gia tử.....................................................59
Hình 8: Cơ sở dữ liệu nguồn .....................................................................................60
Hình 9: Xác định miền giá trị của thuộc tính Lương ................................................61
Hình 10: Xác định tập phần tử sinh của thuộc tính Lương .......................................61
Hình 11: Xác định tập gia tử .....................................................................................62
Hình 12: Cấu trúc của trường thuộc tính mờ............................................................62
Soá hoùa bôûi Trung taâm Hoïc lieäu
http://lrc.tnu.edu.vn/
1
MỞ ĐẦU
1. Lý do chọn đề tài
Trong những năm gần đây, việc xây dựng và phát triển các hệ cơ sở dữ liệu
(CSDL) mờ phục vụ cho việc thu thập, xử lý và khai thác những dữ liệu với thông
tin không chắc chắn, không đầy đủ - là những dạng dữ liệu mà con người vẫn
thường xuyên xử lý trong thực tế - được nhiều nhà nghiên cứu quan tâm. Nhiều mô
hình CSDL mờ mở rộng từ mô hình CSDL quan hệ cổ điển do Codd đề xuất dựa
trên cơ sở lý thuyết tập mờ của Zadeh được phát triển, tiêu biểu là mô hình tập con
mờ, mô hình dựa trên quan hệ tương tự, mô hình dựa trên lý thuyết khả năng,...
Song song với việc phát triển các mô hình, nhiều công trình nghiên cứu việc xử lý
và khai thác dữ liệu mờ từ các mô hình CSDL mờ cũng được phát triển, tiêu biểu là
các nghiên cứu về các phụ thuộc dữ liệu mờ, các ngôn ngữ hỏi mềm dẻo, khai phá
tri thức từ dữ liệu,... Những nghiên cứu về CSDL mờ đã và đang được tiếp tục phát
triển trong nước và trên thế giới.
Trong luận văn này, chúng tôi tập trung nghiên cứu cách biểu diễn dữ liệu mờ
bằng ngôn ngữ XML. Mô hình CSDL mờ được biểu diễn là mô hình dựa trên lý
thuyết của đại số gia tử (ĐSGT). Mục đích nghiên cứu của đề tài là ứng dụng lý
thuyết về mô hình cơ sở dữ liệu mờ, sử dụng ngôn ngữ XML để biểu diễn nhiều
dạng dữ liệu mờ khác nhau, cho phép mờ hóa CSDL sẵn có nhằm thu thập, lưu trữ
và thực hiện các truy vấn trên cơ sở dữ liệu mờ ứng dụng trong việc khai phá dữ
liệu nhằm đưa ra các dự báo trong tương lai.
2. Mục tiêu của đề tài
Mục đích nghiên cứu của đề tài là ứng dụng lý thuyết về mô hình cơ sở dữ liệu
mờ, sử dụng ngôn ngữ XML để biểu diễn nhiều dạng dữ liệu mờ khác nhau, cho
phép mờ hóa cơ sở dữ liệu sẵn có nhằm thu thập, lưu trữ và thực hiện các truy vấn
trên cơ sở dữ liệu mờ ứng dụng trong việc khai phá dữ liệu nhằm đưa ra các dự báo
trong tương lai.
Soá hoùa bôûi Trung taâm Hoïc lieäu
http://lrc.tnu.edu.vn/
2
3. Đối tượng nghiên cứu
- Tìm hiểu về mô hình CSDL mờ.
- Tìm hiểu về ngôn ngữ XML.
- Tìm hiểu về lý thuyết đại số gia tử
- Cách biểu diễn dữ liệu mờ bằng ngôn ngữ XML dựa trên lý thuyết về ĐSGT.
4. Phương pháp nghiên cứu
Đề tài thực hiện dựa trên nhiều phương pháp nghiên cứu khác nhau: khảo sát
tình hình thực tế về các vấn đề về sử dụng những thông tin không đầy đủ, không
chắc chắn trong thực tế, vấn đề về lưu trữ và xử lý những thông tin đó, tìm hiểu về
cách xử lý thông tin nhân sự, nghiên cứu lý thuyết về cơ sở dữ liệu mờ dựa trên lý
thuyết về đại số gia tử và ngôn ngữ XML. Từ đó đề xuất giải pháp xây dựng hệ
thống “Quản lý thông tin nhân sự” ứng dụng mô hình cơ sở dữ liệu mờ theo hướng
tiếp cận đại số gia tử và sử dụng ngôn ngữ XML để biểu diễn.
5. Ý nghĩa khoa học và thực tiễn của đề tài
- Xây dựng chức năng cho phép thu thập, lưu trữ những thông tin không chắc
chắn, không đầy đủ của hệ thống quản lý nhân viên.
- Cho phép lưu trữ, xử lý và thực hiện truy vấn trên những thông tin không chắc
chắn, không đầy đủ, góp phần quan trọng trong lĩnh vực khai thác thông tin đặc biệt
là những thông tin mờ.
- Kết quả của đề tài còn tiếp tục phát triển cho các tính toán và khai thác tri thức
từ cơ sở dữ liệu mờ.
6. Bố cục của luận văn
Cấu trúc của luận văn gồm 3 chương và phần kết luận
Chương 1: Trình bày các khái niệm, tính chất về cơ sở dữ liệu mờ, ngôn ngữ
XML và Đại số gia tử.
Soá hoùa bôûi Trung taâm Hoïc lieäu
http://lrc.tnu.edu.vn/
3
Chương 2: Đề xuất hướng giải quyết và đưa ra các mô hình cơ sở dữ liệu mờ
dựa trên lý thuyết về đại số gia tử đã được phân tích để giải quyết các yêu cầu của
hệ thống, đồng thời trình bày phương pháp sử dụng ngôn ngữ XML để biểu diễn cơ
sở dữ liệu mờ đó.
Chương 3: Ứng dụng các kết quả của chương hai để bổ sung thêm chức năng
ứng dụng logic mờ trong hệ thống “Quản lý thông tin học sinh, nhân viên”. Chức
năng này cho phép thực hiện mờ hóa dữ liệu đã có, thu thập, lưu trữ cơ sở dữ liệu
mờ để làm dữ liệu nguồn cho các hệ thống khai phá dữ liệu để đưa ra các dự báo
trong tương lai và đừa các truy vấn mờ trên CSDL đã được mờ hóa.
Kết luận và kiến nghị: Những nội dung đã đạt được trong luận văn và định
hướng phát triển.
Soá hoùa bôûi Trung taâm Hoïc lieäu
http://lrc.tnu.edu.vn/
4
CHƯƠNG 1.
CÁC MÔ HÌNH BIỂU DIỄN CƠ SỞ DỮ LIỆU MỜ
Trong những năm gần đây, CSDL mờ được nhiều tác giả trong và ngoài nước
quan tâm nghiên cứu và đã có những kết quả đáng kể. Có nhiều cách tiếp cận khác
nhau như cách tiếp cận quan hệ mờ, tiếp cận trên tính tương tự, theo lý thuyết khả
năng,… hay mô hình cơ sở dữ liệu mờ theo cách tiếp cận đại số gia tử. Để hiểu rõ
hơn về các vấn đề này, trong chương này sẽ tập trung trình bày những kiến thức về
đại số gia tử, mô hình biểu diễn cơ sở dữ liệu mờ theo cách tiếp cận đại số gia tử và
ngôn ngữ XML.
1.1. CƠ SỞ DỮ LIỆU MỜ
1.1.1. Một số khái niệm
1.1.1.1. Cơ sở dữ liệu quan hệ mờ
Mô hình cơ sở dữ liệu quan hệ (rõ) sử dụng khái niệm lý thuyết tập hợp để biểu
diễn và liên kết dữ liệu. Trong mô hình cổ điển này, mỗi giá trị trong quan hệ là giá
trị nguyên tố. Ngoại trừ giá trị null, mỗi thuộc tính phải có một giá trị chính xác và
không thể có giá trị mờ hoặc không chắc chắn. Tuy nhiên, theo một số phương pháp
tiếp cận được đề xuất để mở rộng mô hình cơ sở dữ liệu cổ điển sang cơ sở dữ liệu
quan hệ mờ, mỗi giá trị trong quan hệ mờ có thể là một tập hợp có hơn 1 phần tử
tương tự với nhau (theo một ngưỡng nào đó). Cơ sở dữ liệu quan hệ mờ là cơ cơ dữ
liệu có thể lưu trữ, xử lý dữ liệu mờ và không chắc chắn [14].
1.1.1.2. Quan hệ tương tự
Quan hệ đồng nhất (trên một miền D) sử dụng trong cơ sở dữ liệu quan hệ (rõ)
sẽ chia miền D thành nhiều lớp tương đương mà mỗi lớp ứng với một giá trị. Quan
hệ đồng nhất là trường hợp đặc biệt của quan hệ tương tự.
Một quan hệ tương tự s(x,y), cho một miền Dj, là phép ánh xạ của tất cả các cặp
phần tử trong miền đơn vị vào khoảng [0,1], một quan hệ tương tự có tính phản xạ,
đối xứng và bắc cầu, nó là quan hệ tương đương [14].
1.1.1.3. Cơ sở dữ liệu quan hệ mờ dựa trên sự tương tự
Mô hình quan hệ mờ dựa trên sự tương tự không phải là một mở rộng của quan
hệ ban đầu, nhưng thực sự là một mô hình tổng quát của nó. Nó cho phép một tập
Soá hoùa bôûi Trung taâm Hoïc lieäu
http://lrc.tnu.edu.vn/
5
hợp giá trị cho một thuộc tính hơn là giá trị nguyên tố duy nhất và thay thế các khái
niệm đồng nhất với một khái niệm tương tự.
Mô hình quan hệ dựa trên sự tương tự cho phép một bộ tại một thuộc tính được
nhận một tập các giá trị đủ tương tự với nhau. Đặc tính này rất hữu ích cho việc xử
lý truy vấn và thao tác cập nhật. Nếu giá trị thuộc tính là chính xác và chắc chắn, thì
giá trị là nguyên tố. Trong trường hợp chấp nhận dữ liệu không chính xác, không
chắc chắn thì giá trị một bộ tại một thuộc tính có thể là một tập hợp. Mức độ tương
tự giữa các giá trị được xác định rõ bởi định nghĩa quan hệ tương tự cho miền giá trị
thuộc tính.
Mô hình ban đầu so sánh hai giá trị thuộc tính bằng cách kiểm tra xem hai giá trị
bằng nhau hay không. Đặc tả quan hệ thực tế này phản ánh: i(x,y)=1 khi và chỉ khi
x = y, ngoài ra i(x,y)=0. Mô hình quan hệ tương tự so sánh hai thuộc tính bằng cách
đo sự tương tự của các giá trị trong điều kiện của khai báo rõ ràng miền thuộc tính.
Một bộ trong mô hình này được gọi là dư thừa nếu nó có thể sáp nhập với nhau
thông qua việc thiết lập phép hợp các miền giá trị tương ứng.
1.1.1.4. Cơ sở dữ liệu mờ theo cách tiếp cận ĐSGT
Xét một lược đồ CSDL
là tập vũ trụ các thuộc tính,
{
}, trong đó U = {A1, A2, …An}
lược đồ quan hệ, tức là một tập con của U. Mỗi thuộc
tính A được gắn với một miền giá trị thuộc tính, trong đó một số thuộc tính cho
phép nhận các giá trị ngôn ngữ trong lưu trữ CSDL và được gọi là thuộc tính mờ,
những thuộc tính còn lại được gọi là thuộc tính kinh điển. Thuộc tính kinh điển A
được gắn với một miền trị kinh điển, ký hiệu là
và một miền giá trị ngôn ngữ
hay là tập các phần tử của một ĐSGT. Một CSDL như vậy được gọi là CSDL
mờ theo cách tiếp cận ĐSGT [2][3][4].
1.1.2. Các mô hình cơ sở dữ liệu mờ
Mô hình quan hệ đóng một vai trò quan trọng và được sử dụng rất phổ biến kể
từ khi Codd đề xuất vào năm 1970 [14]. Tuy nhiên, những hệ thống như vậy chỉ
chấp nhận dữ liệu chính xác. Trên thực tế, thông tin về thế giới thực cần xử lý phần
nhiều lại là thông tin không đầy đủ, không chắc chắn. Có nhiều đề xuất về cách tiếp
cận nhằm giải quyết vấn đề này. Việc dùng lý thuyết mờ để mở rộng mô hình cơ sở
dữ liệu đã được nhiều nhà nghiên cứu quan tâm. Kerre E.F và Chen G.Q đã cho
Soá hoùa bôûi Trung taâm Hoïc lieäu
http://lrc.tnu.edu.vn/
6
rằng có 5 cách tiếp cận trong việc biểu diễn dữ liệu tương ứng với việc làm mờ hóa
các mô hình cơ sở dữ liệu quan hệ để biểu diễn thông tin không chính xác. Đó là
cách tiếp cận như sau:
Mô hình dựa trên quan hệ mờ (the fuzzy ralation-based approach) [14]
Cách tiếp cận nà do Baldwin và Zhou đưa ra năm 1984, Zvieli đưa ra năm 1986
với quan niệm rằng một quan hệ R D1 x D2 x….Dn được đặc trưng bởi một hàm
thuộc R : D1 x D2 x….Dn -> [0,1]. Như vậy một bộ của R có dạng (u1, u2, …,un, R
(u1, u2, …,un)), trong đó ui Di, với i=1,2,…n. Kiểu biểu diễn dữ liệu như vậy đi
kèm với giả thiết khái niệm một bộ thuộc về một quan hệ là một khái niệm mờ
trong khi các giá trị cụ thể của các thuộc tính lại là giá trị không mờ hoặc cũng có
thể là các biến ngôn ngữ nhưng được xử lý như một đơn giá trị.
Mô hình dựa trên tính tương tự (the similarity-based approach) [14]
Cách tiếp cận này do Buckles và Petry đưa ra năm 1982, Anvari đưa ra năm
1984, với quan điểm cho phép sự thiếu chính xác ở giá trị của các thuộc tính cũng
như ở mối quan hệ giữa các phần tử thuộc cùng một miền (miền trị của một thuộc
tính). Trong mô hình này, giá trị tại mỗi thuộc tính (của mỗi bộ) có thể là một tập
con thực sự của miền và trên mỗi miền đều xác định một quan hệ tương tự. Như vậy
một quan hệ mờ R, là một tập con của tập tích đề các 2D1 x2D2 x 2D3 x…2Dm, ký
hiệu 2Dj để chỉ tập các tập con khác rỗng của Dj, Dj là miền trị của thuộc tính thứ j,
một n-bộ tR có dạng: t = (d1, d2, …,dn), Dj.
Với mỗi Dj, một quan hệ Si : Di x Di
thỏa tính chất:
[0,1] là một quan hệ mờ hai ngôi nên Di
* Phản xạ: (Si(x,x) = 1)
* Đối xứng: (Si(x,y) = S(y,x))
* Bắc cầu max-min: (Si(x, z)
Maxy(Min[Si(x,y), Si(y,z)]))
Mô hình dựa trên tính khả năng (the possbility-based approach) [14]
Cách tiếp cận này do Prade và Testemale đưa năm 1983, Umano đưa ra năm
1983 và Zemankova năm 1984. Các tác giả này đã làm mờ hóa các giá trị thuộc
tính. Nghĩa là một quan hệ R là một tập con của (D1) x (D2) x…x (Dn) trong
Soá hoùa bôûi Trung taâm Hoïc lieäu
http://lrc.tnu.edu.vn/
7
đó (Di) = {AiAi là một phân phối khả năng của Ai trêm Di}. Một n_bộ tR có
dạng: (A1, A2,…. An), Ai (Di). Ngoài ra có một phần tử đặc biệt e dùng để
chỉ những giá trị “không thể áp dụng”. Nói một cách khác, Ai được định nghĩa là
một hàm từ (Di e) lên [0,1].
Năm 1986, Testemale đã mở rộng cách biểu diễn này cho trường hợp các thuộc
tính có đa giá trị bằng việc xem xét các phân phối khả năng trên
n_bộ có dạng (D, D,…. D), D :
-> [0,1] và
, và khi đó, một
Di.
Mở rộng mô hình trên tính khả năng (The extended possbility-based
approach) [14]
Các tác giả Rundensteiner, Hawkes và Bandler (1989), Chen (1991) đã mở rộng
cách tiếp cận dựa trên cơ sở tính khả năng bằng việc cho phép mỗi miền trị (của
thuộc tính) đã được gắn kết với một quan hệ thể hiện sự gần gũi. Cụ thể, một quan
hệ R là một tập con của (D1) x (D2) x…x (Dn). Một n_bộ tR có dạng:
(
)
(Di). Thêm vào đó một quan hệ ci xác định trên mỗi miền Di
thể hiện mối quan hệ “gần nhau” giữa các phần tử của miền ci: Di x Di -> [0,1] là
một quan hệ mờ hai ngôi trên Di thỏa các tính chất: phản xạ (ci(x,x)=1), đối xứng
ci(x,y)=ci(y,x). Có thể thấy rằng cách tiếp cận này cũng là tổng quát hóa của cách
tiếp cận trên cơ sở tính tương tự do phân phối khả năng là trường hợp tổng quát của
các tập con thông thường và quan hệ “gần gũi” là một tổng quát của hệ “tương tự”.
Các mô hình tiếp cận kết hợp (the combined approach) [14]
Một số nhà nghiên cứu có ý định biểu diễn tính mờ cả trong sự thuộc vào một
quan hệ của một bộ cũng như tính mờ trong các giá trị thuộc tính hay mối quan hệ
giữa các phần tử của miền. Trong các nghiên cứu của Van Schooten (1988) và
Kerre (1988), các giá trị thuộc tính là các phân phối khả năng và mỗi bộ được gán
cho một cặp (p,n) để biểu diễn một cách tương ứng khả năng có thể thuộc quan hệ
và khả năng không thể thuộc quan hệ của bộ này. Như vậy một n_bộ có dạng (A1,
, p1, nt),
(Di).
Có thể thấy rằng trong bất cứ một mô hình biểu diễn nào cho phép giá trị tại các
thuộc tính không cần phải là giá trị nguyên tố, không cần phải là một giá trị đơn thì
tuy các giá trị này không buộc phải được đánh giá bằng nhau (hay không bằng
Soá hoùa bôûi Trung taâm Hoïc lieäu
http://lrc.tnu.edu.vn/
8
nhau) nhưng phải được đánh giá “gần nhau” ở cấp độ tương tự của hai giá trị thuộc
tính di và d’I là
(
). Trong một mở rộng của cách tiếp cận trên cơ sở
tính khả năng do Rundensteiner và các cộng sự đưa ra năm 1989, sự giống nhau của
hai giá trị thuộc tính Ai và Ai’ được đo bởi hai cấp độ.
(i) min Re Si ( x, y)
x , yt Ai
Trong đó tAi = {wAi>0, wDi}, tAi’= {wAi’>0, wDi}, và Resi là một quan hệ
“giống nhau” của Ai trên Di (định nghĩa quan hệ giống nhau ở đây cũng trùng với
định nghĩa quan hệ gần nhau đã nêu ở trên).
(ii) min
(1-Ai(z)- Ai’(z))
zDi
Cũng trong một mở rộng của cách tiếp cận trên cơ sở tính khả năng của Chen,
Vandenbulcke và Kerre (1992), tính “gần nhau” của hai giá trị thuộc tính Ai và Ai’
được đo bởi.
nếu I trùng với I’
1
Poss (i = I’ là đúng) =
sup min (i(x), I’(y)) nếu i I’
ci(x,y) ≥ i
x,y Di
trong đó ci là một quan hệ gần nhau của Ai trên Di và i là một ngưỡng cụ thể
cho ci.
1.2. ĐẠI SỐ GIA TỬ
1.2.1. Một số khái niệm
Xét miền ngôn ngữ của biến chân lý TRUTH gồm các từ sau: Dom(TRUTH)
= {true, false, very true, very false, more-or-less true, more-or-less false, possibly
true, possibly false, approximately true, approximately false, little true, little false,
very possibly true, very possibly false.....}, trong đó true, false là các từ nguyên
thủy, các từ nhấn (modifier or intensifier) very, more-or-less, possibly,
approximately, little gọi là các gia tử (hedges) [2][3][8][13].
Soá hoùa bôûi Trung taâm Hoïc lieäu
http://lrc.tnu.edu.vn/
9
Khi đó, miền ngôn ngữ T = Dom(TRUTH) có thể biểu thị như một đại số X =(X,
), trong đó G là tập các từ nguyên thủy được xem là các phần tử sinh.
G, H,
H=H
-
H+ với H- và H+ tương ứng là tập các gia tử âm, dương và được xem là các
phép toán một ngôi, quan hệ
sắp thứ tự tuyến tính trên X cảm ngữ sinh từ ngữ
nghĩa của ngôn ngữ. Ví dụ dựa trên ngữ nghĩa, các quan hệ thứ tự sau là đúng: false
true, more true
nhưng false
very true nhưng very false
more false, possibly true
true
possibly false …. Tập X được sinh ra từ G bởi các phép toán trong H.
Như vậy, mỗi phần tử của X sẽ có dạng biểu diễn x=hnhn-1…h1c, c G. Tập tất cả các
phần tử được sinh ra từ một phần tử x được ký hiệu là H(x). Nếu G có đúng hai từ
nguyên thủy mờ, thì một được gọi là phần tử sinh dương ký hiệu c+, một gọi là phần
tử sinh âm ký hiệu là c- và ta có ccòn false là phần tử sinh âm.
c+. Trong ví dụ trên true là phần tử sinh dương
Về mối quan hệ giữa các gia tử chúng ta có các khái niệm sau:
(1) : Mỗi gia tử hoặc là dương, hoặc là âm đối với bất kỳ một gia tử nào khác,
kể cả chính nó.
(2) : Nếu hai khái niệm u và v độc lập, nghĩa là u
( ) ta có x
H(v). Ngoài ra nếu u và v là không sánh được thì bất kỳ
thì
(
) và nếu h
với mọi gia tử h, k, h’, k’. Hơn nữa hx
(4) : Nếu
( ) và
H(u) thì
( )
( ).
cũng không sánh được với bất kỳ
(3) : Nếu
H(v) và v
(
và
thì
thì hx độc lập kx.
) thì u
(
), đối với mọi gia tử h.
Định nghĩa trên mới chỉ dựa vào các tính chất ngữ nghĩa và di truyền ngữ nghĩa
của ngôn ngữ nhưng đã tạo ra cấu trúc đủ giàu để xây dựng các quan hệ đối sánh
trong mô hình CSDL mờ.
Tiếp theo là định lý thể hiện ý nghĩa trực quan trong ngôn ngữ về tính chất di
truyền ngữ nghĩa của ngôn ngữ [2][3][8][13].
Định lý 1.1: Giả sử x = hn…h1u và y = km…k1u là các biểu diễn chính tắc của x
{
}
và y đối với u. Khi đó tồn tại một chỉ số
sao cho với mọi i < j ta
có hi = ki và
(1) x < y khi và chỉ khi hjxj < kjxj, trong đó xj = hj-1…h1u;
Soá hoùa bôûi Trung taâm Hoïc lieäu
http://lrc.tnu.edu.vn/
10
(2) x = y khi và chỉ khi n = m = j và hjxj = kjxj;
(3) x và y là không sánh được khi và chỉ khi hjxj và kjxj là không sánh được.
Vì tất cả các thuộc tính có miền trị chứa giá trị số trong CSDL đều tuyến tính,
nên một cách tự nhiên ta giả thiết trong chương này, ĐSGT được sử dụng là ĐSGT
tuyến tính, do đó tập H+ và H- là tập sắp thứ tự tuyến tính. Như vậy, cho X = (X, G,
H,
) với G = {0, c-, W, c+, 1}, H= H-
H+ với giả thiết H- = {h1, h2, …,hp}, H+=
{h-1, h-2, …,h-q}, h1>h2> …>hp và h-1< …
x, nếu
Sgn(hx) = -1 thì hx
- Xem thêm -