ĐẠI HỌC QUỐC GIA TP. HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA
--------------------
NGUYỄN TRUNG THÀNH
XÂY DỰNG HỆ THỐNG KHO DỮ LIỆU
VÀ HỖ TRỢ RA QUYẾT ĐỊNH ĐẦU TƯ
BẤT ĐỘNG SẢN Ở THÀNH PHỐ HỒ CHÍ MINH
Chuyên ngành: KHOA HỌC MÁY TÍNH
Mã số: 8.48.01.01
LUẬN VĂN THẠC SĨ
TP.HỒ CHÍ MINH, tháng 01 năm 2021
CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI
TRƯỜNG ĐẠI HỌC BÁCH KHOA –ĐHQG -HCM
Cán bộ hướng dẫn khoa học: PGS.TS TRẦN MINH QUANG
Cán bộ chấm nhận xét 1: PGS.TS NGUYỄN TUẤN ĐĂNG
Cán bộ chấm nhận xét 2: PGS.TS HUỲNH TRUNG HIẾU
Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG Tp.
HCM ngày 22 tháng 01 năm 2021
Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm:
(Ghi rõ họ, tên, học hàm, học vị của Hội đồng chấm bảo vệ luận văn thạc sĩ)
1. PGS.TS ĐẶNG TRẦN KHÁNH ........ - Chủ tịch
2. TS. PHAN TRỌNG NHÂN ................ - Thư ký
3. PGS.TS NGUYỄN TUẤN ĐĂNG ...... - Phản biện 1
4. PGS.TS HUỲNH TRUNG HIẾU........ - Phản biện 2
5. PGS.TS TRẦN MINH QUANG ......... - Ủy viên
Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý
chuyên ngành sau khi luận văn đã được sửa chữa (nếu có).
CHỦ TỊCH HỘI ĐỒNG
TRƯỞNG KHOA ……………………
ĐẠI HỌC QUỐC GIA TP.HCM
CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT
TRƯỜNG ĐẠI HỌC BÁCH KHOA
NAM Độc lập - Tự do - Hạnh phúc
NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ tên học viên: NGUYỄN TRUNG THÀNH ........................ MSHV: 1870175 ............
Ngày, tháng, năm sinh: 22/01/1977 ......................................... Nơi sinh: Quảng Trị........
Chuyên ngành: Khoa học máy tính ......................................... Mã số: 8.48.01.01 ...........
I. TÊN ĐỀ TÀI: ............................................................................................................
XÂY DỰNG HỆ THỐNG KHO DỮ LIỆU VÀ HỖ TRỢ RA QUYẾT ĐỊNH ĐẦU
TƯ BẤT ĐỘNG SẢN Ở THÀNH PHỐ HỒ CHÍ MINH
II. NHIỆM VỤ VÀ NỘI DUNG:
1. Xây dựng thành phần thu thập thông tin bất động sản từ các trang Web
2. Xây dựng Ontology cho lĩnh vực Bất động sản để hỗ trợ quy trình ETL
(Extract: Trích xuất; Transform: Chuyển đổi; Load: Tải)
3. Phân tích và thiết kế Kho dữ liệu
4. Thực hiện truy vấn trên Kho dữ liệu để hỗ trợ ra quyết định
III. NGÀY GIAO NHIỆM VỤ: 10/02/2020.................................................................
IV. NGÀY HOÀN THÀNH NHIỆM VỤ: 03/01/2021 ................................................
V. CÁN BỘ HƯỚNG DẪN: PGS.TS TRẦN MINH QUANG ......................................
Tp. HCM, ngày . . . . tháng .. . . năm 20....
CÁN BỘ HƯỚNG DẪN
(Họ tên và chữ ký)
CHỦ NHIỆM BỘ MÔN ĐÀO
TẠO
(Họ tên và chữ ký)
TRƯỞNG KHOA KHOA HỌC VÀ KỸ THUẬT MÁY TÍNH
(Họ tên và chữ ký)
LỜI CẢM ƠN
Tác giả xin gửi lời cảm ơn trân trọng đến quý Thầy giáo, Cô giáo đã truyền đạt
kiến thức, kinh nghiệm, và phương pháp nghiên cứu khoa học để tác giả có thể hoàn
thành đề tài này. Tác giả cũng xin gửi lời cảm ơn chân thành đến các bạn học viên
cao học và các đồng nghiệp đã góp ý, hỗ trợ trong suốt quá trình thực hiện đề tài.
Đặc biệt, tác giả xin gửi lời cảm ơn trân trọng và sâu sắc đến Thầy PGS.TS
Trần Minh Quang, người đã trực tiếp hướng dẫn, dìu dắt tác giả bước vào môi
trường nghiên cứu khoa học.
Cuối cùng, xin cảm ơn gia đình đã động viên, chia sẻ khó khăn để tác giả có
thể tập trung thực hiện đề tài này.
Với thời gian nghiên cứu còn hạn chế, đề tài chắc chắn còn nhiều vấn đề cần
phải cải tiến, hoàn thiện hơn. Rất mong sự đóng góp ý kiến từ các Thầy giáo, Cô
giáo, bạn bè và đồng nghiệp để tác giả hoàn thiện đề tài, và có thể ứng dụng tốt vào
thực tế.
TP.Hồ Chí Minh, ngày 05 tháng 01 năm 2021
Tác giả
Nguyễn Trung Thành
i
TÓM TẮT ĐỀ TÀI
Bất động sản (BĐS) là một trong những kênh đầu tư được quan tâm nhất hiện
nay. Việc đánh giá đúng thực trạng, khuynh hướng thị trường; tìm được bất động
sản phù hợp; xác định đúng thời điểm giao dịch mua bán là vấn đề quan tâm của
hầu hết nhà đầu tư.
Bài toán đặt ra là: Cần thiết có công cụ hỗ trợ con người tiến hành phân tích
trên lượng dữ liệu lớn nằm rải rác ở nhiều nguồn khác nhau để đưa ra quyết định
phù hợp nhất.
Đề tài “Xây dựng hệ thống kho dữ liệu và hỗ trợ ra quyết định đầu tư bất động
sản ở TP.Hồ Chí Minh” gồm ba thành phần chức năng như sau:
- Xây dựng hệ thống tự động (được thiết lập lịch trình chạy tự động) thu thập
thông tin BĐS từ các trang web BĐS.
- Xây dựng hệ thống kho dữ liệu, trong đó bao gồm quy trình ETL (Extract,
Transform, and Load).
- Thực hiện truy vấn, phân tích trên kho dữ liệu để hỗ trợ ra quyết định.
Trong ba thành phần trên, quy trình ETL là trọng tâm của đề tài. Tác giả xây
dựng Ontology (Bản thể luận), và áp dụng kiến trúc của Ontology đặc biệt là các
luật suy diễn để thu được những thông tin tiềm ẩn từ dữ liệu có sẵn, phục vụ cho
mục đích thực hiện trích xuất (extract) và chuyển đổi (transform).
ii
ABSTRACT
Real estate is one of the most interesting investment channels today. The
correct assessment of the current market situation and trends, finding proper real
estate, determining the right time to buy and sell are the concerns of most investors.
It is necessary to have tools to support people to conduct analysis on large
amounts of data scattered in many different data sources to make the most
appropriate decision.
This thesis is conducted to “Develop a Data warehouse and Decision support
system for real-estate market in HCM City”, which includes three functional
components as follows:
- Building an automatic system (scheduled to run automatically) to collect real
estate information from real estate websites.
- Building a data warehouse system, which includes ETL (Extract, Transform,
and Load) processes.
- Perform query, analysis on data warehouse to support decision making.
As of the three components above, the ETL process is the focus of this thesis.
The author builds Ontology and applies Ontology's architecture, especially
inference rules, to obtain latent information from available data, for the purpose of
extracting and transforming.
iii
LỜI CAM ĐOAN
Tôi xin cam đoan luận văn là công trình nghiên cứu của riêng cá nhân tôi.
Được sự hướng dẫn của Thầy PGS.TS Trần Minh Quang, tôi đã tìm hiểu, nghiên
cứu, hiện thực và báo cáo luận văn. Trong chương “Nền tảng kiến thức”, tôi có sử
dụng một số tài liệu tham khảo như đã trình bày trong phần tài liệu tham khảo. Mã
nguồn (source code), các số liệu, kết quả trong luận văn là hoàn toàn trung thực và
chưa được sử dụng trong bất kỳ báo cáo nào khác.
Tôi xin chịu trách nhiệm về luận văn của mình. Nếu có gì sai sót, tôi xin chịu
hoàn toàn trách nhiệm trước hội đồng.
TP.Hồ Chí Minh, ngày 05 tháng 01 năm 2021
Tác giả
Nguyễn Trung Thành
iv
MỤC LỤC
LỜI CẢM ƠN ........................................................................................................ I
TÓM TẮT ĐỀ TÀI .............................................................................................. II
ABSTRACT ........................................................................................................ III
LỜI CAM ĐOAN ............................................................................................... IV
MỤC LỤC............................................................................................................. V
DANH MỤC HÌNH ẢNH VÀ BẢNG BIỂU ....................................................... X
DANH MỤC VIẾT TẮT ................................................................................... XII
MỞ ĐẦU ................................................................................................................ 1
1. Lý do chọn đề tài .......................................................................................................................... 1
2. Mục tiêu và nhiệm vụ .................................................................................................................. 2
2.1. Mục tiêu ..................................................................................................................................... 2
2.2. Nhiệm vụ .................................................................................................................................... 2
3. Phương pháp nghiên cứu ............................................................................................................ 2
3.1. Phương pháp nghiên cứu lý thuyết ............................................................................................ 2
3.2. Phương pháp nghiên cứu thực tế .............................................................................................. 2
4. Ý nghĩa khoa học và thực tiễn ...................................................................................................... 3
4.1. Ý nghĩa khoa học......................................................................................................................... 3
4.2. Ý nghĩa thực tiễn......................................................................................................................... 3
5. Bố cục luận văn ............................................................................................................................ 3
CHƯƠNG 1: NỀN TẢNG KIẾN THỨC.............................................................. 5
1. GIỚI THIỆU ONTOLOGY .............................................................................. 6
1.1. Khái niệm chung về Ontology.................................................................................................... 6
v
1.2. Các thành phần chính của Ontology .......................................................................................... 6
1.3. Lý do phải xây dựng Ontology ................................................................................................... 7
1.4. Ưu điểm của Ontology [8] ......................................................................................................... 8
1.5. Lý do áp dụng Ontology vào đề tài ............................................................................................ 9
1.6. Các bước xây dựng Ontology .................................................................................................... 9
1.7. Ngôn ngữ biểu diễn Ontology ..................................................................................................10
1.7.1. Cấu trúc Web ngữ nghĩa ........................................................................................................ 10
1.7.2. Ngôn ngữ mô tả RDF ............................................................................................................. 11
1.7.3. RDF Schema (RDFS) ............................................................................................................... 12
1.7.4. Ngôn ngữ OWL ...................................................................................................................... 13
1.8. Truy vấn trên Ontology, ngôn ngữ SPARQL ..............................................................................13
1.8.1. SPARQL FILTER ....................................................................................................................... 14
1.8.2. OPTIONAL trong SPARQL ....................................................................................................... 15
1.9. Suy luận trên Ontology, ngôn ngữ SWRL..................................................................................16
2. KHO DỮ LIỆU ................................................................................................ 19
2.1. Định nghĩa................................................................................................................................19
2.2. Đặc điểm dữ liệu trong kho dữ liệu..........................................................................................19
2.3. Mục đích của kho dữ liệu .........................................................................................................19
2.4. Các bước xử lý trong quy trình ETL ..........................................................................................19
2.5. Thiết kế cơ sở dữ liệu cho kho dữ liệu .....................................................................................19
3. QUY TRÌNH ETL ........................................................................................... 21
3.1. Khái niệm quy trình ETL ...........................................................................................................21
3.2. Vai trò của quy trình ETL trong xây dựng kho dữ liệu ...............................................................21
3.3. Các công đoạn trong quy trình ETL ...........................................................................................22
3.3.1. Trích xuất (Extract) ................................................................................................................ 22
3.3.2. Chuyển đổi (Transform)......................................................................................................... 23
vi
3.3.3. Tải (Load) ............................................................................................................................... 24
3.4. Những khó khăn thường gặp khi xây dựng quy trình ETL ........................................................24
4. HỆ HỖ TRỢ RA QUYẾT ĐỊNH .................................................................... 25
4.1. Giới thiệu về hệ hỗ trợ quyết định [15] ...................................................................................25
4.2. Quá trình ra quyết định ...........................................................................................................25
4.3. Phân loại hệ hỗ trợ quyết định ................................................................................................25
CHƯƠNG 2: PHÂN TÍCH VÀ THIẾT KẾ HỆ THỐNG ................................. 26
1. GIỚI THIỆU KIẾN TRÚC HỆ THỐNG ....................................................... 26
1.1. Thu thập dữ liệu bất động sản .................................................................................................27
1.2. Quy trình ETL ...........................................................................................................................28
1.3. Truy vấn trên kho dữ liệu .........................................................................................................28
2. TÌM HIỂU CÔNG NGHỆ, CHỌN LỰA GIẢI PHÁP .................................. 28
2.1. Giải pháp cho thành phần “Thu thập dữ liệu bất động sản” .....................................................28
2.2. Giải pháp cho thành phần “Quy trình ETL” ...............................................................................30
2.2.1. Lựa chọn ngôn ngữ lập trình và các thư viện liên quan ........................................................ 30
2.2.2. Lựa chọn Hệ quản trị Cơ sở dữ liệu cho “Staging Database” ................................................ 31
2.3. Giải pháp cho thành phần “Truy vấn trên kho dữ liệu” ............................................................32
3. THIẾT KẾ HỆ THỐNG ................................................................................. 33
3.1. Thiết kế sơ đồ lớp cho thành phần “Thu thập dữ liệu bất động sản” .......................................33
3.2. Thiết kế cơ sở dữ liệu cho thành phần “Thu thập dữ liệu bất động sản” .................................34
3.3. Thiết kế Ontology ....................................................................................................................35
3.3.1. Sơ đồ lớp của Ontology BĐS .................................................................................................. 35
3.3.2. Sơ đồ quan hệ giữa các đối tượng trong Ontology BĐS........................................................ 37
3.3.3. Mô tả thuộc tính trong Ontology BĐS ................................................................................... 38
3.3.4. Thiết kế luật suy diễn ............................................................................................................ 40
vii
3.3.4.1. Rule Direction1: Xác định đông hay tây tứ trạch................................................................ 41
3.3.4.2. Rule RealEstate1: Xác định BĐS không hợp lệ .................................................................... 42
3.3.4.3. Rule RealEstate2: Xác định BĐS bị trùng ............................................................................ 43
3.3.4.4. Rule Owner1: Xác định phần số điện thoại đã bị giấu đi.................................................... 45
3.4. Thiết kế kho dữ liệu .................................................................................................................46
CHƯƠNG 3: HIỆN THỰC CÁC THÀNH PHẦN CHỨC NĂNG ................... 50
1. THÀNH PHẦN “THU THẬP DỮ LIỆU BẤT ĐỘNG SẢN”........................ 50
1.1. Hiện thực thành phần “Thu thập dữ liệu bất động sản”...........................................................50
1.2. Vận hành thành phần “Thu thập dữ liệu bất động sản” ...........................................................51
2. THÀNH PHẦN “QUY TRÌNH ETL” ............................................................ 52
2.1. Hiện thực thành phần “Quy trình ETL” .....................................................................................52
2.1.1. Sơ lược về source code Python ............................................................................................. 52
2.1.2. Hiện thực suy diễn ................................................................................................................. 53
2.1.3. Hiển thị kết quả thực hiện trích xuất và chuyển đổi ............................................................. 55
2.1.4. Tải vào Kho dữ liệu ................................................................................................................ 56
2.2. Vận hành thành phần “Quy trình ETL” .....................................................................................57
3. THÀNH PHẦN “TRUY VẤN TRÊN KHO DỮ LIỆU” ................................ 57
3.1. Hiện thực thành phần “Truy vấn trên kho dữ liệu” ..................................................................57
3.1.1. Tạo khối đa chiều (Cube Generator) ..................................................................................... 57
3.1.2. Truy vấn trên khối đa chiều ................................................................................................... 60
CHƯƠNG 4: ĐÁNH GIÁ KẾT QUẢ VÀ KẾT LUẬN ..................................... 61
1. ĐÁNH GIÁ KẾT QUẢ .................................................................................... 61
1.1. Kết quả thành phần “Thu thập dữ liệu bất động sản” ..............................................................61
1.2. Kết quả thành phần “Quy trình ETL” ........................................................................................62
1.3. Kết quả thành phần “Truy vấn trên kho dữ liệu” .....................................................................65
viii
2. KẾT LUẬN ...................................................................................................... 65
DANH MỤC CÁC TÀI LIỆU THAM KHẢO ................................................... 67
PHỤ LỤC ............................................................................................................. 69
ix
DANH MỤC HÌNH ẢNH VÀ BẢNG BIỂU
Hình 1.1: Cấu trúc phân tầng Web ngữ nghĩa
Hình 1.2: Quan hệ giữa các loại đối tượng trong phát biểu RDF
Hình 1.3: Giản đồ hình sao
Hình 1.4: Giản đồ hình bông tuyết
Hình 1.5: Vòng đời kho dữ liệu
Hình 1.6: Sơ đồ mô tả quy trình ETL
Hình 2.1: Cấu trúc tổng thể hệ thống
Hình 2.2: Cây cấu trúc DOM
Bảng 2.1: Thư viện hỗ trợ xử lý Ontology
Hình 2.3: Sơ đồ lớp (class diagram)
Hình 2.4: Mô hình cơ sở dữ liệu cho thành phần “Thu thập dữ liệu bất động sản”
Hình 2.5: Sơ đồ lớp của Ontology BĐS
Hình 2.6: Sơ đồ quan hệ giữa các đối tượng trong Ontology BĐS
Bảng 2.2: Danh sách các thuộc tính kiểu Data Property
Bảng 2.3: Danh sách các thuộc tính kiểu Object Property
Hình 2.7: Lược đồ quan hệ của FactSaleLand và các Dimension
Hình 2.8: Lược đồ quan hệ của FactSaleHouse và các Dimension
Hình 3.1: Hình ảnh một phần mã nguồn để thu thập dữ liệu
Hình 3.2: Thiết lập lịch trình thực hiện thu thập dữ liệu
Hình 3.3: Hiện thực ETL bằng Python
Hình 3.4: Hiện thực luật suy diễn
Hình 3.5: Kết quả hiện thực suy diễn
Hình 3.6: Hiển thị dữ liệu truy vấn từ A-Box
Hình 3.7: Kết quả tải từ A-Box vào Kho dữ liệu
Hình 3.8: Mô hình khối đa chiều của FactSaleLand và các Dimension
Hình 3.9: Mô hình khối đa chiều của FactSaleHouse và các Dimension
x
Hình 3.10: Truy vấn trên khối đa chiều
Bảng 4.1: Kết quả thu thập dữ liệu bất động sản
Bảng 4.2: Kết quả hiện thực quy trình ETL
Bảng 4.3: Đánh giá kết quả, hiệu năng, chi phí của toàn hệ thống
xi
DANH MỤC VIẾT TẮT
TP.HCM: Thành phố Hồ Chí Minh
BĐS: Bất động sản
CSDL: Cơ sở dữ liệu (Database)
DBMS: Database Management System (Hệ quản trị cơ sở dữ liệu)
DOM: Document Object Model
DSS: Decision Support System (Hệ hỗ trợ quyết định)
DWH: Data Warehouse (Kho dữ liệu)
ETL: Extract Transform Load
GUI: Graphical User Interface (Giao diện đồ họa người dùng)
OLAP: Online Analytical Processing (Xử lý phân tích trực tuyến)
OWL: The Web Ontology Language
RDF: Resource Description Framework (Khung mô tả tài nguyên)
SSAS: SQL Server Analysis Services
SSRS: SQL Server Reporting Services
xii
MỞ ĐẦU
1. Lý do chọn đề tài
Cách mạng công nghiệp lần thứ tư với chuyển đổi số làm trung tâm, đang tạo
ra nguồn dữ liệu khổng lồ trong mọi lĩnh vực, dẫn đến cơ hội và nhu cầu khai thác
thông tin từ nguồn dữ liệu đó để hỗ trợ con người ra quyết định chính xác và nhanh
chóng hơn.
Áp dụng công nghệ vào thu thập xử lý thông tin, xây dựng kho dữ liệu là rất
quan trọng trong quá trình thực hiện chuyển đổi số. Làm sao để quản lý và sử dụng
hiệu quả nguồn dữ liệu là mấu chốt thành công của mỗi tổ chức và doanh nghiệp.
Một trong những công việc khó khăn và tốn chi phí nhiều nhất trong xây dựng
hệ thống kho dữ liệu hỗ trợ ra quyết định là thực hiện quy trình ETL (Extract,
Transform, and Load). Cho đến nay, cũng có khá nhiều công cụ hỗ trợ cho việc
thực hiện ETL như là: Oracle Warehouse Builder (OWB), SQL Server Integration
Services (SSIS), Pentaho Data Integration, v.v. Tuy vậy, những công cụ này xử lý
trên nguồn dữ liệu quan hệ và không mang “ngữ nghĩa”; và vì vậy, mất nhiều chi
phí cho việc xử lý các quy luật trích xuất (extract), chuyển đổi (transform) gần
giống nhau, lặp lại ở các thành phần trong một hệ thống hay trong các hệ thống
khác nhau. Áp dụng Ontology (Bản thể luận) vào quy trình ETL sẽ làm cho công
việc trích xuất, chuyển đổi được xử lý tự động hơn, thông minh hơn và dễ dàng thay
đổi hơn khi yêu cầu thay đổi.
Cùng với sự phát triển của Web ngữ nghĩa (Semantic Web), việc xử lý ETL
trên Cơ sở dữ liệu ngữ nghĩa (Semantic Database) cũng sẽ dần phổ biến và thay thế
phần lớn trong quy trình ETL trên Cơ sở dữ liệu truyền thống. Áp dụng Ontology
cũng mở ra hướng ứng dụng rộng rãi trong tương lai.
Luận văn tìm hiểu và xây dựng Ontology cho lĩnh vực Bất động sản, áp dụng
kiến trúc của Ontology đặc biệt là các luật suy diễn để thu được những thông tin
tiềm ẩn từ dữ liệu có sẵn, phục vụ cho mục đích thực hiện trích xuất (extract) và
chuyển đổi (transform). Ngoài ra, luận văn cũng tìm hiểu để xây dựng quy trình tải
(load) dữ liệu từ Staging Database (Cơ sở dữ liệu dùng trong quá trình dàn dựng) là
“Semantic Database” vào kho dữ liệu, đây là cơ sở để tham khảo khi thu thập thông
tin từ các Ontology đã có sẵn.
Với những lý do trên, tôi chọn đề tài: “Xây dựng hệ thống kho dữ liệu và hỗ
trợ ra quyết định đầu tư bất động sản ở TP.Hồ Chí Minh”.
1
2. Mục tiêu và nhiệm vụ
2.1. Mục tiêu
Hiểu rõ các chủ điểm liên quan đến Ontology để có thể vận dụng tốt vào bài
toán thực tế
Nắm chắc về hệ thống kho dữ liệu, đặc biệt là quy trình ETL (Extract: Trích
xuất; Transform: Chuyển đổi; Load: Tải)
Xây dựng quy trình ETL một cách hiệu quả bằng cách áp dụng Ontology
Hoàn thành bộ công cụ hữu ích hỗ trợ đầu tư BĐS tại TP.Hồ Chí Minh
2.2. Nhiệm vụ
Xây dựng thành phần “Thu thập thông tin bất động sản” từ nhiều nguồn khác
nhau
Xây dựng Ontology cho lĩnh vực Bất động sản
Thực hiện Trích xuất (Extract) và Chuyển đổi (Transform) dữ liệu từ kết quả
thu thập vào Ontology
Phân tích và thiết kế Kho dữ liệu
Thực hiện Tải (Load) dữ liệu từ Ontology vào Kho dữ liệu
Thực hiện truy vấn trên Kho dữ liệu để hỗ trợ ra quyết định
3. Phương pháp nghiên cứu
3.1. Phương pháp nghiên cứu lý thuyết
Nghiên cứu dựa trên các tài liệu, bài báo khoa học
Nghiên cứu và tìm hiểu công nghệ, công cụ hỗ trợ; đi đến quyết định chọn
lựa công nghệ, công cụ để hiện thực hệ thống
Phân tích thiết kế hệ thống, đề xuất phương án hiện thực quy trình ETL
3.2. Phương pháp nghiên cứu thực tế
Tìm hiểu các thông tin, kiến thức cần thiết liên quan đến Bất động sản
Hiện thực các thành phần hệ thống
Đánh giá kết quả hiện thực qua các giai đoạn để thực hiện cải tiến
2
4. Ý nghĩa khoa học và thực tiễn
4.1. Ý nghĩa khoa học
Đề tài nghiên cứu đề xuất phương pháp “Xử lý quy trình ETL dựa trên kiến
trúc Ontology và các luật suy diễn”, là cơ sở để tham khảo xây dựng các
Ontology dữ liệu ngữ nghĩa được chia sẻ dùng chung trên các lĩnh vực khác như là:
Du lịch, Y tế, Nông nghiệp, Vận tải, Thăm dò và khai thác dầu khí, Quản lý tài
nguyên và môi trường, v.v.
Áp dụng Ontology sẽ làm cho quy trình ETL tự động hơn, thông minh hơn và
xử lý tập trung hơn; là cơ sở để các tổ chức tham khảo, áp dụng Ontology khi xây
dựng hệ thống thông tin của đơn vị mình. Xem xét tái sử dụng Ontology đã có sẵn,
hay thiết kế những Ontology hẹp hơn sau đó kết hợp lại thành Ontology rộng hơn;
đó là hướng áp dụng phù hợp với các cơ quan quản lý nhà nước.
4.2. Ý nghĩa thực tiễn
Kết quả của đề tài là sự kết hợp các mảng nghiên cứu riêng lẻ thành một bộ
công cụ tiện ích cho nhà đầu tư BĐS. Thành phần 1: “Thu thập dữ liệu bất động
sản” cho phép tự động thu thập dữ liệu BĐS từ nhiều trang Web BĐS, giúp giảm
chi phí, và chủ động nguồn dữ liệu đầu vào của toàn hệ thống. Thành phần 2: “Kho
dữ liệu và Quy trình ETL” giúp xây dựng cấu trúc dữ liệu thích hợp để thực hiện
truy vấn trên nhiều chiều đạt hiệu quả tốt và đáp ứng hiệu suất cao. Đặc biệt, áp
dụng Ontology làm cho quy trình ETL được xử lý tập trung hơn, dễ cập nhật thay
đổi trong quá trình vận hành. Thành phần 3: “Truy vấn trên kho dữ liệu” cho phép
người dùng (người phân tích) dễ dàng thực hiện truy vấn trên khối đa chiều (OLAP
Cube). Kết hợp ba thành phần trên tạo nên bộ công cụ tiện ích hỗ trợ ra quyết định
đầu tư BĐS.
5. Bố cục luận văn
Luận văn được trình bày theo các phần chính như sau:
Phần “Mở Đầu”: Giới thiệu đề tài. Phần này gồm những nội dung chính là:
Lý do chọn đề tài; Mục tiêu và nhiệm vụ; Phương pháp nghiên cứu; Ý nghĩa khoa
học và thực tiễn; Bố cục luận văn.
Chương 1. “Nền tảng kiến thức”: Trong chương này, tác giả trình bày những
kiến thức cơ bản được sử dụng trong đề tài, bao gồm: Giới thiệu Ontology, Kho dữ
liệu, Hệ hỗ trợ ra quyết định. Cụ thể gồm những chủ điểm sau:
3
Giới thiệu Ontology: Trình bày các khái niệm liên quan đến Ontology và
công cụ sử dụng để xây dựng Ontology. Phần này gồm có: Ontology là
gì; Các thành phần của Ontology; Tại sao cần dùng Ontology trong quy
trình ETL, ưu nhược điểm; Cách xây dựng Ontology; Truy vấn trên
Ontology; Suy diễn trên Ontology.
Kho dữ liệu: Trình bày cơ sở lý thuyết về Kho dữ liệu, Quy trình ETL.
Phần này gồm có: Định nghĩa Kho dữ liệu, Đặc điểm dữ liệu, Thiết kế
mô hình kho dữ liệu; Quy trình ETL.
Hệ hỗ trợ ra quyết định: Giới thiệu Hệ hỗ trợ quyết định.
Chương 2. “Phân tích và thiết kế hệ thống”: Mô tả kiến trúc toàn bộ hệ thống,
các thành phần chức năng; Tìm hiểu, lựa chọn giải pháp hiện thực các thành phần
chức năng; Thiết kế các thành phần chức năng.
Chương 3. “Hiện thực các thành phần chức năng”: Hiện thực và cách thức
vận hành các thành phần chức năng của toàn hệ thống.
Chương 4. “Đánh giá kết quả và kết luận”: Đánh giá kết quả đạt được, những
điểm chưa đạt cần khắc phục; Tổng kết đề tài; Hướng phát triển.
4
CHƯƠNG 1
NỀN TẢNG KIẾN THỨC
Bất động sản là một trong những kênh đầu tư được quan tâm nhất hiện nay.
Việc đánh giá đúng thực trạng, khuynh hướng thị trường; tìm được bất động sản
phù hợp; xác định đúng thời điểm giao dịch mua bán là vấn đề quan tâm của hầu hết
nhà đầu tư. Do đó, cần thiết có công cụ hỗ trợ con người tiến hành phân tích trên
lượng dữ liệu lớn nằm rải rác ở nhiều nguồn khác nhau để hỗ trợ đưa ra quyết định
phù hợp nhất. Để làm được điều đó, chúng ta cần giải quyết ba vấn đề sau:
Một là; Chọn lọc, trích xuất được những dữ liệu nào là “phù hợp” từ nhiều
nguồn dữ liệu khác nhau. Đây là công đoạn rất quan trọng ảnh hưởng đến tính hiệu
quả (kết quả phân tích sau này là đúng hay sai) và tính hiệu suất (hệ thống phải thực
hiện ít hay nhiều tác vụ).
Hai là; Biến đổi dữ liệu định dạng không giống nhau từ nhiều nguồn đầu vào
để được dữ liệu có thể tích hợp trong quá trình phân tích. Thường thì phải thực hiện
rất nhiều công thức chuyển đổi (bao gồm cả thêm bớt) dữ liệu, nên làm sao để thay
đổi chính xác và nhanh chóng khi yêu cầu thay đổi là rất quan trọng.
Ba là; Việc phân tích sẽ dựa trên nhiều chiều (nhiều trục biến số), nên cần cấu
trúc lưu trữ dữ liệu tích hợp một cách thích hợp để việc phân tích đạt hiệu quả và
đảm bảo hiệu suất cao.
Để giải quyết các vấn đề trên, tác giả vận dụng Kho dữ liệu và Ontology vào
đề tài này, cụ thể như sau:
- Kho dữ liệu sẽ giúp giải quyết vấn đề thứ ba ở trên.
- Ontology sẽ giúp giải quyết hai vấn đề thứ nhất và thứ hai.
Cụ thể là:
Cấu trúc của Ontology đặc biệt là khả năng suy diễn sẽ làm cho việc trích
xuất (extract) và biến đổi (transform) trở nên tự động hơn, thông minh hơn,
và tập trung hơn.
Ontology dễ mở rộng và sửa đổi khi có yêu cầu thay đổi.
Ontology cho phép tách biệt tri thức miền với tri thức vận hành, nên việc
sửa đổi sẽ dễ dàng hơn đặc biệt là đối với những nhân sự không chuyên về
kỹ thuật.
5
- Xem thêm -