Đăng ký Đăng nhập
Trang chủ Xây dựng hệ thống kho dữ liệu và hỗ trợ ra quyết định đầu tư bất động sản ở thàn...

Tài liệu Xây dựng hệ thống kho dữ liệu và hỗ trợ ra quyết định đầu tư bất động sản ở thành phố hồ chí minh

.PDF
85
1
114

Mô tả:

ĐẠI HỌC QUỐC GIA TP. HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA -------------------- NGUYỄN TRUNG THÀNH XÂY DỰNG HỆ THỐNG KHO DỮ LIỆU VÀ HỖ TRỢ RA QUYẾT ĐỊNH ĐẦU TƯ BẤT ĐỘNG SẢN Ở THÀNH PHỐ HỒ CHÍ MINH Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 8.48.01.01 LUẬN VĂN THẠC SĨ TP.HỒ CHÍ MINH, tháng 01 năm 2021 CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA –ĐHQG -HCM Cán bộ hướng dẫn khoa học: PGS.TS TRẦN MINH QUANG Cán bộ chấm nhận xét 1: PGS.TS NGUYỄN TUẤN ĐĂNG Cán bộ chấm nhận xét 2: PGS.TS HUỲNH TRUNG HIẾU Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG Tp. HCM ngày 22 tháng 01 năm 2021 Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: (Ghi rõ họ, tên, học hàm, học vị của Hội đồng chấm bảo vệ luận văn thạc sĩ) 1. PGS.TS ĐẶNG TRẦN KHÁNH ........ - Chủ tịch 2. TS. PHAN TRỌNG NHÂN ................ - Thư ký 3. PGS.TS NGUYỄN TUẤN ĐĂNG ...... - Phản biện 1 4. PGS.TS HUỲNH TRUNG HIẾU........ - Phản biện 2 5. PGS.TS TRẦN MINH QUANG ......... - Ủy viên Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý chuyên ngành sau khi luận văn đã được sửa chữa (nếu có). CHỦ TỊCH HỘI ĐỒNG TRƯỞNG KHOA …………………… ĐẠI HỌC QUỐC GIA TP.HCM CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT TRƯỜNG ĐẠI HỌC BÁCH KHOA NAM Độc lập - Tự do - Hạnh phúc NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: NGUYỄN TRUNG THÀNH ........................ MSHV: 1870175 ............ Ngày, tháng, năm sinh: 22/01/1977 ......................................... Nơi sinh: Quảng Trị........ Chuyên ngành: Khoa học máy tính ......................................... Mã số: 8.48.01.01 ........... I. TÊN ĐỀ TÀI: ............................................................................................................ XÂY DỰNG HỆ THỐNG KHO DỮ LIỆU VÀ HỖ TRỢ RA QUYẾT ĐỊNH ĐẦU TƯ BẤT ĐỘNG SẢN Ở THÀNH PHỐ HỒ CHÍ MINH II. NHIỆM VỤ VÀ NỘI DUNG: 1. Xây dựng thành phần thu thập thông tin bất động sản từ các trang Web 2. Xây dựng Ontology cho lĩnh vực Bất động sản để hỗ trợ quy trình ETL (Extract: Trích xuất; Transform: Chuyển đổi; Load: Tải) 3. Phân tích và thiết kế Kho dữ liệu 4. Thực hiện truy vấn trên Kho dữ liệu để hỗ trợ ra quyết định III. NGÀY GIAO NHIỆM VỤ: 10/02/2020................................................................. IV. NGÀY HOÀN THÀNH NHIỆM VỤ: 03/01/2021 ................................................ V. CÁN BỘ HƯỚNG DẪN: PGS.TS TRẦN MINH QUANG ...................................... Tp. HCM, ngày . . . . tháng .. . . năm 20.... CÁN BỘ HƯỚNG DẪN (Họ tên và chữ ký) CHỦ NHIỆM BỘ MÔN ĐÀO TẠO (Họ tên và chữ ký) TRƯỞNG KHOA KHOA HỌC VÀ KỸ THUẬT MÁY TÍNH (Họ tên và chữ ký) LỜI CẢM ƠN Tác giả xin gửi lời cảm ơn trân trọng đến quý Thầy giáo, Cô giáo đã truyền đạt kiến thức, kinh nghiệm, và phương pháp nghiên cứu khoa học để tác giả có thể hoàn thành đề tài này. Tác giả cũng xin gửi lời cảm ơn chân thành đến các bạn học viên cao học và các đồng nghiệp đã góp ý, hỗ trợ trong suốt quá trình thực hiện đề tài. Đặc biệt, tác giả xin gửi lời cảm ơn trân trọng và sâu sắc đến Thầy PGS.TS Trần Minh Quang, người đã trực tiếp hướng dẫn, dìu dắt tác giả bước vào môi trường nghiên cứu khoa học. Cuối cùng, xin cảm ơn gia đình đã động viên, chia sẻ khó khăn để tác giả có thể tập trung thực hiện đề tài này. Với thời gian nghiên cứu còn hạn chế, đề tài chắc chắn còn nhiều vấn đề cần phải cải tiến, hoàn thiện hơn. Rất mong sự đóng góp ý kiến từ các Thầy giáo, Cô giáo, bạn bè và đồng nghiệp để tác giả hoàn thiện đề tài, và có thể ứng dụng tốt vào thực tế. TP.Hồ Chí Minh, ngày 05 tháng 01 năm 2021 Tác giả Nguyễn Trung Thành i TÓM TẮT ĐỀ TÀI Bất động sản (BĐS) là một trong những kênh đầu tư được quan tâm nhất hiện nay. Việc đánh giá đúng thực trạng, khuynh hướng thị trường; tìm được bất động sản phù hợp; xác định đúng thời điểm giao dịch mua bán là vấn đề quan tâm của hầu hết nhà đầu tư. Bài toán đặt ra là: Cần thiết có công cụ hỗ trợ con người tiến hành phân tích trên lượng dữ liệu lớn nằm rải rác ở nhiều nguồn khác nhau để đưa ra quyết định phù hợp nhất. Đề tài “Xây dựng hệ thống kho dữ liệu và hỗ trợ ra quyết định đầu tư bất động sản ở TP.Hồ Chí Minh” gồm ba thành phần chức năng như sau: - Xây dựng hệ thống tự động (được thiết lập lịch trình chạy tự động) thu thập thông tin BĐS từ các trang web BĐS. - Xây dựng hệ thống kho dữ liệu, trong đó bao gồm quy trình ETL (Extract, Transform, and Load). - Thực hiện truy vấn, phân tích trên kho dữ liệu để hỗ trợ ra quyết định. Trong ba thành phần trên, quy trình ETL là trọng tâm của đề tài. Tác giả xây dựng Ontology (Bản thể luận), và áp dụng kiến trúc của Ontology đặc biệt là các luật suy diễn để thu được những thông tin tiềm ẩn từ dữ liệu có sẵn, phục vụ cho mục đích thực hiện trích xuất (extract) và chuyển đổi (transform). ii ABSTRACT Real estate is one of the most interesting investment channels today. The correct assessment of the current market situation and trends, finding proper real estate, determining the right time to buy and sell are the concerns of most investors. It is necessary to have tools to support people to conduct analysis on large amounts of data scattered in many different data sources to make the most appropriate decision. This thesis is conducted to “Develop a Data warehouse and Decision support system for real-estate market in HCM City”, which includes three functional components as follows: - Building an automatic system (scheduled to run automatically) to collect real estate information from real estate websites. - Building a data warehouse system, which includes ETL (Extract, Transform, and Load) processes. - Perform query, analysis on data warehouse to support decision making. As of the three components above, the ETL process is the focus of this thesis. The author builds Ontology and applies Ontology's architecture, especially inference rules, to obtain latent information from available data, for the purpose of extracting and transforming. iii LỜI CAM ĐOAN Tôi xin cam đoan luận văn là công trình nghiên cứu của riêng cá nhân tôi. Được sự hướng dẫn của Thầy PGS.TS Trần Minh Quang, tôi đã tìm hiểu, nghiên cứu, hiện thực và báo cáo luận văn. Trong chương “Nền tảng kiến thức”, tôi có sử dụng một số tài liệu tham khảo như đã trình bày trong phần tài liệu tham khảo. Mã nguồn (source code), các số liệu, kết quả trong luận văn là hoàn toàn trung thực và chưa được sử dụng trong bất kỳ báo cáo nào khác. Tôi xin chịu trách nhiệm về luận văn của mình. Nếu có gì sai sót, tôi xin chịu hoàn toàn trách nhiệm trước hội đồng. TP.Hồ Chí Minh, ngày 05 tháng 01 năm 2021 Tác giả Nguyễn Trung Thành iv MỤC LỤC LỜI CẢM ƠN ........................................................................................................ I TÓM TẮT ĐỀ TÀI .............................................................................................. II ABSTRACT ........................................................................................................ III LỜI CAM ĐOAN ............................................................................................... IV MỤC LỤC............................................................................................................. V DANH MỤC HÌNH ẢNH VÀ BẢNG BIỂU ....................................................... X DANH MỤC VIẾT TẮT ................................................................................... XII MỞ ĐẦU ................................................................................................................ 1 1. Lý do chọn đề tài .......................................................................................................................... 1 2. Mục tiêu và nhiệm vụ .................................................................................................................. 2 2.1. Mục tiêu ..................................................................................................................................... 2 2.2. Nhiệm vụ .................................................................................................................................... 2 3. Phương pháp nghiên cứu ............................................................................................................ 2 3.1. Phương pháp nghiên cứu lý thuyết ............................................................................................ 2 3.2. Phương pháp nghiên cứu thực tế .............................................................................................. 2 4. Ý nghĩa khoa học và thực tiễn ...................................................................................................... 3 4.1. Ý nghĩa khoa học......................................................................................................................... 3 4.2. Ý nghĩa thực tiễn......................................................................................................................... 3 5. Bố cục luận văn ............................................................................................................................ 3 CHƯƠNG 1: NỀN TẢNG KIẾN THỨC.............................................................. 5 1. GIỚI THIỆU ONTOLOGY .............................................................................. 6 1.1. Khái niệm chung về Ontology.................................................................................................... 6 v 1.2. Các thành phần chính của Ontology .......................................................................................... 6 1.3. Lý do phải xây dựng Ontology ................................................................................................... 7 1.4. Ưu điểm của Ontology [8] ......................................................................................................... 8 1.5. Lý do áp dụng Ontology vào đề tài ............................................................................................ 9 1.6. Các bước xây dựng Ontology .................................................................................................... 9 1.7. Ngôn ngữ biểu diễn Ontology ..................................................................................................10 1.7.1. Cấu trúc Web ngữ nghĩa ........................................................................................................ 10 1.7.2. Ngôn ngữ mô tả RDF ............................................................................................................. 11 1.7.3. RDF Schema (RDFS) ............................................................................................................... 12 1.7.4. Ngôn ngữ OWL ...................................................................................................................... 13 1.8. Truy vấn trên Ontology, ngôn ngữ SPARQL ..............................................................................13 1.8.1. SPARQL FILTER ....................................................................................................................... 14 1.8.2. OPTIONAL trong SPARQL ....................................................................................................... 15 1.9. Suy luận trên Ontology, ngôn ngữ SWRL..................................................................................16 2. KHO DỮ LIỆU ................................................................................................ 19 2.1. Định nghĩa................................................................................................................................19 2.2. Đặc điểm dữ liệu trong kho dữ liệu..........................................................................................19 2.3. Mục đích của kho dữ liệu .........................................................................................................19 2.4. Các bước xử lý trong quy trình ETL ..........................................................................................19 2.5. Thiết kế cơ sở dữ liệu cho kho dữ liệu .....................................................................................19 3. QUY TRÌNH ETL ........................................................................................... 21 3.1. Khái niệm quy trình ETL ...........................................................................................................21 3.2. Vai trò của quy trình ETL trong xây dựng kho dữ liệu ...............................................................21 3.3. Các công đoạn trong quy trình ETL ...........................................................................................22 3.3.1. Trích xuất (Extract) ................................................................................................................ 22 3.3.2. Chuyển đổi (Transform)......................................................................................................... 23 vi 3.3.3. Tải (Load) ............................................................................................................................... 24 3.4. Những khó khăn thường gặp khi xây dựng quy trình ETL ........................................................24 4. HỆ HỖ TRỢ RA QUYẾT ĐỊNH .................................................................... 25 4.1. Giới thiệu về hệ hỗ trợ quyết định [15] ...................................................................................25 4.2. Quá trình ra quyết định ...........................................................................................................25 4.3. Phân loại hệ hỗ trợ quyết định ................................................................................................25 CHƯƠNG 2: PHÂN TÍCH VÀ THIẾT KẾ HỆ THỐNG ................................. 26 1. GIỚI THIỆU KIẾN TRÚC HỆ THỐNG ....................................................... 26 1.1. Thu thập dữ liệu bất động sản .................................................................................................27 1.2. Quy trình ETL ...........................................................................................................................28 1.3. Truy vấn trên kho dữ liệu .........................................................................................................28 2. TÌM HIỂU CÔNG NGHỆ, CHỌN LỰA GIẢI PHÁP .................................. 28 2.1. Giải pháp cho thành phần “Thu thập dữ liệu bất động sản” .....................................................28 2.2. Giải pháp cho thành phần “Quy trình ETL” ...............................................................................30 2.2.1. Lựa chọn ngôn ngữ lập trình và các thư viện liên quan ........................................................ 30 2.2.2. Lựa chọn Hệ quản trị Cơ sở dữ liệu cho “Staging Database” ................................................ 31 2.3. Giải pháp cho thành phần “Truy vấn trên kho dữ liệu” ............................................................32 3. THIẾT KẾ HỆ THỐNG ................................................................................. 33 3.1. Thiết kế sơ đồ lớp cho thành phần “Thu thập dữ liệu bất động sản” .......................................33 3.2. Thiết kế cơ sở dữ liệu cho thành phần “Thu thập dữ liệu bất động sản” .................................34 3.3. Thiết kế Ontology ....................................................................................................................35 3.3.1. Sơ đồ lớp của Ontology BĐS .................................................................................................. 35 3.3.2. Sơ đồ quan hệ giữa các đối tượng trong Ontology BĐS........................................................ 37 3.3.3. Mô tả thuộc tính trong Ontology BĐS ................................................................................... 38 3.3.4. Thiết kế luật suy diễn ............................................................................................................ 40 vii 3.3.4.1. Rule Direction1: Xác định đông hay tây tứ trạch................................................................ 41 3.3.4.2. Rule RealEstate1: Xác định BĐS không hợp lệ .................................................................... 42 3.3.4.3. Rule RealEstate2: Xác định BĐS bị trùng ............................................................................ 43 3.3.4.4. Rule Owner1: Xác định phần số điện thoại đã bị giấu đi.................................................... 45 3.4. Thiết kế kho dữ liệu .................................................................................................................46 CHƯƠNG 3: HIỆN THỰC CÁC THÀNH PHẦN CHỨC NĂNG ................... 50 1. THÀNH PHẦN “THU THẬP DỮ LIỆU BẤT ĐỘNG SẢN”........................ 50 1.1. Hiện thực thành phần “Thu thập dữ liệu bất động sản”...........................................................50 1.2. Vận hành thành phần “Thu thập dữ liệu bất động sản” ...........................................................51 2. THÀNH PHẦN “QUY TRÌNH ETL” ............................................................ 52 2.1. Hiện thực thành phần “Quy trình ETL” .....................................................................................52 2.1.1. Sơ lược về source code Python ............................................................................................. 52 2.1.2. Hiện thực suy diễn ................................................................................................................. 53 2.1.3. Hiển thị kết quả thực hiện trích xuất và chuyển đổi ............................................................. 55 2.1.4. Tải vào Kho dữ liệu ................................................................................................................ 56 2.2. Vận hành thành phần “Quy trình ETL” .....................................................................................57 3. THÀNH PHẦN “TRUY VẤN TRÊN KHO DỮ LIỆU” ................................ 57 3.1. Hiện thực thành phần “Truy vấn trên kho dữ liệu” ..................................................................57 3.1.1. Tạo khối đa chiều (Cube Generator) ..................................................................................... 57 3.1.2. Truy vấn trên khối đa chiều ................................................................................................... 60 CHƯƠNG 4: ĐÁNH GIÁ KẾT QUẢ VÀ KẾT LUẬN ..................................... 61 1. ĐÁNH GIÁ KẾT QUẢ .................................................................................... 61 1.1. Kết quả thành phần “Thu thập dữ liệu bất động sản” ..............................................................61 1.2. Kết quả thành phần “Quy trình ETL” ........................................................................................62 1.3. Kết quả thành phần “Truy vấn trên kho dữ liệu” .....................................................................65 viii 2. KẾT LUẬN ...................................................................................................... 65 DANH MỤC CÁC TÀI LIỆU THAM KHẢO ................................................... 67 PHỤ LỤC ............................................................................................................. 69 ix DANH MỤC HÌNH ẢNH VÀ BẢNG BIỂU Hình 1.1: Cấu trúc phân tầng Web ngữ nghĩa Hình 1.2: Quan hệ giữa các loại đối tượng trong phát biểu RDF Hình 1.3: Giản đồ hình sao Hình 1.4: Giản đồ hình bông tuyết Hình 1.5: Vòng đời kho dữ liệu Hình 1.6: Sơ đồ mô tả quy trình ETL Hình 2.1: Cấu trúc tổng thể hệ thống Hình 2.2: Cây cấu trúc DOM Bảng 2.1: Thư viện hỗ trợ xử lý Ontology Hình 2.3: Sơ đồ lớp (class diagram) Hình 2.4: Mô hình cơ sở dữ liệu cho thành phần “Thu thập dữ liệu bất động sản” Hình 2.5: Sơ đồ lớp của Ontology BĐS Hình 2.6: Sơ đồ quan hệ giữa các đối tượng trong Ontology BĐS Bảng 2.2: Danh sách các thuộc tính kiểu Data Property Bảng 2.3: Danh sách các thuộc tính kiểu Object Property Hình 2.7: Lược đồ quan hệ của FactSaleLand và các Dimension Hình 2.8: Lược đồ quan hệ của FactSaleHouse và các Dimension Hình 3.1: Hình ảnh một phần mã nguồn để thu thập dữ liệu Hình 3.2: Thiết lập lịch trình thực hiện thu thập dữ liệu Hình 3.3: Hiện thực ETL bằng Python Hình 3.4: Hiện thực luật suy diễn Hình 3.5: Kết quả hiện thực suy diễn Hình 3.6: Hiển thị dữ liệu truy vấn từ A-Box Hình 3.7: Kết quả tải từ A-Box vào Kho dữ liệu Hình 3.8: Mô hình khối đa chiều của FactSaleLand và các Dimension Hình 3.9: Mô hình khối đa chiều của FactSaleHouse và các Dimension x Hình 3.10: Truy vấn trên khối đa chiều Bảng 4.1: Kết quả thu thập dữ liệu bất động sản Bảng 4.2: Kết quả hiện thực quy trình ETL Bảng 4.3: Đánh giá kết quả, hiệu năng, chi phí của toàn hệ thống xi DANH MỤC VIẾT TẮT TP.HCM: Thành phố Hồ Chí Minh BĐS: Bất động sản CSDL: Cơ sở dữ liệu (Database) DBMS: Database Management System (Hệ quản trị cơ sở dữ liệu) DOM: Document Object Model DSS: Decision Support System (Hệ hỗ trợ quyết định) DWH: Data Warehouse (Kho dữ liệu) ETL: Extract Transform Load GUI: Graphical User Interface (Giao diện đồ họa người dùng) OLAP: Online Analytical Processing (Xử lý phân tích trực tuyến) OWL: The Web Ontology Language RDF: Resource Description Framework (Khung mô tả tài nguyên) SSAS: SQL Server Analysis Services SSRS: SQL Server Reporting Services xii MỞ ĐẦU 1. Lý do chọn đề tài Cách mạng công nghiệp lần thứ tư với chuyển đổi số làm trung tâm, đang tạo ra nguồn dữ liệu khổng lồ trong mọi lĩnh vực, dẫn đến cơ hội và nhu cầu khai thác thông tin từ nguồn dữ liệu đó để hỗ trợ con người ra quyết định chính xác và nhanh chóng hơn. Áp dụng công nghệ vào thu thập xử lý thông tin, xây dựng kho dữ liệu là rất quan trọng trong quá trình thực hiện chuyển đổi số. Làm sao để quản lý và sử dụng hiệu quả nguồn dữ liệu là mấu chốt thành công của mỗi tổ chức và doanh nghiệp. Một trong những công việc khó khăn và tốn chi phí nhiều nhất trong xây dựng hệ thống kho dữ liệu hỗ trợ ra quyết định là thực hiện quy trình ETL (Extract, Transform, and Load). Cho đến nay, cũng có khá nhiều công cụ hỗ trợ cho việc thực hiện ETL như là: Oracle Warehouse Builder (OWB), SQL Server Integration Services (SSIS), Pentaho Data Integration, v.v. Tuy vậy, những công cụ này xử lý trên nguồn dữ liệu quan hệ và không mang “ngữ nghĩa”; và vì vậy, mất nhiều chi phí cho việc xử lý các quy luật trích xuất (extract), chuyển đổi (transform) gần giống nhau, lặp lại ở các thành phần trong một hệ thống hay trong các hệ thống khác nhau. Áp dụng Ontology (Bản thể luận) vào quy trình ETL sẽ làm cho công việc trích xuất, chuyển đổi được xử lý tự động hơn, thông minh hơn và dễ dàng thay đổi hơn khi yêu cầu thay đổi. Cùng với sự phát triển của Web ngữ nghĩa (Semantic Web), việc xử lý ETL trên Cơ sở dữ liệu ngữ nghĩa (Semantic Database) cũng sẽ dần phổ biến và thay thế phần lớn trong quy trình ETL trên Cơ sở dữ liệu truyền thống. Áp dụng Ontology cũng mở ra hướng ứng dụng rộng rãi trong tương lai. Luận văn tìm hiểu và xây dựng Ontology cho lĩnh vực Bất động sản, áp dụng kiến trúc của Ontology đặc biệt là các luật suy diễn để thu được những thông tin tiềm ẩn từ dữ liệu có sẵn, phục vụ cho mục đích thực hiện trích xuất (extract) và chuyển đổi (transform). Ngoài ra, luận văn cũng tìm hiểu để xây dựng quy trình tải (load) dữ liệu từ Staging Database (Cơ sở dữ liệu dùng trong quá trình dàn dựng) là “Semantic Database” vào kho dữ liệu, đây là cơ sở để tham khảo khi thu thập thông tin từ các Ontology đã có sẵn. Với những lý do trên, tôi chọn đề tài: “Xây dựng hệ thống kho dữ liệu và hỗ trợ ra quyết định đầu tư bất động sản ở TP.Hồ Chí Minh”. 1 2. Mục tiêu và nhiệm vụ 2.1. Mục tiêu  Hiểu rõ các chủ điểm liên quan đến Ontology để có thể vận dụng tốt vào bài toán thực tế  Nắm chắc về hệ thống kho dữ liệu, đặc biệt là quy trình ETL (Extract: Trích xuất; Transform: Chuyển đổi; Load: Tải)  Xây dựng quy trình ETL một cách hiệu quả bằng cách áp dụng Ontology  Hoàn thành bộ công cụ hữu ích hỗ trợ đầu tư BĐS tại TP.Hồ Chí Minh 2.2. Nhiệm vụ  Xây dựng thành phần “Thu thập thông tin bất động sản” từ nhiều nguồn khác nhau  Xây dựng Ontology cho lĩnh vực Bất động sản  Thực hiện Trích xuất (Extract) và Chuyển đổi (Transform) dữ liệu từ kết quả thu thập vào Ontology  Phân tích và thiết kế Kho dữ liệu  Thực hiện Tải (Load) dữ liệu từ Ontology vào Kho dữ liệu  Thực hiện truy vấn trên Kho dữ liệu để hỗ trợ ra quyết định 3. Phương pháp nghiên cứu 3.1. Phương pháp nghiên cứu lý thuyết  Nghiên cứu dựa trên các tài liệu, bài báo khoa học  Nghiên cứu và tìm hiểu công nghệ, công cụ hỗ trợ; đi đến quyết định chọn lựa công nghệ, công cụ để hiện thực hệ thống  Phân tích thiết kế hệ thống, đề xuất phương án hiện thực quy trình ETL 3.2. Phương pháp nghiên cứu thực tế  Tìm hiểu các thông tin, kiến thức cần thiết liên quan đến Bất động sản  Hiện thực các thành phần hệ thống  Đánh giá kết quả hiện thực qua các giai đoạn để thực hiện cải tiến 2 4. Ý nghĩa khoa học và thực tiễn 4.1. Ý nghĩa khoa học Đề tài nghiên cứu đề xuất phương pháp “Xử lý quy trình ETL dựa trên kiến trúc Ontology và các luật suy diễn”, là cơ sở để tham khảo xây dựng các Ontology dữ liệu ngữ nghĩa được chia sẻ dùng chung trên các lĩnh vực khác như là: Du lịch, Y tế, Nông nghiệp, Vận tải, Thăm dò và khai thác dầu khí, Quản lý tài nguyên và môi trường, v.v. Áp dụng Ontology sẽ làm cho quy trình ETL tự động hơn, thông minh hơn và xử lý tập trung hơn; là cơ sở để các tổ chức tham khảo, áp dụng Ontology khi xây dựng hệ thống thông tin của đơn vị mình. Xem xét tái sử dụng Ontology đã có sẵn, hay thiết kế những Ontology hẹp hơn sau đó kết hợp lại thành Ontology rộng hơn; đó là hướng áp dụng phù hợp với các cơ quan quản lý nhà nước. 4.2. Ý nghĩa thực tiễn Kết quả của đề tài là sự kết hợp các mảng nghiên cứu riêng lẻ thành một bộ công cụ tiện ích cho nhà đầu tư BĐS. Thành phần 1: “Thu thập dữ liệu bất động sản” cho phép tự động thu thập dữ liệu BĐS từ nhiều trang Web BĐS, giúp giảm chi phí, và chủ động nguồn dữ liệu đầu vào của toàn hệ thống. Thành phần 2: “Kho dữ liệu và Quy trình ETL” giúp xây dựng cấu trúc dữ liệu thích hợp để thực hiện truy vấn trên nhiều chiều đạt hiệu quả tốt và đáp ứng hiệu suất cao. Đặc biệt, áp dụng Ontology làm cho quy trình ETL được xử lý tập trung hơn, dễ cập nhật thay đổi trong quá trình vận hành. Thành phần 3: “Truy vấn trên kho dữ liệu” cho phép người dùng (người phân tích) dễ dàng thực hiện truy vấn trên khối đa chiều (OLAP Cube). Kết hợp ba thành phần trên tạo nên bộ công cụ tiện ích hỗ trợ ra quyết định đầu tư BĐS. 5. Bố cục luận văn Luận văn được trình bày theo các phần chính như sau: Phần “Mở Đầu”: Giới thiệu đề tài. Phần này gồm những nội dung chính là: Lý do chọn đề tài; Mục tiêu và nhiệm vụ; Phương pháp nghiên cứu; Ý nghĩa khoa học và thực tiễn; Bố cục luận văn. Chương 1. “Nền tảng kiến thức”: Trong chương này, tác giả trình bày những kiến thức cơ bản được sử dụng trong đề tài, bao gồm: Giới thiệu Ontology, Kho dữ liệu, Hệ hỗ trợ ra quyết định. Cụ thể gồm những chủ điểm sau: 3  Giới thiệu Ontology: Trình bày các khái niệm liên quan đến Ontology và công cụ sử dụng để xây dựng Ontology. Phần này gồm có: Ontology là gì; Các thành phần của Ontology; Tại sao cần dùng Ontology trong quy trình ETL, ưu nhược điểm; Cách xây dựng Ontology; Truy vấn trên Ontology; Suy diễn trên Ontology.  Kho dữ liệu: Trình bày cơ sở lý thuyết về Kho dữ liệu, Quy trình ETL. Phần này gồm có: Định nghĩa Kho dữ liệu, Đặc điểm dữ liệu, Thiết kế mô hình kho dữ liệu; Quy trình ETL.  Hệ hỗ trợ ra quyết định: Giới thiệu Hệ hỗ trợ quyết định. Chương 2. “Phân tích và thiết kế hệ thống”: Mô tả kiến trúc toàn bộ hệ thống, các thành phần chức năng; Tìm hiểu, lựa chọn giải pháp hiện thực các thành phần chức năng; Thiết kế các thành phần chức năng. Chương 3. “Hiện thực các thành phần chức năng”: Hiện thực và cách thức vận hành các thành phần chức năng của toàn hệ thống. Chương 4. “Đánh giá kết quả và kết luận”: Đánh giá kết quả đạt được, những điểm chưa đạt cần khắc phục; Tổng kết đề tài; Hướng phát triển. 4 CHƯƠNG 1 NỀN TẢNG KIẾN THỨC Bất động sản là một trong những kênh đầu tư được quan tâm nhất hiện nay. Việc đánh giá đúng thực trạng, khuynh hướng thị trường; tìm được bất động sản phù hợp; xác định đúng thời điểm giao dịch mua bán là vấn đề quan tâm của hầu hết nhà đầu tư. Do đó, cần thiết có công cụ hỗ trợ con người tiến hành phân tích trên lượng dữ liệu lớn nằm rải rác ở nhiều nguồn khác nhau để hỗ trợ đưa ra quyết định phù hợp nhất. Để làm được điều đó, chúng ta cần giải quyết ba vấn đề sau: Một là; Chọn lọc, trích xuất được những dữ liệu nào là “phù hợp” từ nhiều nguồn dữ liệu khác nhau. Đây là công đoạn rất quan trọng ảnh hưởng đến tính hiệu quả (kết quả phân tích sau này là đúng hay sai) và tính hiệu suất (hệ thống phải thực hiện ít hay nhiều tác vụ). Hai là; Biến đổi dữ liệu định dạng không giống nhau từ nhiều nguồn đầu vào để được dữ liệu có thể tích hợp trong quá trình phân tích. Thường thì phải thực hiện rất nhiều công thức chuyển đổi (bao gồm cả thêm bớt) dữ liệu, nên làm sao để thay đổi chính xác và nhanh chóng khi yêu cầu thay đổi là rất quan trọng. Ba là; Việc phân tích sẽ dựa trên nhiều chiều (nhiều trục biến số), nên cần cấu trúc lưu trữ dữ liệu tích hợp một cách thích hợp để việc phân tích đạt hiệu quả và đảm bảo hiệu suất cao. Để giải quyết các vấn đề trên, tác giả vận dụng Kho dữ liệu và Ontology vào đề tài này, cụ thể như sau: - Kho dữ liệu sẽ giúp giải quyết vấn đề thứ ba ở trên. - Ontology sẽ giúp giải quyết hai vấn đề thứ nhất và thứ hai. Cụ thể là:  Cấu trúc của Ontology đặc biệt là khả năng suy diễn sẽ làm cho việc trích xuất (extract) và biến đổi (transform) trở nên tự động hơn, thông minh hơn, và tập trung hơn.  Ontology dễ mở rộng và sửa đổi khi có yêu cầu thay đổi.  Ontology cho phép tách biệt tri thức miền với tri thức vận hành, nên việc sửa đổi sẽ dễ dàng hơn đặc biệt là đối với những nhân sự không chuyên về kỹ thuật. 5
- Xem thêm -

Tài liệu liên quan