Tài liệu Khai thác dữ liệu văn bản trên thiết bị di động sử dụng các dịch vụ đám

.PDF

thanhphoquetoi Báo vi phạm

Tải xuống 54

Mô tả:

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI VIỆN CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG ──────── * ─────── LUẬN VĂN TỐT NGHIỆP THẠC SĨ NGÀNH KỸ THUẬT PHẦN MỀM ĐỀ TÀI: KHAI PHÁ DỮ LIỆU VĂN BẢN TRÊN THIẾT BỊ DI ĐỘNG SỬ DỤNG CÁC DỊCH VỤ ĐÁM MÂY HỌC VIÊN THỰC HIỆN : NGUYỄN THỊ THÚY HẰNG LỚP : 2014B-KTPM SỐ HIỆU HỌC VIÊN : CB140147 GIẢNG VIÊN HƯỚNG DẪN : PGS.TS. CAO TUẤN DŨNG HÀ NỘI 11-2017 MỤC LỤC LỜI CAM ĐOAN ……………………………………………………….4 DANH MỤC CÁC TỪ VIẾT TẮT VÀ THUẬT NGỮ ……………...6 DANH MỤC CÁC HÌNH ẢNH …………………………………..7 DANH MỤC CÁC BẢNG BIỂU …………………………………..8 CHƯƠNG 1: KHAI PHÁ DỮ LIỆU …………………………………11 1.1. Khái niệm về khai phá dữ liệu …………………………..11 1.2. Quy trình khai phá dữ liệu …………………………………13 1.3. Các kỹ thuật khai phá dữ liệu …………………………..16 1.4. Các công cụ khai phá dữ liệu …………………………..22 CHƯƠNG 2: ĐIỆN TOÁN ĐÁM MÂY …………………………..25 2.1. Sự ra đời của điện toán đám mây …………………………..25 2.2. Kiến trúc mô hình điện toán đám mây 2.3. Các dịch vụ điện toán đám mây …………………...28 …………………………..28 2.4. Các mô hình triển khai điện toán đám mây …………….34 2.5. Khai phá dữ liệu trong điện toán đám mây …………….35 CHƯƠNG 3: KHAI THÁC Ý KIẾN VÀ PHÂN TÍCH CẢM XÚC 3.1. Định nghĩa .38 ……………………………………………….38 3.2 Các định nghĩa liên quan …………………………………40 3.3. Các tác vụ của phân tích cảm xúc …………………………..42 3.4. Các cấp phân tích khác nhau …………………………..44 3.5. Bài toán phân lớp cảm xúc …………………………………45 CHƯƠNG 4: CÔNG CỤ PHÂN TÍCH Ý KIẾN, CẢM XÚC CỦA KHÁCH HÀNG TRÊN THIẾT BỊ DI ĐỘNG …………………..57 4.1. Hoàn cảnh ra đời ………...……………………………...57 4.2. Bài toán phản hồi của khách hàng …………………………..58 4.3. Chức năng của công cụ …………………………………59 4.4. Kết quả xây dựng hệ thống …………………………………64 4.5. Đánh giá ưu điểm, nhược điểm của hệ thống …………….77 Học viên thực hiện: Nguyễn Thị Thúy Hằng-CB140147-2014B-KTPM 2 CHƯƠNG 5: KẾT LUẬN VÀ ĐỀ XUẤT 5.1. Hệ thống …………………………..78 ……………………………………………………...78 5.1.1. Đánh giá chung ………………………………………..78 5.1.2. Công việc đã làm được …………………………………78 5.1.3. Những vấn đề chưa giải quyết …………………………..78 5.1.4. Định hướng phát triển đề tài …………………………..79 5.2. Công cụ sử dụng ……………………………………………….79 5.2.1. Đánh giá chung ………………………………………..79 5.2.2. Khả năng áp dụng ………………………………………..79 TÀI LIỆU THAM KHẢO ………………………………………..81 Học viên thực hiện: Nguyễn Thị Thúy Hằng-CB140147-2014B-KTPM 3 LỜI CAM ĐOAN Tôi xin cam đoan: 1. Những nội dung trong luận văn này là công trình nghiên cứu của tôi dưới sự hướng dẫn trực tiếp của TS. Cao Tuấn Dũng. 2. Mọi tham khảo dùng trong luận văn đều được trích dẫn rõ ràng tên tác giả, tên công trình, thời gian, địa điểm công bố. 3. Các số liệu, kết quả nêu trong luận văn là trung thực và chưa từng được ai công bố trong bất kỳ công trình nào khác. 4. Mọi sao chép không hợp lệ, vi phạm quy chế đào tạo, hay gian trá, tôi xin chịu hoàn toàn trách nhiệm. Hà Nô ̣i, ngày 15 tháng 10 năm 2017 Tác giả luâ ̣n văn Nguyễn Thị Thúy Hằng Học viên thực hiện: Nguyễn Thị Thúy Hằng-CB140147-2014B-KTPM 4 LỜI CẢM ƠN Trong quá trình học tập, nghiên cứu và thực hiện luận văn thạc sỹ, tôi đã nhận được nhiều sự hỗ trợ, đóng góp nhiệt tình của các cá nhân và tổ chức tạo điều kiện cho tôi hoàn thành luận văn này. Qua đây tôi cũng xin gửi lời cảm ơn chân thành, sâu sắc tới các cá nhân và tập thể đã giúp đỡ tôi trong thời gian vừa qua. Trước hết, tôi xin chân thành cảm ơn thầy giáo PGS.TS Cao Tuấn Dũng, Viện Công Nghệ Thông Tin, Trường Đại Học Bách Khoa Hà Nội là người đã trực tiếp hướng dẫn, nhận xét và giúp đỡ tôi trong suốt quá trình thực hiện luận văn này. Tôi xin chân thành cảm ơn các thầy cô trong Viện Công Nghệ Thông Tin, các thầy cô trong Viện Đào Tạo Sau Đại Học đã giúp đỡ, tạo điều kiện và hướng dẫn tôi trong suốt thời gian học tập tại trường. Cuối cùng, tôi xin chân thành cảm ơn gia đình, bạn bè và đồng nghiệp, những người đã gắn bó cùng tôi trong suốt thời gian học tập và thực hiện luận văn và tạo điều kiện cho tôi thực hiện tốt luận văn này. Do thời gian thực hiện có hạn và hạn chế về kiến thức chuyên ngành nên luận văn của tôi còn nhiều thiếu sót. Mong nhận được các ý kiến đóng góp của các thầy cô để luận văn của tôi được hoàn thiện hơn. Tôi xin chân thành cảm ơn! Hà Nội, ngày 01 tháng 11 năm 2017 Học viên Nguyễn Thị Thúy Hằng Học viên thực hiện: Nguyễn Thị Thúy Hằng-CB140147-2014B-KTPM 5 DANH MỤC CÁC TỪ VIẾT TẮT VÀ THUẬT NGỮ STT 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Ý nghĩa Cross-Industry Standard Process (Quy trình xử lý dữ liệu công nghiệp chuẩn) SEMMA Sample, Explore, Modify, Model, and Assess CRISPCross-Industry Standard Process for Data Mining DM (Quy trình xử lý dữ liệu công nghiệp chuẩn cho khai phá dữ liệu) ANN Artificial Neural Networks (Mạng nơ ron nhân tạo) SAS Statistical Analysis System (Hệ thống phân tích thống kê) PE Processing Element (Yếu tố xử lý) IaaS Infrastructure as a Service (Dịch vụ cơ sở hạ tầng) PaaS Platform as a Service (Dịch vụ nền tảng) SaaS Software as a Service (Dịch vụ phần mềm) ASP Application Service Provider (Nhà cung cấp dịch vụ ứng dụng) EC2 Elastic Compute Cloud (Đám mây tính toán đàn hồi) SLA Service-Level Agreement (Thỏa thuận mức dịch vụ) NER Named Entity Recognition (Nhận dạng tên thực thể) POS Part of Speech (Từ loại) SVM Support Vector Machine (Máy vector hỗ trợ) HMM Hidden Markov Model (Mô hình Markov ẩn) CRF Conditional random Fields (Trường điều kiện ngẫu nhiên) pLSA Probabilistic Latent Semantic Analysis (Phân tích xác suất ngữ nghĩa tiềm ẩn) LDA Latent Dirichlet allocation (Phân bổ Dirichlet tiềm ẩn) Amazon S3 Amazon Simple Storage Service (Dịch vụ lưu trữ của Amazon) Từ viết tắt CRISP Học viên thực hiện: Nguyễn Thị Thúy Hằng-CB140147-2014B-KTPM 6 DANH MỤC CÁC HÌNH ẢNH Hình 1: Quy trình khai phá dữ liệu ...................................................................... 14 Hình 2: Mạng nơ ron nhân tạo ............................................................................. 16 Hình 3: Kỹ thuật học có giám sát trong mạng nơ ron nhân tạo ........................... 17 Hình 4: Kỹ thuật học không giám sát trong mạng nơ ron nhân tạo ..................... 18 Hình 5: Kỹ thuật học tăng cường trong mạng nơ ron nhân tạo ........................... 18 Hình 6: Mô hình mạng nơ ron đơn giản .............................................................. 19 Hình 7: Entropy .................................................................................................... 20 Hình 8: Điện toán lưới ......................................................................................... 26 Hình 9: Điện toán theo yêu cầu ............................................................................ 27 Hình 10: Điện toán tự trị ...................................................................................... 27 Hình 11: Kiến trúc điện toán đám mây ................................................................ 28 Hình 12: Dịch vụ cơ sở hạ tầng............................................................................ 29 Hình 13: Dịch vụ nền tảng ................................................................................... 31 Hình 14: Dịch vụ phần mềm ................................................................................ 32 Hình 15: Mô hình của hệ thống phân tích cảm xúc khách hàng.......................... 63 Hình 16: Các chức năng chính của hệ thống ....................................................... 64 Hình 17: Chức năng thu thập dữ liệu ................................................................... 65 Hình 18: Chức năng trích xuất thực thể ............................................................... 66 Hình 19: Chức năng phân tích cảm xúc ............................................................... 68 Học viên thực hiện: Nguyễn Thị Thúy Hằng-CB140147-2014B-KTPM 7 DANH MỤC CÁC BẢNG BIỂU Bảng 1: Đánh giá kết quả của hệ thống. .................................................... 73 Bảng 2: So sánh kết quả giữa dịch vụ của Google và IBM. ...................... 76 Học viên thực hiện: Nguyễn Thị Thúy Hằng-CB140147-2014B-KTPM 8 LỜI MỞ ĐẦU Trong hoàn cảnh ngành công nghệ thông tin phát triển mạnh mẽ như hiện nay, các thiết bị thông tin trở thành một phần quan trọng trong đời sống cũng như giao tiếp của con người. Việc sử dụng rộng rãi các thiết bị thông tin trong đời sống và giao tiếp khiến cho lượng dữ liệu mà con người tạo ra ngày càng lớn. Với lượng dữ liệu khổng lồ đó, việc tìm kiếm thông tin trở nên khó khăn hơn. Vì vậy nhu cầu của việc khai phá dữ liệu để trích xuất được các thông tin hữu ích của người dùng từ một lượng dữ liệu khổng lồ là vô cùng cần thiết. Khai phá dữ liệu là một khái niệm trong đó bao gồm nhiều lĩnh vực khác nhau, khai thác ý kiến và phân tích cảm xúc là một trong số các lĩnh vực của khai phá dữ liệu. Việc khai thác ý kiến và phân tích cảm xúc đã được nghiên cứu và triển khai trên máy tính bởi một số các doanh nghiệp nhằm mục đích thu thập phản hồi từ khách hàng. Tuy nhiên, việc triển khai trên thiết bị di động còn gặp khó khăn do hạn chế về tài nguyên của thiết bị di động. Với sự phát triển công nghệ như hiện nay, việc triển khai khai thác ý kiến và phân tích cảm xúc trên thiết bị di động trở nên dễ dàng hơn dưới sự hỗ trợ của các dịch vụ đám mây. Do đó, sau thời gian nghiên cứu, em đã được nhận đề tài luận văn tốt nghiệp rất thực tế đó là: “Khai phá dữ liệu văn bản trên thiết bị di động sử dụng các dịch vụ đám mây” Lĩnh vực khai phá dữ liệu là một lĩnh vực rộng lớn và phức tạp, do giới hạn về thời gian và năng lực nên em xin tập trung vào bài toán khai thác ý kiến và phân tích cảm xúc trong khai phá dữ liệu văn bản. Luận văn đề xuất phương pháp khai phá dữ liệu sử dụng dịch vụ đám mây áp dụng cho các thiết bị di động nhằm khắc phục các hạn chế về bộ nhớ và tài nguyên. Để tiện theo dõi em xin trình bày đề tài theo 5 phần chính như sau: - Phần đầu là giới thiệu tổng quan về khai phá dữ liệu - Phần thứ hai là giới thiệu lý thuyết điện toán đám mây - Phần thứ ba là giới thiệu lý thuyết của khai thác ý kiến và phân tích cảm xúc - Phần thứ tư bao gồm bài toán đề xuất, cơ sở xây dựng và kết quả đạt được Học viên thực hiện: Nguyễn Thị Thúy Hằng-CB140147-2014B-KTPM 9 - Phần cuối cùng là kết luận sau khi làm luận văn và định hướng phát triển Trong quá trình thực hiện, tuy được sự giúp đỡ nhiệt tình của thầy PGS.TS Cao Tuấn Dũng là giảng viên Viện công nghệ thông tin và truyền thông – giáo viên hướng dẫn nhưng với trình độ, thời gian có hạn, tài liệu tham khảo hạn chế nên có thể có nhiều thiếu sót, rất mong được các thầy cô và bạn bè góp ý để luận văn của em được tốt hơn. Học viên thực hiện: Nguyễn Thị Thúy Hằng-CB140147-2014B-KTPM 10 CHƯƠNG 1: KHAI PHÁ DỮ LIỆU 1.1. Khái niệm về khai phá dữ liệu 1.1.1. Tiền đề cho sự phát triển của khai phá dữ liệu Khai phá dữ liệu đã thu hút rất nhiều sự chú ý trong ngành công nghệ thông tin và trong xã hội những năm gần đây, do số lượng dữ liệu khổng lồ trên nhiều lĩnh vực, yêu cầu cấp thiết là chuyển đổi những dữ liệu đó thành các thông tin hay tri thức hữu ích. Những thông tin và tri thức đó có thể được sử dụng trong các ứng dụng từ phân tích thị trường, phát hiện lỗi đến điều khiển sản xuất và trong các ngành khoa học. Khai phá dữ liệu có thể được xem như một kết quả của sự phát triển tự nhiên của ngành công nghệ thông tin. Chuỗi chức năng chính trong ngành công nghệ thông tin hiện nay: tổng hợp dữ liệu và kiến tạo cơ sở dữ liệu, quản lý dữ liệu (bao gồm nhận và lưu trữ dữ liệu, cơ sở dữ liệu cho xử lý các giao dịch), và phân tích dữ liệu nâng cao (bao gồm lưu trữ dữ liệu và khai phá dữ liệu). Ví dụ: sự phát triển của cơ chế tổng hợp dữ liệu và kiến tạo cơ sở dữ liệu có vai trò như một yêu cầu cho sự phát triển của cơ chế hiệu năng cho việc nhận và lưu trữ dữ liệu, xử lý truy vấn, giao dịch. Với nhiều hệ thống cơ sở dữ liệu cho phép xử lý truy vấn và giao dịch. Phân tích dữ liệu nâng cao là bước tiếp theo quá trình xử lý và truy vấn. Sự phát triển của công nghệ phần cứng máy tính trong vài thập niên gần đây đã tạo ra những máy tính, thiết bị tổng hợp dữ liệu, thiết bị lưu trữ đa phương tiện mạnh mẽ. Điều này cung cấp một lợi thế lớn cho công nghệ thông tin, tạo ra một số lượng lớn các kho dữ liệu và thông tin có sẵn cho quản lý ứng dụng. Sự phong phú của dữ liệu cũng đi đôi với nhu cầu về các công cụ phân tích dữ liệu mạnh mẽ để tránh tình trạng nghèo nàn về thông tin. Sự tăng trưởng nhanh chóng về kích thước của các kho dữ liệu đã vượt quá khả năng của con người nếu không có sự hỗ trợ của các công cụ khác. Kết quả là dữ liệu được lưu trữ trong các kho dữ liệu sẽ bị lãng quên. Do đó, những quyết định quan trọng thường được tạo ra mà không dựa trên thông tin được lưu trữ trong cơ sở dữ liệu, chỉ dự trên cảm tính chủ quan của Học viên thực hiện: Nguyễn Thị Thúy Hằng-CB140147-2014B-KTPM 11 người đưa ra quyết định. Đơn giản là do người đưa ra quyết định không có công cụ để chiết xuất những tri thức cần thiết từ thông tin có được. Ngoài ra, các hệ thống điều tra thường dựa vào tri thức đầu vào do người dùng tự nhập vào cơ sở dữ liệu. Điều này dễ gây ra lỗi do sự chủ quan của người dùng và gây mất thời gian, chi phí. Các công cụ khai phá dữ liệu thực hiện phân tích dữ liệu, có thể phát hiện ra một số mô hình dữ liệu quan trọng đóng góp to lớn vào các chiến lược kinh doanh, cơ sở tri thức và các lĩnh vực y học, nghiên cứu khoa học. Khoảng trống giữa thông tin và tri thức ngày càng lớn yêu cầu sự phát triển mang tính hệ thống của các công cụ khai phá dữ liệu có thể biến dữ liệu thành tri thức. 1.1.2. Định nghĩa Khai phá dữ liệu được định nghĩa là một quá trình chắt lọc hay khai phá tri thức từ một lượng lớn dữ liệu [1]. Thuật ngữ khai phá dữ liệu chỉ việc tìm kiếm một tập hợp nhỏ có giá trị từ một số lượng lớn các dữ liệu thô. Có nhiều thuật ngữ hiện tại được dùng cũng có nghĩa tương tự với Data Mining như Knowledge Mining, Knowledge Extraction, Data/Pattern Analysis đều được dùng để nhắc đến việc khai phá dữ liệu. Khai phá dữ liệu là một bước trong quy trình khai phá tri thức được mô tả dưới đây [1]: - Làm sạch dữ liệu: loại bỏ những dữ liệu nhiễu, thừa và không đồng nhất. - Kết hợp dữ liệu: nhiều nguồn dữ liệu có thể được kết hợp với nhau. - Chọn lọc dữ liệu: những dữ liệu liên quan đến các tác vụ phân tích được lấy ra từ cơ sở dữ liệu. - Chuyển đổi dữ liệu: dữ liệu có thể được chuyển đổi hay hợp nhất trong một dạng thích hợp cho việc khai phá dữ liệu dựa trên hoạt động tóm tắt hay kết hợp. - Khai phá dữ liệu: một quy trình cần thiết tại đó các phương thức khác nhau được áp dụng nhằm mục đích chiết xuất các mô hình dữ liệu. Học viên thực hiện: Nguyễn Thị Thúy Hằng-CB140147-2014B-KTPM 12 - Đánh giá mô hình: xác định mô hình có thực sự phù hợp biểu diễn tri thức dựa trên một vài chuẩn cho trước hay không. - Biểu diễn tri thức: các công nghệ trình bày giả lập và tri thức được sử dụng để biểu diễn tri thức đã khai phá được cho người dùng. 1.2. Quy trình khai phá dữ liệu Nhằm mục đích hệ thống hóa việc phân tích khai phá dữ liệu, một quy trình chung thường được sử dụng. Có một vài quy trình chuẩn được đưa ra, 2 trong số đó là CRISP và SEMMA. CRISP là một quy trình công nghiệp chuẩn bao gồm một chuỗi các bước được sử dụng trong việc nghiên cứu khai phá dữ liệu. SEMMA là một quy trình riêng cho SAS, trong đó mỗi bước của cách tiếp cận không bắt buộc trong mỗi lần phân tích, quy trình này cung cấp một tập các bước cần thiết, bắt đầu từ khai thác dữ liệu, sưu tập dữ liệu, xử lý dữ liệu, phân tích, rút ra suy luận và thực thi. CRISP-DM được sử dụng rộng rãi bởi các nhân tố công nghiệp. Mô hình này bao gồm 6 pha riêng biệt như hình vẽ dưới đây [1]. Học viên thực hiện: Nguyễn Thị Thúy Hằng-CB140147-2014B-KTPM 13 Tìm hiểu công việc Tìm hiểu dữ liệu Chuẩn bị dữ liệu Triển khai Nguồn dữ liệu Xây dựng mô hình Kiểm thử đánh giá và Hình 1: Quy trình khai phá dữ liệu CRISP-DM với 6 pha riêng biệt: tìm hiểu công việc, tìm hiểu dữ liệu, chuẩn bị dữ liệu, xây dựng mô hình, kiểm thử và đánh giá, triển khai được thực hiện lần lượt trên một nguồn dữ liệu có sẵn. - Pha đầu tiên - Tìm hiểu công việc (Business Understanding) [1] bao gồm xác định đối tượng của công việc, đánh giá tình hình hiện tại, đề xuất mục đích của khai phá dữ liệu và xây dựng kế hoạch dự án. - Pha thứ hai - Tìm hiểu dữ liệu (Data Understanding) [1]: khi các đối tượng của công việc và kế hoạch dự án được thiết lập, xem xét các yêu cầu dữ liệu. Pha này bao gồm: sưu tập dữ liệu ban đầu, mô tả dữ liệu, khai thác dữ liệu và đánh giá chất lượng dữ liệu. Khai phá dữ liệu được ví như việc xem xét bảng thống kê tóm tắt (trong đó bao gồm các biểu diễn ảo của các biến) có thể xảy ra vào cuối giai đoạn này. Mô hình phân tích cụm (Cluster analysis) cũng có thể được áp dụng trong giai đoạn này với mục đích xác định các mẫu trong dữ liệu. Học viên thực hiện: Nguyễn Thị Thúy Hằng-CB140147-2014B-KTPM 14 - Pha thứ ba – Chuẩn bị dữ liệu (Data Preparation) [1]: khi nguồn dữ liệu có sẵn được xác định, nó cần phải được chọn lựa, làm sạch, kết hợp vào những hình thức mong muốn và định dạng lại. Làm sạch dữ liệu và chuyển đổi dữ liệu trong việc chuẩn bị mô hình dữ liệu cần phải được thực hiện trong bước này. Khai phá dữ liệu sâu hơn có thể được áp dụng trong giai đoạn này, và những mô hình khác được sử dụng để cung cấp cơ hội tìm thấy các mẫu dữ liệu dựa trên sự hiểu biết về công việc. - Pha thứ tư – Xây dựng mô hình (Modeling) [1]: các công cụ phần mềm khai phá dữ liệu như giả lập (biểu diễn thông tin và thiết lập các mối quan hệ) và phân tích cụm (để xác định những biến nào có thể đi cùng nhau) rất hữu ích cho việc phân tích ban đầu. Những công cụ như Generalized rule induction có thể phát triển những luật kết hợp ban đầu. Sau khi có được sự hiểu biết về những dữ liệu lớn hơn (thường qua các mô hình nhận được từ việc quan sát các mô hình đầu ra), những mô hình chi tiết hơn thích hợp cho các kiểu dữ liệu sẽ được áp dụng. Việc phân chia dữ liệu thành các tập training và test cũng cần thiết cho việc mô hình hóa. - Pha thứ năm – Đánh giá (Evaluation) [1]: các kết quả mô hình sẽ được đánh giá bởi các mục tiêu công việc được đưa ra ở giai đoạn đầu tiên. Điều này sẽ dẫn đến việc xác định các yêu cầu khác (thường qua việc xác nhận mô hình), và quay trở lại giai đoạn trước của mô hình CRISP-DM. Tìm hiểu công việc là một công việc được lặp đi lặp lại trong khai phá dữ liệu, sao cho các kết quả trực quan, thống kê và công cụ trí tuệ nhân tạo khác nhau biểu diễn cho người dùng các mối quan hệ mới cung cấp một sự hiểu biết sâu hơn về tổ chức của các hoạt động. - Pha cuối cùng – Triển khai (Deployment) [1]: khai phá dữ liệu có thể được sử dụng cho cả việc xác minh giả thiết trước đó hay khám phá tri thức mới (xác định các mối quan hệ bất ngờ và hữu ích). Qua việc tri thức được khám phá trong các giai đoạn trước của quy trình CRISP-DM, các mô hình có thể thu được sau đó áp dụng trong các hoạt động với mục đích khác nhau, bao Học viên thực hiện: Nguyễn Thị Thúy Hằng-CB140147-2014B-KTPM 15 gồm dự đoán hay xác định các tình huống quan trọng. Những mô hình này cần phải được theo dõi thay đổi trong điều kiện hoạt động, do nó có thể là đúng trong hôm nay nhưng chưa đúng trong năm nay. Nếu một vài thay đổi xảy ra, mô hình cần được xây dựng lại. 1.3. Các kỹ thuật khai phá dữ liệu Có 3 kỹ thuật chính được sử dụng trong việc khai phá dữ liệu là: Mạng nơ ron nhân tạo ANN, cây quyết và giải thuật người hàng xóm gần nhất. Mỗi kỹ thuật thực hiện việc phân tích dữ liệu theo một cách khác nhau được mô tả như sau: 1.3.1. Mạng nơ ron nhân tạo Mạng nơ ron nhân tạo hay còn được gọi là mạng nơ ron là một mô hình toán học hay mô hình tính toán dựa trên mạng nơ ron sinh học, nói cách khác nó là một mô phỏng của hệ thống thần kinh [5]. Nó bao gồm một nhóm các nơ ron kết nối với nhau và thông tin về quy trình sử dụng cách tiếp cận kết nối để tính toán. Trong hầu hết các trường hợp, một mạng nơ ron là một hệ thống thích ứng với các thay đổi cấu trúc của nó dựa trên các thông tin bên trong hoặc bên ngoài chảy qua mạng trong suốt quá trình học tập. Trong nhiều thuật ngữ thực nghiệm các mạng nơ ron là các công cụ mô hình hóa dữ liệu thống kê phi tuyến tính. Nó có thể được sử dụng để mô hình hóa các mối quan hệ phức tạp giữa đầu vào và đầu ra hay để tìm các mẫu trong dữ liệu. Một mạng nơ ron là một nhóm kết nối bởi các nút, mô phỏng mạng nơ ron trong não bộ con người. Hình 2: Mạng nơ ron nhân tạo. Trong đó (A) là mô phỏng một nơ ron của con người, (B) là mô hình một nơ ron nhân tạo, (C) mô phỏng các kết nối sinh học Học viên thực hiện: Nguyễn Thị Thúy Hằng-CB140147-2014B-KTPM 16 giữa các nơ ron trong não bộ con người, (D) thể hiện các kết nối trong mạng nơ ron nhân tạo. Việc huấn luyện trong mạng nơ ron nhân tạo: một mạng nơ ron phải được cấu hình sao cho việc áp dụng một bộ đầu vào sẽ tạo ra một bộ đầu ra theo đúng mong muốn. Các phương pháp khác nhau được sử dụng để xác định độ mạnh của các kết nối tồn tại. Một cách là đặt trọng số một cách rõ ràng, sử dụng các kiến thức tiên nghiệm. Một cách khác là đào tạo mạng nơ ron bằng cách cho nó các mô hình giảng dạy và để cho nó thay đổi trọng số theo các quy định huấn luyện. Chúng ta có thể phân loại các tình huống học tập như sau: - Học có giám sát: hay học có liên kết trong đó mạng nơ ron được huấn luyện bằng cách cung cấp cho nó các đầu vào và các mẫu đầu ra phù hợp. Những cặp đầu vào – đầu ra này có thể được cung cấp bởi một giáo viên bên ngoài hoặc bởi một hệ thống mà chứa các mạng thần kinh (tự giám sát). Hình 3: Kỹ thuật học có giám sát trong mạng nơ ron nhân tạo. Trong đó các mẫu đầu vào và đầu ra đã được cung cấp bởi một giáo viên hay một hệ thống. - Học không giám sát: hay tự tổ chức trong đó một đơn vị đầu ra được đào tạo để đáp ứng các nhóm mẫu của đầu vào. Trong mô hình này, hệ thống được dùng để khám phá các đặc điểm nổi bật về mặt thống kê của đầu vào. Không giống như mô hình học tập có giám sát, không có một tập hợp tiên đề các loại mà trong đó các mô hình được phân loại, thay vào đó hệ thống phải phát triển các đại diện của nó đáp ứng các đầu vào. Học viên thực hiện: Nguyễn Thị Thúy Hằng-CB140147-2014B-KTPM 17 Hình 4: Kỹ thuật học không giám sát trong mạng nơ ron nhân tạo. Trong đó hệ thống sẽ dựa vào thông tin từ môi trường mà đưa ra các đầu ra phù hợp. - Học tăng cường: loại học này có thể được xem như một mô hình trung gian giữa 2 loại trên. Ở đó các máy học thực hiện một vài hành động trên môi trường và nhận được các phản hồi từ môi trường. Hệ thống học tập đánh giá hoạt động tốt (khen thưởng) hoặc xấu (phê phán) dựa trên các đáp ứng của môi trường và điều chỉnh các thông số của nó. Hình 5: Kỹ thuật học tăng cường trong mạng nơ ron nhân tạo. Là mô hình trung gian giữa học có giám sát và học không giám sát. Mô hình mạng nơ-ron đơn giản: một trong những mô hình mạng nơ-ron đơn giản nhất được mô tả trong hình gồm 3 tầng: tầng đầu vào, tầng ẩn và tầng đầu ra. Trong mỗi tầng có 1 hay nhiều yếu tố xử lý (PE). PE có nghĩa là để mô phỏng các tế bào nơ-ron trong não và đây là lý do tại sao nó thường được gọi là các nơ-ron hay các nút. Học viên thực hiện: Nguyễn Thị Thúy Hằng-CB140147-2014B-KTPM 18 Hình 6: Mô hình mạng nơ ron đơn giản gồm 3 tầng là tầng đầu vào, tầng ẩn để xử lý và tầng đầu ra. Trong tầng ẩn có nhiều yếu tố xử lý hay các nơ ron để thực hiện nhiệm vụ. Một PE nhận các đầu vào từ thế giới bên ngoài. Quy trình xử lý của mạng nơron như sau: - Dữ liệu đầu vào được trình bày cho mạng và được truyền qua mạng cho đến khi nó đến tầng đầu ra. Quá trình chuyển tiếp này tạo ra một đầu ra dự đoán. - Đầu ra dự đoán này được loại ra khỏi đầu ra thực tế và một giá trị lỗi cho mạng được tính toán. - Mạng nơ-ron sau đó sử dụng phương pháp học có giám sát, trong nhiều trường hợp là sự truyền lại, để đào tạo cho mạng. Truyền lại là một thuật toán học tập dành cho việc điều chỉnh trọng số. Nó bắt đầu bằng trọng số giữa tầng PE đầu ra và tầng PE ẩn cuối cùng và hoạt động ngược trở lại thông qua mạng. - Khi quá trình truyền trở lại hoàn thành, quá trình chuyển tiếp bắt đầu và điều này được lặp lại cho đến khi lỗi giữa đầu ra dự đoán và thực tế là nhỏ nhất. 1.3.2. Cây quyết định Cây quyết định [6] xây dựng các mô hình phân loại hoặc hồi quy dưới hình thức cấu trúc cây. Nó chia nhỏ tập dữ liệu thành các tập con nhỏ hơn trong khi tại cùng thời điểm một cây kết hợp cũng được phát triển. Kết quả cuối cùng là một cây với các nút quyết định và các nút lá. Nút quyết định có 2 hoặc nhiều nhánh. Nút lá đại diện cho một phân lớp hay một quyết định. Nút quyết định trên cùng của một ây tương ứng với Học viên thực hiện: Nguyễn Thị Thúy Hằng-CB140147-2014B-KTPM 19 dự đoán tốt nhất được gọi là nút gốc. Các cây quyết định có thể xử lý cả dữ liệu phân loại và dữ liệu số. Giải thuật để xây dựng một cây quyết định được gọi là ID3 được tạo bởi J.R. Quinlan. Giải thuật này thực hiện việc tìm kiếm vét cạn từ trên xuống qua các nhánh có thể. ID3 sử dụng một Entropy và một Information Gain để xây dựng một cây quyết định. - Entropy: một cây quyết định được xây dựng từ trên xuống từ một nút gốc và liên quan đến việc phân chia dữ liệu thành các tập con chứa các thể hiện với các giá trị tương tự. Giải thuật ID3 sử dụng entropy để tính toán tính đồng nhất của một mẫu. Nếu mẫu là hoàn toàn đồng nhất thì entropy của nó bằng 0 và nếu mẫu được chia đều thì nó có entropy bằng 1. Hình 7: Entropy. Entropy thể hiện tính đồng nhất của một mẫu. Nếu mẫu hoàn toàn đồng nhất thì entropy của nó nhỏ nhất bằng 0. Nếu mẫu được chia đều thì entropy của nó đạt giá trị lớn nhất bằng 1. Để xây dựng một cây quyết định, chúng ta cần tính toán 2 loại entropy sử dụng các bảng tần suất như sau:  Entropy sử dụng bảng tần suất của một thuộc tính: E(S) = ∑𝑐𝑖=1 - pilog2pi Học viên thực hiện: Nguyễn Thị Thúy Hằng-CB140147-2014B-KTPM 20

- Xem thêm -

Tài liệu Khai thác dữ liệu văn bản trên thiết bị di động sử dụng các dịch vụ đám

Tài liệu liên quan

Tài liệu vừa đăng

Tài liệu xem nhiều nhất