Đăng ký Đăng nhập
Trang chủ Nghiên cứu một số kỹ thuật khai phá dữ liệu web và ứng dụng vào website giới thi...

Tài liệu Nghiên cứu một số kỹ thuật khai phá dữ liệu web và ứng dụng vào website giới thiệu việc làm cho sinh viên

.PDF
73
3
83

Mô tả:

i .. ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG ĐÀO HUY HIỆU NGHIÊN CỨU MỘT SỐ KỸ THUẬT KHAI PHÁ DỮ LIỆU WEB VÀ ỨNG DỤNG VÀO WEBSITE GIỚI THIỆU VIỆC LÀM CHO SINH VIÊN LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Th¸i Nguyªn - 2012 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn ii ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG ĐÀO HUY HIỆU NGHIÊN CỨU MỘT SỐ KỸ THUẬT KHAI PHÁ DỮ LIỆU WEB VÀ ỨNG DỤNG VÀO WEBSITE GIỚI THIỆU VIỆC LÀM CHO SINH VIÊN Chuyên ngành: Khoa học máy tính Mã số: 60 48 01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Người hướng dẫn khoa học: TS. Phạm Việt Bình Th¸i Nguyªn - 2012 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn iii LUẬN VĂN THẠC SỸ Tên đề tài: Nghiên cứu một số kỹ thuật khai phá dữ liệu web và ứng dụng vào website giới thiệu việc làm cho sinh viên Giáo viên hướng dẫn: TS. Phạm Việt Bình Học viên thực hiện: Đào Huy Hiệu Cơ sở đào tạo: Đại học CNTT&TT Chuyên ngành: Khoa học máy tính Mã số: 60 48 01 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn i MỤC LỤC MỤC LỤC ..................................................................................................................... i DANH MỤC HÌNH .................................................................................................... iii MỞ ĐẦU .......................................................................................................................1 CHƢƠNG 1: KHÁI QUÁT VỀ KHAI PHÁ DỮ LIỆU ...........................................4 1.1 Giới thiệu chung .....................................................................................................4 1.2 Khai phá dữ liệu là gì ? ..........................................................................................5 1.3 Quá trình khám phá tri thức trong CSDL ..........................................................6 1.4 Các kỹ thuật áp dụng trong Data Mining ............................................................8 1.4.1 Các kỹ thuật tiếp cận trong Data Mining ........................................................ 8 1.4.2 Các dạng dữ liệu có thể khai phá ...................................................................... 9 1.5 Ứng dụng của Data Mining .................................................................................10 1.6 Phân cụm dữ liệu và ứng dụng ...........................................................................11 1.7 Khai phá dữ liệu web ...........................................................................................12 CHƢƠNG 2: MỘT SỐ KỸ THUẬT KHAI PHÁ DỮ LIỆU WEB.......................18 2.1. Khai phá nội dung Web ......................................................................................18 2.1.1. Khai phá kết quả tìm kiếm ............................................................................. 19 2.1.2. Khai phá văn bản Web ................................................................................... 20 2.2. Khai phá theo sử dụng Web ...............................................................................23 2.2.1. Ứng dụng của khai phá theo sử dụng Web ................................................... 24 2.2.2. Các kỹ thuật đƣợc sử dụng trong khai phá dữ liệu Web ............................ 24 2.2.3. Những vấn đề trong khai phá theo sử dụng Web ........................................ 25 2.2.4. Quá trình khai phá theo sử dụng Web .......................................................... 27 2.3. Khai phá cấu trúc Web .......................................................................................32 2.3.1. Tiêu chuẩn đánh giá độ tƣơng tự................................................................... 33 2.3.2. Khai phá và quản lý cộng đồng Web............................................................. 34 CHƢƠNG 3: CHƢƠNG TRÌNH THỬ NGHIỆM..................................................47 3.1. Quy trình hoạt động của Hệ thống cung cấp dữ liệu việc làm........................47 3.1.1 Lựa chọn các Url và lọc cấu trúc HTML ....................................................... 50 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn ii 3.1.2. Khai phá cấu trúc HTML............................................................................... 50 3.1.3. Thu thập dữ liệu về kho cơ sở dữ liệu ........................................................... 52 3.1.4. Hiển thị dữ liệu ................................................................................................ 53 3.2. Một số giao diện chính của hệ thống ................................................................54 3.2.1. Quản trị hệ thống ........................................................................................... 54 3.2.2. Hệ thống thu thập thông tin tự động trên Internet...................................... 60 KẾT LUẬN .................................................................................................................62 TÀI LIỆU THAM KHẢO .........................................................................................65 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn iii DANH MỤC HÌNH Hình 1.1 ................................................................................................................... 7 Hình 1.2 ................................................................................................................... 8 Hình 1.3 .................................................................................................................. 17 Hình 2.1 .................................................................................................................. 18 Hình 2.2 .................................................................................................................. 26 Hình 2.3 .................................................................................................................. 31 Hình 2.4 .................................................................................................................. 31 Hình 2.5 .................................................................................................................. 33 Hình 2.6 .................................................................................................................. 34 Hình 2.7 .................................................................................................................. 34 Hình 2.8 ................................................................................................................. 34 Hình 2.9 .................................................................................................................. 35 Hình 2.10 ................................................................................................................ 36 Hình 2.11 ................................................................................................................ 37 Hình 2.12 ................................................................................................................ 38 Hình 2.13 ................................................................................................................ 39 Hình 2.14 ................................................................................................................ 40 Hình 2.15 ................................................................................................................ 40 Hình 3.1 .................................................................................................................. 47 Hình 3.2 .................................................................................................................. 49 Hình 3.3 .................................................................................................................. 50 Hình 3.4 .................................................................................................................. 52 Hình 3.5 .................................................................................................................. 53 Hình 3.6 .................................................................................................................. 54 Hình 3.7 .................................................................................................................. 55 Hình 3.8 .................................................................................................................. 56 Hình 3.9 .................................................................................................................. 56 Hình 3.10 ................................................................................................................ 57 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn iv Hình 3.11 ................................................................................................................ 57 Hình 3.12 ................................................................................................................ 58 Hình 3.13 ................................................................................................................ 58 Hình 3.14 ................................................................................................................ 59 Hình 3.15 ................................................................................................................ 59 Hình 3.16 ................................................................................................................ 60 Hình 3.17 ............................................................................................................... 61 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 1 MỞ ĐẦU Từ vài thập niên trở lại đây, với những tác động mạnh mẽ của các tiến bộ trong công nghệ phần cứng và truyền thông, các hệ thống dữ liệu phục vụ cho các lĩnh vực kinh tế - xã hội đã phát triển bùng nổ, lượng dữ liệu được tạo ra ngày càng lớn. Sự phong phú về dữ liệu, thông tin cùng với khả năng kịp thời khai thác chúng đã mang đến những năng suất và chất lượng mới cho công tác quản lý, hoạt động kinh doanh, … Nhưng rồi các yêu cầu về thông tin trong các lĩnh vực hoạt động đó, đặc biệt trong lĩnh vực ra quyết định, ngày càng đòi hỏi cao hơn, người quyết định không những cần dữ liệu mà còn cần có thêm nhiều hiểu biết, nhiều tri thức để hỗ trợ cho việc ra quyết định của mình. Cho đến những năm 90 của thế kỷ trước, nhu cầu khám phá tri thức mới thực sự bùng nổ, theo đó, hàng loạt các lĩnh vực nghiên cứu về tổ chức các kho dữ liệu và kho thông tin, các hệ trợ giúp quyết định, các thuật toán nhận dạng mẫu và phân lớp mẫu … và đặc biệt là khai phá dữ liệu ra đời. Từ khi ra đời, khai phá dữ liệu đã trở thành một trong những hướng nghiên cứu phổ biến trong lĩnh vực khoa học máy tính và công nghệ tri thức. Nhiều kết quả nghiên cứu, ứng dụng của khai phá dữ liệu trong các lĩnh vực khoa học, kinh tế, xã hội. Khai phá dữ liệu bao hàm nhiều hướng nghiên cứu quan trọng, một trong số đó là kỹ thuật khai phá dữ liệu web. Khai phá dữ liệu web là quá trình tìm kiếm và phát hiện ra các cụm hoặc các mẫu dữ liệu tự nhiên trong cơ sở dữ liệu lớn. Các kỹ thuật chính được áp dụng trong khai phá dữ liệu web phần lớn được kế thừa từ lĩnh vực thống kê, học máy, nhận dạng, lượng hoá, .. Đến nay, đã có nhiều ứng dụng khai phá dữ liệu web cho việc giải quyết các vấn đề trong các lĩnh vực như tài chính, thông tin địa lý, sinh học, nhận dạng ảnh, … Trong thời gian gần đây, trong lĩnh vực Khai phá dữ Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 2 liệu, người ta tập trung chủ yếu vào nghiên cứu, phân tích các mô hình dữ liệu phức tạp như dữ liệu văn bản, Web, hình ảnh, ... và đặc biệt là mô hình dữ liệu hỗn hợp để áp dụng chúng trong Khai phá dữ liệu. Ở Việt Nam, trong những năm trở lại đây, nhu cầu về tự động khám phá tri thức từ các dữ liệu sẵn có nhằm tăng năng lực cạnh tranh của các ngành kinh tế đang phát triển nhanh. Vì vậy, tôi chọn hướng nghiên cứu về các kỹ thuật khai phá dữ liệu web làm đề tài nghiên cứu cho luận văn của mình. Luận văn trình bày một khảo cứu hệ thống về các họ thuật toán Khai phá dữ liệu, bao gồm các cách tiếp cận và đặc điểm ứng dụng. Trên cơ sở đó tôi đi sâu vào tìm hiểu, phân tích, đánh giá họ các thuật toán khai phá dữ liệu. Tiếp đến, tôi lựa chọn và đi sâu vào phân tích, thiết kế và xây dựng ứng dụng cho bài toán xây dựng website giới thiệu việc làm cho sinh viên, đây là một bài toán Khai phá dữ liệu áp dụng cho dữ liệu có thuộc tính hỗn hợp giữa kiểu số và hạng mục và đưa ra mô hình xử lý song song cho bài toán xây dựng website giới thiệu việc làm cho sinh viên này. Ngoài phần mở đầu và kết luận, cấu trúc nội dung của luận văn bao gồm có 3 chương: Chương 1 Tập trung trình bày khái quát về lĩnh vực khai phá dữ liệu và một số khái niệm liên quan, đồng thời chỉ ra các giai đoạn thực hiện trong quá trình khám phá tri thức. Phần tiếp theo của chương là trình bày ngắn gọn, có hệ thống về các kỹ thuật, các dạng dữ liệu thường được sử dụng trong khai phá dữ liệu. Chương 2 Hệ thống hóa các kỹ thuật khai phá dữ liệu web, khai phá theo nội dung web, khai phá theo sử dụng web, khai phá theo cấu trúc web. Qua đó, đi sâu phân tích chi tiết các kỹ thuật, giải pháp trong Khai phá dữ liệu Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 3 web và ý nghĩa của Khai phá dữ liệu web, các kỹ thuật được sử dụng trong quá trình khai phá dữ liệu web, quy trình khai phá dữ liệu web theo thuật toán Crawler, Hits, ... Phần cuối của chương trình bày vắn tắt, tổng kết về các đặc trưng của các phương pháp khai phá dữ liệu web đồng thời nêu các kỹ thuật đánh giá kết quả khai phá dữ liệu web. Chương 3 Giới thiệu chương trình giới thiệu việc làm, quy trình hoạt động của hệ thống cung cấp dữ liệu việc làm, thu thập dữ liệu về kho cơ sở dữ liệu và các hình ảnh chức năng của chương trình thu thập giới thiệu thông tin việc làm. Phần kết luận, phần này trình bày tóm tắt về các nội dung thực hiện trong luận văn này, đồng thời đưa ra những vấn đề dự định sẽ nghiên cứu tiếp theo cho tương lai. Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 4 CHƢƠNG 1: KHÁI QUÁT VỀ KHAI PHÁ DỮ LIỆU 1.1 Giới thiệu chung Những năm 60 của thế kỷ trước, người ta đã bắt đầu sử dụng các công cụ tin học để tổ chức và khai thác các CSDL. Cùng với sự phát triển vượt bậc của các công nghệ điện tử và truyền thông, khả năng thu thập và lưu trữ và xử lý dữ liệu cho các hệ thống tin học không ngừng được nâng cao, theo đó, lượng thông tin được lưu trữ trên các thiết bị như đĩa từ, băng từ, đĩa CDROM, ….không ngừng tăng lên. Theo thống kê sơ bộ cho thấy, lượng thông tin trên các hệ thống tin học cứ sau 20 tháng lại tăng gấp đôi. Cuối thập kỷ 80 của thế kỷ 20, sự phát triển rộng khắp của các CSDL ở mọi quy mô đã tạo ra sự bùng nổ thông tin trên toàn cầu, vào thời gian này, người ta bắt đầu đề cập đến khái niệm khủng hoảng phân tích dữ liệu tác nghiệp liệu để cung cấp thông tin với yêu cầu chất lượng ngày càng cao cho người làm quyết định trong các tổ chức tài chính, thương mại, khoa học,… Đúng như John Naisbett đã cảnh báo “Chúng ta đang chìm ngập trong dữ liệu mà vẫn đói tri thức”. Lượng dữ liệu khổng lồ này thực sự là một nguồn “tài nguyên” có nhiều giá trị bởi thông tin là yếu tố then chốt trong mọi hoạt động quản lý, kinh doanh, phát triển sản xuất và dịch vụ, … nó giúp những người điều hành và quản lý có hiểu biết về môi trường và tiến trình hoạt động của tổ chức mình trước khi ra quyết định để tác động đến quá trình hoạt động nhằm đạt được các mục tiêu một cách hiệu quả và bền vững. Khai phá dữ liệu là một lĩnh vực mới xuất hiện, nhằm tự động khai thác những thông tin, những tri thức có tính tiềm ẩn, hữu ích từ những CSDL lớn cho các đơn vị, tổ chức, doanh nghiệp, … từ đó làm thúc đẩy khả năng sản xuất, kinh doanh, cạnh tranh cho các đơn vị, tổ chức này. Các kết quả khoa học cùng những ứng dụng thành công trong khám phá tri thức, cho thấy khai Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 5 phá dữ liệu là một lĩnh vực phát triển bền vững, mang lại nhiều lợi ích và có nhiều triển vọng, đồng thời có ưu thế hơn hẳn so với các công cụ phân tích dữ liệu truyền thống. Hiện nay, khai phá dữ liệu đã ứng dụng ngày càng rộng rãi trong các lĩnh vực như : Thương mại, tài chính, điều trị y học, viễn thông, tin – sinh,… 1.2 Khai phá dữ liệu là gì ? Khai phá dữ liệu là một hướng nghiên mới ra đời hơn một thập niên trở lại đây, các kỹ thuật chính được áp dụng trong lĩnh vực này phần lớn được thừa kế từ lĩnh vực CSDL, học máy, trí tuệ nhân tạo, lý thuyết thông tin, xác suất thống kê, và tính toán hiệu năng cao. Do sự phát triển nhanh của khai phá dữ liệu về phạm vi áp dụng và các phương pháp tìm kiếm tri thức, nên đã có nhiều quan điểm khác nhau về khai phá dữ liệu. Tuy nhiên, ở một mức trừu tượng nhất định, chúng ta định nghĩa Khai phá dữ liệu như sau: Định nghĩa : Khai phá dữ liệu là một quá trình tìm kiếm, phát hiện các tri thức mới, tiềm ẩn, hữu dụng trong CSDL lớn. Là một quá trình trích xuất thông tin có mối quan hệ hoặc có mối tương quan nhất định từ một kho dữ liệu lớn (cực lớn) nhằm mục đích dự đoán các xu thế, các hành vi trong tương lai, hoặc tìm kiếm những tập thông tin hữu ích mà bình thường không thể nhận diện được. Khám phá tri thức trong CSDL (Knowledge Discovery in Databases KDD) là mục tiêu chính của khai phá dữ liệu, do vậy hai khái niệm khai phá dữ liệu và KDD được các nhà khoa học trên hai lĩnh vực xem là tương đương với nhau. Thế nhưng, nếu phân chia một cách chi tiết thì khai phá dữ liệu là một bước chính trong quá trình KDD. Các thành phần cơ bản của Khai phá dữ liệu. Công nghệ khai phá dữ liệu là kết quả của quá trình lâu dài nghiên cứu và phát triển sản phẩm. Quá trình này bắt đầu từ khi những dữ liệu đầu tiên Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 6 lưu vào máy tính, tiếp đến là quá trình cải tiến, nâng câp cách thức truy xuất dữ liệu và dần dần cho phép người dùng có thể duyệt dữ liệu theo thời gian thực. Kết quả của quá trình này cho phép truy xuất các nguồn dữ liệu quá khứ, tính toán và định vị lại việc truyền tải, cung cấp thông tin cho hiện tại, tương lai hay đưa ra các dự đoán tình huống có thể sắp diễn ra. Có ba kỹ thuật cơ bản nhưng rất tổng quát và đầy đủ trong công nghệ data mining: Thu thập dữ liệu lớn. (Massive data collective).Nền tảng sức mạnh tính toán. Đây chính là hạ tầng bao gồm cả phần cứng và phần mềm lõi. (Powerful computing) 1.3 Quá trình khám phá tri thức trong CSDL Khám phá tri thức trong CSDL, KDD, là lĩnh vực liên quan đến các ngành như : thống kê, học máy, CSDL, thuật toán, trực quan hóa dữ liệu, tính toán song song và hiệu năng cao,… Quá trình KDD có thể phân thành các giai đoạn sau:  Trích chọn dữ liệu: là bước trích chọn những tập dữ liệu cần được khai phá từ các tập dữ liệu lớn (databases, data warehouses, data repositories) ban đầu theo một số tiêu chí nhất định.  Tiền xử lý dữ liệu: là bước làm sạch dữ liệu (xử lý với dữ liệu không đầy đủ, dữ liệu nhiễu, dữ liệu không nhất quán, .v.v.), rút gọn dữ liệu (sử dụng hàm nhóm và tính tổng, các phương pháp nén dữ liệu, sử dụng histograms, lấy mẫu, .v.v.), rời rạc hóa dữ liệu (rời rạc hóa dựa vào histograms, dựa vào entropy, dựa vào phân khoảng, .v.v.). Sau bước này, dữ liệu sẽ nhất quán, đầy đủ, được rút gọn, và được rời rạc hóa.  Biến đổi dữ liệu: đây là bước chuẩn hóa và làm mịn dữ liệu để đưa dữ liệu về dạng thuận lợi nhất nhằm phục vụ cho các kỹ thuật khai phá ở bước sau. Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 7  Khai phá dữ liệu: đây là bước áp dụng những kỹ thuật phân tích (phần nhiều là các kỹ thuật của học máy) nhằm để khai thác dữ liệu, trích chọn được những mẫu thông tin, những mối liên hệ đặc biệt trong dữ liệu. Đây được xem là bước quan trọng và tốn nhiều thời gian nhất của toàn quá trình KDD.  Đánh giá và biểu diễn tri thức: những mẫu thông tin và mối liên hệ trong dữ liệu đã được khám phá ở bước trên được chuyển dạng và biểu diễn ở một dạng gần gũi với người sử dụng như đồ thị, cây, bảng biểu, luật, .v.v. Đồng thời bước này cũng đánh giá những tri thức khám phá được theo những tiêu chí nhất định. Các giai đoạn trong KDD đƣợc thể hiện trực quan nhƣ hình dƣới đây : Tri thức Dữ liệu thô Biểu diễn tri Trích chọn dữ liệu Đánh giá và giải thích Các mẫu Dữ liệu Tiền xử lý dữ liệu Dữ liệu Tiền xử lý Data Mining Biến đổi dữ liệu Hình 1.1 Các bước thực hiện trong quá trình khám phá tri thức Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 8 1.4 Các kỹ thuật áp dụng trong khai phá dữ liệu 1.4.1 Các kỹ thuật tiếp cận trong khai phá dữ liệu Khám phá tri thức trong CSDL là một lĩnh vực liên ngành, bao gồm : Tổ chức dữ liệu, học máy, trí tuệ nhân tạo và các khoa học khác, sự kết hợp này có thể được diễn tả như trong hình 2 dưới đây : Các lĩnh vực khoa học khác Học máy và trí tuệ nhân tạo Tổ chức dữ liệu Hình 1.2 Các lĩnh vực liên quan đến Khám phá tri thức trong CSDL Nếu đứng trên quan điểm của học máy (Machine Learning), thì các kỹ thuật trong khai phá dữ liệu, bao gồm :  Học có giám sát (Supervised learning) : Là quá trình gán nhãn lớp cho các phần tử trong CSDL dựa trên một tập các ví dụ huấn luyện và các thông tin về nhãn lớp đã biết.  Học không có giám sát (Unsupervised learning) : Là quá trình phân chia một tập dữ liệu thành các lớp hay là cụm (clustering) dữ liệu tương tự nhau mà chưa biết trước các thông tin về lớp hay tập các ví dụ huấn luyện.  Học nửa giám sát (Semi - Supervised learning) : Là quá trình phân chia một tập dữ liệu thành các lớp dựa trên một tập nhỏ các ví dụ huấn luyện và một số các thông tin về một số nhãn lớp đã biết trước. Nếu căn cứ vào lớp các bài toán cần giải quyết, thì khai phá dữ liệu bao gồm các kỹ thuật áp dụng sau: Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 9  Phân lớp và dự đoán (classification and prediction): xếp một đối tượng vào một trong những lớp đã biết trước. Ví dụ: phân lớp các bệnh nhân dữ liệu trong hồ sơ bệnh án. Hướng tiếp cận này thường sử dụng một số kỹ thuật của học máy như cây quyết định (decision tree), mạng nơ ron nhân tạo (neural network), .v.v. Phân lớp và dự đoán còn được gọi là học có giám sát.  Luật kết hợp (association rules): là dạng luật biểu diễn tri thứ ở dạng khá đơn giản. Ví dụ: “60 % nữ giới vào siêu thị nếu phấn thì có tới 80% trong số họ sẽ mua thêm son”. Luật kết hợp được ứng dụng nhiều trong lĩnh vực kinh doanh, y học, tin-sinh, tài chính và thị trường chứng khoán, .v.v.  Phân tích chuỗi theo thời gian (sequential/ temporal patterns): tương tự như khai phá luật kết hợp nhưng có thêm tính thứ tự và tính thời gian. Hướng tiếp cận này được ứng dụng nhiều trong lĩnh vực tài chính và thị trường chứng khoán vì nó có tính dự báo cao.  Phân cụm (clustering/ segmentation): xếp các đối tượng theo từng cụm dữ liệu tự nhiên. Phân cụm còn được gọi là học không có giám sát (unsupervised learning).  Mô tả khái niệm (concept description and summarization): thiên về mô tả, tổng hợp và tóm tắt khái niệm. Ví dụ: tóm tắt văn bản. 1.4.2 Các dạng dữ liệu có thể khai phá Do khai phá dữ liệu được ứng dụng rộng rãi nên nó có thể làm việc với rất nhiều kiểu dữ liệu khác nhau . Sau đây là một số dạng dữ liệu điển hình: CSDL quan hệ, CSDL đa chiều (multidimensional structures, data warehouses), CSDL dạng giao dịch, CSDL quan hệ - hướng đối tượng, dữ liệu không gian và thời gian, Dữ liệu chuỗi thời gian, CSDL đa phương tiện, dữ liệu Text và Web,… Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 10 1.5 Ứng dụng của khai phá dữ liệu Phạm vi ứng dụng của data mining rất rộng, bao phủ hầu hết các lĩnh vực. Tuy vậy có thể tóm lược lại phạm vi ứng dụng của data ming trong các bài toán yêu cầu có cần có các chức năng nghiệp vụ sau: Tự động hóa việc dự doán các xu thế và hành vi sẽ diễn ra trong tương lai: Khai phá dữ liệu tự động hóa quá trình tìm kiếm và trích xuất các tập thông tin có mối quan hệ hoặc tương quan trong một tập dữ liệu cực lớn. Những vấn đề trên câu hỏi đặt ra với các cách truyền thống đòi hỏi một quá trình rất phức tạp và tốn kém cả về tài chính và thời gian để giải đáp thì giờ có thể trả lời một cách nhanh chóng trong khi giá thành là thấp nhất. Một ví dụ đơn giản trong quảng cáo online là quá trình targeting, khi một người dùng click vào một banner quảng cáo bán giầy dành cho nữ giới, thì khả năng người đó là nữ và họ đang quan tâm đến đôi giầy đó, khi hệ thống nhận diện được điều này thì có thể target thêm các kiểu dáng giầy khác nhau, kích cỡ khác nhau, giá thành khác nhau với mục tiêu là người dùng sẽ kết thúc quá trình là mua một đôi giày, ngoài ra bởi vì hệ thống nhận diện người dùng là phụ nữ nên nó có thể quảng cáo thêm các sản phẩm khác như mỹ phẩm, quần áo v.v.. Tự động hóa việc khám phá nhận diện ra những tập thông tin quá khứ mà hệ thống không hoặc chưa biết. Công cụ khai phá dữ liệu trong quá trình phân tích dữ liệu sẽ nhận diện ra nhưng tập thông tin dữ liệu không có hoặc bị ẩn bởi những mối liên hệ mà được xác định trước. Ví dụ như trong việc bán hàng, có những sản phẩm không có mối liên hệ gì với nhau, nhưng lại hay bán được cùng nhau, từ đó đưa ra cơ chế recommendation. Hay cơ chế nhận diện giao dịch gian lận trong thanh toán điện tử dựa vào việc phân tích các giao dịch bất thường… Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 11 Ngày nay, các công nghệ data mining được ứng dụng rộng rãi trong các công ty lấy khách hàng làm trung tâm như truyền thông, tài chính, marketing, bán hàng, các nghành công nghiệp sản xuất v.v… Nó cho phép các công ty xác định được các mối quan hệ giữa các yếu tố nội tại như giá thành, mẫu mã, cách thức quảng cáo, thậm chí là kỹ năng của nhân viên công ty… các yếu tố bên ngoài như đối thủ cạnh tranh, chính sách kinh tế hay nhu cầu thị trường v.v.. Và nó còn hỗ trợ việc xác định được sự tác động của các chính sách khuyến mại, giảm giá, độ hài lòng của khách hàng và lợi nhuận của doanh nghiệp… 1.6 Phân cụm dữ liệu và ứng dụng Phân cụm dữ liệu nhằm mục đích chính là khám phá cấu trúc của mẫu dữ liệu để thành lập các nhóm dữ liệu từ tập dữ liệu lớn, theo đó, cho phép người ta đi sâu vào phân tích và nghiên cứu cho từng cụm dữ liệu này nhằm khám phá và tìm kiếm các thông tin tiềm ẩn, hữu ích phục vụ cho ra quyết định. Một vài ví dụ về ý nghĩa thực tiễn của phân cụm dữ liệu như sau : "Khám phá ra các vị trí địa lý thuận lợi cho việc xây dựng các kho hàng phục vụ mua bàn hàng của một công ty thương mại" hoặc "Xác định các cụm ảnh như ảnh của các loài động vật như loài thú, chim, … trong tập CSDL ảnh về động vật nhằm phục vụ cho việc tìm kiếm ảnh" hoặc “xác định các nhóm người bệnh nhằm cung cấp thông tin cho việc phân phối các thuốc điều trị trong y tế ”, hoặc “nhóm các khách hàng trong CSDL ngân hàng có vốn các đầu tư vào bất động sản cao”… Như vậy, PCDL là một phương pháp xử lý thông tin quan trọng và phổ biến, nó nhằm khám phá mỗi liên hệ giữa các mẫu dữ liệu bằng cách tổ chức chúng thành các cụm tương tự. Hiện nay, các kỹ thuật phân cụm đã được ứng dụng rộng rãi trong các ứng dụng như : nhận dạng mẫu, xử lý ảnh, nghiên cứu thị trường, trực quan hoá, ….Trong nội dung tiếp theo, luận văn sẽ đề cập đến vấn đề PCDL, đây là một hướng nghiên cứu Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 12 quan trọng trong lĩnh vực khai phá dữ liệu và là nội dung tìm hiểu, nghiên cứu trọng tâm của luận văn. 1.7 Khai phá dữ liệu web Khai phá dữ liệu web là việc sử dụng các phương pháp khai phá dữ liệu để tự động hóa quá trình khám phá và trích rút những thông tin hữu ích từ các tài liệu, các dịch vụ và cấu trúc web. Hay nói cách khác khai phá dữ liệu web là việc trích chọn ra các thành phần được quan tâm hay được đánh giá là có ích cùng các thông tin tiềm năng từ các tài nguyên hoặc các hoạt động liên quan tới World Wide Web, nó có thể giúp con người rút ra những tri thức mới, cải tiến việc thiết kế các website và phát triển thương mại điện tử tốt hơn. a. Nhu cầu Sự phát triển nhanh chóng của mạng Internet và Intranet đã sinh ra một khối lượng khổng lồ các dữ liệu dạng siêu văn bản (dữ liệu Web). Cùng với sự thay đổi và phát triển hàng ngày hàng giờ về nội dung cũng như số lượng của các trang Web trên Internet thì vấn đề tìm kiếm thông tin đối với người sử dụng lại ngày càng khó khăn. Có thể nói nhu cầu tìm kiếm thông tin trên môt CSDL phi cấu trúc đã được phát triển chủ yếu cùng với sự phát triển của Internet. Thực vậy với Internet con người đã làm quen với các trang Web cùng với vô vàn các thông tin. Trong những năm gần đây Intrnet đã trở thành một trong những kênh về khoa học, thông tin kinh tế, thương mại và quảng cáo. Một trong những lý do cho sự phát triển này là sự thấp về giá cả tiêu tốn khi công khai một trang Web trên Internet. So sánh với những dịch vụ khác như mua bán hay quảng cáo trên một tờ báo hay tạp chí thì rẻ hơn rất nhiều và cập nhật nhanh chóng hơn tới hàng triệu người dùng khắp mọi nơi trên thế giới. Có thể nói trang Web như là cuốn từ điển Bách khoa toàn thư. Thông tin trên các trang Web đa dạng về mặt nội dung cũng như hình thức. Có thể nói Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 13 Internet như một xã hội ảo, nó bao gồm các thông tin về mọi mặt của đời sống kinh tế, xã hội được trình bày dưới dạng văn bản, hình ảnh, âm thanh,... Tuy nhiên cùng với sự đa dạng và số lượng lớn thông tin như vậy đã nảy sinh vấn đề quá tải thông tin. Người ta không thể tìm tự kiếm địa chỉ trang Web chứa thông tin mà mình cần, do vậy đòi hỏi cần phải có một trình tiện ích quản lý nội dung của các trang Web và cho phép tìm thấy các địa chỉ trang Web có nội dung giống với yêu cầu của người tìm kiếm. Các tiện ích này quản lý dữ liệu như các đối tượng phi cấu trúc. Hiện nay chúng ta đã làm quen với một số các tiện ích như vậy đó là: Yahoo, google, Alvista,... Mặt khác, giả sử chúng ta có các trang Web về các vấn đề Tin học, Thể thao, kinh tế - xã hội và xây dựng, ...Căn cứ vào nội dung của các tài liệu mà khách hàng xem hoặc download về, sau khi phân lớp chúng ta sẽ biết khách hàng hay tập trung vào nội dung gì trên trang Web của chúng ta, từ đó chúng ta sẽ bổ sung thêm nhiều các tài liệu về các nội dung mà khách hàng quan tâm và ngược lại. Còn về phía khách hàng sau khi phân tích chúng ta cũng biết được khách hàng hay tập trung về vấn đề gì, để từ đó có thể đưa ra những hỗ trợ thêm cho khách hàng đó. Từ những nhu cầu thực tế trên, phân lớp và tìm kiếm trang Web vẫn là bài toán hay và cần phát triển nghiên cứu hiện nay. b. Khó khăn Hệ thống phục vụ World Wide Web như là một hệ thống trung tâm rất lớn phân bố rộng cung cấp thông tin trên mọi lĩnh vực khoa học, xã hội, thương mại, văn hóa,... Web là một nguồn tài nguyên giàu có cho Khai phá dữ liệu. Những quan sát sau đây cho thấy Web đã đưa ra sự thách thức lớn cho công nghệ Khai phá dữ liệu 1. Web dƣờng nhƣ quá lớn để tổ chức thành một kho dữ liệu phục vụ Dataming Các CSDL truyền thống thì có kích thước không lớn lắm và thường Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
- Xem thêm -

Tài liệu liên quan