Bài báo cáo-bài 2. tiền xử lý dữ liệu

  • Số trang: 19 |
  • Loại file: PDF |
  • Lượt xem: 52 |
  • Lượt tải: 0
quangtran

Đã đăng 3720 tài liệu

Mô tả:

Bài 2. Tiền xử lý dữ liệu Hồ Nhật Quang BM Công nghệ phần mềm Nội dung      Mục đích Các giai đoạn của quá trình xử lý dữ liệu Các phương pháp xử lý dữ liệu lỗi Chuẩn hoá dữ liệu Trích chọn đặc tính Mục đích    Tăng tính hiệu quả của các thuật giải KPDL : giảm số chiều dữ liệu, giảm kích thước dữ liệu…. Chuẩn hoá dữ liệu để kiểu dữ liệu phù hợp với yêu cầu của thuật giải KPDL Dữ liệu sau khi xử lý là INPUT của thuật giải KPDL I. Các giai đoạn của quá trình XLDL  Chuẩn bị dữ liệu : nhằm xác định các tham số đặc tính, dò tìm lỗi bất thường của dữ liệu đầu vào – –  Phân tích dữ liệu. Chuẩn hoá dữ liệu Trích chọn dữ liệu: trích chọn, rút gọn, chuyển đổi các đặc tính, giảm về số chiều và tập giá trị của dữ liệu… – – Trích chọn đặc tính Trích chọn giá trị Các giai đoạn của quá trình KPTT Các giai đoạn của quá trình KPDL Data organized by function (accounting. etc.) Create/select target database The KDD Process Data warehousing Select sampling technique and sample data Supply missing values Eliminate noisy data Normalize values Transform values Create derived attributes Find important attributes & value ranges Select DM task (s) Select DM method (s) Extract knowledge Test knowledge Transform to different representation Query & report generation Aggregation & sequences Advanced methods Refine knowledge II.1. Phân tích dữ liệu Quá trình xử lý dữ liệu For each row in DataSer If row is error then Begin Marked row Delete Row | Replace Normal Value End EndFor II.1.a. Phân tích dữ liệu - Các lỗi DL    Mất giá trị (Missing Value) Sai kiểu dữ liệu: (Wrong Type data) Giá trị ko mong muốn: (Outlier ) dữ liệu có những giá trị bất thường, (do giá trị đo của các trường hợp rất đặc biệt, do lỗi của công cụ đo lường,…). Lỗi này là lỗi khó phát hiện nhất, gây ra các sai sót nghiêm trọng làm sai lệch, giảm hiệu quả thực hiện các thuật toán khai phá II.2.b. Phân tích dữ liệu – Cách xử lý Thay thế dữ liệu lỗi bằng các giá trị có tần suất xuất hiện nhiều nhất.  Thay thế dữ liệu lỗi bằng các giá trị có tần suất xuất hiện ít nhất.  Dữ liệu được sinh ngẫu nhiên trong phạm vi cho trước.  Chỉ đích danh giá trị sẽ dùng để thay thế. Riêng với kiểu dữ liệu số  Giá trị Min  Giá trị Max  Lấy trung bình chung giá trị của đặc tính của các bộ dữ liệu trong lân cận  Phân tích dữ liệu – Cách xử lý Dò tìm lỗi dữ liệu bất thường: Lọc ra các bộ dữ liệu nghi ngờ có lỗi bằng cách chỉ ra miền giá trị hợp lý của các đặc tính trong bộ dữ liệu Ví dụ : Tuổi của người : 0 – 130 Chiều cao của người: … Màu da: …  II.2. Chuẩn hoá dữ liệu Định nghĩa: Là thao tác chỉnh sửa, chuyển đổi dữ liệu sao cho phù hợp với đầu vào của các thuật toán khai phá như: chuyển đối các giá trị kiểu ký tự thành các giá trị kiểu số  Các giá trị kiểu ký tự, kiểu thời gian… đều phải được chuyển đổi về kiểu số trước khi nạp vào đầu vào của thuật giải  II.2.b.Chuẩn hoá dữ liệu–Phương pháp Một đặc tính có N giá trị khác nhau  Mã hoá một trong N (One of N encoding): sử dụng một tập gồm N các cột nguyên để chuẩn hoá, low (0, 0, 1), mid (0, 1, 0), high (1,0,0)  Mã hoá nhị phân (Binary encoding): chuẩn hoá thành M cột nhị phân, với M l= [log2N]. low (0,0), mid (1,0), high (1,1)  Mã hoá số nguyên (Numeric encoding): chuẩn hoá thành một cột có giá trị nguyên, mỗi giá trị của cột tương ứng với thứ tự của giá trị gốc có trong tập giá trị ban đầu: low (1), mid (2), high (3) II.2.b.Chuẩn hoá dữ liệu–Quy chuẩn SF = (SRmax-SRmin)/(Xmax-Xmin) Xp = SRmin + (X-Xmin)* SF Với X - Là giá trị thực, giá trị gốc ban đầu của cột Xmin - Giá trị nhỏ nhất trong các bộ dữ liệu Xmax - Giá trị lớn nhất trong các bộ dữ liệu SRmin - Giá trị cận dưới của phạm vi cần co dãn SRmax - Giá trị cận trên của phạm vi cần co dãn SF - Hệ số co dãn Xp - Giá trị sau khi thực hiện chuyển đổi co dãn theo tỷ lệ III. Trích chọn dữ liệu   Mục đích: tăng tính hiệu quả của thuật giải, không làm thay đổi độ chính xác của thuật giải. Phân loại: – – – Trích chọn đặc tính : cột dữ liệu Trích chọn bộ dữ liệu: hàng Trích chọn giá trị III.1 Trích chọn đặc tính – Ý nghĩa     Việc giảm số lượng đầu vào có thể các thuật toán sẽ thực hiện nhanh hơn. Độ chính xác cao hơn do mô hình có khả năng khái quát hoá tốt hơn từ dữ liệu . Kết quả của quá trinh KPDL đơn giản hơn, và như vậy cũng dễ sử dụng và dễ hiểu hơn. Qua việc phân tích trích chọn có thể tại các lần thu nhận dữ liệu lần sau, không phải thu nhận các dữ liệu đã bị loại bỏ, các dữ liệu trùng lặp… III. Trích chọn đặc tính – Phương pháp  Các thuật toán xếp hạng đặc tính: các đặc tính sẽ được đánh giá, ước lượng ‘độ quan trọng’ thông qua việc sử dụng một hàm lượng giá nào đó. – – Việc ước lượng có thể thực hiện bằng nhiều cách thức khác nhau như: tính chính xác của dữ liệu, tính nhất quán, nội dung thông tin, khoảng cách giữa các mẫu, các thống kê đặc tính… Các thuật toán thuộc lớp xếp hạng này không chỉ ra được một tập con các đặc tính quan trọng là gì, mà chỉ mối quan hệ của đặc tính với các đặc tính khác III. Trích chọn đặc tính – Phương pháp  Các thuật toán thuộc lớp tối thiểu hoá tập con: chỉ đưa ra một tập con các đặc tính ‘quan trọng’, các đặc tính đã chọn lựa đều có hạng như nhau, và chỉ liên quan đến tiến trình tối thiểu hoá III.2 Trích chọn giá trị - Kỹ thuật rời rạc hoá đặc tính    Chuyển đổi các giá trị về những khoảng giá trị, và những khoảng giá trị đó lại được thay thế bởi một giá trị khác, Số lượng các giá trị của đặc tính ban đầu chỉ được quy về số các khoảng giá trị. Ví dụ, tuổi của người có thể quy về 5 khoảng Child, Adolescent, Adult, Middle-age, Elderly Q&A
- Xem thêm -