Bài 2. Tiền xử lý dữ liệu
Hồ Nhật Quang
BM Công nghệ phần mềm
Nội dung
Mục đích
Các giai đoạn của quá trình xử lý dữ liệu
Các phương pháp xử lý dữ liệu lỗi
Chuẩn hoá dữ liệu
Trích chọn đặc tính
Mục đích
Tăng tính hiệu quả của các thuật giải KPDL :
giảm số chiều dữ liệu, giảm kích thước dữ
liệu….
Chuẩn hoá dữ liệu để kiểu dữ liệu phù hợp
với yêu cầu của thuật giải KPDL
Dữ liệu sau khi xử lý là INPUT của thuật giải
KPDL
I. Các giai đoạn của quá trình XLDL
Chuẩn bị dữ liệu : nhằm xác định các tham số đặc
tính, dò tìm lỗi bất thường của dữ liệu đầu vào
–
–
Phân tích dữ liệu.
Chuẩn hoá dữ liệu
Trích chọn dữ liệu: trích chọn, rút gọn, chuyển đổi
các đặc tính, giảm về số chiều và tập giá trị của dữ
liệu…
–
–
Trích chọn đặc tính
Trích chọn giá trị
Các giai đoạn của quá trình KPTT
Các giai đoạn của quá trình KPDL
Data organized by
function (accounting. etc.)
Create/select
target database
The KDD Process
Data warehousing
Select sampling
technique and
sample data
Supply missing
values
Eliminate
noisy data
Normalize
values
Transform
values
Create derived
attributes
Find important
attributes &
value ranges
Select DM
task (s)
Select DM
method (s)
Extract
knowledge
Test
knowledge
Transform to
different
representation
Query & report generation
Aggregation & sequences
Advanced methods
Refine
knowledge
II.1. Phân tích dữ liệu
Quá trình xử lý dữ liệu
For each row in DataSer
If row is error then
Begin
Marked row
Delete Row | Replace Normal Value
End
EndFor
II.1.a. Phân tích dữ liệu - Các lỗi DL
Mất giá trị (Missing Value)
Sai kiểu dữ liệu: (Wrong Type data)
Giá trị ko mong muốn: (Outlier ) dữ liệu có
những giá trị bất thường, (do giá trị đo của
các trường hợp rất đặc biệt, do lỗi của công
cụ đo lường,…). Lỗi này là lỗi khó phát hiện
nhất, gây ra các sai sót nghiêm trọng làm sai
lệch, giảm hiệu quả thực hiện các thuật toán
khai phá
II.2.b. Phân tích dữ liệu – Cách xử lý
Thay thế dữ liệu lỗi bằng các giá trị có tần suất xuất
hiện nhiều nhất.
Thay thế dữ liệu lỗi bằng các giá trị có tần suất xuất
hiện ít nhất.
Dữ liệu được sinh ngẫu nhiên trong phạm vi cho
trước.
Chỉ đích danh giá trị sẽ dùng để thay thế.
Riêng với kiểu dữ liệu số
Giá trị Min
Giá trị Max
Lấy trung bình chung giá trị của đặc tính của các bộ
dữ liệu trong lân cận
Phân tích dữ liệu – Cách xử lý
Dò tìm lỗi dữ liệu bất thường:
Lọc ra các bộ dữ liệu nghi ngờ có lỗi bằng
cách chỉ ra miền giá trị hợp lý của các đặc
tính trong bộ dữ liệu
Ví dụ : Tuổi của người : 0 – 130
Chiều cao của người: …
Màu da: …
II.2. Chuẩn hoá dữ liệu
Định nghĩa:
Là thao tác chỉnh sửa, chuyển đổi dữ liệu sao
cho phù hợp với đầu vào của các thuật toán
khai phá như: chuyển đối các giá trị kiểu ký
tự thành các giá trị kiểu số
Các giá trị kiểu ký tự, kiểu thời gian… đều
phải được chuyển đổi về kiểu số trước khi
nạp vào đầu vào của thuật giải
II.2.b.Chuẩn hoá dữ liệu–Phương pháp
Một đặc tính có N giá trị khác nhau
Mã hoá một trong N (One of N encoding): sử dụng
một tập gồm N các cột nguyên để chuẩn hoá,
low (0, 0, 1), mid (0, 1, 0), high (1,0,0)
Mã hoá nhị phân (Binary encoding): chuẩn hoá
thành M cột nhị phân, với M l= [log2N].
low (0,0), mid (1,0), high (1,1)
Mã hoá số nguyên (Numeric encoding): chuẩn hoá
thành một cột có giá trị nguyên, mỗi giá trị của cột
tương ứng với thứ tự của giá trị gốc có trong tập giá
trị ban đầu:
low (1), mid (2), high (3)
II.2.b.Chuẩn hoá dữ liệu–Quy chuẩn
SF = (SRmax-SRmin)/(Xmax-Xmin)
Xp = SRmin + (X-Xmin)* SF
Với
X
- Là giá trị thực, giá trị gốc ban đầu của cột
Xmin
- Giá trị nhỏ nhất trong các bộ dữ liệu
Xmax
- Giá trị lớn nhất trong các bộ dữ liệu
SRmin - Giá trị cận dưới của phạm vi cần co dãn
SRmax - Giá trị cận trên của phạm vi cần co dãn
SF
- Hệ số co dãn
Xp
- Giá trị sau khi thực hiện chuyển đổi co dãn theo
tỷ lệ
III. Trích chọn dữ liệu
Mục đích: tăng tính hiệu quả của thuật giải,
không làm thay đổi độ chính xác của thuật
giải.
Phân loại:
–
–
–
Trích chọn đặc tính : cột dữ liệu
Trích chọn bộ dữ liệu: hàng
Trích chọn giá trị
III.1 Trích chọn đặc tính – Ý nghĩa
Việc giảm số lượng đầu vào có thể các thuật toán sẽ
thực hiện nhanh hơn.
Độ chính xác cao hơn do mô hình có khả năng khái
quát hoá tốt hơn từ dữ liệu .
Kết quả của quá trinh KPDL đơn giản hơn, và như
vậy cũng dễ sử dụng và dễ hiểu hơn.
Qua việc phân tích trích chọn có thể tại các lần thu
nhận dữ liệu lần sau, không phải thu nhận các dữ
liệu đã bị loại bỏ, các dữ liệu trùng lặp…
III. Trích chọn đặc tính – Phương pháp
Các thuật toán xếp hạng đặc tính: các đặc tính sẽ
được đánh giá, ước lượng ‘độ quan trọng’ thông qua
việc sử dụng một hàm lượng giá nào đó.
–
–
Việc ước lượng có thể thực hiện bằng nhiều cách thức
khác nhau như: tính chính xác của dữ liệu, tính nhất quán,
nội dung thông tin, khoảng cách giữa các mẫu, các thống
kê đặc tính…
Các thuật toán thuộc lớp xếp hạng này không chỉ ra được
một tập con các đặc tính quan trọng là gì, mà chỉ mối quan
hệ của đặc tính với các đặc tính khác
III. Trích chọn đặc tính – Phương pháp
Các thuật toán thuộc lớp tối thiểu hoá tập
con: chỉ đưa ra một tập con các đặc tính
‘quan trọng’, các đặc tính đã chọn lựa đều có
hạng như nhau, và chỉ liên quan đến tiến
trình tối thiểu hoá
III.2 Trích chọn giá trị - Kỹ thuật rời rạc
hoá đặc tính
Chuyển đổi các giá trị về những khoảng giá
trị, và những khoảng giá trị đó lại được thay
thế bởi một giá trị khác,
Số lượng các giá trị của đặc tính ban đầu chỉ
được quy về số các khoảng giá trị.
Ví dụ, tuổi của người có thể quy về 5 khoảng
Child, Adolescent, Adult, Middle-age, Elderly
Q&A
- Xem thêm -