ĈҤI HӐC QUӔC GIA TP. HCM
75ѬӠ1*ĈҤI HӐC BÁCH KHOA
--------------------
NGUYӈN HӲU NHÂN
RÚT TRÍCH CÁC THUӜC TÍNH KHOA HӐC
CӪA CÁC TҰP DӲ LIӊU MӢ DҤNG JSON
Chuyên ngành: HӋ Thӕng Thông Tin Quҧn Lý
Mã sӕ: 8340405
LUҰN 9Ă17+Ҥ&6Ƭ
TP. HӖ CHÍ MINH, tháng 08 QăP
&Ð1*75Î1+ĈѬӦC HOÀN THÀNH TҤI:
75ѬӠ1*ĈҤI HӐC BÁCH KHOA ± Ĉ+4*-HCM
Cán bӝ Kѭӟng dүn khoa hӑF3*676Ĉһng Trҫn Khánh
Cán bӝ Kѭӟng dүn khoa hӑc: TS. Lê Hӗng Trang
Cán bӝ chҩm nhұn xét 1: PGS.TS. NguyӉn TuҩQĈăQJ
Cán bӝ chҩm nhұn xét 23*6769NJ7KDQK1JX\rQ
LuұQYăQWKҥFVƭÿѭӧc bҧo vӋ tҥL7UѭӡQJĈҥi hӑF%iFK.KRDĈ+4G Tp. HCM
QJj\WKiQJQăP (trӵc tuyӃn)
Thành phҫn HӝLÿӗQJÿiQKJLiOXұQYăQWKҥFVƭJӗm:
1. Chӫ tӏch hӝLÿӗng: PGS.TS. Trҫn Minh Quang
7KѭNê763KDQ7Uӑng Nhân
3. GV phҧn biӋn 1: PGS.TS. NguyӉn TuҩQĈăQJ
4. GV phҧn biӋQ3*6769NJ7KDQh Nguyên
5. Ӫy viên: PGS.TS. NguyӉn Thanh Bình
Xác nhұn cӫa Chӫ tӏch HӝLÿӗQJÿiQKJLi/9Yj7Uѭӣng Khoa quҧn lý chuyên
ngành sau khi luұQYăQÿmÿѭӧc sӱa chӳa (nӃu có).
CHӪ TӎCH HӜ,ĈӖNG
75ѬӢNG KHOA
KHOA HӐC VÀ KӺ THUҰT MÁY TÍNH
ĈҤ,+Ӑ&48Ӕ&*,$73+&0
75ѬӠ1*ĈҤ,+Ӑ&%È&+.+2$
&Ӝ1*+Ñ$;+Ӝ,&+Ӫ1*+Ƭ$9,ӊ71$0
ĈӝFOұS- 7ӵGR- +ҥQKSK~F
NHIӊM VӨ LUҰ19Ă17+Ҥ&6Ƭ
+ӑWrQKӑFYLrQ1JX\ӉQ+ӳX1KkQ .................................... 06+9«
1Jj\WKiQJQăPVLQK ...................................... 1ѫLVLQK7S+&0«
&KX\rQQJjQK+ӋWKӕQJWK{QJWLQTXҧQOê .......................... 0mVӕ : 8340405«
I. 7Ç1Ĉӄ7¬,5~WWUtFKFiFWKXӝFWtQKNKRDKӑFFӫDWұSGӳOLӋXPӣGҥQJ-621
II. 1+,ӊ09Ө9¬1Ӝ,'81* ÿѭDUDÿѭӧFSKѭѫQJSKiSNKҧWKLÿӇU~WWUtFK
WKXWKұS ÿѭӧFFiFWKXӝFWtQKNKRDKӑFFӫDFiFWұSGӳOLӋXPӣGҥQJ-621JL~S
WăQJKLӋXTXҧFӫDTXiWUuQKSKkQWtFKGӳOLӋX
III. 1*¬<1+Ұ11+,ӊ09Ө22/02/2021
IV. 1*¬<+2¬17+¬1+1+,ӊ09Ө 13/06/2021
V.
&È1%Ӝ+ѬӞ1*'Ү1 3*676ĈһQJ7UҫQ.KiQK76/r+ӗQJ7UDQJ
7S+&0QJj\WKiQJQăP21.
&È1%Ӝ+ѬӞ1*'Ү1
+ӑWrQYjFKӳNê
&+Ӫ1+,ӊ0%Ӝ0Ð1Ĉ¬27Ҥ2
+ӑWrQYjFKӳNê
75ѬӢ1*.+2$.+2$+Ӑ&9¬.Ӻ7+8Ұ7 MÁY TÍNH
+ӑWrQYjFKӳNê
ii
LӠI CҦ0Ѫ1
Tôi xin chân thành cҧPѫQÿӃn tҩt cҧ mӑLQJѭӡi, thҫy, cô, các anh chӏ nghiên cӭu
sinh, hӑc viên cao hӑc, các bҥn sinh viên nhӳQJQJѭӡLÿmJL~Sÿӥ tôi trong quá trính
thӵc hiӋQYjKRjQWKjQKÿӅ tài luұQYăQWKҥFVƭQj\
Ĉһc biӋt, tôi xin gӱi lӡi cҧPѫQÿӃn các thҫ\Kѭӟng dүn khoa hӑc cӫa tôi, PGS.TS.
Ĉһng Trҫn Khánh và TS. Lê HӗQJ7UDQJÿmKӛ trӧÿӝng viên, chia sҿ kinh nghiӋm
vӟi tôi trong cҧ quá trình theo hӑFFKѭѫQJWUuQKVDXÿҥi hӑc tҥLWUѭӡng.
Thành phӕ Hӗ &Kt0LQKWKiQJQăP
iii
TÓM TҲT
Dӳ liӋu mӣ là dӳ liӋXÿѭӧc cung cҩp rӝng rãi trên mҥQJFKRSKpSÿҫ\ÿӫ các quyӅn
truy cұp, tái sӱ dөng và phân phӕi lҥi và cho phép sӵ tham gia toàn cҫXÿyQJJySYjR
kho dӳ liӋXÿy6ӵ bùng nә cӫa thông tin và các quyӃWÿӏnh quan trӑng trong các tә
chӭc ngày càng dӵa trên dӳ liӋu khiӃn dӳ liӋu trӣ thành mӝt loҥi tài sҧn mӟi. ViӋc ra
quyӃWÿLQKGӵa vào dӳ liӋu khiӃn cho nhu cҫu phân tích dӳ liӋu trӣ nên phә biӃn. Cây
ÿLQKEDGӳ liӋu lӟn, phân tích dӳ liӋu và giҧi thuұt hӑc máy trӣ thành công cө mҥnh
mӁ ÿӇ cung cҩp nhӳng dӵ ÿRiQÿ~QJÿҳn giúp viӋc hӛ trӧ ra quyӃWÿӏnh trong các tә
chӭc, chính sách cӫD1Kj1ѭӟc trӣ QrQFKtQK[iFYjÿ~QJWUӑQJWkPKѫQ%rQFҥnh
viӋc có mӝt giҧi thuұt hӑc máy tӕLѭXPӝt hҥ tҫng tính toán mҥnh, khҧ QăQJSKkQ
tích dӳ liӋu tӕt thì kӃt quҧ ÿҫu ra cӫa viӋc dӵ ÿRiQFzQSKө thuӝFYjRÿӝ chính xác,
ÿҫ\ÿӫ cӫa dӳ liӋXÿҫXYjRĈӅ WjL[HP[pWFiFSKѭѫQJSKiSOjPFKRWұp dӳ liӋu trӣ
nên tӕWKѫQWK{QJTXDYLӋc lӵa chӑn các thuӝc tính khoa hӑc, hay thuӝc tính quan
trӑQJ&iFSKѭѫQJSKiSÿѭӧFÿӅ cұSWURQJÿӅ tài bao gӗm viӋc phân tích các thuӝc
tính thông qua các khung phân loҥi thuӝc tính, dӵa vào truy vҩn tìm kiӃPÿӇ [iFÿӏnh
thuӝc tính nào quan trӑng. Bên cҥQKÿyYLӋc áp dөng lý thuyӃt thông tin, kiӃn pháp
vӅ thӕQJNrÿӇ ÿiQKJLiPӭFÿӝ quan trӑng hoһc liên quan lүn nhau giӳa các thuӝc
tính và giӳa các thuӝFWtQKÿҫu vào vӟi thuӝc tính mөc tiêu, là kӃt quҧ cӫa mô hình
dӵ ÿRiQPi\KӑFÿӇ tӯ ÿyFKӑn lӑFÿѭӧc các thuӝc tính quan trӑng phù hӧp nhҩt.
Ngoҧi ra viӋc ӭng dөng máy hӑc giúp xây dӵQJÿѭӧFFiFSKѭѫQJSKiSU~WWUtFKGӳ
liӋu mӝt cách tӵ ÿӝng thông qua viӋFÿiQKJLiNӃt quҧ cӫa các tұp thuӝc tính vӟi kӃt
quҧ ÿҫu ra cӫa mô hình tӯ ÿyFKӑn lӑFÿѭӧc tұp thuӝc tính tӕt nhҩt theo yêu cҫu.
iv
ABSTRACT
Open data is data that is widely available on the network, allowing full rights of access,
reuse, and redistribution and allowing global participation to contribute to that data
warehouse. The explosion of information and critical decisions in increasingly datadriven organizations makes data a new asset class. Data-driven decision making
makes the need for data analytics popular. Big data trident, data analytics and
machine learning algorithms become powerful tools to provide accurate predictions
that make decision support in organizations, government policies become more
accurate more precise and to the point. In addition to having an optimal machine
learning algorithm, a strong computing infrastructure, and good data analysis
capabilities, the output of the prediction depends on the accuracy and completeness
of the input data... The topic considers methods to make the data set better through
the selection of scientific attributes, or important attributes. The methods mentioned
in the topic include analyzing attributes through attribute classification frameworks,
based on search queries to determine which attributes are important. Besides, the
application of information theory, knowledge of statistics to evaluate the importance
or interrelationship between attributes and between input attributes and the target
attribute, is the result of machine learning predictive models to select the most
suitable important attributes. In addition, the application of machine learning helps to
build automatic data extraction methods by evaluating the results of the attribute sets
with the output results of the model, thereby selecting the set of attributes best on
desired.
v
LӠ,&$0Ĉ2$1
Tôi, NguyӉn HӳX1KkQ[LQFDPÿRDQÿӅ tài luұQYăQWKҥFVƭ³5~WWULFKFiFWKXӝc tính
khoa hӑc cӫa các tұp dӳ liӋu mӣ dҥQJ-621´YjF{QJYLӋFÿѭӧFWUuQKEj\WURQJÿӅ
tài này là cӫa tôi. Tôi xác nhұn rҵng:
-
Công viӋFQj\ÿѭӧc thӵc hiӋn toàn bӝ hoһc chӫ yӃXNKLÿDQJWKHRKӑFFKѭѫQJ
trình thҥFVƭWҥLWUѭӡQJĈҥi hӑc này.
-
7Uѭӡng hӧp bҩt kǤ phҫn nào cӫa luұQYăQQj\WUѭӟFÿk\ÿmÿѭӧc nӝp cho mӝt
bҵng cҩp hoһc bҩt kǤ YăQEҵng nào khác tҥLWUѭӡQJĈҥi hӑc này hoһc bҩt kǤ
FѫVӣ giáo dөc nào khác, các phҫQQj\ÿmÿѭӧc trích dүn rõ ràng.
-
Khi tôi tham khҧRF{QJWUuQKÿm[Xҩt bҧn cӫa nhӳQJQJѭӡi khác, các phҫn này
OX{Qÿѭӧc ghi nhұn rõ ràng.
-
Trích dүn tӯ tác phҭm cӫDQJѭӡi khác, nguӗQOX{Qÿѭӧc cung cҩp. Ngoҥi trӯ
nhӳng trích dүQQKѭYұy, luұQYăQQj\KRjQWRjQOjF{QJYLӋc cӫa riêng tôi.
-
Tôi thӯa nhұn tҩt cҧ các nguӗn trӧ giúp chính.
Thành phӕ Hӗ Chí 0LQKWKiQJQăP
Hӑc viên
NguyӉn Hӳu Nhân
vi
MӨC LӨC
NHIӊM VӨ LUҰ19Ă17+Ҥ&6Ƭ ..................................................................................................i
LӠI CҦ0Ѫ1 .................................................................................................................................... ii
TÓM TҲT ......................................................................................................................................... iii
ABSTRACT ...................................................................................................................................... iv
LӠ,&$0Ĉ2$1 .............................................................................................................................. v
DANH MӨC HÌNH ........................................................................................................................ viii
DANH MӨC BҦNG ......................................................................................................................... ix
1
MӢ ĈҪU ....................................................................................................................................1
1.1 Lý do chӑQÿӅ tài .....................................................................................................................1
1.2 Mөc tiêu ...................................................................................................................................1
1.3 Giӟi hҥn nghiên cӭu cӫDÿӅ tài...............................................................................................2
1.4 KӃt quҧ cө thӇ ..........................................................................................................................3
1.5 éQJKƭDWKӵc tiӉn .....................................................................................................................3
2
TӘNG QUAN ............................................................................................................................3
2.1 Giӟi thiӋu vӅ dӳ liӋu mӣ .........................................................................................................3
2.2 Giӟi thiӋu vӅ tұp dӳ liӋu .........................................................................................................6
2.3 Thuӝc tính cӫa tұp dӳ liӋu......................................................................................................8
3KѭѫQJSKiSU~WWUtFKWKXӝc tính cӫa tұp dӳ liӋu ............................................................ 12
3KѭѫQJSKiSU~WWUtFKGӵa vào khҧo sát và tóm tҳt tұp dӳ liӋu ....................................... 12
3KѭѫQJSKiSU~WWUtFKGӵa trên bӝ lӑc thuӝFWtQKYjÿiQKJLiÿӝ quan trӑng thuӝc tính 13
&iFSKѭѫQJSKiSEDRJyLYjSKѭѫQJSKiSQK~QJ .......................................................... 14
2.5 JSON ..................................................................................................................................... 17
2.6 HӋ thӕng quҧn lý dӳ liӋu mӣ CKAN .................................................................................. 19
3
3+ѬѪ1*3+È31*+,Ç1&ӬU ......................................................................................... 21
3KѭѫQJSKiSQJKLrQFӭu..................................................................................................... 21
3KѭѫQJSKiSÿiQKJLi ......................................................................................................... 21
3.3 Tұp dӳ liӋu mӣ cho quá trình nghiên cӭu, thӵc nghiӋm .................................................. 22
3.4 Dӳ liӋXÿҫu ra ....................................................................................................................... 22
4
&È&3+ѬѪ1*3+È3/ӴA CHӐN THUӜC TÍNH DҤNG LӐC .................................. 23
3KѭѫQJSKiSGӵa trên sӵ WѭѫQJTXDQJLӳa các thuӝc tính .............................................. 23
4.2 Lӵa chӑn thuӝFWtQKWUrQQJѭӥQJSKѭѫQJVDL ................................................................... 25
3KѭѫQJSKiSOӵa chӑn thuӝc tính ANOVA ....................................................................... 26
vii
3KѭѫQJSKiSOӵa chӑn sӱ dөQJ&KLEuQKSKѭѫQJ ............................................................ 31
3KѭѫQJSKiSOӵa chӑn bҵQJWK{QJWLQWѭѫQJKӛÿӝ WăQJWK{QJWLQ................................ 33
4.6 Mӝt sӕ SKѭѫQJSKiSNKiF ................................................................................................... 37
3KѭѫQJSKiSFKӑn lӑc thuӝc tính quan trӑng.................................................................. 37
4.6.2 Phép phân tích thành phҫn chính (Principle Component Analysis ± PCA) .................... 39
5
CÁC PHѬѪ1*3+È3/ӴA CHӐN THUӜC TÍNH DҤNG BAO GÓI.......................... 39
5.1 Forward Selection ................................................................................................................ 39
5.2 Backward Elimination ......................................................................................................... 41
6
ĈÈ1+*,È&È&3+ѬѪ1*3+È3 ..................................................................................... 44
7
KӂT LUҰN ............................................................................................................................. 46
TÀI LIӊU THAM KHҦO ............................................................................................................. 47
viii
DANH MӨC HÌNH
Hình 2-1. Giӟi thiӋu vӅ tұp dӳ liӋu .....................................................................................................6
Hình 2-2 Ví dө tә chӭc cӫa mӝt tұp dӳ liӋu ........................................................................................7
Hình 2-3 Ví dө tұp dӳ liӋu dҥng JSON (2006 - 2011 NYS Math Test Results by Grade - Citywide by Race-Ethnicity) ..............................................................................................................................8
Hình 2-4 Phân loҥi thuӝc tính .......................................................................................................... 11
Hình 2-5 Quá trình thӵc hiӋQSKѭѫQJSKiSOӑc ............................................................................... 14
Hình 2-3KѭѫQJSKiSIRUZDUGVHOHFWLRQ ........................................................................................ 15
Hình 2-3KѭѫQJSKiSEDFNZDUd elimination ................................................................................. 15
Hình 2-3KѭѫQJSKiSOӵa chӑn thuӝc tính dҥng bao gói ................................................................ 16
Hình 2-9 Ví dө cҩu trúc JSON ......................................................................................................... 18
Hình 2-10 KiӃn trúc cӫa CKAN....................................................................................................... 20
Hình 3-ĈҫXYjRYjÿҫu ra cӫDSKѭѫQJSKiS ................................................................................. 22
Hình 4-1 KӃt quҧ ÿӝ WѭѫQJTXDQFӫa các thuӝc tính ........................................................................ 24
Hình 4-2 KӃt quҧ cӫa ANOVA f test cho thuӝc tính liên tөc .......................................................... 29
Hình 4-3 KӃt quҧ cӫa ANOVA f test cho thuӝc tính ....................................................................... 31
Hình 4-4 KӃt quҧ cӫDSKѭѫQJSKiS&KLEuQKSKѭѫQJ ..................................................................... 33
Hình 4-5 KӃt quҧ cӫDSKѭѫQJSKiSWK{QJWLQWѭѫQJKӛ................................................................... 36
Hình 4-6 KӃt quҧ cӫDSKѭѫQJSKiSFKӑn thuӝc tính quan trӑng ..................................................... 38
Hình 5-1 KӃt quҧ cӫDSKѭѫQJSKiSIRUZDUGVHOHFWLRQ .................................................................... 40
Hình 5-2 KӃt quҧ thӱ nghiӋm loҥi backward elimination ................................................................ 42
Hình 5-3 KӃt quҧ lӵa chӑn 7 thuӝc tính vӟLSKѭѫQJSKiSEDFNZDUGHOLPLQDWLRQVӱ dөQJWKѭYLӋn
RFE .................................................................................................................................................. 43
ix
DANH MӨC BҦNG
Bҧng 1 Ví dө mӝt bҧng dӳ liӋu (Department for the Aging (DFTA) Geriatric Mental Health
Contracted Providers) .........................................................................................................................9
1 MӢ ĈҪU
1.1 Lý do chӑQÿӅ tài
Phân tích dӳ liӋu là mӝWOƭQKYӵc ngày càng hҩp dүQYjÿyQJYDLWUzTXDQWUӑQJKѫQ
trong viӋc hӛ trӧ ra các quyӃWÿӏnh cho các cá nhân, tә chӭc thay vì chӍ dӵa vào các
yӃu tӕ kinh nghiӋm, cҧPWtQKFiLQKuQÿѫQGLӋn cӫa mӝt sӕ QJѭӡLÿӭQJÿҫu. Bên
cҥQKÿyVӵ bùng nә thông tin ngày nay làm cho dӳ liӋu là vô cùng nhiӅXYjÿDGҥng
trên nhiӅXOƭQKYӵc. Nhu cҫu phân tích dӳ liӋu và sӵ bùng nә cӫa dӳ liӋu tҥo ra các
giá trӏ to lӟQÿӕi vӟi các tә chӭFĈLӅu này làm cho dӳ liӋXÿmGҫn trӣ thành mӝt loҥi
tài sҧn mӟi bên cҥnh các dҥng tài sҧn truyӅn thӕng.ViӋc phân tích dӳ liӋu sӁ trӣ nên
hiӋu quҧ KѫQQӃXÿӕLWѭӧng thӵc hiӋn có kinh nghiӋm, kiӃn pháp vӅ FiFOƭQKYӵc liên
quan và dӳ liӋXSKkQWtFKÿѭӧFOѭXWUӳ Gѭӟi dҥng các tұp dӳ liӋXGDWDVHWÿѭӧc tӕi
ѭXKyDWK{QJTXDYLӋc rút trích, lӵa chӑQÿѭӧc các thuӝFWtQKÿһFWUѭQJFҫn thiӃt.
Xuҩt phát tӯ thӵc tiӉn nêu trên, viӋc nghiên cӭXÿӅ WjL³/ӵa chӑn, rút trích các thuӝc
tính khoa hӑc cӫa các tұp dӳ liӋu mӣ dҥQJ-621´ÿӇ ÿѭDUDFiFJLҧLSKiSSKѭѫQJ
pháp lӵa chӑn các thuӝc tính cӫa tұp dӳ liӋu mӣ JL~SWăQJKLӋu quҧ cӫa nhu cҫu phân
tích dӳ liӋu, hӛ trӧ tӕWKѫQFKRYLӋc ra quyӃWÿӏnh là mӝt viӋc làm cҫn thiӃt và sӁ ÿѭӧc
hӑc viên trình bày cө thӇ KѫQWURQJFiFSKҫn sau.
1.2 Mөc tiêu
Mͭc tiêu t͝ng quát: ÿѭDUDÿѭӧFSKѭѫQJSKiSNKҧ WKLÿӇ rút trích, thu thұSÿѭӧc các
thuӝc tính khoa hӑc cӫa các tұp dӳ liӋu mӣ dҥQJ-621JL~SWăQJKLӋu quҧ cӫa quá
trình phân tích dӳ liӋu.
Mͭc tiêu cͭ th͋:
-
Nghiên cӭu và nҳPÿѭӧc các khái niӋPFѫEҧn cӫa tұp dӳ liӋu, các thuӝc tính
cӫa tұp dӳ liӋu.
-
Phân loҥi các thuӝFWtQKGQJÿӇ tóm tҳt tұp dӳ liӋu, các thuӝc tính cӫa siêu
dӳ liӋu.
-
Thu thұp, xây dӵng mӝt tұp các câu truy vҩn cӫDQJѭӡi dùng khi tìm kiӃm tұp
dӳ liӋu ӣ mӝt sӕ OƭQKYӵc.
2
-
Tìm hiӇXFiFSKѭѫQJSKiSÿiQKJLiPӭFÿӝ quan trӑQJÿӝ phӫ cӫa tӯng thuӝc
WtQKÿһFWUѭQJULrQJOҿ cӫa tұp dӳ liӋu.
-
Tìm hiӇXFiFSKѭѫQJSKiSÿӇ ÿiQKJLiPӭFÿӝ OLrQTXDQÿӝ quan trӑng giӳa
các thuӝFWtQKÿһFWUѭQJYӟi nhau và giӳa các thuӝFWtQKÿӝc lұp vӟi thuӝc
tính mөFWLrXÿҫu ra cӫa viӋc phân tích dӳ liӋu, sӱ dөng các giҧi thuұt, mô
hình hӑFPi\ÿӇ dӵ ÿRiQNӃt quҧ.
-
Xây dӵQJSKѭѫQJSKiSSKkQWtFKGӳ liӋXÿӇ phân tích các câu truy vҩn cӫa
QJѭӡi dùng.
-
ĈiQKJLiÿѭӧc tính khҧ thi cӫDSKѭѫQJSKiS[iFÿӏnh các thuӝc tính khoa hӑc
cӫa tұp dӳ liӋu và hoàn cҧnh áp dөng cө thӇ.
K͇t qu̫:
-
Giҧi quyӃWÿѭӧc vҩQÿӅ U~WWUtFKÿѭӧc thuӝc tính khoa hӑc cӫa tұp dӳ liӋu.
-
Áp dөng cho tұp dӳ liӋu mӣ dҥng JSON và các dҥng dӳ liӋu có cҩu trúc khác
csv, không áp dөng cho các tұp dӳ liӋu dҥng graph, dҥng hình ҧnh...
-
Mong muӕn có khҧ QăQJJL~SQkQJFDRKLӋu quҧ cӫa viӋc phân tích dӳ liӋu sӱ
dөng các giҧi thuұt hӑc máy.
1.3 Giӟi hҥn nghiên cӭu cӫDÿӅ tài
Dӳ liӋu mӣ là dӳ liӋu cӫa rҩt nhiӅXOƭQKYӵc khác nhau. Trong khҧ QăQJFӫDÿӅ tài chӍ
lӵa chӑn mӝWYjLOƭQKYӵc nhӓ ÿӇ ÿiQKJLi, hiӋn thӵc khҧ QăQJU~WWUtFKFiFWKXӝc tính
khoa hӑc.
Xây dӵng, thu thұp các câu truy vҩn cӫDQJѭӡi dùng tìm kiӃPFNJQJFyJLӟi hҥn và
chӫ yӃXOjQJѭӡi dùng có thӵc hành, hiӇu biӃWFѫEҧn vӅ dӳ liӋXĈӅ WjLFKѭDÿiQKJLi
ÿѭӧc các câu truy vҩn cӫDQJѭӡi dùng không quen thuӝc viӋc thao tác vӟi các tұp dӳ
liӋu hoһc không biӃt vӅ tұp dӳ liӋX'RÿyFKҳc chҳn sӁ có sӵ thiên lӋch trong viӋc
xây dӵng các câu truy vҩn và lӏch sӱ tìm kiӃm tұp dӳ liӋu.
ViӋc thu thұp các tұp dӳ liӋXÿӇ ÿiQKJLiFNJQJFyKҥn chӃ và viӋFÿiQKJLiFiFWKXӝc
tính cӫa tұp dӳ liӋu và siêu dӳ liӋu ít nhiӅXFNJQJFyVӵ chӫ quan cӫDQJѭӡi thӵc hiӋn.
3
&iFSKѭѫQJSKiSJLҧi thuұt nghiên cӭu sӱ dөng nhiӅu kiӃn pháp vӅ toán hӑc, xác
suҩt thӕng kê, lý thuyӃt thông tin, cùng vӟi các hҥn chӃ vӅ mһt kiӃn pháp cӫa hӑc
viên có thӇ khiӃn kӃt quҧ chӍ phù hӧp cho mӝWYjLWUѭӡng hӧp, khó áp dөQJÿҥi trà,
tәng quan cho mӑi tұp dӳ liӋu.
Nghiên cӭu chӍ tұp trung chính vào các tұp dӳ liӋu dҥng có cҩu trúc csv, JSON, không
áp dөng rӝQJUmLÿѭӧc cho các tұp dӳ liӋu có cҩXWU~FNKiFQKѭ[POKD\FiFWұp dӳ
liӋu dҥng phi cҩu trúc khác.
1.4 KӃt quҧ cө thӇ
ĈѭDUDÿѭӧc giҧi pháp khҧ thi, mô hình phù hӧp có khҧ QăQJWtFKKӧp vào các hӋ
thӕng sҹn có.
Prototype thӵc nghiӋm.
1.5 éQJKƭDWKӵc tiӉn
ViӋc rút trích các thuӝc tính khoa hӑc cӫa tұp dӳ liӋu mӣ WK{QJTXDFiFSKѭѫQJSKiS
thӕng kê hoһFSKѭѫQJSKiSOӑc lӵa giúp làm giҧm sӕ chiӅu cӫa tұp dӳ liӋu, tӕLѭXKyD
kӃt quҧ phân tích dӳ liӋu, cҧi thiӋn mô hình dӵ ÿRiQKӑc máy, tӯ ÿyPDQJOҥi nhӳng
kӃt quҧ dӵ ÿRiQFKtQK[iFKѫQQkQJFDo khҧ QăQJWiLVӱ dөng cӫa tұp dӳ liӋu mӣ.
2 TӘNG QUAN
2.1 Giӟi thiӋu vӅ dӳ liӋu mӣ
Ngày nay, bên cҥnh các dҥng tài sҧn sӣ hӳu truyӅn thӕQJQKѭWLӅn bҥc, vàng, bҩWÿӝng
sҧn... dӳ liӋu vӟi tҫm quan trӑng ngày càng lӟQÿmWUӣ thành mӝt dҥng tài sҧn mӟi cӫa
các tә chӭc sӣ hӳu nó. Dӳ liӋu thӇ hiӋn vai trò cӵc kǤ quan trӑQJÿӕi vӟi sӵ phát triӇn
cӫa tҩt cҧ FiFOƭQKYӵc, tӯ kinh tӃYăQKyDF{QJQJKӋ, kӻ thuұt tӟi giáo dөc, y tӃ, xã
hӝi.
ĈӇ hiӋn thӵc hóa nhӳng ҧQKKѭӣng tích cӵc, khai phá ra các giá trӏ cӫa dӳ liӋu, khoa
hӑc dӳ liӋu, phân tích dӳ liӋXÿmYjÿDQJSKiWWULӇn bùng nә QKѭPӝt sӵ xXKѭӟng tҩt
yӃX;XKѭӟQJQj\ÿmGүn tӟi nhu cҫu chia sҿ dӳ liӋu, cung cҩp dӳ liӋu cho mӑLQJѭӡi
4
dùng chung, tӯ ÿyKuQKWKjQKQrQPӝt mô hình dӳ liӋu mӣ. ViӋc cung cҩp Dӳ liӋu
mӣ cӫa mӝt Chính phӫ có ҧQKKѭӣng rҩt lӟQÿӃn kinh tӃ, xã hӝLYjÿDQJWUӣ thành
mӝWWLrXFKtÿiQKJLiFKtQKWURQJEӝ chӍ WLrXÿiQKJLiFӫa Liên hiӋp quӕc và các tә
chӭc quӕc tӃ vӅ xӃp hҥng phát triӇn Chính phӫ ÿLӋn tӱ.
Dӳ liӋu mӣ là dӳ liӋXÿѭӧc cung cҩp miӉn phí cho mӑLQJѭӡi, cho phép tái sӱ dөng
hoһc tái phân phӕi bӣi bҩt kǤ cá nhân, tә chӭc nào mà không bӏ ràng buӝc bӣi bҧn
quyӅn hoһFFiFFѫFKӃ kiӇm soát.[2]
&iFÿһc tính chính cӫa dӳ liӋu mӣ
-
Tính sҹn sàng truy cұp: toàn bӝ dӳ liӋu phҧi luôn ӣ trҥng thái sҹn sàng và
không tӕQFKLSKtÿӇ tái tҥo, có thӇ tҧi xuӕng tӯ Internet. Dӳ liӋXFNJQJSKҧi
sҹn sàng ӣ dҥng tiӋn lӧi và có thӇ sӱDÿәi.
-
Tái sӱ dөng và phân phӕi lҥi: Dӳ liӋu phҧLÿѭӧc cung cҩSWKHRFiFÿLӅu khoҧn
FKRSKpSÿѭӧc tái sӱ dөng và tái phân phӕi, bao gӗm cҧ viӋc trӝn lүn vӟi các
tұp hӧp dӳ liӋu khác.
-
Tham gia toàn cҫu: mӑi QJѭӡi phҧi có thӇ sӱ dөng, tái sӱ dөng và phân phӕi
lҥi - NK{QJÿѭӧc phân biӋWÿӕi xӱ vӟLFiFOƭQKYӵc nӛ lӵc hoһc chӕng lҥi các
cá nhân hoһc nhóm.
&iFÿһc tính trên nhҵm nhҩn manh khҧ QăQJWѭѫQJWiFFӫa các hӋ thӕQJYjÿDGҥng
các tә chӭc làm viӋc cùng nhDXWiFÿӝQJÿӃn mӝt hoһc nhiӅu tұp dӳ liӋu vӟi nhau
trong hӋ thӕng mӣ.
Dӳ liӋu mӣ WKѭӡQJÿѭӧc dành nhiӅu sӵ quan tâm tӯ các nhà quҧn lý và nhân viên khu
vӵc công, nhӳQJQJѭӡLÿѭӧc giao nhiӋm vө ÿLӅu phӕi hoһc tә chӭc mӝt sáng kiӃn
Dӳ liӋu mӣ'RÿyGӳ liӋu mӣ WKѭӡQJÿѭӧc gҳn liӅn vӟi Chính phӫ mӣ phù hӧp vӟi
phong trào cӣi mӣ nói chung, tìm cách làm cho hoҥWÿӝng cӫa các chính phӫ trӣ nên
minh bҥch, có trách nhiӋm giҧLWUuQKYjÿiSӭng nhu cҫu cӫDQJѭӡi dân. Nó bao gӗm
FiFOêWѭӣng vӅ dân chӫ, quy trình hӧp pháp, sӵ tham gia cӫDQJѭӡi dân và dӳ liӋu
mӣ cӫa chính phӫ. Mӝt cách tiӃp cұn triӋWÿӇ ÿӕi vӟi chính phӫ mӣ FNJQJVӁ tìm cách
5
tҥRÿLӅu kiӋn cho sӵ tham gia cӫDQJѭӡi dân, ví dө, vào viӋc soҥn thҧo và sӱDÿәi luұt
pháp và thiӃt lұp ngân sách.
Lӧi ích cӫa dӳ liӋu mӣ:
-
Cho phép Chính phӫ ÿLӅXKjQKJL~SÿѭDUDQKӳng sáng tҥo trong kinh doanh,
dӏch vө cung cҩp giá trӏ xã hӝLYjWKѭѫQJPҥi.
-
/jFKuDNKyDÿӇ nâng cao chҩWOѭӧng dӏch vө và cuӝc sӕng.
-
Ĉҭy nhanh tiӃQÿӝ lan truyӅn các dӏch vө kӻ thuұt sӕ trên web và nӅn tҧng di
ÿӝng.
-
Trao quyӅn và thu hút sӵ tham gia cӫDQJѭӡi dân.
-
/jÿҫu vào cho nghiên cӭu và giáo dөc.
-
Giúp Chính phӫ cҧi thiӋQÿѭӧc tính minh bҥFKYjF{QJNKDLYuQJѭӡi dân luôn
Fyÿѭӧc các thông tin cҫn thiӃWÿӇ có thӇ VRViQKYjÿӕi chiӃu; cho phép tiӃp
cұn thông tin, dӳ liӋu chính là tҥRUDÿLӅu kiӋn thuұn lӧi nhҩWFKRQJѭӡi dân
thӵc hiӋn quyӅn dân chӫ và tham gia quҧn lý.
-
Giúp làm giҧPFKLSKtYjWăQJKLӋu quҧ hoҥWÿӝQJFKRFiFFѫTXDQ1KjQѭӟc,
các tә chӭc, Doanh nghiӋp và công dân.
HӋ thӕng dӳ liӋu mӣ là mӝt hӋ thӕng cho phép xuҩt bҧn, phân loҥi, tìm kiӃm và trӵc
quan hóa dӳ liӋX1Jѭӡi dùng có thӇ thao tác vӟi hӋ thӕng thông qua cәng dӳ liӋu
mӣ. Mӝt hӋ thӕng dӳ liӋu mӣ phҧLÿҧm bҧo các yêu cҫu sau:
-
Dӳ liӋu luôn sҹQVjQJÿӇ truy cұp.
-
Dӳ liӋu phҧi ÿѭӧc cұp nhұt
-
Các tұp dӳ liӋu phҧLÿѭӧFÿӏQKGDQKU}UjQJÿӇ OѭXWUӳ và truy vӃt.
-
Không chӭa các dӳ liӋu cá nhân hay tә chӭc nhҥy cҧm: dӳ liӋXÿӏnh danh, dӳ
liӋXÿLӇm sӕ cӫDWUѭӡng hӑc, dӳ liӋXWjLFKtQK«
-
Dӳ liӋu phҧLDQWRjQNK{QJÿѭӧc cài nhӳng yӃu tӕ gây hҥLYLUXVPmÿӝc tҩn
công thiӃt bӏ truy cұp cӫDQJѭӡi dùng.
6
-
Nguӗn dӳ liӋu phҧLWLQWѭӣng và có tә chӭc chӏu trách nhiӋm vӟi mӛi bӝ dӳ
liӋu, có chӳ NêÿLӋn tӱ, xuҩt xӭ, thӡi gian cӫa bӝ dӳ liӋu.
2.2 Giӟi thiӋu vӅ tұp dӳ liӋu
Tұp dӳ liӋu, hay tұp dӳ liӋu, chӍ ÿѫQJLҧn là mӝt tұp hӧp dӳ liӋXĈӏnh dҥQJÿѫQJLҧn
và phә biӃn nhҩt cho tұp dӳ liӋu tìm thҩy trӵc tuyӃn là bҧng tính hoһFÿӏnh dҥng csv
- mӝt tӋp duy nhҩWÿѭӧc tә chӭFGѭӟi dҥng bҧng gӗm các hàng và các thuӝc tính phân
ÿӏnh bҵng ký tӵ dҩu phҭy. Mӝt sӕ tұp dӳ liӋu sӁ ÿѭӧFOѭXWUӳ ӣ FiFÿӏnh dҥng khác
và chúng không nhҩt thiӃt phҧi là mӝt tӋSĈ{LNKLPӝt tұp dӳ liӋu có thӇ là mӝt tӋp
zip hoһFWKѭPөc chӭa nhiӅu bҧng dӳ liӋu vӟi dӳ liӋu liên quan.[10]
7URQJWUѭӡng hӧp dӳ liӋu dҥng bҧng, mӝt tұp dӳ liӋXWѭѫQJӭng vӟi mӝt hoһc nhiӅu
bҧQJFѫVӣ dӳ liӋXWURQJÿyPӛi cӝt cӫa bҧQJÿҥi diӋn cho mӝWÿһFWUѭQJKD\WKXӝc
tính cө thӇ và mӛLKjQJWѭѫQJӭng vӟi mӝt bҧn ghi (thӵc thӇ) nhҩWÿӏnh cӫa tұp dӳ
liӋXÿѭӧFÿӅ cұp.
Hình 2-1. Giͣi thi͏u v͉ t̵p dͷ li͏u
Các thӵc thӇ ÿѭӧc mô tҧ bӣi các loҥLÿһFWUѭQJJLӕQJQKDXÿѭӧc nhóm lҥLÿӇ tҥo thành
tұp dӳ liӋu.[12] Mӝt tұp dӳ liӋXQKѭÿmJLӟi thiӋu ӣ phҫn trên có thӇ là tұp hӧp cӫa
nhiӅu tұp tin dӳ liӋXYjÿѭӧc mô tҧ phҫn nào qua siêu dӳ liӋu (metadata).
7
Siêu dӳ liӋu (metadata): dҥng dӳ liӋu mô tҧ thông tin chi tiӃt vӅ dӳ liӋX7URQJFѫVӣ
dӳ liӋu, metadata là các sӱDÿәi các dҥng biӇu diӉn khác nhau cӫDFiFÿӕLWѭӧng trong
mӝWFѫVӣ dӳ liӋX7URQJFѫVӣ dӳ liӋu quan hӋ thuPHWDGDWDOjFiFÿӏQKQJKƭDFӫa
bҧng, cӝWFѫVӣ dӳ liӋu, view và nhiӅXÿӕLWѭӧng khác.
Trong kho dӳ liӋu, metadata là dҥQJÿӏQKQJKƭDGӳ liӋXQKѭEҧng, cӝt, mӝt báo cáo,
các luұt doanh nghiӋp hay nhӳng quy tҳc biӃQ ÿәi. Metadata bao quát tҩt cҧ các
SKѭѫQJGLӋn cӫa kho dӳ liӋu. Trong quҧn lý tұp tin, metadata chӭa các thông tin thuӝc
tính cӫa tұSWLQÿyQKѭWrQWұp tin, mô tҧ tóm tҳt, kích cӥ, ngày tҥo ra,..[1]
Metadata phҧi chӭa nhӳng thông tin:
-
Thông tin mô tҧ vӅ bҧn thân dӳ liӋu metadata
-
Thuұt toán sӱ dөQJÿӇ tәng hӧp dӳ liӋu
-
Thông tin vӅ các cá nhân và tә chӭFOLrQTXDQÿӃn dӳ liӋu mà metadata mô
tҧ
Hình 2-2 Ví dͭ t͝ chͱc cͯa m͡t t̵p dͷ li͏u
Metadata là dӳ liӋXÿӇ mô tҧ dӳ liӋu. Khi dӳ liӋXÿѭӧc cung cҩSFKRQJѭӡi dùng cuӕi,
thông tin metadata sӁ cung cҩp nhӳng thông tin cho phép hӑ hiӇXU}KѫQEҧn chҩt vӅ
8
dӳ liӋu mà hӑ ÿDQJFy1Kӳng thông tin này sӁ JL~SFKRQJѭӡLGQJFyÿѭӧc nhӳng
quyӃWÿӏnh sӱ dөQJÿ~QJÿҳn và phù hӧp vӅ dӳ liӋu mà hӑ có.
Hình 2-3 Ví dͭ t̵p dͷ li͏u d̩ng JSON (2006 - 2011 NYS Math Test Results by Grade - Citywide by Race-Ethnicity)
(Nguӗn: https://data.cityofnewyork.us/api/views/825b-niea/rows.json)
2.3 Thuӝc tính cӫa tұp dӳ liӋu
ThuӝFWtQKWKѭӡQJÿѭӧc mô tҧ bӣi mӝt tұp các giá trӏ WѭѫQJӭQJÿҥi diӋQFKRÿһc
ÿLӇm cӫDÿӕLWѭӧng dӳ liӋu trong tұp dӳ liӋu.
Ví dөÿӕLWѭӧng dӳ liӋu trong tұp dӳ liӋu là sinh viên thì sӁ có các thuӝFWtQKQKѭ
mã sӕ VLQKYLrQWrQVLQKYLrQQJj\WKiQJQăPVLQKÿLӇm sӕNKRDÿDQJWKHR
hӑF«ÿӇ mô tҧ nhӳQJÿһFÿLӇm cӫa mӝt sinh viên.
Mӝt thuӝFWtQK>@ÿһFWUѭQJÿҫu vào, thӭ nguyên, biӃn hoһc dӵ ÿRiQW\QJӳ cҧnh
áp dөng) là mӝt dһFÿLӇm duy nhҩt cӫa tұp dӳ liӋu. Mӛi cӝt trong Bҧng 1 là mӝt thuӝc
tính. Các thuӝc tính có thӇ là kiӇu dӳ liӋu sӕ, phân loҥi, ngày-giӡ YăQ Eҧn hoһc
Boolean.
DFTA
Postcode Borough
ProgramPhone Funded
10010 MANHATTAN 914-997-4333 Y
MonHourOpen MonHourClose
9:00
5:00
9
10024 MANHATTAN 212-787-7120
11362 QUEENS
718-225-6750
10458 BRONX
718-365-4044
Y
Y
Y
9:00
8:00
9:00
5:00
4:00
5:00
B̫ng 1 Ví dͭ m͡t b̫ng dͷ li͏u (Department for the Aging (DFTA) Geriatric Mental Health
Contracted Providers)
Thuӝc tính cӫa dӳ liӋu có thӇ ÿѭӧc phân loҥi dӵa trên loҥi cӫa giá trӏ ÿҥi diӋn cho
thuӝc tính. Có thӇ chia thành thuӝc tính loҥLÿӏnh tính (Qualitative) và thuӝc tính
loҥLÿӏQKOѭӧng (Quantitative).[8]
ThuӝFWtQKÿӏnh tính mô tҧ FiFWKѭӟFÿRFKӫ quan hoһc giҧi thích vӅ phҭm chҩt hoһc
ÿһFÿLӇm hoһc nhӳng thӭ không thӇ ÿROѭӡng bҵng dӳ liӋu sӕ hӑc, chҷng hҥQQKѭ
màu tóc, màu da, quӕc tӏFK«7KXӝFWtQKÿӏnh tính rҩt tӕWÿӇ giúp trҧ lӡi các câu hӓi
tҥi sao. Ví dө: tҥi sao mӝt sӕ QJѭӡi có thӇ thích mӝt cҫu thӫ bóng dá nhҩWÿӏnh hoһc
thích làm mӝWKjQKÿӝQJQjRÿy ÿӑFViFKÿҥS[HKѫQQKӳQJQJѭӡLNKiFKѫQQKӳng
QJѭӡi khác.[9]
ThuӝFWtQKÿӏnh tính gӗm:
-
ThuӝFWtQKGDQKQJKƭDQRPLQDO- OLrQTXDQÿӃn tên: Các giá trӏ cӫa thuӝc
WtQKGDQKQJKƭDOjGҥng ký tӵ OLrQTXDQÿӃn tên cӫa sӵ vұt, mӝt sӕ loҥi ký hiӋu.
Giá trӏ cӫa thuӝFWtQKGDQKQJKƭDÿҥi diӋn cho mӝt sӕ danh mөc hoһc trҥng
thái. ThuӝFWtQKGDQKQJKƭDOjWKXӝc tính phân loҥi và không có thӭ tӵ (cҩp
bұc, vӏ trí) giӳa các giá trӏ cӫa thuӝFWtQKGDQKQJKƭD
Ví dө: màu mҳt: trҳng, xanh...
-
Thuӝc tính nhӏ phân (binary): thuӝc tính chӍ có 2 giá trӏ/trҥng thái. Ví dө có
hoһc không, bӏ ҧQKKѭӣng hoһc không bӏ ҧQKKѭӣQJÿ~QJKRһc sai.
LĈӕi xӭng: Cҧ hai giá trӏ ÿӅu quan trӑQJQKѭQKDX*Lӟi tính).
LL.K{QJÿӕi xӭng: Cҧ hai giá trӏ không quan trӑQJQKѭQKDX.Ӄt quҧ)
Ví dө: giӟi tính: nam, nӳ;
kӃt quҧ xét nghiӋPGѭѫQJWtQKkPWtQK
- Xem thêm -