Đăng ký Đăng nhập
Trang chủ Rút trích các thuộc tính khoa học của các tập dữ liệu mở dạng json ...

Tài liệu Rút trích các thuộc tính khoa học của các tập dữ liệu mở dạng json

.PDF
60
1
116

Mô tả:

ĈҤI HӐC QUӔC GIA TP. HCM 75ѬӠ1*ĈҤI HӐC BÁCH KHOA -------------------- NGUYӈN HӲU NHÂN RÚT TRÍCH CÁC THUӜC TÍNH KHOA HӐC CӪA CÁC TҰP DӲ LIӊU MӢ DҤNG JSON Chuyên ngành: HӋ Thӕng Thông Tin Quҧn Lý Mã sӕ: 8340405 LUҰN 9Ă17+Ҥ&6Ƭ TP. HӖ CHÍ MINH, tháng 08 QăP &Ð1*75Î1+ĈѬӦC HOÀN THÀNH TҤI: 75ѬӠ1*ĈҤI HӐC BÁCH KHOA ± Ĉ+4*-HCM Cán bӝ Kѭӟng dүn khoa hӑF3*676Ĉһng Trҫn Khánh Cán bӝ Kѭӟng dүn khoa hӑc: TS. Lê Hӗng Trang Cán bӝ chҩm nhұn xét 1: PGS.TS. NguyӉn TuҩQĈăQJ Cán bӝ chҩm nhұn xét 23*6769NJ7KDQK1JX\rQ LuұQYăQWKҥFVƭÿѭӧc bҧo vӋ tҥL7UѭӡQJĈҥi hӑF%iFK.KRDĈ+4G Tp. HCM QJj\WKiQJQăP (trӵc tuyӃn) Thành phҫn HӝLÿӗQJÿiQKJLiOXұQYăQWKҥFVƭJӗm: 1. Chӫ tӏch hӝLÿӗng: PGS.TS. Trҫn Minh Quang 7KѭNê763KDQ7Uӑng Nhân 3. GV phҧn biӋn 1: PGS.TS. NguyӉn TuҩQĈăQJ 4. GV phҧn biӋQ3*6769NJ7KDQh Nguyên 5. Ӫy viên: PGS.TS. NguyӉn Thanh Bình Xác nhұn cӫa Chӫ tӏch HӝLÿӗQJÿiQKJLi/9Yj7Uѭӣng Khoa quҧn lý chuyên ngành sau khi luұQYăQÿmÿѭӧc sӱa chӳa (nӃu có). CHӪ TӎCH HӜ,ĈӖNG 75ѬӢNG KHOA KHOA HӐC VÀ KӺ THUҰT MÁY TÍNH ĈҤ,+Ӑ&48Ӕ&*,$73+&0 75ѬӠ1*ĈҤ,+Ӑ&%È&+.+2$ &Ӝ1*+Ñ$;­+Ӝ,&+Ӫ1*+Ƭ$9,ӊ71$0 ĈӝFOұS- 7ӵGR- +ҥQKSK~F NHIӊM VӨ LUҰ19Ă17+Ҥ&6Ƭ +ӑWrQKӑFYLrQ1JX\ӉQ+ӳX1KkQ .................................... 06+9« 1Jj\WKiQJQăPVLQK ...................................... 1ѫLVLQK7S+&0« &KX\rQQJjQK+ӋWKӕQJWK{QJWLQTXҧQOê .......................... 0mVӕ : 8340405« I. 7Ç1Ĉӄ7¬,5~WWUtFKFiFWKXӝFWtQKNKRDKӑFFӫDWұSGӳOLӋXPӣGҥQJ-621 II. 1+,ӊ09Ө9¬1Ӝ,'81* ÿѭDUDÿѭӧFSKѭѫQJSKiSNKҧWKLÿӇU~WWUtFK WKXWKұS ÿѭӧFFiFWKXӝFWtQKNKRDKӑFFӫDFiFWұSGӳOLӋXPӣGҥQJ-621JL~S WăQJKLӋXTXҧFӫDTXiWUuQKSKkQWtFKGӳOLӋX III. 1*¬<1+Ұ11+,ӊ09Ө22/02/2021 IV. 1*¬<+2¬17+¬1+1+,ӊ09Ө 13/06/2021 V. &È1%Ӝ+ѬӞ1*'Ү1 3*676ĈһQJ7UҫQ.KiQK76/r+ӗQJ7UDQJ 7S+&0QJj\WKiQJQăP21. &È1%Ӝ+ѬӞ1*'Ү1 +ӑWrQYjFKӳNê &+Ӫ1+,ӊ0%Ӝ0Ð1Ĉ¬27Ҥ2 +ӑWrQYjFKӳNê 75ѬӢ1*.+2$.+2$+Ӑ&9¬.Ӻ7+8Ұ7 MÁY TÍNH +ӑWrQYjFKӳNê ii LӠI CҦ0Ѫ1 Tôi xin chân thành cҧPѫQÿӃn tҩt cҧ mӑLQJѭӡi, thҫy, cô, các anh chӏ nghiên cӭu sinh, hӑc viên cao hӑc, các bҥn sinh viên nhӳQJQJѭӡLÿmJL~Sÿӥ tôi trong quá trính thӵc hiӋQYjKRjQWKjQKÿӅ tài luұQYăQWKҥFVƭQj\ Ĉһc biӋt, tôi xin gӱi lӡi cҧPѫQÿӃn các thҫ\Kѭӟng dүn khoa hӑc cӫa tôi, PGS.TS. Ĉһng Trҫn Khánh và TS. Lê HӗQJ7UDQJÿmKӛ trӧÿӝng viên, chia sҿ kinh nghiӋm vӟi tôi trong cҧ quá trình theo hӑFFKѭѫQJWUuQKVDXÿҥi hӑc tҥLWUѭӡng. Thành phӕ Hӗ &Kt0LQKWKiQJQăP iii TÓM TҲT Dӳ liӋu mӣ là dӳ liӋXÿѭӧc cung cҩp rӝng rãi trên mҥQJFKRSKpSÿҫ\ÿӫ các quyӅn truy cұp, tái sӱ dөng và phân phӕi lҥi và cho phép sӵ tham gia toàn cҫXÿyQJJySYjR kho dӳ liӋXÿy6ӵ bùng nә cӫa thông tin và các quyӃWÿӏnh quan trӑng trong các tә chӭc ngày càng dӵa trên dӳ liӋu khiӃn dӳ liӋu trӣ thành mӝt loҥi tài sҧn mӟi. ViӋc ra quyӃWÿLQKGӵa vào dӳ liӋu khiӃn cho nhu cҫu phân tích dӳ liӋu trӣ nên phә biӃn. Cây ÿLQKEDGӳ liӋu lӟn, phân tích dӳ liӋu và giҧi thuұt hӑc máy trӣ thành công cө mҥnh mӁ ÿӇ cung cҩp nhӳng dӵ ÿRiQÿ~QJÿҳn giúp viӋc hӛ trӧ ra quyӃWÿӏnh trong các tә chӭc, chính sách cӫD1Kj1ѭӟc trӣ QrQFKtQK[iFYjÿ~QJWUӑQJWkPKѫQ%rQFҥnh viӋc có mӝt giҧi thuұt hӑc máy tӕLѭXPӝt hҥ tҫng tính toán mҥnh, khҧ QăQJSKkQ tích dӳ liӋu tӕt thì kӃt quҧ ÿҫu ra cӫa viӋc dӵ ÿRiQFzQSKө thuӝFYjRÿӝ chính xác, ÿҫ\ÿӫ cӫa dӳ liӋXÿҫXYjRĈӅ WjL[HP[pWFiFSKѭѫQJSKiSOjPFKRWұp dӳ liӋu trӣ nên tӕWKѫQWK{QJTXDYLӋc lӵa chӑn các thuӝc tính khoa hӑc, hay thuӝc tính quan trӑQJ&iFSKѭѫQJSKiSÿѭӧFÿӅ cұSWURQJÿӅ tài bao gӗm viӋc phân tích các thuӝc tính thông qua các khung phân loҥi thuӝc tính, dӵa vào truy vҩn tìm kiӃPÿӇ [iFÿӏnh thuӝc tính nào quan trӑng. Bên cҥQKÿyYLӋc áp dөng lý thuyӃt thông tin, kiӃn pháp vӅ thӕQJNrÿӇ ÿiQKJLiPӭFÿӝ quan trӑng hoһc liên quan lүn nhau giӳa các thuӝc tính và giӳa các thuӝFWtQKÿҫu vào vӟi thuӝc tính mөc tiêu, là kӃt quҧ cӫa mô hình dӵ ÿRiQPi\KӑFÿӇ tӯ ÿyFKӑn lӑFÿѭӧc các thuӝc tính quan trӑng phù hӧp nhҩt. Ngoҧi ra viӋc ӭng dөng máy hӑc giúp xây dӵQJÿѭӧFFiFSKѭѫQJSKiSU~WWUtFKGӳ liӋu mӝt cách tӵ ÿӝng thông qua viӋFÿiQKJLiNӃt quҧ cӫa các tұp thuӝc tính vӟi kӃt quҧ ÿҫu ra cӫa mô hình tӯ ÿyFKӑn lӑFÿѭӧc tұp thuӝc tính tӕt nhҩt theo yêu cҫu. iv ABSTRACT Open data is data that is widely available on the network, allowing full rights of access, reuse, and redistribution and allowing global participation to contribute to that data warehouse. The explosion of information and critical decisions in increasingly datadriven organizations makes data a new asset class. Data-driven decision making makes the need for data analytics popular. Big data trident, data analytics and machine learning algorithms become powerful tools to provide accurate predictions that make decision support in organizations, government policies become more accurate more precise and to the point. In addition to having an optimal machine learning algorithm, a strong computing infrastructure, and good data analysis capabilities, the output of the prediction depends on the accuracy and completeness of the input data... The topic considers methods to make the data set better through the selection of scientific attributes, or important attributes. The methods mentioned in the topic include analyzing attributes through attribute classification frameworks, based on search queries to determine which attributes are important. Besides, the application of information theory, knowledge of statistics to evaluate the importance or interrelationship between attributes and between input attributes and the target attribute, is the result of machine learning predictive models to select the most suitable important attributes. In addition, the application of machine learning helps to build automatic data extraction methods by evaluating the results of the attribute sets with the output results of the model, thereby selecting the set of attributes best on desired. v LӠ,&$0Ĉ2$1 Tôi, NguyӉn HӳX1KkQ[LQFDPÿRDQÿӅ tài luұQYăQWKҥFVƭ³5~WWULFKFiFWKXӝc tính khoa hӑc cӫa các tұp dӳ liӋu mӣ dҥQJ-621´YjF{QJYLӋFÿѭӧFWUuQKEj\WURQJÿӅ tài này là cӫa tôi. Tôi xác nhұn rҵng: - Công viӋFQj\ÿѭӧc thӵc hiӋn toàn bӝ hoһc chӫ yӃXNKLÿDQJWKHRKӑFFKѭѫQJ trình thҥFVƭWҥLWUѭӡQJĈҥi hӑc này. - 7Uѭӡng hӧp bҩt kǤ phҫn nào cӫa luұQYăQQj\WUѭӟFÿk\ÿmÿѭӧc nӝp cho mӝt bҵng cҩp hoһc bҩt kǤ YăQEҵng nào khác tҥLWUѭӡQJĈҥi hӑc này hoһc bҩt kǤ FѫVӣ giáo dөc nào khác, các phҫQQj\ÿmÿѭӧc trích dүn rõ ràng. - Khi tôi tham khҧRF{QJWUuQKÿm[Xҩt bҧn cӫa nhӳQJQJѭӡi khác, các phҫn này OX{Qÿѭӧc ghi nhұn rõ ràng. - Trích dүn tӯ tác phҭm cӫDQJѭӡi khác, nguӗQOX{Qÿѭӧc cung cҩp. Ngoҥi trӯ nhӳng trích dүQQKѭYұy, luұQYăQQj\KRjQWRjQOjF{QJYLӋc cӫa riêng tôi. - Tôi thӯa nhұn tҩt cҧ các nguӗn trӧ giúp chính. Thành phӕ Hӗ Chí 0LQKWKiQJQăP Hӑc viên NguyӉn Hӳu Nhân vi MӨC LӨC NHIӊM VӨ LUҰ19Ă17+Ҥ&6Ƭ ..................................................................................................i LӠI CҦ0Ѫ1 .................................................................................................................................... ii TÓM TҲT ......................................................................................................................................... iii ABSTRACT ...................................................................................................................................... iv LӠ,&$0Ĉ2$1 .............................................................................................................................. v DANH MӨC HÌNH ........................................................................................................................ viii DANH MӨC BҦNG ......................................................................................................................... ix 1 MӢ ĈҪU ....................................................................................................................................1 1.1 Lý do chӑQÿӅ tài .....................................................................................................................1 1.2 Mөc tiêu ...................................................................................................................................1 1.3 Giӟi hҥn nghiên cӭu cӫDÿӅ tài...............................................................................................2 1.4 KӃt quҧ cө thӇ ..........................................................................................................................3 1.5 éQJKƭDWKӵc tiӉn .....................................................................................................................3 2 TӘNG QUAN ............................................................................................................................3 2.1 Giӟi thiӋu vӅ dӳ liӋu mӣ .........................................................................................................3 2.2 Giӟi thiӋu vӅ tұp dӳ liӋu .........................................................................................................6 2.3 Thuӝc tính cӫa tұp dӳ liӋu......................................................................................................8 3KѭѫQJSKiSU~WWUtFKWKXӝc tính cӫa tұp dӳ liӋu ............................................................ 12 3KѭѫQJSKiSU~WWUtFKGӵa vào khҧo sát và tóm tҳt tұp dӳ liӋu ....................................... 12 3KѭѫQJSKiSU~WWUtFKGӵa trên bӝ lӑc thuӝFWtQKYjÿiQKJLiÿӝ quan trӑng thuӝc tính 13 &iFSKѭѫQJSKiSEDRJyLYjSKѭѫQJSKiSQK~QJ .......................................................... 14 2.5 JSON ..................................................................................................................................... 17 2.6 HӋ thӕng quҧn lý dӳ liӋu mӣ CKAN .................................................................................. 19 3 3+ѬѪ1*3+È31*+,Ç1&ӬU ......................................................................................... 21 3KѭѫQJSKiSQJKLrQFӭu..................................................................................................... 21 3KѭѫQJSKiSÿiQKJLi ......................................................................................................... 21 3.3 Tұp dӳ liӋu mӣ cho quá trình nghiên cӭu, thӵc nghiӋm .................................................. 22 3.4 Dӳ liӋXÿҫu ra ....................................................................................................................... 22 4 &È&3+ѬѪ1*3+È3/ӴA CHӐN THUӜC TÍNH DҤNG LӐC .................................. 23 3KѭѫQJSKiSGӵa trên sӵ WѭѫQJTXDQJLӳa các thuӝc tính .............................................. 23 4.2 Lӵa chӑn thuӝFWtQKWUrQQJѭӥQJSKѭѫQJVDL ................................................................... 25 3KѭѫQJSKiSOӵa chӑn thuӝc tính ANOVA ....................................................................... 26 vii 3KѭѫQJSKiSOӵa chӑn sӱ dөQJ&KLEuQKSKѭѫQJ ............................................................ 31 3KѭѫQJSKiSOӵa chӑn bҵQJWK{QJWLQWѭѫQJKӛÿӝ WăQJWK{QJWLQ................................ 33 4.6 Mӝt sӕ SKѭѫQJSKiSNKiF ................................................................................................... 37 3KѭѫQJSKiSFKӑn lӑc thuӝc tính quan trӑng.................................................................. 37 4.6.2 Phép phân tích thành phҫn chính (Principle Component Analysis ± PCA) .................... 39 5 CÁC PHѬѪ1*3+È3/ӴA CHӐN THUӜC TÍNH DҤNG BAO GÓI.......................... 39 5.1 Forward Selection ................................................................................................................ 39 5.2 Backward Elimination ......................................................................................................... 41 6 ĈÈ1+*,È&È&3+ѬѪ1*3+È3 ..................................................................................... 44 7 KӂT LUҰN ............................................................................................................................. 46 TÀI LIӊU THAM KHҦO ............................................................................................................. 47 viii DANH MӨC HÌNH Hình 2-1. Giӟi thiӋu vӅ tұp dӳ liӋu .....................................................................................................6 Hình 2-2 Ví dө tә chӭc cӫa mӝt tұp dӳ liӋu ........................................................................................7 Hình 2-3 Ví dө tұp dӳ liӋu dҥng JSON (2006 - 2011 NYS Math Test Results by Grade - Citywide by Race-Ethnicity) ..............................................................................................................................8 Hình 2-4 Phân loҥi thuӝc tính .......................................................................................................... 11 Hình 2-5 Quá trình thӵc hiӋQSKѭѫQJSKiSOӑc ............................................................................... 14 Hình 2-3KѭѫQJSKiSIRUZDUGVHOHFWLRQ ........................................................................................ 15 Hình 2-3KѭѫQJSKiSEDFNZDUd elimination ................................................................................. 15 Hình 2-3KѭѫQJSKiSOӵa chӑn thuӝc tính dҥng bao gói ................................................................ 16 Hình 2-9 Ví dө cҩu trúc JSON ......................................................................................................... 18 Hình 2-10 KiӃn trúc cӫa CKAN....................................................................................................... 20 Hình 3-ĈҫXYjRYjÿҫu ra cӫDSKѭѫQJSKiS ................................................................................. 22 Hình 4-1 KӃt quҧ ÿӝ WѭѫQJTXDQFӫa các thuӝc tính ........................................................................ 24 Hình 4-2 KӃt quҧ cӫa ANOVA f test cho thuӝc tính liên tөc .......................................................... 29 Hình 4-3 KӃt quҧ cӫa ANOVA f test cho thuӝc tính ....................................................................... 31 Hình 4-4 KӃt quҧ cӫDSKѭѫQJSKiS&KLEuQKSKѭѫQJ ..................................................................... 33 Hình 4-5 KӃt quҧ cӫDSKѭѫQJSKiSWK{QJWLQWѭѫQJKӛ................................................................... 36 Hình 4-6 KӃt quҧ cӫDSKѭѫQJSKiSFKӑn thuӝc tính quan trӑng ..................................................... 38 Hình 5-1 KӃt quҧ cӫDSKѭѫQJSKiSIRUZDUGVHOHFWLRQ .................................................................... 40 Hình 5-2 KӃt quҧ thӱ nghiӋm loҥi backward elimination ................................................................ 42 Hình 5-3 KӃt quҧ lӵa chӑn 7 thuӝc tính vӟLSKѭѫQJSKiSEDFNZDUGHOLPLQDWLRQVӱ dөQJWKѭYLӋn RFE .................................................................................................................................................. 43 ix DANH MӨC BҦNG Bҧng 1 Ví dө mӝt bҧng dӳ liӋu (Department for the Aging (DFTA) Geriatric Mental Health Contracted Providers) .........................................................................................................................9 1 MӢ ĈҪU 1.1 Lý do chӑQÿӅ tài Phân tích dӳ liӋu là mӝWOƭQKYӵc ngày càng hҩp dүQYjÿyQJYDLWUzTXDQWUӑQJKѫQ trong viӋc hӛ trӧ ra các quyӃWÿӏnh cho các cá nhân, tә chӭc thay vì chӍ dӵa vào các yӃu tӕ kinh nghiӋm, cҧPWtQKFiLQKuQÿѫQGLӋn cӫa mӝt sӕ QJѭӡLÿӭQJÿҫu. Bên cҥQKÿyVӵ bùng nә thông tin ngày nay làm cho dӳ liӋu là vô cùng nhiӅXYjÿDGҥng trên nhiӅXOƭQKYӵc. Nhu cҫu phân tích dӳ liӋu và sӵ bùng nә cӫa dӳ liӋu tҥo ra các giá trӏ to lӟQÿӕi vӟi các tә chӭFĈLӅu này làm cho dӳ liӋXÿmGҫn trӣ thành mӝt loҥi tài sҧn mӟi bên cҥnh các dҥng tài sҧn truyӅn thӕng.ViӋc phân tích dӳ liӋu sӁ trӣ nên hiӋu quҧ KѫQQӃXÿӕLWѭӧng thӵc hiӋn có kinh nghiӋm, kiӃn pháp vӅ FiFOƭQKYӵc liên quan và dӳ liӋXSKkQWtFKÿѭӧFOѭXWUӳ Gѭӟi dҥng các tұp dӳ liӋX GDWDVHW ÿѭӧc tӕi ѭXKyDWK{QJTXDYLӋc rút trích, lӵa chӑQÿѭӧc các thuӝFWtQKÿһFWUѭQJFҫn thiӃt. Xuҩt phát tӯ thӵc tiӉn nêu trên, viӋc nghiên cӭXÿӅ WjL³/ӵa chӑn, rút trích các thuӝc tính khoa hӑc cӫa các tұp dӳ liӋu mӣ dҥQJ-621´ÿӇ ÿѭDUDFiFJLҧLSKiSSKѭѫQJ pháp lӵa chӑn các thuӝc tính cӫa tұp dӳ liӋu mӣ JL~SWăQJKLӋu quҧ cӫa nhu cҫu phân tích dӳ liӋu, hӛ trӧ tӕWKѫQFKRYLӋc ra quyӃWÿӏnh là mӝt viӋc làm cҫn thiӃt và sӁ ÿѭӧc hӑc viên trình bày cө thӇ KѫQWURQJFiFSKҫn sau. 1.2 Mөc tiêu Mͭc tiêu t͝ng quát: ÿѭDUDÿѭӧFSKѭѫQJSKiSNKҧ WKLÿӇ rút trích, thu thұSÿѭӧc các thuӝc tính khoa hӑc cӫa các tұp dӳ liӋu mӣ dҥQJ-621JL~SWăQJKLӋu quҧ cӫa quá trình phân tích dӳ liӋu. Mͭc tiêu cͭ th͋: - Nghiên cӭu và nҳPÿѭӧc các khái niӋPFѫEҧn cӫa tұp dӳ liӋu, các thuӝc tính cӫa tұp dӳ liӋu. - Phân loҥi các thuӝFWtQKGQJÿӇ tóm tҳt tұp dӳ liӋu, các thuӝc tính cӫa siêu dӳ liӋu. - Thu thұp, xây dӵng mӝt tұp các câu truy vҩn cӫDQJѭӡi dùng khi tìm kiӃm tұp dӳ liӋu ӣ mӝt sӕ OƭQKYӵc. 2 - Tìm hiӇXFiFSKѭѫQJSKiSÿiQKJLiPӭFÿӝ quan trӑQJÿӝ phӫ cӫa tӯng thuӝc WtQKÿһFWUѭQJULrQJOҿ cӫa tұp dӳ liӋu. - Tìm hiӇXFiFSKѭѫQJSKiSÿӇ ÿiQKJLiPӭFÿӝ OLrQTXDQÿӝ quan trӑng giӳa các thuӝFWtQKÿһFWUѭQJYӟi nhau và giӳa các thuӝFWtQKÿӝc lұp vӟi thuӝc tính mөFWLrXÿҫu ra cӫa viӋc phân tích dӳ liӋu, sӱ dөng các giҧi thuұt, mô hình hӑFPi\ÿӇ dӵ ÿRiQNӃt quҧ. - Xây dӵQJSKѭѫQJSKiSSKkQWtFKGӳ liӋXÿӇ phân tích các câu truy vҩn cӫa QJѭӡi dùng. - ĈiQKJLiÿѭӧc tính khҧ thi cӫDSKѭѫQJSKiS[iFÿӏnh các thuӝc tính khoa hӑc cӫa tұp dӳ liӋu và hoàn cҧnh áp dөng cө thӇ. K͇t qu̫: - Giҧi quyӃWÿѭӧc vҩQÿӅ U~WWUtFKÿѭӧc thuӝc tính khoa hӑc cӫa tұp dӳ liӋu. - Áp dөng cho tұp dӳ liӋu mӣ dҥng JSON và các dҥng dӳ liӋu có cҩu trúc khác csv, không áp dөng cho các tұp dӳ liӋu dҥng graph, dҥng hình ҧnh... - Mong muӕn có khҧ QăQJJL~SQkQJFDRKLӋu quҧ cӫa viӋc phân tích dӳ liӋu sӱ dөng các giҧi thuұt hӑc máy. 1.3 Giӟi hҥn nghiên cӭu cӫDÿӅ tài Dӳ liӋu mӣ là dӳ liӋu cӫa rҩt nhiӅXOƭQKYӵc khác nhau. Trong khҧ QăQJFӫDÿӅ tài chӍ lӵa chӑn mӝWYjLOƭQKYӵc nhӓ ÿӇ ÿiQKJLi, hiӋn thӵc khҧ QăQJU~WWUtFKFiFWKXӝc tính khoa hӑc. Xây dӵng, thu thұp các câu truy vҩn cӫDQJѭӡi dùng tìm kiӃPFNJQJFyJLӟi hҥn và chӫ yӃXOjQJѭӡi dùng có thӵc hành, hiӇu biӃWFѫEҧn vӅ dӳ liӋXĈӅ WjLFKѭDÿiQKJLi ÿѭӧc các câu truy vҩn cӫDQJѭӡi dùng không quen thuӝc viӋc thao tác vӟi các tұp dӳ liӋu hoһc không biӃt vӅ tұp dӳ liӋX'RÿyFKҳc chҳn sӁ có sӵ thiên lӋch trong viӋc xây dӵng các câu truy vҩn và lӏch sӱ tìm kiӃm tұp dӳ liӋu. ViӋc thu thұp các tұp dӳ liӋXÿӇ ÿiQKJLiFNJQJFyKҥn chӃ và viӋFÿiQKJLiFiFWKXӝc tính cӫa tұp dӳ liӋu và siêu dӳ liӋu ít nhiӅXFNJQJFyVӵ chӫ quan cӫDQJѭӡi thӵc hiӋn. 3 &iFSKѭѫQJSKiSJLҧi thuұt nghiên cӭu sӱ dөng nhiӅu kiӃn pháp vӅ toán hӑc, xác suҩt thӕng kê, lý thuyӃt thông tin, cùng vӟi các hҥn chӃ vӅ mһt kiӃn pháp cӫa hӑc viên có thӇ khiӃn kӃt quҧ chӍ phù hӧp cho mӝWYjLWUѭӡng hӧp, khó áp dөQJÿҥi trà, tәng quan cho mӑi tұp dӳ liӋu. Nghiên cӭu chӍ tұp trung chính vào các tұp dӳ liӋu dҥng có cҩu trúc csv, JSON, không áp dөng rӝQJUmLÿѭӧc cho các tұp dӳ liӋu có cҩXWU~FNKiFQKѭ[POKD\FiFWұp dӳ liӋu dҥng phi cҩu trúc khác. 1.4 KӃt quҧ cө thӇ ĈѭDUDÿѭӧc giҧi pháp khҧ thi, mô hình phù hӧp có khҧ QăQJWtFKKӧp vào các hӋ thӕng sҹn có. Prototype thӵc nghiӋm. 1.5 éQJKƭDWKӵc tiӉn ViӋc rút trích các thuӝc tính khoa hӑc cӫa tұp dӳ liӋu mӣ WK{QJTXDFiFSKѭѫQJSKiS thӕng kê hoһFSKѭѫQJSKiSOӑc lӵa giúp làm giҧm sӕ chiӅu cӫa tұp dӳ liӋu, tӕLѭXKyD kӃt quҧ phân tích dӳ liӋu, cҧi thiӋn mô hình dӵ ÿRiQKӑc máy, tӯ ÿyPDQJOҥi nhӳng kӃt quҧ dӵ ÿRiQFKtQK[iFKѫQQkQJFDo khҧ QăQJWiLVӱ dөng cӫa tұp dӳ liӋu mӣ. 2 TӘNG QUAN 2.1 Giӟi thiӋu vӅ dӳ liӋu mӣ Ngày nay, bên cҥnh các dҥng tài sҧn sӣ hӳu truyӅn thӕQJQKѭWLӅn bҥc, vàng, bҩWÿӝng sҧn... dӳ liӋu vӟi tҫm quan trӑng ngày càng lӟQÿmWUӣ thành mӝt dҥng tài sҧn mӟi cӫa các tә chӭc sӣ hӳu nó. Dӳ liӋu thӇ hiӋn vai trò cӵc kǤ quan trӑQJÿӕi vӟi sӵ phát triӇn cӫa tҩt cҧ FiFOƭQKYӵc, tӯ kinh tӃYăQKyDF{QJQJKӋ, kӻ thuұt tӟi giáo dөc, y tӃ, xã hӝi. ĈӇ hiӋn thӵc hóa nhӳng ҧQKKѭӣng tích cӵc, khai phá ra các giá trӏ cӫa dӳ liӋu, khoa hӑc dӳ liӋu, phân tích dӳ liӋXÿmYjÿDQJSKiWWULӇn bùng nә QKѭPӝt sӵ xXKѭӟng tҩt yӃX;XKѭӟQJQj\ÿmGүn tӟi nhu cҫu chia sҿ dӳ liӋu, cung cҩp dӳ liӋu cho mӑLQJѭӡi 4 dùng chung, tӯ ÿyKuQKWKjQKQrQPӝt mô hình dӳ liӋu mӣ. ViӋc cung cҩp Dӳ liӋu mӣ cӫa mӝt Chính phӫ có ҧQKKѭӣng rҩt lӟQÿӃn kinh tӃ, xã hӝLYjÿDQJWUӣ thành mӝWWLrXFKtÿiQKJLiFKtQKWURQJEӝ chӍ WLrXÿiQKJLiFӫa Liên hiӋp quӕc và các tә chӭc quӕc tӃ vӅ xӃp hҥng phát triӇn Chính phӫ ÿLӋn tӱ. Dӳ liӋu mӣ là dӳ liӋXÿѭӧc cung cҩp miӉn phí cho mӑLQJѭӡi, cho phép tái sӱ dөng hoһc tái phân phӕi bӣi bҩt kǤ cá nhân, tә chӭc nào mà không bӏ ràng buӝc bӣi bҧn quyӅn hoһFFiFFѫFKӃ kiӇm soát.[2] &iFÿһc tính chính cӫa dӳ liӋu mӣ - Tính sҹn sàng truy cұp: toàn bӝ dӳ liӋu phҧi luôn ӣ trҥng thái sҹn sàng và không tӕQFKLSKtÿӇ tái tҥo, có thӇ tҧi xuӕng tӯ Internet. Dӳ liӋXFNJQJSKҧi sҹn sàng ӣ dҥng tiӋn lӧi và có thӇ sӱDÿәi. - Tái sӱ dөng và phân phӕi lҥi: Dӳ liӋu phҧLÿѭӧc cung cҩSWKHRFiFÿLӅu khoҧn FKRSKpSÿѭӧc tái sӱ dөng và tái phân phӕi, bao gӗm cҧ viӋc trӝn lүn vӟi các tұp hӧp dӳ liӋu khác. - Tham gia toàn cҫu: mӑi QJѭӡi phҧi có thӇ sӱ dөng, tái sӱ dөng và phân phӕi lҥi - NK{QJÿѭӧc phân biӋWÿӕi xӱ vӟLFiFOƭQKYӵc nӛ lӵc hoһc chӕng lҥi các cá nhân hoһc nhóm. &iFÿһc tính trên nhҵm nhҩn manh khҧ QăQJWѭѫQJWiFFӫa các hӋ thӕQJYjÿDGҥng các tә chӭc làm viӋc cùng nhDXWiFÿӝQJÿӃn mӝt hoһc nhiӅu tұp dӳ liӋu vӟi nhau trong hӋ thӕng mӣ. Dӳ liӋu mӣ WKѭӡQJÿѭӧc dành nhiӅu sӵ quan tâm tӯ các nhà quҧn lý và nhân viên khu vӵc công, nhӳQJQJѭӡLÿѭӧc giao nhiӋm vө ÿLӅu phӕi hoһc tә chӭc mӝt sáng kiӃn Dӳ liӋu mӣ'RÿyGӳ liӋu mӣ WKѭӡQJÿѭӧc gҳn liӅn vӟi Chính phӫ mӣ phù hӧp vӟi phong trào cӣi mӣ nói chung, tìm cách làm cho hoҥWÿӝng cӫa các chính phӫ trӣ nên minh bҥch, có trách nhiӋm giҧLWUuQKYjÿiSӭng nhu cҫu cӫDQJѭӡi dân. Nó bao gӗm FiFOêWѭӣng vӅ dân chӫ, quy trình hӧp pháp, sӵ tham gia cӫDQJѭӡi dân và dӳ liӋu mӣ cӫa chính phӫ. Mӝt cách tiӃp cұn triӋWÿӇ ÿӕi vӟi chính phӫ mӣ FNJQJVӁ tìm cách 5 tҥRÿLӅu kiӋn cho sӵ tham gia cӫDQJѭӡi dân, ví dө, vào viӋc soҥn thҧo và sӱDÿәi luұt pháp và thiӃt lұp ngân sách. Lӧi ích cӫa dӳ liӋu mӣ: - Cho phép Chính phӫ ÿLӅXKjQKJL~SÿѭDUDQKӳng sáng tҥo trong kinh doanh, dӏch vө cung cҩp giá trӏ xã hӝLYjWKѭѫQJPҥi. - /jFKuDNKyDÿӇ nâng cao chҩWOѭӧng dӏch vө và cuӝc sӕng. - Ĉҭy nhanh tiӃQÿӝ lan truyӅn các dӏch vө kӻ thuұt sӕ trên web và nӅn tҧng di ÿӝng. - Trao quyӅn và thu hút sӵ tham gia cӫDQJѭӡi dân. - /jÿҫu vào cho nghiên cӭu và giáo dөc. - Giúp Chính phӫ cҧi thiӋQÿѭӧc tính minh bҥFKYjF{QJNKDLYuQJѭӡi dân luôn Fyÿѭӧc các thông tin cҫn thiӃWÿӇ có thӇ VRViQKYjÿӕi chiӃu; cho phép tiӃp cұn thông tin, dӳ liӋu chính là tҥRUDÿLӅu kiӋn thuұn lӧi nhҩWFKRQJѭӡi dân thӵc hiӋn quyӅn dân chӫ và tham gia quҧn lý. - Giúp làm giҧPFKLSKtYjWăQJKLӋu quҧ hoҥWÿӝQJFKRFiFFѫTXDQ1KjQѭӟc, các tә chӭc, Doanh nghiӋp và công dân. HӋ thӕng dӳ liӋu mӣ là mӝt hӋ thӕng cho phép xuҩt bҧn, phân loҥi, tìm kiӃm và trӵc quan hóa dӳ liӋX1Jѭӡi dùng có thӇ thao tác vӟi hӋ thӕng thông qua cәng dӳ liӋu mӣ. Mӝt hӋ thӕng dӳ liӋu mӣ phҧLÿҧm bҧo các yêu cҫu sau: - Dӳ liӋu luôn sҹQVjQJÿӇ truy cұp. - Dӳ liӋu phҧi ÿѭӧc cұp nhұt - Các tұp dӳ liӋu phҧLÿѭӧFÿӏQKGDQKU}UjQJÿӇ OѭXWUӳ và truy vӃt. - Không chӭa các dӳ liӋu cá nhân hay tә chӭc nhҥy cҧm: dӳ liӋXÿӏnh danh, dӳ liӋXÿLӇm sӕ cӫDWUѭӡng hӑc, dӳ liӋXWjLFKtQK« - Dӳ liӋu phҧLDQWRjQNK{QJÿѭӧc cài nhӳng yӃu tӕ gây hҥLYLUXVPmÿӝc tҩn công thiӃt bӏ truy cұp cӫDQJѭӡi dùng. 6 - Nguӗn dӳ liӋu phҧLWLQWѭӣng và có tә chӭc chӏu trách nhiӋm vӟi mӛi bӝ dӳ liӋu, có chӳ NêÿLӋn tӱ, xuҩt xӭ, thӡi gian cӫa bӝ dӳ liӋu. 2.2 Giӟi thiӋu vӅ tұp dӳ liӋu Tұp dӳ liӋu, hay tұp dӳ liӋu, chӍ ÿѫQJLҧn là mӝt tұp hӧp dӳ liӋXĈӏnh dҥQJÿѫQJLҧn và phә biӃn nhҩt cho tұp dӳ liӋu tìm thҩy trӵc tuyӃn là bҧng tính hoһFÿӏnh dҥng csv - mӝt tӋp duy nhҩWÿѭӧc tә chӭFGѭӟi dҥng bҧng gӗm các hàng và các thuӝc tính phân ÿӏnh bҵng ký tӵ dҩu phҭy. Mӝt sӕ tұp dӳ liӋu sӁ ÿѭӧFOѭXWUӳ ӣ FiFÿӏnh dҥng khác và chúng không nhҩt thiӃt phҧi là mӝt tӋSĈ{LNKLPӝt tұp dӳ liӋu có thӇ là mӝt tӋp zip hoһFWKѭPөc chӭa nhiӅu bҧng dӳ liӋu vӟi dӳ liӋu liên quan.[10] 7URQJWUѭӡng hӧp dӳ liӋu dҥng bҧng, mӝt tұp dӳ liӋXWѭѫQJӭng vӟi mӝt hoһc nhiӅu bҧQJFѫVӣ dӳ liӋXWURQJÿyPӛi cӝt cӫa bҧQJÿҥi diӋn cho mӝWÿһFWUѭQJKD\WKXӝc tính cө thӇ và mӛLKjQJWѭѫQJӭng vӟi mӝt bҧn ghi (thӵc thӇ) nhҩWÿӏnh cӫa tұp dӳ liӋXÿѭӧFÿӅ cұp. Hình 2-1. Giͣi thi͏u v͉ t̵p dͷ li͏u Các thӵc thӇ ÿѭӧc mô tҧ bӣi các loҥLÿһFWUѭQJJLӕQJQKDXÿѭӧc nhóm lҥLÿӇ tҥo thành tұp dӳ liӋu.[12] Mӝt tұp dӳ liӋXQKѭÿmJLӟi thiӋu ӣ phҫn trên có thӇ là tұp hӧp cӫa nhiӅu tұp tin dӳ liӋXYjÿѭӧc mô tҧ phҫn nào qua siêu dӳ liӋu (metadata). 7 Siêu dӳ liӋu (metadata): dҥng dӳ liӋu mô tҧ thông tin chi tiӃt vӅ dӳ liӋX7URQJFѫVӣ dӳ liӋu, metadata là các sӱDÿәi các dҥng biӇu diӉn khác nhau cӫDFiFÿӕLWѭӧng trong mӝWFѫVӣ dӳ liӋX7URQJFѫVӣ dӳ liӋu quan hӋ thuPHWDGDWDOjFiFÿӏQKQJKƭDFӫa bҧng, cӝWFѫVӣ dӳ liӋu, view và nhiӅXÿӕLWѭӧng khác. Trong kho dӳ liӋu, metadata là dҥQJÿӏQKQJKƭDGӳ liӋXQKѭEҧng, cӝt, mӝt báo cáo, các luұt doanh nghiӋp hay nhӳng quy tҳc biӃQ ÿәi. Metadata bao quát tҩt cҧ các SKѭѫQJGLӋn cӫa kho dӳ liӋu. Trong quҧn lý tұp tin, metadata chӭa các thông tin thuӝc tính cӫa tұSWLQÿyQKѭWrQWұp tin, mô tҧ tóm tҳt, kích cӥ, ngày tҥo ra,..[1] Metadata phҧi chӭa nhӳng thông tin: - Thông tin mô tҧ vӅ bҧn thân dӳ liӋu metadata - Thuұt toán sӱ dөQJÿӇ tәng hӧp dӳ liӋu - Thông tin vӅ các cá nhân và tә chӭFOLrQTXDQÿӃn dӳ liӋu mà metadata mô tҧ Hình 2-2 Ví dͭ t͝ chͱc cͯa m͡t t̵p dͷ li͏u Metadata là dӳ liӋXÿӇ mô tҧ dӳ liӋu. Khi dӳ liӋXÿѭӧc cung cҩSFKRQJѭӡi dùng cuӕi, thông tin metadata sӁ cung cҩp nhӳng thông tin cho phép hӑ hiӇXU}KѫQEҧn chҩt vӅ 8 dӳ liӋu mà hӑ ÿDQJFy1Kӳng thông tin này sӁ JL~SFKRQJѭӡLGQJFyÿѭӧc nhӳng quyӃWÿӏnh sӱ dөQJÿ~QJÿҳn và phù hӧp vӅ dӳ liӋu mà hӑ có. Hình 2-3 Ví dͭ t̵p dͷ li͏u d̩ng JSON (2006 - 2011 NYS Math Test Results by Grade - Citywide by Race-Ethnicity) (Nguӗn: https://data.cityofnewyork.us/api/views/825b-niea/rows.json) 2.3 Thuӝc tính cӫa tұp dӳ liӋu ThuӝFWtQKWKѭӡQJÿѭӧc mô tҧ bӣi mӝt tұp các giá trӏ WѭѫQJӭQJÿҥi diӋQFKRÿһc ÿLӇm cӫDÿӕLWѭӧng dӳ liӋu trong tұp dӳ liӋu. Ví dөÿӕLWѭӧng dӳ liӋu trong tұp dӳ liӋu là sinh viên thì sӁ có các thuӝFWtQKQKѭ mã sӕ VLQKYLrQWrQVLQKYLrQQJj\WKiQJQăPVLQKÿLӇm sӕNKRDÿDQJWKHR hӑF«ÿӇ mô tҧ nhӳQJÿһFÿLӇm cӫa mӝt sinh viên. Mӝt thuӝFWtQK>@ ÿһFWUѭQJÿҫu vào, thӭ nguyên, biӃn hoһc dӵ ÿRiQW\QJӳ cҧnh áp dөng) là mӝt dһFÿLӇm duy nhҩt cӫa tұp dӳ liӋu. Mӛi cӝt trong Bҧng 1 là mӝt thuӝc tính. Các thuӝc tính có thӇ là kiӇu dӳ liӋu sӕ, phân loҥi, ngày-giӡ YăQ Eҧn hoһc Boolean. DFTA Postcode Borough ProgramPhone Funded 10010 MANHATTAN 914-997-4333 Y MonHourOpen MonHourClose 9:00 5:00 9 10024 MANHATTAN 212-787-7120 11362 QUEENS 718-225-6750 10458 BRONX 718-365-4044 Y Y Y 9:00 8:00 9:00 5:00 4:00 5:00 B̫ng 1 Ví dͭ m͡t b̫ng dͷ li͏u (Department for the Aging (DFTA) Geriatric Mental Health Contracted Providers) Thuӝc tính cӫa dӳ liӋu có thӇ ÿѭӧc phân loҥi dӵa trên loҥi cӫa giá trӏ ÿҥi diӋn cho thuӝc tính. Có thӇ chia thành thuӝc tính loҥLÿӏnh tính (Qualitative) và thuӝc tính loҥLÿӏQKOѭӧng (Quantitative).[8] ThuӝFWtQKÿӏnh tính mô tҧ FiFWKѭӟFÿRFKӫ quan hoһc giҧi thích vӅ phҭm chҩt hoһc ÿһFÿLӇm hoһc nhӳng thӭ không thӇ ÿROѭӡng bҵng dӳ liӋu sӕ hӑc, chҷng hҥQQKѭ màu tóc, màu da, quӕc tӏFK«7KXӝFWtQKÿӏnh tính rҩt tӕWÿӇ giúp trҧ lӡi các câu hӓi tҥi sao. Ví dө: tҥi sao mӝt sӕ QJѭӡi có thӇ thích mӝt cҫu thӫ bóng dá nhҩWÿӏnh hoһc thích làm mӝWKjQKÿӝQJQjRÿy ÿӑFViFKÿҥS[H KѫQQKӳQJQJѭӡLNKiFKѫQQKӳng QJѭӡi khác.[9] ThuӝFWtQKÿӏnh tính gӗm: - ThuӝFWtQKGDQKQJKƭD QRPLQDO - OLrQTXDQÿӃn tên: Các giá trӏ cӫa thuӝc WtQKGDQKQJKƭDOjGҥng ký tӵ OLrQTXDQÿӃn tên cӫa sӵ vұt, mӝt sӕ loҥi ký hiӋu. Giá trӏ cӫa thuӝFWtQKGDQKQJKƭDÿҥi diӋn cho mӝt sӕ danh mөc hoһc trҥng thái. ThuӝFWtQKGDQKQJKƭDOjWKXӝc tính phân loҥi và không có thӭ tӵ (cҩp bұc, vӏ trí) giӳa các giá trӏ cӫa thuӝFWtQKGDQKQJKƭD Ví dө: màu mҳt: trҳng, xanh... - Thuӝc tính nhӏ phân (binary): thuӝc tính chӍ có 2 giá trӏ/trҥng thái. Ví dө có hoһc không, bӏ ҧQKKѭӣng hoһc không bӏ ҧQKKѭӣQJÿ~QJKRһc sai. L Ĉӕi xӭng: Cҧ hai giá trӏ ÿӅu quan trӑQJQKѭQKDX *Lӟi tính). LL .K{QJÿӕi xӭng: Cҧ hai giá trӏ không quan trӑQJQKѭQKDX .Ӄt quҧ) Ví dө: giӟi tính: nam, nӳ; kӃt quҧ xét nghiӋPGѭѫQJWtQKkPWtQK
- Xem thêm -

Tài liệu liên quan