Đăng ký Đăng nhập
Trang chủ Ứng dụng phân giải đồng tham chiếu cho bài toán lọc thông tin riêng trong văn bả...

Tài liệu Ứng dụng phân giải đồng tham chiếu cho bài toán lọc thông tin riêng trong văn bản lâm sàng

.PDF
73
1
142

Mô tả:

ĈҤ,+Ӑ&48Ӕ&*,$73+&0 75ѬӠ1*ĈҤ,+Ӑ&%È&+.+2$ -------------------- Æ80Ұ8'ѬѪ1* Ӭ1*'Ө1*3+Æ1*,Ҧ,ĈӖ1*7+$0&+,ӂ8 &+2%¬,72È1/Ӑ&7+Ð1*7,15,Ç1* 7521*9Ă1%Ҧ1/Æ0SÀNG APPLYING COREFERENCE RESOLUTION TO PHI DEIDENTIFICATION IN CLINICAL TEXT Chuyên nJjQK.KRD+ӑF0i\7tQK 0mVӕ8480101 /8Ұ19Ă17+Ҥ&6Ƭ 73+Ӗ&+Ë0,1+WKiQJQăP &Ð1*75Î1+ĈѬӦ&+2¬17+¬1+7Ҥ, 75ѬӠ1*ĈҤ,+Ӑ&%È&+.+2$ Ĉ+4*-HCM &iQEӝKѭӟQJGүQNKRDKӑF769}7Kӏ1JӑF&KkX &iQEӝFKҩPQKұQ[pW3*6761JX\ӉQ7XҩQĈăQJ &iQEӝFKҩPQKұQ[pW3*676 +XǤQK7UXQJ+LӃX /XұQYăQWKҥFVƭÿѭӧFEҧRYӋ WҥL7UѭӡQJĈҥLKӑF%iFK.KRDĈ+4*7S +&0QJj\WKiQJQăP 7UӵFWX\ӃQ  7KjQKSKҫQ+ӝLÿӗQJÿiQKJLiOXұQYăQWKҥFVƭJӗP &KӫWӏFKKӝLÿӗQJ761JX\ӉQĈӭF'NJQJ 7KѭNt761JX\ӉQ7LӃQ7KӏQK *9SKҧQELӋQ3*6761JX\ӉQ7XҩQĈăQJ *9SKҧQELӋQ3*676+XǤQK7UXQJ+LӃX Ӫ\YLrQ769}7Kӏ1JӑF&KkX ;iFQKұQFӫD&KӫWӏFK+ӝLÿӗQJÿiQKJLiOXұQYăQYj7UѭӣQJ.KRDTXҧQOê FKX\rQQJjQKVDXNKLOXұQYăQÿmÿѭӧFVӱDFKӳD QӃXFy  &+Ӫ7ӎ&++Ӝ,ĈӖ1* 75ѬӢ1*.+2$ .+2$+Ӑ&9¬.Ӻ7+8Ұ70È<7Ë1+ ĈҤ,+Ӑ&48Ӕ&*,$73+&0 75ѬӠ1*ĈҤ,+Ӑ&%È&+.+2$ &Ӝ1*+Ñ$;­+Ӝ,&+Ӫ1*+Ƭ$9,ӊ71$0 ĈӝFOұS- 7ӵGR- +ҥQKSK~F 1+,ӊ09Ө/8Ұ19Ă17+Ҥ&6Ƭ +ӑ WrQKӑFYLrQÆX0ұX'ѭѫQJ06+9 1Jj\WKiQJQăPVLQK1ѫLVLQK.KiQK+zD 1JjQK.KRD+ӑF0i\7tQK0mVӕ : 8480101 I. 7Ç1Ĉӄ7¬, ӬQJGөQJSKkQJLҧLÿӗQJWKDPFKLӃXFKREjLWRiQOӑFWK{QJWLQULrQJWURQJYăQEҧQ lâm sàng II. 1+,ӊ09Ө9¬1Ӝ,'81* - Tìm hiӇu lý thuyӃt và các công trình liên quan vӅ bài toán lӑc thông tin riêng trong các bӋQKiQÿLӋn tӱ - 7uPKLӇXYjKLӋQWKӵFP{KuQKKyDYHFWRUFKRWӯYjFөPWӯWURQJYăQEҧQiS GөQJFKRFiFYăQEҧQOkPVjQJWURQJFiFEӋQKiQÿLӋQWӱ - 7uPKLӇXFiFP{KuQKSKkQJLҧLÿӗQJWKDPFKLӃX - 3KiWWULӇQJLҧLSKiSFKREjLWRiQOӑFWK{QJWLQULrQJWURQJFiFYăQEҧQOkP VjQJWURQJÿyFyGQJP{KuQKSKkQJLҧLÿӗQJWKDPFKLӃXÿӇYLӋFWKD\WKӃ WK{QJWLQULrQJÿѭӧFQKҩWTXiQ - 7KӵFKLӋQÿiQKJLiÿӅ[XҩWWUrQGӳOLӋXFKXҭQFӫDFXӝFWKLQKұQGҥQJWK{QJ WLQULrQJQăPFӫD,% III. NGÀY GIAO NHIӊM VӨ: 22/02/2021 IV. 1*¬<+2¬17+¬1+1+,ӊ09Ө: 13/06/2021 V. &È1%Ӝ+ѬӞ1*'Ү1 : 769}7Kӏ1JӑF&KkX 7S+&0QJj\WKiQJQăP CHӪ NHIӊM BӜ 0Ð1Ĉ¬27ҤO (Hӑ tên và chӳ ký) CÁN BӜ +ѬӞNG DҮN (Hӑ tên và chӳ ký) 75ѬӢNG KHOA KHOA HӐC VÀ KӺ THUҰT MÁY TÍNH (Hӑ tên và chӳ ký) iii /Ӡ,&È0Ѫ1 ĈӇFyWKӇKRjQWKjQKOXұQYăQWKҥFVƭPӝWFiFKKRjQFKӍQKErQFҥQKVӵQӛOӵFFӕJҳQJ FӫDEҧQWKkQFzQFyVӵKѭӟQJGүQQKLӋWWuQKFӫDTXê7Kҫ\&{FNJQJQKѭVӵÿӝQJYLrQӫQJ KӝFӫDJLDÿuQKYjEҥQEqWURQJVXӕWWKӡLJLDQKӑFWұSQJKLrQFӭXYjWKӵFKLӋQOXұQYăQWKҥF Vƭ ;LQFKkQWKjQKEj\WӓOzQJELӃWѫQÿӃQ&{769}7Kӏ1JӑF&KkXQJѭӡLÿmKӃWOzQJ JL~SÿӥYjWҥRPӑLÿLӅXNLӋQWӕWQKҩWFKRW{LKRjQWKjQKOXұQYăQQj\;LQFKkQWKjQKEj\ WӓOzQJELӃWѫQÿӃQWRjQWKӇTXêWKҫ\F{WURQJNKRD.KRDKӑFPi\WtQK- 7UѭӡQJĈ+%ich .KRD7S+&0ÿmWұQWuQKWUX\ӅQÿҥWQKӳQJNLӃQWKӭFTXêEiXFNJQJQKѭWҥRPӑLÿLӅXNLӋQ WKXұQOӧLQKҩWFKRW{LWURQJVXӕWTXiWUuQKKӑFWұSQJKLrQFӭXYjFKRÿӃQNKLWKӵFKLӋQÿӅ tài này. &XӕLFQJW{L[LQFKkQWKjQKFҧPѫQÿӃQJLDÿuQKFiFDQKFKӏYjFiFEҥQÿӗQJQJKLӋS ÿmKӛWUӧFKRW{LUҩWQKLӅXWURQJVXӕWTXiWUuQKKӑFWұSQJKLrQFӭXYjWKӵFKLӋQOXұQYăQ WKҥFVƭPӝWFiFKKRjQFKӍQK 7S+ӗ&Kt0LQKQJj\WKiQJQăP +ӑFYLrQ ÆX0ұX'ѭѫQJ iv 7Ï07Ҳ7/8Ұ19Ă1 Tӯ WUѭӟFÿӃn nay, mӛi khi khám chӳa bӋnh, bӋnh viӋQOX{QOѭXJLӳ hӗ VѫEӋnh án cӫa tҩt cҧ các bӋnh nhân. Khi công nghӋ FKѭDSKiWWULӇn, các bӋQKiQQj\ÿѭӧFOѭX trӳ Gѭӟi dҥng giҩ\1KѭQJWKӡLÿLӇm hiӋn tҥi, công nghӋ ÿmWLrQWLӃn, dҥng giҩ\ÿm NK{QJFzQÿѭӧFѭXFKXӝQJWKD\YjRÿyOj Pӝt loҥi bӋQKiQÿѭӧFOѭXWUӳ trên hӋ thӕQJÿLӋn tӱ Pi\YLWtQKÿLӋn thoҥi, máy tính bҧQJ« YjWrQJӑi chính xác cӫa nó là bӋQKiQÿLӋn tӱ %$Ĉ7  3KѭѫQJWKӭFOѭXWUӳ WKD\ÿәi giúp cho viӋc tìm kiӃm và phân tích dӉ GjQJKѫQ &NJQJWӯ ÿyPjKѭӟng nghiên cӭu vӅ dӳ liӋu y hӑc phát triӇn, nhu cҫu sӱ dөng dӳ liӋu Qj\WăQJOrQ7KӃ QKѭQJFiFGӳ liӋu này chӭa khá nhiӅu thông tin cá nhân và vҩQÿӅ bҧo mұWÿѭӧFÿһt ra. NӃu cung cҩp dӳ liӋu này cho nhà nghiên cӭu dӳ liӋu y hӑc sӁ vi phҥm quyӅQÿѭӧc bҧo mұt thông tin cá nhân cӫDF{QJGkQ1KѭQJQӃu không cung cҩp, nhà nghiên cӭu dӳ liӋu y hӑFFNJQJYuYұy mà không thӇ tiӃp tөc nghiên cӭu, mà kӃt quҧ cӫa nhӳng nghiên cӭu này lҥi rҩt hӳu ích cho ngành y. Mӝt giҧLSKiSÿѭӧFÿӅ ra là phҧi tiӃn hành tiӅn xӱ lý cho các dӳ liӋu này. Nói mӝWFiFKFKtQK[iFKѫQÿyOjFKHJLҩu tҩt cҧ nhӳng thông tin cá nhân hoһc có khҧ QăQJVX\UDWK{QJWLQFiQKkQFӫa các bӋQKiQÿLӋn tӱ này. ThӃ QKѭQJVӵ che giҩu này phҧLÿҧm bҧo mӝt yêu cҫu tӕi quan trӑQJÿyOjNK{QJOjPWKD\ÿәLêQJKƭDFӫa bӋQKiQÿLӋn tӱ. &NJQJYuYұy mà trong luұQYăQQj\VӁ ÿӅ xuҩt mӝWSKѭѫQJSKiSWKӵc hiӋn viӋc che giҩu thông tin tӵ ÿӝQJFKRFiF%$Ĉ7Yӟi mô hình dӵDWUrQÿӗng tham chiӃu kӃt hӧp vӟi mô hình mҥng bӝ nhӟ dài-ngҳn. KӃt quҧ cӫa quá trình che giҩu này là sӁ tҥo ra tұp các bӋQKiQÿLӋn tӱ có cҩXWU~FWѭѫQJWӵ QKѭFiF%$Ĉ7JӕFQKѭQJFiFWK{QJ WLQULrQJÿmÿѭӧFWKD\ÿәL&iF%$Ĉ7ÿmÿѭӧFWKD\ÿәi thông tin mӝt cách chính xác và nhҩt quán cho các thӵc thӇ xuҩt hiӋn nhiӅu lҫQWURQJ%$Ĉ7Jӕc. Các giá trӏ thӡi gian xuҩt hiӋQWURQJ%$Ĉ7ÿѭӧFWKD\ÿәLQKѭQJYүn giӳ nguyên tính chính xác vӅ khoҧng cách thӡLJLDQJL~SQJѭӡLÿӑc có thӇ JLiPViWÿѭӧc lӏch sӱ khám chӳa bӋnh cӫa bӋQKQKkQÿy ĈӅ tài này mang tính thӵc tӃ và bao quát ӣ nhӳQJÿLӇm sau. Các thông tin riêng (protected health information - 3+, ÿѭӧc xӱ lí khác nhau dӵDYjRÿһFÿLӇm cӫa tӯng dҥng dӳ liӋXĈӕi vӟi các thông tin PHI dҥng sӕ, áp dөng các quy tҳFÿӇ tiӃn hành nhұn dҥQJĈӕi vӟi các thông tin PHI dҥng chuӛi, áp dөng viӋc biӃQÿәi các tӯ, cөm tӯ thành dҥnJYHFWRUVDXÿyiSGөQJÿӗng tham chiӃu kӃt hӧp vӟi mҥng bӝ nhӟ dàingҳQÿӇ nhұn dҥQJFiF3+,ÿDQJFQJFKӍ vӅ mӝWÿӕLWѭӧQJ ÿk\FNJQJOjPӝt thách thӭFWURQJÿӅ WjL 6DXÿy[k\Gӵng mӝt hӋ thӕng thay thӃ các thông tin PHI. v ABSTRACT Until now, the hospital always keeps the medical records of all of patients. When technology was not yet developed, these medical records were stored in paper form. But for the present, technology has advanced, paper form is no longer preferred, instead it is a type of medical record stored on an electronic system (computer, phone, tablet, etc.), and its correct name is electronic medical record. The changed storage method makes it easier to find and analyze. Since then, the direction of research on medical data has developed, and the demand for using this data has increased. However, this data contains a lot of personal information and security issues are raised. Providing this data to a medical data researcher would violate a citizen's right to privacy. But if not provided, the researcher of medical data also cannot continue to research, and the results of these researchs are very useful to the medical profession. One proposed solution is to perform preprocessing of these data. To be more precise, it is to hide all of personal informations and all of informations be able to infer personal information in these electronic medical records. However, this concealment must ensure an extremely important requirement, which is not to change the meaning of the electronic medical record. Therefore, in this thesis, a method will be proposed to implement automatic information hiding for electronic medical records with a co-referencing-based model combined with a long-short memory network model. The result of this masking process is to create a set of electronic medical records with the same structure as the original medical records, but the private information has been changed. The electronic medical records have been correctly and consistently modified for entities that appear more than once in the original electronic medical records. The time values appearing in the electronic medical records are changed, but the accuracy of the time interval remains the same so that the reader can monitor the patient's medical history. This topic is practical and covers the following points. Protected health information (PHI) is handled differently based on the characteristics of each data type. For numeric PHI information, applying the rules to performing identification . For string PHI information, applying the transformation of words and phrases into vector form, then applying co-referencing combined with long-short memory network to identify PHIs that refer to the same object. (this is a challenge in this thesis). Then, building a system that replaces the PHI information. vi /Ӡ,&$0Ĉ2$1 7{L[LQFDPÿRDQUҵng ngoài các kӃt quҧFiFWK{QJWLQÿѭӧc tham khҧo tӯ các F{QJWUuQKNKiFQKѭÿmJKLU}WURQJOXұQYăQQKӳng công viӋc, kӃt quҧ ÿѭӧc trình bày trong luұQYăQQj\OjGRFKtQKW{LWKӵc hiӋQYjFKѭDÿѭӧc sӱ dөQJÿӇ lҩy bҩt kì chӭng chӍ, bҵng cҩp nào khác. 7S+&0QJj\WKiQJQăP Hӑc viên Âu MұX'ѭѫQJ vii 0өFOөF 1+,ӊ09Ө/8Ұ19Ă17+Ҥ&6Ƭ .................................................................................................. iii Lғ/DґE ....................................................................................................................................... iv TÓM TѻT LUѺEs E ........................................................................................................................... v ABSTRACT ........................................................................................................................................... vi Lғ/DKE ................................................................................................................................. vii DANH MҗC BѵNG BI҅U ....................................................................................................................... x DANH MҗC HÌNH ѵNH ....................................................................................................................... xi DANH MҗC VI҃T TѻT......................................................................................................................... xii DANH MҗC THUѺT NGҝ .................................................................................................................. xiii DANH MҗC TѵI CÔNG Cҗ ................................................................................................................ xiv ŚӇҿŶŐ/͗'/ҒI THI҇U TҎNG QUAN ................................................................................................... 1 1.1 Lí do chҸŶĜҲ tài ................................................................................................................. 1 1.2 MӅc tiêu nghiên cӈu .......................................................................................................... 2 1.3 |ŶŐŚša khoa hҸc ................................................................................................................ 2 1.4 |ŶŐŚšĂƚŚӌc tiҴn ................................................................................................................ 2 1.5 ҺŝƚӇӄng nghiên cӈƵĜҲ tài .............................................................................................. 3 1.6 Kұt quң dӌ kiұn .................................................................................................................. 4 1.7 PhҢm vi thӌc hiҵŶĜҲ tài .................................................................................................... 4 ŚӇҿŶŐ//͗NE'dZ0EH LIÊN QUAN .......................................................................................... 5 Ϯ͘ϭyĄĐĜҷnh PHI ............................................................................................................................. 5 2.2 LoҢi bҹ các PHI ....................................................................................................................... 17 ŚӇҿŶŐ///͗ґ SҔ LÝ THUY҃T .......................................................................................................... 20 3.1. PHI ......................................................................................................................................... 20 ϯ͘Ϯ͘WŚӇҿŶŐƉŚĄƉĚӌa trên quy tҩc ............................................................................................. 21 3.3. MҢng bҾ nhӀ dài-ngҩn .......................................................................................................... 21 3.3.1. MҢŶŐŶҿ-ron hһi quy ..................................................................................................... 21 3.3.2. VҤŶĜҲ phӅ thuҾc xa ...................................................................................................... 23 3.3.3. MҢng bҾ nhӀ dài-ngҩn ................................................................................................... 23 ϯ͘ϯ͘ϰ͘|ƚӇӂng cҺt lõi cӆa mҢng bҾ nhӀ dài-ngҩn .................................................................... 25 3.3.5. Bên trong mҢng bҾ nhӀ dài-ngҩn .................................................................................. 26 ϯ͘ϰ͘һng tham chiұu ................................................................................................................... 28 3.4.1. Khái niҵm........................................................................................................................ 28 viii 3.4.2. Các thành phҥn trong quan hҵ Ĝһng tham chiұƵƚŚӇӁng gҭp....................................... 28 3.4.3. Phân loҢi ......................................................................................................................... 29 ϯ͘ϰ͘ϰ͘ĄĐƚƌӇӁng hӄp gây nhҥm lҧn vӀŝĜһng tham chiұu...................................................... 30 3.4.5. Bài ƚŽĄŶĜһng tham chiұƵƚƌŽŶŐǀĉŶďңn....................................................................... 30 3.5. Biҳu diҴn tӉ, cӅm tӉ thành vector ........................................................................................ 31 ϯ͘ϲ͘WŚӇҿŶŐƉŚĄƉĜĄŶŚŐŝĄ .......................................................................................................... 35 ϯ͘ϲ͘ϭ͘Ҿ ĜŽWƌĞĐŝƐŝŽŶ͕ZĞĐĂůů͕F1 ............................................................................................. 35 ŚӇҿŶŐ/s͗DNdѵ /dKEsW,ҙґE'W,Wd,ҞC HI҇E҄ TÀI ............................................ 37 4.1. Mô tң bài toán ....................................................................................................................... 37 ϰ͘Ϯ͘WŚӇҿŶŐƉŚĄƉƚŚӌc hiҵŶĜҲ tài .............................................................................................. 40 4.2.1. Tokenization ................................................................................................................... 41 4.2.2. Abbreviation Resolution Module ................................................................................... 43 4.2.3. Word Representation ..................................................................................................... 44 4.2.4. Coreference Resolution Module .................................................................................... 45 4.2.5. Alternative Information Component ............................................................................. 47 4.2.6. Replace Component ....................................................................................................... 49 ŚӇҿŶŐs͗E,'/ ....................................................................................................................... 51 5.1. Mô tң dӋ liҵƵĜҥu vào ........................................................................................................... 51 ϱ͘ϭ͘ϭ͘dŚƀŶŐƚŝŶW,/ƚƌŽŶŐd .............................................................................................. 51 ϱ͘ϭ͘Ϯ͘ҭĐĜŝҳm dӋ liҵu ............................................................................................................ 51 5.2. Mô tҧ dӳ liӋXÿҫu ra ......................................................................................................... 51 5.3. WŚӇҿŶŐƉŚĄƉĜĄŶŚŐŝĄ ..................................................................................................... 52 5.3.1. Phҥn 1............................................................................................................................. 52 5.3.2. Phҫn 2 ............................................................................................................................. 54 5.3.3. Phҫn 3 ............................................................................................................................. 54 ŚӇҿŶŐs/͗<҃T LUѺN....................................................................................................................... 56 6.1. Các nҾŝĚƵŶŐĜĆĜӇӄc thӌc hiҵn ............................................................................................... 56 6.2. MӈĐĜҾ ĜҢƚĜӇӄc cӆĂĜҲ tài ..................................................................................................... 56 6.3. NhӋng nghiên cӈu tiұp theo ..................................................................................................... 56 TÀI LI҇U THAM KHѵO ....................................................................................................................... 57 PHѷN LÝ L҉CH TRÍCH NGANG ........................................................................................................... 59 ix '$1+0Ө&%Ҧ1*%,ӆ8 Bҧng 1: Các thӵc thӇ ÿѭӧc nhұn dҥng bӣL6FUXEYjÿӝ ѭXWLrQFӫa nó.............................................. 6 Bҧng 2: Thӵc thӇ cҩu thành ............................................................................................................... 7 Bҧng 3: Các mүu nhұn dҥng sӕ ÿLӋn thoҥi và xác suҩt cӫa nó. d (decimal) là chӳ sӕ ....................... 7 Bҧng 4: Sӕ Oѭӧng các thӵc thӇ PHI cӫa các danh mөc chính thuӝc tұp dӳ liӋu I2B2 - 2014 ............ 9 Bҧng 5: BiӇu thӭFFKtQKTX\ÿѭӧc sӱ dөng trong hӋ thӕng [2] ....................................................... 11 Bҧng 6: Sӕ Oѭӧng các thӵc thӇ PHI cӫa các danh mөc chính thuӝc I2B2 ± 2014 và N-GRID ± 2016 .......................................................................................................................................................... 13 Bҧng 7: BiӇu thӭFFKtQKTX\ÿѭӧc sӱ dөng trong hӋ thӕng [3] ....................................................... 16 Bҧng 8: Xác suҩt và tӍ lӋ xác suҩt cӫa tӯ ngӳ cҧnh và tӯ mөc tiêu .................................................. 33 BҧQJĈiQKJLiVӵ hiӋu quҧ cӫa viӋc sӱ dөQJÿӗng tham chiӃu ................................................... 54 BҧQJĈiQKJLiVӵ hiӋu quҧ cӫa viӋc sӱ dөQJÿӗng tham chiӃu ................................................. 54 x '$1+0Ө&+Î1+Ҧ1+ Hình 1: Mӝt phҫn dӳ liӋu trong I2B2 ................................................................................................. 3 Hình 2: HӋ thӕng nhұn diӋn PHI cӫa nhóm tác giҧ Trung Quӕc [2].................................................. 8 Hình 3: Ví dө vӅ cách biӇu diӉn thӵc thӇ PHI bҵQJ³%,2´Yj³%,2(6´Wҥi mӭc Token ................ 10 Hình 4: Ví dө vӅ SKkQWiFKWURQJWUѭӡQJÿLӅu kiӋn ngүu nhiên mӭc ký tӵ ...................................... 10 Hình 5: Mô hình mô tҧ hӋ thӕng [3] ................................................................................................ 13 Hình 6: KiӃn trúc cӫa mҥng bӝ nhӟ dài-ngҳn hai chiӅu [3] ............................................................. 15 Hình 7: KiӃn trúc cӫa mҥng bӝ nhӟ dài-ngҳn hai chiӅu vӟLFiFÿһFWUѭQJ>@ ................................ 16 Hình 8: Mӝt nút trong mҥQJQѫ-ron hӗi quy .................................................................................... 22 Hình 9: MҥQJQѫ-ron hӗi quy .......................................................................................................... 22 Hình 10: BiӇu diӉn mҥQJQѫ-ron hӗi quy vӟi tҫng tanh................................................................... 24 Hình 11: BiӇu diӉn mҥng bӝ nhӟ dài-ngҳn vӟi 4 tҫQJWѭѫQJWiF ..................................................... 24 Hình 12: Trҥng thái tӃ bào ............................................................................................................... 25 Hình 13: Cәng sàng lӑc thông tin .................................................................................................... 25 +uQK&iFKWtQK¦t ....................................................................................................................... 26 Hình 15: Cách tính it và ‫ݐܥ‬............................................................................................................... 27 Hình 16: Cách tính Ct ....................................................................................................................... 27 Hình 17: Cách tính ot và ht ............................................................................................................... 28 Hình 18: Mô hình chung giҧi quyӃWEjLWRiQÿӗng tham chiӃu ........................................................ 31 Hình 19: BiӇu diӉn tӯ dҥng One-hot vector [8] ............................................................................... 32 Hình 20: BiӇu diӉn phân bӕ cho tӯ [8] ............................................................................................. 32 Hình 21: Hàm trӑng sӕ ..................................................................................................................... 35 Hình 22: BӋnKiQÿLӋn tӱ ÿRҥn Text ................................................................................................ 37 Hình 23: BӋQKiQÿLӋn tӱ ÿRҥn Tag ................................................................................................. 38 Hình 24: KӃt quҧ thay thӃ ÿRҥn Text ............................................................................................... 39 Hình 25: KӃt quҧ thay thӃ ÿRҥn Tag ................................................................................................ 39 Hình 26: HӋ thӕng thay thӃ các thông tin PHI ................................................................................. 41 Hình 27: HӋ thӕng Rule-based xӱ lý các tӯ viӃt tҳt ......................................................................... 43 +uQK%ѭӟc 1 cӫa hӋ thӕQJU~WWUtFKÿһFWUѭQJ>@ .................................................................... 45 +uQK%ѭӟc 2 cӫa hӋ thӕQJU~WWUtFKÿһFWUѭQJ>@ .................................................................... 47 Hình 30: Ví dө vӅ vҩQÿӅ xӱ Oêÿӗng tham chiӃu ............................................................................ 53 Hình 31: Ví dө vӅ vҩQÿӅ viӃt sai chính tҧ ....................................................................................... 55 xi '$1+0Ө&9,ӂ77Ҳ7 Tӯ %$Ĉ7 PHI I2B2 SSN HIPAA GloVe 1JX\rQYăQ BӋQKiQÿLӋn tӱ Protected Health Infomation Informatics for Integrating Biology and the Bedside Social Security Number Health Insurance Portability and Accountability Act Global Vectors for Word Representation xii '$1+0Ө&7+8Ұ71*Ӳ TiӃng viӋt MҥQJQѫ-ron hӗi quy Mҥng bӝ nhӟ dài-ngҳn Mҥng bӝ nhӟ dài-ngҳn hai chiӅu ĈӗQJWKDPFKLӃX 7UѭӡQJÿLӅXNLӋQQJүXQKLrQ 0i\YHFWRUKӛWUӧ TiӃng anh Recurrent Neural Network Long Short-Term Memory Bidirectional Long Short-Term Memory Coreference Conditional random field Support vector machine xiii ViӃt tҳt RNN LSTM Bi-LSTM CRF SVM '$1+0Ө&7Ҧ,&Ð1*&Ө CÔNG CӨ CRFsuite MedEx LibSVM NLTK GloVe ĈѬӠNG DҮN http://www.chokkan.org/software/crfsuite/ https://code.google.com/archive/p/medex-uima/downloads https://www.csie.ntu.edu.tw/~cjlin/libsvm/ https://www.nltk.org/ https://nlp.stanford.edu/projects/glove/ xiv &KѭѫQJ,*,Ӟ,7+,ӊ87Ә1*48$1 1.1 /tGRFKӑQÿӅWjL Ngày nay, vҩQÿӅ OѭXWUӳ trӣ nên ngày càng dӉ GjQJKѫQQKҩt là trong y tӃ, bӋnh iQÿLӋn tӱ %$Ĉ7 FKtQKOjPӝt biӇu hiӋn cӫa sӵ phát triӇn này. Nhӡ %$Ĉ7UDÿӡi mà nhӳng vҩQÿӅ QKѭWuPNLӃm hay nghiên cӭu trӣ nên dӉ GjQJKѫQĈk\FNJQJOjOê GRYuVDR%$Ĉ7Oҥi trӣ nên quan trӑng trong nghiên cӭXFNJQJQKѭKӛ trӧ khám chӳa bӋQK1KѭQJ%$Ĉ7FyFKӭa rҩt nhiӅu thông tin có thӇ ÿӏnh danh hoһc hӛ trӧ ÿӏnh danh mӝWFiQKkQQjRÿyÿLӅu này làm ҧQKKѭӣQJÿӃQWtQKULrQJWѭFӫa mӝt công GkQ&NJQJYuYұ\WUѭӟc khi chia sҿ hay cung cҩp cho các nhà nghiên cӭu dӳ liӋu y tӃ, chúng ta cҫn phҧi che giҩu các thông tin này. Tuy nhiên, mӝt sӕ ÿһFÿLӇm cӫD%$Ĉ7PDQJOҥi mӝt sӕ NKyNKăQWURQJTXiWUuQK xӱ lí: - Dӳ liӋXWURQJ%$Ĉ7OjGӳ liӋu dҥQJYăQEҧn (phi cҩXWU~F YjFiFKKjQKYăQOj mӝt dҥng cӫa bҩt quy tҳF'RÿyWK{QJWLQUҩWNKyÿӇ [iFÿӏnh. - %$Ĉ7WKѭӡQJÿѭӧc sinh ra tӯ nhӳQJJKLFKpSYjÿ{LNKLWKӡi gian ghi chép rҩt hҥn hҽp, nên trong dӳ liӋu bӋQKiQWKѭӡng xҧy ra lӛi chính tҧ, các tӯ viӃt tҳt, không ÿ~QJQJӳ pháp. Chính nhӳQJÿһc ÿLӇm trên gây ra nhӳQJNKyNKăQFKRF{QJWiFWLӃn hành che giҩXWK{QJWLQĈk\FNJQJOjOêGRWҥi sao mà mһFGÿmFyQKLӅu công trình nghiên cӭXYjSKѭѫQJSKiSÿѭӧFÿӅ xuҩWQKѭQJWҩt cҧ ÿӅu bӝc lӝ QKѭӧFÿLӇm riêng và vүn FKѭDJLҧi quyӃWÿѭӧc hoàn toàn vҩn ÿӅ ÿһWUDWURQJÿӅ tài này. &NJQJ Yu Yұ\ W{L ÿӅ xuҩt mӝW Kѭӟng tiӃp cұn mӟL FKR OƭQK Yӵc này: sӱ dөng SKѭѫQJSKiSÿӗng tham chiӃu kӃt hӧp vӟi mô hình mҥng bӝ nhӟ dài-ngҳQÿӇ thӵc hiӋn viӋc che giҩu thông tin riêng trong bӋQKiQÿLӋn tӱ. 1 1.2 0өFWLrXQJKLrQFӭX ĈӅWjLWKӵFKLӋQYLӋFFKHJLҩXWK{QJWLQEҵQJSKѭѫQJSKiSWKD\WKӃGӵDWUrQPӝW KӋWKӕQJYӟLVӵNӃWKӧSJLӳDÿӗQJWKDPFKLӃXYjP{KuQKPҥQJEӝQKӟGjL-QJҳQ 9LӋFWKD\WKӃFiFWK{QJWLQFyNKҧQăQJÿӏQKGDQKQj\ÿѭӧFWKӵFKLӋQPӝWFiFKQKҩW TXiQYjÿӗQJEӝFKRFQJPӝWEӋQKQKkQ[XҩWKLӋQWURQJQKLӅXEӋQKiQNKiFQKDX 1KѭÿmSKiWELӇXӣSKҫQWUѭӟFWK{QJWLQWURQJEӋQKiQÿLӋQWӱOjWK{QJWLQGҥQJ YăQEҧQYjOjGӳOLӋXNK{QJFyFҩXWU~FFiFWK{QJWLQFyWKӇÿѭӧFOѭXWUӳNK{QJWKHR FKXҭQQKҩWÿӏQKNKLFyWKӇFyFiFWӯYLӃWWҳWFӫDWrQEӋQKQKkQEiFVƭKD\ÿӏDÿLӇP« 9uWKӃFK~QJWDFҫQWKӵFKLӋQPӝWFѫFKӃWKD\WKӃQKҩWTXiQFiFWK{QJWLQÿӏQKGDQK vӟi các cách biӇu diӉn khác nhau (ký hiӋu, viӃt tҳt, dùng hӑ thay tên, dùng sӕ thay chuӛL« QKѭQJFQg chӍ vӅ ÿӕLWѭӧQJWKuQrQÿѭӧc thay thӃ bӣi mӝt giá trӏ WѭѫQJ ӭngFөWKӇQKѭVDX - Trong cùng mӝt bӋnh án, các thông tin PHI cӫa bӋQKQKkQQrQÿѭӧc thay thӃ giӕng nhau. - Các bӋnh án khác nhau cӫa cùng mӝt bӋQKQKkQFiFWK{QJWLQ3+,FNJQJQrQ ÿѭӧc thay thӃ giӕng nhau. - &iFEӋQKiQNKiFQKDXFӫDFQJPӝWEӋQKYLӋQ WrQEiFVƭӣEӋQKYLӋQÿӏDÿLӇP EӋQKYLӋQ« FiFWK{QJWLQ3+,Qj\FNJQJQrQÿѭӧFWKD\WKӃJLӕQJQKDX 1.3 éQJKƭDNKRDKӑF &iFSKѭѫQJSKiSQKҵm che giҩu thông tin riêng trong bӋQKiQÿLӋn tӱ WKѭӡng dӵa vào mӝt sӕ quy tҳc cӫa biӇu thӭc chính quy hoһc sӵ kӃt hӧp cӫa các luұt, các thuұt toán, tӯ ÿLӇn, và mӟi nhҩt hiӋn nay là các ӭng dөng cӫa hӑFPi\YjROƭQKYӵc này, ví dө QKѭWUѭӡQJÿLӅu kiӋn ngүu nhiên, mҥng bӝ nhӟ dài-ngҳn, mҥng bӝ nhӟ dàingҳn hai chiӅXĈLӇn hình là hӋ thӕng Scrub [1], hӋ thӕng De-Id [2, 3]. KӃt quҧ cӫa FiFSKѭѫQJSKiSQj\FyWKӇ thay thӃ các thông tin riêng bҵng các thông tin thay thӃ, hoһFÿѭӧc thay thӃ bҵng các nhãn cӫa loҥL3+,WѭѫQJӭng. ĈӅ WjLÿѭӧc thӵc hiӋn dӵDWUrQSKѭѫQJSKiSÿӗng tham chiӃu kӃt hӧp vӟi mô hình mҥng bӝ nhӟ dài-ngҳQÿӇ tiӃn hành thay thӃ thông tin riêng, nhҵPÿiSӭng yêu cҫu vӅ ngӳ QJKƭDÿӕi vӟi các thông tin cҫQÿѭӧc thay thӃ, và thӇ hiӋn sӵ nhҩt quán cho các thông tin thay thӃ. 1.4 éQJKƭDWKӵFWLӉQ 9ӟLVӵELӃQÿӝQJOӟQYӅOѭӧQJGӳOLӋXFӫDYăQEҧQOkPVjQJFK~QJWDÿDQJFy PӝWNKRWjQJWULWKӭFÿDQJFKӡÿѭӧFNKDLSKi7KӃQKѭQJYLӋFNKDLSKiQj\VӁEӏ GӯQJOҥLEӣLWK{QJWLQWURQJNKRWjQJQj\OjFiFWK{QJWLQÿѭӧFEҧRYӋWKHROXұWEҧR YӋTX\ӅQULrQJWѭFӫDQKkQORҥL WKѭӡQJOjFiFWK{QJWLQQKѭWrQWXәLQJj\WKiQJ QăPVLQKVӕÿLӋQWKRҥLHPDLOKRһFEҵQJFҩS« 'RYұ\FK~QJWDFKӍFyWKӇF{QJ EӕF{QJNKDLGӳOLӋXQj\FKRFiFF{QJW\FiFWәFKӭFKD\FiFQKjQJKLrQFӭXVDXNKL ÿmFKHJLҩXFiFWK{QJWLQULrng. 2 ĈӅWjLWұSWUXQJYjRYLӋFWKD\ÿәLFiFWK{QJWLQFyWKӇÿӏQKGDQKKRһFKӛWUӧÿӏQK GDQKFiFFiQKkQWURQJEӋQKiQÿLӋQWӱ9jVDXNKLWKD\ÿәLêQJKƭDFӫDEӋQKiQÿLӋQ WӱNK{QJWKD\ÿәLYүQKӛWUӧWӕWFKRFiFEjLWRiQNKDLSKiGӳOLӋX 1.5 ĈӕLWѭӧQJQJKLrQFӭXÿӅWjL ĈӅ tài hiӋn thӵc mӝt hӋ thӕng thay thӃ các thông tin riêng xuҩt hiӋn trong bӋnh iQÿLӋn tӱ. Và dӳ liӋu mүXÿӇ tiӃn hành nghiên cӭu là I2B2, mӝt tұp dӳ liӋXÿmÿѭӧc công bӕ vӟLFiFWK{QJWLQULrQJÿmÿѭӧF[iFÿӏnh cө thӇ. +uQKErQGѭӟi là mӝt phҫn dӳ liӋu trong bӋQKiQÿLӋn tӱ I2B2 Hình 1: Mӝt phҫn dӳ liӋu trong I2B2 Trong hình trên, các thҿ DATE, AGE, DOCTOR, HOSPITAL là các nhãn dùng ÿӇ [iFÿӏQKFiFÿRҥQYăQEҧQÿyWKXӝc vӅ loҥi thông tin PHI nào. Ví dө: Các thành phҫn cӫDÿRҥQYăQEҧQWUrQÿѭӧc hiӇXQKѭVDX - ³/2&$7,21´ÿDQJFKӍ vӅ mӝWÿӏDÿLӇm - LG ³3´LGFӫDÿRҥQYăQEҧn này - VWDUW ³´HQG ³´Yӏ trí cӫa nó trong toàn bӝ YăQbҧn là tӯ ký tӵ ÿӃn 36 - WH[W ³&DPSEHOO´*LiWUӏ cө thӇ cӫDQyOj³&DPSEHOO´ - 7<3( ³+263,7$/´ĈӏDÿLӇm này là mӝt bӋnh viӋn - FRPPHQW ³´*KLFK~KD\EuQKOXұQJuÿyFKRÿRҥQYăQEҧn này 3 1.6 .ӃWTXҧGӵNLӃQ Các dӳ liӋu thay thӃ ÿҧm bҧo các yêu cҫu sau: - Trong cùng mӝt bӋnh án, các thông tin PHI cӫa cùng mӝt bӋQKQKkQQrQÿѭӧc thay thӃ giӕng nhau. - Các bӋnh án khác nhau cӫa cùng mӝt bӋQKQKkQFiFWK{QJWLQ3+,FNJQJQrQ ÿѭӧc thay thӃ giӕng nhau - Các bӋnh án khác nhau cӫa cùng mӝt bӋnh viӋQ WrQEiFVƭӣ bӋnh viӋQÿӏa ÿLӇm bӋnh viӋQ« FiFWK{QJWLQ3+,Qj\FNJQJQrQÿѭӧc thay thӃ giӕng nhau. 1.7 3KҥPYLWKӵFKLӋQÿӅWjL ĈӅ tài thӵc hiӋn viӋc thay thӃ các thông tin PHI trong mӝt tұp dӳ liӋu bӋnh án ÿLӋn tӱ ,% ÿӇ tҥo ra mӝt tұp dӳ liӋu bӋQKiQÿLӋn tӱ mӟi (New I2B2) vӟi các WK{QJWLQULrQJÿmÿѭӧc che giҩu. &iFWK{QJWLQ3+,ÿmÿѭӧF[iFÿӏnh rõ ràng tӯ WUѭӟc, và viӋc che giҩu thông tin ULrQJÿѭӧc thӵc hiӋn vӟi bӝ bӋQKiQÿLӋn tӱ I2B2 vӟi ngôn ngӳ chính là tiӃng anh. 4 &KѭѫQJ,,CÁC CÔNG TRÌNH LIÊN QUAN Vӟi nhu cҫu phân tích dӳ liӋu ngày càng lӟn, viӋc che giҩu thông tin riêng cho các tұp dӳ liӋXQj\FNJQJYuYұy mà ngày càng cҩp thiӃt và quan trӑQJ'RÿyPjKLӋn tҥi có khá nhiӅu nhà nghiên cӭu hay tә chӭFWKDPJLDYjREѭӟc tiӅn xӱ lý dӳ liӋu này. ViӋc che giҩu thông tin riêng bao gӗPKDLEѭӟc: - %ѭӟc 1: Tìm kiӃm thông tin cҫn che giҩX ;iFÿӏnh thông tin riêng PHI) - %ѭӟc 2: HiӋn thӵc mӝt hӋ thӕng thay thӃ các thông tin cҫn che giҩu Chi tiӃt cӫa tӯQJEѭӟc sӁ ÿѭӧc mô tҧ qua các bài báo khoa hӑFGѭӟLÿk\ ;iFÿӏQK3+, Ĉk\OjPӝWJLDLÿRҥn quan trӑng, vӟi tính chính xác càng cao, càng hӛ trӧ tӕt cho FiFJLDLÿRҥn sau khi thӵc hiӋn thay thӃ. Có rҩt nhiӅu công trình nghiên cӭu vӟi nhiӅu giҧLSKiSÿӇ xӱ OêEjLWRiQQj\VDXÿk\OjQKӳng tóm tҳt vӅ chúng. 9jRQăP/DWDQ\D6ZHHQH\ÿmGӵa trên cách tiӃp cұn cӫDFRQQJѭӡi khi xác ÿӏQKFiFWK{QJWLQÿӏQKGDQKÿӇ xây dӵng hӋ thӕng Scrub [1], mӝt hӋ thӕng sӱ dөng SKѭѫQJSKiSQKұn diӋn vӟi mӝt bӝ các giҧi thuұt nhұn diӋn sӱ dөng các mүu và tri thӭc chuyên biӋt vӅ nhӳng yӃu tӕ cҩu thành nên mӝWFiLWrQÿӏa chӍ, sӕ ÿLӋn thoҥi. Mӛi giҧi thuұt trong hӋ thӕQJ[iFÿӏnh mӝt loҥLWK{QJWLQÿӏnh danh khác nhau. Các giҧi thuұt này sӱ dөng các nguӗn tri thӭc cөc bӝ. Các tri thӭc này là các kiӃn thӭc ÿѭӧFWtFKONJ\Gӵa trên thӵc nghiӋPTXDQViWYjWѭѫQJWiFYӟLP{LWUѭӡng, xã hӝi. Ví dө, Fred và Bill là nhӳng hӑ thông dөng hay Miller và Jones là nhӳng tên thông dөng và khi chúng ta biӃt nhӳng kiӃn thӭc này sӁ dӉ dàng cho chúng ta nhұQUDÿyOjQKӳng cái tên. HӋ thӕng sӱ dөng các danh sách tri thӭc cөc bӝ ÿLNqPOjFiFPүu cӫa chúng, bao gӗm tên, hӑ, bí danh, tên viӃt tҳt cӫa các tiӇu bang cӫa Mӻ«YjFiFJLҧi thuұt nhúng các mүu nhұn dҥng. 5 Bҧng 1: Các thӵc thӇ ÿѭӧc nhұn dҥng bӣL6FUXEYjÿӝ ѭXWLrQFӫa nó 1. Khӕi ÿӏnh danh 13. Tên 2. 1KmQÿӏa chӍ mail 14. Bí danh 3. KhӕLÿӏa chӍ 1ѭӟc 4. Hӑ tên 16. SSN 5. ĈӏDÿLӇm 7LrXÿӅ 6. Ĉѭӡng 18. Tә chӭc 7. Thành phӕ .tFKWKѭӟc 8. Bang 20. Tuәi 9. Mã ZIP 21. Ngày tháng 10. Sӕ ÿLӋn thoҥi 22. Thuұt ngӳ y khoa 11. Hӑ 25. Sӕ tham chiӃu 12. Tên lót Các giҧi thuұt nhұn dҥng có thӇ ÿѭӧc thӵc thi tuҫn tӵ theo thӭ tӵ ѭXWLrQĈӕi vӟi tӯng kí tӵ WURQJYăQEҧQÿҫu vào, thuұt toán nhұn dҥng vӟLѭXWLrQFDRQKҩt sӁ báo cáo xác suҩt lӟn nhҩt khҧ QăQJ[Xҩt hiӋn mӝt thӇ hiӋn cӫa thӵc thӇ cӫa nó dӵa trên mӝt giá trӏ QJѭӥQJĈӝ ѭXWLrQFӫa giҧi thuұWÿѭӧc dӵa trên sӕ Oѭӧng các thӵc thӇ cҩu thành nên thӵc thӇ ÿѭӧc gán cӫa giҧi thuұt. Các thӵc thӇ cҩu thành là các thӵc thӇ nҵm bên trong dҩu ngoһc ӣ bҧng 2 ӣ Gѭӟi. Ví dө ÿӇ [iFÿӏnh thӵc thӇ ÿӏDÿLӇm ta có thӇ ÿӏnh danh mӝt thành phӕ, mӝt bang hay mӝt quӕFJLD7URQJÿyNKӕLÿӏnh danh Fyÿӝ ѭXWLrQFDRQKҩt, và các thӵc thӇ tӯ sӕ ÿӃQFyÿӝ ѭXWLrQQKѭQKDX 6
- Xem thêm -

Tài liệu liên quan