ĈҤ,+Ӑ&48Ӕ&*,$73+&0
75ѬӠ1*ĈҤ,+Ӑ&%È&+.+2$
--------------------
Æ80Ұ8'ѬѪ1*
Ӭ1*'Ө1*3+Æ1*,Ҧ,ĈӖ1*7+$0&+,ӂ8
&+2%¬,72È1/Ӑ&7+Ð1*7,15,Ç1*
7521*9Ă1%Ҧ1/Æ0SÀNG
APPLYING COREFERENCE RESOLUTION TO
PHI DEIDENTIFICATION IN CLINICAL TEXT
Chuyên nJjQK.KRD+ӑF0i\7tQK
0mVӕ8480101
/8Ұ19Ă17+Ҥ&6Ƭ
73+Ӗ&+Ë0,1+WKiQJQăP
&Ð1*75Î1+ĈѬӦ&+2¬17+¬1+7Ҥ,
75ѬӠ1*ĈҤ,+Ӑ&%È&+.+2$ Ĉ+4*-HCM
&iQEӝKѭӟQJGүQNKRDKӑF769}7Kӏ1JӑF&KkX
&iQEӝFKҩPQKұQ[pW3*6761JX\ӉQ7XҩQĈăQJ
&iQEӝFKҩPQKұQ[pW3*676 +XǤQK7UXQJ+LӃX
/XұQYăQWKҥFVƭÿѭӧFEҧRYӋ WҥL7UѭӡQJĈҥLKӑF%iFK.KRDĈ+4*7S
+&0QJj\WKiQJQăP 7UӵFWX\ӃQ
7KjQKSKҫQ+ӝLÿӗQJÿiQKJLiOXұQYăQWKҥFVƭJӗP
&KӫWӏFKKӝLÿӗQJ761JX\ӉQĈӭF'NJQJ
7KѭNt761JX\ӉQ7LӃQ7KӏQK
*9SKҧQELӋQ3*6761JX\ӉQ7XҩQĈăQJ
*9SKҧQELӋQ3*676+XǤQK7UXQJ+LӃX
Ӫ\YLrQ769}7Kӏ1JӑF&KkX
;iFQKұQFӫD&KӫWӏFK+ӝLÿӗQJÿiQKJLiOXұQYăQYj7UѭӣQJ.KRDTXҧQOê
FKX\rQQJjQKVDXNKLOXұQYăQÿmÿѭӧFVӱDFKӳDQӃXFy
&+Ӫ7ӎ&++Ӝ,ĈӖ1*
75ѬӢ1*.+2$
.+2$+Ӑ&9¬.Ӻ7+8Ұ70È<7Ë1+
ĈҤ,+Ӑ&48Ӕ&*,$73+&0
75ѬӠ1*ĈҤ,+Ӑ&%È&+.+2$
&Ӝ1*+Ñ$;+Ӝ,&+Ӫ1*+Ƭ$9,ӊ71$0
ĈӝFOұS- 7ӵGR- +ҥQKSK~F
1+,ӊ09Ө/8Ұ19Ă17+Ҥ&6Ƭ
+ӑ WrQKӑFYLrQÆX0ұX'ѭѫQJ06+9
1Jj\WKiQJQăPVLQK1ѫLVLQK.KiQK+zD
1JjQK.KRD+ӑF0i\7tQK0mVӕ : 8480101
I. 7Ç1Ĉӄ7¬,
ӬQJGөQJSKkQJLҧLÿӗQJWKDPFKLӃXFKREjLWRiQOӑFWK{QJWLQULrQJWURQJYăQEҧQ
lâm sàng
II. 1+,ӊ09Ө9¬1Ӝ,'81*
- Tìm hiӇu lý thuyӃt và các công trình liên quan vӅ bài toán lӑc thông tin riêng
trong các bӋQKiQÿLӋn tӱ
- 7uPKLӇXYjKLӋQWKӵFP{KuQKKyDYHFWRUFKRWӯYjFөPWӯWURQJYăQEҧQiS
GөQJFKRFiFYăQEҧQOkPVjQJWURQJFiFEӋQKiQÿLӋQWӱ
- 7uPKLӇXFiFP{KuQKSKkQJLҧLÿӗQJWKDPFKLӃX
- 3KiWWULӇQJLҧLSKiSFKREjLWRiQOӑFWK{QJWLQULrQJWURQJFiFYăQEҧQOkP
VjQJWURQJÿyFyGQJP{KuQKSKkQJLҧLÿӗQJWKDPFKLӃXÿӇYLӋFWKD\WKӃ
WK{QJWLQULrQJÿѭӧFQKҩWTXiQ
- 7KӵFKLӋQÿiQKJLiÿӅ[XҩWWUrQGӳOLӋXFKXҭQFӫDFXӝFWKLQKұQGҥQJWK{QJ
WLQULrQJQăPFӫD,%
III. NGÀY GIAO NHIӊM VӨ: 22/02/2021
IV. 1*¬<+2¬17+¬1+1+,ӊ09Ө: 13/06/2021
V. &È1%Ӝ+ѬӞ1*'Ү1 : 769}7Kӏ1JӑF&KkX
7S+&0QJj\WKiQJQăP
CHӪ NHIӊM BӜ 0Ð1Ĉ¬27ҤO
(Hӑ tên và chӳ ký)
CÁN BӜ +ѬӞNG DҮN
(Hӑ tên và chӳ ký)
75ѬӢNG KHOA KHOA HӐC VÀ KӺ THUҰT MÁY TÍNH
(Hӑ tên và chӳ ký)
iii
/Ӡ,&È0Ѫ1
ĈӇFyWKӇKRjQWKjQKOXұQYăQWKҥFVƭPӝWFiFKKRjQFKӍQKErQFҥQKVӵQӛOӵFFӕJҳQJ
FӫDEҧQWKkQFzQFyVӵKѭӟQJGүQQKLӋWWuQKFӫDTXê7Kҫ\&{FNJQJQKѭVӵÿӝQJYLrQӫQJ
KӝFӫDJLDÿuQKYjEҥQEqWURQJVXӕWWKӡLJLDQKӑFWұSQJKLrQFӭXYjWKӵFKLӋQOXұQYăQWKҥF
Vƭ
;LQFKkQWKjQKEj\WӓOzQJELӃWѫQÿӃQ&{769}7Kӏ1JӑF&KkXQJѭӡLÿmKӃWOzQJ
JL~SÿӥYjWҥRPӑLÿLӅXNLӋQWӕWQKҩWFKRW{LKRjQWKjQKOXұQYăQQj\;LQFKkQWKjQKEj\
WӓOzQJELӃWѫQÿӃQWRjQWKӇTXêWKҫ\F{WURQJNKRD.KRDKӑFPi\WtQK- 7UѭӡQJĈ+%ich
.KRD7S+&0ÿmWұQWuQKWUX\ӅQÿҥWQKӳQJNLӃQWKӭFTXêEiXFNJQJQKѭWҥRPӑLÿLӅXNLӋQ
WKXұQOӧLQKҩWFKRW{LWURQJVXӕWTXiWUuQKKӑFWұSQJKLrQFӭXYjFKRÿӃQNKLWKӵFKLӋQÿӅ
tài này.
&XӕLFQJW{L[LQFKkQWKjQKFҧPѫQÿӃQJLDÿuQKFiFDQKFKӏYjFiFEҥQÿӗQJQJKLӋS
ÿmKӛWUӧFKRW{LUҩWQKLӅXWURQJVXӕWTXiWUuQKKӑFWұSQJKLrQFӭXYjWKӵFKLӋQOXұQYăQ
WKҥFVƭPӝWFiFKKRjQFKӍQK
7S+ӗ&Kt0LQKQJj\WKiQJQăP
+ӑFYLrQ
ÆX0ұX'ѭѫQJ
iv
7Ï07Ҳ7/8Ұ19Ă1
Tӯ WUѭӟFÿӃn nay, mӛi khi khám chӳa bӋnh, bӋnh viӋQOX{QOѭXJLӳ hӗ VѫEӋnh
án cӫa tҩt cҧ các bӋnh nhân. Khi công nghӋ FKѭDSKiWWULӇn, các bӋQKiQQj\ÿѭӧFOѭX
trӳ Gѭӟi dҥng giҩ\1KѭQJWKӡLÿLӇm hiӋn tҥi, công nghӋ ÿmWLrQWLӃn, dҥng giҩ\ÿm
NK{QJFzQÿѭӧFѭXFKXӝQJWKD\YjRÿyOj Pӝt loҥi bӋQKiQÿѭӧFOѭXWUӳ trên hӋ
thӕQJÿLӋn tӱ Pi\YLWtQKÿLӋn thoҥi, máy tính bҧQJ«YjWrQJӑi chính xác cӫa
nó là bӋQKiQÿLӋn tӱ %$Ĉ7
3KѭѫQJWKӭFOѭXWUӳ WKD\ÿәi giúp cho viӋc tìm kiӃm và phân tích dӉ GjQJKѫQ
&NJQJWӯ ÿyPjKѭӟng nghiên cӭu vӅ dӳ liӋu y hӑc phát triӇn, nhu cҫu sӱ dөng dӳ liӋu
Qj\WăQJOrQ7KӃ QKѭQJFiFGӳ liӋu này chӭa khá nhiӅu thông tin cá nhân và vҩQÿӅ
bҧo mұWÿѭӧFÿһt ra. NӃu cung cҩp dӳ liӋu này cho nhà nghiên cӭu dӳ liӋu y hӑc sӁ
vi phҥm quyӅQÿѭӧc bҧo mұt thông tin cá nhân cӫDF{QJGkQ1KѭQJQӃu không cung
cҩp, nhà nghiên cӭu dӳ liӋu y hӑFFNJQJYuYұy mà không thӇ tiӃp tөc nghiên cӭu, mà
kӃt quҧ cӫa nhӳng nghiên cӭu này lҥi rҩt hӳu ích cho ngành y.
Mӝt giҧLSKiSÿѭӧFÿӅ ra là phҧi tiӃn hành tiӅn xӱ lý cho các dӳ liӋu này. Nói
mӝWFiFKFKtQK[iFKѫQÿyOjFKHJLҩu tҩt cҧ nhӳng thông tin cá nhân hoһc có khҧ
QăQJVX\UDWK{QJWLQFiQKkQFӫa các bӋQKiQÿLӋn tӱ này. ThӃ QKѭQJVӵ che giҩu
này phҧLÿҧm bҧo mӝt yêu cҫu tӕi quan trӑQJÿyOjNK{QJOjPWKD\ÿәLêQJKƭDFӫa
bӋQKiQÿLӋn tӱ.
&NJQJYuYұy mà trong luұQYăQQj\VӁ ÿӅ xuҩt mӝWSKѭѫQJSKiSWKӵc hiӋn viӋc
che giҩu thông tin tӵ ÿӝQJFKRFiF%$Ĉ7Yӟi mô hình dӵDWUrQÿӗng tham chiӃu kӃt
hӧp vӟi mô hình mҥng bӝ nhӟ dài-ngҳn. KӃt quҧ cӫa quá trình che giҩu này là sӁ tҥo
ra tұp các bӋQKiQÿLӋn tӱ có cҩXWU~FWѭѫQJWӵ QKѭFiF%$Ĉ7JӕFQKѭQJFiFWK{QJ
WLQULrQJÿmÿѭӧFWKD\ÿәL&iF%$Ĉ7ÿmÿѭӧFWKD\ÿәi thông tin mӝt cách chính xác
và nhҩt quán cho các thӵc thӇ xuҩt hiӋn nhiӅu lҫQWURQJ%$Ĉ7Jӕc. Các giá trӏ thӡi
gian xuҩt hiӋQWURQJ%$Ĉ7ÿѭӧFWKD\ÿәLQKѭQJYүn giӳ nguyên tính chính xác vӅ
khoҧng cách thӡLJLDQJL~SQJѭӡLÿӑc có thӇ JLiPViWÿѭӧc lӏch sӱ khám chӳa bӋnh
cӫa bӋQKQKkQÿy
ĈӅ tài này mang tính thӵc tӃ và bao quát ӣ nhӳQJÿLӇm sau. Các thông tin riêng
(protected health information - 3+,ÿѭӧc xӱ lí khác nhau dӵDYjRÿһFÿLӇm cӫa tӯng
dҥng dӳ liӋXĈӕi vӟi các thông tin PHI dҥng sӕ, áp dөng các quy tҳFÿӇ tiӃn hành
nhұn dҥQJĈӕi vӟi các thông tin PHI dҥng chuӛi, áp dөng viӋc biӃQÿәi các tӯ, cөm
tӯ thành dҥnJYHFWRUVDXÿyiSGөQJÿӗng tham chiӃu kӃt hӧp vӟi mҥng bӝ nhӟ dàingҳQÿӇ nhұn dҥQJFiF3+,ÿDQJFQJFKӍ vӅ mӝWÿӕLWѭӧQJÿk\FNJQJOjPӝt thách
thӭFWURQJÿӅ WjL6DXÿy[k\Gӵng mӝt hӋ thӕng thay thӃ các thông tin PHI.
v
ABSTRACT
Until now, the hospital always keeps the medical records of all of patients.
When technology was not yet developed, these medical records were stored in paper
form. But for the present, technology has advanced, paper form is no longer
preferred, instead it is a type of medical record stored on an electronic system
(computer, phone, tablet, etc.), and its correct name is electronic medical record.
The changed storage method makes it easier to find and analyze. Since then,
the direction of research on medical data has developed, and the demand for using
this data has increased. However, this data contains a lot of personal information
and security issues are raised. Providing this data to a medical data researcher
would violate a citizen's right to privacy. But if not provided, the researcher of
medical data also cannot continue to research, and the results of these researchs are
very useful to the medical profession.
One proposed solution is to perform preprocessing of these data. To be more
precise, it is to hide all of personal informations and all of informations be able to
infer personal information in these electronic medical records. However, this
concealment must ensure an extremely important requirement, which is not to
change the meaning of the electronic medical record.
Therefore, in this thesis, a method will be proposed to implement automatic
information hiding for electronic medical records with a co-referencing-based
model combined with a long-short memory network model. The result of this
masking process is to create a set of electronic medical records with the same
structure as the original medical records, but the private information has been
changed. The electronic medical records have been correctly and consistently
modified for entities that appear more than once in the original electronic medical
records. The time values appearing in the electronic medical records are changed,
but the accuracy of the time interval remains the same so that the reader can monitor
the patient's medical history.
This topic is practical and covers the following points. Protected health
information (PHI) is handled differently based on the characteristics of each data
type. For numeric PHI information, applying the rules to performing identification .
For string PHI information, applying the transformation of words and phrases into
vector form, then applying co-referencing combined with long-short memory
network to identify PHIs that refer to the same object. (this is a challenge in this
thesis). Then, building a system that replaces the PHI information.
vi
/Ӡ,&$0Ĉ2$1
7{L[LQFDPÿRDQUҵng ngoài các kӃt quҧFiFWK{QJWLQÿѭӧc tham khҧo tӯ các
F{QJWUuQKNKiFQKѭÿmJKLU}WURQJOXұQYăQQKӳng công viӋc, kӃt quҧ ÿѭӧc trình
bày trong luұQYăQQj\OjGRFKtQKW{LWKӵc hiӋQYjFKѭDÿѭӧc sӱ dөQJÿӇ lҩy bҩt kì
chӭng chӍ, bҵng cҩp nào khác.
7S+&0QJj\WKiQJQăP
Hӑc viên
Âu MұX'ѭѫQJ
vii
0өFOөF
1+,ӊ09Ө/8Ұ19Ă17+Ҥ&6Ƭ .................................................................................................. iii
Lғ/DґE ....................................................................................................................................... iv
TÓM TѻT LUѺEsE ........................................................................................................................... v
ABSTRACT ........................................................................................................................................... vi
Lғ/DKE ................................................................................................................................. vii
DANH MҗC BѵNG BI҅U ....................................................................................................................... x
DANH MҗC HÌNH ѵNH ....................................................................................................................... xi
DANH MҗC VI҃T TѻT......................................................................................................................... xii
DANH MҗC THUѺT NGҝ .................................................................................................................. xiii
DANH MҗC TѵI CÔNG Cҗ ................................................................................................................ xiv
ŚӇҿŶŐ/͗'/ҒI THI҇U TҎNG QUAN ................................................................................................... 1
1.1
Lí do chҸŶĜҲ tài ................................................................................................................. 1
1.2
MӅc tiêu nghiên cӈu .......................................................................................................... 2
1.3
|ŶŐŚša khoa hҸc ................................................................................................................ 2
1.4
|ŶŐŚšĂƚŚӌc tiҴn ................................................................................................................ 2
1.5
ҺŝƚӇӄng nghiên cӈƵĜҲ tài .............................................................................................. 3
1.6
Kұt quң dӌ kiұn .................................................................................................................. 4
1.7
PhҢm vi thӌc hiҵŶĜҲ tài .................................................................................................... 4
ŚӇҿŶŐ//͗NE'dZ0EH LIÊN QUAN .......................................................................................... 5
Ϯ͘ϭyĄĐĜҷnh PHI ............................................................................................................................. 5
2.2 LoҢi bҹ các PHI ....................................................................................................................... 17
ŚӇҿŶŐ///͗ґ SҔ LÝ THUY҃T .......................................................................................................... 20
3.1. PHI ......................................................................................................................................... 20
ϯ͘Ϯ͘WŚӇҿŶŐƉŚĄƉĚӌa trên quy tҩc ............................................................................................. 21
3.3. MҢng bҾ nhӀ dài-ngҩn .......................................................................................................... 21
3.3.1. MҢŶŐŶҿ-ron hһi quy ..................................................................................................... 21
3.3.2. VҤŶĜҲ phӅ thuҾc xa ...................................................................................................... 23
3.3.3. MҢng bҾ nhӀ dài-ngҩn ................................................................................................... 23
ϯ͘ϯ͘ϰ͘|ƚӇӂng cҺt lõi cӆa mҢng bҾ nhӀ dài-ngҩn .................................................................... 25
3.3.5. Bên trong mҢng bҾ nhӀ dài-ngҩn .................................................................................. 26
ϯ͘ϰ͘һng tham chiұu ................................................................................................................... 28
3.4.1. Khái niҵm........................................................................................................................ 28
viii
3.4.2. Các thành phҥn trong quan hҵ Ĝһng tham chiұƵƚŚӇӁng gҭp....................................... 28
3.4.3. Phân loҢi ......................................................................................................................... 29
ϯ͘ϰ͘ϰ͘ĄĐƚƌӇӁng hӄp gây nhҥm lҧn vӀŝĜһng tham chiұu...................................................... 30
3.4.5. Bài ƚŽĄŶĜһng tham chiұƵƚƌŽŶŐǀĉŶďңn....................................................................... 30
3.5. Biҳu diҴn tӉ, cӅm tӉ thành vector ........................................................................................ 31
ϯ͘ϲ͘WŚӇҿŶŐƉŚĄƉĜĄŶŚŐŝĄ .......................................................................................................... 35
ϯ͘ϲ͘ϭ͘Ҿ ĜŽWƌĞĐŝƐŝŽŶ͕ZĞĐĂůů͕F1 ............................................................................................. 35
ŚӇҿŶŐ/s͗DNdѵ /dKEsW,ҙґE'W,Wd,ҞC HI҇E҄ TÀI ............................................ 37
4.1. Mô tң bài toán ....................................................................................................................... 37
ϰ͘Ϯ͘WŚӇҿŶŐƉŚĄƉƚŚӌc hiҵŶĜҲ tài .............................................................................................. 40
4.2.1. Tokenization ................................................................................................................... 41
4.2.2. Abbreviation Resolution Module ................................................................................... 43
4.2.3. Word Representation ..................................................................................................... 44
4.2.4. Coreference Resolution Module .................................................................................... 45
4.2.5. Alternative Information Component ............................................................................. 47
4.2.6. Replace Component ....................................................................................................... 49
ŚӇҿŶŐs͗E,'/ ....................................................................................................................... 51
5.1. Mô tң dӋ liҵƵĜҥu vào ........................................................................................................... 51
ϱ͘ϭ͘ϭ͘dŚƀŶŐƚŝŶW,/ƚƌŽŶŐd .............................................................................................. 51
ϱ͘ϭ͘Ϯ͘ҭĐĜŝҳm dӋ liҵu ............................................................................................................ 51
5.2.
Mô tҧ dӳ liӋXÿҫu ra ......................................................................................................... 51
5.3.
WŚӇҿŶŐƉŚĄƉĜĄŶŚŐŝĄ ..................................................................................................... 52
5.3.1. Phҥn 1............................................................................................................................. 52
5.3.2. Phҫn 2 ............................................................................................................................. 54
5.3.3. Phҫn 3 ............................................................................................................................. 54
ŚӇҿŶŐs/͗<҃T LUѺN....................................................................................................................... 56
6.1. Các nҾŝĚƵŶŐĜĆĜӇӄc thӌc hiҵn ............................................................................................... 56
6.2. MӈĐĜҾ ĜҢƚĜӇӄc cӆĂĜҲ tài ..................................................................................................... 56
6.3. NhӋng nghiên cӈu tiұp theo ..................................................................................................... 56
TÀI LI҇U THAM KHѵO ....................................................................................................................... 57
PHѷN LÝ L҉CH TRÍCH NGANG ........................................................................................................... 59
ix
'$1+0Ө&%Ҧ1*%,ӆ8
Bҧng 1: Các thӵc thӇ ÿѭӧc nhұn dҥng bӣL6FUXEYjÿӝ ѭXWLrQFӫa nó.............................................. 6
Bҧng 2: Thӵc thӇ cҩu thành ............................................................................................................... 7
Bҧng 3: Các mүu nhұn dҥng sӕ ÿLӋn thoҥi và xác suҩt cӫa nó. d (decimal) là chӳ sӕ ....................... 7
Bҧng 4: Sӕ Oѭӧng các thӵc thӇ PHI cӫa các danh mөc chính thuӝc tұp dӳ liӋu I2B2 - 2014 ............ 9
Bҧng 5: BiӇu thӭFFKtQKTX\ÿѭӧc sӱ dөng trong hӋ thӕng [2] ....................................................... 11
Bҧng 6: Sӕ Oѭӧng các thӵc thӇ PHI cӫa các danh mөc chính thuӝc I2B2 ± 2014 và N-GRID ± 2016
.......................................................................................................................................................... 13
Bҧng 7: BiӇu thӭFFKtQKTX\ÿѭӧc sӱ dөng trong hӋ thӕng [3] ....................................................... 16
Bҧng 8: Xác suҩt và tӍ lӋ xác suҩt cӫa tӯ ngӳ cҧnh và tӯ mөc tiêu .................................................. 33
BҧQJĈiQKJLiVӵ hiӋu quҧ cӫa viӋc sӱ dөQJÿӗng tham chiӃu ................................................... 54
BҧQJĈiQKJLiVӵ hiӋu quҧ cӫa viӋc sӱ dөQJÿӗng tham chiӃu ................................................. 54
x
'$1+0Ө&+Î1+Ҧ1+
Hình 1: Mӝt phҫn dӳ liӋu trong I2B2 ................................................................................................. 3
Hình 2: HӋ thӕng nhұn diӋn PHI cӫa nhóm tác giҧ Trung Quӕc [2].................................................. 8
Hình 3: Ví dө vӅ cách biӇu diӉn thӵc thӇ PHI bҵQJ³%,2´Yj³%,2(6´Wҥi mӭc Token ................ 10
Hình 4: Ví dө vӅ SKkQWiFKWURQJWUѭӡQJÿLӅu kiӋn ngүu nhiên mӭc ký tӵ ...................................... 10
Hình 5: Mô hình mô tҧ hӋ thӕng [3] ................................................................................................ 13
Hình 6: KiӃn trúc cӫa mҥng bӝ nhӟ dài-ngҳn hai chiӅu [3] ............................................................. 15
Hình 7: KiӃn trúc cӫa mҥng bӝ nhӟ dài-ngҳn hai chiӅu vӟLFiFÿһFWUѭQJ>@ ................................ 16
Hình 8: Mӝt nút trong mҥQJQѫ-ron hӗi quy .................................................................................... 22
Hình 9: MҥQJQѫ-ron hӗi quy .......................................................................................................... 22
Hình 10: BiӇu diӉn mҥQJQѫ-ron hӗi quy vӟi tҫng tanh................................................................... 24
Hình 11: BiӇu diӉn mҥng bӝ nhӟ dài-ngҳn vӟi 4 tҫQJWѭѫQJWiF ..................................................... 24
Hình 12: Trҥng thái tӃ bào ............................................................................................................... 25
Hình 13: Cәng sàng lӑc thông tin .................................................................................................... 25
+uQK&iFKWtQK¦t ....................................................................................................................... 26
Hình 15: Cách tính it và ݐܥ............................................................................................................... 27
Hình 16: Cách tính Ct ....................................................................................................................... 27
Hình 17: Cách tính ot và ht ............................................................................................................... 28
Hình 18: Mô hình chung giҧi quyӃWEjLWRiQÿӗng tham chiӃu ........................................................ 31
Hình 19: BiӇu diӉn tӯ dҥng One-hot vector [8] ............................................................................... 32
Hình 20: BiӇu diӉn phân bӕ cho tӯ [8] ............................................................................................. 32
Hình 21: Hàm trӑng sӕ ..................................................................................................................... 35
Hình 22: BӋnKiQÿLӋn tӱ ÿRҥn Text ................................................................................................ 37
Hình 23: BӋQKiQÿLӋn tӱ ÿRҥn Tag ................................................................................................. 38
Hình 24: KӃt quҧ thay thӃ ÿRҥn Text ............................................................................................... 39
Hình 25: KӃt quҧ thay thӃ ÿRҥn Tag ................................................................................................ 39
Hình 26: HӋ thӕng thay thӃ các thông tin PHI ................................................................................. 41
Hình 27: HӋ thӕng Rule-based xӱ lý các tӯ viӃt tҳt ......................................................................... 43
+uQK%ѭӟc 1 cӫa hӋ thӕQJU~WWUtFKÿһFWUѭQJ>@ .................................................................... 45
+uQK%ѭӟc 2 cӫa hӋ thӕQJU~WWUtFKÿһFWUѭQJ>@ .................................................................... 47
Hình 30: Ví dө vӅ vҩQÿӅ xӱ Oêÿӗng tham chiӃu ............................................................................ 53
Hình 31: Ví dө vӅ vҩQÿӅ viӃt sai chính tҧ ....................................................................................... 55
xi
'$1+0Ө&9,ӂ77Ҳ7
Tӯ
%$Ĉ7
PHI
I2B2
SSN
HIPAA
GloVe
1JX\rQYăQ
BӋQKiQÿLӋn tӱ
Protected Health Infomation
Informatics for Integrating Biology and the Bedside
Social Security Number
Health Insurance Portability and Accountability Act
Global Vectors for Word Representation
xii
'$1+0Ө&7+8Ұ71*Ӳ
TiӃng viӋt
MҥQJQѫ-ron hӗi quy
Mҥng bӝ nhӟ dài-ngҳn
Mҥng bӝ nhӟ dài-ngҳn hai chiӅu
ĈӗQJWKDPFKLӃX
7UѭӡQJÿLӅXNLӋQQJүXQKLrQ
0i\YHFWRUKӛWUӧ
TiӃng anh
Recurrent Neural Network
Long Short-Term Memory
Bidirectional Long Short-Term
Memory
Coreference
Conditional random field
Support vector machine
xiii
ViӃt tҳt
RNN
LSTM
Bi-LSTM
CRF
SVM
'$1+0Ө&7Ҧ,&Ð1*&Ө
CÔNG CӨ
CRFsuite
MedEx
LibSVM
NLTK
GloVe
ĈѬӠNG DҮN
http://www.chokkan.org/software/crfsuite/
https://code.google.com/archive/p/medex-uima/downloads
https://www.csie.ntu.edu.tw/~cjlin/libsvm/
https://www.nltk.org/
https://nlp.stanford.edu/projects/glove/
xiv
&KѭѫQJ,*,Ӟ,7+,ӊ87Ә1*48$1
1.1 /tGRFKӑQÿӅWjL
Ngày nay, vҩQÿӅ OѭXWUӳ trӣ nên ngày càng dӉ GjQJKѫQQKҩt là trong y tӃ, bӋnh
iQÿLӋn tӱ %$Ĉ7FKtQKOjPӝt biӇu hiӋn cӫa sӵ phát triӇn này. Nhӡ %$Ĉ7UDÿӡi
mà nhӳng vҩQÿӅ QKѭWuPNLӃm hay nghiên cӭu trӣ nên dӉ GjQJKѫQĈk\FNJQJOjOê
GRYuVDR%$Ĉ7Oҥi trӣ nên quan trӑng trong nghiên cӭXFNJQJQKѭKӛ trӧ khám chӳa
bӋQK1KѭQJ%$Ĉ7FyFKӭa rҩt nhiӅu thông tin có thӇ ÿӏnh danh hoһc hӛ trӧ ÿӏnh
danh mӝWFiQKkQQjRÿyÿLӅu này làm ҧQKKѭӣQJÿӃQWtQKULrQJWѭFӫa mӝt công
GkQ&NJQJYuYұ\WUѭӟc khi chia sҿ hay cung cҩp cho các nhà nghiên cӭu dӳ liӋu y tӃ,
chúng ta cҫn phҧi che giҩu các thông tin này.
Tuy nhiên, mӝt sӕ ÿһFÿLӇm cӫD%$Ĉ7PDQJOҥi mӝt sӕ NKyNKăQWURQJTXiWUuQK
xӱ lí:
- Dӳ liӋXWURQJ%$Ĉ7OjGӳ liӋu dҥQJYăQEҧn (phi cҩXWU~FYjFiFKKjQKYăQOj
mӝt dҥng cӫa bҩt quy tҳF'RÿyWK{QJWLQUҩWNKyÿӇ [iFÿӏnh.
- %$Ĉ7WKѭӡQJÿѭӧc sinh ra tӯ nhӳQJJKLFKpSYjÿ{LNKLWKӡi gian ghi chép rҩt
hҥn hҽp, nên trong dӳ liӋu bӋQKiQWKѭӡng xҧy ra lӛi chính tҧ, các tӯ viӃt tҳt, không
ÿ~QJQJӳ pháp.
Chính nhӳQJÿһc ÿLӇm trên gây ra nhӳQJNKyNKăQFKRF{QJWiFWLӃn hành che
giҩXWK{QJWLQĈk\FNJQJOjOêGRWҥi sao mà mһFGÿmFyQKLӅu công trình nghiên
cӭXYjSKѭѫQJSKiSÿѭӧFÿӅ xuҩWQKѭQJWҩt cҧ ÿӅu bӝc lӝ QKѭӧFÿLӇm riêng và vүn
FKѭDJLҧi quyӃWÿѭӧc hoàn toàn vҩn ÿӅ ÿһWUDWURQJÿӅ tài này.
&NJQJ Yu Yұ\ W{L ÿӅ xuҩt mӝW Kѭӟng tiӃp cұn mӟL FKR OƭQK Yӵc này: sӱ dөng
SKѭѫQJSKiSÿӗng tham chiӃu kӃt hӧp vӟi mô hình mҥng bӝ nhӟ dài-ngҳQÿӇ thӵc
hiӋn viӋc che giҩu thông tin riêng trong bӋQKiQÿLӋn tӱ.
1
1.2 0өFWLrXQJKLrQFӭX
ĈӅWjLWKӵFKLӋQYLӋFFKHJLҩXWK{QJWLQEҵQJSKѭѫQJSKiSWKD\WKӃGӵDWUrQPӝW
KӋWKӕQJYӟLVӵNӃWKӧSJLӳDÿӗQJWKDPFKLӃXYjP{KuQKPҥQJEӝQKӟGjL-QJҳQ
9LӋFWKD\WKӃFiFWK{QJWLQFyNKҧQăQJÿӏQKGDQKQj\ÿѭӧFWKӵFKLӋQPӝWFiFKQKҩW
TXiQYjÿӗQJEӝFKRFQJPӝWEӋQKQKkQ[XҩWKLӋQWURQJQKLӅXEӋQKiQNKiFQKDX
1KѭÿmSKiWELӇXӣSKҫQWUѭӟFWK{QJWLQWURQJEӋQKiQÿLӋQWӱOjWK{QJWLQGҥQJ
YăQEҧQYjOjGӳOLӋXNK{QJFyFҩXWU~FFiFWK{QJWLQFyWKӇÿѭӧFOѭXWUӳNK{QJWKHR
FKXҭQQKҩWÿӏQKNKLFyWKӇFyFiFWӯYLӃWWҳWFӫDWrQEӋQKQKkQEiFVƭKD\ÿӏDÿLӇP«
9uWKӃFK~QJWDFҫQWKӵFKLӋQPӝWFѫFKӃWKD\WKӃQKҩWTXiQFiFWK{QJWLQÿӏQKGDQK
vӟi các cách biӇu diӉn khác nhau (ký hiӋu, viӃt tҳt, dùng hӑ thay tên, dùng sӕ thay
chuӛL«QKѭQJFQg chӍ vӅ ÿӕLWѭӧQJWKuQrQÿѭӧc thay thӃ bӣi mӝt giá trӏ WѭѫQJ
ӭngFөWKӇQKѭVDX
- Trong cùng mӝt bӋnh án, các thông tin PHI cӫa bӋQKQKkQQrQÿѭӧc thay thӃ
giӕng nhau.
- Các bӋnh án khác nhau cӫa cùng mӝt bӋQKQKkQFiFWK{QJWLQ3+,FNJQJQrQ
ÿѭӧc thay thӃ giӕng nhau.
- &iFEӋQKiQNKiFQKDXFӫDFQJPӝWEӋQKYLӋQWrQEiFVƭӣEӋQKYLӋQÿӏDÿLӇP
EӋQKYLӋQ«FiFWK{QJWLQ3+,Qj\FNJQJQrQÿѭӧFWKD\WKӃJLӕQJQKDX
1.3 éQJKƭDNKRDKӑF
&iFSKѭѫQJSKiSQKҵm che giҩu thông tin riêng trong bӋQKiQÿLӋn tӱ WKѭӡng
dӵa vào mӝt sӕ quy tҳc cӫa biӇu thӭc chính quy hoһc sӵ kӃt hӧp cӫa các luұt, các
thuұt toán, tӯ ÿLӇn, và mӟi nhҩt hiӋn nay là các ӭng dөng cӫa hӑFPi\YjROƭQKYӵc
này, ví dө QKѭWUѭӡQJÿLӅu kiӋn ngүu nhiên, mҥng bӝ nhӟ dài-ngҳn, mҥng bӝ nhӟ dàingҳn hai chiӅXĈLӇn hình là hӋ thӕng Scrub [1], hӋ thӕng De-Id [2, 3]. KӃt quҧ cӫa
FiFSKѭѫQJSKiSQj\FyWKӇ thay thӃ các thông tin riêng bҵng các thông tin thay thӃ,
hoһFÿѭӧc thay thӃ bҵng các nhãn cӫa loҥL3+,WѭѫQJӭng.
ĈӅ WjLÿѭӧc thӵc hiӋn dӵDWUrQSKѭѫQJSKiSÿӗng tham chiӃu kӃt hӧp vӟi mô
hình mҥng bӝ nhӟ dài-ngҳQÿӇ tiӃn hành thay thӃ thông tin riêng, nhҵPÿiSӭng yêu
cҫu vӅ ngӳ QJKƭDÿӕi vӟi các thông tin cҫQÿѭӧc thay thӃ, và thӇ hiӋn sӵ nhҩt quán
cho các thông tin thay thӃ.
1.4 éQJKƭDWKӵFWLӉQ
9ӟLVӵELӃQÿӝQJOӟQYӅOѭӧQJGӳOLӋXFӫDYăQEҧQOkPVjQJFK~QJWDÿDQJFy
PӝWNKRWjQJWULWKӭFÿDQJFKӡÿѭӧFNKDLSKi7KӃQKѭQJYLӋFNKDLSKiQj\VӁEӏ
GӯQJOҥLEӣLWK{QJWLQWURQJNKRWjQJQj\OjFiFWK{QJWLQÿѭӧFEҧRYӋWKHROXұWEҧR
YӋTX\ӅQULrQJWѭFӫDQKkQORҥLWKѭӡQJOjFiFWK{QJWLQQKѭWrQWXәLQJj\WKiQJ
QăPVLQKVӕÿLӋQWKRҥLHPDLOKRһFEҵQJFҩS«'RYұ\FK~QJWDFKӍFyWKӇF{QJ
EӕF{QJNKDLGӳOLӋXQj\FKRFiFF{QJW\FiFWәFKӭFKD\FiFQKjQJKLrQFӭXVDXNKL
ÿmFKHJLҩXFiFWK{QJWLQULrng.
2
ĈӅWjLWұSWUXQJYjRYLӋFWKD\ÿәLFiFWK{QJWLQFyWKӇÿӏQKGDQKKRһFKӛWUӧÿӏQK
GDQKFiFFiQKkQWURQJEӋQKiQÿLӋQWӱ9jVDXNKLWKD\ÿәLêQJKƭDFӫDEӋQKiQÿLӋQ
WӱNK{QJWKD\ÿәLYүQKӛWUӧWӕWFKRFiFEjLWRiQNKDLSKiGӳOLӋX
1.5 ĈӕLWѭӧQJQJKLrQFӭXÿӅWjL
ĈӅ tài hiӋn thӵc mӝt hӋ thӕng thay thӃ các thông tin riêng xuҩt hiӋn trong bӋnh
iQÿLӋn tӱ. Và dӳ liӋu mүXÿӇ tiӃn hành nghiên cӭu là I2B2, mӝt tұp dӳ liӋXÿmÿѭӧc
công bӕ vӟLFiFWK{QJWLQULrQJÿmÿѭӧF[iFÿӏnh cө thӇ.
+uQKErQGѭӟi là mӝt phҫn dӳ liӋu trong bӋQKiQÿLӋn tӱ I2B2
Hình 1: Mӝt phҫn dӳ liӋu trong I2B2
Trong hình trên, các thҿ DATE, AGE, DOCTOR, HOSPITAL là các nhãn dùng
ÿӇ [iFÿӏQKFiFÿRҥQYăQEҧQÿyWKXӝc vӅ loҥi thông tin PHI nào.
Ví dө:
Các thành phҫn cӫDÿRҥQYăQEҧQWUrQÿѭӧc hiӇXQKѭVDX
- ³/2&$7,21´ÿDQJFKӍ vӅ mӝWÿӏDÿLӇm
- LG ³3´LGFӫDÿRҥQYăQEҧn này
- VWDUW ³´HQG ³´Yӏ trí cӫa nó trong toàn bӝ YăQbҧn là tӯ ký tӵ ÿӃn 36
- WH[W ³&DPSEHOO´*LiWUӏ cө thӇ cӫDQyOj³&DPSEHOO´
- 7<3( ³+263,7$/´ĈӏDÿLӇm này là mӝt bӋnh viӋn
- FRPPHQW ³´*KLFK~KD\EuQKOXұQJuÿyFKRÿRҥQYăQEҧn này
3
1.6 .ӃWTXҧGӵNLӃQ
Các dӳ liӋu thay thӃ ÿҧm bҧo các yêu cҫu sau:
- Trong cùng mӝt bӋnh án, các thông tin PHI cӫa cùng mӝt bӋQKQKkQQrQÿѭӧc
thay thӃ giӕng nhau.
- Các bӋnh án khác nhau cӫa cùng mӝt bӋQKQKkQFiFWK{QJWLQ3+,FNJQJQrQ
ÿѭӧc thay thӃ giӕng nhau
- Các bӋnh án khác nhau cӫa cùng mӝt bӋnh viӋQWrQEiFVƭӣ bӋnh viӋQÿӏa
ÿLӇm bӋnh viӋQ«FiFWK{QJWLQ3+,Qj\FNJQJQrQÿѭӧc thay thӃ giӕng nhau.
1.7 3KҥPYLWKӵFKLӋQÿӅWjL
ĈӅ tài thӵc hiӋn viӋc thay thӃ các thông tin PHI trong mӝt tұp dӳ liӋu bӋnh án
ÿLӋn tӱ ,%ÿӇ tҥo ra mӝt tұp dӳ liӋu bӋQKiQÿLӋn tӱ mӟi (New I2B2) vӟi các
WK{QJWLQULrQJÿmÿѭӧc che giҩu.
&iFWK{QJWLQ3+,ÿmÿѭӧF[iFÿӏnh rõ ràng tӯ WUѭӟc, và viӋc che giҩu thông tin
ULrQJÿѭӧc thӵc hiӋn vӟi bӝ bӋQKiQÿLӋn tӱ I2B2 vӟi ngôn ngӳ chính là tiӃng anh.
4
&KѭѫQJ,,CÁC CÔNG TRÌNH LIÊN QUAN
Vӟi nhu cҫu phân tích dӳ liӋu ngày càng lӟn, viӋc che giҩu thông tin riêng cho
các tұp dӳ liӋXQj\FNJQJYuYұy mà ngày càng cҩp thiӃt và quan trӑQJ'RÿyPjKLӋn
tҥi có khá nhiӅu nhà nghiên cӭu hay tә chӭFWKDPJLDYjREѭӟc tiӅn xӱ lý dӳ liӋu này.
ViӋc che giҩu thông tin riêng bao gӗPKDLEѭӟc:
- %ѭӟc 1: Tìm kiӃm thông tin cҫn che giҩX;iFÿӏnh thông tin riêng PHI)
- %ѭӟc 2: HiӋn thӵc mӝt hӋ thӕng thay thӃ các thông tin cҫn che giҩu
Chi tiӃt cӫa tӯQJEѭӟc sӁ ÿѭӧc mô tҧ qua các bài báo khoa hӑFGѭӟLÿk\
;iFÿӏQK3+,
Ĉk\OjPӝWJLDLÿRҥn quan trӑng, vӟi tính chính xác càng cao, càng hӛ trӧ tӕt cho
FiFJLDLÿRҥn sau khi thӵc hiӋn thay thӃ. Có rҩt nhiӅu công trình nghiên cӭu vӟi nhiӅu
giҧLSKiSÿӇ xӱ OêEjLWRiQQj\VDXÿk\OjQKӳng tóm tҳt vӅ chúng.
9jRQăP/DWDQ\D6ZHHQH\ÿmGӵa trên cách tiӃp cұn cӫDFRQQJѭӡi khi xác
ÿӏQKFiFWK{QJWLQÿӏQKGDQKÿӇ xây dӵng hӋ thӕng Scrub [1], mӝt hӋ thӕng sӱ dөng
SKѭѫQJSKiSQKұn diӋn vӟi mӝt bӝ các giҧi thuұt nhұn diӋn sӱ dөng các mүu và tri
thӭc chuyên biӋt vӅ nhӳng yӃu tӕ cҩu thành nên mӝWFiLWrQÿӏa chӍ, sӕ ÿLӋn thoҥi.
Mӛi giҧi thuұt trong hӋ thӕQJ[iFÿӏnh mӝt loҥLWK{QJWLQÿӏnh danh khác nhau. Các
giҧi thuұt này sӱ dөng các nguӗn tri thӭc cөc bӝ. Các tri thӭc này là các kiӃn thӭc
ÿѭӧFWtFKONJ\Gӵa trên thӵc nghiӋPTXDQViWYjWѭѫQJWiFYӟLP{LWUѭӡng, xã hӝi. Ví
dө, Fred và Bill là nhӳng hӑ thông dөng hay Miller và Jones là nhӳng tên thông dөng
và khi chúng ta biӃt nhӳng kiӃn thӭc này sӁ dӉ dàng cho chúng ta nhұQUDÿyOjQKӳng
cái tên.
HӋ thӕng sӱ dөng các danh sách tri thӭc cөc bӝ ÿLNqPOjFiFPүu cӫa chúng, bao
gӗm tên, hӑ, bí danh, tên viӃt tҳt cӫa các tiӇu bang cӫa Mӻ«YjFiFJLҧi thuұt nhúng
các mүu nhұn dҥng.
5
Bҧng 1: Các thӵc thӇ ÿѭӧc nhұn dҥng bӣL6FUXEYjÿӝ ѭXWLrQFӫa nó
1. Khӕi ÿӏnh danh
13. Tên
2. 1KmQÿӏa chӍ mail
14. Bí danh
3. KhӕLÿӏa chӍ
1ѭӟc
4. Hӑ tên
16. SSN
5. ĈӏDÿLӇm
7LrXÿӅ
6. Ĉѭӡng
18. Tә chӭc
7. Thành phӕ
.tFKWKѭӟc
8. Bang
20. Tuәi
9. Mã ZIP
21. Ngày tháng
10. Sӕ ÿLӋn thoҥi
22. Thuұt ngӳ y khoa
11. Hӑ
25. Sӕ tham chiӃu
12. Tên lót
Các giҧi thuұt nhұn dҥng có thӇ ÿѭӧc thӵc thi tuҫn tӵ theo thӭ tӵ ѭXWLrQĈӕi vӟi
tӯng kí tӵ WURQJYăQEҧQÿҫu vào, thuұt toán nhұn dҥng vӟLѭXWLrQFDRQKҩt sӁ báo
cáo xác suҩt lӟn nhҩt khҧ QăQJ[Xҩt hiӋn mӝt thӇ hiӋn cӫa thӵc thӇ cӫa nó dӵa trên
mӝt giá trӏ QJѭӥQJĈӝ ѭXWLrQFӫa giҧi thuұWÿѭӧc dӵa trên sӕ Oѭӧng các thӵc thӇ cҩu
thành nên thӵc thӇ ÿѭӧc gán cӫa giҧi thuұt. Các thӵc thӇ cҩu thành là các thӵc thӇ
nҵm bên trong dҩu ngoһc ӣ bҧng 2 ӣ Gѭӟi. Ví dө ÿӇ [iFÿӏnh thӵc thӇ ÿӏDÿLӇm ta có
thӇ ÿӏnh danh mӝt thành phӕ, mӝt bang hay mӝt quӕFJLD7URQJÿyNKӕLÿӏnh danh
Fyÿӝ ѭXWLrQFDRQKҩt, và các thӵc thӇ tӯ sӕ ÿӃQFyÿӝ ѭXWLrQQKѭQKDX
6
- Xem thêm -