Tài liệu Khai phá dữ liệu phát hiện gian lận trong bảo hiểm y tế

  • Số trang: 27 |
  • Loại file: PDF |
  • Lượt xem: 124 |
  • Lượt tải: 0
nganguyen

Đã đăng 34345 tài liệu

Mô tả:

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG --------------------------------------- LÃ THÚY HÀ TÓM TẮT LUẬN VĂN THẠC SĨ KỸ THUẬT 2 HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG --------------------------------------- LÃ THÚY HÀ ĐỀ TÀI KHAI PHÁ DỮ LIỆU PHÁT HIỆN GIAN LẬN TRONG BẢO HIỂM Y TẾ CHUYÊN NGÀNH :TRUYỀN DỮ LIỆU VÀ MẠNG MÁY TÍNH MÃ SỐ: 60.48.15 8 TÓM TẮT LUẬN VĂN THẠC SĨ KỸ THUẬT NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. NGUYỄN DUY PHƯƠNG HÀ NỘI, 2012 3 Luận văn được hoàn thành tại: HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG Người hướng dẫn khoa học: Tiến sỹ Nguyễn Duy Phương Phản biện 1: …………………………………………………… Phản biện 2: ……………………………………………..…… Luận văn sẽ được bảo vệ trước Hội đồng chấm luận văn thạc sĩ tại Học viện Công nghệ Bưu chính Viễn thông Vào lúc: ....... giờ ....... ngày ....... tháng ....... .. năm ............... Có thể tìm hiểu luận văn tại: - Thư viện của Học viện Công nghệ Bưu chính Viễn thông 4 MỞ ĐẦU Bảo hiểm xã hội trong đó có Bảo hiểm y tế là một chính sách lớn của Đảng và Nhà nước với mục tiêu lớn là an sinh xã hội, đảm bảo sự ổn định xã hội, hỗ trợ chi trả chi phí khám chữa bệnh hoặc một phần chi phí đó cho người dân. Trong chăm sóc sức khỏe y tế hiện nay, lạm dụng và gian lận y tế ngày một gia tăng đó không chỉ là gánh nặng cho xã hội, các tổ chức y tế mà cả người dân tham gia BHYT, những người phải chi trả một phần chi đó. Do đó phát hiện gian lận y tế bây giờ trở nên càng quan trọng. Việc phát hiện gian lận trong y tế nói chung và trong bảo hiểm y tế nói riêng là chủ đề quan tâm nghiên cứu và là đòi h ỏi cấp bách hiện nay. Phát hiện gian lận được hiểu là xác định gian lận một cách nhanh nhất khi nó xảy ra. Hiện nay không có phương pháp phát hiện gian lận nào thật sự hoàn hảo bởi vì các kỹ thuật gian lận luôn 5 thay đổi, phát sinh hình thức gian lận mới ngay khi một phương pháp phát hiện gian lận được biết đến và sử dụng. Một trong những yêu cầu khai phá dữ liệu được lựa chọn nhiều nhất là để phát hiện lạm dụng và gian lận trong nhiều lĩnh v ực khác nhau như tài chính ngân hàng, bảo hiểm ô tô, viễn thông, chứng khoán và bảo hiểm y tế. Từ những lý do trên và xu hư ớng tất yếu, Luận văn chọn đề tài: “Khai phá dữ liệu phát hiện gian lận trong bảo hiểm y tế”. Mục tiêu luận văn: Tìm hiểu vấn đề gian lận trong y tế (bảo hiểm y tế), các loại gian lận, các phương pháp phát hiện gian lận và đi sâu vào nghiên cứu phương pháp sử dụng kỹ thuật khai phá dữ liệu để phát hiện các hành vi gian lận một cách tự động dựa trên dấu hiệu bất thường so với dữ liệu trong quá khứ. Đối tượng nghiên cứu: - Các loại gian lận và một số phương pháp phát hiện gian lận - Kỹ thuật khai phá dữ liệu 6 - Nghiên cứu bài toán cụ thể với quản lý chi phí khám chữa bệnh tại cơ sở y tế và kỹ thuật khai phá dữ liệu trên tổng chi phí của từng bệnh nhân sử dụng phương pháp cây quyết định. Phương pháp nghiên cứu: - Nghiên cứu thực tiễn công tác quản lý chi phí khám chữa bệnh tại các cơ sở y tế - Nghiên cứu các tài liệu, báo cáo trong nước và nước ngoài có liên quan sử dụng kỹ thuật khai phá dữ liệu để phát hiện gian lận trong lĩnh vực y tế. - Tiến hành cài đặt và thử nghiệm. 7 CHƯƠNG I: TỔNG QUAN VỀ GIAN LẬN BẢO HIỂM Y TẾ 1.1 Giới thiệu chung về bảo hiểm y tế tại Việt Nam. Theo Luật Bảo hiểm y tế, Chính phủ thống nhất quản lý nhà nư ớc về bảo hiểm y tế. Trong đó trách nhiệm của các Bộ ngành liên quan gồm: Bộ Y tế được giao quản lý nhà nước, thực hiện các chính sách về lĩnh vực y tế, Bộ Tài chính phối hợp với Bộ Y tế, xây dựng chính sách, pháp luật về tài chính liên quan đến bảo hiểm y tế, thanh tra, kiểm tra việc thực hiện các quy định của pháp luật về chế độ tài chính đối với bảo hiểm y tế, quỹ bảo hiểm y tế Bảo hiểm y tế là hình thức bảo hiểm được áp dụng trong lĩnh v ực chăm sóc sức khỏe, không vì mục đích lợi nhuận, do Nhà nước tổ chức thực hiện và các đối tượng tham gia với nguyên tắc: - Chia sẻ rủi ro giữa những người tham gia bảo hiểm y tế, - Mức hưởng bảo hiểm y tế theo mức độ bệnh tật, nhóm đối tượng trong phạm vi quyền lợi của người tham gia bảo hiểm y tế 8 - Chi phí khám bệnh, chữa bệnh bảo hiểm y tế do quỹ bảo hiểm y tế và người tham gia bảo hiểm y tế cùng chi trả. 1.1.1 Cơ cấu tổ chức quản lý bảo hiểm y tế của Bảo hiểm xã hội Việt Nam Bảo hiểm xã hội Việt Nam là cơ quan thuộc chính phủ thực thi các chính sách an sinh xã hội do Nhà nước ban hành trong đó có lĩnh v ực bảo hiểm y tế. Bảo hiểm xã hội Việt Nam cơ cấu ngành dọc từ Trung ương đến địa phương. Các bệnh viện thuộc tuyến Trung ương do Bảo hiểm xã hội Việt Nam quản lý, các cơ sở khám chữa bệnh tuyến tỉnh, thành phố trực thuộc Trung ương do tỉnh, thành phố quản lý. 1.1.2 Chức năng, nhiệm vụ của cơ quan Bảo hiểm xã hội trong y tế: a. Giám định bảo hiểm y tế. b. Thanh toán chi phí khám bệnh, chữa bệnh bảo hiểm y tế. 9 1.2 Hiện trạng gian lận trong bảo hiểm y tế Gian lận chăm sóc sức khỏe- trong lĩnh vực y tế là một lừa bịp cố ý hoặc làm sai lệch được thực hiện bởi một người hoặc một thực thể dẫn đến tổn thất về tài chính cho cơ sở khám chữa bệnh hoặc dọanh nghiệp tham gia trong lĩnh vực bảo hiểm y tế. Lạm dụng y tế được tạo ra khi một trong hai nhà cung cấp thực tiễn không phù hợp với mức tài chính chung, các dịch vụ, kinh doanh y tế đưa ra một chi phí không cần thiết hoặc trong bồi hoàn của các dịch vụ không cần hoặc các dịch vụ đó không đáp ứng các tiêu chuẩn chuyên nghiệp được công nhận trong chăm sóc sức khỏe. 1.2.2 Các hình thức gian lận bảo hiểm y tế Có nhiều hình thức gian lận và lạm dụng trong gian lận y tế. Dưới đây liệt kê những hình thức chủ yếu: a. Gian lận y tế từ các nhà cung cấp chăm sóc y tế, các cơ sở khám chữa bệnh, nhân viên y tế. b. Gian lận y tế nhà cung cấp trang thiết bị, thuốc điều trị. 10 c. Gian lận từ người tham gia thụ hưởng bảo hiểm: giả mạo giấy tờ, cho người khác mượn giấy tờ liên quan khi đi khám chữa bệnh. 1.2.3 Nguy cơ gian lận bảo hiểm y tế tại Việt Nam Tình trạng lạm dụng quỹ BHYT không chỉ xuất hiện ở Việt Nam mà ngay cả những nước có lịch sử phát triển BHYT trên 100 năm như Pháp, Đức... cũng t ồn tại với nhiều hình thức khác nhau. Tuy nhiên, tại Việt Nam, tình trạng lạm dụng BHYT đang ngày càng nhiều với đủ các “tiểu xảo” từ nhiều đối tượng. Thực tế tình hình lạm dụng và gian lận bảo hiểm y tế ở Việt Nam hiện đang diễn ra hàng ngày tại các cơ sở KCB với những biểu hiện muôn hình vạn trạng từ đối tượng đến phương thức lạm dụng, hiện chưa có một công cụ hữu hiệu cũng như chính sách rõ ràng trong việc kiểm soát cũng như phát hiện gian lận. 1.3 Phòng chống và phát hiện gian lận trong y tế 1.3.1 Định nghĩa: Phòng chống gian lận là các biện pháp tránh gian lận, phát hiện gian lận ngay từ khi xuất hiện. 11 Phát hiện gian lận là xác định gian lận nhanh nhất có thể khi đã xảy ra. 1.3.2 Tình hình phòng ống ch và phát hiện gian lận trong lĩnh vực y tế: Theo kiểm toán của Liên bang Mỹ thì thật khó có thể xác định một hành động có là lạm dụng hay không khi các biến thể trong thanh toán thực tế, không thể tự động nhận dạng như lạm dụng thanh toán hoặc chăm sóc y tế được xem là không thích hợp. Dịch vụ y tế là phức tạp, chúng được áp dụng cho hệ thống sinh học từng cá nhân, phụ thuộc vào trìnhđ ộ chuyên môn, kỹ thuật khác nhau và kết quả đôi khi đo bằng phương pháp không chính xác. Bất kỳ kỹ thuật phân tích được sử dụng để phát hiện các gian lận và lạm dụng phải thừa nhận việc khó khăn khi xác định tình trạng, tính trầm trọng của bệnh tật. 1.3.3 Các phương pháp ph òng chống gian lận trong lĩnh vực y tế Phương pháp học máy dựa trên một bộ quy tắc tập dữ liệu huấn luyện chẩn đoán, phác đồ điều trị chuẩn của 12 từng loại bệnh trên số bệnh nhân được thanh toán bảo hiểm y tế để tìm kiếm khả năng gian lận. Phương pháp luận điểm dựa trên việc sử dụng các kỹ thuật trong phân cụm và quy tắc đã đư ợc sử dụng để xác định gian lận có thể trong Health Insurance Commission (HIC) của Úc. Thuật toán k-Nearest Neighbor (kNN) với các khoảng cách số liệu tối ưu hóa bằng cách sử dụng một thuật toán di truyền của tiến sỹ Becker et. và đồng nghiệp. Cox áp dụng một hệ thống phát hiện gian lận dựa trên lôgic mờ cho việc phân tích yêu cầu chăm só c sức khỏe. Hệ thống mờ này sử dụng quy tắc xuất phát từ các chuyên gia của con người để phát hiện các mẫu hành vi thường. Trong đó phương pháp cây quyết định và thuật toán C4.5 đã đư ợc sử dụng thông qua dấu hiệu lâm sàng và các trường chi phí phải thanh toán được thiết lập bởi các chuyên gia. Sử dụng mạng Neural, chương trình này s ử dụng tất cả các dữ liệu có sẵn yêu thanh toán chi phí y tế để 13 xây dựng một véctơ duy nhất được đánh giá bởi mạng Neural duy nhất. Ngoài ra việc xác định bằng cách sử dụng công cụ phân tích thống kê dựa trên: Tổng số tiền hóa đơn. Tổng số bệnh nhân. Tổng số lượng bệnh nhân truy cập. Số tiền thanh toán trung bình cho mỗi bệnh nhân. Mỗi bệnh nhân bình truy cập vào số điện thoại. Các xét nghiệm y tế trung bình cho mỗi bệnh nhân. 14 CHƯƠNG II. CÁC PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU ỨNG DỤNG TRONG PHÁT HIỆN GIAN LẬN 2.1. Phát hiện tri thức và khai phá dữ liệu là gì ? Phát hiện tri thức trong các cơ sở dữ liệu là một qui trình nhận biết các mẫu hoặc các mô hình trong dữ liệu với các tính năng: hợp thức, mới, khả ích, và có thể hiểu được. Còn khai thác dữ liệu là một bước trong qui trình phát hiện tri thức gồm các thuật toán khai thác dữ liệu chuyên dùng dưới một số qui định về hiệu quả tính toán chấp nhận được để tìm ra các mẫu hoặc các mô hình trong dữ liệu. 2.2. Quá trình phát hiện tri thức từ cơ sở dữ liệu Bước thứ nhất là tìm hiểu lĩnh v ực ứng dụng và hình thành bài toán. Bước thứ hai là thu thập và xử lý thô, còn được gọi là tiền xử lý dữ liệu nhằm loại bỏ nhiễu, xử lý việc thiếu dữ liệu, biến đổi dữ liệu và rút gọn dữ liệu nếu cần thiết. Bước thứ ba là khai phá dữ liệu, hay nói cách khác là trích ra các mẫu hoặc và các mô hình ẩn dưới các dữ liệu. 15 Bước thứ tư là hiểu tri thức đã tìm được, đặc biệt là làm sáng tỏ các mô tả và dự đoán. 2.3 Quá trình khai phá dữ liệu Khai phá dữ liệu là một tập hợp các kỹ thuật được sử dụng để tự động khai thác và tìm ra các mối quan hệ lẫn nhau của dữ liệu trong một tập hợp dữ liệu khổng lồ và phức tạp, đồng thời cũng tìm ra các mẫu tiềm ẩn trong tập dữ liệu đó. 2.4. Các phương pháp khai phá dữ liệu 2.4.1 Phương pháp suy diễn và quy nạp Phương pháp suy diễn: Rút ra thông tin là kết quả logic từ các thông tin nằm trong cơ sở dữ liệu dựa trên các quan hệ trong dữ liệu. Phương pháp quy nạp: Các thông tin được suy ra từ cơ sở dữ liệu bằng phương pháp nó tự tìm kiếm, tạo mẫu và sinh ra tri thức chứ không bắt đầu với các tri thức đã được biết trước. 2.4.2 Phân nhóm và phân đoạn Là kỹ thuật phân chia dữ liệu sao cho mỗi phần hoặc mỗi nhóm giống nhau theo một tiêu chuẩn nào đó. 16 4.3 Cây quyết định Cây quyết định là là một cấu trúc ra quyết định có dạng cây. Phương pháp học cây quyết định được sử dụng cho các hàm phân loại từ tập dữ liệu huấn luyện. 2.4.5 Mạng Neural Việc xây dựng mô hình mạng Neural được dựa trên hệ thống thần kinh của con người trong đó sử dụng nhiều nút được nối với nhau thành một mạng lưới. Tín hiệu được truyền từ này sang nút khác tùy thuộc vào mức tín hiệu và cơ chế xử lý tại mỗi nút. 2.4.6 Giải thuật di truyền Thuật toán di truyền dựa trên một ẩn dụ sinh học áp dụng quy luật chọn lọc tự nhiên. Thuật toán di truyền gồm có bốn quy luật cơ bản là lai ghép, đột biến, sinh sản và chọn lọc tự nhiên. 17 CHƯƠNG III : KHAI PHÁ DỮ LIỆU BẰNG CÂY QUYẾT ĐỊNH 3.1 Một số khái niệm cơ bản về cây quyết định: Cây quyết định là một cấu trúc ra quyết định có dạng cây. Cây quyết định là một trong phương pháp học máy tiêu biểu ứng dụng trong phân loại và dự đoán. Cấu trúc dạng cây gồm: • Gốc: là node trên cùng của cây • Node trong: biểu diễn một kiểm tra trên một thuộc tính đơn (hình chữ nhật) • Nhánh: biểu diễn các kết quả của kiểm tra trên node trong (mũi tên) • Node lá: biểu diễn lớp hay sự phân phối lớp (hình tròn). 3.1.1 Ưu điểm của cây quyết định : - Khả năng sinh ra các quy tắc hiểu được. - Khả năng thực thi trong những lĩnh v ực hướng quy tắc. - Dễ dàng tính toán trong khi phân lớp. - Khả năng xử lý với cả thuộc tính liên tục và thuộc tính rời rạc 18 - Thể hiện rõ ràng những thuộc tính tốt nhất. 3.1.2 Điểm yếu của cây quyết định - Dễ xảy ra lỗi khi có quá nhiều lớp. - Chi phí tính toán đắt để đào tạo. 3.2 Các phương pháp xây dựng cây quyết định Quá trình xây dựng cây quyết định gồm hai giai đoạn: • Giai đoạn thứ nhất phát triển cây quyết định: • Giai đoạn thứ hai cắt, tỉa bớt các cành nhánh trên cây quyết định. Trong quá trình xây dựng cây quyết định thì việc lựa chọn thuộc tính tốt nhất tại mỗi nút là yêu cầu quan trọng. Do vậy các phương pháp xây dựng cây quyết định khác nhau do thuật toán xây dựng phép kiểm tra thuộc tính tại mỗi nút khi phân loại với mục đích tạo ra các tập con có độ đồng nhất cao nhất. 3.2.1 Thuật toán ID3: Thuật toán xây dựng ID3 sử dụng Entropy (HS) làm mức đo độ đồng nhất của tập dữ liệu. Trên cơ sở entropy, thuật toán tính độ tăng thông tin (IG) như mức 19 tăng độ đồng nhất, từ đây xác định thuộc tính tốt nhất tại mỗi nút. Thuật toán ID3 có khuynh hướng lựa chọn cây quyết định đơn giản cây có ít nút, trong đó những nút tương ứng có độ tăng thông tin lớn được xếp ở gần gốc hơn. 3.2.2 Thuật toán C4.5 Thuật toán C4.5 là thuật toán cải tiến thuật toán ID3. C4.5 còn chứa một kỹ thuật cho phép biểu diễn lại cây quyết định dưới dạng một danh sách sắp thứ tự các luật if-then (một dạng quy tắc phân lớp dễ hiểu). Thuật toán sử dụng tỷ lệ chia nhỏ những tiêu chí để đối phó với dữ liệu huấn luyện gồm các trường hợp với mục đích đưa ra kết quả là duy nhất. Một phương pháp để giải quyết vấn đề bằng cách sử dụng thông tin chia tách SliptInformtion P(S,A) và Gain Ratio(S,A) để phạt những thuộc tính nhiều giá trị 3.2.3 Thuật toán CART: Chỉ số Gini được sử dụng trong thuật toán CART . Trái ngược với độ đo Gain, chỉ số Gini là độ đo về tính “không trong suốt” của tập dữ liệu. 3.2.4 Thuật toán CHAID: 20 Thuật toán CHAID kiểm tra thống kê sử dụng phụ thuộc vào kiểu của thuộc tính mục tiêu. 3.4.1.2 Quá vừa dữ liệu (data overfitting) Quá vừa dữ liệu (data overfitting) là vấn đề thường gặp trong học máy, điều này ảnh hưởng đến độ chính xác của kỹ thuật học máy. Có hai hướng giải pháp chính để hạn chế quá vừa dữ liệu cho cây quyết định: - Dừng cây quyết định sớm trước khi cây đủ phức tạp để phân loại đúng mẫu huấn luyện. - Xây dựng cây đầy đủ, sau đó cắt tỉa để có cây đơn giản. Phương pháp này được sử dụng trên thực tế. 3.4.1.3 Cơ chế riêng trong xử lý những giá trị thiếu Giá trị thiếu của thuộc tính là hiện tượng phổ biến trong dữ liệu, có thể do lỗi khi nhập các bản ghi vào cơ sở dữ liệu, cũng có thể do giá trị thuộc tính đó được đánh giá là không cần thiết đối với trường hợp cụ thể. 3.4.1.4 Chuyển đổi từ cây quyết định sang luật: Giai đoạn chuyển dổi từ cây quyết định sang luật bao gồm 4 bước:
- Xem thêm -