




已閱讀5頁,還剩19頁未讀, 繼續免費閱讀
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
醫保欺詐行為的主動發現 摘要 隨著我國醫保制度推廣范圍的不斷擴大 以及管理上存在的一定程度的疏忽 醫保欺詐現象越發嚴重 造成了醫療資源的分配不公和公眾利益的損失 本文著眼于分析醫保欺詐的三種 常 方式三種 常 方式 探討這些行為所具有的不同 特征 對這些手段 分別設計了檢測方法 建立了三種不同的數學模型 模型一 對一張卡在一定時間 次 藥 模型一 對一張卡在一定時間 次 藥 對此我們可以統計出每張卡在 醫院開藥單的時間頻率 同時還必須探究開藥頻率和病人自身屬性的關聯性 通過 比較數據在不同分類水平下的頻率直方圖 進一步通過列聯表法列聯表法檢驗了不同病人屬 性下就診頻次之間的獨立性是否存在 通過 制 式圖 制 式圖 通過分位數界定了一部 分離群點 作為高度懷疑的對象 模型 對于單張 方藥 過高進行 別 模型 對于單張 方藥 過高進行 別 對于特定類型的病人 醫生往往會有 對應的開藥模式 若某些外在因素相似的病人 在開藥模式上呈現出很大的差異 性 則有理由懷疑為行為異常者 對此 我們采用了在 無監督機器學習在 無監督機器學習 建 立了 能過 器模型 能過 器模型 對于數據庫中的離散分類數據和連續變量分別采用 SDLE SDEM方法 引入高 合模型高 合模型刻畫其概率密度 基于新數據點對原有數據分布的 影響大小 計算了 Hellinger Distance Logarithmic Loss作為得分 得分越 高代表該數據點在與其類似的數據點中行為越異常 理論上結合經驗閾值可以轉 化為有監督機器學習模型有監督機器學習模型來優化原有模型 模型三探測一人 卡配藥的 模型三探測一人 卡配藥的 因為不同的病人去醫院開藥的行為通常是 相互獨立的 如果若干張醫保卡在開藥行為上存在高度的一致性 則很可能這些醫 保卡為同一人在使用 為探測這種關聯性 采用了 Eclat 關聯 則算法關聯 則算法 對龐大的 數據庫按時序進行數據挖掘 提 高度頻繁項集提 高度頻繁項集 作為懷疑的對象 我們隊以上模型都基于現有數據庫進行了模型仿真 對結果進行了評價 得到 了合理的結果 并對模型的進一步完善提出了展望 關 關 無監督機器學習 列聯表 Hellinger 距離 對數損失 Eclat 頻繁項集 1 1問題重述問題重述 的 的 的 的 的 重 題 求 附 的 建立模型求解 問題 1 的 2 的 3 重 的 2問題分析問題分析 問題 的 問題 的 的 的 的 的 的 的 的 分析 問題 的 問題 的 模 的 模 本 的 的 本題 的 的 問題 問題 的 本文 的 的 的 3模型基本假設模型基本假設 1 2 參 的 分 4模型的建立與求解模型的建立與求解 4 1模型 的 模型 的 題 的 的 的 的 的 的 的 的 的 的 2 附 的 本 的 的 附 的 錄 的 的 的重 附 的 的 rowid 的 的 Q3 的 分 Q1 的 分 Q 分 的 4 1 1 的 的 分 8 0 70 10 分 70 的 的 的 分 1 1 述 的 的分 與 立與 立 立的 的 立 1 假設 與 立 2 r i 1 s j 1 nij n pi p j 2 n pi p j pi ni n p j n j n 3 1 1 2 3 4 5 6 7 0 10 7607222768730113681101 11 20 221850716469301310 21 30 84401955557152642214 31 40 104022696795311983625 41 50 63531531468175622539 51 60 3374886249120421220 61 70 206554418261231110 70 133941314786231916 2 2 r 1 s 1 分 8 分 7 r 8 s 7 2 2 42 nij n pi p j 2 2 1 2 3 4 5 6 7 0 10 8026 32066 007623 8922244 833191 7883942 0536845 12609 10 20 2169 406558 4153168 630166 1752524 8092311 3665712 19701 21 30 8072 4112077 876627 4765246 239692 3157242 2952845 38534 31 40 10348 452663 739804 3953315 6676118 344454 2205558 18187 41 50 6234 4321604 772484 6086190 174271 2966732 6652135 05171 51 60 3388 482872 211263 3901103 361738 7505217 753919 05099 61 70 2086 55537 0876162 189663 647823 8616910 9324511 73116 70 1471 969378 8916114 417644 9007116 833367 7123588 275817 3 3 2 1 2 3 4 5 6 7 0 10 21 9045112 545346 38345912 8852121 2953536 0685769 18156 11 20 1 0884684 7339980 127130 1205771 086050 2347310 39574 21 30 16 738687 2663517 91574136 066948 6851969 73863621 70392 31 40 0 2770970 3907070 1097380 0690173 4973766 12292918 92405 41 50 2 2549623 3913110 5692111 2107631 2122331 7987170 444742 51 60 0 0618930 2179940 7861862 6782780 272491 8647940 047274 61 70 0 2225630 0889632 4197170 1101510 0311170 0004170 255467 70 12 011573 0704959 27841837 61972 25904916 520357 209317 2 433 4652 問題的 p value 1 2 433 4652 42 0 2 42 42 的 分 假設 立 與 立的 的 4 4 1 2 的 的 分析 與 的 分 2 2 的 的分 與 立的 與 考 與 的 立 假設 題 4 4 1 2 3 4 5 6 7 2369261611861719269107104 1809545981388556209112131 假設 與 立 與 分 2 題 分 4 3 4 的 4 7 考 的 錄 的 分 7 r 2 s 7 2 2 6 的 5 5 1 2 3 4 5 6 7 23711 866105 1511843 632723 4936271 2392124 2707133 3498 18075 144653 8491405 368551 5064206 760894 72934101 6502 2 6 5 6 2 1 2 3 4 5 6 7 0 016640 5108990 1636180 0279090 0184852 4002116 459782 0 021830 6702220 2146420 0366130 024253 1487168 474264 2 22 1881 問題的 p value 1 2 22 1881 6 0 0011 0 005 的假設 假設 與 的 4 1 3 的 的 分 的 模 型 的 的分析 與 的 的 的 分 的 分 設 Q3 Q1 Q Q3 1 5 Q Q1 1 5 Q 的 的 的重 3 分 的 3 7 的 分 的重 6 的 的 7 16366725 45204820 23047220 30974818 52360518 16042918 42361116 21003516 33836216 17849515 24202015 36394915 4 1 4模型的 模型的 模型 的 分析 考 的 的分析 模型 的 考 的 的 的 考 的 述 4 2模型 的 模型 的 的 解 的問題 的 的 的 模 的 模 的 分析 的 的 的 K means 分析 的 本問題的 的 7 的 的 的 的分 的 解 解 基 建立 的 的 模型 模型 基 Hellinger Distance Logarithmic Loss 的 的 的參 模型 的 模型 4 2 1基本 基本 的 的 x y x 型的 y 型的 的 的 分 建立 的 模型 的 分 的參 的 1 k 的 的 A1 A2 Ak 假設 Ai 的 vi 的 分 Ai vi j 1A j i i j k 1 2 vi A 1 j1 A 2 j2 A n jn j1 j2 jn 的 的 SDLE Sequentially Discounting Laplace Estimation 的 p x 的 模型 p y x 假設 的 的 分 模型 的 SDEM Sequentially Discounting Expectation and Maximizing 的 分 p y x p x y p x p y x 的 分 的 的 4 2 2SDLE 參 rh 的 1 1 rh 的 j1 j2 jn T j1 j2 jn 0 t 本 j1 j2 jn 的 T Tt j1 j2 jn 的 xt x1 x2 xn j1 j2 jn xt A 1 j1 A 2 j2 A n jn Tt j1 j2 jn 1 rh Tt 1 j1 j2 jn 1 Tt j1 j2 jn 1 rh Tt 1 j1 j2 jn 的 j1 j2 jn 的 pt j1 j2 jn Tt j1 j2 jn 1 1 rh t rh 分 分的 1 1 rh t rh 的 1 1 rh t 的 8 1 rh t 1 的 1 rh t 2 t 1 的 1 rh t 的 的 1 1 rh 1 rh t 1 1 1 rh t rh 的 x A 1 j1 A 2 j2 A n jn pt x pt j1 j2 jn A 1 j1 A 2 j2 A n jn A i ji A i ji t t 1 重 述 4 2 3SDEM 假設 分 分 的 假設 分 的 p y x k i 1 ip y i i i i 分 的 i i 分 的 i i 分 的 k 的 分 的 S s i s 錄 的 的 2 S s i s i s i s i p s i s i E y s i s i p s i s i E yyT s i s i p s i s i i 1 2 k 述參 解 述 的 S s i 參 的 0 i 0 i 假設 0 i 1 k k 分 的 分 的 S 0 i 1 k 0 i 0 i 的 S s 1 i S s i 的 p i i yu 的 yu i 分 的 1 s 1 i s i i 1 2 k 9 s i p s i s i 1 s s u 1 p s 1 i s 1 i yu 1 s s 1 u 1 p s 1 i s 1 i yu 1 s p s 1 i s 1 i ys s 1 s p s 1 i s 1 i 1 s p s 1 i s 1 i ys 參 r 的 的 重 s i p s i s i 1 r p s 1 i s 1 i rp s 1 i s 1 i ys 的 1 s 的 的 r 的 的 的 的 的 的 錄 的 分 的 與 述 的 r 的 參 的 的 的 的 p s 1 i s 1 i ys p s 1 i s 1 i ys p ys s 1 i s 1 i p s 1 i s 1 i k i 1p ys s 1 i s 1 i p s 1 i s 1 i k 分 i的 的 的參 p s 1 i s 1 i ys 1 r p ys s 1 i s 1 i p s 1 i s 1 i k i 1p ys s 1 i s 1 i p s 1 i s 1 i r 1 k 的 p s 1 i s 1 i ys s i p s i s i 2 s 1 i s 1 i 的 參 r 的 的 重 s i 1 r s 1 i rp s 1 i s 1 i ys ys s i 1 r s 1 i rp s 1 i s 1 i ys ysyT s 3 s 1 i s 1 i 10 1 的 p s i s i s i E y s i s i E y s i s i p s i s i p s i s i s i s i s i E yyT s i s i E y s i s i ET y s i s i E yyT s i s i p s i s i p s i s i s i s i T s i s i s i s i T 的 s i s i 重 述 1 2 3 的錄 S s i 的 4 2 4 的 基 分 的 的 基 分 的 Hellinger Distance 的 分 的 的 ScoreH xs ys 1 r2 x ps x y p s 1 x y 2dy ps x y 錄 t x y 的 分 ps x y p x p y x p x p y s i s i r 的 參 ScoreH xs ys 的 述 解析 的 的 的 Logarithmic Loss ScoreL xs ys log ps 1 xs log ps 1 ys xs 解 假設 的 的 的 的 的 2 ScoreL xs ys 的 本題 的 的 問題 分 與問題的求解 的 模型 3 參 分 分 11 8 Logarithmic Loss 分 Logarithmic Loss 6825541163 77295 98764623 4050321884 3282 07782965 4779451674 81176 01373671 4630111884 3160 49272966 6086841860 9150 60193672 6282871302 63146 43623670 367970243 04124 94449316 642467487 2113 57943407 6282871860 9110 0583673 220040393 75108 68689455 524683706 2107 53041130 173602262 598 76463399 2175271884 398 65193713 6501343645 295 91364551 3974881884 389 51512606 6792270 160 21981014 6772130 160 21921013 6801280 160 21921015 6907970 160 2191020 6913200 160 21821021 6953170 160 21781022 6954240 160 21681023 6954240 160 21581024 1 參 分 的模 述 附 的 錄 Logarithmic Loss 分 8 分 的 分 分 的 錄 本 分 的 模型 的 的 分 的 本 本的 1000 的 4 2 5 的 的 的 的 參 分 參 的 O KM 分 O Kd K 分 的 M 的 d 的 的 O TK M d T 的 的求解 T 289000 12 K 的 5 的 的 M 528 d 1 的 考 本 的 錄 參 錄 的 參 O K M d 的 的 的 的 4 2 6模型的 模型的 本模型 的 模型 的 的 的模型 的 立 的 分 的 的 本模型 的 的 的 的 的 的 分 分 分 的 4 3模型 的 模型 的 的 的 模型 的 基 Eclat 的 模 4 3 1Eclat Eclat 的 重 的 的 分析 的 本 本模型 的 基 Eclat 的 的 模 Frequent Pattern FP K K K1 K2 Kp 模 K 模 D 的 D d1 d2 dq support D 31 31 的 模 Ki K dj D V alue Ki dj 1 K 2 的模 的 Eclat 的 k 求 k 1 k 1 的 k 1 求 k 2 13 解 Eclat 1 k 1 的 k 1 的 k 1 假設 的 k 1 的 的 a b a b k 1 的 k 的 C1 的 a k 1 的 C2 a C1 C2 述的 k 1 的 的 k 的 k 1 模 求 Eclat 9的 的 4 a b c d 模 的模 9 Eclat 模 K1 d1 K2 d1 d2 Kp d3 d5 4 的 14 Eclat FP support s 1for Pi FP 2do 3FPi 4for Pj FP j i 5do 6Pij Pi Pj 7tidset Pij tidset Pi tidset Pj 8support Pij tidset Pij 9if support Pij s 10then Add Pijto FPi 11Eclat FPi s 4 3 2 模 模 的模 的 的 的 模 考 的 的 模型 Eclat 的 重 的 的 模型 的 4 的 的 考 設 0 1 的 的 設 0 15 Eclat 的 的 199502 1563 10 0 15 的 的 分 的 5 的 的 10 2 4 5 3 的 2 的 3 4 5 223085 523612 的 163696 的 的 述 16 的 3 模 本 的 3 的 2 4 5 的 k 1 模 k 模 求 的 的 的 述 3 的 模 模 的 1 i 與 i 的 0 15 10 Eclat 1 242023 452114 0 40625 2 223085 523612 0 40625 3 163696 223085 523612 0 375 4 163696 223085 0 375 5 163696 523612 0 375 6 223085 338370 523612 0 34375 7 223085 338370 0 34375 8 338370 523612 0 34375 9 163696 223085 338370 523612 0 3125 10 163696 223085 338370 0 3125 11 163696 338370 523612 0 3125 12 163696 338370 0 3125 13 242023 435116 452114 0 28125 14 435116 452114 0 28125 15 242023 435116 0 28125 16 363950 543311 0 28125 5 的 模 的 i 模 16 MergeSubsets 1for i 1 totalcombination 2do 3num i 4for j i 1 totalcombination i 5do 6if flag j 1 7then 8if icombination jcombinationor jcombination icombination 9then 10flag j 0 11if length i num 12then num j 13icombination jcombination 的 1563 的 0 21875 的 11 模 的 的 11 模 模 195852 242023 363950 435116 452114 543311 0 40625 163696 223085 309765 311229 338370 523612 0 40625 309765 363950 473794 543311 564865 0 28125 178378 376042 461304 479399 0 25 309765 338370 376042 0 25 291073 338370 376042 0 25 309765 376042 566079 0 25 344930 395755 397304 563739 676759 679044 0 21875 175167 193157 576968 635727 666348 0 21875 221880 519164 0 21875 423624 448707 452293 0 21875 170329 193785 223266 649962 665792 667499 0 21875 183137 423624 452293 0 21875 165617 192364 545121 600109 646479 0 21875 256550 279041 404867 625378 655834 659876 0 21875 256550 279041 404867 625378 659876 0 21875 170329 223266 649962 665792 667499 0 21875 170329 202212 256550 404867 655834 0 21875 165617 341118 649602 0 21875 4 3 3模型的 模型的 17 的 模 重 的 的 的 的 的 模 Eclat 的 模 的 參考文獻參考文獻 1 Phua Clifton et al A comprehensive survey of data mining based fraud detec tion research arXiv preprint arXiv 1009 6119 2010 2 Yamanishi Kenji et al On line unsupervised outlier detection using fi nite mix tures with discounting learning algorithms Proceedings of the sixth ACM SIGKD D international conference on Knowledge discovery and data mining ACM 2000 3 Li Jing et al A survey on statistical methods for health care fraud detection Health care management science 11 3 2008 275 287 4 的 與 MS thesis 2011 5 Ortega Pedro A Cristi n J Figueroa and Gonzalo A Ruz A Medical Claim Fraud Abuse Detection System based on Data Mining A Case Study in Chile DMIN 6 2006 26 29 6 Nikulin Mikhail S Hellinger distance Encyclopedia of Mathematics 2001 附錄附錄 本題 R 附 附 的 C include include include include define NORMDIM 5 define CID1 22 itemcat define CID2 3 TAREC define CID3 8 age definerh0 0003 18 define R 0 0005 definealpha2 0 definetrainThresh1000 usingnamespacestd const double PI atan 1 0 4 int hash 215 const inttotalcell CID1 CID2 CID3 structcellparams double frequency inttrain rec double prob double num NORMDIM 5 0 for c 1 for miu 2 for sigma 2 3 for es miu 4 fores sigma 2 cellold CID1 CID2 CID3 cellnew CID1 CID2 CID3 double quick calc voidinherit intt void renew double log calc intitemcat inttarec int age double price double calc norm double val double u double sq int main FILE fin fout fin fopen handle small csv r fout fopen scores2 csv w hash 1 1 hash 3 2 hash 4 3 hash 5 4 hash 6 5 hash 8 6 hash 10 7 hash 11 8 hash 12 9 hash 13 10 hash 14 11 hash 15 12 hash 18 13 hash 19 14 hash 20 15 hash 21 16 hash 23 17 hash 24 18 hash 25 19 hash 26 20 hash 209 21 hash 214 22 i n i t i a l i z a t i o n memset cellold 0 sizeof cellold memset cellnew 0 sizeof cellnew 19 for int c1 0 c1 CID1 c1 for int c2 0 c2 CID2 c2 for int c3 0 c3 CID3 c3 for intl 0 l NORMDIM l cellold c1 c2 c3 num l 0 1 0 NORMDIM cellold c1 c2 c3 num l 1 double rand 100 100 cellold c1 c2 c3 num l 2 double rand 100 10 cellold c1 c2 c3 num l 3 double rand 100 100 cellold c1 c2 c3 num l 4 double rand 100 10 intcnt 0 fscanf fin s n fprintf fout WORKLOAD ID WORKLOAD ITEMCAT DR WORKLOAD TAREC DR AGE GROUP WORKLOAD TOTALPRICE SCORE TRAIN REC n printf excuting n int64 t GetTickCount while feof fin intitemcat tarec age id doubleprice if cnt 1000 0 printf d datum handled n cnt readin a new datum and convertto subscript 20 fscanf fin d d d d l f n printf datum d d d d d 2 l fread n cnt id itemcat tarec age price itemcat hash itemcat 1 tarec cnt inherittheinvariantvalues inherit cnt updatethediscretepart cellnew itemcat tarec age frequency 1 cellnew itemcat tarec age prob cellnew itemcat tarec age frequency 1 pow 1 rh cnt rh cellnew itemcat tarec age train rec 1 double gamma var mean temp sum 0 temp 0 for inti 0 i NORMDIM i temp cellold itemcat tarec age num i 0 calc norm price cellold itemcat tarec age num i 1 cellold itemcat tarec age num i 2 for inti 0 i NORMDIM i mean cellold itemcat tarec age num i 1 var cellold itemcat tarec age num i 2 gamma 1 alpha R cellold itemcat tarec age num i 0 calc norm price mean var temp alpha R NORMDIM if isnanf gamma gamma 1 0 update c i cellnew itemcat tarec age num i 0 1 R cellold itemcat tarec age num i 0 R gamma printf 4 l f 4 l f n gamma cellnew itemcat tarec age num i 0 update mu i 21 cellnew itemcat tarec age num i 3 1 R cellold itemcat tarec age num i 3 R gamma price cellnew itemcat tarec age num i 1 cellnew itemcat tarec age num i 3 cellnew itemcat tarec age num i 0 updatesigma 2 i cellnew itemcat tarec age num i 4 1 R cellold itemcat tarec age num i 4 R gamma price pric
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 福建省南平市延平區2025年七下英語期中綜合測試試題含答案
- 玩具違法試題及答案
- 土木工程材料試題及答案
- 2025年鍋爐設備股權轉讓協議
- 2025年烹飪設備采購協議
- 2025年策劃版企業采購合作協議
- 2025年共同策劃現代物流合作發展協議書
- 2025年兒童領養協議標準格式
- 2025年度夏令營活動策劃權益保障協議
- 2025年智能家居設備銷售合作協議書模板
- 【MOOC】大學生勞動教育-南京大學 中國大學慕課MOOC答案
- 上海市2019年中考化學真題(含答案)
- 氣壓傳動課件 項目三任務一 氣動基本調速回路組裝與調試
- 咨詢實施顧問能力素質模型
- 2025年上海市數學高考一輪復習:立體幾何(Ⅰ)(考點練+模擬練)含詳解
- 建筑水電安裝工程規范要求中的水泵安裝要求
- 日子(2023年重慶B中考語文試卷記敘文閱讀題及答案)
- 【usmile電動牙刷的營銷策略探析8600字(論文)】
- 2024-2030年中國胸外科行業市場發展趨勢與前景展望戰略分析報告
- 小兒麻醉術后并發癥
- 2019青鳥消防JBF6481編碼器使用指南
評論
0/150
提交評論