




下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、 文本挖掘分析技術(shù)在審計稽核中的應(yīng)用探索 羅江筑摘 要:隨著大數(shù)據(jù)時代的來臨,審計作為一個綜合的經(jīng)濟監(jiān)督部門也必將面臨其帶來的巨大挑戰(zhàn),在企業(yè)系統(tǒng)中產(chǎn)生了海量的非結(jié)構(gòu)化數(shù)據(jù),僅靠人工進行審計,成效杯水車薪,針對非結(jié)構(gòu)化數(shù)據(jù)的審計已經(jīng)成為審計業(yè)務(wù)的盲區(qū),利用高科技手段與工具實現(xiàn)非結(jié)構(gòu)化數(shù)據(jù)的分析與挖掘為審計業(yè)務(wù)提供數(shù)據(jù)支撐的需求已迫在眉睫。本文基于文本挖掘技術(shù),采用信息抽取方法從非結(jié)構(gòu)化文檔中提取關(guān)鍵信息,進行結(jié)構(gòu)化存儲,然后進行自動稽核,既大大減少因人工操作耗費的大量人力、財力成本,又避免了因人為疏忽造成審計問題遺漏的情況,更加全面的審計各種
2、問題。關(guān)鍵詞:審計稽核;文本挖掘;信息抽取隨著大數(shù)據(jù)時代的來臨,審計作為一個綜合的經(jīng)濟監(jiān)督部門也必將面臨其帶來的巨大挑戰(zhàn),在企業(yè)系統(tǒng)中產(chǎn)生了海量的非結(jié)構(gòu)化數(shù)據(jù),如何對這些非結(jié)構(gòu)化數(shù)據(jù)進行分析是推動大數(shù)據(jù)審計開展的重要內(nèi)容。隨著大數(shù)據(jù)在審計領(lǐng)域的廣泛推廣和運用,文本挖掘技術(shù)對審計數(shù)據(jù)分析的重要性已逐步凸顯,它不再僅僅以結(jié)構(gòu)化的審計數(shù)據(jù)為分析對象,可以深入地對大量非結(jié)構(gòu)化數(shù)據(jù)進行挖掘分析和利用。以企業(yè)合同數(shù)據(jù)的審計為例,結(jié)合文本挖掘技術(shù)特點,本文探討了基于文本挖掘分析技術(shù)的審計稽核方法,為文本挖掘分析技術(shù)在審計稽核的應(yīng)用做出了探索。本文內(nèi)容安排如下:首先企業(yè)合同審計問題進行了介紹,之后根據(jù)數(shù)據(jù)特點
3、采用信息自動抽取技術(shù)從企業(yè)合同數(shù)據(jù)中抽取關(guān)鍵數(shù)據(jù),將非結(jié)構(gòu)化數(shù)據(jù)進行結(jié)構(gòu)化存儲,最后對提取的企業(yè)合同關(guān)鍵數(shù)據(jù)進行稽核,發(fā)現(xiàn)審計問題。一、數(shù)據(jù)及問題在企業(yè)合同管理系統(tǒng)中存在有大量的合同數(shù)據(jù),企業(yè)合同審計主要是針對合同的執(zhí)行情況,特別是合同付款情況的審計,包括合同總價,第一次付款時間、金額,第二次付款時間、金額等。企業(yè)合同數(shù)據(jù)屬于非結(jié)構(gòu)化文檔數(shù)據(jù),對這類數(shù)據(jù)的審計,目前需要人為提取合同的關(guān)鍵數(shù)據(jù)(合同金額、付款時間等),需要耗費大量的人力成本。如何快速的從這些非結(jié)構(gòu)化數(shù)據(jù)中提取我們需要的信息,是解決企業(yè)合同快速審計的關(guān)鍵所在。二、信息抽取信息抽取的宗旨在于抽取指定的信息,信息抽取有多種不同的技術(shù),
4、根據(jù)采用的模型不同可以分為三類:基于詞典的抽取、基于規(guī)則的抽取和基于隱馬爾可夫模型(hmm)的抽取。基于詞典的信息抽取需要構(gòu)造抽取模式詞典,然后使用模式詞典從未標(biāo)記文本中抽取所需信息。基于詞典的信息抽取需要對概念節(jié)點進行定義,建立和維護相關(guān)的模式,知識工作量比較大,最佳詞典的產(chǎn)生也比較麻煩,領(lǐng)域相關(guān)性太強,應(yīng)用不是很廣泛。基于規(guī)則的信息抽取需要先構(gòu)造抽取規(guī)則集,然后利用這些通用的規(guī)則從文本中抽取信息。基于規(guī)則的信息抽取比較常用,在很多情況下精度也非常令人滿意。缺點是規(guī)則構(gòu)造比較復(fù)雜,適應(yīng)性較差。利用隱馬爾可夫模型(hmm)進行文本信息抽取是一種基于統(tǒng)計學(xué)習(xí)的抽取方法。企業(yè)合同數(shù)據(jù)需要提取的信息
5、主要包括以下幾類:(一)合同編號、合同名稱在企業(yè)合同中,合同編號、合同名稱數(shù)據(jù)都有明確的關(guān)鍵字標(biāo)記,根據(jù)關(guān)鍵字確定信息位置,提取對應(yīng)的信息即可。(二)合同總價在企業(yè)合同中,合同總價會有明確關(guān)鍵字進行標(biāo)識,如服務(wù)費總額,根據(jù)關(guān)鍵字定位到所屬的段落之后,采用貨幣正則表達式提取金額數(shù)據(jù)。貨幣數(shù)據(jù)識別的正則表達式為(三)付款時間在合同中,如果付款時間有明確的說明,直接按時間的正則表達式提取數(shù)據(jù)即可,不同格式展示的時間其提取表達式不同,最簡單的日期格式如yyyy/mm/dd,正則表達式為更為復(fù)雜的是,在合同中并沒有明確的說明付款時間,而是“合同簽訂后幾個工作日內(nèi)”,此時就需要先提取合同簽訂日期,然后采用
6、時間推理方法,推算確定的合同付款日期。(四)付款金額付款金額與付款時間會出現(xiàn)在同一段落中,在提取付款時間之后,采用與提取合同總價相同的方式提取付款金額。(五)付款方和收款方信息付款方信息主要是付款單位名稱,收款方信息包括開戶銀行、賬號和開戶名,這類信息在合同里一般有明確的說明,根據(jù)信息關(guān)鍵字定位到具體的段落提取信息即可。提取的付款方和收款方信息用于從銀行返回的資金流數(shù)據(jù)中獲取與合同對應(yīng)的數(shù)據(jù),以便對合同付款情況進行稽查。將從企業(yè)合同中提取的關(guān)鍵信息存儲于數(shù)據(jù)庫提前建好的數(shù)據(jù)表中,實現(xiàn)結(jié)構(gòu)化存儲,方便對合同進行審計。三、自動稽核對企業(yè)合同的審計稽核策略是從企業(yè)合同中提取關(guān)鍵信息與資金流數(shù)據(jù)(此數(shù)
7、據(jù)來源與財務(wù)系統(tǒng)中銀行返回的數(shù)據(jù))對比,進行自動稽核,發(fā)現(xiàn)審計問題。具體的實現(xiàn)方法如下:(一)根據(jù)關(guān)注的審計問題,制定審計規(guī)則根據(jù)審計問題表象(如未按合同條款執(zhí)行付款a1,提前付款a2,付款金額不一致a3)定義審計問題規(guī)則,形式為b*:a*a*,如b1:a1、b2:a2、b3:a3、b4:a2a3,其中b*為規(guī)則編號,a*a*為規(guī)則所滿足的條件。(二)對合同信息按照規(guī)則進行稽核根據(jù)收款賬戶信息,找到需要審計的合同對應(yīng)的資金流數(shù)據(jù),對比關(guān)注的信息項,主要是付款時間、金額,多次付款金額之和即為付款總額。如果沒有找到對應(yīng)的資金流數(shù)據(jù),則為未按合同條款執(zhí)行付款b1;如果付款時間提前,則為提前付款b2;
8、如果金額不一致,則為付款金額不一致b3;如果付款時間提前且金額不一致,則為b4。滿足制定的審計規(guī)則的合同認為存在審計問題,根據(jù)滿足的條件不同,標(biāo)記不同的規(guī)則編號。(三)對審計問題進行進一步分析按規(guī)則編號對存在的審計問題進行分組,對每類問題進行集中處理。針對企業(yè)合同數(shù)據(jù),采用信息抽取方法抽取需要審計的信息之后,與銀行返回的資金流數(shù)據(jù)進行比對,發(fā)現(xiàn)存在的審計問題,將審計結(jié)果存入數(shù)據(jù)庫,方便進行查詢。因?qū)徲嫿Y(jié)果涉及到保密問題,這里只給出審計結(jié)果表的表結(jié)構(gòu),如下表所示:針對審計結(jié)果表,既可以按照規(guī)則編號,對審計問題進行分組集中處理,也可以按照合同編號查詢指定合同的審計結(jié)果。將合同數(shù)據(jù)以及銀行返回結(jié)果關(guān)
9、聯(lián)到一張表中,可以更方便的驗證審計結(jié)果。四、結(jié)論本文利用信息自動抽取技術(shù),基于企業(yè)合同數(shù)據(jù),從中自動抽取合同關(guān)鍵數(shù)據(jù),將合同中的非結(jié)構(gòu)化數(shù)據(jù)進行結(jié)構(gòu)化,然后與銀行返回的資金流數(shù)據(jù)進行自動比對,發(fā)現(xiàn)審計問題。本文只是文本挖掘技術(shù)在審計稽核應(yīng)用的一個探索性嘗試。在審計工作中引進文本挖掘技術(shù),不僅可以大大降低純粹人工審計耗費的人力、財力成本,而且可以降低因人為疏忽造成審計問題遺漏的情況發(fā)生。雖然目前文本挖掘技術(shù)在審計稽核工作中的應(yīng)用尚處于起步階段,但隨著信息技術(shù)的迅猛發(fā)展和人們對文本挖掘技術(shù)的深入研究,文本挖掘在審計稽核工作中的應(yīng)用將會不斷發(fā)展和完善。參考文獻:1張志恒,成雪嬌.大數(shù)據(jù)環(huán)境下基于文本挖掘的審計數(shù)據(jù)分析框架j.會計之友,2017,16:117-120.2吳芬芬.信息抽取算法研究.吉林大學(xué)碩士論文,2006:1-10.3郭喜躍,何婷婷.信息抽取研究綜述j.計算機科學(xué)報,2015,02:14-17.4李保利,陳玉忠,俞士汶.信息抽取研究綜述j.計算機工程與應(yīng)用,2003,10:1-5.5張素香.信息抽取中關(guān)鍵技術(shù)的研究d.北京:北京郵電大學(xué),2007.6張曉艷,王挺,陳火旺.命名實體識別研究j.計算機科學(xué),2005,04:44-48.
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 安全注射單選試題及答案
- 基于區(qū)塊鏈技術(shù)的2025年互聯(lián)網(wǎng)+政務(wù)服務(wù)安全與可信度提升與實踐報告001
- 2025年直播電商主播影響力測評與定制化營銷策略研究報告
- 南京網(wǎng)絡(luò)課件師培訓(xùn)
- 顧問式營銷培訓(xùn)課件
- 制圖基本技術(shù)課件
- 腫瘤重點專科建設(shè)成果匯報
- 脂肪瘤護理診斷
- 中國入境旅游課件下載
- 中國兒童文學(xué)史課件
- 大氣污染控制工程課程設(shè)計_某工廠布袋除塵器的設(shè)計
- 第二講:黔東南州優(yōu)勢礦產(chǎn)資源
- 康復(fù)醫(yī)院的設(shè)計要點精選
- 10kv高壓架空電線防護方案概述
- 空調(diào)維保方案及報價(共3頁)
- 石油化工管道施工方案
- 四川SG-008技術(shù)、經(jīng)濟簽證核定單(共2頁)
- 崗位分析及崗位職責(zé)富士康公司組織架構(gòu)及部門職責(zé)
- 商品房銷售代理合同
- 智能化建筑工程檢驗批質(zhì)量驗收記錄文本表(共69頁)
- GB∕T 40740-2021 堆焊工藝評定試驗
評論
0/150
提交評論