




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
證券研究報告
|2025年4月17日DeepSeek輔助識別財務瑕疵——基于財報文本的情感語調的分析策略研究
·
策略專題核心觀點?
財務造假樣本分析:從CSMAR數據庫“財務違規(guī)表”篩選2010-2021年樣本,通訊服務行業(yè)造假占比最高,金融和公用事業(yè)最低。2010-2018年造假公司數量及占比上升,2019年后下降,且約58.3%的造假行為在1-2年內暴露或終止。信息披露違規(guī)成為主流,虛構利潤和虛列資產減少。?
特征池構建:基于上市公司定期財務報告,從8個維度構建378個比率型指標,經篩選處理后保留100個指標,形成特征池,包含5483個財務造假樣本和42046個控制樣本。?
情感語調因子構建:利用DeepSeek
R1模型分析財報文本情感語調,設計相關函數和處理流程,獲取情感語調分數。財務造假公司情感語調分數整體低于正常公司,可捕捉情緒矛盾、模糊表述和行業(yè)異常等風險線索。?
模型表現(xiàn):分別構建
Logistic、LightGBM和MLP模型,加入情感語調因子后,三個模型召回率均提升,第二類錯誤下降。情感語調因子在非線性模型(MLP、LightGBM)中重要性高,與傳統(tǒng)財務指標協(xié)同,提升綜合預警能力。?
拓展路徑:基于Zero-Shot的財報文本直接分析模式,利用大模型通用語義理解能力挖掘潛在造假信號;基于違規(guī)說明的Fine-Tuning模式,對基座LLMs進行微調構建專家模型,通過精準匹配率和人工盲測評估。?
風險提示:模型過擬合風險,DeepSeek的訓練依賴于投喂的框架語料與底稿數據,多維框架下存在未來函數和過擬合風險;數據口徑調整風險,財務指標統(tǒng)計口徑的調整可能帶來AI配置結論的改變;AI推理的不穩(wěn)健性,AI模型的輸出結論具備一定隨機性,多次生成可能產生不同的結果。目錄財務造假上市公司樣本整理02
基于結構化數據構建財務造假識別模型特征池DeepSeek輔助構建基于財報文本的情感語調因子04
情感語調因子在財務造假識別模型中的表現(xiàn)AI挖掘財報文本信息的拓展路徑010305造假的違規(guī)類型?
認定財務造假需滿足三個要件:主觀故意性、財務數據操縱性、誤導利益相關者目的性。在15個違規(guī)類型中,通常認為虛構利潤、虛列資產、虛假記載、重大遺漏、披露不實、欺詐上市、一般會計處理不當為財務造假類違規(guī)。圖:上市公司違規(guī)類型說明違規(guī)名稱虛構利潤虛列資產解釋說明違規(guī)分類財務造假類財務造假類虛構收入、成本費用等相關導致利潤增加的科目事項均納入此類別,包括以虛構利潤為目的隱瞞虧損(利潤表里的科目)。虛構負債等相關科目導致資產增加的事項均納入此類別(負債表里的科目)。虛假記載,即負有信息披露義務的相關主體,在履行披露信息義務時,在其公開的文件中作出與事實不相符合的記載的行為;誤導性陳述,即負有信息披露義務的相關主體在其公開的文件中或者通過媒體,作出誤導市場投資者對其投資行為發(fā)生錯誤判斷并產生重大影響的陳述。重大遺漏,即信息披露義務人在信息披露文件中,未將應當記載的事項完全記載或者僅部分予以記載,強調的應披露內容的完整性。在信息披露中提供不實信息,如虛假陳述、隱瞞事實等。根據公告無法判斷披露的信息是內容不真實,還是內容不完整,或者是披露時間不夠及時,此時將這種情況收錄在此項。虛假記載(誤導性陳述)重大遺漏財務造假類財務造假類財務造假類披露不實(其他)欺詐上市指在招股說明書或認股書、公司、企業(yè)債券募集辦法中隱瞞重要事實或編造重大虛假內容。財務造假類財務造假類一般會計處理不當
會計處理不符合會計準則,導致財務報表不準確。或濫用會計政策進行“財務洗澡”。一般是出資不實,包括虛假出資,抽逃出資,出資不到位,不按照規(guī)定等情況;虛假出資、抽逃出資罪,是指公司發(fā)起人、股東違反公司法的出資違規(guī)公司治理類規(guī)定未交付貨幣、實物或者未轉移財產權,或者在公司成立后又暗中撤回出資,數額巨大、后果嚴重或者有其他嚴重情節(jié)的行為。擅自改變資金用途
公告中說明的擅自改變資金用途的。注意:若是捏造不存在募集資金用途,則是虛假陳述。公司治理類公司治理類占用公司資產公司實際控制人或高管占用公司資產,損害公司利益。內幕交易是指內幕人員和以不正當手段獲得內幕消息的其他人員違反法律規(guī)定,泄露內幕信息,根據內幕信息買賣股票或者向他人提出買賣股票的建議的行為。內幕交易公司治理類主要收錄除了內幕交易以外的其他違規(guī)買賣股票,如違規(guī)董事,監(jiān)事和高管自公司股票上市日起一年和離職后半年內,不得轉讓其所持本公司股份;任職期間擬買賣本公司股票應當根據相關規(guī)定提前向交易所備案,所持本公司股份發(fā)生變動的,應當及時向公司表格并由公司在交易所網站公告的規(guī)定等,都屬于違規(guī)買賣股票。違規(guī)買賣股票公司治理類操縱股價(操縱證券市場)是指單獨或者合謀,集中資金優(yōu)勢,持股或者持倉優(yōu)勢或者利用信息優(yōu)勢聯(lián)合或者連續(xù)買賣,操縱證券,期貨交易價格或者證劵,期貨交易量的,與他人串通,以事先約定的時間,價格和方式互相進行證劵,期貨交易,影響證券,期貨交易價格或者證券,期貨交易量的,在自己實際控制的賬戶之間進行證券交易,或者以自己為交易對象,自買自賣期貨合約。中國證券監(jiān)督管理委員會公告[2009]16號三、《管理辦法》所規(guī)定的“違規(guī)對外提供擔保”,是指上市公司及其附屬公司違反相關法律、行政法規(guī)、規(guī)章、中國證監(jiān)會發(fā)布的規(guī)范性文件、公司章程的規(guī)定對外提供擔保。操縱股價違規(guī)擔保公司治理類公司治理類推遲披露其他推遲披露主要是指相關的信息沒有及時披露,即沒有按照信息披露限期規(guī)定的要求及時披露相關的信息。除了以上的分類之外的違規(guī)。信息披露時效性問題其他資料:CSMAR,國信證券經濟研究所整理樣本初步處理?
在財務造假樣本篩選中,本文的數據
于CSMAR數據庫的“
財務違規(guī)表”。本文選擇2010年1月1日之后的樣本進行分析。同時,由于財務造假的處罰公布具有滯后性,因此決定暫時不研究最近2年,即2023年12月31日之后的所有樣本。圖:樣本初步處理方式步驟處理方法本研究采用CSMAR數據庫的「財務違規(guī)表」作為基礎數據源,該表整合了證監(jiān)會、滬數據
與基礎篩選
深交易所公告中經官方認定的財務造假案例。為確保數據權威性,僅保留基于監(jiān)管機構正式處罰決定的樣本,排除媒體曝光但未獲官方認定的疑似案例。選取2010年1月1日至2023年12月31日作為研究區(qū)間,該設定基于雙重考量:?監(jiān)管滯后性:根據證監(jiān)會處罰周期統(tǒng)計,財務舞弊從發(fā)生到被處罰平均存在3-5年滯后期,排除近兩年數據可規(guī)避未曝光舞弊樣本對模型訓練的干擾。時間窗口設定?會計準則穩(wěn)定性:2010年后企業(yè)會計準則修訂幅度較小,確保財務指標可比性。?顆粒度設定:以「公司-年度」為最小樣本單元,每個上市公司每年度的財務數據及監(jiān)管記錄構成獨立觀測點。?標簽定義:若某公司在特定年度存在被處罰的財務造假行為,則標記為1;同公司其他年度及未因財務造假被處罰公司均標記為0。樣本構造規(guī)則?特殊樣本處理:保留已退市公司數據(反映舞弊極端后果),但剔除年報數據缺失的觀測點(占總樣本量<0.3%)。資料:國信證券經濟研究所整理財務造假上市公司的行業(yè)、造假類型、年份分布?
通訊服務行業(yè)財務造假公司占比最高(19.4%),金融和公用事業(yè)領
圖:上市公司財務造假持續(xù)年份的分布域造假比例最低(均低于8.5%),顯示出行業(yè)監(jiān)管強度、業(yè)務復雜性與財務舞弊風險負相關關系。?
財務造假持續(xù)時間與公司數量呈顯著負相關,約58.3%的造假行為集中在1-2年內暴露或終止,表明系統(tǒng)性舞弊難以長期維持,且監(jiān)管糾偏機制在中期(3-5年)逐漸顯效。?
2010-2018年財務造假公司數量及占比持續(xù)攀升(從7.5%增至17.9%),2019年后呈下降趨勢(2023年財務造假率反常驟降則主要由于財務造假行為暴露的滯后性),反映證券法修訂后監(jiān)管趨嚴,資料:萬得,CSMAR,國信證券經濟研究所整理
注:橫軸為持續(xù)年數,縱軸為上市公司數財務造假行為得到顯著遏制。圖:財務造假上市公司的萬得一級行業(yè)分布圖:財務造假上市公司的年份分布資料:萬得,CSMAR,國信證券經濟研究所整理資料:萬得,CSMAR,國信證券經濟研究所整理財務造假上市公司的行業(yè)、造假類型、年份分布從行業(yè)動態(tài)與違規(guī)模式演變來看,財務造假呈現(xiàn)顯著的結構性特征:?
行業(yè)風險周期分化:2010-2018年間,通訊服務、能源與金融行業(yè)成為違規(guī)重災區(qū),其中通訊服務行業(yè)違規(guī)率從2010年的8.7%激增至2018年的32.7%,金融業(yè)在2015年因資產端擴張與監(jiān)管套利導致違規(guī)率達25.6%的歷史峰值。這一趨勢與行業(yè)特性密切相關——通訊服務行業(yè)技術迭代快、資本開支密集,管理層傾向于通過模糊技術商業(yè)化進展(重大遺漏)掩蓋現(xiàn)金流壓力;能源行業(yè)則受大宗商品價格波動驅動,常通過虛增儲量或成本資本化調節(jié)利潤。2019年后隨著新《證券法》實施及穿透式監(jiān)管推進,全行業(yè)違規(guī)率普遍下行,但房地產行業(yè)在2022年仍維持15.5%的高違規(guī)率,凸顯行業(yè)流動性危機下企業(yè)通過虛增預售收入、隱匿表外負債等復合手段粉飾報表的頑疾。?
違規(guī)手段迭代升級:信息披露違規(guī)(重大遺漏57.8%、虛假記載54.9%)取代傳統(tǒng)利潤操縱成為主流,其技術隱蔽性體現(xiàn)在兩方面,一是通過選擇性披露行業(yè)利好政策、弱化技術研發(fā)失敗風險、構建片面敘事誤導投資者;二是借助復雜術語包裝關聯(lián)交易、利用模糊表述規(guī)避業(yè)績承諾。相較而言,虛構利潤和虛列資產因審計程序中對銀行流水、存貨監(jiān)盤的強化而大幅萎縮。圖:財務造假的行業(yè)分年度違規(guī)率圖:各違規(guī)類型在財務造假樣本中的占比信息技術
公用事業(yè)
醫(yī)療保健
可選消費
工業(yè)
房地產
日常消費
材料能源
通訊服務
金融201020112012201320142015201620172018201920202021202220239.1%9.0%5.9%10.4%14.5%8.2%6.2%8.0%6.5%11.7%14.8%9.1%6.7%8.4%5.4%0.8%5.9%10.0%14.6%12.2%9.6%9.4%11.1%10.8%12.9%13.6%14.3%14.2%17.1%19.0%19.6%17.6%13.8%6.3%6.6%9.2%6.3%12.0%13.4%11.2%10.0%16.4%11.9%15.7%17.8%13.1%14.1%16.4%15.5%1.0%11.5%10.2%17.5%13.1%14.2%15.1%18.0%17.3%16.5%15.2%13.5%11.5%9.6%6.6%10.3%12.8%13.7%13.3%16.1%12.6%15.2%16.5%15.4%13.7%9.1%6.0%8.8%8.7%12.9%15.8%16.7%20.4%23.7%23.8%25.0%32.8%28.5%18.9%18.0%9.8%3.6%9.1%5.4%10.5%12.2%25.6%21.7%11.8%8.8%8.0%8.4%2.1%2.0%0.0%11.1%11.3%15.0%18.3%17.0%18.0%17.8%18.4%14.2%11.4%6.1%11.7%13.2%9.7%12.9%10.8%11.1%17.4%19.7%21.3%21.1%13.2%13.9%16.2%13.9%2.5%12.0%14.8%14.9%18.0%15.1%13.9%8.9%13.5%15.8%15.4%17.4%15.7%12.0%10.8%5.7%6.3%4.9%0.9%1.2%0.8%0.4%0.7%0.7%3.1%資料:萬得,CSMAR,國信證券經濟研究所整理
注:違規(guī)率從高到低依次由紅-白-藍過渡資料:萬得,CSMAR,國信證券經濟研究所整理目錄財務造假上市公司樣本整理02
基于結構化數據構建財務造假識別模型特征池DeepSeek輔助構建基于財報文本的情感語調因子04
情感語調因子在財務造假識別模型中的表現(xiàn)AI挖掘財報文本信息的拓展路徑010305特征池構建——基于結構化財報數據?
數據
與篩選依據:聚焦上市公司定期財務報告信息,提取標準化財務報表數值信息(資產負債表、利潤表、現(xiàn)金流量表等)。采用年度報告作為核心數據
,主要因其具備完整性,涵蓋法定披露的全部財務與非財務信息。具體數據
于CSMAR數據庫的“
財務指標分析表”。?
特征構建原則:基于跨公司&跨行業(yè)可比性考慮,1)采用比率型指標:將絕對值轉化為相對值(如資產負債率、銷售凈利率);2)歸一化&標準化:對不同行業(yè)內的樣本指標通過Max-Min方法將指標值限定在[0,1]區(qū)間,且進行Z-score標準化處理;3)行業(yè)屬性處理:保萬得一級行業(yè)分類作為控制變量,采用獨熱編碼處理行業(yè)屬性。4)多維度覆蓋原則:從8個維度構建財務指標體系,分別為償債能力、經營能力、盈利能力、發(fā)展能力、比率結構、風險水平、現(xiàn)金流分析、每股指標。?
特征池優(yōu)化機制:1)充足性篩選:剔除缺失值超過50%的指標;2)顯著性檢驗:保留p值小于0.1的因子。3)離群值處理:采用IQR方法,離群值用上下限代替。?
原有8個維度,總計378個指標,對于指標數據缺失超過50%的樣本直接進行刪除,同時對所有指標進行顯著性檢驗,篩選出p值小于0.1的指標。
最終保留指標100
個,
財務造假樣本5483
個,
控制樣本42046個。圖:基于結構化財報數據構建特征池——8維度財務指標體系維度分類
因子數代表性指標示例分析側重點流動比率、速動比率、保守速動比率、營運資金與借款比、營運資金、現(xiàn)金流利息保障倍數、現(xiàn)金流到期債務保障倍數、資產負債率等。償債能力經營能力盈利能力發(fā)展能力28676857短期償付壓力/長期債務安全邊際應收賬款與收入比、應收賬款周轉率、應收賬款周轉天數、存貨與收入比、存貨周轉率、存貨周轉天數、營業(yè)周期等。資產運營效率利潤獲取能力成長潛力評估資產報酬率、總資產凈利潤率、流動資產凈利潤率、固定資產凈利潤率、凈資產收益率、息稅前利潤、息稅折舊攤銷前收入、凈利潤與利潤總額比等。資本保值增值率、母公司資本保值增值率、資本積累率、母公司資本積累率、固定資產增長率、總資產增長率、凈資產收益率增長率等。現(xiàn)金資產比率、應收類資產比率、營運資金對流動資產比率、營運資金比率、營運資金對凈資產比率、非流動資產比率、固定資產比率等。比率結構風險水平現(xiàn)金流353資源配置合理性財務困境預警盈利質量驗證財務杠桿、經營杠桿、綜合杠桿。凈利潤現(xiàn)金凈含量、銷售收入現(xiàn)金含量、營業(yè)收入現(xiàn)金凈含量、營業(yè)利潤現(xiàn)金凈含量、籌資活動債權人現(xiàn)金凈流量、籌資活動股東現(xiàn)金凈流量、全部現(xiàn)金回收率等。每股收益、每股綜合收益、歸屬于母公司每股收益、歸屬于母公司每股綜合收益、每股營業(yè)總收入、息稅前每股收益、息稅折舊攤銷前每股收益等。32每股指標88剔除基數不同導致的差異資料:國信證券經濟研究所整理目錄財務造假上市公司樣本整理02
基于結構化數據構建財務造假識別模型特征池DeepSeek輔助構建基于財報文本的情感語調因子04
情感語調因子在財務造假識別模型中的表現(xiàn)AI挖掘財報文本信息的拓展路徑010305非結構數據:基于財報文本的情感語調因子圖:調用DeepSeekR1進行財報文本情感語調打分部分代碼圖:調用DeepSeekAPI進行基于財報文本的情感語調因子構建全局配置模塊?初始化API密鑰、文件路徑、基礎URL和模型名稱核心功能模塊文本截斷函數情感分析函數?通過智能斷句確保輸入不超過模型限制?優(yōu)先保留完整句子?調用DeepSeekR1模型?包含系統(tǒng)提示詞工程?溫度參數控制輸出穩(wěn)定性?異常捕獲與日志記錄資料
:國信證券經濟研究所整理圖:調用DeepSeekR1進行財報文本情感語調打分部分輸出主處理流程數據加載階段批量處理階段結果保存階段一、經營狀況的討論與分析公司在XX的印染廠已經停產,公司控制的XX家子公司也因印染廠的停產而停止相關印染業(yè)務的經營,大部分依靠房產出租維持日常運作。XX公司
2007年擬用部分機器設備投資XX公司,但因合資對方原因和行業(yè)前景發(fā)生變化,截止XX年XX月XX日,合資項目的增資工作仍未完成。公司在XX設立XX公司,其目的為銜接公司原有的印染業(yè)務,也因合資項目的增資工作未完成,沒有業(yè)務可以銜接而停止經營活動。本年度公司實現(xiàn)利潤一、報告期內公司總體經營情況報告期內,公司圍繞戰(zhàn)略發(fā)展目標,優(yōu)化銷售策略、強化目標管理、深化成本控制,著力提高茶產業(yè)的生產和銷售規(guī)模,籌劃非公開發(fā)行事項,適時減持XX公司XX%股權,進一步推進核心茶產業(yè)的發(fā)展;同時,穩(wěn)步實現(xiàn)了傳統(tǒng)產業(yè)的順利搬遷和平穩(wěn)運營,妥善解決了公司歷史遺留問題,為公司持續(xù)健康發(fā)展奠定了扎實基礎。?讀取Excel文件并初始化?實時顯示處理進度?情感語調分數結構化寫入?結果文件保存情感語調列?三級重試機制(含指數主要……是公司投資的XX公司帶來的投資收益。……?異常捕獲文件加載錯誤退避休眠)情感語調:-0.2292情感語調:0.3425資料:CSMAR,DeepSeek,國信證券經濟研究所整理資料:國信證券經濟研究所整理非結構數據:基于財報文本的情感語調因子?
傳統(tǒng)財務指標受會計準則和法律約束,可能存在人為操縱空間,而文本情感語調反映了管理層對企業(yè)經營狀況的真實情緒流露,具有更強的隱蔽性特征。過度積極的表述可能是管理層掩蓋財務問題的策略,如虛增收入時通過夸大描述轉移投資者注意力;負面情緒升高往往預示資金鏈緊張或業(yè)績下滑,可能觸發(fā)管理層通過財務造假緩解短期壓力。而且從合法性的角度來看,年報文本中流露出的負面情緒也是公司為了降低投資者預期,避免未來遭遇法律訴訟困擾的必要手段。?
文本情感分析捕捉非結構化風險線索:?
情緒矛盾:財務數據向好但語調消極,可能暗示數據真實性存疑;?
模糊表述:大量使用復雜術語或轉折詞(如“盡管”、“但是”)可能掩蓋真實風險;?
行業(yè)異常:與同行業(yè)情感傾向偏離較大的公司更可能存在舞弊。?
從DeepSeek生成的財報文本情感語調分數分布來看,財務造假公司的情感語調分數整體低于正常公司的情感語調分數;這一規(guī)律在以萬得一級行業(yè)分類后的樣本中依舊成立。圖:DeepSeek生成財報文本情感語調概率密度分布圖:DeepSeek生成財報文本情感語調萬得一級行業(yè)分布資料:萬得,CSMAR,DeepSeek,國信證券經濟研究所整理資料:萬得,CSMAR,DeepSeek,國信證券經濟研究所整理目錄財務造假上市公司樣本整理02
基于結構化數據構建財務造假識別模型特征池DeepSeek輔助構建基于財報文本的情感語調因子04
情感語調因子在財務造假識別模型中的表現(xiàn)AI挖掘財報文本信息的拓展路徑010305建立識別財務造假的Logistic模型?
Logistic回歸是一種廣泛應用的機器學習算法,尤其擅長處理二分類問題。Logistic回歸模型通過使用邏輯函數(Sigmoid函數)將預測值映射到概率空間,從而能夠直接輸出樣本屬于某一類的概率。以下為Logistic回歸的數學邏輯:?
輸入:訓練數據集?
=
?
,
?
,
…
,
?
和目標值?
=
?
,
?
,
…
,
??12?12?
輸出:預測值???
模型假設:假設模型輸出為事件發(fā)生的概率:?
?
=
?
?
=
σ
???
+
?其中σ
?
=
1?1???稱作Sigmoid函數?
損失函數:使用對數似然損失函數進行優(yōu)化,目標是最大化似然函數:1???1對每一層計算線性變換:?
?,
?
=
?
??
???
?
+
?
?
?
???
?
?
??
?
?
??其中(?
=
?
?
=
?
?
)???
梯度下降,計算損失函數對參數的梯度:??
??,??
???
更新參數:?????
←
?
?
η,
?
←
?
?
η?????
預測輸出:設定閾值(一般為
0.5),當?
?
=
?
?
>
0.5時??
=
?,否則??
=
0DeepSeek情感語調因子加入特征池前后Logistic模型表現(xiàn)對比?
加入情感語調因子后,模型在召回率(測試集:65.27%→69.01%,+3.74%)得到提升,第二類錯誤同步下降,驗證了情感因子在識別財務造假場景中的核心價值。盡管其他指標(準確率、特異性)有所下降,但這反映了模型在平衡“抓造假”與“保正常”目標時的合理權衡。在財務造假檢測中,降低漏判(第二類錯誤)的優(yōu)先級通常高于誤判(第一類錯誤),因此情感因子對召回率的提升具有實際意義。?
財務造假公司往往在財報文本中隱含負面情感信號(如模糊措辭、矛盾邏輯、過度樂觀修飾),情感因子通過量化文本情感傾向,幫助模型更敏感地捕捉這些特征,強化對造假樣本的識別能力。作為線性模型,Logistic通過調整特征權重優(yōu)化分類邊界。情感因子通過正向權重調整(負面情感→更高造假概率),直接擴大了造假類別的判別邊界,從而提高召回率。圖:情感語調因子加入特征池前Logistic模型的混淆矩陣、評價指標、模型表現(xiàn)圖:情感語調因子加入特征池后Logistic模型的混淆矩陣、評價指標、模型表現(xiàn)混淆矩陣混淆矩陣訓練集測試集預測造假訓練集測試集預測造假預測正常22237預測造假11400預測正常5486預測正常20998預測造假12639預測正常5183實際正常實際造假2923716實際正常實際造假32267571503288338113143072340評價指標評價指標準確率Accuracy
精確率Precision
召回率Recall
特異性Specificity準確率Accuracy
精確率Precision
召回率Recall
特異性Specificity訓練集測試集66.07%65.24%20.18%19.68%65.73%65.27%66.11%65.24%訓練集測試集63.30%62.49%19.55%19.01%70.04%69.01%62.43%61.64%模型表現(xiàn)模型表現(xiàn)預測正常預測造假預測正常預測造假實際正常實際造假65.24%34.73%(特異性)34.76%65.27%(第一類錯誤)(召回率)實際正常實際造假61.64%30.99%(特異性)38.36%69.01%(第一類錯誤)(召回率)(第二類錯誤)(第二類錯誤)資料:萬得,CSMAR,國信證券經濟研究所整理資料:萬得,CSMAR,DeepSeek,國信證券經濟研究所整理DeepSeek情感語調因子加入特征池前后Logistic模型特征變量重要性?
1)情感因子隱性協(xié)同:雖未進入前10,但通過調整財務指標權重分布(如償債能力指標重要性提升、ROA權重下降),間接強化模型對造假信號的組合識別能力。2)財務主導邏輯穩(wěn)固:前10全為財務指標(盈利能力/償債能力/每股指標),情感語調因子僅輔助優(yōu)化特征關聯(lián),解釋召回率提升源于財務與情感信號的線性組合增強。3)業(yè)務兼容性優(yōu)先:模型保持"財務基本面為主,情感為輔"的可解釋結構,符合風控場景對財務指標核心地位的強依賴。圖:Logistic模型中情感語調因子加入前的特征變量重要性(左圖)和特征所屬維度及說明(右圖)特征變量名稱總資產凈利潤率(ROA)A每股盈余公積1速動比率所屬維度
變量說明盈利能力
凈利潤/總資產余額每股指標
盈余公積期末值/實收資本本期期末值償債能力
(流動資產-存貨)/流動負債每股收益TTM2每股盈余公積2流動比率每股指標
(凈利潤)TTM/最新股本每股指標
(盈余公積)期末值/最新股本償債能力
流動資產/流動負債息稅前每股收益2息稅前每股收益TTM2保守速動比率總資產周轉率B每股指標
(凈利潤+所得稅費用+財務費用)本期值/最新股本每股指標
(凈利潤+所得稅費用+財務費用)TTM/最新股本償債能力
(貨幣資金+短期投資+交易性金融資產+衍生金融資產+應收票據+應收賬款凈額)/流動負債經營能力
營業(yè)收入/平均資產總額;平均資產總額=(資產合計期末余額+資產合計期初余額)/2資料:萬得,CSMAR,國信證券經濟研究所整理圖:Logistic模型中情感語調因子加入后的特征變量重要性(左圖)和特征所屬維度及說明(右圖)征變量名稱所屬維度
變量說明資產凈利潤率(ROA)A股盈余公積1動比率盈利能力
凈利潤/總資產余額每股指標
盈余公積期末值/實收資本本期期末值償債能力
(流動資產-存貨)/流動負債股盈余公積2動比率每股指標
(盈余公積)期末值/最新股本償債能力
流動資產/流動負債稅前每股收益TTM2股收益2每股指標
(凈利潤+所得稅費用+財務費用)TTM/最新股本每股指標
凈利潤本期值/最新股本守速動比率償債能力
(貨幣資金+短期投資+交易性金融資產+衍生金融資產+應收票據+應收賬款凈額)/流動負債每股指標
(凈利潤+所得稅費用+財務費用)本期值/最新股本每股指標
(歸屬于母公司所有者的凈利潤)TTM/最新股本稅前每股收益2屬于母公司每股收益TTM2資料:萬得,CSMAR,DeepSeek,國信證券經濟研究所整理建立識別財務造假的LightGBM模型?
LightGBM(LightGradientBoostingMachine)是一種高效的梯度提升框架,通過直方圖分割技術離散化連續(xù)特征,結合單邊梯度采樣(GOSS)和互斥特征捆綁(EFB)降低計算開銷,顯著提升訓練速度與內存效率。其采用Leaf-wise樹生長策略,聚焦損失下降顯著的分支,構建判別力更強的樹結構,同時平衡模型精度與訓練效率。該算法擅長處理高維、大規(guī)模數據,在數據挖掘、推薦系統(tǒng)等場景中表現(xiàn)卓越,尤其適用于對實時性和計算資源敏感的工業(yè)級任務。以下為LightGBM模型的數學描述:?
輸入:訓練數據集?
=
?
,
?
,
…
,
?
和目標值?
=
?
,
?
,
…
,
??12?12?
輸出:預測值???
初始化:初始化一個弱學習器,通常是一個簡單的決策樹(如回歸樹)。初始模型預測值為所有?樣本目標值的均值,即:?
?
=
arg
min
?
?
?
,
??圖:LightGBM模型框架????1?
迭代訓練:在每次迭代(?
=
?,
?,
?
,
?)中,執(zhí)行以下步驟:-計算目標函數的負梯度(對應損失函數的一階導數),作為偽殘差:???1??
??,
????
=???1???-基于偽殘差構建新的決策樹??
?-新決策樹葉節(jié)點的權重??:??∈??
????
=
???∈??
??
+
λ???????
?
?
,??其中,?
表示第?棵樹第?個葉節(jié)點對應的樣本集合;?
是損失函數關于預測值的二階導數?
=;λ是正則化參數。???????
????資料:CSDN,國信證券經濟研究所整理-更新模型預測值:??
?
=
???1
?
+
η??
?其中,η是學習率,用于控制每次迭代時模型更新的步長,避免模型更新過快導致過擬合,同時保證模型能夠逐漸收斂到最優(yōu)解。?
目標函數:LightGBM的目標函數由兩部分組成,即損失函數和正則化項:???
θ
=
?
?
?
,
??
+
?
Ω
??????1??1其中,Ω
??
是正則化項,用于懲罰模型的復雜度,正則化項通常包括樹的葉子節(jié)點數、葉子節(jié)點權重的復雜度等。DeepSeek情感語調因子加入特征池前后LightGBM模型表現(xiàn)對比?
從訓練集和測試集的指標來看,LightGBM模型整體存在一定程度的過擬合,泛化能力仍有提升空間。單從召回率觀測,訓練集與測試集的召回率差距從26.38%(70.86%
vs.44.48%)縮小至25.38%(77.52%
vs.52.14%),說明模型泛化性未因情感因子而惡化,反而測試集指標優(yōu)化更顯著。?
加入情感語調因子后,LightGBM模型的召回率顯著提升(測試集:44.48%→52.14%,+7.66%),第二類錯誤同步下降(55.52%→47.86%)。召回率提升幅度高于此前Logistic回歸模型(+3.74%)。情感語調因子在財務造假檢測場景中對原有特征池的優(yōu)化作用仍然得到體現(xiàn)。?
基于LightGBM特性可進行特征工程強化以提升模型泛化能力,如通過SHAP值分析情感因子對預測造假的貢獻方向,若負面情感與高造假概率強相關,可對極端負面樣本加權訓練,或對LightGBM誤判的正常樣本(第一類錯誤)進行聚類分析,識別潛在誤標或新型造假模式,反哺特征工程等。圖:情感語調因子加入特征池前LightGBM模型的混淆矩陣、評價指標、模型表現(xiàn)圖:情感語調因子加入特征池后LightGBM模型的混淆矩陣、評價指標、模型表現(xiàn)混淆矩陣混淆矩陣訓練集測試集預測造假訓練集測試集預測造假預測正常30420預測造假3217預測正常7235預測正常28894986預測造假4743預測正常6838實際正常實際造假1174488實際正常實際造假1571572127831086093400525評價指標評價指標準確率Accuracy
精確率Precision
召回率Recall
特異性Specificity準確率Accuracy
精確率Precision
召回率Recall
特異性Specificity訓練集測試集88.18%81.24%49.14%29.36%70.86%44.48%90.44%86.04%訓練集測試集84.93%77.95%41.75%26.69%77.52%52.14%85.90%81.32%模型表現(xiàn)模型表現(xiàn)預測正常預測造假預測正常預測造假實際正常實際造假86.04%55.52%(特異性)13.96%44.48%(第一類錯誤)(召回率)實際正常實際造假81.32%47.86%(特異性)18.68%52.14%(第一類錯誤)(召回率)(第二類錯誤)(第二類錯誤)資料:萬得,CSMAR,國信證券經濟研究所整理資料:萬得,CSMAR,DeepSeek,國信證券經濟研究所整理DeepSeek情感語調因子加入特征池前后LightGBM模型特征變量重要性?
1)情感因子顯性驅動:情感語調直接躋身第4,成為關鍵特征,驗證其對文本信號的獨立捕捉能力,直接推動召回率提升(+7.66%)。2)樹模型可解釋優(yōu)勢:前10仍以比率結構(5/10)和償債能力(3/10)為主,情感因子與財務指標并存,契合業(yè)務對“文本-數據交叉驗證”的可解釋需求。圖:LightGBM模型中情感語調因子加入前的特征變量重要性(左圖)和特征所屬維度及說明(右圖)特征變量名稱固定資產比率現(xiàn)金資產比率負債與權益市價比率每股盈余公積1流動資產比率保守速動比率營業(yè)成本率所屬維度
變量說明比率結構
固定資產凈額/資產合計比率結構
期末現(xiàn)金及現(xiàn)金等價物余額/資產總計償債能力
負債合計/市值A每股指標
盈余公積期末值/實收資本本期期末值比率結構
流動資產合計/資產總計償債能力
(貨幣資金+短期投資+交易性金融資產+衍生金融資產+應收票據+應收賬款凈額)/流動負債盈利能力
營業(yè)成本/營業(yè)收入經營負債比率有形資產帶息債務比每股有形資產2比率結構
(流動負債合計-短期借款-一年內到期非流動負債-交易性金融負債-衍生金融負債)/(負債合計)償債能力
(非流動負債合計+短期借款+一年內到期的非流動負債)/(資產總計-無形資產凈額-商譽凈額)每股指標
(資產總計—無形資產凈額-商譽凈額)期末值/最新股本資料:萬得,CSMAR,國信證券經濟研究所整理圖:LightGBM模型中情感語調因子加入后的特征變量重要性(左圖)和特征所屬維度及說明(右圖)特征變量名稱固定資產比率現(xiàn)金資產比率每股盈余公積1情感語調所屬維度
變量說明比率結構
固定資產凈額/資產合計比率結構
期末現(xiàn)金及現(xiàn)金等價物余額/資產總計每股指標
盈余公積期末值/實收資本本期期末值財報文本
DeepSeek根據財報文本進行情感語調評分輸出,文本內容主要為管理層討論與分析償債能力
負債合計/市值A負債與權益市價比率保守速動比率流動資產比率每股盈余公積2經營負債比率速動比率償債能力
(貨幣資金+短期投資+交易性金融資產+衍生金融資產+應收票據+應收賬款凈額)/流動負債比率結構
流動資產合計/資產總計每股指標
(盈余公積)期末值/最新股本比率結構
(流動負債合計-短期借款-一年內到期非流動負債-交易性金融負債-衍生金融負債)/(負債合計)償債能力
(流動資產-存貨)/流動負債資料:萬得,CSMAR,DeepSeek,國信證券經濟研究所整理建立識別造假模型的MLP模型?
MLP(多層感知器)是一種前饋神經網絡,其核心思想是通過多層非線性激活函數和權重的不斷迭代優(yōu)化,從而逼近輸入數據與輸出目標之間的復雜映射關系。因其強大的非線性建模能力而在機器學習中得到了廣泛應用,尤其在處理復雜數據模式時表現(xiàn)出色。以下為MLP模型的數學描述:?
輸入:訓練數據集?
=
?
,
?
,
?
,
?
和目標值
?
=
?
,
?
,
?
,
??12?12?
輸出:預測值
???
初始化:隨機初始化每一層的權重矩陣和偏置向量。?
前向傳播:圖:MLP模型框架-對每一層計算線性變換:?=
?
?
???1??+
?-通過非線性激活函數σ計算輸出:???=
σ
??
反向傳播:-計算損失函數對輸出的梯度???y?-對每一層的權重進行梯度更新??????←
?
?
?
η??
更新權重:通過梯度下降優(yōu)化算法更新模型參數,最小化損失函數?
?,
??
。資料:CSDN,國信證券經濟研究所整理DeepSeek情感語調因子加入特征池前后MLP模型表現(xiàn)對比?
加入情感語調因子后,MLP模型的召回率顯著提升(測試集:60.26%→69.19%,+8.93%),第二類錯誤同步下降(39.74%→30.81%),驗證情感因子在深度模型中的有效性。盡管準確率(67.44%→62.26%)與特異性(68.38%→61.35%)下降,但召回率提升幅度為三模型中最高(MLP
+8.93%
>LightGBM
+7.66%
>Logistic
+3.74%),凸顯神經網絡對情感因子的非線性表達優(yōu)勢。在財務造假檢測場景中,這種“犧牲部分穩(wěn)定性換取風險覆蓋能力”的權衡符合業(yè)務優(yōu)先級。?
訓練集與測試集的召回率差距從7.64%(71.25%
vs.
69.19%)縮小至2.06%,說明情感因子幫助MLP更好地捕捉到泛化性特征,而非訓練集噪聲。這與Logistic和LightGBM一致,印證情感因子的業(yè)務相關性。圖:情感語調因子加入特征池前MLP模型的混淆矩陣、評價指標、模型表現(xiàn)圖:情感語調因子加入特征池后MLP模型的混淆矩陣、評價指標、模型表現(xiàn)混淆矩陣混淆矩陣訓練集測試集預測造假訓練集測試集預測正常23175預測造假10462預測正常5750預測正常21010預測造假12627預測正常5159預測造假3250實際正常實際造假2659661實際正常實際造假1596279043612613125338759評價指標評價指標準確率Accuracy
精確率Precision
召回率Recall
特異性Specificity準確率Accuracy
精確率Precision
召回率Recall
特異性Specificity訓練集測試集68.29%67.44%21.05%19.91%63.61%60.26%68.90%68.38%訓練集測試集63.47%62.26%19.84%18.93%71.25%69.19%62.46%61.35%模型表現(xiàn)模型表現(xiàn)預測正常預測造假預測正常預測造假實際正常實際造假68.38%39.74%(特異性)31.62%60.26%(第一類錯誤)(召回率)實際正常實際造假61.35%30.81%(特異性)38.65%69.19%(第一類錯誤)(召回率)(第二類錯誤)(第二類錯誤)資料:萬得,CSMAR,國信證券經濟研究所整理資料:萬得,CSMAR,DeepSeek,國信證券經濟研究所整理DeepSeek情感語調因子加入特征池前后MLP模型特征變量重要性?
情感因子核心躍升:情感語調直接躋身第2(重要性0.439),成為僅次于固定資產比率的核心特征,驗證神經網絡對文本-財務非線性交互的深度挖掘能力,驅動召回率最大提升(+8.93%)。圖:MLP模型中情感語調因子加入前的特征變量重要性(左圖)和特征所屬維度及說明(右圖)特征變量名稱現(xiàn)金資產比率固定資產比率資產負債率所屬維度
變量說明比率結構
期末現(xiàn)金及現(xiàn)金等價物余額/資產總計比率結構
固定資產凈額/資產合計償債能力
負債合計/資產總計保守速動比率每股盈余公積1每股未分配利潤2非流動資產比率負債與權益市價比率流動資產比率速動比率償債能力
(貨幣資金+短期投資+交易性金融資產+衍生金融資產+應收票據+應收賬款凈額)/流動負債每股指標
盈余公積期末值/實收資本本期期末值每股指標
(未分配利潤)期末值/最新股本比率結構
非流動資產/總資產或(1—流動資產比率)償債能力
負債合計/市值A比率結構
流動資產合計/資產總計償債能力
(流動資產-存貨)/流動負債資料:萬得,CSMAR,國信證券經濟研究所整理圖:MLP模型中情感語調因子加入后的特征變量重要性(左圖)和特征所屬維度及說明(右圖)特征變量名稱固定資產比率情感語調所屬維度
變量說明比率結構
固定資產凈額/資產合計財報文本
DeepSeek根據財報文本進行情感語調評分輸出,文本內容主要為管理層討論與分析比率結構
期末現(xiàn)金及現(xiàn)金等價物余額/資產總計償債能力
負債合計/資產總計現(xiàn)金資產比率資產負債率每股盈余公積1流動比率每股指標
盈余公積期末值/實收資本本期期末值償債能力
流動資產/流動負債負債與權益市價比率流動資產比率非流動資產比率速動比率償債能力
負債合計/市值A比率結構
計算公式為:流動資產合計/資產總計比率結構
非流動資產/總資產或(1—流動資產比率)償債能力
(流動資產-存貨)/流動負債資料:萬得,CSMAR,DeepSeek,國信證券經濟研究所整理特征變量在Logistic、MLP、LightGBM模型中的平均重要性排名?
情感語調因子的模型依賴性:情感語調因子依賴模型類型,其在非線性模型(MLP第2、LightGBM第4)中表現(xiàn)強勁,但在線性模型(Logistic第34)中重要性較小,說明需通過復雜交互挖掘。?
召回率提升的核心驅動力:MLP/LightGBM中情感語調分別貢獻了最高的召回率增幅(+8.93%/+7.66%),驗證其作為文本風險信號的獨立判別力,尤其在當下違規(guī)手段迭代升級,信息披露違規(guī)取代傳統(tǒng)利潤操縱成為財務造假隱蔽手段,情感語調的預警作用意義重大。?
與傳統(tǒng)財務指標的協(xié)同性:情感語調與固定資產比率(MLP第1)、現(xiàn)金資產比率(LightGBM第2)等高權重財務指標形成交叉驗證,如"高固定資產+負面情感"組合可能指向資產虛增類造假,提升綜合預警能力。?
業(yè)務落地優(yōu)先級:盡管情感語調因子平均重要性排名與資產負債率并列第九(受Logistic拖累),但在實際應用中應優(yōu)先考慮MLP/LightGBM模型,充分發(fā)揮情感語調在復雜場景中的補充作用,而非受限于線性模型的弱表現(xiàn)。?
未來優(yōu)化方向:需針對情感語調開發(fā)細粒度衍生特征(如情感波動性、行業(yè)情感基準校準),進一步釋放其在非線性模型中的潛力,構建"財務+文本"雙引擎風控體系。圖:特征變量在3個模型中的平均重要性排名特征變量名稱每股盈余公積1速動比率平均
Logistic
MLP
LightGBM說明3.37.7235101163盈余公積期末值/實收資本本期期末值10
(流動資產-存貨)/流動負債(貨幣資金+短期投資+交易性金融資產+衍生金融資產+應收票據+應收賬款凈額)/流動負債17
流動資產/流動負債保守速動比率流動比率8.3869.35現(xiàn)金資產比率固定資產比率每股盈余公積2資產負債率情感語調9.7242843218期末現(xiàn)金及現(xiàn)金等價物余額/資產總計固定資產凈額/資產合計10.010.313.313.31194(盈余公積)期末值/最新股本203416
負債合計/資產總計4
DeepSeek根據財報文本進行情感語調評分輸出,文本內容主要為管理層討論與分析2資料:萬得,CSMAR,DeepSeek,國信證券經濟研究所整理目錄財務造假上市公司樣本整理02
基于結構化數據構建財務造假識別模型特征池DeepSeek輔助構建基于財報文本的情感語調因子04
情感語調因子在財務造假識別模型中的表現(xiàn)AI挖掘財報文本信息的拓展路徑010305AI挖掘財報文本信息的拓展路徑:基于Zero-Shot的財報文本直接分析模式圖:基于Zero-Shot挖掘財報文本風險標簽的優(yōu)化路徑?
核心邏輯:對比原情感語調因子,僅輸出單一情感評分本質原方法靜態(tài)性:情感因子無法區(qū)分"合理負面"(如行業(yè)危機導致的虧損)與"惡意負面"(如管理層推諉解釋)。風險類型的動態(tài)適配是全局文本情緒濃縮,無法區(qū)分具體風險類型。基于Zero-Shot的財報文本分析利用大模型(如DeepSeek)的通用語義理解能力,無需特定訓練即可從財報文本中挖掘潛在造假信Zero-Shot動態(tài)性:通過Prompt注入行業(yè)知識庫實現(xiàn)動態(tài)校準。Prompt設計:已知[醫(yī)療器械行業(yè)]2023年平均研發(fā)費用率15%-20%,分析以下文本是否存在研發(fā)投入異常:“[公司披露研發(fā)費用率8%,稱因外包給關聯(lián)方...]號,通過Prompt工程引導模型生成結構化風險標簽。輸出模式:{"risk_type":
"研發(fā)費用轉移",
"deviation":
"-53%",
"related_party":
"是"}圖:基于Zero-Shot的財報文本直接分析模式方法設計基礎層:直接語義分析證據鏈的可追溯性增強原方法黑箱性:無法追溯情感評分對應的具體文本段落。Prompt:"分析以下財
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年醫(yī)學高級職稱-計劃生育(醫(yī)學高級)歷年參考題庫含答案解析(5套共100道單選題合輯)
- 2025年醫(yī)學高級職稱-消化內科學(醫(yī)學高級)歷年參考題庫含答案解析(5套共100道單選題合輯)
- 2025年醫(yī)學高級職稱-呼吸內科學(醫(yī)學高級)歷年參考題庫含答案解析(5套100道單選題合輯)
- 2025年公路交通運輸技能考試-汽車修理工考試歷年參考題庫含答案解析(5套100道單選題合輯)
- 2025年住院醫(yī)師規(guī)范培訓(各省)-江蘇住院醫(yī)師呼吸內科歷年參考題庫含答案解析(5套共100道單選題合輯)
- 2025年住院醫(yī)師規(guī)范培訓(各省)-廣西住院醫(yī)師急診科歷年參考題庫含答案解析(5套100道單選題合輯)
- 2025年住院醫(yī)師規(guī)范培訓(各省)-山東住院醫(yī)師危重病科ICU歷年參考題庫含答案解析(5套共100道單選題合輯)
- 人事共享中心管理辦法
- 鄉(xiāng)鎮(zhèn)老年服務管理辦法
- 住宿物業(yè)服務管理辦法
- 斜視弱視學試題及答案
- MT/T 1222-2024液壓支架再制造工程設計指南
- 2025-2030中國鍛條行業(yè)市場現(xiàn)狀分析及競爭格局與投資發(fā)展研究報告
- GB/T 30134-2025冷庫管理規(guī)范
- 《成人糖尿病患者的高血糖危象:共識報告》-學習與應用
- 遵義社工面試真題及答案
- 金屬材料的斷裂和斷裂韌性
- 腦卒中急救培訓課件
- 2025年上海中考復習必背英語考綱詞匯表默寫(漢英互譯)
- 《中國腦卒中防治報告(2023)》
- 集團公司企業(yè)各崗位廉潔風險點防控表格(41份)
評論
0/150
提交評論