




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
從0到1:工商銀行的文本挖掘實戰案例工商銀行在大家傳統的印象當中是一個體形非常龐大但是穩步前行的形象,但是近些年來在大數據的挑戰下工商銀行積極應對外界變化,做一些轉型。有效的傾聽客戶心聲是銀行全面提升服務水平和客戶體驗的重要途徑。銀行每日記錄的大量客戶咨詢投訴,與行外媒體的海量報道評論,無疑是獲得客戶反饋的最直接有效途徑。課題將引領聽眾共同探索文本挖掘技術在銀行客戶服務領域的應用:從銀行內部的客戶咨詢投訴的意見特征分析、業務價值發現、業務模型建立,到銀行外部報道評論的信息篩選過濾、信息特征提取、信息整合利用,全流程地分享從設計構想到落地實施的經驗心得。本文將會介紹:文本挖掘在客戶服務分析領域的實戰案例;從無到有將文本數據分析引入銀行經營決策視野的成功探索;激活銀行海量文本數據的商業價值。工商銀行文本挖掘技術應用探索工商銀行每天都在面臨著來自各方的海量的客戶心聲,最近我們的95588接到這樣一個來電,李先生做了一筆跨行匯款操作,對方還沒有收到,他來詢問什么時候可以到帳,這是一個典型的咨詢。客戶王先生是一個貴賓客戶,他來電反映說在機場和火車站沒有享受到工行提供的貴賓廳,他希望工行在以上場所做明顯提示。還有張小姐到一個支行網點做存款業務,發現里面柜員服務態度不耐煩,讓她很不滿意,她要求把這個情況記錄下來做一個反映,這是一個典型的投訴。除了官方服務渠道之外,現在客戶越來越希望通過互聯網社交網絡的方式表達他們的心聲,并探討熱點話題。最近我們監測到這樣一個熱點話題的討論,有人說“大家看清楚了,針孔攝像頭就是這樣裝進ATM機偷看你的密碼的。”這是一個風險事件,工商銀行需要做到及時了解和掌握。同時在互聯網的新聞網站上最近也有一些報道,有的市民在便利店蹭WiFi,上了兩個小時網,他的銀行卡就被盜刷了,這個又是怎么辦到的,工商銀行需要對這些事件做到了解掌控,并且制定對應的措施。以上這些信息都是以文本方式存在的,我們可以通過文本挖掘的方法了解用戶在說什么,挖掘出對我們有價值的信息,這對工商銀行客戶服務的提升會有很大的幫助。傳統客戶服務分析流程首先我們了解一下傳統銀行客戶服務的分析流程。當我們的客戶撥打95588熱線電話之后,客服座席會把他說的話和要求記錄下來,存到客戶之聲系統之中,系統會對結構化的部分進行分析,比如投訴的數量、客戶對我們滿意度的打分或問題處理時效。對于其中非結構化數據的部分,就是客戶說了什么當時沒辦法做自動分析,這只能由分析人員逐個來看,但畢竟數量比較多,人工閱讀做不到非常全面,只能做抽查,大概看看客戶在說什么。我們監測分析人員同時還會去登錄一些新聞網站了解一下近期有沒有跟工行相關的事情發生,然后他會把這個情況記錄下來,人工編寫這么一個服務的報告。當時對我們的社交媒體是沒有辦法做到關注的。結合文本挖掘的客戶服務分析流程在結合了文本挖掘技術之后有了一些流程變化,不僅對結構化數據做分析,同時也能夠從客戶反饋的文本當中提取出客戶的熱點意見,再把熱點去和結構化數據做關聯分析,就能得到更加豐富的分析場景,這在后面會有一個詳細的介紹。同時,我們又新建了一套互聯網的監測分析系統,能夠對互聯網上的金融網站和社交媒體網站做到自動的監控和分析,當然有些重要的事情發生的時候可以自動的形成監測報告。從剛才服務流程的演變可以看到有了一些挖掘的功能,首先從技術來說豐富了分析的手段,原來只能對結構化進行分析,現在能夠對文本數據客戶所說的內容進行分析,然后擴大了分析的范圍,原來只能關注到工商銀行官方服務渠道所記錄下來的信息,現在能夠關注到在互聯網上所傳播的信息。第三點是提升了分析的效率,原來需要員工逐條閱讀工單,現在機器自動閱讀。客戶意見挖掘業務價值這些技術提升點之后就能在文本反饋當中發現客戶的熱點意見集中在哪些方面,如果我們能夠對這些客戶所反映的共性問題主動發起一些措施,優化我們的業務流程,可以提升我們的客戶滿意度和客戶忠誠度,而另一方面這些來電的投訴量會進一步的減少,也就從另一方面降低我們的服務成本,減少了二次被動的服務投入。案例分析今天想分享兩個具體的案例,一個是對95588客戶服務的一些工單如何做到客戶意見挖掘,這個是從無到有的設計和探索的全過程;第二個案例當中會介紹一下如何聆聽在互聯網上傳播的客戶的心聲。客戶意見發掘一一業務目標通過95588服務熱線記錄大量的客戶反饋的文本,拿到一堆文本之后怎么切入客戶的意見挖掘呢?最重要的是先對客戶做分類,結合業務的處理流程設計這么一套適用于銀行客戶意見的分類體系,當有投訴過來的時候就知道他所說的是關于自助服務的還是銀行卡、還是關于網點服務的。這樣我們就能分析各個類別里不同的發展趨勢并且進行有效處理。但有了意見分類還不夠,我們知道哪一類的意見是最多的,我們嘗試性做熱詞分析,文本由大量的詞匯構成的,我們想看一下在這么多的客戶反饋文本當中大家提到哪些詞匯,從中提取客戶說的最多的、最頻繁使用的詞匯,用可視化的方式生成一個詞語。從這個圖上我們就能看到有一些效果,包括像工作人員、機具、查詢、詞匯等等凸顯出來。在這個圖上所反應的信息不夠精準,我們只知道有一些關于工作人員的評價或描述,但是不知道工作人員到底出現什么問題,我們的自助機具到底是故障比較多還是客戶不會用。同時這個圖當中還存在多詞疑義的問題,工作人員和柜員兩個詞說的是類似的問題,這對我們造成干擾。如何精準概括客戶意見?我們提出統一的、概括的用戶觀點的表達方式,就是對象、屬性、評價三元組的形式。下面這個例子有四句話:柜員說話口氣非常差。今天在柜臺辦業務,里面的人態度很差;柜員脾氣不好,柜員語氣很不耐煩。用我們的屬性評價方式概括就是“柜員態度不好”。有了這樣的方式之后對剛才的詞云做分析,發現剛才的詞云已經演變成了意見云,這些意見都是指向非常明確的比較精準的,比如說網銀跨行匯款不成功,短信余額變動不能接收,網點效率低,網點排隊時間過長,相信大家對這些問題也并不陌生,在有了這個圖之后我們的分析師就能夠比較直觀的了解最需要去改進的問題,客戶的意見都聚集在哪些方面。客戶意見挖掘一一模型建立有了剛才的這些設計方式之后,我們可以怎么樣選擇最貼合我們業務場景的分析方法,剛才我們首先提到了需要對文本做自動分類,我們最容易想到的就是樸素貝葉斯,它可以計算一篇文章屬于哪個類別的概率最大,可以完成分類。但是進行實際分析和嘗試的過程當中發現這樣一個典型的算法,在我們的實際業務場景上其實并不是特別的適用,首先我們缺少訓練數據,因為我們這一套意見類別的分類體系是新建的,歷史上并沒有積累好數據,如果我們重新去標注呢,這些意見類別又特別多,有的類別層次又比較深,所以很難在比較短的時間內完成高質量的標注。其次,樸素貝葉斯假設的就是文本當中的詞匯與詞匯之間是相互獨立的,跟我們的業務也不相符合,比如之前提到的“態度不好”這兩個詞基本是會關聯出現的,不會單獨分開出現,如果單獨統計也就失去了意義。所以我們發現當我們的業務描述語言和業務描述邏輯非常復雜的時候,統計的準確度都不會太高。剛才又提到需要自動提取對象屬性評價用戶觀點,一開始用戶的觀點是在討論一個個話題,是不是可以用基于LDA這樣的模型完成話題的提取呢?我們也做一些嘗試,最后發現像LDA提取出來的話題有時候過粗,不適合我們的具體業務,比如我們想要的是“柜員態度不好”,最后只能精確到柜員描述的層面,作為一個非精度的模型比較難以調優,有某幾個話題質量不是太高甚至存在重復話題的時候,沒有辦法做針對性的調優,最重要的一點還是它的可警示性比較差,分析出一些主題之后沒有辦法把話題歸納成我們所需要的對象屬性的評價形式。既然我們嘗試過一些典型的傳統方法不太適用的時候,接下來怎么辦?我們選擇了本體模型,從具體的實際業務出發建立這樣一套適用于業務的一套本體體系,首先介紹一下本體是什么概念?本體最早是一個哲學概念,在哲學層面指的是現實世界中事物的具體存在,比如我手上拿的話筒具體的事物存在就是本體,比如我們還可以稱它話筒或麥克風,甚至可以拿一張話筒的圖片來描述它。把本體概念引申到信息科學的語義層面就變成知識科學體系。首先我們用本體表示多層次的業務分類或具體的業務目標,本體業務可以由要素和概念兩個不同的層面構成,要素是業務層次,一般描述業務對象或業務屬性,這跟我們的專業領域相關,需要專家來維護,在銀行領域就需要維護像“信用卡”和“借記卡”這樣的業務要素。概念是語言層次,描述基礎的語言概念,比如說我們對時間怎么描述、對地點怎么描述,包括人的情緒或者人對事物的評價等等,這些語言概念由于基礎的資源,它跟專業的業務領域是不相關的,這就可以由我們的技術人員協助業務專家做一些收集和積累,比如說常見的一些語言概念,比如對于“不及時”怎么說,對于“異常”有哪些說法。在我們的設計當中把業務層次和語言層次進行了相互分離,這樣的事情就有兩方面的好處,我們的業務專家就可以專注在業務要素的維護上,而不需要再去關注語言上的表達細節。另外,這些語言概念有些是不相關的,就有比較高的附庸性。本體模型的示例和難點具體模型示例,我們建立的銀行客戶建立本體體系,跟剛才提到的客戶分類體系是完全一致的,這里面有一個本體叫“工作人員”,它又可以和對象要素和屬性要素進行關聯,對象要素包括柜員、保安、保潔、大堂經理,屬性要素包括態度、業務熟練度,本體和要素又同時可以從第三個層次“概念”里相互關聯,概念像好、快、熱情、熟練、故障。通過對象要素、屬性要素和評價概念這三者進行相互連接和組合就能夠構成我們對工作人員這個本體挖掘表達式的設置,從中得到我們想要的三因素,比如像柜員態度好、大堂經理業務熟練,同時我們只要知道這個觀點是在描述柜員或者保安,能夠把這樣一個情況給分類到工作人員這個類別下。剛才介紹到這里的時候大家會感受到一個本體模型明顯的問題和難點,這些本體還是依賴于人工梳理,人工很難,我們采用的是基于深度學習的本體半自動構建方式,其中一個方式就是對文本當中鄰近詞匯做剪輯,我們具體使用的是Google開源的Word2Vec詞向量模型。這些詞向量具有一個特點,它的緯度是固定的,避免了傳統空間向量模型當中維數災難的問題。由于我們已經用詞匯向量表示一個詞匯的含義,向量之間又是可以加起來的,所以我們在大量文本的背后可以分析出潛在的語言學的規律,最典型的例子是國王-皇后等于男人-女人。在實際運用中是不是有比較好的表現呢?我們做了一些嘗試,最后有一些定律定義詞匯之間語義的相關性。從這個例子當中看到效果還是不錯,對ATM這個語義最相近的詞匯有ATM機、取款機、自動取款機、柜員機、自助機。還有“好”這個詞語義最相近的比如溫柔、利索、忙前忙后、謙虛、和藹可親。可以看到Word2Vec是有一個比較好的表現。進一步看一下Word2Vec能不能幫助我們的業務要素找到最靠譜的平臺概念。做一個嘗試,有三個比較常用的業務對象,包括短信、柜員和保險,設置了一組評價概念的詞匯,通過Word2Vec找到了這些概念和評價詞匯之間的相似度,標紅的部分是明顯高于其它的連接方式的。能夠看到短信連接到漏發、錯發、詐騙,柜員可以連接到怠慢、欺騙、誤導,保險可以連接到欺騙、詐騙和誤導,這確實能夠有效幫助我們輔助人工做梳理,縮短整個模型構建的周期。客戶意見挖掘一一實施效果既然有了客戶意見表示方式,接下來應用于什么業務場景當中。首先把客戶個體意見和客戶星級數據做關聯,這樣就能看到不同星級之間的客戶關心的不同問題在哪里,其中我們看到像七星級客戶和三星級客戶關注的問題有非常大的差異,其中還有五星級客戶甚至成為一個孤島,和其它類型的客戶關注的點都是完全不同的,從中我們可以制定針對于高星級客戶的差異化的服務策略的提升。第二個問題是關聯的問題,比如U盾的問題,通過關聯分析就知道哪個品牌的U盾關聯到哪個問題是最多的,形成關聯網絡,從這個圖上能夠針對性的制定產品改進的措施。第三個例子是連續投訴分析,同一個客戶在很短的時間內針對同一個問題反復投訴的情況,有這個分析結果以后有兩個方面可以利用,首先我們可以知道哪些問題是客戶最不能容忍的,一旦沒有給他很好的得到解決的話他會反復投訴,增加我們的投訴量。另一方面也能夠知道工商銀行在哪些問題上的解決是比較欠缺的,由于工商銀行沒有到位導致客戶進一步的投訴。還可以看到客戶意見地域上的分布,隨著時間的變化這些意見會得到什么樣的趨勢性的發展。把這些緯度進行相互結合可以得到更加靈活的分析結果,比如說在上半年上海高星級客戶,增長最快的客戶意見有哪些。如何聆聽互聯網客戶的心聲接下來講講如何聆聽互聯網客戶的心聲。工商銀行非常關注于行內官方途徑的反饋,也特別注意互聯網上客戶傳播的心聲,我們建立了互聯網客戶心聲聆聽系統,能夠覆蓋到互聯網上各類新聞網站和社交網絡渠道,對我們所關注的信息做自動化收集,在我們得到信息之后會做多緯度的分類,看這些信息都是關于什么銀行的,提到了哪一類業務和產品,打上什么標簽,完成打標簽之后跟行內的信息也做一個更好的關聯。由于我們主要關注互聯網上所關注的投訴,在大量信息當中識別負面評價,當一個比較重大的事件發生的時候會有一個傳播特征的分析,去看這個事件首發在什么網站,什么時候發生的,經過什么樣的傳播途徑和轉載關系之后達到爆發的頂峰,它又是怎么樣慢慢消退的,最后在一些重要事情發生的時候可以做及時預警。由于我們所獲取到的信息都是來源于互聯網,有一個最大的特點,就是價值信息利用率特別低,困擾我們最大的問題是怎么在海量數據中篩選出最有價值的信息。我們用一些比較精準的關鍵詞獲取信息,比如說工行、工商銀行、ICBC、95588等等,但獲取回來的信息仍然存在大量垃圾信息,包括一些廣告、尋人尋物和招聘信息等等,垃圾信息占了80%以上的數據量,真正有用的信息,我們所需要的投訴、抱怨或者建議最多就是20%的量,怎么樣通過自動化的方式把垃圾信息過濾掉。我們也嘗試一些簡單粗暴的方法,比如設置一些垃圾信息詞匯的過濾,像是積分有優惠,刷卡有驚喜這樣的詞匯,大概能過濾掉三分之一的垃圾信息,但畢竟覆蓋是不全面的,這時候我們又使用這個方法,在這個場景下和剛才所說的場景就有所區別,現在變成了二次分類,我們在二次分類上做一些數據的交付是比較能夠容易實現的。同時用樸素貝葉斯過濾一些垃圾郵件,最后發現樸素貝葉斯在這個方面是比較好的,廣告詞匯和我們有用的詞匯之間區分度也比較明顯。完成了過濾垃圾信息之后,我們所看到的信息看上去比較干凈,但還是不能直接提供給分析師直接使用,因為我們采集到的數據來自于互聯網上的各個渠道,同一個事件在不同渠道有不同的報道,甚至同一個事件在社交網站上還有很多的評論,我們怎么樣把同一個事件、同一個報道聚合到一起呢?首先我們想到了K-means的方法,但有一些局限性,比如K值是固定的,但是我不可能知道一堆新聞當中存在多少話題和多少事件,同時這些事件也是不斷地在成長,新的話題不斷地在發生,這個時候我們引入了新的思想叫“中國餐館過程”進行優化。這個可能是外國人提出來的,在外國人眼里中國人吃飯的時候喜歡跟中國人扎堆,當我們進入中國餐館的時候第一人坐在一張桌子上,第二個人進來的時候會看跟第一個人的熟識程度怎么樣,如果認識他就坐到第一張桌子上吃飯,如果不認識就新開一張桌子自己一個人坐在那里吃飯,隨著大量顧客逐步進入到餐館之后,通過這樣的原則坐定之后,自然而然的完成了聚類的過程,每張桌子上坐的是熟識的人,這跟我們是類似的。新聞媒體跟社交媒體會做區分處理,主要是因為這兩個數據之間的措詞有比較大的區分,比如說在新聞媒體上的措詞相對比較正規、嚴謹,在社交媒體上的措詞比較隨意一些,所以我們會對一個批次的數據首先做一個新聞媒體上的聚類,然后完成社交媒體的聚類。第三步看社交媒體聚合出來的話題有沒有針對性的評論某個新聞事件,如果有第三類就把它劃過去,如果沒有它自己單獨成為一個話題。通過這樣的方式,我們的信息可以提供給分析師做查詢,他們查看各自領域當中發生的重要事件。但是這個時候業務方面給我們提出更加高的要求,能不能在重要事件發生的時候做到自動的提示預警,這就帶來一個問題,我們怎么判斷一個信息是重要還是一般呢?首先根據人的經驗來看一下,影響一件事情成為重要一般有這樣一些分析因素。首先是涉及的機構,如果一個事件跟工行相關比跟同業其它銀行相關更重要一些;二是帶有情感色彩;三是轉載數量;四是轉載媒體數;五是來源渠道,來源于新聞網站的比來源于社交媒體的重要,因為新聞網站上的渠道比較正規正式,社交媒體上可能有大家隨口說的小道消息;六是有沒有關聯到我們的業務類型。我們選擇了邏輯回歸的模型,通過歷史上發生的重要事件的學習就可以自動來識別這些即將發生的重要的信息。當我們識別出重要信息之后,除了完成提示預警之外,還可以提供分析師做查詢的時候按重要度排序的方式,重要的信息可以提到前面來,每天我們可以把當天的所有信息自動生成監測日報提供給分析師做參考。一些體會文本領域挖掘過程中我們有一些具體的體會,比如首先選擇貼合業務算法的模型,通過剛才的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 浙江省金麗衢十二校2025屆化學高二下期末檢測試題含解析
- 江西省宜春市豐城九中2025年化學高二下期末學業質量監測模擬試題含解析
- 暗能量模型檢驗-洞察及研究
- 溶石藥物靶點篩選-洞察及研究
- 四川雙流棠湖中學2025屆高二下化學期末學業質量監測試題含解析
- 安徽省蕪湖市名校2025屆高一下化學期末教學質量檢測模擬試題含解析
- 陶瓷裝飾材料性能提升-洞察闡釋
- 生境破碎化效應評估-洞察及研究
- 社會支持網絡構建策略-洞察闡釋
- 材料科學與綠色華新工藝研究-洞察闡釋
- 大宗商品貿易實務操作手冊
- 數字化賦能高校思政課建設的策略研究
- 整體施工勞務服務方案
- 2025年度地下綜合管廊代建合同模板
- 中藥材種植安全事故應急預案
- 水泥攪拌樁施工項目進度管理措施
- 國家開放大學法學本科《商法》期末紙質考試第四大題案例分析庫2025珍藏版
- 2024年山東省消防工程查驗技能競賽理論考試題庫-下(多選、判斷題)
- 人工智能賦能教師數字素養提升
- 換電站合同范例
- 【超星學習通】馬克思主義基本原理(南開大學)爾雅章節測試網課答案
評論
0/150
提交評論