




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、精選優(yōu)質(zhì)文檔-傾情為你奉上數(shù)據(jù)掘金-大數(shù)據(jù)在金融行業(yè)中的應用在當前大數(shù)據(jù)技術(shù)潮流中,各行各業(yè)都在不斷的探索如何應用大數(shù)據(jù)技術(shù)以解決企業(yè)面臨的問題。目前國內(nèi)已有不少金融機構(gòu)開始嘗試通過大數(shù)據(jù)來驅(qū)動相關(guān)金融業(yè)務運營。如下是百分點就金融行業(yè)如何應用大數(shù)據(jù)技術(shù)提出我們的見解。按照我們的經(jīng)驗,企業(yè)面向消費者的應用大致可以分為運營、服務和營銷三大類,在金融行業(yè)中這三類應用的典型例子有: 運營類:歷史記錄管理、多渠道數(shù)據(jù)整合分析、產(chǎn)品定位分析、客戶洞察分析、客戶全生命周期分析等。 服務類:個性化坐席分配、個性化產(chǎn)品推薦、個性化權(quán)益匹配、個性化產(chǎn)品定價、客戶體驗優(yōu)化、客戶挽留等。 營銷類:互聯(lián)網(wǎng)獲客、產(chǎn)品推廣
2、、交叉銷售、社會化營銷、渠道效果分析等。大數(shù)據(jù)技術(shù)在這些應用中都可以發(fā)揮價值,其核心是通過一系列的技術(shù)手段,采集、整合和挖掘用戶全方位的數(shù)據(jù),為每個用戶建立數(shù)據(jù)檔案,也就是常說的“用戶畫像”。大數(shù)據(jù)可應用于金融行業(yè)實時數(shù)據(jù)分析,場景包括: 在風險管理領(lǐng)域,可以應用于實時反欺詐、反洗錢,實時風險識別、在線授信等場景; 在渠道方面,可以應用于全渠道實時監(jiān)測、資源動態(tài)優(yōu)化配置等場景; 在用戶管理和服務領(lǐng)域,可以應用于在線和柜面服務優(yōu)化、客戶流失預警及挽留、個性化推薦、個性化定價等場景; 在營銷領(lǐng)域,可以應用于(基于互聯(lián)網(wǎng)用戶行為的)事件式營銷、差異化廣告投放與推廣等場景。大數(shù)據(jù)在金融業(yè)統(tǒng)計分析類應用
3、中的優(yōu)勢大數(shù)據(jù)在數(shù)據(jù)量、多種數(shù)據(jù)源、多種數(shù)據(jù)結(jié)構(gòu)、復雜計算任務方面都優(yōu)于傳統(tǒng)的數(shù)據(jù)倉庫技術(shù),這里僅舉兩個例子:a) 大量數(shù)據(jù)的運算,例如:兩張Oracle里面表數(shù)據(jù)分別是1000多萬和800多萬做8層join,放在大數(shù)據(jù)平臺運算比在Oracle里面運算至少快2倍多;b) 對于跨數(shù)據(jù)庫類型的表之間的join,例如一張Oracle的表和一張sqlserver的表,在傳統(tǒng)的數(shù)據(jù)倉庫中是沒有辦法join的。可以將數(shù)據(jù)通過sqoop等工具放到HDFS上面。利用hive,pig, impala,spark等進行更快的處理。大數(shù)據(jù)協(xié)助銀行實現(xiàn)其對客戶的多維度分析有人指出,目前銀行自身的數(shù)據(jù)難以完成客戶全維度
4、分析,那么應用大數(shù)據(jù)又能如何?首先,有幾個問題我們需要仔細思考:什么叫客戶“全維度”?有沒有可能做到“全維度”?按照百分點的理解,不存在對一個人的“全維度”的刻畫,因為我們現(xiàn)實中都做不到。您可以想象,一個人的DNA可以代表他的“全維度”嗎?或者他的所有言論可以代表他的“全維度”嗎?都不可以。我們期望的“全維度”實際上是想說最大可能的利用和挖掘手上的數(shù)據(jù)資源!基于上面的理解,我們認為銀行在大數(shù)據(jù)平臺建設(shè)過程中最需要考慮的是如何最大程度的整合所有數(shù)據(jù)源,特別是行內(nèi)自有數(shù)據(jù)源,并且針對業(yè)務需求做出有價值的分析應用。其次,假設(shè)銀行要引入第三方數(shù)據(jù),這些數(shù)據(jù)怎么利用?這些數(shù)據(jù)如何和行內(nèi)數(shù)據(jù)整合發(fā)揮價值?
5、這些數(shù)據(jù)又如何轉(zhuǎn)化為客戶“全維度”分析?顯然的,第三方數(shù)據(jù)也不是直接就能“全維度”的,還是要經(jīng)過一系列的數(shù)據(jù)分析和挖掘。對銀行客戶了解、并且契合銀行業(yè)務的數(shù)據(jù)一定來自于銀行業(yè)內(nèi)!任何外部的數(shù)據(jù)都需要經(jīng)過大量的轉(zhuǎn)換和業(yè)務解讀才能直接在銀行中使用。如果需要第三方數(shù)據(jù)支撐,銀行必須找到對金融業(yè)務有相當理解,并且已經(jīng)按照銀行業(yè)務訴求分析好的數(shù)據(jù)才是有價值的。最后,按照我們的理解和實踐經(jīng)驗,銀行只需要把第三方數(shù)據(jù)看做一個數(shù)據(jù)源即可,“全維度”的關(guān)鍵還是如何整合所有數(shù)據(jù)源并進行深度挖掘。在百分點的實際案例中,我們有一套自己的方法論,包括數(shù)據(jù)的集成、清洗、脫敏、多渠道整合、用戶畫像標簽建模、用戶畫像整合、用
6、戶畫像服務等幾個步驟。第三方數(shù)據(jù)是在集成階段就解決的問題,后面各階段關(guān)注點都在如何整合、挖掘和應用這些數(shù)據(jù)。相比傳統(tǒng)技術(shù),大數(shù)據(jù)技術(shù)的優(yōu)勢如下:a) 大數(shù)據(jù)技術(shù)更關(guān)注過程數(shù)據(jù)、行為數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù),可以真正做到“全方位”;b) 大數(shù)據(jù)技術(shù)在實時性、數(shù)據(jù)量和并發(fā)量上有明顯優(yōu)勢,因為這些技術(shù)一開始就是為互聯(lián)網(wǎng)、海量數(shù)據(jù)和高并發(fā)設(shè)計的;c) 大數(shù)據(jù)技術(shù)在組件化、水平擴展方面有明顯優(yōu)勢,對業(yè)務升級和擴展支持更加平滑。如何選擇大數(shù)據(jù)技術(shù)產(chǎn)品選擇大數(shù)據(jù)技術(shù)產(chǎn)品最優(yōu)先考慮的原則是什么?大家選擇某一款大數(shù)據(jù)技術(shù)產(chǎn)品時,不能只關(guān)注某款產(chǎn)品有什么“高端”的功能,而應該關(guān)心是這款產(chǎn)品是否能給我們帶來價值,能解決我
7、們的業(yè)務痛點。所以大數(shù)據(jù)產(chǎn)品的關(guān)鍵不在于建一個大數(shù)據(jù)的平臺,然后把數(shù)據(jù)進行采集和存儲,而在于這些大數(shù)據(jù)產(chǎn)品能在哪些方面支撐我們的應用場景、能從數(shù)據(jù)中分析出哪些有價值的觀點、能基于數(shù)據(jù)產(chǎn)生哪些數(shù)據(jù)應用、如何為企業(yè)提供增值變現(xiàn)的能力。這一點,我們需要向互聯(lián)網(wǎng)公司學習。大數(shù)據(jù)能夠蓬勃發(fā)展正是因為互聯(lián)網(wǎng)行業(yè)真正讓大數(shù)據(jù)產(chǎn)生豐富的價值,如Google的精準廣告,亞馬遜的“千人千面”推薦等。金融是極度依賴信息化技術(shù)的行業(yè),在這個行業(yè)中,業(yè)務場景可以分為下面幾大類:1) 支撐類。例如海量數(shù)據(jù)的存儲和查詢等。2) 操作類。例如受眾人群篩選、營銷活動策劃等。3) 戰(zhàn)術(shù)類。人群分析洞察、產(chǎn)品輿情分析等。4) 戰(zhàn)略
8、類。運營分析報告、新業(yè)務拓展等。不存在一款產(chǎn)品可以支撐以上所有場景,我們在產(chǎn)品選型時應該盡量考慮那些可以支撐更多場景的產(chǎn)品,至少應該了解:1) 該產(chǎn)品適合的直接場景是什么?2) 該產(chǎn)品上已經(jīng)提供的應用有哪些,支撐了哪些場景?3) 該產(chǎn)品上可以衍生出哪些應用,能夠支撐哪些場景?正是基于上述考慮,百分點才推出了大數(shù)據(jù)技術(shù)、大數(shù)據(jù)管理和大數(shù)據(jù)應用三層產(chǎn)品,每一層解決特定的業(yè)務問題,但這些產(chǎn)品可以像搭積木那樣輕松整合在一起。大數(shù)據(jù)平臺建設(shè)1.1 大數(shù)據(jù)平臺硬件選型大數(shù)據(jù)的特點是數(shù)據(jù)量大但往往價值稀疏,從大數(shù)據(jù)里提取價值就像是從大海里撈針,要想完成大海撈針的工作就必須提供性價比可接受的軟硬件解決方案,開
9、源Hadoop解決方案就是典型的代表,通過基于廉價x86架構(gòu)服務器之上提供海量數(shù)據(jù)存儲和分析解決方案贏得互聯(lián)網(wǎng)界的青睞,所以,這種通過軟件層面來保證數(shù)據(jù)安全和穩(wěn)定,硬件基于標準x86標準服務器的解決方案是未來的主要方式。另外對于x86服務器的硬件選型也是需要考慮的,從實踐經(jīng)驗來看,我們往往會綜合數(shù)據(jù)量、數(shù)據(jù)應用和成本提供一個平衡性的硬件配置,然后基于平衡型的硬件配置依據(jù)任務作業(yè)情況,調(diào)整硬件配置,如IO密集型可能會使用SSD&內(nèi)存,CPU密集型任務則會選擇高端CPU等。1.2 大數(shù)據(jù)平臺建設(shè)最佳實踐大數(shù)據(jù)平臺建設(shè)中,Hadoop體系所包含的生態(tài)系統(tǒng),如:Hbase,Hive,snoop,pig
10、,spark等子系統(tǒng),那么如何根據(jù)各自的特性,通過組合方式來適應實際需求并應用到具體場景中呢?我們的最佳實踐是利用互聯(lián)網(wǎng)+大數(shù)據(jù)的技術(shù)架構(gòu),構(gòu)建Lamda架構(gòu),如圖所示:1) 數(shù)據(jù)采集a) 傳統(tǒng)業(yè)務系統(tǒng)數(shù)據(jù)庫和數(shù)據(jù)集市、數(shù)據(jù)倉庫的數(shù)據(jù),均可以通過Sqoop等數(shù)據(jù)橋接的方式接入大數(shù)據(jù)平臺,同時可以將數(shù)據(jù)庫日志、系統(tǒng)日志等非結(jié)構(gòu)化文本數(shù)據(jù)通過Flume等組件接入大數(shù)據(jù)平臺。b) 銀行線上渠道(網(wǎng)站、APP應用、微信公眾號等)中的用戶行為可以通過數(shù)據(jù)探頭技術(shù),Web端及H5通過JS、移動端通過SDK部碼,采集用戶行為數(shù)據(jù);銀行線下渠道(柜面、ATM等)的用戶行為數(shù)據(jù),需從線下接入的系統(tǒng)數(shù)據(jù)中解構(gòu)分析
11、。c) 互聯(lián)網(wǎng)公開數(shù)據(jù),如論壇、微博、媒體資訊等,通過數(shù)據(jù)爬取技術(shù)進行數(shù)據(jù)采集。d) 也可以利用各種API接口接入其他合作方、第三方等的在線或離線數(shù)據(jù)。2) 數(shù)據(jù)分發(fā)通過FTP或Kafka消息隊列將數(shù)據(jù)實時分發(fā),分發(fā)后分開實時數(shù)據(jù)處理和離線數(shù)據(jù)存儲和處理兩條線,形成“人”字型的Lamda架構(gòu)。3) 離線數(shù)據(jù)存儲及處理基于Hadoop平臺和MpReduce技術(shù)的離線數(shù)據(jù)處理,常用的是HBase列式數(shù)據(jù)庫。4) 實時數(shù)據(jù)處理利用Storm或Spark技術(shù)的實時數(shù)據(jù)處理,例如Storm是事實流式處理,Spark(Spark Streaming)是基于內(nèi)存的實時批處理。5) 數(shù)據(jù)存儲不同的數(shù)據(jù)類型、不
12、同的業(yè)務場景,需要的不同的數(shù)據(jù)存儲服務,在我們的產(chǎn)品中應用了Redis、MongoDB、MySQL、ElasticSearch等多種存儲服務。百分點基于此架構(gòu)為銀行提供服務的典型應用場景包括:1) 用戶行為采集分析:利用數(shù)據(jù)探頭(JS、SDK,Nginx、ICE)、數(shù)據(jù)分發(fā)(Kafka)、離線數(shù)據(jù)存儲及處理(HBase)、運營分析結(jié)果展現(xiàn)(MySQL)。2) 跨部門數(shù)據(jù)整合:利用數(shù)據(jù)橋接(Sqoop)、日志接入(Flume)、數(shù)據(jù)分發(fā)(FTP)、離線數(shù)據(jù)存儲存儲及處理(HBase、ES)。3) 離線用戶畫像和用戶洞察(支持營銷):利用離線數(shù)據(jù)存儲存儲及處理(HBase、ES)。4) 實時用戶畫
13、像及推薦:利用實時數(shù)據(jù)處理(Storm、Spark)、數(shù)據(jù)存儲(Redis、MongoDB)。5) 實時反欺詐:利用數(shù)據(jù)接口(API)、數(shù)據(jù)分發(fā)(MQ)、實時數(shù)據(jù)處理(Storm)。1.3 大數(shù)據(jù)平臺和現(xiàn)有數(shù)據(jù)倉庫的有效整合目前各行都有自己的數(shù)據(jù)倉庫或數(shù)據(jù)集市平臺,而大數(shù)據(jù)平臺的引入又往往獨立于數(shù)據(jù)倉庫,對于某些場景,將結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)進行整體結(jié)合往往能夠起到更好的效果,如何能夠?qū)⒋髷?shù)據(jù)平臺和現(xiàn)有數(shù)據(jù)倉庫進行有效整合?1) 非結(jié)構(gòu)化數(shù)據(jù)處理與大數(shù)據(jù)應用的關(guān)系首先分享一下我們對“結(jié)構(gòu)化”和“非結(jié)構(gòu)化”的理解:狹義的理解:結(jié)構(gòu)化就是指關(guān)系型數(shù)據(jù),其余都是非結(jié)構(gòu)化數(shù)據(jù)。廣義的理解:結(jié)構(gòu)化是相
14、對于某一個程序來講的,例如視頻對于播放器來說顯然是結(jié)構(gòu)化的,但是對于文本編輯器來說就是非結(jié)構(gòu)化的。事實上,即使是人腦,處理的也都是“廣義的”結(jié)構(gòu)化數(shù)據(jù)。你可以想象,自己在注視一張照片時,腦海中形成的一定不是一個一個像素點,而是抽象過的一些屬性!按照我們上面的理解,無論是語音、影像還是其它“狹義”的非結(jié)構(gòu)化數(shù)據(jù),只要我們有工具可以將這些數(shù)據(jù)轉(zhuǎn)化成我們關(guān)心數(shù)據(jù)結(jié)構(gòu),那就可以作為大數(shù)據(jù)應用的一個數(shù)據(jù)源,后續(xù)由針對這類數(shù)據(jù)的的特定工具處理即可。這里舉一個例子:通常我們認為HTML網(wǎng)頁,例如電商的單品頁面,是非結(jié)構(gòu)化的,因為我很難從中提取出結(jié)構(gòu)化字段,例如商品名稱、價格等。但通過互聯(lián)網(wǎng)抓取系統(tǒng),我們可以
15、將這些頁面轉(zhuǎn)化為結(jié)構(gòu)化字段,那么后續(xù)按照結(jié)構(gòu)化數(shù)據(jù)處理即可。語音、影響也是一樣,關(guān)鍵是我們期望從中提取什么信息,用什么工具提取,一旦提取成功,即可整合到大數(shù)據(jù)應用中。在百分點的實踐中,我們已經(jīng)完全整合了網(wǎng)頁、文本、JSON、XML等非結(jié)構(gòu)化數(shù)據(jù),部分整合了圖像和語音數(shù)據(jù),這些內(nèi)容都已經(jīng)應用到了業(yè)務中。2) 大數(shù)據(jù)平臺和現(xiàn)有數(shù)據(jù)倉庫的整合現(xiàn)有的數(shù)據(jù)倉庫完全可以和大數(shù)據(jù)平臺進行整合,現(xiàn)有數(shù)據(jù)倉庫可以作為大數(shù)據(jù)平臺的一個數(shù)據(jù)源和數(shù)據(jù)應用。對于金融銀行業(yè),往往已經(jīng)實施有數(shù)據(jù)倉庫,這個時候如果盲目上大數(shù)據(jù)平臺進行平臺替換往往容易造成數(shù)據(jù)混亂,所以我們提供的建議是混搭先行,逐步替換,先替換那些傳統(tǒng)手段不能
16、解決的問題,再替換那些數(shù)據(jù)倉庫已經(jīng)存在的應用。現(xiàn)階段數(shù)據(jù)倉庫上下游生態(tài)圈豐富程度遠遠大于大數(shù)據(jù)生態(tài)圈,我們應該充分利用現(xiàn)有數(shù)據(jù)倉庫上下游豐富的解決方案充分發(fā)揮傳統(tǒng)數(shù)倉的價值,然后通過Hadoop等大數(shù)據(jù)產(chǎn)品來補充傳統(tǒng)數(shù)倉對于非結(jié)構(gòu)化數(shù)據(jù)處理不足的缺陷。隨著大數(shù)據(jù)技術(shù)的發(fā)展,大數(shù)據(jù)產(chǎn)品(Hadoop等)各項功能和性能不斷完善,再逐步把數(shù)倉之上已有業(yè)務應用遷移到大數(shù)據(jù)平臺。常見技術(shù)問題解答1) 在Hadoop中導入Oracle的數(shù)據(jù)后,數(shù)據(jù)怎么備份?在數(shù)據(jù)導入到Hadoop中之后,數(shù)據(jù)的備份數(shù)就已經(jīng)根據(jù)Hadoop的HDFS配置做了多備份(默認是3備份)。2) Oracle關(guān)系數(shù)據(jù)庫的數(shù)據(jù)怎么部署
17、Hadoop環(huán)境中使用?Oracle數(shù)據(jù)庫中的數(shù)據(jù)可以直接導入到Hadoop中,而后利用一些工具進行處理:a) Hadoop生態(tài)中有一系列的工具和組件可以在RDBMS和Hadoop間導入導出數(shù)據(jù),例如Sqoop,這些工具或多或少會有一些坑,需要使用者注意或者找有經(jīng)驗的專家指導。b) 數(shù)據(jù)處理方面,Hive、SparkSQL和Impala都是很好的SQL on Hadoop工具,它們可以滿足大部分的數(shù)據(jù)處理需求,但它們對SQL的支持不盡相同,目前也沒有任何組件能完美支持Oracle的PL/SQL。這些SQL組件無法滿足數(shù)據(jù)處理需求,一般的做法是利用其它工具,例如Pig、原生MapReduce等。
18、3) HDFS數(shù)據(jù)怎么入HbaseHDFS數(shù)據(jù)導入到HBase有三種方式:a) 可以通過普通的MR程序,在Map或者Reduce里面通過HTable的對象來寫入到HBase。b) 直接通過MR程序,用HBase的TableMapper和TableReducer方法,然后用TableMapReduceUtil類來執(zhí)行MR,和1類似。如果數(shù)據(jù)量大,建議使用bulkload的方式,通過HfileOutputFormat方法生成HFile格式的數(shù)據(jù),再通過LoadIncrementalHfile的方法把結(jié)果加載到Hbase。出師表:先帝創(chuàng)業(yè)未半而中道崩殂,今天下三分,益州疲弊,此誠危急存亡之秋也。然侍衛(wèi)之臣不懈于內(nèi),忠志之士忘身于外者,蓋追先帝之殊遇,欲報之于陛下也。誠宜開張圣聽,以光先帝遺德,恢弘志士之氣,不宜妄自菲薄,引喻失義,以塞忠諫之路也。宮中府中,俱為一體;陟罰臧否,不宜異同。若有作奸犯科及為忠善者,宜
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 街道消防安全事件的應急預案
- 表設(shè)備采購招標文件
- 江蘇省南通市海安高級中學2024-2025學年高一下學期6月階段檢測地理試卷(含答案)
- 河北省石家莊市第四十中學2024-2025學年七年級下學期期中生物試題(含答案)
- 財務會計子系統(tǒng)的解決方案(一)
- 2025年廣東省深圳市育才二中中考英語三模試卷(含答案)
- 幼兒心理學教案得力文庫
- 2024-2025學年下學期高二生物人教版期末必刷常考題之種群及其動態(tài)
- 2024-2025學年下學期高一生物滬科版期末必刷常考題之基因重組造成變異的多樣性
- 建筑施工特種作業(yè)-建筑起重機械安裝拆卸工(施工升降機)真題庫-4
- 新修訂《黃河保護法》PPT
- 北斗衛(wèi)星導航發(fā)展及其的應用課件
- 過敏性休克應急預案演練記錄表
- 第八章-三相異步電動機的電力拖動課件
- 工程施工停止點檢查表
- 《滅火器維修》GA95-2015(全文)
- 高中美術(shù)素描教案(8篇)
- 市政工程監(jiān)理規(guī)劃范本(完整版)
- 國貿(mào)實驗一進出口價格核算
- 幼兒園中班美術(shù):《美麗的蝴蝶》 PPT課件
- 單片機芯片8279用法
評論
0/150
提交評論