


下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、行業大數據應用開發和分析平臺及案例應用1. 背景2000 年后,隨著互聯網的快速發展,互聯網中網頁的數量呈幾何式增長, 大規模數據分析相關應用和技術開始倍受關注。至 2000 年底,全球網頁的數量 已達到 40 億,互聯網用戶從網絡中檢索信息越來越不方便,為解決這一問題, 谷歌等大型互聯網公司率先建立了覆蓋數十億網頁的索引庫, 并為互聯網用戶提 供精準的檢索服務, 有效地提升了互聯網內容的檢索效率。 隨著網頁庫的不斷增 大,需要存儲、管理和處理的數據量不斷增大、種類不斷增多,這對互聯網公司 提出新的挑戰, 傳統的技術在效率和效果上已經無法滿足實際的應用需求。 為以 較低成本實現對以往技術無法達
2、到的數據處理規模, Google 分別提出分布式系 統Google File System (GFS)、分布式并行計算框架 Map Reduce和分布式數據庫 BigTable等,這些技術奠定了大規模數據處理和應用基礎。隨著大規模數據在互聯網領域的商業價值的體現, 啟發了社會對數據價值的 重新審視。 年,麥肯錫、世界經濟論壇等知名機構和組織對大規模數據分析領 域進行了研究總結,隨即世界范圍的“大數據”(Big Data、熱潮發起。政府、醫藥、電信、銀行、制造等經過多年積累而掌握了大數據的行業開始關注以“數據 驅動創新”的領域,并且都想利用這些數據(命名為“行業大數據” ),從中獲取 “知識”,
3、從而幫助提升行業建設并創造更高的經濟價值。行業大數據產業的發展急需面向行業的大數據應用開發和分析平臺的支撐。 盡管目前業界已有諸多數據挖掘工具,如 KNIME 、 Clementine、 SPSS、 WEKA 等。然而這些工具僅針對數據分析單一環節,并且,這些工具的可擴展性不高, 功能擴展具有局限性, 還不能有效快捷的行業訂制化大數據應用開發和部署。 建 立統一、靈活、易用的行業大數據應用開發和分析平臺具有重要的研究價值和實 際應用價值, 它將進一步提升行業大數據的實際價值, 推動行業大數據技術的進 步,帶動各行業大數據智能應用產業的發展。2. 相關現狀圖1 傳統數據挖掘工具的基本框架為使數據
4、挖掘過程方便易用, 各廠商開發了可視化、 可配置的數據挖掘工具, 如KNIME、Clementine等(見圖1)。這種界面友好的系統交互模式是可以被借 鑒。然而,目前常見的數據挖掘工具的基本應用模式(見圖2)無法滿足目前大數據應用開發和分析的實際需求。圖2 傳統數據挖掘工具的基本應用模式首先,輸入系統的數據一般要求事先人工構造并結構化, 而大數據具有規模 大、結構復雜等特點,以人工的方式構造充足、 有效的數據耗時費力、 成本巨大、 維護困難。另一方面,以人工構造的小規模數據為分析對象獲得的分析結果對描 述大數據實際蘊含的知識的能力有限, 甚至結果可能與實際偏離較大, 結果的可 靠性不高。其次,
5、現有數據挖掘工具提供的 ETL 功能有限,在大數據來源多樣、結構 復雜、描述不規范問題面前顯得捉襟見肘, 靈活性和實用性較低。 輸入系統的數 據要求是被精心處理過的干凈數據, 這主要是因為傳統的數據挖掘算法要求數據 具有較高的質量, 如此才能得到較準確的結果。 而在行業大數據應用開發和分析 實際背景下,現有工具還無法滿足實際的應用需求。圖 3 Clementine 提供的用于數據分析全過程的功能 第三,常見的數據挖掘工具功能固化, 無法適應靈活多變的行業大數據應用 開發和分析需求。 以 Clementine 為例,其提供的數據分析全過程包含的功能 (如 圖 3 所示)僅為一些常見且通用的方法。
6、 而對于行業大數據應用開發和分析而言, 針對不同的數據類型和特點, 通用的數據處理和分析方法無法滿足實際需求。 根 據應用和分析任務本身,靈活訂制開發專用的流程和算法具有更高的價值。此外,盡管常見的數據挖掘軟件在提供開發界面的同時還提供了豐富的API,然而,其在使用上十分復雜, 即使是有經驗的開發人員要在其基礎上開發相關的 應用,也需要花費大量的時間了解其 API 結構,擴展性不強。第四,常見的數據挖掘工具結果輸出單一, 主要以圖表的形式展現, 缺乏領 域知識表達,需要行業專家的二次解讀。同時,同樣的分析結果,不同的領域專 家會給出不同的解讀,客觀性和一致性不強。3. 行業大數據應用開發和分析
7、解決方案(1)傳統的開發模式到面向服務的開發模式的轉變: 傳統的開發模式以項目驅動開發, 針對具體需求, 設計復雜的代碼架構和接 口。然而,這種開發模式產生的軟件的性能和質量完全依賴于開發人員的技術水 平,并且開發成本巨大。面向服務的架構(Service-Oriented Architecture)是一個組件模型,它將應用 的不同功能單元稱為服務,通過這些服務之間定義良好的結構和契約聯系起來。 接口獨立于其它條件采用中立的方式定義。 面向服務的開發模式更注重業務分析, 通過清洗的業務流程描述和完成業務流程的各項服務的裝配形式完成應用的開 發,功能由具體構件完成, 但不拘泥于具體實現細節, 以完
8、成應用功能為主要目 的。面向服務的開發模式具有質量標準統一、 技術資產積累快、復用率高等特點。應用開發隨需組裝構件,完成業務流程,開發效率高(2)數據挖掘應用將受益于面向服務的開發模式:數據驅動數據源 數據挖掘應用挖掘結果圖4行業數據挖掘應用的宏觀過程行業數據挖掘是由數據驅動且面向服務的。 宏觀上,行業數據挖掘應用以各 種類型待分析的數據為輸入,經過挖掘過程,為行業數據分析需求提供滿足服務 對象領域知識的挖掘結果(如圖 4所示),該過程滿足面向服務的架構的定義。 微觀上,數據挖掘過程及各部分完成的任務是一個數據驅動且面向各種數據處理 服務的(如圖5所示)。圖5面向服務數據挖掘過程以面向服務的開
9、發模式實現數據挖掘應用的開發, 可以簡化復雜的數據挖掘 算法流程,適應靈活多變的行業大數據應用開發和分析需求,提升高質量代碼的 服用,提升大數據應用開發和分析效率。(3)核格行業應用開發和分析平臺架構:核格行業大數據應用開發和分析平臺專業面向支持面向服務的大數據應用 開發和分析模式,其基本架構如圖 6所示。圖6面向服務數據挖掘過程(4)核格行業應用開發和分析平臺核心功能:1)可視化拖拽式應用開發與分析過程:2)軟件代碼自動生成和動態應用部署:數據分析業務邏輯裝配: MCClfL.Modb*GbtKl£w-0 Wfahwj溯 9EWCE3 um4* HEM對 PhhrfliiFifNi
10、WI&l4 比4專 cruduicuit em-Jtoiji比口 & !>(Stem:3)4)數據處理服務裝配:5)豐富的數據挖掘模型算法基礎構件:6)個性化服務構件創建:if、巧V o4. 應用案例快速消費品(Fast Moving Consumer Goods FMCG)是指那些使用壽命短, 消費速度快的消費品。從其定義可以看出,該類產品依靠消費者高頻次和重復的 使用與消耗,并通過規模化的市場量來獲得利潤和價值。因此,該類商品具有如下一些屬性:(1)產品周轉周期短;(2)進入市場的通路短而寬;(3)售后服務的重點主要體現在對客戶的意見迅速反饋并有效處理。 此外,快速消
11、費品與其它類型消費品相比, 其客戶購買策略和購買過程有著 明顯的差別。 快速消費品屬于沖動型購買產品, 即興的采購決策, 主要取決于個 人偏好,產品的固有屬性(如外觀、包裝、廣告促銷、價格、銷售點等)對其銷 售量起著重要作用。 因此,消費者評價分析和產品屬性改進的及時性是決定營銷 方案的重要依據,相關數據的搜集和整理具有重要的情報價值。快消品的消費者調查數據應以高效、 準確、客觀的方式獲取。 傳統的研究消 費者的方法主要基于消費問卷調查等結構化數據完成。 對于快消品來說, 這類方 法存在諸多弊端。 首先,調查問卷主要以銷售方主觀的問題設置為主, 這種方式 與調查目的相悖。 其次,調查問卷數據搜
12、集的效率存在不足, 發放問卷的過程十 分繁瑣,并且很可能會適得其反。第三,調查問卷的結果準確性存在不足,不同 的消費者其體驗存在差異, 搜集數據量足夠大的調查結果十分困難, 而在調查結 果不足的情況下分析的結論可信度不高。以非結構化的電商消費者評價數據作為消費者調查數據具有較高的可行性。 首先,寶潔公司是世界上最早開始實踐商業智能的公司, 并已經與很多第三方電 商平臺(如阿里巴巴)合作獲得,高效的獲得自身產品的屬性及消費者評價數據。 其次,電商消費者的評價數據具有時效性和客觀性。 第三, 其能夠反映消費者對 使用產品的真實感受。 最后,從電商數據中不僅可以獲取消費者評價數據, 還能 夠獲得全方
13、位的關于本產品和同類相關產品的屬性及評價數據, 為快消品的消費 者評價分析和產品屬性改進提供重要的依據。(1)任務描述:圖6 基于電商消費者評價數據的產品分析利用電商消費者評價數據可以實現:1)產品滿意度分析:根據消費者對產品的評價數據, 可以分析出該消費者對產品的整體評價。 同 時,根據這些評價數據, 以關鍵詞展示的形式, 可以獲得消費者對產品整體的評 價關鍵內容。 并根據消費者情感隨時間變化趨勢分析, 掌握該產品隨時間變化在 市場中的用戶滿意度。 利用該結果可以有效掌握快消品的市場銷售狀況和發展趨 勢,為產品的更新換代提供參考。2)產品屬性滿意度分析:根據電商產品數據,可以獲得關于產品的各
14、項屬性信息,例如圖6 (a)中所示的寶潔沙宣洗發水包含的功效、凈含量、適用對象、保質期等屬性信息。同 時,根據消費者對產品的評價數據, 不僅可以獲得關于產品更多方面的屬性信息, 還能夠獲得對該屬性或方面的觀點評價信息,例如,從評價“應該是正品!味道 不錯,比超市便宜”中可以獲得關于產品質量、味道、價格三方面的正面評價信 息。同樣根據消費者對具體產品屬性的情感隨時間變化趨勢分析, 可以掌握該產 品隨時間變化在市場中的用戶滿意度。 利用該結果可以有效掌握快消品的市場銷 售狀況和發展趨勢與產品屬性之間的關聯, 針對具體關聯為產品的更新換代提供3)產品滿意度因果分析: 產品及其屬性滿意度分析為分析者提
15、供產品面向方面的定量參考值, 而用戶 評價包含的語義主要反映在評價內容當中。 針對產品存在的問題, 應具體改進產 品的哪一方面, 并且改進的程度可以從產品的具體評價中獲得。 通過對消費者評 價內容進行關鍵詞提取和歸納, 可以實現產品滿意度的因果分析, 列出評價關鍵 結論。從而為決策者提供出定量的報表分析結果之外, 基于規則的知識表達的決 策支持。4)同級競爭產品比較分析: 對旗下產品的分析和改進, 在一定程度上可以借鑒同級競爭產品被用戶接受 的特點,并在其基礎上進行進一步提升。 另一方面, 通過掌握其他同類產品的不 足,可以使旗下產品在設計和改進時避免同樣問題的發生, 如此可以有效節約產 品研
16、發成本。有效利用電商數據進行消費者評價分析和屬性改進需要解決如下幾點關鍵 問題:(1)多源數據集成:圖 7 多源數據融合目前,電商是快消品的主要銷售渠道之一, 電商平臺已有多家, 其結構各異, 數據展示效果多樣, 內容不一。 如何實現多源半結構化數據的集成是有效利用電 商數據進行消費者評價分析和屬性改進的基礎問題之一。(2)半結構化電商數據的產品屬性抽取:圖8 半結構化電商數據的產品屬性抽取 電商數據屬于半結構化數據, 產品屬性信息隱藏在其中, 如何有效的從其中 抽取出各產品的屬性信息,是實現面向產品屬性的態度挖掘的基礎問題。(3)同類產品屬性的記錄鏈接:產品名稱潔凈去屑男士洗發水產品名稱男士
17、去屑洗發露產品功效去屑止癢產品功效去屑止癢,深層修復產品型號潔凈去屑男士洗發水J型號活力運動薄荷型產品品牌沙宣價格55.60 元產品價格62.00 元品牌清揚產品容量700ml凈容量750ml保質期36個月_保質期36個月j圖9同類產品屬性鏈接同類產品比較的對象是產品的屬性, 然而,不同旗下產品的屬性描述不禁相 同,將同種屬性實現記錄鏈接,并列出不同屬性,是實現競爭產品分析的關鍵問 題。(4)基于弱監督學習的面向方面的態度挖掘:目前用于態度挖掘的方法主要是基于有監督的分類方法,該類方法要求訓練數據集滿足“強監督假設”條件,即事先假定帶標注的訓練數據包含充分、清晰 且準確的監督信息來構造強泛化能力的分類模型。然而,這一假設在實際的大數據應用條件下是無法滿足的。我們提出的解決方案是對假設條件放寬, 采用“弱 監督學習”方法實現態度分類模型的訓練,然后用于實際的產品態度挖掘應用。圖10基于弱監督學習的態度挖掘流程基于弱監督學習的產品評價態度挖掘的基本流程如圖10所示。在該流程中主要包含三個關鍵服務功能,一是用于標注數據的服務,二是模型迭代訓練服務, 三是利用訓練好的最優化態度挖掘分類器對為分析的產品評價數據進行態度預 測。實現這三部分功能的方法有很多, 根據目前的業務流程,利用核格大數據應 用開發和分析平臺,根據圖10內容,可以直接畫出業務邏輯(如圖 11所示)。 利用核格大數據應用開
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 藥品采購投訴管理制度
- 藥店保健食品管理制度
- 藥店援助藥品管理制度
- 營運客車安全管理制度
- 設備健康指標管理制度
- 設備施工過程管理制度
- 設備物資安全管理制度
- 設備維護養護管理制度
- 設備隱患整改管理制度
- 設計公司薪酬管理制度
- 創造良好工作氛圍的有效途徑
- 2025年心理學基礎考試試卷及答案
- 2025上海電子信息職業技術學院輔導員考試試題及答案
- 三大國企面試題及答案
- 無人機設計與架構試題及答案
- 醫學多學科診療制度
- 2025年航天知識競賽題庫及答案
- 游泳救生員勞務合同協議
- 國家開放大學2025春《公共部門人力資源管理》形考任務1-4參考答案
- 布洛赫定理課件
- 2025浙江淳安縣事業單位招聘49人筆試備考試題及答案解析
評論
0/150
提交評論