




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第3章
營銷大數據采集及預處理本章內容
第1節
數據采集
第2節
數據預處理學習目標
了解大數據的類型和數據來源
了解數據采集過程,培育正確的信息隱私觀
了解大數據采集方法
掌握數據預處理的方法,以及每種方法對應處理的問題類型導入案例
喜茶:“私域流量”時代的數字化奶茶2020年3月初小程序下單比2月同期增長774%,創下了線上銷售新高。這一切,主要歸功于“數字化”與“私域流量”。在用戶分析上,喜茶利用會員數據可以進行精準的用戶喜好評估。挖掘出用戶的細分需求,就能獲取產品研發的靈感,推出更貼近用戶的獨特的新品。通過自動化推薦,喜茶讓營銷更個性化和定制化。自動化的千人千面營銷,不僅可靈活控制庫存,還能有效提高銷量,提升用戶的使用體驗,第一時間把需要的信息與產品呈現在用戶面前。喜茶利用大數據為創意營銷策略提供方向性指導,不斷實踐著跨界聯名、社區活動等新鮮玩法。這背后,其實也依靠會員系統數據的支撐。本章知識結構數據類型數據來源數據預處理營銷數據采集及預處理數據采集方法結構化數據、非結構化數據、半結構化數據搜索引擎、電子商務平臺、社交媒體平臺系統日志、感知設備、網絡爬蟲、市場調查數據清洗、數據集成、數據變換、數據歸約數據類型丨數據來源丨數據采集方法丨大數據采集面臨的問題一、數據類型第1節
數據采集數據預處理數據采集結構化數據結構化數據是指關系模型數據,即以關系數據庫形式管理的數據,可計算、可查詢、可定義。結構化數據能夠形式化存儲在數據庫里,可以用二維表結構來表示,它被歸類為定量數據。非結構化數據非結構化數據是數據結構不規則或不完整,沒有預定義的數據模型,不便于用數據庫二維邏輯表來表現的數據,在技術上比結構化信息更難標準化和理解。半結構化數據半結構化數據是介于完全結構化數據和完全無結構數據之間的一種結構化數據形式。因其比較特殊,所以單獨列出來,但本質還是結構化數據。半結構化數據是非關系模型的、有基本固定結構模式的數據。數據三大類型數據類型丨數據來源丨數據采集方法丨大數據采集面臨的問題二、數據來源第1節
數據采集數據預處理數據采集數據來源
搜索引擎搜索數據和網站的點擊瀏覽數據來源于搜索引擎,搜索平臺擁有龐大的用戶行為數據。利用點擊和瀏覽數據對消費者進行分析,可以找到用戶的關注點、興趣點,利用這些信息,企業可以對用戶進行個性化推送,精準營銷,極大提高了廣告的效率。電子商務平臺商品的搜索數據、瀏覽數據、交易數據、評價數據以及對應的用戶數據來源于電子商務平臺。通過對商業大數據的分析,能夠更直接地了解消費者的動態。通過用戶的點評數據,企業能夠分析出用戶滿意或者不滿意的地方,這些因素就是企業存在的優勢和劣勢。收集、分析用戶的點評數據還有一個重要之處就是傾聽用戶的意見、了解用戶的真實需求。半結構化數據用戶屬性標簽、用戶生成內容(UGC)、用戶間社交網絡數據來源于社交媒體平臺。通過對社交網絡的研究,企業可以跟蹤信息傳播路徑。基于用戶的行為和屬性標簽,可以生成用戶畫像,從而了解用戶喜好,企業根據分析結果來開展精準營銷。數據類型丨數據來源丨數據采集方法丨大數據采集面臨的問題三、數據采集方法第1節
數據采集數據預處理數據采集
系統日志系統日志數據采集主要是收集公司業務平臺日常產生的大量日志數據,供離線和在線大數據分析系統使用。很多互聯網企業都有自己的海量數據采集工具用于系統日志采集,如Hadoop公司的Chukwa,Cloudera公司的Flume,以及Facebook公司的Scribe等。這些工具均采用分布式架構,能滿足每秒數百兆字節的日志數據采集和傳輸需求。數據類型丨數據來源丨數據采集方法丨大數據采集面臨的問題三、數據采集方法第1節
數據采集數據預處理數據采集
感知設備感知設備數據采集是指通過傳感器、攝像頭和其它智能終端自動采集信號、圖片或錄像來獲取數據。在智能制造、可穿戴設備、物聯網愈發普及的今天,高速、可靠的數據采集技術是當前需要重點突破的方向。科技快速發展,技術創新給大數據采集提供了新的方法,比如基于眼動(EM)、腦電圖(EEG)、事件相關電位(ERP)、皮膚電反應(GSR)、肌電(EMG)、心電圖(ECG)等前沿科技來采集數據。通過感知設備對生物數據進行采集的方式在廣告、消費者評論領域均有很強的應用價值,逐漸成為營銷領域研究者的“新寵”。數據類型丨數據來源丨數據采集方法丨大數據采集面臨的問題三、數據采集方法第1節
數據采集數據預處理數據采集
網絡爬蟲網絡爬蟲是指按照一定規則在搜索引擎下載并存儲網頁的程序或腳本,又被稱為網頁蜘蛛、網絡機器人。傳統爬蟲從獲得一個或若干初始網頁的URL開始,在抓取網頁的過程中,不斷從當前頁面抽取新的URL放入隊列,直到滿足系統的停止條件后結束。從嚴格意義上來說,爬蟲更像一種數據下載邏輯,很多軟件都具備爬蟲的功能(如Python、R、“火車頭”、“八爪魚”等)。數據類型丨數據來源丨數據采集方法丨大數據采集面臨的問題三、數據采集方法第1節
數據采集數據預處理數據采集
市場調查利用上文所說的信息化手段收集資料非常方便,但對于有些數據,如顧客需求及偏好、顧客滿意度、市場環境和行情信息、競爭對手信息以及戰略合作伙伴方的情況等無法通過信息化手段取得資料時,則需要通過市場調查或科學的實驗方法來獲取一手數據。市場調查分為線下、線上兩種。線下即傳統人與人面對面的調查方式;線上即網絡在線調查方式,相比線下方式可以在投入較少人力、時間和資金的情況下獲取更大規模數據,許多企業和市場調研機構越來越多地采用線上網絡市場調研的方式進行網絡營銷數據采集。數據類型丨數據來源丨數據采集方法丨大數據采集面臨的問題四、大數據采集面臨的問題第1節
數據采集數據預處理數據采集數據獲取渠道缺乏項目二數據質量難以保證項目三隱私安全問題凸顯缺少數據獲取渠道,是數據分析面臨的一大難題。很多行業和企業并沒有積累數據的意識,導致很多數據存在空白。此外,大數據包含大量信息,可能涉及到用戶的隱私和公司的機密,企業和政府不愿意分享數據。互聯網時代,在線活動與在線交易不斷增多,用戶數據與隱私泄露事件時有發生,網絡安全威脅更為嚴峻。數據挖掘一方面可以被企業有效利用,增強營銷活動的精準度,提升營銷效率;但另一方面,如果缺乏有效監管,用戶數據被不法分子得到,將會帶來嚴重的損失與危害。大數據的“大”是指全體樣本,而非單指數據量大。現有平臺數據質量參差不齊,大數據采集能力有待提升,實踐中很難獲得全樣本數據,龐雜的數據中充斥著大量無效的干擾性數據、缺失內容,如何讓收集到的數據樣本豐富全面,是大數據給營銷變革帶來的挑戰之一。數據采集數據預處理第2節
數據預處理數據清洗|數據集成|數據變換|數據歸約一、數據清洗概念:數據清洗主要是通過填寫缺失值對“臟數據”進行處理,識別或刪除離群點,將數據庫中所存數據精細化,并使剩余數據轉化成標準可接受格式的過程,以達到格式標準化、異常數據消除、錯誤糾正、重復數據清除等目的。原始數據中的“臟數據”指源系統中不在給定的范圍內、對于實際業務毫無意義、數據格式非法、存在不規范的編碼和含糊業務邏輯的數據。在數據清洗步驟中,主要解決數據出現遺漏值、噪聲、異常值等問題。數據采集數據預處理第2節
數據預處理數據清洗|數據集成|數據變換|數據歸約一、數據清洗遺漏值(missing
value)遺漏值(missing
value)為數據遺漏、缺失的情況,如某客戶的月消費數據缺失。在數據搜集階段,由于設備故障或人為失誤均有可能導致數據的遺漏,應將數據補全。處理遺漏數據最簡單直接的方法是直接刪去該變量值,但當數據遺漏比例很大時,此方法將造成大量數據流失;第二種方法是使用一個常數或該字段所有數據的平均值統一替換遺漏值,例如用其他用戶消費均值替換某客戶消費指標的遺漏值,此方法缺點是不具客觀性,當數據本身具有類別或等級之分時,容易高估或低估數據;最后還可利用數據挖掘模式來填充遺漏值,使用回歸分析、決策樹、人工神經網絡等數據挖掘推導工具來推測填補遺漏值。數據采集數據預處理第2節
數據預處理數據清洗|數據集成|數據變換|數據歸約一、數據清洗噪聲(noise)噪聲(noise)表示數據中的隨機誤差或干擾項。在數據收集、整理的過程中,會產生大量的噪聲數據,即“離群點”。比如在年齡收入曲線中,出現個別遠離曲線的極端點。因為噪聲數據不在合理的數據域內,所以分析、挖掘過程中輸入和輸出數據的質量難以保證,容易造成后續的挖掘結果不準確、不可靠。常用的消除噪聲數據的方法分為兩種。一種是噪聲平滑方法(datapolishing),常用分箱法處理,即將預處理數據分布到不同的箱中,通過參考周圍實例平滑噪聲數據。具體的分箱技術包括:平均值平滑,中位數平滑,按設定的箱邊界平滑。另一種是噪聲過濾(datafilters),利用聚類方法對離群點進行分析、過濾。數據采集數據預處理第2節
數據預處理數據清洗|數據集成|數據變換|數據歸約一、數據清洗異常值(abnormal
value)若某一些數據的表現與其他數據差距很大時,這些數據稱為異常值(abnormal
value),如數據顯示某用戶的月消費金額基本在3000~5000元范圍內,若賬單有一條30000元的記錄,即為異常值。異常值可通過經驗判斷、標準分數(或法則)、箱線圖等方法來判斷。對于異常值的處理需根據具體情況分析,若該異常值擁有特殊意義,則需保留;若由于儀器工具或人工失誤導致,可根據情況考慮直接刪除該數據,或用其它數值更替,將數據的范圍歸一化。數據采集數據預處理第2節
數據預處理數據清洗|數據集成|數據變換|數據歸約二、數據集成概念:數據清洗后方可進行數據集成,數據集成是將來自多個數據源的數據合并,統一存放在一個數據庫中。由于描述同一個概念的屬性在不同數據庫可能有不同的名字,在進行數據集成時常會引起數據的不一致和冗余。命名的不一致常常也會導致同一屬性值的內容不同。使用數據量太大的數據進行分析不僅會降低數據挖掘速度,也會誤導數據挖掘進程。因此進行數據清洗之后,在數據集成中還需要注意消除數據的不一致、重復和冗余。數據采集數據預處理第2節
數據預處理數據清洗|數據集成|數據變換|數據歸約二、數據集成數據不一致數據不一致是指兩條及以上數據出現數據的矛盾性或不相容性的情況。由于整合數據后,不同來源的數據屬性可能不同,在數據表達、比例定義或編碼上也會有所不同,因此產生數值或字段不一致的狀況。例如在兩個不同的數據表中,用戶在線時長分別用小時和分鐘兩種單位來記錄。為使數據保持一致,需要先確定作為標準的字段,然后對另外的字段進行單位的換算或者修改來保持數據一致。數據采集數據預處理第2節
數據預處理數據清洗|數據集成|數據變換|數據歸約二、數據集成數據重復重復數據是指重復出現的數值或字段。對于重復數據的處理方法也需根據實際情況進行判斷:如因數據庫信息有重合,在數據整合后發生的數據重復,刪除多余記錄只保留一條即可;如確實為幾條不同的記錄,如同一用戶對同一規格的產品、下單兩次,則兩條均需保留。數據采集數據預處理第2節
數據預處理數據清洗|數據集成|數據變換|數據歸約二、數據集成數據冗余數據冗余是指數據之間的重復,也可以說是同一數據存儲在不同數據文件中的現象。屬性命名的不一致,也有可能導致集中的冗余數據。數據冗余的處理主要是針對具有相同意義或彼此間存在已知數學關系的字段,也就是此變量的屬性或代表的意義可由另一變量推導而得,如數據中含有用戶1-12月的“月消費金額”及全年的“年消費金額”,“年消費金額”完全可以由每月消費金額累加得出,即為數據冗余。為使數據更加簡潔,可將該字段剔除。若數據冗余因屬性命名不一致導致,需經具體判斷后處理或保留。數據采集數據預處理第2節
數據預處理數據清洗|數據集成|數據變換|數據歸約三、數據變換概念:數據變換是將數據轉換成適合于各種數據挖掘模式的形式,以轉換原始數據或重新編碼的方式提升數據價值,其中可能涉及數據數值與數據類別的轉換。例如,將數值型數據轉換為離散型的類別數據,根據領域知識將舊變量合并成新的變量,或將數據歸一化以避免尺度的差異,常見如人工神經網絡對輸入數據的歸一化。對于數據的數值轉換,可采取歸一化和標準化方法,歸一化(normalization)是將屬性數據按比例縮放到一個特定的區間,如[-1,1]或[0,1],標準化(standardization)則是依據數據的均值和標準差進行標準化處理。對于數據的屬性轉換,可視情況將離散數據轉換為連續數據,如將顧客評論中“比較滿意”“滿意”“非常滿意”轉化為數值8、9、10,或是將連續數據轉換為離散數據,例如按照顧客的價值評分把顧客分為白銀貴賓、黃金貴賓、鉑金貴賓、鉆石貴賓。數據采集數據預處理第2節
數據預處理數據清洗|數據集成|數據變換|數據歸約四、數據規約概念:數據歸約的主要目的是得到與原始數據具有相同信息但較精簡的數據集。數據挖掘時數據量往往非常大,數據歸約技術通過選擇替代的、較少的數據來減少數據量,可以有效縮減數據規模,在盡可能保持數據原貌的前提下最大限度地精簡數據量,使得大數據挖掘更精準高效。企業根據現實情況主要進行維度規約和數值規約兩方面的處理。數據維度歸約常用于分類或預測問題,最直接的方式是以目標變量作為比較基準,利用特征選取法將變量維度中與目標變量不相關的屬性刪除,或利用主成分分析法將變量作線性轉換,只留下提供較多信息的幾個主成分,以縮小變量維度。數值規約通過選擇替代的、較少的數據來減少數據量,包括有參數方法和無參數方法。參數方法可采用回歸模型與對數線性模型來實現,非參數化方法包括直方圖、聚類、抽樣、數據立方體聚集等方法。案例3-1擁抱大數據:1號店的電商營銷之道大數據時代的到來,顛覆了傳統的市場營銷模式與理念,要求市場營銷不能再僅憑嗅覺和感覺做事,也要依靠科技和分析洞察能力。近年來隨著我國大數據產業的發展,越來越多的國內企業投身到這場變革的浪潮中來。1號店作為中國電子商務行業最早的“網上超市”,是最早將大數據融入到營銷中的企業之一。1號店的大數據營銷主要有以下舉措:建立營銷系統,實現全自動化構建數據倉庫,挖掘用戶價值立足產品特點,打造產品推薦抓住用戶個性,提高用戶體驗利用網絡技術,實現自動調價基本概念
結構化數據(StructuredData)
半結構化數據(Semi-StructuredData)
數據整合(DataIntegration)
數據歸約(DataReduction)
非結構化數據(UnstructuredData)
數據清理(DataCleaning)數據轉換(DataTransformation)思考題簡述大數據分析的流程及每一步的主要任務。舉例說明大數據的類型,分別有什么特點?營銷實踐中,可以通過哪些渠道收集用戶數據,如何確保隱私保護等問題?數據預處理的流程是什么,對于大數據分析有什么作用?THANKS!
第4章
營銷大數據分析本章內容
第1節
預測分析
第2節
文本分析
第3節
社交網絡分析
第4節
數據分析工具學習目標
理解并掌握預測分析的內容、作用及分析方法
理解并掌握文本分析的內容、作用及分析流程
理解并掌握社交網絡分析的內容、作用及分析指標
了解數據分析常用工具及其特點導入案例
大數據助力京東物流顧客享受分鐘級收貨體驗“購物車還沒清空,就接到了配送的電話”,“京東物流速度簡直不可思議”……京東物流數據顯示,2021年618期間,最快僅4分鐘就將快遞送至客戶手中。618當日,京東穩定履約背后的技術數據也首次公開:全國日均單量預測準確率超過95.5%,32座亞洲一號護航,機器人倉單日訂單處理量超過100%,智能快遞車送達業務量同比增長24倍。通過大數據,京東能夠有效分析出消費者的偏好,將消費者的訂貨需求準確傳達給最近的倉庫,精準高速配送的同時也不會發生送錯現象。京東物流“預測式發貨(AnticipatoryShipping)”正是利用大數據預測,直接鎖定潛在客戶需求,實現精準營銷。根據預測結果,京東物流將貨物運送至距離潛在客戶最近的物流網點,實現“單未下貨先行”;消費者下單后,直接從距離最近的倉庫調撥貨物,讓消費者購買商品實現“即買即得”。本章知識結構預測分析文本分析數據分析工具營銷大數據分析社交網絡分析分析內容:用戶行為、偏好、關系、價值預測分析方法:回歸、決策樹、隨機森林、神經網絡、支持向量機、KNN算法等分析內容:用戶特征、情感、需求分析分析流程:數據采集、數據預處理、數據分析社交網絡核心概念及相關理論分析內容:營銷推薦網絡、用戶間關系、用戶與企業互動分析分析指標:網絡密度、中心度、凝聚子群等EXCEL、SPSS、SAS、R、Python、MATLAB、Tableau等預測分析概述丨預測分析方法一、預測分析概述第1節
預測分析預測分析的內容
用戶行為預測從大量的歷史用戶數據中挖掘出用戶的特定行為及其規律,快速準確地預測未來一定時間內即將發生的用戶行為,如瀏覽、搜索、點擊、收藏、購買、流失、違約等未來行為動向。用戶偏好預測基于歷史數據對用戶品類偏好、價格偏好、渠道偏好、品牌偏好等進行預測,挖掘用戶興趣,為用戶提供“投其所好”的個性化產品和服務,增強用戶粘性及對企業的忠誠度。用戶關系預測基于用戶數據(如微博中的用戶基本信息、所在位置、微博內容、粉絲用戶、關注用戶等屬性數據)進行預測分析,挖掘用戶間潛在的鏈接關系,降低網絡稀疏性、提高營銷效率。用戶價值預測結合交易數據預測用戶整個生命周期的購買力,識別和重點維護高價值用戶。文本分析社交網絡分析數據分析工具預測分析預測分析概述丨預測分析方法一、預測分析概述第1節
預測分析預測分析在營銷中的作用
識別潛在客戶項目三項目二項目四企業通過大數據預測分析,能夠有效識別高質量潛在客戶,并以高效、針對性地吸引和觸達客戶,使營銷活動更具目標性,從而大幅降低成本。增強客戶粘性提升客戶價值減少客戶流失文本分析社交網絡分析數據分析工具預測分析企業通過大數據預測分析,能夠為客戶提供更優惠便捷的產品或服務選擇,創造極致顧客體驗,增強客戶粘性,鞏固客戶關系,提高客戶忠誠度。企業通過大數據預測分析,能夠識別客戶價值,從而對高價值目標客戶重點營銷,同時提升低價值客戶貢獻度,充分挖掘現有客戶的潛力,獲取最大價值回報。企業通過大數據預測分析,預測顧客隱藏的趨勢與行為,識別潛在流失客戶,便于主動出擊,實施挽回計劃,減少客戶流失,最大限度降低損失。文本分析社交網絡分析數據分析工具預測分析第1節
預測分析預測分析概述丨預測分析方法二、預測分析方法
回歸分析(RegressionAnalysis)回歸分析是在自變量和因變量間關系的基礎上建立回歸方程,并將該方程作為預測模型,根據自變量在預測期的值來預測因變量數值的分析方法。按照自變量個數分類,分為一元回歸和多元回歸分析;按照自變量和因變量間關系分類,分為線性回歸和非線性回歸。如谷歌在
2014年發布的通過電影相關搜索量數據提前預測電影上映首周票房收入的預測模型,采用的就是最為簡單的線性回歸方法,但其預測準確度高達94%。線性模型雖然表面上看起來簡單,精準度卻很高。越是簡單的模型越容易被人們理解和分析,簡單且效果好是實際應用中一直追求的目標。文本分析社交網絡分析數據分析工具預測分析第1節
預測分析預測分析概述丨預測分析方法二、預測分析方法決策樹是一種樹形結構,由3個主要部分組成:根節點、分支和葉子節點。最頂部的是根節點,表示一個待分類的數據類別或屬性,從根結點開始分支分裂,直到葉子節點給出結果。三種經典算法:ID3、C4.5和CART算法,不同算法會根據不同標準選擇最優的分裂屬性,進而生成一棵完整的決策樹。右圖為一棵構建好的決策樹。決策樹(DecisionTrees)文本分析社交網絡分析數據分析工具預測分析第1節
預測分析預測分析概述丨預測分析方法二、預測分析方法隨機森林通過建立多棵隨機生成的決策樹而形成。通俗來講,隨機森林是若干決策樹進行“投票表決”的過程:每棵決策樹給出“投票結果”,隨機森林的輸出結果則是將若干單個決策樹的“投票結果”整合后的“最終投票結果”。仍以決策樹的分類問題為例,如果隨機森林中包含1000棵決策樹,有892棵決策樹的預測結果為“有購買意向”,108棵決策樹的預測結果為“無購買意向”,經過1000棵決策樹的“投票表決”,判斷結果為該用戶有購買意向。隨機森林(RandomForest)文本分析社交網絡分析數據分析工具預測分析第1節
預測分析預測分析概述丨預測分析方法二、預測分析方法以一個經典的單層神經網絡為例,包含輸入層、中間層(也叫隱藏層)、輸出層三個層次。類比生物神經元的工作原理,在人工神經網絡中,一個神經元有n個輸入,每一個輸入對應一個權值w,神經元內會對輸入與權重做乘法后求和,求和的結果與偏置做差,最終將結果放入激活函數中,由激活函數給出最后的輸出結果。人工神經網絡(ArtificialNeuralNetwork)文本分析社交網絡分析數據分析工具預測分析第1節
預測分析預測分析概述丨預測分析方法二、預測分析方法支持向量機的基本思想是求解能夠正確劃分訓練數據集并且幾何間隔最大的分離超平面。SVM和線性回歸的思想有相似之處,兩者都是尋找一條最佳直線,但定義方法不同,線性回歸要求直線到各個點的距離最近,而SVM要求直線離兩邊點距離盡量大。如下圖,SVM劃分直線使得圓形和三角形分離盡量大。支持向量機(Support
Vector
Machine)文本分析社交網絡分析數據分析工具預測分析第1節
預測分析預測分析概述丨預測分析方法二、預測分析方法KNN算法的思路正如其名,是借助樣本點附近的K個“Neighbors”是什么類別來判斷該樣本的所屬類別。以經典示意圖進行說明。有兩類已知標簽的數據(藍方塊和紅三角),綠圓圈是需要進行分類判斷的樣本點。如果K=3(判斷范圍為小圓區域),范圍內紅三角多,則綠圓圈屬于紅三角類別;而如果K=5(判斷范圍為大圓區域),范圍內藍方塊多,則綠圓圈屬于藍方塊類別。KNN(K-NearestNeighbors)文本分析(TextAnalysis)又稱文本挖掘(TextMining),是指從大量非結構化文本數據中抽取特征詞進行量化以表示文本信息。社交網絡分析數據分析工具預測分析文本分析第2節
文本分析文本分析概述丨文本分析流程一、文本分析概述文本分析可以回答“是什么?”“為什么?”揭示出非結構化文本信息中的人物、事件、時間、地點等內容反映用戶購買和使用產品的潛在動機和真實需求為客戶體驗、市場研究、用戶調查以及數據分析和媒體測量提供關鍵解決方案社交網絡分析數據分析工具預測分析文本分析第2節
文本分析文本分析概述丨文本分析流程這里是文本這里是文本這里是文本這里是文本數據采集數據分析二、文本分析流程數據預處理數據分析用戶交流記錄客戶投訴意見用戶產品評論用戶搜索記錄……分詞清洗剔除停止詞拼寫檢查詞干化關鍵詞抽取語義網絡分析情感傾向分析主題建模……社交網絡分析數據分析工具預測分析文本分析第2節
文本分析文本分析概述丨文本分析流程一、文本分析概述用戶特征分析對用戶在社交網絡平臺發表觀點、撰寫文章、與朋友互動等活動產生的文本進行分析,得到能夠表達用戶日常行為的主題詞,進而得知用戶特征。用戶情感分析用戶評論信息中包含著豐富的情感色彩和情感傾向,如喜、怒、哀、樂、批評、贊揚等。基于這些帶有主觀色彩的評論,企業識別出用戶文本背后蘊含的情緒或情感。用戶需求分析通過對用戶在社交平臺、購物網站上在線交流、分享經驗、發表評價等活動生成的內容進行文本分析,能夠快速、準確地捕捉用戶需求。文本分析的內容在計算機找出輸入或識別等錯誤后,根據檢查結果決定是否進行改正將英文單詞的派生形式或中文詞語的同義詞提取和還原為對應詞干對僅具有語言學的意義,而對所表達的內容沒有太大意義的詞進行過濾對文本中的HTML標簽、URL地址、圖像等沒有實質性意義的內容進行清洗按照一定規則對文本語料中的基本詞匯進行劃分社交網絡分析數據分析工具預測分析文本分析第2節
文本分析文本分析概述丨文本分析流程(一)數據采集(二)數據預處理分詞清洗停用詞過濾拼寫檢查詞干化營銷文本數據來源渠道豐富,如社交平臺上的用戶交流記錄、客戶意見建議、在線口碑、用戶評論、搜索引擎中的用戶搜索記錄、用戶發表的微博等自媒體內容等。社交網絡分析數據分析工具預測分析文本分析第2節
文本分析文本分析概述丨文本分析流程(三)數據分析關鍵詞抽取關鍵詞抽取(KeywordsExtraction)可以精煉文本信息,讀者通過幾個關鍵詞便可領略文本大意。在提取得到關鍵詞后,還可對每個關鍵詞進行詞頻統計,并制作個性化詞云圖。應用:右圖為2021年鴻星爾克河南捐款事件網友評論的詞云圖,展示方法美觀、易視,看出關鍵詞有鴻星爾克、買、加油、鞋子、好、爾克、支持等,體現消費者的積極態度。社交網絡分析數據分析工具預測分析文本分析第2節
文本分析文本分析概述丨文本分析流程(三)數據分析主題抽取主題抽取(TopicExtraction),或主題建模(TopicModeling),用來挖掘文本中隱含的主題以及各個主題間關聯變化。常用技術有LDA、LSA、PLSA等。應用:以微博營銷為例,微博用戶標簽常被用作內容推薦的依據,然而自定義標簽數量有限。企業可對用戶微博文本數據進行主題抽取,分析得出用戶習慣、偏好等屬性標簽,產生用戶畫像,對用戶進行商品個性化推薦。社交網絡分析數據分析工具預測分析文本分析第2節
文本分析文本分析概述丨文本分析流程(三)數據分析關系抽取關系抽取(RelationExtraction)是指基于社會網絡對文本中不同的詞語進行分析,提取語義關系。應用:如基于小米手機正面評論語義網絡圖,可以看出用戶評論的關注點(如“效果”、“屏幕”、“速度”、“拍照”等),還可以看出它們之間的關系(如“效果”與“待機時間”、“拍照”、“音效”、“速度”等性能密切相關)。社交網絡分析數據分析工具預測分析文本分析第3節
社交網絡分析社交網絡基礎知識丨社交網絡分析概述丨社交網絡分析關鍵指標一、社交網絡基礎知識社交網絡(SocialNetwork),又稱社會網絡、社會化網絡,是指個體成員之間通過社交關系結成的網絡體系。個體,又稱節點(Node),可以是組織、個人、網絡ID等不同含義的實體或虛擬個體。六度分隔理論強關系弱關系頓巴數貝肯數社交網絡中的基礎理論及關鍵概念社交網絡分析數據分析工具預測分析文本分析第3節
社交網絡分析社交網絡基礎知識丨社交網絡分析概述丨社交網絡分析關鍵指標一、社交網絡基礎知識數貝肯數名稱內容結論營銷啟示六度分隔理論最多通過六個人,即可認識任意一個陌生人。任何兩位素不相識的人之間總能夠產生必然聯系或關系。充分發揮社交網絡強勢傳播的杠桿作用,使信息擴散更加高效順暢。強關系弱關系強關系是穩定但范圍有限的社會關系,如親人;弱關系是關系較淺但更為廣泛的社會關系,如網友。強關系網絡成員互動頻率較高,更容易產生信任;弱關系促成信息流動,可以獲得更豐富的信息。強關系、弱關系分別通過用戶間的聯系深度和廣度,在成員的活躍維護方面和規模擴張方面發揮重要作用。頓巴數頓巴教授研究得出,人類擁有穩定社交關系的人數是148人,四舍五入為150人。大多數人只能與150人建立起實質關系,超過一定數量后,個體間的交互及影響減弱很多。與客戶保持密切聯系,加強信任,建立起穩定的社交關系;對擁有高價值資源的重點客戶加強聯系,實現人脈資源擴張和資源價值放大。貝肯數貝肯一類普通演員與明星大腕發生聯系所需要的中間人數量在2.6-3之間。“小人物”也能非常接近網絡中心;隔離高鏈接性人物,即可阻斷兩個網絡之間的鏈接。不僅大V值得關注,像貝肯這樣的用戶也應給予重視;高鏈接節點用戶流失可能造成整個網絡崩潰。社交網絡分析數據分析工具預測分析文本分析第3節
社交網絡分析社交網絡基礎知識丨社交網絡分析概述丨社交網絡分析關鍵指標一、社交網絡基礎知識社交網絡通常以關系圖的形式表示。下圖表示一個由10個節點組成的小型網絡。節點間的連線表示個體間存在關系,連線越多表示聯系越密切。圖形表示對用戶間關系進行分析,確定用戶社交圈及在社交圈中的地位、判斷社交圈中的信息擴散速度等內容利用營銷事件或產品的推薦網絡圖,分析網絡傳播的結構、推薦路徑,找到熱點事件或產品,進行有效營銷社交網絡分析數據分析工具預測分析文本分析第3節
社交網絡分析社交網絡基礎知識丨社交網絡分析概述丨社交網絡分析關鍵指標二、社交網絡分析概述社交網絡分析(SocialNetworkAnalysis)是基于信息學、數學、社會學、管理學、心理學等多學科的理論和方法,理解人類各種社交關系的形成、行為特點以及信息傳播規律的一種可計算分析方法。內容營銷推薦網絡分析用戶間關系分析觀察用戶對企業品牌、產品及促銷優惠活動的情緒及反應,制定實時社交網絡回應決策,優化調整營銷策略用戶與企業互動分析根據社交網絡分析識別出的用戶社交關系,將相關產品信息推廣和擴散至目標用戶,有效拓展潛在客戶資源企業在進行營銷時,僅通過將信息告知少量KOL,足以使信息最大限度在社交網絡上進行傳播并影響其他用戶定位KOL加速信息傳播社交推薦拓展客戶資源對社交媒體平臺的用戶生成內容和行為進行分析,精準識別客戶需求,實現客戶和資源的精準匹配識別需求實現精準匹配作用社交網絡分析數據分析工具預測分析文本分析第3節
社交網絡分析社交網絡基礎知識丨社交網絡分析概述丨社交網絡分析關鍵指標三、社交網絡分析關鍵指標網絡密度網絡密度為網絡中實際存在邊數與可容納邊數上限的比值。網絡密度=當前關系數÷理論最大關系數0≤網絡密度≤1以微信群為例:家庭群,群成員均為家庭成員,彼此非常熟悉,網絡密度為1;微商群,成員彼此間幾乎不認識,網絡密度幾乎接近于0;社區團購群,群成員同住一個社區,彼此存在一定聯系,網絡密度在0-1之間。社交網絡分析數據分析工具預測分析文本分析第3節
社交網絡分析社交網絡基礎知識丨社交網絡分析概述丨社交網絡分析關鍵指標三、社交網絡分析關鍵指標中心度接近中心度ClosenessCentrality表示某節點與其他節點之間的接近程度中介中心度BetweenCentrality以經過某節點最短路徑的數目來刻畫節點重要性點度中心度
DegreeCentrality對一個節點單獨價值的衡量,是刻畫中心度最直接的指標社交網絡分析數據分析工具預測分析文本分析第3節
社交網絡分析社交網絡基礎知識丨社交網絡分析概述丨社交網絡分析關鍵指標三、社交網絡分析關鍵指標凝聚子群“人以類聚,物以群分”網絡中某些行動者之間的關系特別緊密,以至于能結合成一個次級團體時,這樣的團體為凝聚子群。如果網絡存在凝聚子群,并且凝聚子群的密度較高,說明這個凝聚子群內部的行動者間聯系緊密,在信息分享和合作方面交往頻繁。(圖片來自網絡)社交網絡分析數據分析工具預測分析Excel丨SPSS丨SAS|R丨Python|MATLAB|Tableau文本分析第4節
數據分析工具常用的分析工具繁多,根據功能主要分為:數據獲取、數據處理、建模和可視化四大類社交網絡分析數據分析工具預測分析Excel丨SPSS丨SAS|R丨Python|MATLAB|Tableau文本分析第4節
數據分析工具操作簡便,數據分析入門級工具工作表方式管理數據,數據一目了然,數據處理和管理更直觀、方便強大的數據處理和分析功能,如描述性統計、相關系數、概率分布、均值推斷、回歸分析、分類、聚類等支持可視化制圖,如折線圖、條形圖、散點圖、餅圖、圓環圖及一些立體圖形但也有其短板,如不能非常有效地處理大型數據集;無法進行復雜處理,有更高數據分析要求時需要使用專業分析工具一、Excel社交網絡分析數據分析工具預測分析Excel丨SPSS丨SAS|R丨Python|MATLAB|Tableau文本分析第4節
數據分析工具二、SPSS最早的統計分析軟件操作界面極為友好,大多數操作可通過菜單和鼠標拖曳來完成提供各種統計分析方法,如數據探索性分析、統計描述、列聯表分析、相關分析、方差分析、非參數檢驗、回歸分析等輸出結果美觀漂亮,以統一、規范的界面展現編程方便,無需通曉各種算法,只要了解統計分析原理,即可得到所需統計分析結果社交網絡分析數據分析工具預測分析Excel丨SPSS丨SAS
|R丨Python|MATLAB|Tableau文本分析第4節
數據分析工具三、SAS也是較早開發的一款統計分析軟件編程語句簡潔、短小,只需幾句簡短語句即可完成復雜運算分析方法齊、全、新,幾乎囊括了所有最新方法,分析技術先進可靠分析方法的實現通過過程調用完成,同時提供多種算法和選項社交網絡分析數據分析工具預測分析Excel丨SPSS丨SAS|R丨Python|MATLAB|Tableau文本分析第4節
數據分析工具四、R是一種編程語言(不是統計軟件),官方描述為“用于統計計算和圖形的語言和環境”分析方法豐富,不僅包括經典通用統計方法,還擁有大量前沿模型算法操作較為簡便,可通過調用現有模型算法解決一般性問題,也可自行編寫程序解決特殊性問題有開放的網絡社區化平臺,不斷吸引更多專家學者成為開發者,不斷吸引更多、更有效、更前沿的方法融入社交網絡分析數據分析工具預測分析Excel丨SPSS丨SAS|R丨Python
|MATLAB|Tableau文本分析第4節
數據分析工具五、Python功能非常強大,如數據爬取、數據處理、數據分析、機器學習、圖像處理等極簡主義,幾乎沒有多余的符號,使用的是簡單易懂的英語名稱,語法簡潔而清晰擁有豐富且成熟的標準庫,如Numpy(數學計算)、Pandas(數據處理)、Matplotlib(圖形繪制)、Scikit-learn(機器學習)等,現成可直接使用強大的聯接功能,把不同語言(尤其是C/C++)編寫的程序無縫拼接,更好地發揮不同語言和工具的優勢社交網絡分析數據分析工具預測分析Excel丨SPSS丨SAS|R丨Python|MATLAB
|Tableau文本分析第4節
數據分析工具六、MATLABMATLAB(MatrixLaboratory,矩陣實驗室),是一款數學軟件,具有卓越的數值計算能力編程簡單,允許數學形式語言編寫程序,又被稱為“演算紙式科學算法語言”快速排除輸入程序中的書寫、語法等錯誤,加快用戶編寫、修改和調試程序的速度繪圖操作方便,只需調用繪圖函數即可但也有一定劣勢,如程序執行速度較慢,因此選擇MATLAB是編程效率和運行效率兩者之間的權衡
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
評論
0/150
提交評論