




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
本科生畢業設計(論文)PAGEII目錄TOC\o"1-4"\h\z\u摘要 1Abstract II第1章緒論 11.1選題背景與意義 11.2電子商務的發展現狀 21.3我國電子商務的發展階段 31.3.1電子商務的PC互聯時代 31.3.2電子商務的移動互聯時代 41.3.3電子商務的大數據時代 41.4研究方法與主要研究內容 5第2章電子商務的大數據時代 62.1電子商務大數據時代概述 62.2電子商務大數據時代的特點 82.2.1數據量大 82.2.2數據類型多樣 92.2.3數據處理速度快 102.2.4數據價值密度低 102.3電子商務大數據時代的SWOT分析 112.3.1優勢分析 112.3.2劣勢分析 122.3.3機會分析 122.3.4威脅分析 132.4電子商務大數據時代的發展前景 13第3章電子商務大數據時代面對的問題與挑戰 163.1企業對大數據的認知程度 163.2競爭情報系統的數據處理能力 173.3競爭情報體系組織模式 183.4相應的問題解決方案分析 18第4章電子商務大數據時代的機遇 204.1重構精準營銷模式 204.2大數據時代電商IT基礎設施的變革 224.3大數據處理模式 224.4信息檢索服務的強大性 244.5處理能力快速性 254.6數據分析的精準性 254.7信息的安全服務 25第5章阿里巴巴電子商務大數據時代實證分析 275.1阿里大數據信息采集與推送 275.2阿里大數據戰略發展歷程 285.2.1數據產品戰略 285.2.2數據平臺戰略 285.3阿里大數據戰略存在的安全隱患及解決對策 29結束語 30致謝 31參考文獻 32 本科生畢業設計(論文)PAGE30第1章緒論1.1選題背景與意義根據IDC機構的定義,“大數據”是指為了更經濟、更有效地從高頻率、大容量、不同結構類型的數據中獲取有價值的信息而設計的新一代架構技術,人們用它來描述和定義信息爆炸時代產生的海量數據,并命名與之相關的技術發展創新。十年之前,電影《天下無賊》中的經典對白“21世紀什么最貴?人才”被人們爭相傳頌;十年之后,這個問題的答案與時俱進地變為當前市場熱點——數據!當然,此數據已非傳統意義的數據,而是海量、爆發式增長的“大數據”。作為繼云計算、物聯網之后IT產業的又一次顛覆性技術浪潮,大數據被人們視為智慧城市的源泉、精準營銷的根基,其與傳統BI究竟有何區別?未來企業應該如何挖掘海量數據背后的潛在價值?自2009年以來,從IBM、甲骨文到谷歌、亞馬遜、Facebook,從IDC、Gartner到麥肯錫、普華永道、埃森哲,從《紐約時報》到《福布斯》、《財富》周刊,從《科學》、《自然》雜志到MIT《斯隆管理評論》——產業巨頭的實踐探索、連篇累牘的新聞報道,令“大數據”概念深入人心。顧名思義,“大數據”的精髓在于“大”,其不僅說明數據的數量龐大,還意味著數據種類繁多、結構復雜,變化速度飛快。大數據呈現三種特性:Volume(極多的數據量)、Velocity(極快的處理速度)、Variety(極繁的數據種類)。Volume指的是數據量龐大。如今有許多企業已面臨單日數據量以數十、數百TB(萬億字節,1TB=1024GB)的速度增加,而近幾年累加的總數據量也達到了PB(1000個TB)甚至EB(一百萬個TB)等級,這樣的數據量令傳統的數據庫不堪重負。Velocity指企業數據增加的速度越來越快。諸如移動“大數據”成就“智慧營銷”產業聚焦EstateFocus、社交網絡的廣泛應用,使得數據增加的速度比傳統的應用程式快了很多,而在數據迅猛增生的背后,處理、分析的能力和速度必須緊跟其后加以完善。Variety則是指數據的多樣性、復雜性。一方面,互聯網在產生文字資訊的同時,也不斷產出與以往不同的數據:照片、視頻、微博等;另一方面,IT遍及工作生活的每個角落,各種各樣的傳感器、監控器也不斷產生新的數據,各種機器資訊數據的形式日趨復雜多樣,從結構化數據到非結構化數據不斷轉化,催生了對大數據技術的強烈需求。當前,從搜索引擎、社交網絡的普及,到“人手一機”的智能移動終端應用,全球互聯網上的信息總量正以每年30%~50%的增速不斷爆漲。人們每天在Facebook分享幾億條內容,在Twitter轉發15TB信息,在淘寶瀏覽十億條店鋪、商品,創造上億的成交、收藏紀錄及3000多萬條傳感器資訊??IDC發布的數字宇宙研究報告顯示,2011年全球創造的信息數量達到1800EB,如果把這些數據刻錄到CD碟片中,這些碟片可環繞地球30圈。而目前這個數字還在以每年50%的速度增長,到2020年,全球每年產生的數字信息將達到40ZB(1ZB=1024EB),估計是地球上所有沙粒數量的57倍。“在大數據時代,信息將呈爆發式增長,而數據價值密度非常低,找到有價值的數據如同大海撈針,通過怎樣的產品平臺和方式提煉數據價值,是關乎公共事業發展和企業生存的大計,值得大家從戰略角度去思索??”在2012年百度世界營銷分論壇上,百度商業產品與技術執行總監鄭子斌關于“大數據”時代的見解,贏得了產業界的廣泛認同。1.2電子商務的發展現狀隨著電子商務的發展,企業開始應用“虛擬購物”手段在眾多購物場所開展逼近現實的市場研究,以期借助電腦系統在信息處理方面的優勢,用靈活、科學的方法去觀察和分析消費行為,加速市場研究過程。根據哈佛商學院研究人員對多種產品銷售的分析?!疤摂M購物”能獲得較為可靠、準確的市場信息,其記錄數據與實際購物數據之間的相關系數大多在90%以上。由此看來,“虛擬購物”能夠克服傳統市場研究手段的缺點,對企業營銷大有裨益。但電子商務對營銷的影響并不局限在市場研究的范圍內?;ヂ摼W是一個國際性的開放系統,企業一旦涉足其中,就要面對世界各國的潛在顧客即訪問者,于是自覺或不覺地成為進行國際營銷的國際性企業。這就促使企業特別是以往針對本地市場的中小企業去考慮更為復雜的營銷戰略問題。根據目前對“在線購物”所進行的研究,企業與顧客在互聯網上的交易一般是起源于顧客對企業或產品、服務的尋找,即對互聯網上相關企業或產品、服務信息的瀏覽或訪問。這與以往市場交易的起始方向似正相反,從而帶來營銷及相應經營規則的重大改變:其一,根據顧客的訪問信息,企業可以更明確地界定潛在市場。營銷的重點,是最大限度地令訪問者成為消費者,該項工作也可望因企業在互聯網上對多媒體展示內容的巧妙運用而達到很高的成功率;其二,在顧客對企業的訪問過程中,雙方在互聯網上必然產生交互作用,企業因此及時獲得顧客對其產品、服務的信息反饋。當這些信息被輸入先進的生產經營系統時,就可以用批量處理的效率去提供滿足不同顧客需求的產品、服務,實現比批量生產更勝一籌的批量個人化。從一定意義上講,電子商務的國際化發展,預示著未來企業經營革命的方向。電子商務也對企業管理產生影響。在企業內部管理方面,管理人員以往注重對企業施加充分的控制以完成效率目標。組織結構的設立和辦公、生產經營場所的界定,使管理者得以結合等級制進行現場管理控制,控制的主要對象之一,是可以觀測到的員工行為。此時企業的經營效率將更多地取決于組織內部的合作溝通情況,而合作溝通又與組織成員之間的信任程度密切相關。類似的情況也出現在企業間及企業外部管理方面。由于外聯網的出現,多個企業得以共享國際化、專業化程度高、靈活性強、反應速度快等好處。但是在外聯網這種松散的“虛擬”聯盟體系中,一個企業很難對其伙伴企業施加那些在合資合作企業和一般戰略聯盟中行之有效的控制手段,整個外聯網運作的成敗主要取決于各成員企業之間的相互信任和溝通。然而對于在電子商務方面起步較晚的發展中國家如中國及其企業來說,這一機遇同時也是嚴峻的挑戰。實際上,發達國家的企業在應用電子商務以后,經營過程的資源處理活動相對減少,信息處理活動相對增加;能源應用相對減少,知識應用相對增加。這種向信息、知識密集型經營轉換的直接結果,是越來越多的行業出現了類似于“馬太效應”的報酬遞增竟爭機制。從這個角度看,電子商務有可能像過去二三百年間對發端于西方國家的許多重大技術進步的應用那樣,在推動人類物質文明進步的同時,也導致發達國家與發展中國家之間在經濟發展和企業經營等方面差距的進一步擴大。233671.3我國電子商務的發展階段1.3.1電子商務的PC互聯時代電子商務的起源可以追溯到互聯網(Internet)和電子數據交換的出現。前者為電子商務的推廣應用奠定了基礎;后者是電子商務的初始應用方式,至今仍是電子商務的重要組成部分。60年代末期,美國國防部高級項目管理處建立了聯接美國各大學與國防工業合同商之間的電腦網絡ARPANE,繼而開發了該網絡的標準通訊協議TCP/IP。至80年代中期,美國國家科學基金會利用ARPANET的模式形成了自己的電腦網絡NSFNE,并逐漸與ARpANET合并。與此同時,諸如Usenet、llTNET,經由各自的電腦系統以共用的交易標準進行商業信息的交換,這就是電子數據交換。70年代中期,美國運輸行業制定了Tl)cc交易標準,率先應用這一先進的商務手段。其后美國國家標準局在Tl)CC的基礎上制定了ANslX12交易標準,并負責對增值網的合格認證工作,促進了電子數據交換在多個產業部門的應用。近年來,電子數據交換的管道進一步從私人線路和增值網擴展到互聯網上。用戶急劇增多。據估計,目前全美使用電子數據交換的企業已經超過5萬家,到2000年時將達20萬家左右,其應用前景由此可見一斑。1993年9月,美國克林頓政府發布規劃信息高速公路的行動綱領,將電子商務、遠程教學、電子醫療列為三大信息支柱項目,一系列旨在加速信息高速公路建設的公共政策也相繼出臺,這對推廣電子商務的應用有很大的幫助。與此同時,www服務器及相關技術的出現,為企業提供了在互聯網上傳輸內容豐富、栩栩如生的多媒體信息的手段,從而得以在網絡上開展內外部經營管理活動,如生產經營管理、人力資源管理、財務管理、營銷、咨詢服務等。企業界和一般消費者對新一代基于互聯網信息技術的逐步接受,也成為電子商務應用的另一種不容忽視的推動力。目前電子商務的內容已經十分廣泛,覆蓋企業經營的許多個方面。電子商務的一般框架可圖示如下:圖1電子商務的概念框架1.3.2電子商務的移動互聯時代移動互聯網是一個全國性的、以寬帶IP為技術核心的,可同時提供語音、傳真、數據、圖像、多媒體等高品質電信服務的新一代開放的電信基礎網絡。簡單地說,移動互聯網能讓用戶在移動中通過移動設備(如手機、iPod等移動終端)隨時、隨地訪問Internet、獲取信息,進行商務、娛樂等各種網絡服務。終端、網絡與應用是移動互聯網的3個要素。正是由于中國3G網絡的投入運營,iPhone、Android等智能手機終端以及應用平臺的出現,才使得移動互聯網得以如此迅猛地發展。中國目前約有8.4億的手機用戶、3.02億的手機網民,新興且前景光明的移動互聯網成為眾企業垂涎的蛋糕。諸如新浪微博、街旁、米聊等,甚至是開心網、優酷也都紛紛推出自己的手機客戶端。中國社會化媒體幾乎都可以從國外找到原型,從Youtube到優酷、土豆,從Twitter到新浪、騰訊微博,以及各種消費點評、問答百科、位置服務等,這些媒體為普通用戶提供了極大的互動交流空間。隨著中國的互聯網產業進入一個持續、快速、穩定的發展時期,豐富多彩的互聯網應用已成為國人生活中必不可少的部分。移動互聯網應用繽紛多彩,娛樂、商務、信息服務等各種各樣應用開始滲入人們的基本生活。手機電視、視頻通話、手機音樂下載、手機游戲、手機IM、移動搜索、移動支付等移動數據業務開始帶給用戶新的體驗。1.3.3電子商務的大數據時代大數據(bigdata),或稱巨量資料,指的是所涉及的資料量規模巨大到無法透過目前主流軟件工具,在合理時間內達到擷取、管理、處理、并整理成為幫助企業經營決策更積極目的的資訊。業界將其特點歸結為4V——Volume(數據體量巨大)、Velocity(數據類型繁多)、Variety(價值密度低)、Veracity(處理速度快)。與傳統數據相比較,大數據包含數據交換、互聯、質量、安全等數據體系建設以及建設上層數據應用的整個生態圈。在大數據時代浪潮中,時間每過去3分鐘,全球將會產生6.12億封郵件,6000萬張照片,將會有18.3萬小時的音樂被下載,有76.4個視頻在優酷被上傳,有14.1萬個程序在蘋果商店被使用,支付寶上將產生4400萬人民幣的交易額。這種爆炸性增長的數據量對于企業發展來說,是一筆取之不盡、用之不竭的財富。阿里巴巴、京東商城等眾多網絡巨頭正因為看中了這座金礦,紛紛提出將數據作為未來發展的重要戰略之一。2013年,電商的競爭很大程度上就是大數據的競爭,大數據將貫穿整個電商的業務流程,成為公司核心競爭力。目前,大數據在現實世界中已有著非常廣泛的分布和應用,包括醫療信息、視頻監控、移動設備、智能設備、非傳統IT設備、傳統IT信息的非傳統應用以及特定行業需求等。245431.4研究方法與主要研究內容近年來,伴隨著互聯網、3S技術(GPS、GIS、RS)、以及智能手機的迅速發展,人文社會科學領域的研究數據獲取與處理已經出現了新的趨向。主要包括:利用軟件對網絡數據進行挖掘;利用GPS或LBS設備,結合GIS或網絡日志來采集與分析居民行為數據;利用網絡地圖對獲取的數據進行可視化開發。這些技術可以作為大數據時代城市時空間行為研究數據的重要來源,將有利于擴大研究的范圍,并增加研究結果的精確性。網絡數據挖掘是計算機科學研究的重要內容,包括內容挖掘、結構挖掘和使用挖掘3種類型。其中,內容挖掘是對網頁文本和媒體數據的獲取,用于研究用戶活動狀態和特征;結構挖掘是對網頁鏈接結構進行分析,用于評估網頁的資源量;使用挖掘則是通過挖掘網頁訪問的日志記錄,以便提供個性化的產品和服務以此來研究電子商務的大數據時代。30878第2章電子商務的大數據時代近年來,以互聯網、物聯網、電信網、廣電網、無線寬帶網為基礎的智慧城市建設帶來了數據量的爆發式增長,“大數據”像血液一樣遍布智慧交通、智慧醫療、智慧生活、智慧營銷等城市生活的方方面面,并推動社會職能部門及企業決策者們從“經驗治理”向“科學治理”轉型。如何挖掘海量數據的潛在價值,為城市治理、市民生活、企業營銷提供可靠的決策建議,是智慧城市發展所面臨的重要課題,亦是企業在未來市場競爭中搶占先機的關鍵。2.1電子商務大數據時代概述“大數據”時代(“AgeofBigData”)這一說法的流行得力于全球知名咨詢公司麥肯錫的倡導,英國牛津大學教授維克托·邁爾·舍恩伯格更在其《大數據時代:生活、工作和思維的改變》中大聲疾呼,斷言一個史無前例的大數據時代已經來臨!“大數據”(“Bigdata”)顯然并不是一個嚴格的學理性概念,而更多地是一個描述性話語。所謂大數據,也就是大型數據集,一般在10TB規模左右。多個數據集一整合,就會形成PB級,甚至以E、Z等為計量單位的數據量。過去幾年全世界產生的數據量甚至超過了歷史上4萬年來產生的數據量的總和。這種激增的數據量勢必突破傳統常規軟件的信息處理能力極限。大數據的說法正是在與傳統數據庫的比照中形成的,也注定只能是一個暫時性的權宜說法。隨著信息技術的進一步發展,更大的數據集合會不斷出現,今日所謂的“大數據”勢必相形見絀。IT業界通常將大數據的特征概括為四個“V”:體量(volumes)巨、類別(variety)多、速度(Velocity)快、價值(Value)大。大數據之大首先是指體量大。大數據和傳統所說的數據庫有所不同。誕生在20世紀70年代的傳統數據庫是小型的、單一的、孤立的,基于小范圍的抽樣樣本統計。而大數據則要求窮盡一切相關樣本,搜集盡可能全面的數據,大數據的數據集擁有的不是支離破碎的割裂數據,不是數據片段,而是完整的數據。數據的海量與數據的完整性使大數據有著傳統的數據庫無法比擬的信息優勢。大數據之大還在于氣魄大、境界大。大數據的來源也有別于傳統的數據庫,顯示出了跨領域、跨門類、多類別的整合氣魄和越界意識,如果說非結構化數據、半結構化數據一直沒有被納入經典數據庫技術SQL的視野,那么大數據的數據則源自多種數據源,是一種綜合數據,兼收并蓄了結構化數據、半結構化數據、非結構化數據等各種類別和格式的數據,尤其是包含了大量的視頻音頻數據。這使其信息占有量和信息復雜度為傳統數據庫所無法比擬。這些海量數據本身就會凸顯以往不為人們注意的事物的多方面的關聯性,因此這種數據更能顯示出多方面的信息內涵,信息質量更為優化,信息意味更為繁復。大數據與傳統數據庫的差異還在于它并不是一個整齊排列,有著固定層次結構、劃一技術標準、反饋遲滯后延的物態化的實體,而是一個靈活、越界、即時、交互、綜合的動態過程,可以在瞬間完成信息分析,形成數據圖譜,滿足社會各界人士的實時性需求。大數據之大更在于處理信息的手筆大。大數據的要害不在于數據存儲技術的升級躍進,大數據的“大”不是指存儲和備份的數據大,在根本上它是指處理數據所使用的模式“大”。大數據在今天的時代里儼然成為了一種新的產業資源,通過盡力搜集整理全面數據、完整數據、綜合數據并對數據進行深度智能分析和建模,可以顯示出各種事物的潛在關聯,挖掘出各種以往不為人知的相關性,判斷事物發生的概率,預測事物變化的走向,預見某種社會趨勢,從而使魚龍混雜的信息在大數據時代的社會管理、商業營銷、產業開發、文化創意、醫療保健等方面更能發揮見微知著的預見性價值,據此各行各業都可以有的放矢地制定新策略,成就新創意,開發新產品,推出新業務。雖然早在1980年著名未來學家阿爾文·托夫勒在其《第三次浪潮》一書中已經提到“大數據”一詞。在20世紀90年代,“數據倉庫之父”比爾·伊蒙(BillInmon)更明確提出了“大數據”的概念。但在當時“大數據”的說法并沒有引起世人的高度關注。最近幾年大數據一說不脛而走,顯然與信息量的持續攀升、大數據的俯拾即是、云計算的大量運用息息相關。一夜之間,人類儼然進入了一個全新的“大數據”時代。實際上,大數據時代的到來早有征兆。20世紀80、90年代所謂的信息爆炸可謂是今日的大數據潮流的先聲。只不過,目前物聯網、移動通訊、互聯網每時每刻都在不斷滋生潮水般的海量數據,人類的信息數據在以幾何指數形式激增。根據市場調研公司IDC的報告,全球信息總量每過兩年就會增長一倍。據統計,1分鐘內,微博網站推特上新發信息超過10萬條,臉譜上的瀏覽量超過600萬,蘋果應用商店下載次數以萬計,淘寶可賣出幾萬件商品,百度能產生百萬次搜索記錄。而以往的數字化信息存儲和處理能力嚴重限制了信息的采集、存儲量。這些TB級、PB級海量數據的存儲、挖掘、處理、分析、利用對于以往時代來說是不可想象的。在過去,存儲的主要是模擬數據,報紙、書籍、圖片、磁帶等媒介是信息存儲的主要載體,甚至在2000年的時候,數字存儲信息仍只占全球數據量的四分之一;當時,另外四分之三的信息都存儲在報紙、膠片、黑膠唱片和盒式磁帶這類媒介上。P23數據處理技術和處理能力的局限使大量在交通、醫療、商業、管理中產生的數據資料都難以得到長期有效的存儲。直到MPP、MapReduce、Hadoop平臺、云計算等新的數據處理技術誕生后,海量的大數據才被深度挖掘。處理,顯示出了前所未有的價值。但大數據潮流的深層根源顯然還是利潤最大化的商業沖動,大數據產業說到底不過是數字經濟、知識經濟的最新形態,這也是“大數據”這個為管理咨詢公司、經濟學家、IT界巨頭歡欣鼓舞的概念招人質疑的重要原因。但是商業化潮流既可能導致文化的沙化、社會的急功近利、商業的唯利是圖,也會成為文化創新的不竭動力,開啟知識創造的新天地和新境界。事實上,正是近年來數字化領域的商業逐利沖動驅使商家不斷改換思路,升級設備,實現數字技術創新,提升數字服務水準,開辟新的產業領域,開發新的文化產品,開創了蔚為潮流的大數據產業,也開啟了有別于互聯網時代的“數字化生存“的新境界。2.2電子商務大數據時代的特點大數據是一個較為抽象的概念,正如信息學領域大多數新興概念,大數據至今尚無確切、統一的定義。在維基百科中關于大數據的定義為:大數據是指利用常用軟件工具來獲取、管理和處理數據所耗時間超過可容忍時間的數據集。個人認為,這并不是一個精確的定義,因為無法確定常用軟件工具的范圍,可容忍時間也是個概略的描述。IDC在對大數據作出的定義為:大數據一般會涉及2種或2種以上數據形式。它要收集超過100TB的數據,并且是高速、實時數據流;或者是從小數據開始,但數據每年會增長60%以上。這個定義給出了量化標準,但只強調數據量大,種類多,增長快等數據本身的特征。研究機構Gartner給出了這樣的定義:大數據是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。這也是一個描述性的定義,在對數據描述的基礎上加入了處理此類數據的一些特征,用這些特征來描述大數據。當前,較為統一的認識是大數據有四個基本特征:數據規模大(Volume),數據種類多(Variety),數據要求處理速度快(Velocity),數據價值密度低(Value),即所謂的四V特性。這些特性使得大數據區別于傳統的數據概念。大數據的概念與“海量數據”不同,后者只強調數據的量,而大數據不僅用來描述大量的數據,還更進一步指出數據的復雜形式、數據的快速時間特性以及對數據的分析、處理等專業化處理,最終獲得有價值信息的能力。2.2.1數據量大大數據聚合在一起的數據量是非常大的,根據IDC的定義至少要有超過100TB的可供分析的數據,數據量大是大數據的基本屬性。導致數據規模激增的原因有很多,首先是隨著互聯網絡的廣泛應用,使用網絡的人、企業、機構增多,數據獲取、分享變得相對容易,以前,只有少量的機構可以通過調查、取樣的方法獲取數據,同時發布數據的機構也很有限,人們難以短期內獲取大量的數據,而現在用戶可以通過網絡非常方便的獲取數據,同時用戶在有意的分享和無意的點擊、瀏覽都可以快速的提供大量數據;其次是隨著各種傳感器數據獲取能力的大幅提高,使得人們獲取的數據越來越接近原始事物本身,描述同一事物的數據量激增。早期的單位化數據,對原始事物進行了一定程度的抽象,數據維度低,數據類型簡單,多采用表格的形式來收集、存儲、整理,數據的單位、量綱和意義基本統一,存儲、處理的只是數值而已,因此數據量有限,增長速度慢而隨著應用的發展,數據維度越來越高,描述相同事物所需的數據量越來越大。以當前最為普遍的網絡數據為例,早期網絡上的數據以文本和一維的音頻為主,維度低,單位數據量小。近年來,圖像、視頻等二維數據大規模涌現,而隨著三維掃描設備以及Kinect等動作捕捉設備的普及,數據越來越接近真實的世界,數據的描述能力不斷增強,而數據量本身必將以幾何級數增長。此外,數據量大還體現在人們處理數據的方法和理念發生了根本的改變。早期,人們對事物的認知受限于獲取、分析數據的能力,一直利用采樣的方法,以少量的數據來近似的描述事物的全貌,樣本的數量可以根據數據獲取、處理能力來設定。不管事物多么復雜,通過采樣得到部分樣本,數據規模變小,就可以利用當時的技術手段來進行數據管理和分析,如何通過正確的采樣方法以最小的數據量盡可能分析整體屬性成了當時的重要問題。隨著技術的發展,樣本數目逐漸逼近原始的總體數據,且在某些特定的應用領域,采樣數據可能遠不能描述整個事物,可能丟掉大量重要細節,甚至可能得到完全相反的結論,因此,當今有直接處理所有數據而不是只考慮采樣數據的的趨勢。使用所有的數據可以帶來更高的精確性,從更多的細節來解釋事物屬性,同時必然使得要處理數據量顯著增多。2.2.2數據類型多樣數據類型繁多,復雜多變是大數據的重要特性。以往的數據盡管數量龐大,但通常是事先定義好的結構化數據。結構化數據是將事物向便于人類和計算機存儲、處理、查詢的方向抽象的結果,結構化在抽象的過程中,忽略一些在特定的應用下可以不考慮的細節,抽取了有用的信息。處理此類結構化數據,只需事先分析好數據的意義以數據間的相關屬性,構造表結構來表示數據的屬性,數據都以表格的形式保存在數據庫中,數據格式統一,以后不管再產生多少數據,只需根據其屬性,將數據存儲在合適的位置,就可以方便的處理、查詢,一般不需要為新增的數據顯著的更改數據聚集、處理、查詢方法,限制數據處理能力的只是運算速度和存儲空間。這種關注結構化信息,強調大眾化、標準化的屬性使得處理傳統數據的復雜程度一般呈線性增長,新增的數據可以通過常規的技術手段處理。而隨著互聯網絡與傳感器的飛速發展,非結構化數據大量涌現,非結構化數據沒有統一的結構屬性,難以用表結構來表示,在記錄數據數值的同時還需要存儲數據的結構,增加了數據存儲、處理的難度。而時下在網絡上流動著的數據大部分是非結構化數據,人們上網不只是看看新聞,發送文字郵件,還會上傳下載照片、視頻、發送微博等非結構化數據,同時,遍及工作、生活中各個角落的傳感器也時刻不斷的產生各種半結構化、非結構化數據,這些結構復雜,種類多樣,同時規模又很大的半結構化、非結構化數據逐漸成為主流數據。如上所述,非結構化數據量已占到數據總量的75%以上,且非結構化數據的增長速度比結構化數據快10倍到50倍。在數據激增的同時,新的數據類型層出不窮,已經很難用一種或幾種規定的模式來表征日趨復雜、多樣的數據形式,這樣的數據已經不能用傳統的數據庫表格來整齊的排列、表示。大數據正是在這樣的背景下產生的,大數據與傳統數據處理最大的不同就是重點關注非結構化信息,大數據關注包含大量細節信息的非結構化數據,強調小眾化,體驗化的特性使得傳統的數據處理方式面臨巨大的挑戰。2.2.3數據處理速度快要求數據的快速處理,是大數據區別于傳統海量數據處理的重要特性之一。隨著各種傳感器和互聯網絡等信息獲取、傳播技術的飛速發展普及,數據的產生、發布越來越容易,產生數據的途徑增多,個人甚至成為了數據產生的主體之一,數據呈爆炸的形式快速增長,新數據不斷涌現,快速增長的數據量要求數據處理的速度也要相應的提升,才能使得大量的數據得到有效的利用,否則不斷激增的數據不但不能為解決問題帶來優勢,反而成了快速解決問題的負擔。同時,數據不是靜止不動的,而是在互聯網絡中不斷流動,且通常這樣的數據的價值是隨著時間的推移而迅速降低的,如果數據尚未得到有效的處理,就失去了價值,大量的數據就沒有意義。此外,在許多應用中要求能夠實時處理新增的大量數據,比如有大量在線交互的電子商務應用,就具有很強的時效性,大數據以數據流的形式產生、快速流動、迅速消失,且數據流量通常不是平穩的,會在某些特定的時段突然激增,數據的涌現特征明顯,而用戶對于數據的響應時間通常非常敏感,心理學實驗證實,從用戶體驗的角度,瞬間(moment,3秒鐘)是可以容忍的最大極限,對于大數據應用而言,很多情況下都必須要在1秒鐘或者瞬間內形成結果,否則處理結果就是過時和無效的,這種情況下,大數據要求快速、持續的實時處理。對不斷激增的海量數據數據的實時處理要求,是大數據與傳統海量數據處理技術的關鍵差別之一。2.2.4數據價值密度低數據價值密度低是大數據關注的非結構化數據的重要屬性。傳統的結構化數據,依據特定的應用,對事物進行了相應的抽象,每一條數據都包含該應用需要考量的信息,而大數據為了獲取事物的全部細節,不對事物進行抽象、歸納等處理,直接采用原始的數據,保留了數據的原貌,且通常不對數據進行采樣,直接采用全體數據,由于減少了采樣和抽象,呈現所有數據和全部細節信息,可以分析更多的信息,但也引入了大量沒有意義的信息,甚至是錯誤的信息,因此相對于特定的應用,大數據關注的非結構化數據的價值密度偏低,以當前廣泛應用的監控視頻為例,在連續不間斷監控過程中,大量的視頻數據被存儲下來,許多數據可能是無用,對于某一特定的應用,比如獲取犯罪嫌疑人的體貌特征,有效的視頻數據可能僅僅有一兩秒,大量不相關的視頻信息增加了獲取這有效的一兩秒數據的難度。但是大數據的數據密度低是指相對于特定的應用,有效的信息相對于數據整體是偏少的,信息有效與否也是相對的,對于某些應用是無效的信息對于另外一些應用則成為最關鍵的信息,數據的價值也是相對的,有時一條微不足道的細節數據可能造成巨大的影響,比如網絡中的一條幾十個字符的微博,就可能通過轉發而快速擴散,導致相關的信息大量涌現,其價值不可估量。因此為了保證對于新產生的應用有足夠的有效信息,通常必須保存所有數據,這樣就使得一方面是數據的絕對數量激增,一方面是數據包含有效信息量的比例不斷減少,數據價值密度偏低。2.3電子商務大數據時代的SWOT分析2.3.1優勢分析1、資源優勢對檔案館而言,其最大的優勢在于所擁有的資源。首先,檔案館信息資源總量龐大且增長迅速。2008年,全國各級國家檔案館共保存檔案1.93億卷,較上年增加1769萬卷,增幅達10%,而到2011年各級國家檔案館館藏已達3.3億卷,到2020年各級國家檔案館館藏將達到6億多卷。其次,檔案館數據資源種類繁多。在檔案館的數據資源中,既有數字化的紙質檔案、接收進館的電子文件、音視頻檔案等,也有用戶利用信息、服務數據等數據資源。再次,檔案館數據資源價值很高。與其它數據資源等相比,“檔案是一種最真實、最可靠、最具權威性與憑證性的原生信息資源”,這就使得數據洪流時代檔案的價值與作用更加凸顯。2、行業領先首先,各級國家檔案館是集中統一保管黨和國家檔案的科學文化事業機構,是永久保管檔案的基地,是社會各界利用檔案史料的中心。作為一種機構性存在與制度性安排,檔案館的公共性、服務性、公平性、永久性等特征,使得檔案館成為人們心目中最系統、最值得信賴的數據資源庫。大數據時代,檔案館維護和傳承記憶的功能將更加重要,構建一個“基于互聯網的,以檔案數字資源為主體,以文本、圖片、音頻、視頻等為形式,為中華民族集體記憶的建構和傳承提供文獻支撐的‘中國記憶’數字將成為檔案人新的目標與使命。其次,檔案館在數據處理上具有豐富的經驗??疾鞌祿芷?,涉及到數據生成、采集、傳輸、處理、分析、應用等階段,而這也恰恰是檔案館熟悉的業務范疇。因此,檔案館可以通過模擬或借鑒傳統檔案處理的整套業務規范或流程來指導大數據的處理,“對知識規范性控制的思想和技術方法恰巧在大數據領域有了用武之地”。2.3.2劣勢分析1、認識問題作為一個檔案大國,幾千年檔案工作的歷史積淀在我國形成了豐富多彩的檔案文化,也形成了一套獨特的檔案思維模式。大數據時代,有可能出現兩種認識問題:一是沒有大數據意識,即無視大數據時代的來臨,采取固守原狀的鴕鳥政策,這將使檔案館失去未來的發展機會,甚至會失去存在的意義。二是泛大數據化,即不加鑒別地收集保存數據,從而使檔案館陷入數據沼澤,進而喪失自己的特色,顯然這也是檔案館無法承受的。因此,大數據背景下,科學認識大數據的內涵,合理地選擇切入點,將是檔案館在大數據時代立足的首要問題,而這或許也是檔案館最難解決的一個問題。2、人才瓶頸在檔案事業快速發展的今天,我國的檔案人才隊伍建設卻不盡如人意。一是專業人才不足。以2006年為例,全國各?。ǔ_灣外)、自治區、直轄市各級檔案館中具備博士學位且畢業于檔案學專業的工作人員為零,具備碩士學位且畢業于檔案學專業的工作人員只有26人,具備學士學位且畢業于檔案學專業的工作人員只有1598人。二是信息技術人才的匱乏?!按髷祿菽绻F在存在的話,恐怕并非數據的作用被過分夸大,而主要是由于真正具備資質的數據科學家數量不足導致的?!睋y計,到2018年美國將面臨150萬個掌握大數據應用分析方法的技術經理和分析師缺口,另缺14萬至19萬具有“深度分析”經驗的工作者。從目前來看,大數據成功的案例無不是特定的項目,例如“啤酒與尿布”,因此,現階段檔案館人員最需要的是懂得用戶的需求,因為數據越大,用戶的個性需求就越多樣,服務切口就越小。毫無疑問,這需要檔案人員擁有極強的洞察能力。2.3.3機會分析1、需求旺盛隨著信息環境的變化和社會檔案意識的覺醒,用戶的檔案信息需求層面不斷加深,需求領域也不斷拓展。首先,精品化的信息需求與專業化的知識服務要求。隨著社會檔案意識的增強,“用戶關注的已不再是簡單的獲取文獻,而是如何從繁雜的信息環境中捕獲和析取解決所面臨問題的信息內容,并將這些信息融化或重組為相應的知識或解決方案”。其次,個性化的信息需求與互動式的信息服務要求。隨著用戶信息素養的不斷提高,檔案用戶已從信息服務的“被動接受者”轉換為“主動選擇者”,他們更希望獲得一種為自己量身定做的個性化信息服務。同時,用戶在獲取信息的過程中,希望能與館員進行人際交流與相互溝通,從而獲取文化的熏陶、思想的碰撞及心靈的浸潤。2、政策導向2010年國家檔案局《數字檔案館建設指南》頒布,提出運用多種技術手段“采集具有重要保存價值的各類數字信息,進行資源整合”、“對數字檔案信息進行深度挖掘,開展增值服務”、“開展檔案利用訪問量統計、分布分析、輿情分析等工作”。2012年楊冬權在全國檔案局館長會議上講話指出,要在新的起點上進一步推進檔案信息化,即從過去以技術為主導向以服務為主導轉變,從注重應用信息技術向注重檔案內容信息化轉變,樹立“內容為王”的觀念,建設以服務為主導的檔案信息化體系。這些政策性文件及講話,將為大數據在檔案館中的應用帶來更多的政策支持,也為大數據時代檔案館的發展帶來更多機遇。2.3.4威脅分析1、信息安全大數據時代,數據量之大、數據種類之多、對數據處理速度與時間之快,都對傳統的檔案館安全體系造成極大沖擊。從基礎技術角度而言,當前檔案館廣泛應用的關系型數據庫(SQL)技術,經過長期實踐與完善,在維護數據安全方面已經設置了嚴格的訪問控制和隱私管理工具,而大數據依托的基礎技術是非關系型數據庫(NoSQL),其在成熟度和可訪問性方面都不如傳統數據庫技術。從核心價值角度而言,大數據的關鍵在于信息爆炸時代對數據價值的再挖掘。然而,數據分析技術的發展,對國家安全及用戶隱私產生了極大威脅,數據持有人可以從歷史數據中推測判斷出行為人的下一步動作——個人行動軌跡、行為軌跡,甚至思維軌跡。2、用戶流失大數據時代,檔案館面臨著網絡、圖書館及信息服務公司等的競爭,用戶流失是不爭的事實。以網絡為例,網絡信息資源的豐富使用戶足不出戶就可以獲取所需的信息,用戶對檔案館的穩定性與忠誠度下降。據統計,“超過90%的用戶在查找信息時,會首選搜索引擎,搜索已經成為公眾獲取信息的代名詞”。因此,數字化時代,檔案館如何實現“數據化生存”,將是不得不慎重考慮的難題。2.4電子商務大數據時代的發展前景20年后互聯網發生的巨大的變化,移動互聯、社交網絡、電子商務大大拓展了互聯網的疆界和應用領域。我們在享受便利的同時,也無償貢獻了自己的“行蹤”?,F在互聯網不但知道對面是一只狗,還知道這只狗喜歡什么食物、幾點出去遛彎,幾點回窩睡覺。我們不得不接受這個現實,每個人在互聯網進入到大數據時代,都將是透明性存在。在物理世界中,許多行為是“人似秋鴻有來信,事如春夢了無痕”。但在互聯網上卻是“處處行跡處處痕”。任何行為,皆有前兆。要買商品,必先瀏覽,對比,詢價;要搞活動,必先征集、討論、策劃;互聯網上恰恰保留了大量的前兆性的數據,通過對這些數據的收集和分析,互聯網企業具備了預判物理世界中,人類未來行為的能力。收集分析海量的各種類型的數據,并快速獲取影響未來的信息的能力,這就是大數據技術的魅力。事實上大數據的來源非常廣泛,天上的衛星、地上汽車、埋在土壤里面的各類傳感器,無時無刻不在生成大量的數據。這些數據如果綜合利用,產生的社會價值和經濟價值將是難以估量的。第一篇報告——《大數據時代即將到來》,之所以用時代這個詞作為標題,是因為大數據是歷史上首個可以預測人類短期行為的技術。未來的不確定性,是人類產生恐懼的根源之一,也是各類組織最為頭痛的問題。大數據技術技術讓我們看到解決未來預測問題的一絲曙光?!?8年初,阿里巴巴平臺上整個買家詢盤數急劇下滑,歐美對中國采購在下滑。海關是賣了貨,出去以后再獲得數據;而我們提前半年時間從詢盤上推斷出世界貿易發生變化了。”通常而言,買家在采購商品前,會比較多家供應商的產品,反映到阿里巴巴網站統計數據中,就是查詢點擊的數量和購買點擊的數量會保持一個相對的數值。統計歷史上所有買家、賣家的詢價和成交的數據,可以形成詢盤指數和成交指數。這兩個指數是強相關的。詢盤指數是前兆性的,前期詢盤指數活躍,就會保證后期一定的成交量。所以當馬云觀察到詢盤指數異乎尋常的下降,自然就可以推測未來成交量的萎縮。這種統計和分析,如果缺少大數據技術的支持,是難以完成的。這次事件,馬云提前呼吁、幫助成千上萬的中小制造商準備過冬糧,從而贏得了崇高的聲譽。推動大數據技術在各行業普及的原動力,來自于企業改善自身經營水平、提升經營效率的需要。長期以來,困擾企業最大的難題就是“如何更加了解他的客戶”。索尼公司的創始人出井伸之解釋索尼衰落的根本原因時,說了一段發人深省的話:“新一代基于互聯網DNA企業的核心能力在于利用新模式和新技術更加貼近消費者、深刻理解需求、高效分析信息并做出預判,所有傳統的產品公司都只能淪為這種新型用戶平臺級公司的附庸,其衰落不是管理能扭轉的?;ヂ摼W的魅力就是‘thepoweroflowend’”。這句話有兩層含義。第一,傳統企業衰落的根本原因在于難以貼近消費者,難以了解消費者的真正的需求。第二,互聯網公司強項恰恰是天然的貼近消費者,了解消費者。傳統企業必然嫁接互聯網企業的DNA,否則必將淪為互聯網企業的附庸。這一輪的變革,事關絕大多數企業的命運。可以看到,用大數據這個視角,可以察企業的興衰。第一,對大數據不關心,不了解。必步索尼的后塵;第二,擁有大量的數據,并善加運用的公司,必將贏得未來。時代變了,判斷企業價值的標準、判斷軟件價值的標準也變了。我們判斷軟件價值的標準是它所協助管理的數據的規模和活性。我們判斷公司價值的標準是其擁有數據的規模、活性,以及收集、運用數據的能力。圍繞數據和最終用戶,我們觀察到計算機行業的發展有三大趨勢:第一應用軟件一定會泛互聯網化。第二,行業會垂直整合。越靠近終端用戶的公司,在產業鏈上將擁有更大的發言權。第三,數據將成為資產。泛互聯網化是收集數據的重要渠道,沒有泛互聯網化的應用軟件,公司就難以獲得用戶的行為數據;行業垂直整合趨勢在數據運用層面,通過搜集大量的用戶數據,更貼近用戶,更理解用戶,為其提供更適當的服務;數據成為資產更強調數據的戰略意義。22365第3章電子商務大數據時代面對的問題與挑戰大數據作為新興產業熱點,在美國政府“大數據”計劃的引導和IBM、甲骨文、EMC等跨國企業的推動下,成為繼云計算、物聯網之后信息技術領域的又一亮點。據開源分析機構Wikibon預計,2012年全球大數據企業營收為50億美元,未來5年的市場復合年增長率將達到58%,到2017年將達到500億美元。IDC則預測大數據技術與服務市場將從2010年的32億美元攀升至2015年的169億美元。產業界對大數據的發展前景充滿信心,然而從全球總體發展情況來看,大數據當前還處于起步階段,理論研究快于產業發展,廠商宣傳多于實際應用。加快研發大數據關鍵技術,布局大數據產業鏈,推動大數據示范應用,對搶占新一輪信息產業發展制高點,具有重要意義。第一次工業革命,英國和法國成為世界的領導者;第二次工業革命,奠定了美國的世界霸主地位;時至今日,面對云計算、物聯網、大數據等新技術、新業態、新模式共同支撐的第三次工業革命,中國面臨歷史性的挑戰與機遇。隨著國內外產業發展風起云涌,大數據時代的浪潮奔騰而至,上海在相關領域積累了哪些先發優勢?在大數據應用及產業化實踐方面有怎樣的發展思路?上海市經濟和信息化委員會主任李耀新所描繪的大數據產業發展藍圖,將為產業界帶來重要啟發。在大數據時代,數據逐漸成為企業最重要的資產之一,決策行為將日益基于數據分析做出,而不是像過去更多憑借經驗和直覺。作為構筑在數據分析和信息處理基礎上的競爭情報,它的發展將面臨著全新的信息空間所帶來的機遇和挑戰。230073.1企業對大數據的認知程度大數據時代,企業的生態環境發生了巨大的變化,無處不在的智能終端、隨時在線的網絡傳輸、互動頻繁的社交網絡,使得企業有機會進行大規模的精準化的競爭對手、競爭態勢以及消費者行為研究。作為企業智囊團的競爭情報,應該主動地擁抱這種變化,構建基于大數據的競爭情報體系。然而,據Coonect的一份調查報告顯示,49%的美國數據聚合部門高層將大數據定義為所有外部和內部的網頁數據的聚合,16%的人則定義其為由企業存儲和管理的大量的內部數據;7%的人則認為這是和網絡相關的數據和內容服務商用來為他們運營服務的數據。尤為致命的是,大多數中小企業認為大數據是Google、Amazon、Facebook、阿里巴巴、京東商城等公司才關心的技術。對大數據認識的不足,無疑會使企業競爭情報工作落后于時代的發展。如果采取無所作為、固守原狀的鴕鳥政策,那么企業競爭情報工作將會失去未來的發展機會,甚至會失去存在的意義。在大數據時代下,電子商務的競爭已經成為基于數據的競爭。數據就是電子商務企業的財富和金礦,誰擁有大數據,誰就有制勝的砝碼,誰就可能成為大贏家。然而網絡上的消費者并不會直接告訴企業其需求,電子商務企業必須去收集、分析、跟蹤、對比消費者在互聯網上留下的種種“足跡”、評論、圖片、視頻等。當今極速爆炸的信息量遠遠超越了大部分企業IT架構和基礎設施的承載能力,其實時性要求也大大超越了現有的計算能力。ColumbiaBusinessSchool’sCenteronGlobalBrandLeadership和NYAMA2012年2月份發布的報告中指出:39%的營銷業者表示很難收集到可以及時支持個性化營銷的用戶數據;51%的營銷者認為組織內數據共享機制缺乏是應用大數據的最大障礙。此外,挖掘大數據的價值類似沙里淘金,由于大數據價值密度低的特性更加增添了數據收集工作的巨大性和繁重性。擁有大數據是利用大數據的前提條件,若不具備整合大數據收集和使用的能力,企業就很難在廣告和多個營銷渠道中提供真正個性化和精確的產品和服務推薦,而擁有大數據的企業則能在競爭中脫穎而出,不戰而勝。對于中小型電子商務企業來說,擁有大數據的挑戰將顯得更加的突出和嚴峻。因此,面對此挑戰,電子商務企業首先應該從思想上認識到大數據的價值,高度重視數據的收集工作。其次,企業需要重構其IT架構,加大基礎設施的承載能力,租用足夠的空間,進一步加強信息化投資和建設,適應大數據時代的要求。3.2競爭情報系統的數據處理能力龐大而復雜的數據考驗著競爭情報系統的技術體系和數據處理能力。首先在存儲上就是一個非常嚴重的問題。未來競爭情報系統將會面對TB級的數據集,而傳統的數據庫部署不能處理TB級別的數據;其次是傳統的數據庫技術不能對非結構化數據直接進行處理,目前大多數的非結構化數據分析工具也是轉換成結構化數據之后再進行處理。這一方面降低了情報分析的時效,另一方面也丟失了非結構化數據隱含的關系,而這些關系很有可能是非常重要的情報。另外,從原始數據到競爭情報的提煉過程,不僅是對IT技術人員的挑戰,也是對業內專家的挑戰,因為數據間的關聯性已不完全都是技術問題,有些關聯只有專業人員才能知道,必須在生態學、數學和統計學、社會網絡學、社會行為心理學等方面專業人員的幫助和解析下,才能建立起合理的數據結構。也就是說,未來的信息提煉需要IT技術人員和行業專家的共同合作。2010年12月,美國的科學技術顧問委員會、信息技術顧問委員會向奧巴馬和國會提交的《規劃數字化未來》的專門報告中把數據收集和使用的工作提到了戰略的高度。該報告的第一個挑戰就是“數據”問題,即:“如何收集、保存、維護、管理、分析、共享正在呈指數級別增長的數據是我們必須面對的一個重要挑戰”。據統計,82%的公司正受到處理海量信息的挑戰,而且他們花很多時間對其進行研究,89%的公司因超負荷處理數據而失去銷售機會。僅僅坐擁大數據并不夠,對大數據的分析和挖掘能力已成為企業的核心競爭力。因此,建議電子商務企業著手部署“大數據戰略”,引進和培養大數據相關人才,創建基于大數據的研發團隊,從技術層面上解決大數據的困難和挑戰,提高挖掘潛在商業價值的能力,從而有效地指導企業制訂精確的行動綱領和采取高效的行動。3.3競爭情報體系組織模式在大數據時代,數據逐漸成為企業最重要的資產之一,決策行為將日益基于數據分析做出,而不是像過去更多憑借經驗和直覺。這意味著,作為構建在數據分析基礎之上的競爭情報系統理應成為企業產品開發、運營設置以及商業模式的基礎和出發點。然而,目前絕大多數中小型企業都沒有專門的競爭情報部門和情報分析專家,即使是在一些大型的企業中,具有競爭情報職能的部門也常常處于分散、被動、輔助的地位。因此,在大數據時代,需要從戰略到戰術層面開始自我的蛻變和進化,對現有競爭情報系統的構架、組織體系、資源配置和權力結構進行重組,讓基于大數據管理與分析的競爭情報職能部門處于企業整體的上游位置,并組織合理的競爭情報系統構架,充分調用各部門的數據資產,實現對大數據的整體把握,為企業提供完整、動態、實時的競爭情報。大數據時代,網絡用戶在互聯網的評論、圖片、視頻、個人信息、興趣愛好、交易信息、訪問的網站等等均被企業記錄在案。企業掌握了大量消費者的行為數據,對大數據進行整合和分析,從而可以發現新的商機,創造新的價值。然而這些數據經常包含消費者的真實信息,如在淘寶網上交易時的真實姓名、家庭住址以及銀行賬號等重要的真實信息,逐漸引起了我們對個人隱私的擔憂。正如美國著名的計算機專家迪博德所言,在信息時代,計算機內的每一個數據、每一個字節,都是構成一個隱私的血肉。信息加總和數據整合,對隱私的穿透力不僅僅是“1+1=2”的,很多時候,是大于2的。因此,針對隱私保護方面的問題,建議電子商務企業和國家從以下三方面著手:(1)電子商務企業應該恪守行業道德,不能將消費者的個人信息進行交易和泄露。(2)企業應該從技術層面上采用先進的隱私保護技術進一步加強用戶的隱私保護,解決由于過度開發或者深度營銷可能造成的用戶隱私侵犯等等問題。(3)隨著大數據應用的發展,隱私保護的問題和概念在不斷地發展,因此國家應該制定與之相應的隱私保護的法律和法規,確實保護公民的隱私權。131383.4相應的問題解決方案分析大數據時代應以智慧創新理念融合大數據與云計算,在大數據洪流中提升知識價值洞察力,實施高效實時個性化運作,建立有效增值的商業模式,確保應對APT之類的新型安全威脅。電信運營商轉型中流量經營已成共識,即以智能管道與聚合平臺為基礎,以擴大流量規模、提升流量層次及豐富流量內涵作為基本經營方向,并以釋放流量價值為基本目標,可見大數據和云計算的深度融合與此流量經營目標十分吻合。實際上已經有一些運營商借助大數據Hadoop云工具管理與分析網絡中的用戶數據,為日常運維及制定市場戰略等提供有效支撐。針對大數據時代的基本特征,加強全方位創新。包括IBM、EMC、HP、Microsoft等在內的IT巨頭,紛紛加速收購相關大數據公司進行技術整合,尋找數據洪流大潮中新的立足點。而涉及人工智能、機器學習等新技術的創新應用,已初顯效益。將大數據時代全方位創新工作和智慧城市發展緊密結合。借助移動互聯網、大數據與云計算的融合、智能運營管道等,建立智能平臺,優化配置城市資源,向真正的智慧城市邁進。借助大數據創新處理技術應對APT安全攻擊。APT安全攻擊的最主要特征為單點隱蔽能力強、攻擊空間路徑不確定、攻擊渠道不確定;同時APT攻擊一旦入侵成功則長期潛伏,攻擊時間上具有持續性。目前,全流量審計方案具備強大的實時檢測能力與事后回溯能力,并可將安全工作人員的分析能力、計算機存儲與運算能力組合在一起,是一種較完整的解決方案。第4章電子商務大數據時代的機遇4.1重構精準營銷模式在大數據時代到來之前,管理者一般會從哪些平臺提取并使用信息數據呢?調查顯示,大部分數據來源于政府數據中心和企業的CRM、BI系統,其中囊括了公民基本信息、顧客資料、市場促銷、廣告活動、展覽策劃及官方網站中的各類結構化數據。而研究顯示,這些信息只能滿足企業正常營銷管理需求中15%的量能,并不夠給出一個重要洞察和發現規律。而其它85%的數據——諸如社交媒體數據、郵件數據、地理位置、音視頻等不斷增加的信息,數據量更大、逐漸廣泛應用、以傳感器為主的物聯網信息,以及風起云涌的移動3G互聯網信息等——都屬于大數據所覆蓋的非結構性數據,它們更多地以圖片、視頻等方式呈現。在幾年之前,其可能被束之高閣,價值亦無法被有效挖掘。而如今,大數據技術可以進一步提高算法和機器分析性能,也令這些非結構化數據得以充分挖掘和運用。對營銷決策數據進行更好的優化。包括沃爾瑪、家樂福、麥當勞等知名企業的一些主要門店,均安裝了搜集運營數據的裝置,用于跟蹤客戶互動、店內客流和預訂情況,研究人員可以對菜單變化、餐廳設計以及顧問意見等如何影響物流和銷售額進行建模。這些企業可將這些數據與交易記錄結合起來,并利用大數據工具展開分析,從而在銷售哪些商品、如何擺放貨品以及何時調整售價上給出意見,此類方法已經幫助這些領先零售企業減少了17%的存貨,同時增加了高利潤率自有品牌商品的比例。與傳統信息技術比較:以前的CRM系統只能出示分析報告來回答”發生了什么事”,而如今,一個優秀的大數據系統已可以被用來回答”為什么會發生這種事”,一些關聯數據庫甚至還可以預言”將要發生什么事”,并最終發展為非常活躍的數據倉庫,從而能判斷”你(用戶)想要什么事發生”。據稱,集成整合了Essbase服務技術的Oracle大數據平臺,已經能為用戶提供面向策略級、未知信息分析預測能力和個性化自助式定制等。對目標對象進行更完整的分析描述。通過獲取更豐富的消費者數據,包括網站瀏覽數據、社交數據和地理追蹤數據等,可以繪制出更完整的消費者行為描述。譬如,大數據技術能對客人方方面面的信息進行充分有效管理并深度挖掘。如果某個客人是某酒店的老主顧,那么該大數據系統就會向酒店提供個性化服務,清楚告知酒店經理人這位客人的習慣和喜好,如是否喜歡景觀房間、是否吸煙、是否喜歡大床、喜歡什么樣的早餐,甚至從事什么工作、有哪些商務需求等等。當客人再次光臨時,不用客人自己提出來,酒店大數據系統就會自動提供客人所喜歡的房間和服務等相關信息,大大提升酒店管理效率。利用大數據中的語義搜索功能,系統能理解自然語言的含義,包括理解工作的頭銜、技能、行業、教育背景等,除此之外,系統還可以做到智能地處理拼寫錯誤、縮寫、標點符號等更多問題,也能識別相同的詞在不同語境中的含義,以更好地為營銷管理服務。例如銷售經理、財務經理、人事經理??它們都帶有”經理”二字,但顯然代表了不同的語義,借用語義搜索技術,可以對目標對象實現智能的區隔判斷。實現點對點智能廣告模式。對于廣告主而言,廣告的核心問題在于:如何從海量數據中尋找目標受眾,并投放相應的廣告信息。眾所周知,時下市場上大部分廣告并非”點對點”模式,而是”主從”模式。就像單個”老師”(產品)在面對眾多滿地跑的”學生”(消費者等受眾),可想而知即便”老師”再努力,也無法抓住大部分”學生”,相當一部分廣告費被白白扔掉。然而隨著大數據的發展,產業界樂觀地預期:這些錢或許將被一一撿回來。大數據能通過互聯網點擊流跟蹤個體用戶的行為,更新其偏愛,并實時模仿其可能的行為,讓點對點的RTB(實時競價廣告)成為可能。在美國,通過大數據的幫助,RTB(實時競價廣告)能把炙手可熱的目標用戶拍賣給廣告商。試想一下:在傳統電梯情景中,進入一個謝頂的中年人,而電梯視頻中放映了洗發水廣告,那廣告費無疑打了水漂。而如今有了RTB,廣告需要盯住的不是滿地跑的”學生”,而是那個喜歡看廣告的目標客戶;廣告市場上賣的也不是傳統意義上的廣告位,而是訪問這個廣告位的具體用戶。在大數據背景下,RTB實時競價廣告如何實現精準營銷呢?假設潛在客戶在瀏覽某網頁面,某網會向廣告交易平臺(AdExchange)請求廣告,交易平臺向所有需求端平臺(DSP)發出公告,”某網有訪客,要不要向他發廣告”,同時DSP請求大數據管理平臺(DMP)幫助分析這位訪客情況,并根據結果進行出價決策。AdExchange為出價高的DSP匹配相關廣告代碼,并最終作出廣告。而尖端的追蹤技術和多種大數據管理平臺(DMP)可以將受眾以及廣告效果數據整合于單一界面上,讓廣告主輕易擷取關鍵指標,如轉化率、流失率以及各渠道貢獻比率等。更好地進行顧問式營銷。當某顧客進入店鋪后,一個零售商利用大數據技術搜索其數據庫,發現這位顧客是本店希望留住的有價值顧客,于是他們通過綜合其過去購物歷史和Facebook主頁信息,來了解花多少錢可以留住這位顧客,進而為所售物品進行合理化定價,并確認零售商可以退讓的利潤空間,最終針對該顧客給出最佳優惠策略和個性化溝通方式。值得強調的是,以上所述并非僅是概念化場景。如今,美國沃爾瑪賣場的收銀員在掃描完顧客選購商品后,面前POS機上會顯示出一些附加信息,售貨員會據此提醒顧客:”我們商場剛進兩三種配酒佳料,并正在促銷,位于D5貨架上,您要購買嗎?”這時顧客也許會驚訝地說:”???謝謝你,我正想要,剛才一直沒找到,現在重新去購買??”以上即是沃爾瑪在大數據系統支持下實現的”顧問式營銷”實例。因為系統早已計算好,如果顧客的購物車中有不少啤酒、紅酒和沙拉,那么80%的可能需要買配酒小菜和相關佐料。而提供這一決策分析支持的,就是其位于美國的一個龐大的、通過衛星與全球所有賣場實時連通的企業級數據倉庫。4.2大數據時代電商IT基礎設施的變革后互聯網時代,PC服務器成為電商企業最廣泛使用的IT基礎設施,隨著業務量的發展,電商企業大量使用了PC服務器集群技術和小型機技術,用于滿足日益增長的在線業務交易量。同時,企業必須投入大量人/財/物等資源對IT基礎設施進行常規性的維護、升級、擴容、更新。1、電子商務中數據倉庫系統的發展當前,電子商務的數據大規模存在且持續增長,表現大數據技術與應用為大規模、分布式、異構性,使得電商數據倉庫系統發生了顯著變化:數據量由TB級升至PB級,并仍在持續爆炸式增長。有關調查顯示,2015年最大數據倉庫中的數據量將逼近100PB,其增長速度遠超摩爾定律;分析需求由常規分析轉向深度分析;硬件平臺由高端服務器轉向由中低端硬件構成的大規模集群平臺,并行數據庫的規模增大,成本急劇上升。電商數據分析的兩大趨勢和挑戰是:數據量的膨脹;數據深度分析需求的增長。目前僅具備傳統數據處理技術和信息分析能力的數據倉庫和BI工具難以完成PB級大數據的數據管理和分析工作。2、大數據的IT基礎云計算架構云計算是新型分布式網絡計算架構,特別適合向各種網絡應用提供計算、存儲、網絡、軟件等在線服務,NIST認為這種架構具有5個關鍵功能、3種服務模式和4種部署式。云計算的特征主要有:按需自助服務(on-demandself-service)、泛在網絡訪問(broadnetworkaccess)、虛擬池化的資源(resourcepooling)、快速可伸縮性(rapidelasticity)、可度量的服務(measuredservice),這些能力對當前電商的基礎IT設施來說,都是必須要滿足的要求。4.3大數據處理模式大數據處理模式從傳統的數據庫集群演進到云計算MapReduce大規模并行處理架構,實現任務的分解處理和結果合并,從而實現對可處理數據規模的無限擴展,大數據處理技術已被認為是繼云計算、物聯網之后IT產業又一次顛覆性的技術變革。1、數據庫集群模式集群是指通過協同工作方式運行同一套應用程序,針對客戶端及應用程序提供單一系統映像,使用特定的連接方式,將硬件設備結合起來,構成的松散耦合的計算節點集合,具備以下優勢:性能提升、擴展性提升、可靠性提升。數據庫集群是將集群技術引入數據庫。數據庫集群在技術上具備一定的局限性,具體介紹如下:采用PC服務器作為功能節點,系統線纜眾多,硬件復雜度過高,實施架設難度較大,可擴展性受限;高速互聯設備必須通過主機的PCI插槽與主機相連,而PCI的傳輸速率無法滿足并行數據庫集群節點間的數據通信要求;數據庫安全性和數據集可擴展性提升空間極小,全面提升速度、數據同步、安全保證、可擴展性4個技術指標是一大難題;隨著設備量的增加和應用的復雜化,需要迅速追加投入以解決所引起的兼容性和可靠性等各類問題;并行數據庫主要采用shared-nothing結構,在擴展性、容錯性、成本、對異構環境的支持能力等方面有所欠缺并相互影響,因此擴展性非常有限,目前尚未有數千節點規模的應用案例。2、MapReduce框架云計算架構由大規模低端服務器組成服務器集群,提供海量存儲空間和大規模數據的處理能力,具備可靠性、擴展性以及高可用性,因此中國科學院計算所、中國移動、百度和淘寶、網易等電子商務平臺都使用主流云計算平臺Hadoop架構進行Web搜索、大數據分析等。MapReduce框架包括:分布式文件系統(HDFS)、并行編程模型MapReduce、并行執行引擎。從HDFS角度來看,Hadoop的節點由存儲并提供定位塊服務的數據節點(datanode)和管理分布式文件系統命名空間的命名節點(namenode)組成,HDFS主從結構的體系架構設計大大簡化了分布式系統架構。其文件系統的設計特點是:元數據集中管理、數據塊(64MB)分散存儲以保證數據的安全性,數據復制(每份數據至少3個備份)實現高度容錯。傳統的數據庫系統實時響應能力較高,但對于TB級或PB級別的大數據集,數據挖掘的檢索速度則急劇下降,但引入HDFS與RDBMS相結合的機制可以充分利用兩者的優勢,實現高效率的數據挖掘與決策支持。MapReduce由Google設計,用于對集群上的大數據集進行并行計算處理,是非關系型數據管理和分析技術的典型代表。MapReduce將數據處理任務抽象為一系列的map(映射)和reduce(化簡)操作對,分別完成數據的過濾和聚集操作,并通過簡單的界面進行管理。其計算流程和基本原理簡單地說,就是將大數據集分解為成百上千個小數據集,每個(或若干個)數據集分別由集群中的一個節點進行處理并生成中間結果,這些中間結果又由大量的節點進行合并,形成最終結果,如圖2所示。圖2MapReduce并行計算流程基于MapReduce計算模型編寫分布式并行程序的主要編碼工作就是實現map和reduce函數,其他的分布式存儲、工作調度、負載平衡、容錯處理、網絡通信等復雜問題均由MapReduce框架負責處理。MapReduce原理簡單、技術簡潔、數據處理效率高,在系統層面解決了數據庫集群難以解決的擴展性、容錯性等問題,MapReduce免費開源,基于異構廉價服務器搭建可彈性伸縮的大規模集群,并行、分布式地處理和分析大規模數據,其構建成本遠低于數據庫集群所采用的并行數據庫。幾種大數據處理模式的比較分析見表1,可見,MapReduce大數據處理模式具有相對顯著的優勢。表1大規模數據處理模式的比較分析4.4信息檢索服務的強大性在IT基礎設施上,淘寶率先引入云計算技術,阿里云成為我國第一家專門從事云計算服務的公司,淘寶的所有交易系統都為自建,通過電商平臺集成海量數據,以下主要以淘寶為例,分析引入MapReduce大數據處理模式給電商業務帶來的革命性影響。商品的豐富性直接影響電商的競爭力,而海量的商品數目、繁雜的分類體系以及復雜的非結構化的商品屬性數據等都需要IT基礎設施具備足夠的靈活性和強大的檢索能力。云平臺架構提供的超大規模計算能力和大數據處理能力能夠提供強大的個性化信息檢索功能,即根據用戶的個體差異、個人興趣和需求特征進行智能海量檢索,并高效率返回高查全率和查準率檢索結果。另外,還能實現信息推送服務、熱點信息推送、信息推薦等新型信息檢索服務。云計算的技術優勢使得信息檢索和服務可以很好地解決長期存在的人類自然語言理解、知識推理等問題,充分發揮深度數據挖掘和知識發現的功能,以迅速準確地分析處理用戶信息行為、理解用戶自然語言表達并進行相應智能檢索,得出符合用戶需求的信息和產品,提高用戶服務的速度和精準度,最大限度地提升客戶滿意度。淘寶商品具備數十種屬性,還包括視頻、圖像等多媒體數據,淘寶用戶可以通過顏色、價格、品牌等幾十種屬性在海量數據中進行智能檢索和過濾,檢索的實時性和準確率很高。2010年淘寶注冊用戶數達到3。7億戶,在線商品數達到8億件,最多每天有6000萬人訪問淘寶網,平均每分鐘出售4。8萬件商品,實時呈現訂單結果。4.5處理能力快速性電商系統必須具備無以倫比的快速彈性處理能力,能夠處理突發的訪問量、海量訂單和客戶瀏覽請求,而且需要根據需求和業務量的上漲不斷擴容服務器和增加數據存儲設備?;谠朴嬎慵夹g的云存儲平臺擁有理論上無限的海量存儲和超大規模計算等資源,能夠存儲和處理TB級乃至PB級的海量數據,企業不用安裝硬件,就可以廉價、快速地部署應用系統并實現彈性伸縮,以提高資源的管控能力和促進優化利用。這種豐富的IT基礎設施和彈性處理能力能夠廉價、快捷地輸出給中小企業。淘寶和天貓2012年中國互聯網時尚消費數據顯示,淘寶在線銷售的原創商品每日更新超過100萬件,由于淘寶的成功營銷,2010年、2011年、2012年的11月11日,淘寶單日交易額分別為9.36億元、52億元、191億元,銷售額的激增和“雙十一”營銷的成功,驗證了淘寶云計算平臺的運轉效率及快速的彈性處理能力。4.6數據分析的精準性實時性的海量數據分析越來越成為電商的核心競爭力,大數據的價值關鍵在于信息分析和利用。云計算可在極短時間內對海量數據和大數據進行收集、存儲、分析和處理,極大地提高了企業的信息分析能力,使得電商需要的實時精準的海量數據挖掘和大數據深度分析等成為可能。淘寶每天數以千萬計的交易產生大量的交易時間、商品價格、購買數量等交易數據和利益相關方的年齡、職業、地址等個人特征信息,從這些海量數據中,淘寶實時準確地進行各類店鋪排名和個性化智能推薦;進行用戶行為數據分析,得到電商用戶所需的個性化信息與產品,便于開展精準營銷;商家根據歷史信息和”淘寶指數”進行生產、進銷存計劃;買家得以獲得更符合個性化需求的商品信。4.7信息的安全服務信息安全是電商企業業務可持續的最關鍵保障。在大數據時代,大數據成為國家和企業的核心資產,大數據藍海成為未來競爭的制高點。但是,大數據往往更復雜、更敏感,更易成為網絡攻擊的顯著目標,加大了隱私泄露風險,大數據深度分析技術讓黑客的攻擊更精準。電商系統不可能防止外部數據商挖掘個人信息,各社交網站均不同程度地開放用戶所產生的實時數據,外部數據提供商能夠通過收集、監測、分析這些數據得出用戶的信息體系,常規的安全方案與措施無法滿足大數據時代數據非線性增長的需求,用戶隱私安全問題將更為顯著。例如,能夠通過智能手機定位分析精確鎖定個人位置。另一方面,大數據處理技術能夠全面、及時、精確地監測并獲取各類網絡異常行為或網絡攻擊行為的結構化和非結構化數據,實時進行安全分析和預防性分析,以便度量企業安全級別和安全風險,更有針對性地設計、實施信息安全方案,應對安全風險,尋找攻擊源,識別釣魚攻擊,防止詐騙和阻止黑客入侵等。云計算技術能夠把專業可靠的信息安全方案封裝為云服務,為用戶提供優質、廉價、全面的安全和備份服務。所有信息資源都托管在云端,由云計算強大的服務器集群和虛擬化技術提供冗余、災備、數據備份和自動故障恢復等功能,專業的IT管理團隊負責維護電商企業數據,提供專業化的信息安全與保密方案。淘寶網構建了系統的安全體系,包括支付安全、信用評價、店鋪評分、物流保障、網絡安全、風險控制、消費者保障等,并且不斷加強自身系統安全、打擊各類網絡欺詐行為、開展用戶安全教育,2012年淘寶安全中心共攔截592萬個釣魚網站,攔截木馬1477萬次,引導超過2400萬名淘寶用戶綁定二次驗證、淘寶安全中心等安全產品,這些安全舉措較為成功地凈化了網購環境,保障了電商的規模發展。目前淘寶網的消費投訴率不到1%,低于實體零售商。第5章阿里巴巴電子商務大數據時代實證分析阿里巴巴集團自提出”商業生態圈”概念以來,一直致力于打造一個容納更多行業在內、層次更為豐富而全面的生態系統,而這一切的基礎就是大數據。在去年9月份的網商大會上,馬云則將阿里巴巴的未來定位為”平臺、金融和數據”三大核心業務。繼阿里集團架構調整、組建小微金融服務集團之后,近期阿里以5。86億美元入股新浪微博,這一系列舉措使得阿里生態系統藍圖漸漸明朗,大數據戰略方向更加清晰。本文結合大數據時代背景,分析了阿里大數據的信息采集、戰略歷程以及存在的安全隱患,并且有針對性地提出了發展建議。5.1阿里大數據信息采集與推送大數據時代,數據采集是至關重要的。淘寶網商業智能部首席商業智能官車品覺指
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 以微粒為核心的科學探究課程教案
- 母愛的味道記母親的一件小事作文(15篇)
- 一件勇敢的事記敘文5篇
- 農業生產技術推廣應用情況表
- 我們的節日歡樂元旦記事作文(9篇)
- 個性化印刷品銷售合同
- 農業科技研究與成果轉化協議
- 詩歌與散文欣賞:高一語文教學專題
- 技術支持資源表-支持服務體系詳細介紹
- 2025年藝術設計專業入學考試試卷解答
- 綠色建筑工程監理實施細則
- 《積極心理學(第3版)》 課件 第11章 寬容
- 陜西省西安市數學中考2024年試題及答案解析
- DB37T 1914-2024 液氨存儲與裝卸作業安全技術規范
- 國家開放大學本科《理工英語4》一平臺機考第二大題詞匯與結構總題庫
- 國際法(第七版) 課件 第九章 外交和領事關系法
- 2024年哈爾濱鐵道職業技術學院單招職業適應性測試題庫各版本
- 水表檢定記錄全冊
- DG-TJ08-2411-2023 地下結構隔排水主動抗浮技術標準
- 三期(孕期、產期、哺乳期)員工風險評估
- 多重耐藥菌相關知課件
評論
0/150
提交評論