




下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、旅游研究院大數據挖掘與分析科研平臺建設方案一 . 背景1.1 數據挖掘和大數據分析行業背景和發展趨勢移動互聯網、 電子商務以及社交媒體的快速發展使得企業需要面臨的數據量成指數增長。 根據 IDC 數字宇宙 (Digital Universe) 研究報告顯示, 2020 年全球新建和復制的信息量已經超過40ZB, 是 2015年的 12倍;而中國的數據量則會在2020年超過8ZB,比2015年增長22倍。數據量的飛速增長帶來了大數據技術和服務市場的繁榮發展。IDC亞太區(不含日本)最新關于大數據和分析(BDA)領域的市場研究表明, 大數據技術和服務市場規模將會從2012 年的 5.48 億美元增
2、加到 2017 年的 23.8 億美元,未來5年的復合增長率達到34.1%。該市場涵蓋了存儲、服務器、網絡、軟件以及服務市場。數據量的增長是一種非線性的增長速度。據IDC分析報道,最近一年來,亞太區出現了越來越廣泛的大數據和分析領域的應用案例。在中國,從互聯網企業,到電信、金融、政府這樣的傳統行業,都開始采用各種大數據和分析技術,開始了自己的大數據實踐之旅; 應用場景也在逐漸拓展,從結構化數據的分析,發展到半結構化、非結構化數據的分析,尤其是社交媒體信息分析受到用戶的更多關注。用戶們開始評估以 Hadoop數據庫一體機以及內存計算技術為代表的大數據相關新型技術。最新調研結果顯示, 提高競爭優勢
3、, 降低成本以及吸引新的客戶是中國用戶對大數據項目最期望的三大回報。 目前現有的大數據項目主要集中在業務流程優化以及提高客戶滿意度方面的應用。IDC發現很多用戶希望大數據能夠為企業帶來業務創新, 并且開始使用高級分析的解決方案以管理復雜的數據環境。 過去一年中用戶對社交數據的收集和分析應用的關注度增加明顯。 未來, 地理位置信息分析將會增長迅速, 這也會推動用戶對大數據安全和隱私管理的關注。 在亞太區,澳大利亞和新加坡的用戶對大數據的相關投資主要在咨詢服務方面, 更關注如何根據新的最佳實踐需求設計和實施方案。 中國和印度在大數據領域的硬件投資則非常明顯,更傾向于數據中心相關的基礎架構的投資。1
4、 / 18在傳統的數據分析與商業數據挖掘中, 人們通常遵循二八原則。 也就是任務20%的用戶提供了80%的價值,因此利用優勢資源用戶對于少數用戶的服務。隨著互聯網的發展, 越來越多的低價值用戶進入到商業體系中, 這部分用戶成為商業企業競爭的目標。 比如電商行業,大量顧客都是傳統意義上的低價值客戶, 數據表明對于這部分用戶價值的挖掘可以改變二八原則, 甚至可達到價值的幾乎均勻分布。并且由于計算技術的發展,對于大數據的分析也成為了可能。1.2 旅游行業開展大數據分析及應用的意義旅游行業有行業廣、 規模大、 移動性強的特點, 因此更加依賴大數據。 當前,旅游業也在 “新常態” 下迎來了升級的挑戰和變
5、革的機遇, 新常態對于一般的經濟部門是經濟速度放慢、人均GDP 增速減小,很多傳統行業在調整結構,但新常態對旅游行業卻是速度加快的。 旅游大數據的解決之道, 在于整合國內多途徑的大數據源, 形成旅游大數據生態, 為國內旅游業提供大數據解決方案, 促進旅游業的轉型升級。1.3 數據挖掘與大數據分析科研平臺建設的必要性數據挖掘與大數據分析是以計算機基礎為基礎, 以挖掘算法為核心, 緊密面向行業應用的一門綜合性學科。其主要技術涉及概率論與數理統計、數據挖掘、算法與數據結構、 計算機網絡、 并行計算等多個專業方向, 因此該學科對于科研平臺具有較高的專業要求。 科研平臺不僅要提供基礎的編程環境, 還要提
6、供大數據的運算環境以及用于科學研究的實戰大數據案例。 這些素材的準備均需完整的科研平臺作為支撐。目前, 在我國高校的專業設置上與數據挖掘與大數據分析相關的學科專業包括:計算機科學與技術、信息管理與信息系統、統計學、經濟、金融、貿易、生物信息、 旅游以及公共衛生等。 這些專業的在使用科研平臺時的側重點各不相同,使用人員層次水平也不相同, 對算法的使用也不相同, 因此, 需要建設一個便利、操作簡易、算法全面、可視化的大數據科研平臺是非常有必要的。數據挖掘與大數據分析科研平臺總體規劃2.1 科研平臺規劃科研平臺建設的基本原則是科研為主,同時為教學實驗提供部分計算資源及安全資源,系統在授權范圍內共享科
7、研系統的計算資源, 提高教學實驗的真實性。項目的總體架構如圖1所示。大數據科研環境虛擬化實驗2 U2 U2 U2 U2 U2 U2 U2 UHadoop 群2 U2 U2 U2 U壬兆數據 交換機Hac2)OU 集群2 U2 U2 U2 U2 U2 U2 U2 U2 U2 U2 U2 U11LJII可視化計算»U2 U2 U2 U2 U10 U二 IH皿皿皿壬兆數據交換機2 U核心交 換機圖1.總體架構圖系統整體由千兆核心交換機作為核心節點,并以兩個千兆接入交換機作為科研與實驗環境的交換節點。科研環境由我司開發的商業 Hadoop集群為基礎,上層集成便于操作的大數據科研應用系統, 集
8、成 10TB 大數據案例集及可拖拽的數 據算法和可視化算法。2.2 科研平臺功能規劃本科研平臺針對數據挖掘有大數據分析研究內容,兼顧科研與教學的需求,既能滿足科研工作中對大數據分析高性能平臺要求也具有教學實驗平臺簡單易用的特點。1) 大數據資源規劃內置商業級數據資源,按常見科研分類規劃數據資源,可以直接用于科學研究,具有數據資源授權管控功能。2) 大數據分析功能規劃建設以商業版Hadoop為核心的大數據分析平臺,系統提供MapReduce以及Spark 等大數據挖掘功能。系統具有完整的管理調度功能。3) 硬件資源功能規劃系統具有 24 個 Intel Xeon E5 CPU 計算能力,提供超過
9、40TB 的存儲能力以及 1T 以上的內存,可滿足1000 任務共時計算內能,方便擴充。5/ 187 / 18數據挖掘與大數據分析科研平臺建設方案3.1 大數據科研平臺設備架構高性能交換機主節點接口節點接口節點計算節點計算節點機架i高性能交換機備份主節點計算節點計算節點計算節點計算節點機架2高性能交換機管理節點計算節點計算節點計算節點計算節點機架3圖3.設備架構3.1.1 主節點和備份主節點主節點負責整個分布式大數據平臺的運行。主節點始終在內存中保存整個文 件系統的目錄結構,每個目錄有哪些文件,每個文件有哪些分塊及每個分塊保存 在哪個計算上,用于處理讀寫請求。同時,主節點還負責將作業分解成子任
10、務, 并將這些子任務分配到各個計算節點上。備份主節點在主節點發生故障時承擔主 節點的各種任務,使得分布式大數據平臺仍然能夠正常運行。3.1.2 管理節點管理節點用于管理整個分布式大數據平臺,可進行節點安裝、配置、服務配 置等,提供網頁窗口界面提高了系統配置的可見度, 而且降低了集群參數設置的 復雜度。3.1.3 接口節點終端用戶通過接口節點連接和使用分布式大數據平臺,提交任務并獲得結 果,并可以用其他數據分析工具做進一步處理,與外界進行數據交互(如連接關系型數據庫)。3.1.4 計算節點分布式大數據平臺包含了多個計算節點。計算節點是系統中真正存儲數據和 做數據運算的節點。每個計算節點周期性地和
11、主節點通信, 還時不時和客戶端代 碼以及其他計算節點通信。計算節點還維護一個開放的 socket服務器,讓客戶 端代碼和其他計算節點通過它可以讀寫數據,這個服務器還會匯報給主節點。3.2 大數據科研平臺底層架構大數據科研平臺低層架構以我司自主研發的商業版 Hadoop為基礎架構,包 含和大數據分析、數據挖掘、機器學習等功能模塊,并以 HDFS以及Hbase作 為存儲基礎。任務執行調度接口數據交互接口統計建模(Shell)(JDBC, ODBC)(R)批處理交互式SQL引擎機器學習算法庫飛內存計算(MapReduce, Pig)(Hive)(Mahout)(Spark)管理監控(HonyaES-
12、data)分布式資源調度管理(YARN)分布式存儲 (Sentry)分布式持久化數據存儲分布式實時數據庫(HDFS)(Hbase)圖2.軟件架構HDFS3.2.1 分布式持久化數據存儲Hadoop 分布式文件系統( HDFS )被設計成適合運行在通用硬件上的分布式文件系統。 它和現有的分布式文件系統有很多共同點。 但同時, 它和其他的分布式文件系統的區別也是很明顯的。 HDFS 是一個高度容錯性的系統, 適合部署在廉價的機器上。 HDFS 能提供高吞吐量的數據訪問, 非常適合大規模數據集上的應用。 HDFS 放寬了一部分POSIX 約束,來實現流式讀取文件系統數據的目的。3.2.2 分布式實時
13、數據庫 HBaseHBase 是一個分布式的、面向列的開源數據庫,該技術來源于 Fay Chang所撰寫的 Google 論文“ Bigtable :一個結構化數據的分布式存儲系統”。就像Bigtable 利用了 Google 文件系統(所提供的分布式數據存儲一樣, HBase 在Hadoop 之上提供了類似于 BigTable 的能力。 HBase 是 Apache 的 Hadoop 項 目的子項目。 HBase 不同于一般的關系數據庫,它是一個適合于非結構化數據 存儲的數據庫。另一個不同的是HBase 基于列的而不是基于行的模式。3.2.3 分布式資源調度管理 YARNYarn 是 Had
14、oop2.0 的 MapReduce 框架。 YARN 分層結構的本質是 ResourceManager 。這個實體控制整個集群并管理應用程序向基礎計算資源的 分配。 ResourceManager 將各個資源部分(計算、內存、帶寬等)精心安排給基 礎 NodeManager ( YARN 的 每 節 點 代 理 ) 。 ResourceManager 還 與 ApplicationMaster 一起分配資源, 與 NodeManager 一起啟動和監視它們的基礎應用程序。 在此上下文中, ApplicationMaster 承擔了以前的 TaskTracker 的 一些角色, Resourc
15、eManager 承擔了 JobTracker 的角色。3.2.4 交互式 SQL 引擎 HiveHive 是基于 Hadoop 的一個數據倉庫工具,可以將結構化的數據文件映射為一張數據庫表,并提供簡單的 SQL 查詢功能,可以將SQL 語句轉換為MapReduce 任務進行運行。 其優點是學習成本低,可以通過類SQL 語句快速實現簡單的 MapReduce 統計,不必開發專門的 MapReduce 應用,十分適合數 據倉庫的統計分析。3.2.5 內存計算 SparkSpark 是 UC Berkeley AMP 實驗室所開源的類Hadoop MapReduce 的通用的并行計算框架。 Spa
16、rk 擁有 Hadoop MapReduce 所具有的優點;但不同于MapReduce 的是 Job 中間輸出結果可以保存在內存中,從而不再需要讀寫HDFS , 因 此 Spark 能 更 好地 適 用于 數據挖 掘 與機 器 學習 等需要 迭 代 的 MapReduce 算法。3.3 科研平臺的功能3.3.1 科研項目管理在科研平臺中, 科研計算是以計算項目來保存的, 包括了計算項目建立、 計算項目維護、 計算項目設計、 計算項目運行和結果可視化等幾個環節。 從技術角度來說,計算項目中也包括了算法組件、算法流程和數據集,一旦設計完后,就可用于計算,后期還可以調整算法和基于新的數據資源進行計算
17、。計算項目完成后, 可以訓練出算法模型, 在新的計算項目中使用已經訓練好的模型進行數據的預測,形成一次訓練多次使用的算法實現。3.3.2 平臺內置數據集在科研工作中, 如何獲取到海量高質量大數據資源是最大的難點。 目前在互聯網等渠道是很難找到科研工作所需的數據源, 尤其是經過數據清洗和治理后的高質量數據。數據超市平臺利用以下模式, 通過外部的資源, 為高校的科研工作提供優質數據資源:1)通過商務合作的模式,直接與數據所有權擁有者進行靈活的商務溝通,獲得科研的數據使用授權;2)邀請行業內優質的第三方數據服務提供商入駐數據超市平臺;3)通過數據采集的方式,經過數據尋源、采集、治理、清洗后,引入具有
18、公開版權的數據資源;所有引入數據都會經過數據工程師的嚴格審核,保證數據的清潔和質量,可以直接用于數據計算。9/ 18如平臺內置的專利數據,包括了國內近 2000萬各類商業數據,并且不斷更 新,可以直接用于旅游各方面的科學研究。 有別區目前行業提供的數據庫,數據 超市直接提供了原始的數據,可以打通其他的行業數據,用于深層次的數據分析 和經濟預測。3.3.3 科研數據上傳科研老師已有的數據可以上傳到平臺參與數據計算,老師可以在平臺上建立 數據表,然后把本地數據文件上傳到數據表中。也可以維護外部的 JDBC數據 源,平臺會把外部數據自動抽取到平臺中進行計算和預測。3.3.4 集成算法組件為了便于科研
19、老師快速進行科研數據的加工、分析和計算,數據超市平臺集 成了 50多種通用大數據算法組件,包括回歸算法、分類算法、聚類算法、關聯 規劃算法、推薦算法、預測評估、數據預處理算法、機器學習等。所有的算法無 須重新編程,只需要拖拽繪圖完成即可進行計算,如下圖:=提件列哀4 tt!比目:淡事時回目胡毋刑但1G址敕出源棚0塔加序號府H的(a-<t|«7算法組件經過配置可以實現強大的自定義計算功能和效果,調整后的模型可 以完成老師需要的數據分析和預測。團K均值聚弊,參數設可3笠 Maxher50曰 initModek-mean3|5 Tai0,013.3.5 科研平臺可視化功能提供20余種
20、可視化展示模式,一鍵選擇,一鍵切換,可按使用者需求展示大數據之美,根據需要展示對應的緯度,并可以一鍵生成高質量PNG文件,保存到本地后可用于科研報告和論文等。數據分布圖目上血也閾r四.平臺數據集清單科研平臺為方便用戶快速開展科學研究、生成科研數據報告,平臺提供了一 些通用的數據集,包括各類標準科研數據等。平臺也內置了數百款可選數據集,分為多個數據包,總量近 10TB,并且隨 商務和采集工作推進,仍在不斷增加中。五.定制數據服務根據科研老師的需求,數據超市平臺提供數據采集和商務合作等定制數據引 入模式,數據引入后,可以直接引入數據超市,由老師來進行使用。如老師需要旅游服務評價類數據進行服務情況的
21、分析和預測, 可以直接通過 數據超市內的數據定制模塊提出數據需求, 經數據超市平臺管理員匯總后,可以 通過數據超市平臺進行數據的準備,交給老師進行使用。六.科研平臺算法清單平臺集成的算法包括72種,全部來自科研網站,經過了商業機構的驗證, 引入平臺后完成了分布式優化,可以高效執行,詳細如下表:序號算法分類算法名稱算法描述1回歸算法線性回歸利用線性模型對數值型變量進行擬合。2回歸算法決策樹回歸利用平方誤差最小化準則,進行特征選擇,生成二叉樹,從而對對數值型變量進行擬合3回歸算法隨機森林回歸以回歸決策樹為基模型,將一定數量的基模型組合 對數值型變量擬合,并對基模型的預測結果平均作 為算法的最終結果
22、4回歸算法梯度提升回歸樹以二叉回歸決策樹為基函數的加法模型與前向分 步結合的算法,通過對損失函數在當前模型的預 測值的梯度作為近似殘差進行擬合,從而對數值型 變量預測。5分類算法邏輯回歸二分類對目標變量為二值型分類變量,建立參數化邏輯斯 諦分布,即sigmoid函數,近似條件概率分布,以 實現二值分類。6分類算法邏輯回歸多分類邏輯回歸多分類,k個獨立的logistic回歸分類器與 onevsall結合的分類模型,分類對象類別之間不是互 斥的7分類算法Softmax回歸多分類Softmax回歸就是邏輯回歸的一般形式,是logistic 回歸模型在多分類問題上的推廣,分類對象類別是 互斥的8分類算
23、法決策樹分類禾用信息增益準則或基尼指數最小化準則,進行特 征選擇,生成二叉樹,從而對對目標變量為離散變 量的數據進行分類9分類算法隨機森林分類以分類決策樹為基模型,將一定數量的基模型組合 對離散型的目標變量擬合,并根據基模型的預測結 果進行投票,以占多數結果的種類作為算法的最終 結果10分類算法梯度提升分類樹以二叉分類決策樹為基函數的加法模型與前向分 步結合的算法,通過對損失函數在當前模型的預測 值的梯度作為近似殘差進行擬合,從而對分類型目 標變量預測。11分類算法BP神經網絡以感知器為基函數,通過將當前基函數的的輸出作 為下一個感知器的輸入,從而實現對離散型分類變 量的分類12分類算法貝葉斯
24、分類基于貝葉斯定理與特征條件獨立假設,對給定數據 集,學習輸入輸出的聯合概率分布,利用貝葉斯原 理輸出后驗概率最大的預測類作為預測結果13分類算法支持向量機分類在感知機的基礎上,通過在特征空間上間隔最大和核技巧,實現對二類目標變量分類14聚類算法K均值聚類將無標記樣本根據特征空間中的數據結構,劃入K個不相交的子集中15聚類算法二分K均值聚類K均值聚類的改進版,能克服原算法收斂局部最小 的缺點,每次選其中一簇分成兩簇。16聚類算法高斯混合模型對于符合高斯分布的數據,假設存在 K個高斯模 型,將數據反復迭代,期望極大化。將樣本聚到后 驗概率最大的模型類下。17關聯規則算法頻繁項集挖掘算法(FP-G
25、rowth )主要分為兩個步驟:FP-tree構建、遞歸挖掘FP-tree。挖掘出共同出現的頻繁物品集。18推薦算法協同過濾算法協同過濾是在海量數據中挖掘出某部分與目標客 戶行為類似的數據,并根據某種指標對其進行排 序。19預測評估分類預測及評估分類算法中,在已有訓練數據訓練模型的基礎上, 將未訓練的數據代入算法中,預測結果與實際目標 變量比對評估,檢測模型的性能。20預測評估回歸預測及評估回歸算法中,在已有訓練數據訓練模型的基礎上, 將未訓練的數據代入算法中,預測結果與實際目標 變量比對評估,檢測模型的性能。21預測評估聚類預測及評估聚類算法中,在已有訓練數據訓練模型的基礎上, 將未訓練的數
26、據代入算法中,預測結果與實際數據 類型比對評估,檢測模型的性能。22預測評估推薦評估推薦算法中,在已有訓練數據訓練模型的基礎上, 將未訓練的數據代入算法中,預測結果與物品類目 比對評估,檢測模型的性能。23數據預處理歸一化將有量綱的數據轉化為無量綱的數據,min -max標準化24數據預處理Join-兩表關聯類似sql join的功能,將兩張表通過一個字段對或者多個字段對的相等關系關聯合成一張表25數據預處理類型轉換(string類型轉換數值類型)將不同數據的類型按需要進行轉換26數據預處理Union對不同數據集取并集27數據預處理標準化/正則化標準化是將數據縮放到一個區間范圍內,如正態分 布
27、,小數定標,邏輯斯諦分布。正則化是利用先驗 知識,對模型增加約束,防止過擬合。28數據預處理缺失值填充對數據中某項數值所對應的某些樣本缺失,通過某 種先驗假設,根據樣本其他已知數據項對缺失值擬 合預測。29數據預處理拆分按照比例拆分樣本集,如設置0.6,切分成60:40兩 個樣本集。30數據預處理隨機采樣當數據量過大或模型訓練批容量有限時,隨機采取 一定量/比例的樣本集。31數據預處理增加序列號在數據表第一列追加ID歹U。32數據預處理Select數據庫查詢操作,查詢某限定條件下的樣本33數據預處理Select_Distinct數據庫查詢操作,查詢某限定條件下并過濾掉重復的樣本34數據預處理S
28、elect_Where數據庫查詢操作,查詢指定條件下的樣本35數據預處理Select_And_Or數據庫查詢操作,查詢條件的交集與并集36數據預處理Select_OrderBy數據庫查詢操作,查詢結果按某指標排序37數據預處理Select_Limit數據庫查詢操作,查詢某限定段的數據38數據預處理Select_Like數據庫查詢操作,查詢包含指定字段的數據39特征工程主成分分析數據降維去噪常用方法,對數據的協方差矩陣取前K個最大方差方向作為新的數據方向。40特征工程Onehot編碼用戶將特征值進行二元編碼映射成二元向量,并與數值向量進行拼接42特征工程特征尺度變換由于計算需要或根據數據特點將某
29、特征對應數據 項進行縮放,不改變樣本間該數值項的相對大小43特征工程特征重要性分析指根據數據集各項特征在算法模型中對目標變量的相對重要程度的分析,從而提出冗余特征,關注重要特征,提高算法模型的效率準確性44特征工程特征離散對連續型特征按某方法轉換為離散型變量45文本分析SplitWord分布式jieba分詞接口,基于Trie樹結構實現高效 的詞圖掃描,生成句子中漢字所有可能成詞情況所 構成的有向無環圖(DAG);采用了動態規劃查找 最大概率路徑,找出基于詞頻的最大切分組合;對 于未登錄詞,采用了基于漢字成詞能力的HMM模型,使用了 Viterbi算法46文本分析文檔主題生成模型(LDA )LD
30、A(Latent Dirichlet allocation),是一種主題模型, 它可以將文檔集中每篇文檔的主題按照概率分布 的形式給出。同時它是一種無監督學習算法,在訓 練時不需要手工標注的訓練集,需要的僅僅是文檔 集以及指定主題的數量k即可。LDA首先由David M. Blei、Andrew Y. Ng 和 Michael I. Jordan 于 2003 年提出,目前在文本挖掘領域包括文本主題識別、 文本分類以及文本相似度計算方面都有應用。47文本分析TF特征將文本文檔的集合轉換為詞頻計數的向量。48文本分析HashingTF 特征使用散列技巧將一系列詞語映射到其詞頻的向量, Hashi
31、ngTF的過程就是對每一個詞作了一次哈希 并對特征維數取余得到該詞的位置,然后按照該詞 出現的次數計次。所以就不用像傳統方法一樣每次 維護一張詞表,運用 HashingTF就可以方便的得 到該詞所對應向量元素的位置。當然這樣做的代價 就是向量維數會非常大,好在spark可以支持稀疏 向量,所以計算開銷并不大。49文本分析TF-IDF特征TF-IDF (term frequencyinverse documentfrequency)是一種用于資訊檢索與文本挖掘的常用 加權技術。TF-IDF是一種統計方法,用以評估一字 詞對于一個文件集或一個語料庫中的其中一份文 件的重要程度。字詞的重要性隨著它在
32、文件中出 現的次數成正比增加,但同時會隨著它在語料庫中 出現的頻率成反比下降。TF-IDF加權的各種形式常 被搜索引擎應用,作為文件與用戶查詢之間相關程 度的度量或評級。50文本分析字符串相似度一個字符串轉換成另外一個字符串的代價,轉換的 代價越高則說明兩個字符串的相似度越低。51文本分析停用詞過濾針對文檔數據,將包含的特定詞匯過濾掉,不計入統計數據中52文本分析Word2VecWord2Vec是一種著名的 詞嵌入(WordEmbedding)方法,它可以計算每個單詞在其給定 語料庫環境下的分布式詞向量(DistributedRepresentation,亦直接被稱為詞向量)。詞向量表 示可以
33、在一定程度上刻畫每個單詞的語義。如果詞的語義相近,它們的詞向量在向量空間中也相互接 近,這使得詞語的向量化建模更加精確,可以改善 現有方法并提高魯棒性。詞向量已被證明在許多自 然語言處理問題,如:機器翻譯,標注問題,實體識別等問題中具有非常重要的作用。 Word2Vec具 有兩種模型,其一是 CBOW ,其思想是通過每個 詞的上下文窗口詞詞向量來預測中心詞的詞向量。其二是Skip-gram,其思想是通過每個中心詞來預 測其上下文窗口詞,并根據預測結果來修正中心詞 的詞向量。該組件目前只支持后者。53文本分析詞頻統計在對文章進行分詞的基礎上,按行保序輸出對應文章ID列(docId)對應文章的詞,
34、統計指定文章ID列(docId)對應文章內容(docContent)的詞頻。54文本分析文本摘要通過pagerank算法計算得到的重要性最高的若干句 子可以當作摘要。55文本分析關鍵詞提取全面把握文章的中心思想的基礎上,提取出若干個代表文章語義內容的詞匯或短語56文本分析長句拆分根據長句中的標點符號將句子進行分割成多個短句57工具算法sql腳本用戶可以在該組件自定義的 SQL腳本從而完成對數據的轉換處理58統計分析單樣本T檢驗單樣本T檢驗:單樣本t檢驗(onesample t- test) 又稱單樣本均數t檢驗,適用于樣本均數 x與已知 總體均數U0的比較,其比較目的是檢驗樣本均數 x 所代表
35、的總體均數U0是否與已知總體均數U0有差 另限已知總體均數u0, 一般為標準值、理論值或經 大量觀察得到的較穩定的指標值。T檢驗的前提是 樣本總體服從正態分布59統計分析配對樣本均數T檢驗配對樣本均數t檢驗(paired t test),又稱非獨立兩 樣本均數t檢驗,適用于配對設計計量資料均數的 比較,其比較目的是檢驗兩相關樣本均數所代表的 未知總體均數是否有差別。60統計分析兩獨立樣本均數T檢驗兩獨立樣本t檢驗(two -sample t-test),又稱成組t檢 驗,它適用于完全隨機設計的兩樣本均數的比較, 其目的是檢驗兩樣本所來自總體的均數是否相等。完全隨機設計是將受試對象隨機地分配到兩
36、組中, 每組對象分別接受不同的處理,分析比較兩組的處 理效應。61統計分析方差齊性檢驗由兩樣本方差推斷兩總體方差是否相同。有三種方差齊性檢驗的方法可供選擇。選用Bartlett檢驗:如果我們的數據服從正態分布,那么這種方法將是 最為適用的。對于正態分布的數據,這種檢驗極為 靈敏;而當數據為非正態分布時,使用該方法則很容易導致假陽性誤判。Levene檢驗:當樣本數據偏態或者非正態性的情況下,選用Levene檢驗魯棒性與精度比Bartlett檢驗女Fligner- Killeen檢驗: 這是一個非參數的檢驗方法,完全不依賴于對分布 的假設。62統計分析卡方適配度檢驗卡方適配度檢驗,Chi-Square Goodness of Fit Test. 驗證一組觀察值的次數分配是否異于理論上的分配。其H0假設(虛無假設,null hypothesis)為一個樣本中已發生事件的次數分配會服從某個特定 的理論分配。通常情況下這個特定的理論分配指的 是均勻
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- GB/T 33218-2025設備結構健康監測基于光纖傳感技術的設備健康監測方法
- GB 45833-2025燃氣燃燒器具用電安全通用技術要求
- 2025年中國水處理過濾器行業市場發展監測及投資潛力預測報告
- 2025年中國可印刷磁膠行業市場全景分析及前景機遇研判報告
- 2025年中國可調節床底座和床套行業市場全景分析及前景機遇研判報告
- 2025年中國建筑集成光伏(BIPVBIPV)天窗行業市場全景分析及前景機遇研判報告
- 2025年南極冰藻提取物項目節能評估報告(節能專)
- 2025年中國配電斷路器行業發展監測及發展趨勢預測報告
- 稅務師網課老師和課件
- 中國制動轂拆裝翻轉架行業市場發展現狀及投資潛力預測報告
- 荊州中學2024-2025學年高二下學期6月月考歷史試卷
- 2025-2030年中國婚慶產業行業市場現狀供需分析及投資評估規劃分析研究報告
- 2024-2025學年蘇教版四年級下學期期末測試數學試卷(含答案)
- 2025年新高考2卷(新課標Ⅱ卷)英語試卷
- 2024年湖北省初中學業水平考試地理試卷含答案
- 2024年認證行業法律法規及認證基礎知識 CCAA年度確認 試題與答案
- 地方病防治技能理論考核試題
- 老年患者他汀的應用課件
- 2022更新國家開放大學電大本科《計算方法(本)》2023-2024期末試題及答案(試卷代號:1084)
- GB∕T 40278-2021 紙和紙板 加速老化(光照條件下)
- 懸挑式腳手架驗收表范本
評論
0/150
提交評論