




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、01開啟FetchTask一個簡單的查詢語句,是指一個沒有函數、排序等功能的語句,當開啟一個Fetch Task功能,就執行一個簡單的查詢語句不會生成MapRreduce作業,而是直接使用FetchTask,從hdfs文件系統中進行查詢輸出數據,從而提高效率。設置的方式:Hive.fetch.task.conversion默認為minimal修改配置文件hive-site.xmlhive.fetch.task.conversionmoreSomeselectqueriescanbeconvertedtosingleFETCHtaskminimizinglatency.Currentlytheq
2、ueryshouldbesinglesourcednothavinganysubqueryandshouldnothaveanyaggregationsordistincts(whichincurrsRS),lateralviewsandjoins.1.minimal:SELECTSTAR,FILTERonpartitioncolumns,LIMITonly2.more:SELECT,FILTER,LIMITonly(+TABLESAMPLE,virtualcolumns)或者當前session修改hivesethive.fetch.task.conversion=more;執行SELECTi
3、d,moneyFROMmlimit10;不走mr02合并中間表一個日志文件中,每一行記錄,會有很多很多字段,四五十個字段很正常。實際分析中,常常使用少數幾個字段將原始的表中數據,依據業務需求提取出要分析的字段,數據放入到對應的業務表(子表)中,實際的業務針對業務表進行分析。在實際中,我們會發現,有些業務處理,會有共同數據集用戶表、訂單表、商品表,三個表需要進行join的操作,join 會產生一個結果集,會有很多的業務是針對此jion結果集進行分析。優化:將眾多的業務中相同的中間結果集,抽取到一個Hive中的表中去。03合理使用分區表外部表、分區表,結合使用,采用多級分區。數據采用存儲格式(te
4、xtfile、orcfile、parquet)或者數據壓縮(snappy)。明細數據我們一般采用按天分區,對于特別大的表,可以采用子分區,每個分區其實對應到HDFS上就是一個目錄。數據存儲方式我們可以采用parquet列式存儲,同時具有很好的壓縮性能;同時可以減少大量的表掃描和反序列化的時間。在OLAP查詢場景下,我們選擇需要的列信息進行查詢,而不是直接select * 查詢所有字段。04jvm重用JVM重用是hadoop調優參數的內容,對hive的性能具有非常大的影響,特別是對于很難避免小文件的場景或者task特別多的場景,這類場景大多數執行時間都很短。hadoop默認配置是使用派生JVM來
5、執行map和reduce任務的,這是jvm的啟動過程可能會造成相當大的開銷,尤其是執行的job包含有成千上萬個task任務的情況。JVM重用可以使得JVM實例在同一個JOB中重新使用N次,N的值可以在Hadoop的mapre-site.xml文件中進行設置。mapred.job.reuse.jvm.num.tasks 1也可在hive的執行設置:setmapred.job.reuse.jvm.num.tasks = 10;JVM的一個缺點是,開啟JVM重用將會一直占用使用到的task插槽,以便進行重用,直到任務完成后才能釋放。如果某個“不平衡“的job中有幾個reduce task 執行的時間
6、要比其他reduce task消耗的時間多得多的話,那么保留的插槽就會一直空閑著卻無法被其他的job使用,直到所有的task都結束了才會釋放。05年Speculative execution(推測執行)所謂的推測執行,就是當所有task都開始運行之后,Job Tracker會統計所有任務的平均進度,如果某個task所在的task node機器配置比較低或者CPU load很高(原因很多),導致任務執行比總體任務的平均執行要慢,此時Job Tracker會啟動一個新的任務(duplicate task),原有任務和新任務哪個先執行完就把另外一個kill掉。推測執行需要設置Job的兩個參數:map
7、red.map.tasks.speculative.execution=truemapred.reduce.tasks.speculative.execution=true06合理設置reduce個數reduce個數參數1:hive.exec.reducers.bytes.per.reducer=256000000/每個reduce任務處理的數據量參數2:hive.exec.reducers.max=1009/每個任務最大的reduce數目計算公式:reducer個數=min(參數2,總輸入數據量/參數1)set mapred.reduce.tasks =N:每個任務默認的reduce數目。典
8、型為0.99* reduce槽數,hive默認為-1,即自動確定reduce數目。reduce個數并不是越多越好同map一樣,啟動和初始化reduce也會消耗時間和資源;另外,有多少個reduce,就會有多少個輸出文件,如果生成了很多個小文件,那么如果這些小文件作為下一個任務的輸入,則也會出現小文件過多的問題。小文件過多會非常影響查詢效率,文件越多造成的IO就越多,同時還會增加元數據(namenode)的壓力。在生產環境中,一定要避免小文件問題,如果核查發現,及時合并文件!07開啟并行執行并行執行,意思是同步執行hive的多個階段,hive在執行過程,將一個查詢轉化成一個或者多個階段。某個特定
9、的job可能包含眾多的階段,而這些階段可能并非完全相互依賴的,也就是說可以并行執行的,這樣可能使得整個job的執行時間縮短hive.exec.parallel.thread.number8/job并行執行的數目,一個SQL語句可能有很多mapreduce任務,限制hive.exec.parallelfalsehive執行開啟:sethive.exec.parallel=true08優化sqlwhere條件優化優化前(關系數據庫不用考慮會自動優化):selectm.cid,u.idfromordermjoincustomeruon(m.cid=u.id)wherem.dt=20180808;優化
10、后(where條件在map端執行而不是在reduce端執行):selectm.cid,u.idfrom(select*fromorderwheredt=20180818)mjoincustomeruon(m.cid=u.id);union優化盡量不要使用union (union 去掉重復的記錄)而是使用 union all 然后在用group by 去重count distinct優化不要使用count (distinct cloumn) ,使用子查詢。selectcount(1)from(selectidfromtablenamegroupbyid)tmp;用in 來代替join如果需要根據
11、一個表的字段來約束另為一個表,盡量用in來代替join 。selectid,namefromtb1ajointb2bon(a.id=b.id);selectid,namefromtb1whereidin(selectidfromtb2);in 要比join 快消滅子查詢內的 group by 、 COUNT(DISTINCT),MAX,MIN。可以減少job的數量。join 優化:Common/shuffle/Reduce JOIN:連接發生的階段,發生在reduce 階段,適用于大表連接大表(默認的方式)Map join :連接發生在map階段,適用于小表連接大表 大表的數據從文件中讀取;小表的數據存放在內存中(hive中已經自動進行了優化,自動判斷小表,然后進行緩存)。sethive.auto.convert.join=true;SMB join:Sort -Merge -Bucket Join 對大表連接大表的優化,用桶表的概念來進行優化。在一個桶內發送生笛卡爾積連接(需要是兩個桶表進行join)se
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年江西中考數學試卷真題答案解讀及備考指導
- 高中化學課程中校園植物化學成分分析與應用研究論文
- 小學生網絡互動游戲對認知發展影響分析論文
- 高中語文課程思政教育中的歷史教育價值挖掘與傳承論文
- 中國醫藥級酮咯酸氨丁三醇行業市場前景預測及投資價值評估分析報告
- 節電方案與管理制度
- 英文版公司管理制度
- 電工學試題集和試題集及答案
- 小學語文《夜色》課件
- 財務管理學自考歷年真題
- 胃十二指腸潰瘍瘢痕性幽門梗阻病因介紹
- 元宇宙期刊產業政策-洞察分析
- 【MOOC】中國藝術歌曲演唱與賞析-江西財經大學 中國大學慕課MOOC答案
- 【MOOC】運輸包裝-暨南大學 中國大學慕課MOOC答案
- 2024ESC心房顫動管理指南解讀
- 行政倫理學-終結性考核-國開(SC)-參考資料
- 清算結算效率提升
- 醫院安保服務實施方案
- 廣東省廣州市海珠區2023-2024學年六年級下學期期末考試英語試卷
- 山西焦煤集團筆試題
- 國家專項資金管理辦法
評論
0/150
提交評論