



全文預覽已結束
下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
什么是大數據 大數據技術(big data),或稱巨量資料,指的是所涉及的資料量規模巨大到無法通過目前主流軟件工具,在合理時間內達到擷取、管理、處理、并整理成為幫助企業經營決策更積極目的的資訊。(在維克托邁爾-舍恩伯格及肯尼斯庫克耶編寫的大數據時代中2 大數據指不用隨機分析法(抽樣調查)這樣的捷徑,而采用所有數據進行分析處理。大數據的4V特點:Volume(大量)、Velocity(高速)、Variety(多樣)、value(價值)。 大數據的4個“V”,或者說特點有四個層面:第一,數據體量巨大。從TB級別,躍升到PB級別;第二,數據類型繁多。前文提到的網絡日志、視頻、圖片、地理位置信息等等。第三,處理速度快,1秒定律,可從各種類型的數據中快速獲得高價值的信息,這一點也是和傳統的數據挖掘技術有著本質的不同。第四,只要合理利用數據并對其進行正確、準確的分析,將會帶來很高的價值回報。業界將其歸納為4個“V”Volume(大量)、Variety(多樣)、Velocity(高速)、Value(價值)。生物大數據“大數據”一詞最初起源于互聯網和IT行業,然而隨著“人類基因組計劃”的完成,帶動了生物行業的一次革命,高通量測序技術得到快速發展,使得生命科學研究獲得了強大的數據產出能力,包括基因組學、轉錄組學、蛋白質組學、代謝組學等生物學數據,這些數據具有數據量大(Volume)、數據多樣化(Variety)、有價值(Value)、高速(Velocity)等特點。生物大數據不僅帶有“大數據”的特點,而且具有生物數據自身的特性,下面將結合大數據的“4V”特點一一具體闡釋:1、數據量大:上個世紀末進行的“人類基因組計劃”是由6個國家花費30億美元10幾年的時間才得以完成,如今,只需花費幾千美元幾個小時即可完成一個人基因組的解析。如此低廉高效的研究方式得到生物科學家們的青睞,大量的物種得以測序解析,使得生物研究家們進入的生物數據的海洋。據不完全統計,截止到2013年6月,深圳華大基因研究院僅原始的測序相關的數據量就達到12PB,并且以每月60TB的速度增長,預計未來幾年內每月的原始數據增量會超過2PB。2、數據多樣化:由于測序儀器種類繁多(比如常見的高通量測序儀器CG測序儀、illumina hiseq、Roche 454、Ion Torrent等),產生的數據格式也各不相同。同時,利用不同的生物信息分析軟件或分析流程處理得到的結果也是千差萬別。3、價值高:隨著生物信息學的發展,越來越多有價值的信息從生物數據中挖掘出來,這些價值不僅體現在其在生物科研領域,而且已應用于農業、健康和醫學等領域。4、高速:這主要體現在數據的急劇增長速度,不僅體現在數據的量上,而且在數據的多樣化和價值上。應用編輯“十一五”以來,國務院批準發布促進生物產業加快發展的若干政策和生物產業發展“十一五”規劃,大力推進生物技術研發和創新成果轉化。生物大數據本身好比一塊有待開發的土地資源,我們基于大數據的“4V”特點,推進其在醫療健康、農業和食品等領域的快速應用1 ,比如基因檢測、優良農作物品種培育等。中國生物技術發展中心調研生物大數據發展情況 為應對大數據時代帶來的挑戰,了解大數據技術發展態勢以及對未來我國生物技術領域的科研能力、公共管理和產業競爭力方面的影響,探討應對措施,生物中心肖詩鷹副主任于2014年5月6-7日帶隊到復旦大學、浙江大學進行了調研。 在復旦大學、浙江大學科研管理部門的支持配合下,召開了題為“大數據對我國生物技術發展的挑戰”的研討會,來自復旦大學、浙江大學、同濟大學、中科院上海生命科學研究院、中科院計算生物學研究所、浙江大學第一附屬醫院以及上海張江轉化醫學研發中心等單位的有關專家,圍繞大數據對我國生物技術發展的挑戰,進行了交流討論。 浙江大學李蘭娟院士認為,當前生物領域存在“課題越多,數據孤島越多,資源浪費越大”的問題,迫切需要國家在生物大數據領域開展頂層設計。復旦大學金力院士認為,生物大數據在國際和國內都是一個新興學科,未來如何發展尚不十分明朗,我們應從國家今后發展需求上,做好態勢分析,特別針對我國生物資源的優勢、資源安全以及交叉學科發展方面思考,如何推動這個領域的發展,使之滿足國家需求并力爭國際領先。 與會有關專家分別從生命科學、醫學、信息學、數學、藥學等不同研究領域介紹了國際大數據技術的發展狀況及相關研究進展,并對未來我國發展生物大數據的研究重點、研究方向以及存在問題進行了深入研討。 此次調研為生物中心做好生物大數據領域的戰略研究提供了很好的基礎,并為“十三五”生物領域開展大數據研究提出了很多有建設性的意見建議。把大數據與基因測試結合起來,雖然還是存在爭議,但是已經有一家生物技術公司 Recombine 做到了,而且極大地降低了基因測試的成本。我們可以預想,互聯網與生物技術的結合會產生越來越多的初創企業應用關于“秤砣爸爸”說的兩個公司,我都不熟悉。僅就自己對生物大數據產業的理解,看看這個問題的走向,對這個問題說說我的看法:個人覺得,生物大數據的產業鏈條起碼分三個層次,其核心是大數據的收集、組織和存貯,這部分需要大量的資源,創新公司沒有能力在初期有這個實力,也就是只有華大這樣的“巨無霸”才行;外層應該是大量的應用層開發公司,現在這樣的小型公司越來越多,主要依賴自己熟悉的生物技術對市場提供服務,對象可以是科研單位、企業(如藥廠)或個人;中間層是生物信息云的生存空間,它需要提供上到數據中心,下到應用層的接口,實現數據層和應用層的控制分離(有點象MVC但不相同),實現數據分布計算和存貯的自動化,提供數據可視化接口。為什么產業的將來會是這個結構呢?1, 大數據的共享是趨勢。數據擁有量越大的公司其數據量增長會越快,(這是類比富人越富的無標度網絡的特性決定的,是自由市場條件下的公理),數據會被壟斷;而新生的數據公司除非有足夠多的資源來占有數據,在自有的數據資源上建立起大數據應用是不可能的。但是,由于數據中的價值一旦被解讀大數據的這部分價值就失效,所以大數據的擁有者(大企業或政府),為了實現在競爭中早日兌現價值,必然會盡快數據共享,提供給新的創新小公司。數據孤島會因為競爭而逐漸消失。2, 單一公司的包含所有全部數據流水線的生產方式落后于時代。現在無論是華大還是到小的服務公司,應該都是把IT應用從HPC或共有云上虛擬機上從頭開發,分布和平行與業務邏輯沒有完全實現隔離,由于大數據分布并行和生物信息的學科特點差異較大,在各方面方法日新月異的今天,人員培訓和維護開發成本會越來越高。由上面兩點看,產業鏈會逐漸層次化。生物信息云是在夾縫中生存的,其是否能成功的關鍵是對外API的設計,符合生物數據的特點,不是簡單的鍵值對結構能描述以序列為代表的生物數據,這樣的技術背景,應該只有以大數據背景
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年中國家用光子脫毛機器行業市場全景分析及前景機遇研判報告
- 中國汽車排氣喉行業市場發展前景及發展趨勢與投資戰略研究報告(2024-2030)
- 2025年中國新疆區物業管理行業市場全景監測及投資策略研究報告
- 2025年中國便利店行業現狀分析及贏利性研究預測報告
- 2025年中國經緯儀及視距儀市場供需格局及未來發展趨勢報告
- 2025年中國刀具磨床行業市場深度分析及投資潛力預測報告
- 2025年 湖北武漢經濟技術開發區招聘教師考試試題附答案
- 2025年 廣西醫科大學第二附屬醫院招聘考試筆試試題附答案
- 2025年 德宏州芒市“鵲橋計劃”暨市外選優調入教師考試試題附答案
- XX河中段綜合治理工程可行性研究報告-圖文
- 公司欠款清賬協議書
- 醫院培訓課件:《十八項核心醫療制度解讀》
- 七年級英語下冊 Unit 1 Can you play the guitar教學設計 (新版)人教新目標版
- 35千伏電力工程監理實施細則
- 以DeepSeek為代表的AI在能源行業的應用前景預測
- 物業電梯管理制度及規范
- 《錢學森》介紹課件
- 智慧樹知到《中國近現代史綱要(哈爾濱工程大學)》2025章節測試附答案
- 單層泄爆屋面安裝施工方案
- LY/T 3408-2024林下經濟術語
- 果蔬類營養知識培訓課件
評論
0/150
提交評論