大數(shù)據(jù)技術(shù)之一數(shù)據(jù)標識_第1頁
大數(shù)據(jù)技術(shù)之一數(shù)據(jù)標識_第2頁
大數(shù)據(jù)技術(shù)之一數(shù)據(jù)標識_第3頁
大數(shù)據(jù)技術(shù)之一數(shù)據(jù)標識_第4頁
大數(shù)據(jù)技術(shù)之一數(shù)據(jù)標識_第5頁
免費預覽已結(jié)束,剩余1頁可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

1、    大數(shù)據(jù)技術(shù)之一“數(shù)據(jù)標識”    徐立水+殷亮摘 要:dt時代,最重要的是“大數(shù)據(jù)”。目前,大數(shù)據(jù)開發(fā)和應用正如火如荼地開展,然而真正實現(xiàn)落地的項目并不多見。大數(shù)據(jù)現(xiàn)在只呈現(xiàn)的是一個研究熱點,迫切需要一種技術(shù)實現(xiàn)大數(shù)據(jù)精準開發(fā)應用。該文通過導入大數(shù)據(jù)概念,解釋大數(shù)據(jù)包含的二元概念,分析“大統(tǒng)計”與“大數(shù)據(jù)”的區(qū)別,引出大數(shù)據(jù)技術(shù)之一“數(shù)據(jù)標識”方法與應用,用以標識人類行為數(shù)據(jù)和醫(yī)學大數(shù)據(jù)開發(fā)應用的方法,文章進一步闡明“數(shù)據(jù)標識”的科學性和準確性,為大數(shù)據(jù)開發(fā)應用指引道路。大數(shù)據(jù)是人類行為軌跡生產(chǎn)出來的數(shù)據(jù)資源,大數(shù)據(jù)是關于人的研究,由于物理人體的

2、邊界清晰,醫(yī)學大數(shù)據(jù)應用或?qū)⒃缬谌祟愋袨閿?shù)據(jù)應用的成功,未來的人工智能離人們不再遙遠。關鍵詞:大數(shù)據(jù) 大數(shù)據(jù)技術(shù) 醫(yī)學大數(shù)據(jù) 數(shù)據(jù)標識 精準營銷:tp39 :a :1672-3791(2016)09(a)-0011-02大數(shù)據(jù)1一定是人類進入dt時代的關鍵技術(shù),也將是人類實現(xiàn)人工智能的關鍵技術(shù)。自大數(shù)據(jù)概念1提出以來,大數(shù)據(jù)的重要性和大數(shù)據(jù)的開發(fā)與使用已經(jīng)得到各國政府、各界人士的高度重視2-3。大數(shù)據(jù)研究也方興未艾、如火如荼地開展起來。如何開發(fā)好和利用好大數(shù)據(jù)是擺在所有人面前的一個非常急迫和現(xiàn)實的問題,筆者在醫(yī)科院信息所工作中有一些思考,也發(fā)表過一些論文闡述自己的觀點,其中互聯(lián)網(wǎng)醫(yī)學的未來:數(shù)

3、據(jù)醫(yī)學指出的是醫(yī)學大數(shù)據(jù)應用的未來及方向,大數(shù)據(jù)及其應用前景研究論述的是大數(shù)據(jù)的二元概念及更適合的應用方向;筆者認為大數(shù)據(jù)是個二元概念,一個是大量的數(shù)據(jù),一個是大數(shù)據(jù)技術(shù),文中除了特別強調(diào)外,寫到的大數(shù)據(jù)都是包含以上二元概念。1 大數(shù)據(jù)開發(fā)應用需要一項新技術(shù)目前大數(shù)據(jù)應用還處在啟蒙和探索階段,能夠成功落地的項目不多。大數(shù)據(jù)是一種以數(shù)據(jù)為資源的高科技,數(shù)據(jù)在大數(shù)據(jù)中的地位相當重要,其一,擁有資源數(shù)據(jù)本身就是不容易做到的事情;其二,擁有資源數(shù)據(jù)還要有使用數(shù)據(jù)的想法、數(shù)據(jù)目標和數(shù)據(jù)技術(shù)。能夠擁有以上所述中的一點已經(jīng)很難了,大數(shù)據(jù)項目落地則需要擁有以上兩點,這可能也是大數(shù)據(jù)項目目前落地少的原因。需要第

4、一點大數(shù)據(jù)資源數(shù)據(jù)的各單位有其各自的解決辦法,這里不討論獲得數(shù)據(jù)的方法,只談談第二點中大數(shù)據(jù)準確應用的一些方法。大數(shù)據(jù)是人類發(fā)展的第五個階段,第一個階段:農(nóng)耕時代;第二個階段:工業(yè)時代;第三個階段:電汽時代;第四個階段:it時代;第五個階段:dt時代;第六個階段:ai時代-人工智能。梳理一下人類發(fā)展的進程可以看出,人類的發(fā)展是由人力的簡單粗放開始,逐漸發(fā)展為機器代替體力,精細的電汽文明逐漸代替簡單粗放工作,解放了人類的雙手,隨后計算機的發(fā)展代替了人腦部分功能,人類進入了it時代。簡單看以上人類發(fā)展進程:人類科技的發(fā)展是由簡單粗放到精細準確,由機器代替人工的進程。進入dt時代的大數(shù)據(jù)技術(shù)應該是更

5、精確、更高級的技術(shù),數(shù)字是最精準的表達方式,數(shù)字集合出來的數(shù)據(jù)也應該是最精準的表達方式,事實上不是這樣簡單。由大量數(shù)字或是數(shù)據(jù)進行運算,可以得到精確結(jié)果的方法是統(tǒng)計學,應該叫做大統(tǒng)計比較好,不是大數(shù)據(jù)。2 大數(shù)據(jù)精準使用需要“數(shù)據(jù)標識”2.1 “數(shù)據(jù)標識”的原理和方法人類科技發(fā)展是向著更精準、更智能化的方向發(fā)展,dt時代的大數(shù)據(jù)是可以滿足人類更精準和更智能化的需求。前面提到目前大數(shù)據(jù)落地項目少,尤其能夠產(chǎn)生價值的項目少,歸納為不能很好地使用大數(shù)據(jù)是相當重要的原因,大數(shù)據(jù)是數(shù)據(jù)在模型中準確應用的科學技術(shù)。好的模型制作相當重要,但數(shù)據(jù)的理解也非常重要。理解好大數(shù)據(jù)中的數(shù)據(jù)才能很好地使用數(shù)據(jù),才能做

6、好大數(shù)據(jù)。在大數(shù)據(jù)及其應用前景研究中筆者寫到過數(shù)據(jù)的理解是每個人的知識水平?jīng)Q定的。理解好大數(shù)據(jù)的數(shù)據(jù)還要掌握如何使用數(shù)據(jù)的技術(shù),這種使用數(shù)據(jù)的技術(shù)是需要把數(shù)據(jù)精準地放入大數(shù)據(jù)模型上在計算機中運行,輸入精準數(shù)據(jù)才能有精準運算結(jié)果,做到數(shù)據(jù)精準使用必須學會“數(shù)據(jù)標識”。“數(shù)據(jù)標識”是筆者在做醫(yī)信天下醫(yī)學大數(shù)據(jù)醫(yī)院排行榜的思考和心得,這里同大家分享和探討?!皵?shù)據(jù)標識”的方法是筆者在中國醫(yī)學科學院醫(yī)學信息所做醫(yī)學數(shù)據(jù)庫工作方法的延伸。查閱資料沒有查到有關如何做好“數(shù)據(jù)標識”的文獻。先介紹一下初期醫(yī)學數(shù)據(jù)庫建設的方法,這樣可能有助于更好地理解“數(shù)據(jù)標識”原理、概念、依據(jù)和使用方法。人類社會發(fā)展產(chǎn)生了大量

7、文獻,同樣醫(yī)學也產(chǎn)生了大量文獻。在沒有廣泛使用計算機搜索以前,如何讓學者快速查到需要的文獻,需要對每一篇文章進行文獻標引4,標引方法是人工給每篇文章加上醫(yī)學主題詞,現(xiàn)在每篇論文由作者寫好關鍵詞,醫(yī)學上叫做主題詞。論文屬性除了作者、題目、作品時間、作者單位不能改變之外,按照主題詞查找更加重要,主題詞是相同專業(yè)、甚至相同疾病、相同藥物的精準查找。所以文獻的標引在醫(yī)學數(shù)據(jù)庫建設中非常重要,也是文獻精準查找的重要方法。再來看看醫(yī)學數(shù)據(jù)庫,按照文章作者、作者單位、題目、作品時間、發(fā)布媒體、關鍵詞、被引、摘要等構(gòu)成,這些構(gòu)成要素組成一個模型,數(shù)據(jù)庫中有大量的論文、題目、關鍵詞、作者等,所以說數(shù)據(jù)庫結(jié)構(gòu)是模

8、型結(jié)構(gòu),內(nèi)容是大數(shù)據(jù),精準使用好數(shù)據(jù)庫方法是關鍵詞,也就是前面提到的文獻標引,用在使用好大數(shù)據(jù)上就需要做好大數(shù)據(jù)的“數(shù)據(jù)標識”。2.2 “數(shù)據(jù)標識”是精準營銷成功的關鍵“數(shù)據(jù)標識”需要對標識目標數(shù)據(jù)有深入理解。以大數(shù)據(jù)精準營銷解決方案為例,大數(shù)據(jù)精準營銷是顧客的心理行為軌跡需求和商品屬性碰撞產(chǎn)生的購買行為,如何做到精準營銷5,首先需要不斷標識顧客行為軌跡,年齡、性別、職業(yè)、消費能力、旅居地、飲食愛好、飲食時間.等等,在即將進入餐飲時間向該顧客推薦餐館,餐館數(shù)據(jù)標識為菜系、特點、名菜、點評、環(huán)境等,按照餐館標識和預判顧客行為軌跡,把數(shù)據(jù)標識中共性按照概率大的部分結(jié)合地理位置逐漸推薦給顧客。餐館、

9、商品、衣服的大數(shù)據(jù)精準營銷方法一致。精準營銷的準確性關鍵取決于預判顧客行為的數(shù)據(jù)標識的準確性和商品屬性的數(shù)據(jù)標識的共鳴。 大數(shù)據(jù)研究剛剛開始,精準的大數(shù)據(jù)應用必須要有精準的數(shù)據(jù)標識。目前在精準營銷領域使用比較頻繁的詞是給客戶畫像,畫像方法讓人感覺是一種模糊的,猜測性比較大的技術(shù)。描述一個商品屬性時習慣使用標簽標識商品。精準營銷是人的行為軌跡碰撞到商品中相同屬性數(shù)據(jù)產(chǎn)生的購買,數(shù)據(jù)標識的準確性決定了精準營銷的準確。人的行為軌跡數(shù)據(jù)也是未來人工智能解決方案中非常重要的數(shù)據(jù),精確的數(shù)據(jù)需要準確地標識數(shù)據(jù)。商品營銷也是網(wǎng)絡大數(shù)據(jù)解決方案的一部分,商品的準確描述和精準數(shù)據(jù)標識,將會決定商品營銷的成功與否

10、。2.3 醫(yī)學大數(shù)據(jù)的“數(shù)據(jù)標識”更容易實現(xiàn)作為醫(yī)生,醫(yī)學大數(shù)據(jù)的開發(fā)和使用一直是筆者研究的課題,醫(yī)學大數(shù)據(jù)的精準應用可以預判人體健康并進行疾病預防6。相對于人類行為數(shù)據(jù),醫(yī)學大數(shù)據(jù)的數(shù)據(jù)標識相對容易,醫(yī)學大數(shù)據(jù)應用成功可能會早于人類行為數(shù)據(jù)的應用,理由有以下3條。(1)醫(yī)學大數(shù)據(jù)是關于人類物理實體的大數(shù)據(jù),人體是一個相對固定物理實體,數(shù)據(jù)邊界清晰,數(shù)據(jù)外延有限。(2)醫(yī)學大數(shù)據(jù)表達的是人體生理活動和健康指標,這些數(shù)據(jù)的內(nèi)涵只有醫(yī)生能夠理解,非醫(yī)學專業(yè)人士不能很好地理解醫(yī)學大數(shù)據(jù)的內(nèi)涵,非醫(yī)學專業(yè)人士很難準確分析醫(yī)學大數(shù)據(jù),也很難標識醫(yī)學數(shù)據(jù),這是醫(yī)學數(shù)據(jù)的專業(yè)性和數(shù)據(jù)圍墻阻擋了非醫(yī)學專業(yè)人士

11、對醫(yī)學大數(shù)據(jù)的研究。(3)醫(yī)學大數(shù)據(jù)中醫(yī)學數(shù)據(jù)標識需要醫(yī)生的參與,目前能夠做數(shù)據(jù)標識的醫(yī)生需要培養(yǎng),筆者正在做這個方面的工作,筆者是第一個提出建立互聯(lián)網(wǎng)醫(yī)學標準的學者,互聯(lián)網(wǎng)醫(yī)學標準中有一部分工作是做數(shù)據(jù)標識。3 結(jié)語做好大數(shù)據(jù)應用需要各方努力,探索方法落地項目?!皵?shù)據(jù)標識”技術(shù)的核心是用數(shù)據(jù)來標識數(shù)據(jù),讓計算機可以分辨不同環(huán)境下產(chǎn)生的外表相同的數(shù)據(jù)中包含的不同信息,真正做到大數(shù)據(jù)的精準應用。大數(shù)據(jù)是人類活動中生產(chǎn)出來的重要資源,反映的是人類生活活動和人類生理健康狀態(tài),因此大數(shù)據(jù)也是研究人的技術(shù),研究好大數(shù)據(jù),人工智能就離人類很近了。參考文獻1 徐立水,辛敏.大數(shù)據(jù)及其應用前景研究j.企業(yè)科技與發(fā)展,2016(6):21-23.2 王忠.美國推動大數(shù)據(jù)技術(shù)發(fā)展的戰(zhàn)略價值及啟示j.中國發(fā)展觀察,2012(6):44-4

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論