數據采集與處理 課件 任務1 認知數據與信息_第1頁
數據采集與處理 課件 任務1 認知數據與信息_第2頁
數據采集與處理 課件 任務1 認知數據與信息_第3頁
數據采集與處理 課件 任務1 認知數據與信息_第4頁
數據采集與處理 課件 任務1 認知數據與信息_第5頁
已閱讀5頁,還剩34頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

項目一數據采集與處理認知任務一認識數據與信息網商的手機預約數真的可信嗎?數據是一個很枯燥的東西嗎?數字數據=應用在日常生活的各個領域我們很多時候都在和數據打交道一、認識數據(一)什么是數據豆瓣評分天氣預報例如,我們去電影院看電影前喜歡先看網上的評分(見圖1-2),購買商品時將各個平臺的價格進行對比,查看旅行攻略中涉及的各種路線所需的時間和花費,每天都很關注天氣預報(見圖1-3)等。因此,我們大多數人都對數據產生過興趣,又在日常生活中接觸過數據,怎么能說數據是枯燥的呢?數據:對客觀事件進行記錄并可以鑒別的符號,是對客觀事物的性質、狀態以及相互關系等進行記載的物理符號或這些物理符號的組合。

它不僅指狹義上的數字,還可以是具有一定意義的文字、字母、數字符號的組合、圖形、圖像、視頻、音頻等,例如,“0、1、2...”“陰、雨、下降、氣溫”“學生的檔案記錄”等都是數據。

也就是說數據不是單純地指各種Excel表格和數據庫,圖書、圖片、視頻、報表、短信等也屬于數據的范疇,如通過搜索引擎所做的圖片識別、音頻識別等都是數據的表現形式。數據使問題更加客觀和準確數據能夠給我們更多的反饋信息數據能讓我們的觀點更有吸引力數據的作用例如:《價值3000元和價值30000元文案的區別》例如:教育機構分析學生成績,制定輔導計劃例如:溫度的高低、每月工資8000元是高是低(二)什么是商務數據商務數據:主要指記載商業、經濟等活動領域的數據符號。在電子商務領域,商務數據可以分為兩大類:前端行為數據和后端商業數據。

前端行為數據:是指訪問量、瀏覽量、點擊流及站內搜索等反應用戶行為的數據;

后端商業數據:更側重于商業數據,如交易量、投資回報率及全生命周期管理等。(三)什么是數據庫數據庫:簡單地說,數據庫是結構化數據的集合。嚴格地講,數據庫是長期儲存在計算機內、有組織的、可共享的大量數據的集合。數據庫中的數據按照一定的組織、描述和儲存,具有較小的冗余度、較高的數據獨立性和易擴展性,并可為各種用戶共享。基本特征:(四)數據的計量尺度

數據采集與處理離不開數據,數據也是數據采集與處理的結果。

數據計量是指根據規則,對人或事物的數據特征進行的分類、標識和計算。數據計量一般分為四個層次或四種計量尺度。(四)數據的計量尺度1.定類尺度

定類尺度也稱類別尺度,是將數據采集對象分類,標以各種名稱確定其類別的方法,實質上是一種分類體系。

定類尺度可以用文字來表示,也可以用數值來表示,但數值本身沒有實質性意義,僅是一種符號,目的是為了區分不同的類別,而且只具有等于(=)或不等于(≠)的數學特性。定類尺度等級最低,只是給不同類別起個名稱。常見的定類數據有:國家、戶口、性別、民族、婚姻狀況、職業等變量特征的計量。(四)數據的計量尺度2.定序尺度定序尺度也稱順序尺度,是指對計量對象的屬性和特征的類別進行鑒別并能比較類別大小順序的一種計量方法。例如,人們的生活水平有貧困、溫飽、小康、富裕,這是一種由低到高的等級排列;再如城市有特大城市、大城市、中等城市、小城市,這是一種由大到小的排列;教師的職稱有講師=1、副教授=2、教授=3等。常見的定序數據有:教育程度、服務評級、比賽名次。(四)數據的計量尺度3.定距尺度定距尺度是一種不僅能將變量(社會現象)區分類別和等級,而且可以確定變量之間的數量差別和間隔距離的方法。例如我們對A(33℃)、B(30℃)、C(37℃)三人的體溫(Unit:℃)進行統計,可得到這三人的體溫依次為:33℃、30℃、37℃。我們將A和B的體溫相減33-30=3,則可知A比B的體溫高3℃。所以對于定距數據而言,其支持+、-運算,但是不可以進行×、÷運算。比如在本例中,我們將A、B的體溫相除33/30=1.1,我們不能說A的體溫比B體溫熱1.1倍。因為攝氏溫度中的0℃不表示絕對的零點,即沒有溫度,其只是一個人為定義的標準。所以對于定距數據而言,由于不存在絕對的零點,故對其進行×、÷運算是沒有任何意義的。在定距數據中,0值是作為比較的標準,而不是表示沒有。當然,其同樣亦支持=、≠、>、<運算。常見的定距數據有:攝氏溫度、華氏溫度、年份、緯度、經度、考試成績等。(四)數據的計量尺度定距尺度可以較方便地轉換為定序尺度,例如,若考查課的成績要以五級制成績表示,則需要將百分制分數轉換為五級制分數,一般百分制中的“60~70”對應五級制中的“及格”,其他分數以此類推。但需要注意的一點是,通常定序尺度數據不能轉換為定距尺度數據,如五級制分制不能轉換為百分制。(四)數據的計量尺度4.定比尺度定比尺度是能夠計量事物間比例、倍數關系的計量方法,通過對比計算,可以形成新的相對數,用以反映現象的構成、比重、速度、密度等數量關系。定比尺度是計量中的最高層次,含有前三個計量尺度的特征。定比尺度下的數據可以進行加減乘除運算,運算結果具有實在的意義。例如我們對A(50kg)、B(25kg)、C(10kg)三人的體重(Unit:kg)進行統計,可得到這三人的體重依次為:50kg、25kg、10kg。我們將A、B的體重相除50/25=2,這時我們就可以說A比B重2倍。原因在于體重數據是存在絕對的零點,顯然體重為0kg時表示的是沒有體重。所以對于定比數據而言,其之所以支持×、÷運算,是因為存在絕對的零點,即0值表示沒有。當然,其同樣亦支持=、≠、>、<、+、-運算。常見的定比數據有:體重、身高、體積等。(四)數據的計量尺度四種計量尺度的比較見表1-1-1:功能類別分類排序間距比值定類尺度

定序尺度

定距尺度定比尺度(五)數據的分類1.按照來源分類(1)原始數據

原始數據是通過直接數據采集獲得的數據,也是未經過處理或簡化的數據,稱為一手數據或直接的統計數據,如產品的出庫資料、數據采集問卷等。主要是通過訪談、詢問、問卷、測定等方式直截了當獲得的,通過收集一手數據可以解決特定問題。(2)次級數據

次級數據也稱二手數據,是已經經過別人的初步數據采集、加工和處理后的數據,有時也稱為間接的數據,如統計年鑒、文獻資料、統計報告等。與一手數據相比,二手數據具有取得迅速、成本低、易獲取等優點。當然,二手數據也存在相關性差、時效性差和可靠性低的缺點。(五)數據的分類2.按照數據來源的范圍分類(1)外部數據以互聯網企業為例,它的外部數據主要包括:社會人口數據:人口的概況、人口的分布、人口的素質、民族的構成等。宏觀經濟數據:生產總值、國民生產總收入、消費水平等。新聞輿論數據:新聞的廣告、輿論的監測等。市場調研數據:對渠道、廣告、產品及價格方面的調研數據。(2)內部數據內部數據包括用戶行為數據、服務端日志數據、客戶關系管理、數據和交易數據等。其中用戶行為數據是指用戶在網站的停留時間、跳出率、回訪次數及回訪率等。(五)數據的分類2.按照采用的計量尺度分類(1)定性數據定性數據也稱為品質數據,分為定類數據和定序數據。1)定類數據:是由定類尺度計量形成的數據,是數據的最低級,它表示個體在屬性上的特征與類別上的不同變量,僅僅是一種標志,沒有序次關系。2)定序數據:是由定序尺度計量得到的,表現為類別,但有順序,數據的中間級,用數字表示個體在某個有序狀態中所處的位置,不能做四則運算。(五)數據的分類2.按照采用的計量尺度分類(2)定量數據定量數據又稱數值數據,可分為定距數據和定比數據。1)定距數據:是由定距尺度計量得到的數據,具有間距特征的變量,它對事物能進行準確測度。定距數據表現為“數值”,有單位,可以加減運算,但不能做乘除。2)定比數據:是由定比尺度計量形成的數據,表現為數值,可以進行加、減、乘、除運算,沒有負數。數據的最高級,既有測量單位,也有絕對零點,例如職工人數,身高。一般來說,數據的等級越高,應用范圍越廣泛;等級越低,應用范圍越受限。(五)數據的分類四種數據類型的比較:數據類型測量結果測量精度計算方法信息數量定性數據定類數據A、B公司是國有企業是否是國企無A、B公司是國有企業定序數據A公司是大型企業B公司是中型企業規模的大與小無A、B公司是國有企業A公司比B公司規模大定量數據定距數據A公司創設于1963年B公司創設于2003年確定的企業年限加、減A、B公司是國有企業A公司比B公司規模大A公司比B公司早成立36年定比數據A公司成立60年B公司成立20年確定的企業年限加、減、乘、除A、B公司是國有企業A公司比B公司規模大A公司比B公司早成立36年A公司的成立年限是B公司年限的3倍(五)數據的分類3.按照規模分類(1)傳統數據傳統數據就是一般意義上的數據,是對客觀現象的屬性、特征進行分類、標示和計算等計量活動的結果。(2)大數據(五)數據的分類大數據:指的是所涉及的資料量規模巨大到無法通過目前主流的軟件工具,在合理時間內提取、存儲、搜索、共享、分析和處理的數據集合。

大數據的特征:Volume(大量)Velocity(高速)Variety(多樣)Value(價值)(五)數據的分類大數據的應用:大數據教育大數據交通大數據醫療大數據金融(五)數據的分類4.按照反映時間狀態分類(1)橫截面數據橫截面數據是指在同一時間(時期或時點)截面上反映一個數據采集對象的一批(或全部)個體的同一特征變量的觀測值,是樣本數據中的常見類型之一。例如,工業普查數據,人口普查數據,家庭收入調查數據。(2)時間數列數據時間數列數據是指按照時間順序排列的數據序列,它反映一系列時間上發生的狀態、過程、活動或者現象的數據。(五)數據的分類(五)數據的分類二維表結構,通過關系型數據庫存儲和管理字段可根據需要擴充,即字段數目不確定不方便用數據庫二維邏輯表來表現,包括所有格式的辦公文檔、文本、圖片、XML、HTML、各類報表、圖像和音頻/視頻信息等(五)數據的分類本月店內康師傅冰紅茶每天的銷售量今天店內康師傅冰紅茶、綠茶、茉莉蜜茶的銷售量本月店內康師傅冰紅茶、綠茶、茉莉蜜茶每天的銷售量(五)數據的分類智商分數100.5、100.6。。。班級個數、學生人數。。。(六)數據集數據集(Dataset):是一個數據的集合,通常以表格形式出現。

每一列代表一個特定變量。每一行都對應于某一成員的數據集的問題。二、認知信息1.信息信息:是指用語言、文字、符號、情景、圖像、聲音等所表示的具體內容統稱為信息。信息有以下兩點內涵:1)信息是向人們或機器提供關于現實世界新的事實的知識,是數據、消息中所包含的意義。2)信息是對客觀世界中各種事物的運動狀態和變化的反映,是客觀事物之間相互聯系和相互作用的表征,表現的是客觀事物運動狀態和變化的實質內容。(一)什么是信息2.信息的載體形式信息的載體形式:文字、圖像、圖形、聲音、符號、動畫、視頻等。3.信息的特征信息有如下幾個特征:傳遞性、共享性、依附性、可處理性、價值相對性、時效性和真偽性。(二)數據與信息有一句話是這么說的“數據是爆炸了,信息卻很貧乏”,那么數據與信息之間到底有什么關系呢?(二)數據與信息1.關系數據和信息是相互聯系的概念,數據是信息的具體表現形式,而信息是數據的內涵。數據是反映客觀事物屬性的記錄,如文字、數字、圖形和曲線等,這些數據本身沒有意義,只有當它們被解釋、運用或解算時,才能成為信息。信息是數據經過加工處理后得到的,如報表、賬冊和圖紙等,信息被用來反映客觀事物的規律,從而為管理工作提供依據。(二)數據與信息數據和信息可以相互轉化。例如,昨天的銷售情況是數據,而明天可能的銷售情況實際上就是信息,如果我們把過去一年的銷售情況收集起來進行加工,就又會得到長期變化規律的新信息。數據和信息是無法割裂開的,數據對人類真正的用途是加工出不同的信息,這也能使我們更好的認識事物,得到正確的信息更能幫助我們做出正確的決策。(

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論