




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
在線測試:數據采集1.單選題(分值:3分)在確定需要采集的數據之前必須先確定通過數據擬解決的問題(A)。A、正確B、錯誤2.單選題(分值:3分)企業業務系統數據都是使用傳統的關系型數據庫來存儲的(B)。A、正確B、錯誤3.單選題(分值:3分)網絡爬蟲是利用數據挖掘技術將非結構化數據從網頁中抽取出來,按照一定的規則和排列格式將數據進行分類處理,并存儲成一系列具有統一格式的結構化數據文件(A)。A、正確B、錯誤4.單選題(分值:3分)使用網絡爬蟲爬取數據時,只受技術限制,只要技術達到了,任何數據都可爬取(B)。A、正確B、錯誤5.單選題(分值:3分)通過第三方統計平臺采集某網站的數據只能是前端數據(B)。A、正確B、錯誤6.單選題(分值:3分)智能健康手環的應用開發,體現了(A)的數據采集技術的應用。A、傳感器 B、網絡爬蟲 C、API接口 D、統計報表7.單選題(分值:3分)下列數據來源不屬于一手數據的是(D)。A.調查收集B.科學實驗C.業務系統直接生成D.從國家統計部門獲取8.多選題(分值:3分)大數據采集的主要數據來源(ABCD)A、互聯網數據B、日志文件C、企業業務系統數據。D、傳感器數據。9.多選題(分值:3分)下列關于互聯網數據特點的描述正確的有(ABC)。A.表現為雜亂特點 B.數據類型多C.互聯網各平臺后臺一般都具有數據統計功能D.互聯網數據沒有多少價值10.多選題(分值:3分)使用八爪魚采集器采集數據具有以下特點(ABCD)A.可以對指定元素進行采集 B.采集過程可以觀察網頁和預覽數據變化來驗證采集設置是否正確C.可以對采集中的流程步驟進行修改D.采集過程不需要編寫任何代碼在線測試:數據質量評估1單選題(分值:3分)數據采集階段引起數據質量問題的因素主要有兩點:數據來源和采集方法(A)。A、正確B、錯誤2單選題(分值:3分)原始數據的數據質量不一,但是有一些因素會影響數據的質量,比如信息因素、技術因素、流程因素以及實踐因素。(B)A、正確B、錯誤3單選題(分值:3分)某位員工在儲存數據時,將郵箱字段的值記錄為179864378@126,這違反了數據質量的(B)A、完整性 B、一致性 C、準確性 D、及時性4單選題(分值:3分)(C)是數據質量最為基礎的一項評估標準。A、數據一致性B、數據準確性C、數據完整性D、數據及時性5單選題(分值:3分)相比依賴于小數據和精確性的時代,大數據因為更強調數據的(),幫助我們進一步接近事實的真相。(D)A、安全性B、完整性C、混雜性D、完整性和混雜性6.多選題(分值:3分)下列描述中表示會產生冗余數據的是(AB)。A.某數據集的變量名稱為“用戶編碼”而在另一個數據集中為“ID”B.數據集中某兩個變量之間存在相關或推導關系C.某數據集中的商品價格以“元”為單位,另一個數據集中卻為“萬元”D.某數據集的規范是“3位”,而另一個數據集中的要求位“5位”7.多選題(分值:3分)數據質量是保證數據應用的基礎,數據質量評估標準主要有(ABCD)。A.數據準確性 B.數據完整性C.數據一致性 D.數據及時性8.多選題(分值:3分)數據的可信性由以下因素決定(ABC)。A.數據來源的權威性B.數據的規范性C.數據產生的時間D.數據沒有缺失或異常數據9.多選題(分值:3分)數據預處理的主要任務主要包括(ABCD)。A.數據清洗B.數據集成C.數據變換D.數據歸約10.多選題(分值:3分)最常見的數據準確性錯誤有(ABCD)。A.異常的大或小的數據。B.亂碼數據。C.偏離期望值的孤立點數據D.數量級數據錯誤。在線測試:數據清洗1.單選題(分值:3分)數據庫表中有一個屬性值相同的記錄就被認為是重復的記錄(B)A、正確B、錯誤2.單選題(分值:3分)在Excel中可以使用哪一快捷鍵來定位空值?(C)A、Ctrl+VB、Ctrl+EnterC、Ctrl+GD、Ctrl+F3.單選題(分值:3分)數據清洗的方法不包括(D)A、處理殘缺數據 B、處理噪聲數據C、處理冗余數據 D、一致性檢查4.單選題(分值:3分)下列哪一種方法可以用來處理缺失數據?(C)A、數據變換B、數據集成C、數據清洗D、數據排序5.多選題(分值:3分)如果缺失字段的重要性較高,為了保證數據的準確性,往往會將數據進行補全,補全缺失值的方法有(ABC)。A、以同一指標的樣本統計量數據(均值、中位數、眾數等)填充B、以業務知識或經驗推測填充C、以不同指標的計算結果填充D、以簡單填充的方式將數據補全6.多選題(分值:3分)在數據清洗的開始階段我們一般需要做以下準備工作(ABC)。A.將數據導入處理工具。B.查看元數據,包括字段解釋、數據來源、代碼表等一切描述數據的信息。 C.抽取一部分數據,使用人工查看方式,對數據本身有一個直觀的了解,并且初步發現一些問題。D.先刪除一部分數據。7.多選題(分值:3分)數據缺失值常常表示為(ABD)。A.空值B.NaNC.NoneD.錯誤的標識符(#VALUE!)8.多選題(分值:3分)Excel數據重復值的清洗方法通常有(ABCD)。A.通過“數據”菜單刪除重復數據B.用VLOOKUP函數快速查詢刪除重復值C.用COUNTIF函數簡單查詢刪除重復值D.用條件格式快速核對刪除重復值9.多選題(分值:3分)Excel數據操作中發現異常值的幾種方法(ABD)。A.通過篩選法發現數據異常值B.通過常識統計分析方法發現數據異常值C.通過“數據”菜單中異常值按鈕發現異常D.通過箱線圖檢測異常值10.多選題(分值:3分)在缺失數據清洗過程中,如果缺失字段的重要性高,缺失率高,采用的策略有(ABC)。A.嘗試從其他渠道取數補全B.去除記錄,并在結果中標明C.使用其它字段通過計算獲取D.不做處理或簡單填充在線測試:數據集成、變換和歸約1.單選題(分值:3分)數據集成核心任務是將互相關聯的分布式異構數據源集成到一起,減少結果數據集中冗余和不一致問題,提高后面數據挖掘過程的準確性和速度。(A)A、正確B、錯誤2.單選題(分值:3分)在數據變換中,聚集法和聚類法都是對數據進行匯總和集中(B)A、正確B、錯誤3.單選題(分值:3分)數據歸約技術可以用來得到數據集的歸約表示,一般歸約后的數據集比原數據集大得多。(B)。A、正確B、錯誤4.單選題(分值:3分)以下哪一種屬于數據概化(D)A、根據半徑屬性計算出圓的周長及面積屬性B、根據產品評估得分劃分產品品質C、將“××年××月××日”的日期轉換為“××/××/××”,D、根據出生日期的屬性抽象為為80后、90后、00后等5.單選題(分值:3分)經過一系列處理,在基本保持原始數據完整性的基礎上,減少數據規模的是(C)?A、數據清洗B、數據融合C、數據規約D、數據挖掘6.單選題(分值:3分)數據歸約中屬性子集選擇的目標是找出最小屬性集,使數據類的概率分布盡可能地接近使用所有屬性的原分布。(A)A、正確B、錯誤7.多選題(分值:3分)數據規范化的主要作用(AC)A、去掉量綱,使指標之間具有可比性B、使數據整齊排列C、將數據限制到一定區間,使運算更為便捷D、使數據統一到某一單位8.多選題(分值:3分)數據歸約的策略包括以下幾種(ABCD)。A.數據立方體聚集B.屬性子集選擇 C.數據壓縮 D.數值歸約9.
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 初中生參與社團活動經費監管的困境與對策分析論文
- 高中數學教學中學生推理能力培養的案例教學策略研究論文
- 藝術生宿舍管理制度
- 蘇州商品房管理制度
- 茶坊市衛生管理制度
- 飾品店員工管理制度
- 讀寫結合 提高能力──《火燒云》教學案例(13篇)
- 財務會計基礎編制方法
- 財會經濟-高級經濟師-旅游經濟-14-強化練習題-強化練習題五
- 設計公司管理制度
- 競選車間班長的演講稿
- 校園欺凌事件調解協議書
- 麗思卡爾頓酒店介紹
- 藥物過敏性休克急救護理課件
- 國企物流公司筆試題庫答案
- 重癥醫學科的建設與管理指南(2023版)
- 甘肅省的自然災害分析報告
- 社區獲得性肺炎護理查房
- 管理者自我執行力提升的兩大抓手-課后測試及答案
- 塵肺病的運動康復計劃
- 守株待兔-幼兒成語故事
評論
0/150
提交評論